題目簡介
筆者個人的畢業(yè)設(shè)計課題如下:
簡介:使用預(yù)訓(xùn)練的Diffusion Model圖像生成模型生成圖像,將這些生成的圖像作為擴(kuò)充訓(xùn)練集加入到2D目標(biāo)檢測器、2D圖像分類器的訓(xùn)練過程。深度學(xué)習(xí)是數(shù)據(jù)驅(qū)動的,隨著數(shù)據(jù)量的擴(kuò)充,能夠提高檢測器、分類器的魯棒性、準(zhǔn)確性。
建議的baseline:
分類:ResNet
檢測:YOLO
可以看到,給的題目難度還是比較輕松的;本次畢設(shè)的全過程會以周為單位采用博客的形式記錄下來。
什么是數(shù)據(jù)增強(qiáng)
對機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí)有一定了解的朋友都會聽過類似的說法【DL的首要驅(qū)動力是數(shù)據(jù)】。
也即不管是CV還是NLP,所有的深度學(xué)習(xí)方法都因其原理從而對數(shù)據(jù)有著強(qiáng)依賴性,按照筆者個人跑過的模型來看,數(shù)據(jù)本身的多少和好壞很多時候基本直接決定結(jié)果的好壞;在模型上提出方法和改進(jìn)固然重要,但是大數(shù)據(jù)訓(xùn)練權(quán)值的神經(jīng)網(wǎng)絡(luò)思想決定了深度學(xué)習(xí)的模型一定對數(shù)據(jù)本身保有高要求。
此時另一個問題就會應(yīng)運(yùn)而生,假如在我們某項實際運(yùn)用的項目中,我們并沒有足夠的數(shù)據(jù)量支撐模型的訓(xùn)練該怎么辦?實際上,對于數(shù)據(jù)量來說,永遠(yuǎn)是不夠的;所謂多多益善在這里是再合適不過的形容。
那么我們需要某種方法擴(kuò)充數(shù)據(jù)量,但是對于深度學(xué)習(xí)來說,與其大費(fèi)周章的尋找新的數(shù)據(jù),不如充分利用已有的數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)。以圖片為例,由于數(shù)據(jù)化,對于算法來說,以下兩張圖片實際上是截然不同的樣本。
所以這里可以就可以理解什么是數(shù)據(jù)增強(qiáng),為什么需要數(shù)據(jù)增強(qiáng)。
數(shù)據(jù)增強(qiáng)有一些簡單常用的方法,礙于篇幅不在這里展開解釋
- 翻轉(zhuǎn)
- 旋轉(zhuǎn)
- 位移
- 裁剪
- 縮放
- 變形
- 噪聲
- 模糊
- 擦除
- 填充
這里補(bǔ)充一點,在21-22年間各大頂刊熱門的GAN對抗網(wǎng)絡(luò)在數(shù)據(jù)增強(qiáng)上也有廣泛應(yīng)用
數(shù)據(jù)增強(qiáng)的主要效果有如下三點
- 避免過擬合
- 提升模型魯棒性,降低模型對圖像的敏感度
- 增加訓(xùn)練數(shù)據(jù),提高模型泛化能力
在有些時候,數(shù)據(jù)增強(qiáng)同樣可以被稱作“上采樣”,這時的上采樣指的是針對數(shù)據(jù)集整體而言。
什么是Diffusion Model
Diffusion model是Encoder-Decoder架構(gòu)的生成模型,分為擴(kuò)散階段和逆擴(kuò)散階段。 在擴(kuò)散階段,通過不斷對原始數(shù)據(jù)添加噪聲,使數(shù)據(jù)從原始分布變?yōu)槲覀兤谕姆植?,例如通過不斷添加高斯噪聲將原始數(shù)據(jù)分布變?yōu)檎龖B(tài)分布。 在逆擴(kuò)散階段,使用神經(jīng)網(wǎng)絡(luò)將數(shù)據(jù)從正態(tài)分布恢復(fù)到原始數(shù)據(jù)分布。 它的優(yōu)點是正態(tài)分布上的每個點都是真實數(shù)據(jù)的映射,模型具有更好的可解釋性。 缺點是迭代采樣速度慢,導(dǎo)致模型訓(xùn)練和預(yù)測效率低。
上面展示的就是Diffusion Model的一些應(yīng)用方面。事實上,從15年提出到現(xiàn)在,Diffusion Model的進(jìn)展已經(jīng)又不少了,那么如何將其應(yīng)用在數(shù)據(jù)增強(qiáng)上呢?
讓我們回到Diffusion Model本身來,Diffusion Model (擴(kuò)散模型) 是一類生成模型, 和 VAE (Variational Autoencoder, 變分自動編碼器), GAN (Generative Adversarial Network, 生成對抗網(wǎng)絡(luò)) 等生成網(wǎng)絡(luò)不同的是, 擴(kuò)散模型在前向階段對圖像逐步施加噪聲, 直至圖像被破壞變成完全的高斯噪聲, 然后在逆向階段學(xué)習(xí)從高斯噪聲還原為原始圖像的過程。
具體來說, 前向階段在原始圖像 x0上逐步增加噪聲, 每一步得到的圖像 xt只和上一步的結(jié)果 xt-1相關(guān), 直至第t步的圖像xt變?yōu)榧兏咚乖肼? 前向階段圖示如下:
而逆向階段則是不斷去除噪聲的過程, 首先給定高斯噪聲xt通過逐步去噪, 直至最終將原圖像x0給恢復(fù)出來, 逆向階段圖示如下:
模型訓(xùn)練完成后, 只要給定高斯隨機(jī)噪聲, 就可以生成一張從未見過的圖像?;诖危覀兛梢杂肈iffusion Model的方法進(jìn)行數(shù)據(jù)增強(qiáng)。
這部分的數(shù)學(xué)推導(dǎo)比較繁雜,筆者因為個人原因暫時沒有辦法在這里展開推到,后續(xù)會進(jìn)行相關(guān)內(nèi)容的補(bǔ)全,這里推薦一篇同站博客,在筆者閱讀論文時該篇論文清晰的論述給與了本人極大的幫助。
https://blog.csdn.net/sunningzhzh/article/details/125118688
簡單談?wù)剏olo和ResNet
題目的要求中有提到可以分別使用擴(kuò)散模型對圖像的分類和檢測任務(wù)各自進(jìn)行數(shù)據(jù)增強(qiáng)來進(jìn)行效果的對比。
而這兩者都是老熟人了,本篇博客就不花大篇幅進(jìn)行從頭到尾的介紹。
yolo
首先是yolo,yolo是圖像的目標(biāo)檢測算法模型,目標(biāo)檢測,也叫目標(biāo)提取,是一種基于目標(biāo)幾何和統(tǒng)計特征的圖像分割。它將目標(biāo)的分割和識別合二為一,其準(zhǔn)確性和實時性是整個系統(tǒng)的一項重要能力。目標(biāo)檢測不僅要用算法判斷圖片中物品的分類, 還要在圖片中標(biāo)記出它的位置, 用邊框或紅色方框把物品圈起來, 這就是目標(biāo)檢測問題,如下圖所示
yolo則是目標(biāo)檢測中singlestage類型的泰山北斗,從v1問世后經(jīng)過版本的迭代改進(jìn),在算法的運(yùn)行速度上已經(jīng)是二維目標(biāo)檢測中最快的一批了;也正是印證了它的名稱那樣,你只需要看一眼;充分發(fā)揮了單階段算法丟棄精修階段而輕便的優(yōu)勢,而現(xiàn)版本的yolo本身也具有極好的工業(yè)集成性;本身已經(jīng)具備了大量的完善方法。
上圖展示的是經(jīng)典的v1結(jié)構(gòu)
上圖展示的是較新的v5版本s形的網(wǎng)絡(luò)結(jié)構(gòu)。
ResNet
接著是更入門的ResNet,先來簡單聊聊什么是圖像分類,最簡單的CV任務(wù)之一。圖像分類是計算機(jī)視覺中最基礎(chǔ)的一個任務(wù),也是幾乎所有的基準(zhǔn)模型進(jìn)行比較的任務(wù)。圖像分類顧名思義就是一個模式分類問題,它的目標(biāo)是將不同的圖像,劃分到不同的類別,實現(xiàn)最小的分類誤差。總體來說,對于單標(biāo)簽的圖像分類問題,它可以分為跨物種語義級別的圖像分類,子類細(xì)粒度圖像分類,以及實例級圖像分類三大類別,下圖就是一個簡單的圖像分類示例。
ResNet 網(wǎng)絡(luò)則是在 2015年 由微軟實驗室中的何凱明等人提出,獲當(dāng)年ImageNet競賽中分類任務(wù)第一名,目標(biāo)檢測第一名。獲得COCO數(shù)據(jù)集中目標(biāo)檢測第一名,圖像分割第一名,也是圖像分類任務(wù)的集大成者,從今天去看,也是某種程度上給圖像分類這個任務(wù)畫上了一個漂亮的終止符的模型。其精髓在于在當(dāng)時看來極深的網(wǎng)絡(luò)結(jié)構(gòu),殘差的應(yīng)用以解決梯度爆炸和dropout加速訓(xùn)練。
經(jīng)典的resnet網(wǎng)絡(luò)結(jié)構(gòu),相信也是很多人接觸CV時第一個學(xué)習(xí)的完整網(wǎng)絡(luò)結(jié)構(gòu)。文章來源:http://www.zghlxwxcb.cn/news/detail-466540.html
總結(jié)兼拆解
在上面簡要的介紹后,本次畢設(shè)的理論部分所需要具備的東西就已經(jīng)搭建完畢了;我們需要做的其實是很簡單的實驗對比,先跑通訓(xùn)練完Diffusion Model的模型,并在resnet和yolo中分別接上數(shù)據(jù)集讀取部分的接口,各兩次訓(xùn)練以上對比生成模型的精度,即可驗證本次畢設(shè)的題意。文章來源地址http://www.zghlxwxcb.cn/news/detail-466540.html
到了這里,關(guān)于基于Diffusion Model的數(shù)據(jù)增強(qiáng)方法應(yīng)用——畢業(yè)設(shè)計 其一的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!