目錄
監(jiān)督學(xué)習(xí) 與 無監(jiān)督學(xué)習(xí)
生成模型
自編碼器
從線性維度壓縮角度: 2D->1D
線性維度壓縮: 3D->2D
推廣線性維度壓縮
流形
自編碼器:流形數(shù)據(jù)的維度壓縮
全圖像空間
自然圖像流形
自編碼器的去噪效果
自編碼器的問題
圖像預(yù)測(cè) (“結(jié)構(gòu)化預(yù)測(cè)”)
顯式密度模型
RNN
PixelRNN [van der Oord et al. 2016]
PixelCNN?[van der Oord et al. 2016]
Variational Auto-Encoder ?(變分自編碼器 VAE)
變分自編碼器 VAE
VAE vs PixelRNN
?編輯
隱變量模型
VAE的“不溫順”:Intractability
Generative Adversarial Network ?(對(duì)抗生成網(wǎng)絡(luò) GAN)
訓(xùn)練判別器網(wǎng)絡(luò)預(yù)測(cè)圖像是否真實(shí)
GAN模型
模式崩潰(Mode Collapse)
Diffusion擴(kuò)散模型
AIGC
監(jiān)督學(xué)習(xí) 與 無監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)
數(shù)據(jù):(x, y) X是數(shù)據(jù),Y是標(biāo)簽
目標(biāo):學(xué)習(xí)一個(gè)從x到y(tǒng)的函數(shù)映射
樣例:分類、回歸、物體檢測(cè)、語義分割、描述
無監(jiān)督學(xué)習(xí)
數(shù)據(jù):(x) 只有數(shù)據(jù),沒有標(biāo)簽!
目標(biāo):從數(shù)據(jù)x中學(xué)習(xí)其固有的結(jié)構(gòu)信息
樣例:聚類、維度壓縮、表征學(xué)習(xí)、密度估計(jì)?
生成模型
定義:給定訓(xùn)練數(shù)據(jù),生成與訓(xùn)練數(shù)據(jù)服從相同分布的新樣本
PixelRNN/CNN較為常用
為什么需要生成模型?
實(shí)際應(yīng)用(圖像修復(fù),藝術(shù)生成等)
為下游任務(wù)(如分類)創(chuàng)造樣本做表征學(xué)習(xí)
生成樣本量極少的高維數(shù)據(jù)(物理、醫(yī)療圖像等)
模擬環(huán)境用于決策判斷(機(jī)器人、強(qiáng)化學(xué)習(xí)等)
自編碼器
自編碼器(Auto-Encoders):通過對(duì)編碼層限制維度(Dimensionallity)、強(qiáng)制稀疏(Sparsity)、加入噪聲(Denoising)等方法,來迫使模型學(xué)習(xí)數(shù)據(jù)的結(jié)構(gòu)化表征
??!缺乏采樣生成手段
簡(jiǎn)單來說就是:用無監(jiān)督方法來獲取無標(biāo)簽訓(xùn)練數(shù)據(jù)的低維表征
?z一般比x的維度小 為什么維度???
數(shù)據(jù)壓縮可以獲得“有意義的信息”
怎么做到?
訓(xùn)練完去掉解碼器
?
在有標(biāo)注的數(shù)據(jù)集上微調(diào)編碼器
有監(jiān)督的數(shù)據(jù)可以讓編碼器獲得“有意義的信息”
但這樣無法采樣z,因?yàn)椴恢浪姆植?/span>
從線性維度壓縮角度: 2D->1D
考慮在二維平面上的點(diǎn) 這些點(diǎn)都在一條直線上
我們可以通過投影的方式把它們壓縮到一維且保留相互之間的關(guān)系
線性維度壓縮: 3D->2D
與一維類似,我們可以把點(diǎn)投影到平面上? ? 進(jìn)行 “平面擬合”
我們需要記錄的數(shù)據(jù)從三維變成了二維+平面的參數(shù)
可以想象成把空間的點(diǎn)投影到一張紙
推廣線性維度壓縮
主成分分析 Principal Components Analysis (PCA):
- 根據(jù)數(shù)據(jù)的分布找到數(shù)據(jù)的主成分
- 每個(gè)正交的方向?yàn)橐粋€(gè)主成分
- 可以保留前k個(gè)主成分來做維度壓縮
-?PCA與數(shù)據(jù)的特征空間高度相關(guān)
流形
一張紙上的點(diǎn)可以用二維空間表示
如果進(jìn)行折疊,那么它仍然可以用二維表示,但是這張紙卻變成了三維物體…
流形(manifold)可以看作這種形式的擴(kuò)展…
自編碼器:流形數(shù)據(jù)的維度壓縮
大多數(shù)維度壓縮的變換是不可逆的
自編碼器所學(xué)的是一個(gè)從流形數(shù)據(jù)到低維特征的可逆變換
全圖像空間
考慮所有分辨率為 100x100 圖像? ?我們來隨機(jī)采樣…
提問: 完全隨機(jī)采樣的圖像長什么樣?
pixels = np.random.rand(100,100,3)
結(jié)論:大多數(shù)圖像都是噪聲
自然圖像流形
大多數(shù)圖像是噪聲
有“意義”的圖像一般分布在一個(gè)具體的流形上
該流形會(huì)包含所有擁有相同“意義”的圖像
自編碼器的去噪效果
自編碼器會(huì)學(xué)習(xí)某個(gè)在流形上的可逆變換
由于沒有“意義”,絕大多數(shù)噪聲不在流形上
如果我們?cè)谳斎攵司图尤朐肼?,我們就可以得到去噪后的?shù)據(jù)
自編碼器的問題
自編碼器可以還原在流形上的數(shù)據(jù)點(diǎn)
但是并不能還原該流形上的所有數(shù)據(jù)點(diǎn)…
無法實(shí)現(xiàn)采樣確保生成有效的新數(shù)據(jù)…
圖像預(yù)測(cè) (“結(jié)構(gòu)化預(yù)測(cè)”)
我們通常會(huì)用類似自編碼器的結(jié)構(gòu)來進(jìn)行 圖像到圖像之間的遷移
更好的損失函數(shù):更好的生成效果
我們?nèi)绾卧O(shè)計(jì)損失函數(shù),使得不在流形上的數(shù)據(jù)得到應(yīng)有的“懲罰”?
設(shè)計(jì)可學(xué)習(xí)的損失函數(shù)
顯式密度模型
RNN
PixelRNN [van der Oord et al. 2016]
從左上角開始生成每個(gè)像素
使用RNN和所有已經(jīng)生成好的像素點(diǎn)生成新的像素點(diǎn)
缺點(diǎn):順序生成過程過于緩慢
PixelCNN?[van der Oord et al. 2016]
同樣從左上角開始生成每個(gè)像素
僅使用當(dāng)前像素點(diǎn)周圍一個(gè)窗口的區(qū)域生成當(dāng)前像素點(diǎn)
比PixelRNN快很多 但仍然很慢
Variational Auto-Encoder ?(變分自編碼器 VAE)
變分自編碼器 VAE
變分自編碼器(Variational Autoencoders,VAE):通過對(duì)中間表征概率建模(Probabilistic Modeling)使隱變量服從先驗(yàn)分布
VAE vs PixelRNN
優(yōu)點(diǎn):快,直接可以生成所有的像素點(diǎn)
缺點(diǎn):“不溫順”,無法直接優(yōu)化z,只能推出似然估計(jì)的下界
這樣學(xué)習(xí)的問題是什么?
“不溫順”(難以處理的)
隱變量模型
隱變量模型(Latent Variable Models):學(xué)習(xí)一個(gè)潛在的隱變量空間來解釋觀測(cè)數(shù)據(jù)的生成過程,可以生成新的樣本
VAE的“不溫順”:Intractability
由于z維度較大,較難有效采樣 無法通過蒙特卡洛估計(jì) z 來優(yōu)化p(x│z)
優(yōu)點(diǎn): 可以通過微調(diào)編碼器學(xué)習(xí)有效編碼 理論性更強(qiáng)
缺點(diǎn): 生成效果一般
研究領(lǐng)域: 解耦表征
Generative Adversarial Network ?(對(duì)抗生成網(wǎng)絡(luò) GAN)
訓(xùn)練判別器網(wǎng)絡(luò)預(yù)測(cè)圖像是否真實(shí)
GAN模型
模式崩潰(Mode Collapse)
GAN總結(jié)
優(yōu)點(diǎn): 效果好!
缺點(diǎn): 難以訓(xùn)練
改進(jìn)方式: Wasserstein GAN (WGAN)、梯度懲罰 (Gradient Penalty)、譜標(biāo)準(zhǔn)化 (Spectral Normalization)
Diffusion擴(kuò)散模型
如何避免對(duì)每一個(gè)概念訓(xùn)練一個(gè)擴(kuò)散網(wǎng)絡(luò)?
方法1:加一個(gè)標(biāo)簽給擴(kuò)散網(wǎng)絡(luò)
方法2:使用語言模型
與GAN的對(duì)比
優(yōu)點(diǎn): 擴(kuò)散模型更好訓(xùn)練
缺點(diǎn): 速度較慢(需要多步迭代)
AIGC
剩下的應(yīng)用就不記筆記了~有認(rèn)真看~文章來源:http://www.zghlxwxcb.cn/news/detail-695365.html
完結(jié)撒花!!文章來源地址http://www.zghlxwxcb.cn/news/detail-695365.html
到了這里,關(guān)于圖像生成模型【自編碼器、RNN、VAE、GAN、Diffusion、AIGC等】的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!