英文名稱: Deep Unsupervised Learning using Nonequilibrium Thermodynamics
中文名稱: 使用非平衡熱力學(xué)原理的深度無(wú)監(jiān)督學(xué)習(xí)
論文地址: http://arxiv.org/abs/1503.03585
代碼地址: https://github.com/Sohl-Dickstein/Diffusion-Probabilistic-Models
時(shí)間: 2015-11-18
作者: Jascha Sohl-Dickstein, 斯坦福大學(xué)
引用量: 1813
讀后感
論文目標(biāo)是建立靈活且易用的數(shù)據(jù)生成模型。它利用非平衡統(tǒng)計(jì)物理學(xué)原理:通過(guò)擴(kuò)散過(guò)程(少量加噪)系統(tǒng)地、緩慢地破壞數(shù)據(jù)分布中的結(jié)構(gòu);然后,學(xué)習(xí)反向擴(kuò)散過(guò)程,恢復(fù)數(shù)據(jù)結(jié)構(gòu)。
介紹
擴(kuò)散模型與變分模型
擴(kuò)散模型與變分模型原理類似,都是將圖片拆成一系列高斯分布的均值和方差,而擴(kuò)散模型是一個(gè)逐步變化的過(guò)程,主要差別如下:
- 原理不同:擴(kuò)散模型使用物理學(xué)、準(zhǔn)靜態(tài)過(guò)程和退火采樣的思想。由于任何平滑目標(biāo)分布都存在擴(kuò)散過(guò)程,因此理論上該方法可以捕獲任意形式的數(shù)據(jù)分布。
- 展示了用簡(jiǎn)單的乘法,將一個(gè)分布逐步轉(zhuǎn)換為另一分布的過(guò)程。
- 解決了推理模型和生成模型之間目標(biāo)的不對(duì)稱性,將正向(推理)過(guò)程限制為簡(jiǎn)單的函數(shù)形式,反向(生成)過(guò)程將具有相同的函數(shù)形式。
- 可訓(xùn)練具有數(shù)**千層(時(shí)間步)**的模型。
- 精細(xì)控制每層中熵產(chǎn)生的上限和下限。
方法
請(qǐng)記住圖中這些符號(hào),很多后續(xù)文章都延用了這些符號(hào)的定義。
向前軌跡
其中藍(lán)色是擴(kuò)散過(guò)程,從左往右看,總共T步,每步加一點(diǎn)高斯噪聲,將瑞士卷圖擴(kuò)散成了高斯分布,擴(kuò)展過(guò)程設(shè)為q。每步都根據(jù)上一步數(shù)據(jù)而來(lái):
q
(
x
(
0
?
T
)
)
=
q
(
x
(
0
)
)
∏
t
=
1
T
q
(
x
(
t
)
∣
x
(
t
?
1
)
)
q\left(\mathbf{x}^{(0 \cdots T)}\right)=q\left(\mathbf{x}^{(0)}\right) \prod_{t=1}^{T} q\left(\mathbf{x}^{(t)} \mid \mathbf{x}^{(t-1)}\right)
q(x(0?T))=q(x(0))t=1∏T?q(x(t)∣x(t?1))
反向軌跡
中間紅色部分是擴(kuò)散的逆過(guò)程,從右往左看,圖片逐步恢復(fù),恢復(fù)過(guò)程設(shè)為p;在訓(xùn)練過(guò)程中,通過(guò)學(xué)習(xí)高斯擴(kuò)散的逆過(guò)程,使數(shù)據(jù)轉(zhuǎn)換回原分布,從而生成數(shù)據(jù)。
p
(
x
(
0
?
T
)
)
=
p
(
x
(
T
)
)
∏
t
=
1
T
p
(
x
(
t
?
1
)
∣
x
(
t
)
)
p\left(\mathbf{x}^{(0 \cdots T)}\right)=p\left(\mathbf{x}^{(T)}\right) \prod_{t=1}^{T} p\left(\mathbf{x}^{(t-1)} \mid \mathbf{x}^{(t)}\right)
p(x(0?T))=p(x(T))t=1∏T?p(x(t?1)∣x(t))
最后一行展示了反向擴(kuò)散過(guò)程的漂移項(xiàng)。fμ (x(t), t) 是高斯逆馬爾可夫轉(zhuǎn)移的均值和協(xié)方差的函數(shù)。
擴(kuò)散的原理是通過(guò)馬爾可夫鏈逐漸將一種分布轉(zhuǎn)換為另一種分布。最終,估計(jì)概率分布的任務(wù)簡(jiǎn)化為對(duì)高斯序列的均值和協(xié)方差函數(shù)的回歸任務(wù)(這里的0狀態(tài)指的是原始圖,T狀態(tài)指高斯分布圖);由于擴(kuò)散鏈中的每個(gè)步驟都具有可分析評(píng)估的概率(對(duì)比正向和反向變化中每一步數(shù)據(jù)的相似度),因此也可以對(duì)整個(gè)鏈進(jìn)行分析評(píng)估。
模型概率
計(jì)算將圖像恢復(fù)成原圖的概率,可拆解成每一步變化的累積。
p
(
x
(
0
)
)
=
∫
d
x
(
1
?
T
)
p
(
x
(
0
?
T
)
)
q
(
x
(
1
?
T
)
∣
x
(
0
)
)
q
(
x
(
1
?
T
)
∣
x
(
0
)
)
=
∫
d
x
(
1
?
T
)
q
(
x
(
1
?
T
)
∣
x
(
0
)
)
p
(
x
(
0
?
T
)
)
q
(
x
(
1
?
T
)
∣
x
(
0
)
)
=
∫
d
x
(
1
?
T
)
q
(
x
(
1
?
T
)
∣
x
(
0
)
)
p
(
x
(
T
)
)
∏
t
=
1
T
p
(
x
(
t
?
1
)
∣
x
(
t
)
)
q
(
x
(
t
)
∣
x
(
t
?
1
)
)
\begin{aligned} p\left(\mathbf{x}^{(0)}\right)= & \int d \mathbf{x}^{(1 \cdots T)} p\left(\mathbf{x}^{(0 \cdots T)}\right) \frac{q\left(\mathbf{x}^{(1 \cdots T)} \mid \mathbf{x}^{(0)}\right)}{q\left(\mathbf{x}^{(1 \cdots T)} \mid \mathbf{x}^{(0)}\right)} \\ = & \int d \mathbf{x}^{(1 \cdots T)} q\left(\mathbf{x}^{(1 \cdots T)} \mid \mathbf{x}^{(0)}\right) \frac{p\left(\mathbf{x}^{(0 \cdots T)}\right)}{q\left(\mathbf{x}^{(1 \cdots T)} \mid \mathbf{x}^{(0)}\right)} \\ = & \int d \mathbf{x}^{(1 \cdots T)} q\left(\mathbf{x}^{(1 \cdots T)} \mid \mathbf{x}^{(0)}\right) \\ & p\left(\mathbf{x}^{(T)}\right) \prod_{t=1}^{T} \frac{p\left(\mathbf{x}^{(t-1)} \mid \mathbf{x}^{(t)}\right)}{q\left(\mathbf{x}^{(t)} \mid \mathbf{x}^{(t-1)}\right)} \end{aligned}
p(x(0))===?∫dx(1?T)p(x(0?T))q(x(1?T)∣x(0))q(x(1?T)∣x(0))?∫dx(1?T)q(x(1?T)∣x(0))q(x(1?T)∣x(0))p(x(0?T))?∫dx(1?T)q(x(1?T)∣x(0))p(x(T))t=1∏T?q(x(t)∣x(t?1))p(x(t?1)∣x(t))??
訓(xùn)練
具體方法是計(jì)算熵 H 和 KL 散度。其推導(dǎo)與變分貝葉斯方法中對(duì)數(shù)似然界限的推導(dǎo)類似。DK散度描述了每一時(shí)間步數(shù)據(jù)分布的差異,熵描述了數(shù)據(jù)的混亂程度。
L
≥
K
K
=
?
∑
t
=
2
T
∫
d
x
(
0
)
d
x
(
t
)
q
(
x
(
0
)
,
x
(
t
)
)
.
D
K
L
(
q
(
x
(
t
?
1
)
∣
x
(
t
)
,
x
(
0
)
)
∥
p
(
x
(
t
?
1
)
∣
x
(
t
)
)
)
+
H
q
(
X
(
T
)
∣
X
(
0
)
)
?
H
q
(
X
(
1
)
∣
X
(
0
)
)
?
H
p
(
X
(
T
)
)
.
\begin{aligned} L & \geq K \\ K= & -\sum_{t=2}^{T} \int d \mathbf{x}^{(0)} d \mathbf{x}^{(t)} q\left(\mathbf{x}^{(0)}, \mathbf{x}^{(t)}\right) . \\ & D_{K L}\left(q\left(\mathbf{x}^{(t-1)} \mid \mathbf{x}^{(t)}, \mathbf{x}^{(0)}\right) \| p\left(\mathbf{x}^{(t-1)} \mid \mathbf{x}^{(t)}\right)\right) \\ & +H_{q}\left(\mathbf{X}^{(T)} \mid \mathbf{X}^{(0)}\right)-H_{q}\left(\mathbf{X}^{(1)} \mid \mathbf{X}^{(0)}\right)-H_{p}\left(\mathbf{X}^{(T)}\right) . \end{aligned}
LK=?≥K?t=2∑T?∫dx(0)dx(t)q(x(0),x(t)).DKL?(q(x(t?1)∣x(t),x(0))∥p(x(t?1)∣x(t)))+Hq?(X(T)∣X(0))?Hq?(X(1)∣X(0))?Hp?(X(T)).?
設(shè)置擴(kuò)散率 βt
熱力學(xué)中,在平衡分布之間移動(dòng)時(shí)所采取的時(shí)間表決定了損失多少自由能。簡(jiǎn)單地說(shuō),就是如何設(shè)置每一步變化的大小。一般情況下,第一步β設(shè)成一個(gè)很小的常數(shù),以防過(guò)擬合,然后2-T步逐步擴(kuò)大。將在之后的DDPM中詳述。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-695437.html
乘以分布計(jì)算后驗(yàn)
對(duì)大多數(shù)模型而言,乘以分布計(jì)算量大,而在擴(kuò)散模型中則比較簡(jiǎn)單,第二個(gè)分布可以被視為擴(kuò)散過(guò)程中每個(gè)步驟的小擾動(dòng)。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-695437.html
到了這里,關(guān)于論文閱讀_擴(kuò)散模型_DM的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!