Abstract
Classifier guidance為圖像生成帶來了控制,但是需要訓(xùn)練新的噪聲感知模型(noise-aware models)來獲得準(zhǔn)確的梯度,或使用最終生成的一步去噪近似,這會(huì)導(dǎo)致梯度錯(cuò)位(misaligned gradients)和次優(yōu)控制(sub-optimal control)。
梯度錯(cuò)位(misaligned gradients):通過噪聲感知模型指導(dǎo)生成模型時(shí),兩個(gè)模型的結(jié)構(gòu)和目標(biāo)不完全匹配,導(dǎo)致從一個(gè)模型得到的梯度并不適用于另一個(gè)模型。同樣會(huì)導(dǎo)致梯度錯(cuò)位的原因還有:特征空間不同、訓(xùn)練數(shù)據(jù)不一致、近似方法或噪聲的影響等。
次優(yōu)控制(sub-optimal control):控制不夠優(yōu)化或理想,分類器梯度指導(dǎo)圖像生成,但是梯度本身不夠匹配或準(zhǔn)確, 導(dǎo)致控制生成圖像的過程并不完全理想或者最優(yōu)。
基于這種近似的缺點(diǎn),本文提出了一個(gè)新穎的引導(dǎo)方法:Direct Optimization of Diffusion Latents(DOODL)。該方法通過優(yōu)化擴(kuò)散潛變量相對(duì)于預(yù)訓(xùn)練分類器在真實(shí)生成的像素上的梯度,利用可逆擴(kuò)散過程實(shí)現(xiàn)內(nèi)存高效的反向傳播,實(shí)現(xiàn)即插即用的引導(dǎo)。
DOODL展示了更精確指導(dǎo)的潛力,在不同指導(dǎo)形式的計(jì)算和人類評(píng)估指標(biāo)上優(yōu)于一步分類器指導(dǎo):
使用CLIP指導(dǎo)改進(jìn)DrawBench中復(fù)雜提示的生成,使用細(xì)粒度視覺分類器擴(kuò)展Stable Diffusion的詞匯量,使用CLIP視覺編碼器實(shí)現(xiàn)圖像調(diào)節(jié)生成,使用美學(xué)評(píng)分網(wǎng)絡(luò)改進(jìn)圖像美感。
1 Introduction
為了實(shí)現(xiàn)靈活又準(zhǔn)確的模型梯度,而不適用noise-aware classifiers或近似手段,提出Direct Optimization Of Diffusion Latents (DOODL)。DOODL優(yōu)化了初始擴(kuò)散噪聲向量,相對(duì)于全鏈擴(kuò)散過程生成的基于模型的圖像損失。
利用EDICT(最近開發(fā)出的一種可以離散反演的擴(kuò)散算法),它允許與擴(kuò)散步數(shù)的內(nèi)存成本恒定的反向傳播,以計(jì)算最終生成的像素分類器相對(duì)于原始噪聲向量的梯度。這使得能夠?qū)D像像素上的任何可微損失進(jìn)行高效的迭代擴(kuò)散潛變量?jī)?yōu)化,并準(zhǔn)確計(jì)算用于分類器引導(dǎo)的梯度。
本文演示了DOODL在多種經(jīng)常使用的定量和人類評(píng)估研究中使用的引導(dǎo)信號(hào)上的效果。
圖1:本文的方法改進(jìn)了所有測(cè)試設(shè)置中的普通分類器引導(dǎo),并且展示了此類方法的新穎的功能,例如詞匯擴(kuò)展,實(shí)體個(gè)性化和感知審美價(jià)值改進(jìn)。
第一,展示了使用DOODL的CLIP分類器引導(dǎo)改進(jìn)了由DrawBench數(shù)據(jù)集的文本提示引導(dǎo)的圖像生成,該數(shù)據(jù)集測(cè)試組合性和指導(dǎo)使用不尋常標(biāo)題的能力。
第二,展示了細(xì)粒度視覺分類器擴(kuò)展預(yù)訓(xùn)練穩(wěn)定擴(kuò)散模型詞匯量的能力,這個(gè)能力是one-step分類器不具備的。
第三,證明了DOODL可以用于個(gè)性化實(shí)體生成(如"A dog in sunglasses"),并且對(duì)任何新的網(wǎng)絡(luò)不進(jìn)行再訓(xùn)練。據(jù)我們所知,這是首次做到。
最后,利用DOODL來執(zhí)行一項(xiàng)新的任務(wù),提高生成/真實(shí)圖像的感知美學(xué)質(zhì)量,希望DOODL能夠?yàn)轭A(yù)訓(xùn)練的擴(kuò)散模型啟用和激發(fā)多種即插即用的功能。
2 Related Work
2.1 Text-to-Image Diffusion Models
Text-to-Image diffusion models,如GLIDE、DALLE-2、Imagen、Latent Diffusion、eDiffi,最近出現(xiàn)在圖像生成的前沿。
Classifier guidance使用預(yù)訓(xùn)練分類器模型的梯度來指導(dǎo)此類生成。在每個(gè)去噪步驟之前以固定的噪聲水平遍歷,而不是順序去噪。并發(fā)工作修改classifier guidance,以在繼續(xù)之前細(xì)化每個(gè)噪聲級(jí)別的梯度預(yù)測(cè)。
表1:基于學(xué)習(xí)的(Learning-Based)方法需要數(shù)據(jù)集和訓(xùn)練,但是基于引導(dǎo)的(Guidance-Based)方法需要預(yù)訓(xùn)練識(shí)別網(wǎng)絡(luò)(在本文的設(shè)置中,是在非噪聲空間中訓(xùn)練的)
最近在diffusion models和可逆神經(jīng)網(wǎng)絡(luò)(invertible neural networks)的焦點(diǎn)處有一種新的方法:EDICT,它通過算法將去噪擴(kuò)散過程重新表述為可逆的過程。這項(xiàng)先前的工作僅關(guān)注了圖像編輯的應(yīng)用,沒有考慮可逆神經(jīng)網(wǎng)絡(luò)或類似過程的屬性。DDIM等方法理論上在離散化極限下是可逆的,但實(shí)際中無法達(dá)到這個(gè)極限。
2.2 Invertible Neural Networks (INNs)
雖然神經(jīng)網(wǎng)絡(luò)往往是非保維函數(shù),先前已經(jīng)有關(guān)于構(gòu)建可逆架構(gòu)的工作。此類INN的主要類別是標(biāo)準(zhǔn)化流模型,標(biāo)準(zhǔn)化流結(jié)構(gòu)中“耦合層“的修改版本被納入本工作使用的EDICT算法中。
也有工作提出了一種通過條件良好的逆問題而不是封閉式解決方案保證可逆的架構(gòu)。這種架構(gòu)的內(nèi)存節(jié)省已被用于長(zhǎng)序列循環(huán)神經(jīng)網(wǎng)絡(luò)并研究逆問題。
3 Background
3.1 Invertible Neural Networks w.r.t Memory
當(dāng)在神經(jīng)網(wǎng)絡(luò)中使用梯度下降法來優(yōu)化時(shí),設(shè)網(wǎng)絡(luò)參數(shù)
Ξ
=
{
ξ
p
}
p
=
1
p
=
P
\Xi=\{\xi_p\}_{p=1}^{p=P}
Ξ={ξp?}p=1p=P?,網(wǎng)絡(luò)輸入為
x
x
x,輸出為
y
=
f
(
x
)
y=f(x)
y=f(x),損失函數(shù)
c
c
c,計(jì)算導(dǎo)數(shù)
d
c
(
y
)
d
ξ
\frac{dc(y)}{d\xi}
dξdc(y)?并執(zhí)行梯度下降從而最小化
E
D
a
t
a
c
(
y
)
=
E
D
a
t
a
c
(
f
(
x
)
)
\mathbb{E}_{Data} c(y)=\mathbb{E}_{Data} c(f(x))
EData?c(y)=EData?c(f(x))。其中
f
f
f隱含地以
Ξ
\Xi
Ξ為條件??紤]
f
f
f為
n
n
n個(gè)函數(shù)(層)的組合:
f
n
°
f
n
?
1
°
?
°
f
1
f^n\circ f^{n-1}\circ \cdots\circ f^1
fn°fn?1°?°f1。為了優(yōu)化
ξ
\xi
ξ,計(jì)算第
i
i
i層參數(shù)的導(dǎo)數(shù)
d
c
(
y
)
d
ξ
\frac{dc(y)}{d\xi}
dξdc(y)?。設(shè)
f
k
°
f
k
?
1
°
?
°
f
j
=
F
j
k
f^k\circ f^{k-1}\circ \cdots\circ f^j=F_j^k
fk°fk?1°?°fj=Fjk?。
y
=
F
1
n
(
x
)
y=F_1^n(x)
y=F1n?(x),那么相對(duì)于
ξ
\xi
ξ的導(dǎo)數(shù)可以用鏈?zhǔn)椒▌t來計(jì)算:
d
c
(
y
)
d
ξ
=
d
c
(
F
1
n
(
x
)
)
d
ξ
=
d
c
(
F
1
n
(
x
)
)
d
F
1
n
(
x
)
?
d
F
1
n
(
x
)
d
F
1
n
?
1
(
x
)
?
d
F
1
i
(
x
)
d
F
1
i
?
1
(
x
)
?
d
F
1
i
?
1
(
x
)
d
x
\begin{align} \frac{dc(y)}{d\xi}&=\frac{dc(F_1^n(x))}{d\xi}\tag{1} \\ &=\frac{dc(F_1^n(x))}{dF_1^n(x)}\cdot\frac{dF_1^n(x)}{dF_1^{n-1}(x)}\cdots\frac{dF_1^i(x)}{dF_1^{i-1}(x)}\cdot\frac{dF_1^{i-1}(x)}{dx}\tag{2} \end{align}
dξdc(y)??=dξdc(F1n?(x))?=dF1n?(x)dc(F1n?(x))??dF1n?1?(x)dF1n?(x)??dF1i?1?(x)dF1i?(x)??dxdF1i?1?(x)??(1)(2)?
通常情況下,計(jì)算
d
c
(
y
)
d
ξ
\frac{dc(y)}{d\xi}
dξdc(y)?需要存儲(chǔ)所有的中間激活值,這是反向傳播的瓶頸。
跨處理器的網(wǎng)絡(luò)分片減少了每個(gè)處理器的硬件內(nèi)存需求,但總數(shù)仍然保持不變。
梯度檢查點(diǎn)降低了內(nèi)存成本,但是線性增加了運(yùn)行時(shí)間,節(jié)省了內(nèi)存。
INN可以從輸出中恢復(fù)中間狀態(tài)/輸入,通過避免激活緩存來降低內(nèi)存成本。如果Eq.1中每個(gè)
f
j
f^j
fj都是可逆的,分母項(xiàng)可以在向后傳遞期間重建。此類方法已被用來訓(xùn)練大型INN,其速度比不可逆的等效方法快得多。
3.2 Denoising Diffusion Models (DDMs)
圖像的DDMs被訓(xùn)練用于預(yù)測(cè)加入圖像
x
x
x的噪聲
?
\epsilon
?。噪聲被離散化后可以用一個(gè)集合
T
=
{
0
,
1
,
?
?
,
T
}
\mathcal{T}=\{0,1,\cdots,T\}
T={0,1,?,T}來索引:
{
α
t
}
t
=
0
T
,
α
T
=
0
,
α
0
=
1
\{\alpha_t\}_{t=0}^T,\alpha_T=0,\alpha_0=1
{αt?}t=0T?,αT?=0,α0?=1。
t
∈
T
t\in \mathcal{T}
t∈T在訓(xùn)練期間隨機(jī)采樣并和數(shù)據(jù)
x
(
i
)
x^{(i)}
x(i)(圖像或自動(dòng)編碼表示)生成噪聲樣本:
x
t
(
i
)
=
α
t
x
(
i
)
+
1
?
α
t
?
(3)
x_t^{(i)}=\sqrt{\alpha_t}x^{(i)}+\sqrt{1-\alpha_t}\epsilon\tag{3}
xt(i)?=αt??x(i)+1?αt???(3)
其中
?
~
N
(
0
,
I
)
\epsilon\sim N(0,I)
?~N(0,I)。
以時(shí)間步
t
t
t和輔助信息(例如圖像標(biāo)題)
C
C
C為條件的DDM被訓(xùn)練以近似添加的噪聲:
D
D
M
(
x
t
(
i
)
,
t
,
C
)
≈
?
DDM(x_t^{(i)},t,C)\approx \epsilon
DDM(xt(i)?,t,C)≈?。生成的過程中,
x
T
~
N
(
0
,
1
)
x_T\sim N(0,1)
xT?~N(0,1)采樣,DDM被迭代應(yīng)用,從噪聲中幻化出真實(shí)圖像。根據(jù)DDIM采樣模型,最后生成的
x
0
x_0
x0?等同于
S
S
S個(gè)去噪函數(shù)的復(fù)合函數(shù):在條件
C
C
C和步數(shù)
t
t
t上應(yīng)用
Θ
\Theta
Θ。令
Θ
(
x
,
t
,
C
)
\Theta(x,t,C)
Θ(x,t,C)為
Θ
(
t
,
C
)
(
x
)
\Theta_{(t,C)}(x)
Θ(t,C)?(x),于是有:
x
0
=
[
Θ
(
0
,
C
)
°
Θ
(
1
,
C
)
°
?
°
Θ
(
T
,
C
)
]
(
x
T
)
(4)
x_0=[\Theta_{(0,C)}\circ\Theta_{(1,C)}\circ\cdots\circ \Theta_{(T,C)}](x_T)\tag{4}
x0?=[Θ(0,C)?°Θ(1,C)?°?°Θ(T,C)?](xT?)(4)
3.2.1 Classifier Guidance
除了
C
C
C以外,其他引導(dǎo)信號(hào)也可以引導(dǎo)生成圖像。最重要的例子:classifier guidance將估計(jì)像素上的損失梯度(
c
c
l
f
c_{clf}
cclf?,來自分類器網(wǎng)絡(luò)
Φ
\Phi
Φ)合并到噪聲預(yù)測(cè)中。
從理論角度來看,這通常是對(duì)數(shù)條件概率
?
log
?
p
Φ
(
y
∣
x
t
)
\nabla \log p_\Phi(y|x_t)
?logpΦ?(y∣xt?)的梯度。合并分類器指導(dǎo)有兩種主要方法:
- 一個(gè)noise-aware classifier經(jīng)過訓(xùn)練可以直接用于中間(噪聲) x t x_t xt?,并將 ? x t c c l f ( x t ) \nabla_{x_t} c_{clf}(x_t) ?xt??cclf?(xt?)納入到去噪預(yù)測(cè)當(dāng)中。訓(xùn)練噪聲感知模型是有效的,但由于計(jì)算費(fèi)用和數(shù)據(jù)可用性而通常不可行。這導(dǎo)致公開的噪聲感知模型非常少。
- x 0 x_0 x0?是通過 Θ ( t , C ) \Theta_{(t,C)} Θ(t,C)?來近似的,合并的梯度是 ? x t c c l f ( x 0 ? ) \nabla_{x_t} c_{clf}(x_0^*) ?xt??cclf?(x0??),其中 x 0 ? x_0^* x0??是一個(gè)單步近似,用 Θ ( t , C ) \Theta_{(t,C)} Θ(t,C)?來替換Eq.3中的 ? \epsilon ?。雖然可以使用標(biāo)準(zhǔn)模型,但是梯度是根據(jù)近似的 x 0 x_0 x0?來計(jì)算的,可能會(huì)導(dǎo)致 d c c l f ( x t ) x 0 \frac{dc_{clf}(x_t)}{x_0} x0?dcclf?(xt?)?無法對(duì)齊。
3.2.2 Exact Inversion of the Diffusion Process
最近,EDICT,一個(gè)離散的(時(shí)間步進(jìn))擴(kuò)散模型的精確可逆變體被提出。EDICT對(duì)潛在對(duì)
(
x
t
,
y
t
)
(x_t,y_t)
(xt?,yt?)進(jìn)行操作,而不是單個(gè)變量。
初始化
x
T
=
y
T
~
N
(
0
,
I
)
x_T=y_T\sim N(0,I)
xT?=yT?~N(0,I),然后使用反向擴(kuò)散過程迭代去噪:
x
t
i
n
t
e
r
=
a
t
?
x
t
+
b
t
?
Θ
(
t
,
C
)
(
y
t
)
y
t
i
n
t
e
r
=
a
t
?
y
t
+
b
t
?
Θ
(
t
,
C
)
(
x
t
i
n
t
e
r
)
x
t
?
1
=
p
?
x
t
i
n
t
e
r
+
(
1
?
p
)
?
y
t
i
n
t
e
r
y
t
?
1
=
p
?
y
t
i
n
t
e
r
+
(
1
?
p
)
?
x
t
?
1
(5)
\begin{aligned} x_t^{inter}&=a_t\cdot x_t+b_t\cdot\Theta_{(t,C)}(y_t) \\ y_t^{inter}&=a_t\cdot y_t+b_t\cdot\Theta_{(t,C)}(x_t^{inter}) \\ x_{t-1}&=p\cdot x_t^{inter}+(1-p)\cdot y_t^{inter} \\ y_{t-1}&=p\cdot y_t^{inter}+(1-p)\cdot x_{t-1}\tag{5} \end{aligned}
xtinter?ytinter?xt?1?yt?1??=at??xt?+bt??Θ(t,C)?(yt?)=at??yt?+bt??Θ(t,C)?(xtinter?)=p?xtinter?+(1?p)?ytinter?=p?ytinter?+(1?p)?xt?1??(5)
其中
(
a
t
,
b
t
)
(a_t,b_t)
(at?,bt?)是與時(shí)間有關(guān)的系數(shù),
p
∈
[
0
,
1
]
p\in[0,1]
p∈[0,1]是用于減輕潛在漂移的混合系數(shù)。
直觀地說,整個(gè)過程,首先根據(jù)對(duì)方的狀態(tài)更新
x
x
x和
y
y
y序列,然后可逆地將它們”平均“在一起。
上述方程允許線性解來反轉(zhuǎn)它們,定義逆過程:
y
t
+
1
i
n
t
e
r
=
(
y
t
?
(
1
?
p
)
?
x
t
)
/
p
x
t
+
1
i
n
t
e
r
=
(
x
t
?
(
1
?
p
)
?
y
t
+
1
i
n
t
e
r
)
/
p
y
t
+
1
=
(
y
t
+
1
i
n
t
e
r
?
b
t
+
1
?
Θ
(
t
+
1
,
C
)
(
x
t
+
1
i
n
t
e
r
)
)
/
a
t
+
1
x
t
+
1
=
(
x
t
+
1
i
n
t
e
r
?
b
t
+
1
?
Θ
(
t
+
1
,
C
)
(
y
t
+
1
)
)
/
a
t
+
1
(6)
\begin{aligned} y_{t+1}^{inter}&=(y_t-(1-p)\cdot x_t)/p \\ x_{t+1}^{inter}&=(x_t-(1-p)\cdot y_{t+1}^{inter})/p \\ y_{t+1}&=(y_{t+1}^{inter}-b_{t+1}\cdot\Theta_{(t+1,C)}(x_{t+1}^{inter}))/a_{t+1} \\ x_{t+1}&=(x_{t+1}^{inter}-b_{t+1}\cdot\Theta_{(t+1,C)}(y_{t+1}))/a_{t+1} \tag{6} \end{aligned}
yt+1inter?xt+1inter?yt+1?xt+1??=(yt??(1?p)?xt?)/p=(xt??(1?p)?yt+1inter?)/p=(yt+1inter??bt+1??Θ(t+1,C)?(xt+1inter?))/at+1?=(xt+1inter??bt+1??Θ(t+1,C)?(yt+1?))/at+1??(6)
我們?cè)贒OODL中使用這個(gè)構(gòu)造,并在5.3節(jié)中使用Eq.6來編碼圖像
x
0
x_0
x0?為潛變量
x
T
x_T
xT?。
4 Direct Optimization of Diffusion Latents
我們的目標(biāo)是客服classifier guidance在3.2.1節(jié)中討論的短板。具體地,我們的方法有以下優(yōu)點(diǎn):
- 不需要重新訓(xùn)練/微調(diào)一個(gè)已經(jīng)存在的預(yù)訓(xùn)練好的分類模型
- 計(jì)算相對(duì)于真實(shí)輸出的梯度,而不是單步近似
- 在語義上有意義的方式合并梯度,而不是對(duì)抗式擾動(dòng)
特別強(qiáng)調(diào)最后一點(diǎn),相對(duì)于像素的梯度可以滿足分類器損失,同時(shí)不會(huì)在感知上改變圖像的內(nèi)容。這與GAN中的潛在優(yōu)化等技術(shù)相反,其中解碼器提供的正則化意味著優(yōu)化發(fā)生在擾動(dòng)通常會(huì)導(dǎo)致滿足所需目標(biāo)的感知上有意義的變化的空間中。
這項(xiàng)工作中,我們的目標(biāo)是直接優(yōu)化擴(kuò)散潛勢(shì)(diffusion latents),這在文獻(xiàn)中第一次出現(xiàn)。
由Eq.4可知,針對(duì)
x
0
x_0
x0?的期望結(jié)果對(duì)
x
T
x_T
xT?進(jìn)行優(yōu)化是微不足道的,Eq.1中有一個(gè)閉式表達(dá)式
d
x
0
x
T
\frac{dx_0}{x_T}
xT?dx0??。
然而, 由于激活緩存,因?yàn)?span id="n5n3t3z" class="katex--inline">
Θ
\Theta
Θ的
T
T
T次應(yīng)用,原始內(nèi)存成本與DDIM采樣步驟的數(shù)量呈線性關(guān)系。當(dāng)
S
=
50
S=50
S=50時(shí),對(duì)于最先進(jìn)的擴(kuò)散模型來說,內(nèi)存成本接近1TB,對(duì)于大多數(shù)用途來說都是不切實(shí)際的。
梯度檢查點(diǎn)(Gradient checkpointing)以內(nèi)存換取計(jì)算復(fù)雜性,如果內(nèi)存成本保持不變,則每次向后傳遞的計(jì)算復(fù)雜性都會(huì)增加
S
S
S倍。
我們從3.1節(jié)的INN汲取靈感,在可行的運(yùn)行時(shí)間內(nèi)優(yōu)化 x T x_T xT?相對(duì) x 0 x_0 x0?的標(biāo)準(zhǔn)。在Eq.4中使用可逆的 Θ ( i , C ) \Theta_{(i,C)} Θ(i,C)?,即可在反向過程期間重建一個(gè)中間過程,僅使用相對(duì)于 T T T一個(gè)常數(shù)數(shù)量的 Θ \Theta Θ,在不犧牲運(yùn)行時(shí)間的情況下規(guī)避過高的內(nèi)存成本。
我們將最近研究發(fā)現(xiàn)的EDICT作為可逆的反向擴(kuò)散過程,其允許在常數(shù)內(nèi)存空間內(nèi)實(shí)現(xiàn)對(duì) x t x_t xt?的優(yōu)化。給定條件 C C C,基于可微模型的成本函數(shù) c c c,一個(gè)潛在抽樣 x T ( 0 ) x_T^{(0)} xT(0)?,執(zhí)行EDICT生成過程(50步, p = 0.93 p=0.93 p=0.93,Stable Diffusion v1.4),產(chǎn)生初始輸出 f ( x T ( 0 ) ) = x 0 ( 0 ) f(x_T^{(0)})=x_0^{(0)} f(xT(0)?)=x0(0)?,用于計(jì)算損失 c ( x 0 ( 0 ) ) c(x_0^{(0)}) c(x0(0)?)和相應(yīng)的梯度 ? x t c ( f ( x T ( 0 ) ) ) \nabla_{x_t} c(f(x_T^{(0)})) ?xt??c(f(xT(0)?))。然后這個(gè)梯度可以被用于對(duì) x T ( 0 ) x_T^{(0)} xT(0)?執(zhí)行梯度下降優(yōu)化步驟。
我們通過幾種關(guān)鍵的方式修改普通梯度下降,以獲得滿足指導(dǎo)標(biāo)準(zhǔn)的逼真圖像。
在每個(gè)優(yōu)化步驟之后,EDICT”完全噪聲“潛在對(duì)
x
T
(
j
)
x_T^{(j)}
xT(j)?和
y
T
(
j
)
y_T(j)
yT?(j)(來自Eq.5~6)被一起平均并重新歸一化為初始抽取的
x
T
(
0
)
x_T^{(0)}
xT(0)?。平均可以防止?jié)撟兞科?,從而避免降低質(zhì)量。歸一化到原始范數(shù)可以保持”高斯殼(gaussian shell)“上的潛變量,保持?jǐn)U散模型上的分布。
我們還對(duì)生成的 ( x 0 , y 0 ) (x_0,y_0) (x0?,y0?)執(zhí)行多樣裁剪(multi-crop)數(shù)據(jù)的增強(qiáng),對(duì)每個(gè)圖像采樣進(jìn)行16次裁剪。采用的動(dòng)量 η = 0.9 \eta=0.9 η=0.9。我們發(fā)現(xiàn)Nesterov momentum沒有很多用處,最后,為了提高輸出圖像的穩(wěn)定性和真實(shí)性,每次更新我們對(duì) g g g進(jìn)行了逐元素裁剪,幅度為 1 0 ? 3 10^{-3} 10?3,擾動(dòng) x T x_T xT?在 N ( 0 , 1 0 ? 4 ? I ) \mathcal{N}(0,10^{-4}\cdot I) N(0,10?4?I)上采樣。文章來源:http://www.zghlxwxcb.cn/news/detail-783904.html
圖3:文章來源地址http://www.zghlxwxcb.cn/news/detail-783904.html
- A:基礎(chǔ)的classifier guidance。在每一步 t t t中,通過一步去噪近似 x 0 x_0 x0?,計(jì)算相對(duì)于這次生成 x 0 x_0 x0?的逐像素的損失。該損失的梯度被納入后續(xù)的擴(kuò)散步驟中。
- B:EDICT。擴(kuò)散過程的可逆變體,允許在整個(gè)鏈中進(jìn)行反向傳播,而無需額外的內(nèi)存成本。
- C:DOODL。我們利用EDICT,展示了針對(duì)最終生成物計(jì)算的模型損失可以被直接用于優(yōu)化完整的噪聲
x
T
x_T
xT?。
圖中 ? \nabla ?表示基于可微模型的損失的梯度計(jì)算。
到了這里,關(guān)于【論文筆記】End-to-End Diffusion Latent Optimization Improves Classifier Guidance的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!