国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【論文筆記】End-to-End Diffusion Latent Optimization Improves Classifier Guidance

這篇具有很好參考價(jià)值的文章主要介紹了【論文筆記】End-to-End Diffusion Latent Optimization Improves Classifier Guidance。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

Abstract

Classifier guidance為圖像生成帶來了控制,但是需要訓(xùn)練新的噪聲感知模型(noise-aware models)來獲得準(zhǔn)確的梯度,或使用最終生成的一步去噪近似,這會(huì)導(dǎo)致梯度錯(cuò)位(misaligned gradients)和次優(yōu)控制(sub-optimal control)。

梯度錯(cuò)位(misaligned gradients):通過噪聲感知模型指導(dǎo)生成模型時(shí),兩個(gè)模型的結(jié)構(gòu)和目標(biāo)不完全匹配,導(dǎo)致從一個(gè)模型得到的梯度并不適用于另一個(gè)模型。同樣會(huì)導(dǎo)致梯度錯(cuò)位的原因還有:特征空間不同、訓(xùn)練數(shù)據(jù)不一致、近似方法或噪聲的影響等。

次優(yōu)控制(sub-optimal control):控制不夠優(yōu)化或理想,分類器梯度指導(dǎo)圖像生成,但是梯度本身不夠匹配或準(zhǔn)確, 導(dǎo)致控制生成圖像的過程并不完全理想或者最優(yōu)。

基于這種近似的缺點(diǎn),本文提出了一個(gè)新穎的引導(dǎo)方法:Direct Optimization of Diffusion Latents(DOODL)。該方法通過優(yōu)化擴(kuò)散潛變量相對(duì)于預(yù)訓(xùn)練分類器在真實(shí)生成的像素上的梯度,利用可逆擴(kuò)散過程實(shí)現(xiàn)內(nèi)存高效的反向傳播,實(shí)現(xiàn)即插即用的引導(dǎo)。

DOODL展示了更精確指導(dǎo)的潛力,在不同指導(dǎo)形式的計(jì)算和人類評(píng)估指標(biāo)上優(yōu)于一步分類器指導(dǎo):
使用CLIP指導(dǎo)改進(jìn)DrawBench中復(fù)雜提示的生成,使用細(xì)粒度視覺分類器擴(kuò)展Stable Diffusion的詞匯量,使用CLIP視覺編碼器實(shí)現(xiàn)圖像調(diào)節(jié)生成,使用美學(xué)評(píng)分網(wǎng)絡(luò)改進(jìn)圖像美感。

1 Introduction

為了實(shí)現(xiàn)靈活又準(zhǔn)確的模型梯度,而不適用noise-aware classifiers或近似手段,提出Direct Optimization Of Diffusion Latents (DOODL)。DOODL優(yōu)化了初始擴(kuò)散噪聲向量,相對(duì)于全鏈擴(kuò)散過程生成的基于模型的圖像損失。
利用EDICT(最近開發(fā)出的一種可以離散反演的擴(kuò)散算法),它允許與擴(kuò)散步數(shù)的內(nèi)存成本恒定的反向傳播,以計(jì)算最終生成的像素分類器相對(duì)于原始噪聲向量的梯度。這使得能夠?qū)D像像素上的任何可微損失進(jìn)行高效的迭代擴(kuò)散潛變量?jī)?yōu)化,并準(zhǔn)確計(jì)算用于分類器引導(dǎo)的梯度。

本文演示了DOODL在多種經(jīng)常使用的定量和人類評(píng)估研究中使用的引導(dǎo)信號(hào)上的效果。

【論文筆記】End-to-End Diffusion Latent Optimization Improves Classifier Guidance,機(jī)器學(xué)習(xí),論文筆記,學(xué)習(xí)筆記,論文閱讀

圖1:本文的方法改進(jìn)了所有測(cè)試設(shè)置中的普通分類器引導(dǎo),并且展示了此類方法的新穎的功能,例如詞匯擴(kuò)展,實(shí)體個(gè)性化和感知審美價(jià)值改進(jìn)。

第一,展示了使用DOODL的CLIP分類器引導(dǎo)改進(jìn)了由DrawBench數(shù)據(jù)集的文本提示引導(dǎo)的圖像生成,該數(shù)據(jù)集測(cè)試組合性和指導(dǎo)使用不尋常標(biāo)題的能力。
第二,展示了細(xì)粒度視覺分類器擴(kuò)展預(yù)訓(xùn)練穩(wěn)定擴(kuò)散模型詞匯量的能力,這個(gè)能力是one-step分類器不具備的。
第三,證明了DOODL可以用于個(gè)性化實(shí)體生成(如"A dog in sunglasses"),并且對(duì)任何新的網(wǎng)絡(luò)不進(jìn)行再訓(xùn)練。據(jù)我們所知,這是首次做到。
最后,利用DOODL來執(zhí)行一項(xiàng)新的任務(wù),提高生成/真實(shí)圖像的感知美學(xué)質(zhì)量,希望DOODL能夠?yàn)轭A(yù)訓(xùn)練的擴(kuò)散模型啟用和激發(fā)多種即插即用的功能。

2 Related Work

2.1 Text-to-Image Diffusion Models

Text-to-Image diffusion models,如GLIDE、DALLE-2、Imagen、Latent Diffusion、eDiffi,最近出現(xiàn)在圖像生成的前沿。
Classifier guidance使用預(yù)訓(xùn)練分類器模型的梯度來指導(dǎo)此類生成。在每個(gè)去噪步驟之前以固定的噪聲水平遍歷,而不是順序去噪。并發(fā)工作修改classifier guidance,以在繼續(xù)之前細(xì)化每個(gè)噪聲級(jí)別的梯度預(yù)測(cè)。
【論文筆記】End-to-End Diffusion Latent Optimization Improves Classifier Guidance,機(jī)器學(xué)習(xí),論文筆記,學(xué)習(xí)筆記,論文閱讀

表1:基于學(xué)習(xí)的(Learning-Based)方法需要數(shù)據(jù)集和訓(xùn)練,但是基于引導(dǎo)的(Guidance-Based)方法需要預(yù)訓(xùn)練識(shí)別網(wǎng)絡(luò)(在本文的設(shè)置中,是在非噪聲空間中訓(xùn)練的)

最近在diffusion models和可逆神經(jīng)網(wǎng)絡(luò)(invertible neural networks)的焦點(diǎn)處有一種新的方法:EDICT,它通過算法將去噪擴(kuò)散過程重新表述為可逆的過程。這項(xiàng)先前的工作僅關(guān)注了圖像編輯的應(yīng)用,沒有考慮可逆神經(jīng)網(wǎng)絡(luò)或類似過程的屬性。DDIM等方法理論上在離散化極限下是可逆的,但實(shí)際中無法達(dá)到這個(gè)極限。

2.2 Invertible Neural Networks (INNs)

雖然神經(jīng)網(wǎng)絡(luò)往往是非保維函數(shù),先前已經(jīng)有關(guān)于構(gòu)建可逆架構(gòu)的工作。此類INN的主要類別是標(biāo)準(zhǔn)化流模型,標(biāo)準(zhǔn)化流結(jié)構(gòu)中“耦合層“的修改版本被納入本工作使用的EDICT算法中。
也有工作提出了一種通過條件良好的逆問題而不是封閉式解決方案保證可逆的架構(gòu)。這種架構(gòu)的內(nèi)存節(jié)省已被用于長(zhǎng)序列循環(huán)神經(jīng)網(wǎng)絡(luò)并研究逆問題。

3 Background

3.1 Invertible Neural Networks w.r.t Memory

當(dāng)在神經(jīng)網(wǎng)絡(luò)中使用梯度下降法來優(yōu)化時(shí),設(shè)網(wǎng)絡(luò)參數(shù) Ξ = { ξ p } p = 1 p = P \Xi=\{\xi_p\}_{p=1}^{p=P} Ξ={ξp?}p=1p=P?,網(wǎng)絡(luò)輸入為 x x x,輸出為 y = f ( x ) y=f(x) y=f(x),損失函數(shù) c c c,計(jì)算導(dǎo)數(shù) d c ( y ) d ξ \frac{dc(y)}{d\xi} dξdc(y)?并執(zhí)行梯度下降從而最小化 E D a t a c ( y ) = E D a t a c ( f ( x ) ) \mathbb{E}_{Data} c(y)=\mathbb{E}_{Data} c(f(x)) EData?c(y)=EData?c(f(x))。其中 f f f隱含地以 Ξ \Xi Ξ為條件??紤] f f f n n n個(gè)函數(shù)(層)的組合: f n ° f n ? 1 ° ? ° f 1 f^n\circ f^{n-1}\circ \cdots\circ f^1 fn°fn?1°?°f1。為了優(yōu)化 ξ \xi ξ,計(jì)算第 i i i層參數(shù)的導(dǎo)數(shù) d c ( y ) d ξ \frac{dc(y)}{d\xi} dξdc(y)?。設(shè) f k ° f k ? 1 ° ? ° f j = F j k f^k\circ f^{k-1}\circ \cdots\circ f^j=F_j^k fk°fk?1°?°fj=Fjk?。 y = F 1 n ( x ) y=F_1^n(x) y=F1n?(x),那么相對(duì)于 ξ \xi ξ的導(dǎo)數(shù)可以用鏈?zhǔn)椒▌t來計(jì)算:
d c ( y ) d ξ = d c ( F 1 n ( x ) ) d ξ = d c ( F 1 n ( x ) ) d F 1 n ( x ) ? d F 1 n ( x ) d F 1 n ? 1 ( x ) ? d F 1 i ( x ) d F 1 i ? 1 ( x ) ? d F 1 i ? 1 ( x ) d x \begin{align} \frac{dc(y)}{d\xi}&=\frac{dc(F_1^n(x))}{d\xi}\tag{1} \\ &=\frac{dc(F_1^n(x))}{dF_1^n(x)}\cdot\frac{dF_1^n(x)}{dF_1^{n-1}(x)}\cdots\frac{dF_1^i(x)}{dF_1^{i-1}(x)}\cdot\frac{dF_1^{i-1}(x)}{dx}\tag{2} \end{align} dξdc(y)??=dξdc(F1n?(x))?=dF1n?(x)dc(F1n?(x))??dF1n?1?(x)dF1n?(x)??dF1i?1?(x)dF1i?(x)??dxdF1i?1?(x)??(1)(2)?
通常情況下,計(jì)算 d c ( y ) d ξ \frac{dc(y)}{d\xi} dξdc(y)?需要存儲(chǔ)所有的中間激活值,這是反向傳播的瓶頸。
跨處理器的網(wǎng)絡(luò)分片減少了每個(gè)處理器的硬件內(nèi)存需求,但總數(shù)仍然保持不變。
梯度檢查點(diǎn)降低了內(nèi)存成本,但是線性增加了運(yùn)行時(shí)間,節(jié)省了內(nèi)存。
INN可以從輸出中恢復(fù)中間狀態(tài)/輸入,通過避免激活緩存來降低內(nèi)存成本。如果Eq.1中每個(gè) f j f^j fj都是可逆的,分母項(xiàng)可以在向后傳遞期間重建。此類方法已被用來訓(xùn)練大型INN,其速度比不可逆的等效方法快得多。

3.2 Denoising Diffusion Models (DDMs)

圖像的DDMs被訓(xùn)練用于預(yù)測(cè)加入圖像 x x x的噪聲 ? \epsilon ?。噪聲被離散化后可以用一個(gè)集合 T = { 0 , 1 , ? ? , T } \mathcal{T}=\{0,1,\cdots,T\} T={0,1,?,T}來索引: { α t } t = 0 T , α T = 0 , α 0 = 1 \{\alpha_t\}_{t=0}^T,\alpha_T=0,\alpha_0=1 {αt?}t=0T?,αT?=0,α0?=1。 t ∈ T t\in \mathcal{T} tT在訓(xùn)練期間隨機(jī)采樣并和數(shù)據(jù) x ( i ) x^{(i)} x(i)(圖像或自動(dòng)編碼表示)生成噪聲樣本:
x t ( i ) = α t x ( i ) + 1 ? α t ? (3) x_t^{(i)}=\sqrt{\alpha_t}x^{(i)}+\sqrt{1-\alpha_t}\epsilon\tag{3} xt(i)?=αt? ?x(i)+1?αt? ??(3)
其中 ? ~ N ( 0 , I ) \epsilon\sim N(0,I) ?N(0,I)。

以時(shí)間步 t t t和輔助信息(例如圖像標(biāo)題) C C C為條件的DDM被訓(xùn)練以近似添加的噪聲: D D M ( x t ( i ) , t , C ) ≈ ? DDM(x_t^{(i)},t,C)\approx \epsilon DDM(xt(i)?,t,C)?。生成的過程中, x T ~ N ( 0 , 1 ) x_T\sim N(0,1) xT?N(0,1)采樣,DDM被迭代應(yīng)用,從噪聲中幻化出真實(shí)圖像。根據(jù)DDIM采樣模型,最后生成的 x 0 x_0 x0?等同于 S S S個(gè)去噪函數(shù)的復(fù)合函數(shù):在條件 C C C和步數(shù) t t t上應(yīng)用 Θ \Theta Θ。令 Θ ( x , t , C ) \Theta(x,t,C) Θ(x,t,C) Θ ( t , C ) ( x ) \Theta_{(t,C)}(x) Θ(t,C)?(x),于是有:
x 0 = [ Θ ( 0 , C ) ° Θ ( 1 , C ) ° ? ° Θ ( T , C ) ] ( x T ) (4) x_0=[\Theta_{(0,C)}\circ\Theta_{(1,C)}\circ\cdots\circ \Theta_{(T,C)}](x_T)\tag{4} x0?=[Θ(0,C)?°Θ(1,C)?°?°Θ(T,C)?](xT?)(4)

3.2.1 Classifier Guidance

除了 C C C以外,其他引導(dǎo)信號(hào)也可以引導(dǎo)生成圖像。最重要的例子:classifier guidance將估計(jì)像素上的損失梯度( c c l f c_{clf} cclf?,來自分類器網(wǎng)絡(luò) Φ \Phi Φ)合并到噪聲預(yù)測(cè)中。
從理論角度來看,這通常是對(duì)數(shù)條件概率 ? log ? p Φ ( y ∣ x t ) \nabla \log p_\Phi(y|x_t) ?logpΦ?(yxt?)的梯度。合并分類器指導(dǎo)有兩種主要方法:

  • 一個(gè)noise-aware classifier經(jīng)過訓(xùn)練可以直接用于中間(噪聲) x t x_t xt?,并將 ? x t c c l f ( x t ) \nabla_{x_t} c_{clf}(x_t) ?xt??cclf?(xt?)納入到去噪預(yù)測(cè)當(dāng)中。訓(xùn)練噪聲感知模型是有效的,但由于計(jì)算費(fèi)用和數(shù)據(jù)可用性而通常不可行。這導(dǎo)致公開的噪聲感知模型非常少。
  • x 0 x_0 x0?是通過 Θ ( t , C ) \Theta_{(t,C)} Θ(t,C)?來近似的,合并的梯度是 ? x t c c l f ( x 0 ? ) \nabla_{x_t} c_{clf}(x_0^*) ?xt??cclf?(x0??),其中 x 0 ? x_0^* x0??是一個(gè)單步近似,用 Θ ( t , C ) \Theta_{(t,C)} Θ(t,C)?來替換Eq.3中的 ? \epsilon ?。雖然可以使用標(biāo)準(zhǔn)模型,但是梯度是根據(jù)近似的 x 0 x_0 x0?來計(jì)算的,可能會(huì)導(dǎo)致 d c c l f ( x t ) x 0 \frac{dc_{clf}(x_t)}{x_0} x0?dcclf?(xt?)?無法對(duì)齊。

3.2.2 Exact Inversion of the Diffusion Process

最近,EDICT,一個(gè)離散的(時(shí)間步進(jìn))擴(kuò)散模型的精確可逆變體被提出。EDICT對(duì)潛在對(duì) ( x t , y t ) (x_t,y_t) (xt?,yt?)進(jìn)行操作,而不是單個(gè)變量。
初始化 x T = y T ~ N ( 0 , I ) x_T=y_T\sim N(0,I) xT?=yT?N(0,I),然后使用反向擴(kuò)散過程迭代去噪:
x t i n t e r = a t ? x t + b t ? Θ ( t , C ) ( y t ) y t i n t e r = a t ? y t + b t ? Θ ( t , C ) ( x t i n t e r ) x t ? 1 = p ? x t i n t e r + ( 1 ? p ) ? y t i n t e r y t ? 1 = p ? y t i n t e r + ( 1 ? p ) ? x t ? 1 (5) \begin{aligned} x_t^{inter}&=a_t\cdot x_t+b_t\cdot\Theta_{(t,C)}(y_t) \\ y_t^{inter}&=a_t\cdot y_t+b_t\cdot\Theta_{(t,C)}(x_t^{inter}) \\ x_{t-1}&=p\cdot x_t^{inter}+(1-p)\cdot y_t^{inter} \\ y_{t-1}&=p\cdot y_t^{inter}+(1-p)\cdot x_{t-1}\tag{5} \end{aligned} xtinter?ytinter?xt?1?yt?1??=at??xt?+bt??Θ(t,C)?(yt?)=at??yt?+bt??Θ(t,C)?(xtinter?)=p?xtinter?+(1?p)?ytinter?=p?ytinter?+(1?p)?xt?1??(5)
其中 ( a t , b t ) (a_t,b_t) (at?,bt?)是與時(shí)間有關(guān)的系數(shù), p ∈ [ 0 , 1 ] p\in[0,1] p[0,1]是用于減輕潛在漂移的混合系數(shù)。
直觀地說,整個(gè)過程,首先根據(jù)對(duì)方的狀態(tài)更新 x x x y y y序列,然后可逆地將它們”平均“在一起。
上述方程允許線性解來反轉(zhuǎn)它們,定義逆過程:
y t + 1 i n t e r = ( y t ? ( 1 ? p ) ? x t ) / p x t + 1 i n t e r = ( x t ? ( 1 ? p ) ? y t + 1 i n t e r ) / p y t + 1 = ( y t + 1 i n t e r ? b t + 1 ? Θ ( t + 1 , C ) ( x t + 1 i n t e r ) ) / a t + 1 x t + 1 = ( x t + 1 i n t e r ? b t + 1 ? Θ ( t + 1 , C ) ( y t + 1 ) ) / a t + 1 (6) \begin{aligned} y_{t+1}^{inter}&=(y_t-(1-p)\cdot x_t)/p \\ x_{t+1}^{inter}&=(x_t-(1-p)\cdot y_{t+1}^{inter})/p \\ y_{t+1}&=(y_{t+1}^{inter}-b_{t+1}\cdot\Theta_{(t+1,C)}(x_{t+1}^{inter}))/a_{t+1} \\ x_{t+1}&=(x_{t+1}^{inter}-b_{t+1}\cdot\Theta_{(t+1,C)}(y_{t+1}))/a_{t+1} \tag{6} \end{aligned} yt+1inter?xt+1inter?yt+1?xt+1??=(yt??(1?p)?xt?)/p=(xt??(1?p)?yt+1inter?)/p=(yt+1inter??bt+1??Θ(t+1,C)?(xt+1inter?))/at+1?=(xt+1inter??bt+1??Θ(t+1,C)?(yt+1?))/at+1??(6)
我們?cè)贒OODL中使用這個(gè)構(gòu)造,并在5.3節(jié)中使用Eq.6來編碼圖像 x 0 x_0 x0?為潛變量 x T x_T xT?

4 Direct Optimization of Diffusion Latents

我們的目標(biāo)是客服classifier guidance在3.2.1節(jié)中討論的短板。具體地,我們的方法有以下優(yōu)點(diǎn):

  • 不需要重新訓(xùn)練/微調(diào)一個(gè)已經(jīng)存在的預(yù)訓(xùn)練好的分類模型
  • 計(jì)算相對(duì)于真實(shí)輸出的梯度,而不是單步近似
  • 在語義上有意義的方式合并梯度,而不是對(duì)抗式擾動(dòng)
    特別強(qiáng)調(diào)最后一點(diǎn),相對(duì)于像素的梯度可以滿足分類器損失,同時(shí)不會(huì)在感知上改變圖像的內(nèi)容。這與GAN中的潛在優(yōu)化等技術(shù)相反,其中解碼器提供的正則化意味著優(yōu)化發(fā)生在擾動(dòng)通常會(huì)導(dǎo)致滿足所需目標(biāo)的感知上有意義的變化的空間中。
    這項(xiàng)工作中,我們的目標(biāo)是直接優(yōu)化擴(kuò)散潛勢(shì)(diffusion latents),這在文獻(xiàn)中第一次出現(xiàn)。

由Eq.4可知,針對(duì) x 0 x_0 x0?的期望結(jié)果對(duì) x T x_T xT?進(jìn)行優(yōu)化是微不足道的,Eq.1中有一個(gè)閉式表達(dá)式 d x 0 x T \frac{dx_0}{x_T} xT?dx0??
然而, 由于激活緩存,因?yàn)?span id="n5n3t3z" class="katex--inline"> Θ \Theta Θ T T T次應(yīng)用,原始內(nèi)存成本與DDIM采樣步驟的數(shù)量呈線性關(guān)系。當(dāng) S = 50 S=50 S=50時(shí),對(duì)于最先進(jìn)的擴(kuò)散模型來說,內(nèi)存成本接近1TB,對(duì)于大多數(shù)用途來說都是不切實(shí)際的。
梯度檢查點(diǎn)(Gradient checkpointing)以內(nèi)存換取計(jì)算復(fù)雜性,如果內(nèi)存成本保持不變,則每次向后傳遞的計(jì)算復(fù)雜性都會(huì)增加 S S S倍。

我們從3.1節(jié)的INN汲取靈感,在可行的運(yùn)行時(shí)間內(nèi)優(yōu)化 x T x_T xT?相對(duì) x 0 x_0 x0?的標(biāo)準(zhǔn)。在Eq.4中使用可逆的 Θ ( i , C ) \Theta_{(i,C)} Θ(i,C)?,即可在反向過程期間重建一個(gè)中間過程,僅使用相對(duì)于 T T T一個(gè)常數(shù)數(shù)量的 Θ \Theta Θ,在不犧牲運(yùn)行時(shí)間的情況下規(guī)避過高的內(nèi)存成本。

我們將最近研究發(fā)現(xiàn)的EDICT作為可逆的反向擴(kuò)散過程,其允許在常數(shù)內(nèi)存空間內(nèi)實(shí)現(xiàn)對(duì) x t x_t xt?的優(yōu)化。給定條件 C C C,基于可微模型的成本函數(shù) c c c,一個(gè)潛在抽樣 x T ( 0 ) x_T^{(0)} xT(0)?,執(zhí)行EDICT生成過程(50步, p = 0.93 p=0.93 p=0.93,Stable Diffusion v1.4),產(chǎn)生初始輸出 f ( x T ( 0 ) ) = x 0 ( 0 ) f(x_T^{(0)})=x_0^{(0)} f(xT(0)?)=x0(0)?,用于計(jì)算損失 c ( x 0 ( 0 ) ) c(x_0^{(0)}) c(x0(0)?)和相應(yīng)的梯度 ? x t c ( f ( x T ( 0 ) ) ) \nabla_{x_t} c(f(x_T^{(0)})) ?xt??c(f(xT(0)?))。然后這個(gè)梯度可以被用于對(duì) x T ( 0 ) x_T^{(0)} xT(0)?執(zhí)行梯度下降優(yōu)化步驟。

我們通過幾種關(guān)鍵的方式修改普通梯度下降,以獲得滿足指導(dǎo)標(biāo)準(zhǔn)的逼真圖像。
在每個(gè)優(yōu)化步驟之后,EDICT”完全噪聲“潛在對(duì) x T ( j ) x_T^{(j)} xT(j)? y T ( j ) y_T(j) yT?(j)(來自Eq.5~6)被一起平均并重新歸一化為初始抽取的 x T ( 0 ) x_T^{(0)} xT(0)?。平均可以防止?jié)撟兞科?,從而避免降低質(zhì)量。歸一化到原始范數(shù)可以保持”高斯殼(gaussian shell)“上的潛變量,保持?jǐn)U散模型上的分布。

我們還對(duì)生成的 ( x 0 , y 0 ) (x_0,y_0) (x0?,y0?)執(zhí)行多樣裁剪(multi-crop)數(shù)據(jù)的增強(qiáng),對(duì)每個(gè)圖像采樣進(jìn)行16次裁剪。采用的動(dòng)量 η = 0.9 \eta=0.9 η=0.9。我們發(fā)現(xiàn)Nesterov momentum沒有很多用處,最后,為了提高輸出圖像的穩(wěn)定性和真實(shí)性,每次更新我們對(duì) g g g進(jìn)行了逐元素裁剪,幅度為 1 0 ? 3 10^{-3} 10?3,擾動(dòng) x T x_T xT? N ( 0 , 1 0 ? 4 ? I ) \mathcal{N}(0,10^{-4}\cdot I) N(0,10?4?I)上采樣。

【論文筆記】End-to-End Diffusion Latent Optimization Improves Classifier Guidance,機(jī)器學(xué)習(xí),論文筆記,學(xué)習(xí)筆記,論文閱讀
圖3:文章來源地址http://www.zghlxwxcb.cn/news/detail-783904.html

  • A:基礎(chǔ)的classifier guidance。在每一步 t t t中,通過一步去噪近似 x 0 x_0 x0?,計(jì)算相對(duì)于這次生成 x 0 x_0 x0?的逐像素的損失。該損失的梯度被納入后續(xù)的擴(kuò)散步驟中。
  • B:EDICT。擴(kuò)散過程的可逆變體,允許在整個(gè)鏈中進(jìn)行反向傳播,而無需額外的內(nèi)存成本。
  • C:DOODL。我們利用EDICT,展示了針對(duì)最終生成物計(jì)算的模型損失可以被直接用于優(yōu)化完整的噪聲 x T x_T xT?。
    圖中 ? \nabla ?表示基于可微模型的損失的梯度計(jì)算。

到了這里,關(guān)于【論文筆記】End-to-End Diffusion Latent Optimization Improves Classifier Guidance的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【論文筆記3】RFN-Nest: An end-to-end residual fusion network for infrared and visible images

    【論文筆記3】RFN-Nest: An end-to-end residual fusion network for infrared and visible images

    RFN-Nest:紅外與可見光圖像的端對(duì)端殘差融合網(wǎng)絡(luò) 寶子們,今天學(xué)習(xí)了RFN-Nest這篇文獻(xiàn),和上一篇的DenseFuse同一個(gè)作者。下面是我的學(xué)習(xí)記錄,希望對(duì)各位寶子們有所幫助~ 設(shè)計(jì)可學(xué)習(xí)的融合策略是圖像融合領(lǐng)域的一個(gè)極具挑戰(zhàn)性的問題。前面我們學(xué)習(xí)的DenseNet就是手工融合策

    2024年03月27日
    瀏覽(26)
  • END-TO-END OPTIMIZED IMAGE COMPRESSION論文閱讀

    END-TO-END OPTIMIZED IMAGE COMPRESSION論文閱讀

    END-TO-END OPTIMIZED IMAGE COMPRESSION 單詞 image compression 圖像壓縮 quantizer 量化器 rate–distortion performance率失真性能 a variant of 什么什么的一個(gè)變體 construct 構(gòu)造 entropy 熵 discrete value 離散值 摘要: We describe an image compression method, consisting of a nonlinear analysis transformation, a uniform quantizer,

    2024年02月12日
    瀏覽(25)
  • End-to-End Object Detection with Transformers(論文解析)

    End-to-End Object Detection with Transformers(論文解析)

    我們提出了一種將目標(biāo)檢測(cè)視為直接集合預(yù)測(cè)問題的新方法。我們的方法簡(jiǎn)化了檢測(cè)流程,有效地消除了許多手工設(shè)計(jì)的組件的需求,如顯式編碼我們關(guān)于任務(wù)的先驗(yàn)知識(shí)的非極大值抑制過程或錨點(diǎn)生成。新框架的主要要素,稱為DEtection TRansformer或DETR,包括一個(gè)基于集合的全

    2024年02月09日
    瀏覽(27)
  • 【Deformable DETR 論文+源碼解讀】Deformable Transformers for End-to-End Object Detection

    【Deformable DETR 論文+源碼解讀】Deformable Transformers for End-to-End Object Detection

    上一篇講完了DETR相關(guān)原理和源碼,打算繼續(xù)再學(xué)習(xí)DETR相關(guān)改進(jìn)。這次要解讀的是21年發(fā)表的一篇論文: ICLR 2021:Deformable DETR: Deformable Transformers for End-to-End Object Detection 。 先感謝這位知乎大佬,講的太細(xì)了: Deformable DETR: 基于稀疏空間采樣的注意力機(jī)制,讓DCN與Transformer一起玩

    2023年04月16日
    瀏覽(17)
  • Trajectory-guided Control Prediction for End-to-end Autonomous Driving論文學(xué)習(xí)

    Trajectory-guided Control Prediction for End-to-end Autonomous Driving論文學(xué)習(xí)

    端到端自動(dòng)駕駛方法直接將原始傳感器數(shù)據(jù)映射為規(guī)劃軌跡或控制信號(hào),范式非常簡(jiǎn)潔,從理論上避免了多模塊設(shè)計(jì)的錯(cuò)誤疊加問題和繁瑣的人為規(guī)則設(shè)計(jì)。當(dāng)前的端到端自動(dòng)駕駛方法主要有兩條獨(dú)立的研究路線,要么基于規(guī)劃軌跡來運(yùn)行控制器,要么直接預(yù)測(cè)控制信號(hào)。端

    2024年02月05日
    瀏覽(34)
  • [論文閱讀&代碼]DehazeNet: An End-to-End System for Single Image Haze Removal

    [論文閱讀&代碼]DehazeNet: An End-to-End System for Single Image Haze Removal

    現(xiàn)有的單圖像去霧方法使用很多約束和先驗(yàn)來獲得去霧結(jié)果,去霧的關(guān)鍵是根據(jù)輸入的霧圖獲得得到介質(zhì)傳輸圖(medium transmission map) 這篇文章提出了一種端到端的可訓(xùn)練的去霧系統(tǒng)—Dehaze Net,用于估計(jì)介質(zhì)傳輸圖 Dehaze Net中,輸入為霧圖,輸出為介質(zhì)傳輸圖,隨后通過大氣散

    2024年02月08日
    瀏覽(18)
  • 【論文閱讀】DeepVO: Towards End-to-End Visual Odometry with Deep Recurrent Convolutional Neural Networks

    【論文閱讀】DeepVO: Towards End-to-End Visual Odometry with Deep Recurrent Convolutional Neural Networks

    相較于傳統(tǒng)的視覺里程計(jì),端到端的方法可以認(rèn)為是把特征提取、匹配、位姿估計(jì)等模塊用深度學(xué)習(xí)模型進(jìn)行了替代。不同于那種用深度學(xué)習(xí)模型取代里程計(jì)框架一部分的算法,端到端的視覺里程計(jì)是直接將整個(gè)任務(wù)替換為深度學(xué)習(xí),輸入依然是圖像流,結(jié)果也依然是位姿,

    2024年03月18日
    瀏覽(30)
  • An End-to-End Learning-Based Metadata Management Approach for Distributed File Systems——論文閱讀

    An End-to-End Learning-Based Metadata Management Approach for Distributed File Systems——論文閱讀

    TC 2022 Paper,元數(shù)據(jù)論文閱讀匯總 “multiple metadata server (MDS)” 多個(gè)元數(shù)據(jù)服務(wù)器 “l(fā)ocality preserving hashing (LPH)” 局部保持哈希 “Multiple Subset Sum Problem (MSSP).” 多子集和問題 “polynomial-time approximation scheme (PTAS)” 多項(xiàng)式時(shí)間近似方法 目前的分布式文件系統(tǒng)被設(shè)計(jì)用于支持 PB 規(guī)

    2024年02月02日
    瀏覽(22)
  • 論文解讀《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose 》

    論文解讀《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose 》

    論文:《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation》 Code:https://github.com/tjiiv-cprg/epro-pnp (909 star) 作者的視頻簡(jiǎn)單介紹:https://www.bilibili.com/video/BV13T411E7kb 摘要: 解決問題: 對(duì)于6D位姿估計(jì),基于幾何(PnP)的方法性能要好一些,但以前

    2024年02月03日
    瀏覽(20)
  • 深度學(xué)習(xí)中端到端(end-to-end)簡(jiǎn)要理解

    深度學(xué)習(xí)中端到端(end-to-end)簡(jiǎn)要理解

    端到端指的是輸入是原始數(shù)據(jù),輸出是最后的結(jié)果。而原來的輸入端不是直接的原始數(shù)據(jù)(raw data),而是在原始數(shù)據(jù)中提取的特征(features)。這一點(diǎn)在圖像問題上尤為突出,因?yàn)閳D像像素?cái)?shù)太多,數(shù)據(jù)維度高,會(huì)產(chǎn)生維度災(zāi)難,所以原來一個(gè)思路是手工提?。╤and-crafted f

    2024年02月09日
    瀏覽(26)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包