国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

最近讀的AIGC相關(guān)論文思路解讀

這篇具有很好參考價(jià)值的文章主要介紹了最近讀的AIGC相關(guān)論文思路解讀。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

AIGC之SD可控生成論文閱讀記錄

提示:本博客是作者本人最近對(duì)AIGC領(lǐng)域相關(guān)論文調(diào)研后,臨時(shí)記錄所用,所有觀點(diǎn)都是來自作者本人局限理解,以及個(gè)人思考,不代表對(duì)。如果你也正好看過相關(guān)文章,發(fā)現(xiàn)作者的想法和思路有問題,歡迎評(píng)論區(qū)留言指正!

既然是論文閱讀分享,首先,你需要有一些AIGC基礎(chǔ)知識(shí),許多基礎(chǔ)概念我不會(huì)具體深入講它是什么!



1. ControlNet

最近讀的AIGC相關(guān)論文思路解讀

這篇文章在一個(gè)框架下統(tǒng)一了SD模型添加各種模態(tài)做受控生成的方法,包括但不限于Edge Map, Sketch, Depth Info, Segmentation Map, Human Pose, Normal Maps 等。9類!具體來說,對(duì)于預(yù)訓(xùn)練好的模型(比如作者使用SD1.5-UNet里Encoder和MidLayer的ResNet和Transformer層)里的一層結(jié)構(gòu), 作者固定了其參數(shù),并將該層的輸入額外添加了一個(gè)全聯(lián)接映射后的條件c,輸入到一個(gè)和該層結(jié)構(gòu)一致的復(fù)制網(wǎng)絡(luò)里,再映射一次后重新添加回原結(jié)構(gòu)里的輸出。按照作者的解釋來看,這樣做的好處有兩個(gè):一個(gè)是最大程度的保留原模型的生成能力,另一個(gè)是新添加的組件將以0值初始化所以在優(yōu)化的初始階段該模型的輸出與原模型等價(jià)。

即對(duì)于一張模型生成的圖片,其UNet的decoder一定已經(jīng)包含了其生成的一些空間信息,語義信息等。直接抽取decoder相關(guān)的特征,添加到當(dāng)前的生成能夠影響當(dāng)前生成的布局語義等。

最近讀的AIGC相關(guān)論文思路解讀

很想問具體融合方式?是否需要注意力?條件圖類型不同照理說加法不同,但是作者給統(tǒng)一了。全部作為圖像,做多尺度特征提取。

統(tǒng)一的條件

  1. 作者所針對(duì)的每一個(gè)模態(tài),都可以通過已有模型的基礎(chǔ)上快速獲得大量數(shù)據(jù).(比如canny filter對(duì)edge的提取,midas對(duì)深度圖的提取等)。類似于InstructPix2Pix這篇工作,針對(duì)當(dāng)前任務(wù)造出一個(gè)百萬級(jí)別大小的訓(xùn)練數(shù)據(jù),可能是微調(diào)模型使其學(xué)到隱式關(guān)系的關(guān)鍵。

  2. 作者提出的架構(gòu)和對(duì)額外模態(tài)的輸入形式使得一個(gè)通用架構(gòu)成為可能。在上面介紹結(jié)構(gòu)時(shí),筆者提到作者是針對(duì)UNet的前半部分里的每一層做額外信息添加和復(fù)制訓(xùn)練的。其中當(dāng)然就包括了Resnet的卷積層。即無論什么模態(tài)的信息,作者的架構(gòu)都可以把它作為圖像通過UNet的encoder對(duì)其進(jìn)行多尺度的信息特征的提取。大量參數(shù)(對(duì)Encoder+MidLayer的復(fù)制)加上大量訓(xùn)練數(shù)據(jù)加上適配的網(wǎng)絡(luò)架構(gòu)可能是其成功的關(guān)鍵。

  3. 對(duì)信息的添加及添加位置的選定。如果直觀上來理解,在UNet的encoder階段添加模態(tài)信息引導(dǎo)使得Decoder生成時(shí)考慮到相關(guān)添加信息當(dāng)然符合直覺。但為何作者沒有選定(只)在Transformer層這樣的模態(tài)信息制導(dǎo)生成的關(guān)鍵位置添加模塊,而是一視同仁且是在每一層的結(jié)尾做信息融合。

上面主要搬運(yùn)自中森。


2. T2I-Adapter

最近讀的AIGC相關(guān)論文思路解讀

幾乎跟Control-Net沒區(qū)別,區(qū)別只有兩點(diǎn):

  1. T2I-Adapter可以同時(shí)組合輸入多種類型的Condition,用超參數(shù) ω \omega ω控制的。
  2. T2I-Adapter是從SD的Encoder部分傳入Condition的。

個(gè)人思考

  1. 是否可以說明在加條件在編,解碼器部分是都能成功的。
  2. 為啥上面這倆加條件都僅僅是堆疊,而不是做cross attention。

3. Composer

最近讀的AIGC相關(guān)論文思路解讀

ComposerControlNet和T2I-Adapter的思路類似。

思路:可編輯圖像生成其實(shí)就是對(duì)圖像各種元素的組合,Composer先用各種不同的模型將各種不同的圖片分解成各種元素,然后將不同圖片的元素進(jìn)行重組。比如上圖的戴珍珠耳環(huán)的少女,可以分解成shape、semantics、sketch、masking、style、content、intensity、palette、文字等等元素,然后跟其他不同圖片的元素進(jìn)行想要的重組。

最近讀的AIGC相關(guān)論文思路解讀

條件添加方式

  1. Global Conditions: sentence embeddings, image embeddings and color histograms, 都需要添加到Timestep中
  2. Localized Conditions:segmentation maps, depthmaps, sketches, grayscale images, and masked images,并且需要添加到Noisy Image中。

Inpainting作用:通過引入掩蔽的正交表示,Composer能夠?qū)⒖删庉媴^(qū)域限制為用戶指定的區(qū)域,用于所有上述操作,比傳統(tǒng)的修復(fù)操作更靈活,同時(shí)還防止修改該區(qū)域以外的像素。

訓(xùn)練方式 :傾向于自監(jiān)督,重建損失由原圖X0和生成的X0副本相似性構(gòu)建。它的編碼器是一個(gè)多任務(wù)網(wǎng)絡(luò),分別由許多包含預(yù)訓(xùn)練的分支構(gòu)成(分割,顏色,直方圖等)。利用多任務(wù)網(wǎng)絡(luò)獲得條件C,再利用C,用噪聲Z去完成擴(kuò)散模型的反向擴(kuò)散過程,獲得X0副本。

條件使用方式

  1. 我個(gè)人理解和ControlNet是一致的,具體細(xì)節(jié)還是分開處理,文本(Caption)用Bert或者CLIP中的文本編碼去提特征。而圖像就用Unet的自編碼器作為多尺度特征提取。
  2. 多個(gè)條件之間,是分別用概率P去控制加和獲得最終條件。

推理階段:可以完成Zero-Shot任務(wù),輸入任意一張圖,可以獲得8中子集,再用噪聲Z去組合重建出自己想要的信息。舉個(gè)例子,對(duì)于Mask圖像,輸入噪聲Z和掩碼mask條件和文本prompt,進(jìn)行精確更改。

個(gè)人思考:圖像生成盡可能準(zhǔn)確豐富的提取圖像中各個(gè)維度的結(jié)構(gòu)化信息(包括文字信息),然后通過Stable Diffusion模型組合融入想要的結(jié)構(gòu)化信息,進(jìn)而達(dá)到完全自主可控的圖像生成。

============================================分界線
下面看兩篇針對(duì)人臉的可控生成的

4. Diffusion-AE

最近讀的AIGC相關(guān)論文思路解讀

總結(jié):

  1. 采用卷積編碼器提取高級(jí)語義特征Zsem,如:年齡、性別、頭發(fā)的樣式。
  2. 采用Conditonal DDIM提取低級(jí)隨機(jī)變化特征。再XT重建回X0的時(shí)候又以剛剛的Zsem為條件。
  3. 該方法,可以同時(shí)提取圖像高級(jí)語義特征和低級(jí)隨機(jī)變化,可以用于很多下 游任務(wù)。
  4. 為了無條件生成,該方法又專門針對(duì)獲得Zsem額外訓(xùn)練了Latent DDIM,以增加生成的多樣性。

思考:

  1. 與Composer相比,我的理解是這里的卷積提取Zsem特征就類似于Composer用各種不同的模型將各種不同的圖片分解成各種元素的總和過程。不過Zsem更加粗粒度,而Composer拆解的特征更加細(xì)粒度!
  2. 總之,擴(kuò)散模型還原過程都要有充分的特征做支撐才能做到自主生成!

5. Diffusion-Rig

架構(gòu)圖傳不上來,一直說違規(guī),,,沒辦法。。。

總結(jié):

  1. Diff-AE很相似,但是總的架構(gòu)更像Stylegan-rig就是在擴(kuò)散模型中加條件,Diff-AE只是加了二維卷積特征作為條件(高階語義信息,而擴(kuò)散模型DDIM編碼器部分作為低階語義信息提取器),這里的話,加了三維的DECA模型抽取的特征分別稱為為Surface Normals,Albedo, Lambertian Render這三者和編碼器特征(也是卷積,提取全局外觀信息,低階)。

  2. DiffAE的架構(gòu)一致,它們的目的都是基于自動(dòng)編碼器的結(jié)構(gòu)進(jìn)行重建原圖構(gòu)建loss。在Diff-AE中,它為了做無條件生成,需要重新針對(duì)高級(jí)語義特征Z的獲得額外訓(xùn)練一個(gè)Latent DDIM。而本文則是分為雙階段完成該任務(wù)。第一階段,利用DECA抽取的特征作為physical buffer(其實(shí)就是條件)和卷積的全局外觀信息,在大規(guī)模人臉數(shù)據(jù)集上進(jìn)行訓(xùn)練和重建。在第二階段,凍結(jié)擴(kuò)散模型編碼器部分(卷積全局特征信息)。只利用DDIM進(jìn)行Finetune, 就是說,只針對(duì)當(dāng)前的特定人的相冊比如20來張照片進(jìn)行微調(diào),保留住身份信息,就能完成任務(wù)了。

============================================分界線
下面看兩篇針對(duì)可控訓(xùn)練中訓(xùn)練技巧的,這個(gè)點(diǎn)其實(shí)在中森的文章中也提到了。

6. Taming-Encoder

最近讀的AIGC相關(guān)論文思路解讀

架構(gòu)梳理總結(jié):
本質(zhì)上就是一個(gè)擴(kuò)散模型,在文本引導(dǎo)條件的基礎(chǔ)上還加了圖像中的目標(biāo)編碼條件,就是加一個(gè)額外的Cross Attention模塊共同去生成最終圖像。
本文的重點(diǎn)研究內(nèi)容就是怎么把這個(gè)圖像目標(biāo)編碼器向量嵌入到擴(kuò)散模型反向擴(kuò)散過程中,還要?jiǎng)e影響到了原本的文本條件的引導(dǎo)生成作用??傊褪亲屗鼈z條件合作,而不能互相影響。

最近讀的AIGC相關(guān)論文思路解讀

核心貢獻(xiàn)創(chuàng)新其實(shí)就倆:

  1. 提出正則化聯(lián)合訓(xùn)練方案和目標(biāo)身份保留損失,也就是Figure 3。
    總結(jié)就是防止圖像目標(biāo)編碼特征太強(qiáng)影響到文本條件的引導(dǎo)作用,所以,要把身份信息(CLIP中自帶的)從對(duì)象嵌入中分離出來,所以以一定概率用其他人的頭像。

  2. 提出一個(gè)字幕生成方案,主要是針對(duì)特定領(lǐng)域數(shù)據(jù)集的文本描述設(shè)計(jì)的。
    分別有兩個(gè)模型,分別叫標(biāo)題模型和屬性模型(預(yù)訓(xùn)練好的)。分別提取各自文本描述再粘貼到一起,作為文本的條件描述。這可以避免文本條件屬性丟失問題。

7. Paint by Example

最近讀的AIGC相關(guān)論文思路解讀

架構(gòu)梳理總結(jié)

因?yàn)樾枰臄?shù)據(jù)集無法構(gòu)建,提出替代方案,用一張圖的檢測框作為mask,框里面的圖就是參考圖。把參考圖里面的目標(biāo)還原回原始圖里。把還原回來的圖和真實(shí)的原圖做損失計(jì)算。
為了保證該方法不偷懶,直接學(xué)復(fù)制粘貼操作。分別提出下面兩點(diǎn)創(chuàng)新:

  1. 利用預(yù)訓(xùn)練的SD作初始化,把參考圖提取特征后只保留CLS的token,再通過Cross Attention的方式,加上一些額外的全連接層到擴(kuò)散過程中去解碼特征。避免圖像特征給多了讓神經(jīng)網(wǎng)絡(luò)偷懶。
  2. 參考圖做數(shù)據(jù)增強(qiáng),(反轉(zhuǎn),平移等),檢測框的mask形狀做更多的隨機(jī)調(diào)整,模擬真實(shí)性。
最近讀的AIGC相關(guān)論文思路解讀

Figure 3. 這就是典型的偷懶現(xiàn)象,直接復(fù)制粘貼操作,融合的很差。為了避免這個(gè)現(xiàn)象,采用了創(chuàng)新思路。
思考:其實(shí)本質(zhì)上就僅僅只是一個(gè)圖作為Reference條件生圖的架構(gòu),作者也一直在強(qiáng)調(diào)圖像生成圖像的直觀作用大于文本引導(dǎo)生成圖像,所以,它設(shè)計(jì)了這個(gè)架構(gòu)。最值得學(xué)習(xí)的是它的數(shù)據(jù)增強(qiáng)思路和特征Cross Attention方式。

============================================分界線
下面看兩篇簡單的針對(duì)可控區(qū)域生成的

8. GLIGEN

數(shù)據(jù)圖:

最近讀的AIGC相關(guān)論文思路解讀

注意力添加方式:

最近讀的AIGC相關(guān)論文思路解讀

核心思路:將bbox的信息和其對(duì)應(yīng)的詞的text embedding拼接過一個(gè)全聯(lián)接網(wǎng)絡(luò)MLP后得到我們的融合表征grounding tokens。這個(gè)表征會(huì)注入到UNet里self-attn和cross-attn之間,以一個(gè)新的架構(gòu)gated-self-attn的方式添加進(jìn)網(wǎng)絡(luò)。

**個(gè)人思考:**直接加位置信息和對(duì)應(yīng)的文本屬性到擴(kuò)散模型中,直接就可以在對(duì)應(yīng)的區(qū)域生成自己想要的內(nèi)容。方法很簡單,缺點(diǎn)也很明顯,加了額外的自注意力層,帶來了很多的額外的訓(xùn)練開銷!

9. Improving Diffusion Models for Scene Text Editing with Dual Encoders

架構(gòu)圖:

最近讀的AIGC相關(guān)論文思路解讀

方法架構(gòu)梳理總結(jié):

類似于GLIGEN,也是對(duì)Cross Attention操作。在SD的原本的文本條件(instruction encoder負(fù)責(zé)風(fēng)格)的基礎(chǔ)上,加了一個(gè)額外的character encoder,負(fù)責(zé)文本的易讀性和真實(shí)性。這倆編碼器得到的公共的條件一起進(jìn)行Cross Attention。

訓(xùn)練細(xì)節(jié): 數(shù)據(jù)要Instruction word,mask,GT。 8張V100 80Ksteps 兩天完成。

**個(gè)人思考:**本質(zhì)上只是為了完成字符的融入任務(wù),甚至這里的Instruct word都可以不需要語義信息,反而更多應(yīng)該關(guān)注單詞本身字符和圖像風(fēng)格。缺點(diǎn)也一樣,需要額外訓(xùn)練。

============================================分界線
最后再介紹兩篇不需要訓(xùn)練的,公式推理就比較復(fù)雜了,作者能力有限,只能看個(gè)大概。

10. Training-Free Layout Control with Cross-Attention Guidance

核心方法圖:

最近讀的AIGC相關(guān)論文思路解讀

目標(biāo)是:
研究預(yù)訓(xùn)練的文本到圖像生成器是否可以在推理過程中遵守用戶指定的布局,而無需使用明確的布局條件進(jìn)行訓(xùn)練。例如,給定文本描述y,文本提示中單詞yi的索引i和邊界框B,我們希望生成一個(gè)在B中包含yi的圖像x,本質(zhì)上修改生成器以從具有額外控件的新分布p(x|y,B,i)中采樣。

方法架構(gòu)梳理總結(jié):
就是對(duì)Cross Attention層進(jìn)行操作,學(xué)習(xí)布局信息去引導(dǎo)生成。操作方式分為兩種,前向和后向。
最近讀的AIGC相關(guān)論文思路解讀

  1. 前向引導(dǎo):正向引導(dǎo)直接修改激活層以符合規(guī)定的模式,在推理過程開始時(shí),該模式被反復(fù)“強(qiáng)制”進(jìn)行多次去噪迭代。當(dāng)模型開始在正確的圖像區(qū)域中生成正確的輸出時(shí),注意力自然會(huì)與規(guī)定的布局相匹配。
    最近讀的AIGC相關(guān)論文思路解讀

  2. 后向引導(dǎo):類似于classifier guidance的模式,使用損失函數(shù)來評(píng)估注意力圖是否遵循期望的模式,并修改latent以引導(dǎo)注意力集中在特定區(qū)域。

  3. 作者還發(fā)現(xiàn)了EOT和SOT這種不包含固定圖像區(qū)域的token包含了很多位置和布局信息。(我很想問,這是不是就是Text Inversion干的事兒呢?)

個(gè)人思考:
個(gè)人感覺前向就是利用注意力讓模型強(qiáng)制在目標(biāo)框內(nèi)生成,反向就是保證生成的類別是對(duì)的。(不知道是不是這個(gè)意思),總的來說都是設(shè)計(jì)了計(jì)算公式,修改預(yù)訓(xùn)練好的模型的權(quán)重符合自己的需求而不需要額外訓(xùn)練!

這里我只貼了相關(guān)公式,沒有對(duì)公式變量進(jìn)行解釋,需要看懂并且自己推理的需要自己去看原文。(注:如果您看懂了,作者十分樂意向您請(qǐng)教!?。?/p>

11. Universal Guidance for Diffusion Models

最近讀的AIGC相關(guān)論文思路解讀

核心就提出了通用的guidance方法,使任何現(xiàn)成的模型或損失函數(shù)(分割,檢測等)都可以作為擴(kuò)散的guidance。由于guidance函數(shù)可以在不重新訓(xùn)練或修改的情況下使用,這種形式的guidance是通用的,因?yàn)樗梢允箶U(kuò)散模型適用于幾乎任何目的。

總結(jié)了Guidance和Condition的區(qū)別:Guidance無需額外訓(xùn)練,Condition視任務(wù)需要額外的巨大的訓(xùn)練開銷。Guidance更加高端吧!

難點(diǎn):怎么直接把擴(kuò)散采樣過程中的噪聲圖像域遷移到被訓(xùn)練的guidance模型的干凈圖像上。

研究關(guān)鍵:classifier guidance, 改變采樣方式,而不改變模型!

研究Motivation點(diǎn):宋飏的DDIM,最近讀的AIGC相關(guān)論文思路解讀

Guidance方式:前向,后向,Per-step Self-recurrence三種方式。

利用classifier guidance作為前向guidance的理論基礎(chǔ),但是前向guidance會(huì)過度保留圖像真實(shí)性,于是利用后向guidance給生成的圖像匹配prompt提供了優(yōu)化方向,并優(yōu)先實(shí)施約束,輔助生成的圖像滿足限制。然而,既能確保真實(shí)性又能滿足guidance約束的最佳點(diǎn)并不總是存在的。于是,有了Per-step Self-recurrence的思路,通過給 Zt-1 插入K次高斯噪聲找到滿足真實(shí)性和guidance約束的最佳點(diǎn)。(一次找不到,多找?guī)状危?/p>

個(gè)人思考:公式還是太復(fù)雜了,只能看個(gè)懵懵懂懂。個(gè)人理解就是跟上一篇Training-Free Layout Control with Cross-Attention Guidance的思路類似,不過本文如題目所說,更加具有普適性,可以同時(shí)結(jié)合各種(多個(gè))預(yù)訓(xùn)練模型作為guidance,得到想要的結(jié)果。

總結(jié)

以上就是今天要分享的內(nèi)容,作者能力有限,記錄也是為了將來復(fù)習(xí)回顧,如果能幫到您就更好了。
最后附上所有參考文獻(xiàn)(順序自己對(duì)一下):

Zhang L, Agrawala M. Adding conditional control to text-to-image diffusion models[J]. arXiv preprint arXiv:2302.05543, 2023.

Mou C, Wang X, Xie L, et al. T2i-adapter: Learning adapters to dig out more controllable ability for text-to-image diffusion models[J]. arXiv preprint arXiv:2302.08453, 2023.

Huang L, Chen D, Liu Y, et al. Composer: Creative and controllable image synthesis with composable conditions[J]. arXiv preprint arXiv:2302.09778, 2023.

Preechakul K, Chatthee N, Wizadwongsa S, et al. Diffusion autoencoders: Toward a meaningful and decodable representation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 10619-10629.

Jia X, Zhao Y, Chan K C K, et al. Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Diffusion Models[J]. arXiv preprint arXiv:2304.02642, 2023.

Yang B, Gu S, Zhang B, et al. Paint by Example: Exemplar-based Image Editing with Diffusion Models[J]. arXiv preprint arXiv:2211.13227, 2022.

Liu S, Zeng Z, Ren T, et al. Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection[J]. arXiv preprint arXiv:2303.05499, 2023.

Chen M, Laina I, Vedaldi A. Training-Free Layout Control with Cross-Attention Guidance[J]. arXiv preprint arXiv:2304.03373, 2023.

Bansal A, Chu H M, Schwarzschild A, et al. Universal Guidance for Diffusion Models[J]. arXiv preprint arXiv:2302.07121, 2023.

Ding Z, Zhang X, Xia Z, et al. DiffusionRig: Learning Personalized Priors for Facial Appearance Editing[J]. arXiv preprint arXiv:2304.06711, 2023.

Ji J, Zhang G, Wang Z, et al. Improving Diffusion Models for Scene Text Editing with Dual Encoders[J]. arXiv preprint arXiv:2304.05568, 2023.文章來源地址http://www.zghlxwxcb.cn/news/detail-496338.html

到了這里,關(guān)于最近讀的AIGC相關(guān)論文思路解讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • AIGC系列之:ControlNet原理及論文解讀

    AIGC系列之:ControlNet原理及論文解讀

    《Adding Conditional Control to Text-to-Image Diffusion Models》 目錄 1.背景介紹 2.原理詳解 2.1 Controlnet 2.2 用于Stable Diffusion的ControlNet 2.3 訓(xùn)練 2.4 推理 3.實(shí)驗(yàn)結(jié)果 3.1 定性結(jié)果 3.2 消融實(shí)驗(yàn) 3.3 和之前結(jié)果比較? 3.4 數(shù)據(jù)集大小的影響 4.結(jié)論 ????????Stable Diffusion大模型的開源,使得AI繪畫

    2024年01月22日
    瀏覽(24)
  • MTN模型LOSS均衡相關(guān)論文解讀

    MTN模型LOSS均衡相關(guān)論文解讀

    目錄 一、綜述 二、依據(jù)任務(wù)不確定性加權(quán)多任務(wù)損失 ?三、依據(jù)不同任務(wù)的梯度大小來動(dòng)態(tài)修正其loss權(quán)重GradNorm 四、根據(jù)LOSS變化動(dòng)態(tài)均衡任務(wù)權(quán)重Dynamic Weight Average(DWA) 五、Reference? MTN模型主要用于兩個(gè)方面,1.將多個(gè)模型合為一個(gè)顯著降低車載芯片負(fù)載。2.將多個(gè)任務(wù)模

    2024年02月04日
    瀏覽(19)
  • 【深度學(xué)習(xí)】關(guān)系抽取概念及相關(guān)論文解讀

    【深度學(xué)習(xí)】關(guān)系抽取概念及相關(guān)論文解讀

    ????????信息抽取是構(gòu)建知識(shí)圖譜的必要條件。知識(shí)圖譜中以(subject,relation,object)三元組的形式表示數(shù)據(jù)。信息抽取分為兩大部分,一部分是命名實(shí)體識(shí)別,識(shí)別出文本中的實(shí)體,另外就是關(guān)系抽取,對(duì)識(shí)別出來的實(shí)體構(gòu)建對(duì)應(yīng)的關(guān)系,兩者便是構(gòu)建三元組的基本組成

    2024年02月04日
    瀏覽(22)
  • AIGC究竟是什么?深度解讀人工智能生成內(nèi)容

    隨著科技的飛速發(fā)展,人工智能已經(jīng)不再是遙不可及的未來技術(shù),而是與我們的生活密切相關(guān)。從智能手機(jī)到自動(dòng)駕駛汽車,從聊天機(jī)器人到醫(yī)療診斷系統(tǒng),人工智能的應(yīng)用越來越廣泛。在這個(gè)過程中,AIGC(人工智能生成內(nèi)容)作為一個(gè)新興的概念,正逐步走進(jìn)公眾的視野。

    2024年02月09日
    瀏覽(108)
  • AIGC接下來的研究思路 生成式AI投資研究框架

    AIGC接下來的研究思路 生成式AI投資研究框架

    AIGC接下來的研究思路 | AIGC 原創(chuàng) 科技周豎人 科技周豎人 2023-04-26 23:22 發(fā)表于上海 文 | 科技周豎人 歡迎關(guān)注同名公眾號(hào)獲取更詳細(xì)內(nèi)容 寫在前面:AIGC全稱生成式AI(AI Generated Content),與傳統(tǒng)AI最大的區(qū)別體現(xiàn)在其強(qiáng)大的創(chuàng)造性。傳統(tǒng)AI側(cè)重于從現(xiàn)有的數(shù)據(jù)中識(shí)別出模式,其

    2024年02月09日
    瀏覽(19)
  • AIGC - 視頻生成模型的相關(guān)算法進(jìn)展

    AIGC - 視頻生成模型的相關(guān)算法進(jìn)展

    歡迎關(guān)注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/135688206 視頻生成技術(shù)確實(shí)是一個(gè)很有潛力的顛覆性技術(shù)領(lǐng)域,可以作為企業(yè)創(chuàng)新梯隊(duì)的重點(diǎn)關(guān)注方向,最近發(fā)展很快,一直也有跟進(jìn)這個(gè)方向的發(fā)展。 當(dāng)前視頻生成技術(shù)在哪些方面已突破,

    2024年01月20日
    瀏覽(21)
  • AIGC專業(yè)應(yīng)用:生成論文開題報(bào)告

    AIGC專業(yè)應(yīng)用:生成論文開題報(bào)告

    正文共? 965? 字,閱讀大約需要? 4? 分鐘 畢業(yè)生必備技巧,您將在4分鐘后獲得以下超能力: 自動(dòng)生成開題報(bào)告 Beezy評(píng)級(jí)?:B級(jí) *經(jīng)過簡單的尋找, 大部分人能立刻掌握。主要節(jié)省時(shí)間。 推薦人? |?nanako ? 編輯者? |? Linda ●此圖片由Lexica?自動(dòng)生成,輸入:College students w

    2024年02月09日
    瀏覽(21)
  • TPS Motion(CVPR2022)視頻生成論文解讀

    TPS Motion(CVPR2022)視頻生成論文解讀

    論文: 《Thin-Plate Spline Motion Model for Image Animation》 github: https://github.com/yoyo-nb/Thin-Plate-Spline-Motion-Model 問題: 盡管當(dāng)前有些工作使用無監(jiān)督方法進(jìn)可行任意目標(biāo)姿態(tài)遷移,但是當(dāng)源圖與目標(biāo)圖差異大時(shí),對(duì)當(dāng)前無監(jiān)督方案來說仍然具有挑戰(zhàn)。 方法: 本文提出無監(jiān)督TPS Motio

    2023年04月11日
    瀏覽(103)
  • AnimateDiff論文解讀-基于Stable Diffusion文生圖模型生成動(dòng)畫

    AnimateDiff論文解讀-基于Stable Diffusion文生圖模型生成動(dòng)畫

    論文: 《AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning》 github: https://github.com/guoyww/animatediff/ 隨著文生圖模型Stable Diffusion及個(gè)性化finetune方法:DreamBooth、LoRA發(fā)展,人們可以用較低成本生成自己所需的高質(zhì)量圖像,這導(dǎo)致對(duì)于圖像動(dòng)畫的需求越來越多

    2024年02月14日
    瀏覽(25)
  • 論文怎么降低AIGC(人工智能生成內(nèi)容)的影響?

    論文怎么降低AIGC(人工智能生成內(nèi)容)的影響?

    大家好,小發(fā)貓降重今天來聊聊論文怎么降低AIGC(人工智能生成內(nèi)容)的影響?,希望能給大家提供一點(diǎn)參考。 以下是針對(duì)論文重復(fù)率高的情況,提供一些修改建議和技巧,可以借助此類工具: 論文怎么降低AIGC(人工智能生成內(nèi)容)的影響? 在學(xué)術(shù)界,隨著人工智能技術(shù)

    2024年03月16日
    瀏覽(44)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包