国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【AIGC-圖片生成視頻系列-4】DreamTuner：單張圖像足以進(jìn)行主題驅(qū)動生成

1年前作者：AI杰克王分類：Toy博客閱讀(16)違法舉報

這篇具有很好參考價值的文章主要介紹了【AIGC-圖片生成視頻系列-4】DreamTuner：單張圖像足以進(jìn)行主題驅(qū)動生成。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

一. 項目概述

問題：

解決：

二.?方法詳解

a) 整體結(jié)構(gòu)

b) 自主題注意力

三. 文本控制的動漫角色驅(qū)動圖像生成的結(jié)果

四. 文本控制的自然圖像驅(qū)動圖像生成的結(jié)果

五. 姿勢控制角色驅(qū)動圖像生成的結(jié)果

2023年的最后一天，發(fā)個文記錄下。馬上就要迎來新的一年，在這里預(yù)祝各位讀者新年新氣象！

今天要介紹的是字節(jié)的DreamTuner: Single Image is Enough for Subject-Driven Generation，可以通過單張圖像實現(xiàn)特定主題的驅(qū)動生成。

一. 項目概述

什么是主題驅(qū)動生成？使用一張或幾張參考圖像生成定制概念的個性化應(yīng)用。

問題：

現(xiàn)有的基于微調(diào)的方法需要在主題學(xué)習(xí)和維護(hù)預(yù)訓(xùn)練模型的生成能力之間進(jìn)行權(quán)衡，個人理解是模型特化和泛化的權(quán)衡。
基于附加圖像編碼器的其他方法往往由于編碼壓縮而丟失主題的一些重要細(xì)節(jié)。

解決：

文中提出了?DreamTurner，這是一種從粗到細(xì)注入定制主題的參考信息的新穎方法。

首先提出了一種用于粗略主題身份保留的主題編碼器，其中在視覺文本交叉注意之前通過附加注意層引入壓縮的一般主題特征。
然后，我們將預(yù)訓(xùn)練的文本到圖像模型中的self-attention修改為self-subject-attention層，以細(xì)化目標(biāo)主體的細(xì)節(jié)。值得強(qiáng)調(diào)的是，self-subject-attention是一種優(yōu)雅、有效、免訓(xùn)練的方法，用于維護(hù)定制概念的詳細(xì)特征，可以在推理過程中用作即插即用的解決方案。
最后，通過僅對單個圖像進(jìn)行額外的微調(diào)，DreamTurner 在由文本或姿勢等其他條件控制的主題驅(qū)動圖像生成方面取得了卓越的性能。

【AIGC-圖片生成視頻系列-4】DreamTuner：單張圖像足以進(jìn)行主題驅(qū)動生成,AIGC中的Diffusion Models,AIGC,人工智能,計算機(jī)視覺,深度學(xué)習(xí),算法

二.?方法詳解

DreamTuner 作為一種基于微調(diào)和圖像編碼器的主題驅(qū)動圖像生成的新穎框架，它保持從粗到細(xì)的主題身份。

DreamTuner由三個階段組成：主題編碼器預(yù)訓(xùn)練、主題驅(qū)動微調(diào)和主題驅(qū)動推理。

首先，訓(xùn)練主題編碼器以進(jìn)行粗略的身份保留。主題編碼器是一種圖像編碼器，為生成模型提供壓縮圖像特征。凍結(jié)的 ControlNet 用于解耦內(nèi)容和布局。
然后我們在參考圖像和一些生成的常規(guī)圖像上微調(diào)整個模型，如 DreamBooth 中一樣。請注意，主題編碼器和自主題注意力用于常規(guī)圖像生成以細(xì)化常規(guī)數(shù)據(jù)。
在推理階段，通過微調(diào)獲得的主題編碼器、自身主題注意力和主題詞[S*]用于從粗到細(xì)地進(jìn)行主題身份保留。預(yù)訓(xùn)練的 ControlNet 還可用于布局控制生成。

a) 整體結(jié)構(gòu)

【AIGC-圖片生成視頻系列-4】DreamTuner：單張圖像足以進(jìn)行主題驅(qū)動生成,AIGC中的Diffusion Models,AIGC,人工智能,計算機(jī)視覺,深度學(xué)習(xí),算法

提出的主題編碼器作為一種圖像編碼器，為主題驅(qū)動生成提供粗略參考。使用凍結(jié)的 CLIP 圖像編碼器來提取參考圖像的壓縮特征。使用顯著對象檢測（SOD）模型或分割模型來去除輸入圖像的背景并強(qiáng)調(diào)主題。
然后引入一些殘差塊（ResBlock）進(jìn)行域移位。CLIP提取的多層特征在通道維度上cat操作，然后通過殘差塊調(diào)整到與生成特征相同的維度。使用附加的主題編碼器注意（SEA）層將主題編碼器的編碼參考特征注入到文本到圖像模型中。主題編碼器注意層添加在視覺文本交叉注意之前，因為交叉注意層是控制生成圖像的總體外觀的模塊。
根據(jù)與交叉注意力相同的設(shè)置構(gòu)建主題編碼器注意力，并將輸出層初始化為零。附加系數(shù)β引入來調(diào)整主題編碼器的影響。
此外，進(jìn)一步引入ControlNet來幫助解耦內(nèi)容和布局。具體來說，我們訓(xùn)練主題編碼器和凍結(jié)深度 ControlNet。由于ControlNet提供了參考圖像的布局，主題編碼器可以更加關(guān)注主題內(nèi)容。

b) 自主題注意力

【AIGC-圖片生成視頻系列-4】DreamTuner：單張圖像足以進(jìn)行主題驅(qū)動生成,AIGC中的Diffusion Models,AIGC,人工智能,計算機(jī)視覺,深度學(xué)習(xí),算法

由于主題編碼器為生成過程提供了特定主題的一般外觀，因此進(jìn)一步提出基于原始自注意力層的自主題注意力，以實現(xiàn)良好的主題身份保存。
將預(yù)訓(xùn)練的文本到圖像 U-Net 模型提取的參考圖像的特征注入到自注意力層中。
參考特征可以提供精細(xì)且詳細(xì)的參考，因為它們與生成圖像的特征共享相同的分辨率。具體來說，在每個時間步長通過擴(kuò)散前向過程對參考圖像進(jìn)行噪聲處理t。
然后從噪聲參考圖像中提取每個自注意力層之前的參考特征，這些特征與時間步長生成的圖像特征共享相同的數(shù)據(jù)分布。
利用參考特征將原始的自注意力層修改為自主題注意力層。將生成圖像的特征作為查詢，并將生成圖像特征和參考圖像特征的進(jìn)行cat操作作為鍵和值。
為了消除參考圖像背景的影響，使用顯著對象檢測（SOD）模型創(chuàng)建前景掩模，其中使用0和1來指示背景和前景。
此外，掩模還可以通過權(quán)重策略來調(diào)整參考圖像影響的大小，即掩模乘以調(diào)整系數(shù), 起到注意偏差的作用，因此使用對數(shù)函數(shù)作為預(yù)處理。

【AIGC-圖片生成視頻系列-4】DreamTuner：單張圖像足以進(jìn)行主題驅(qū)動生成,AIGC中的Diffusion Models,AIGC,人工智能,計算機(jī)視覺,深度學(xué)習(xí),算法

將原來的分類器免引導(dǎo)方法也修改為：

【AIGC-圖片生成視頻系列-4】DreamTuner：單張圖像足以進(jìn)行主題驅(qū)動生成,AIGC中的Diffusion Models,AIGC,人工智能,計算機(jī)視覺,深度學(xué)習(xí),算法

第一個方程強(qiáng)調(diào)參考圖像的引導(dǎo)，第二個方程強(qiáng)調(diào)條件的引導(dǎo)，用概率控制選擇第一個或者第二個的可能性。

三. 文本控制的動漫角色驅(qū)動圖像生成的結(jié)果

結(jié)果顯示了專注于動漫角色的文本控制的主題驅(qū)動圖像生成的輸出。

局部編輯結(jié)果（例如第一行的表達(dá)式編輯）和全局編輯結(jié)果（包括后續(xù)五行的場景和動作編輯），即使輸入復(fù)雜的文本也能產(chǎn)生高度詳細(xì)的圖像。值得注意的是，圖像準(zhǔn)確地保留了參考圖像的細(xì)節(jié)。

【AIGC-圖片生成視頻系列-4】DreamTuner：單張圖像足以進(jìn)行主題驅(qū)動生成,AIGC中的Diffusion Models,AIGC,人工智能,計算機(jī)視覺,深度學(xué)習(xí),算法

四. 文本控制的自然圖像驅(qū)動圖像生成的結(jié)果

該方法在 DreamBooth 數(shù)據(jù)集上進(jìn)行評估，其中每個主題的一張圖像用作參考圖像。通過使用主題編碼器和自我主題注意力，生成精確的參考。

這使得 DreamTuner 能夠成功生成與文本輸入一致的高保真圖像，同時還保留關(guān)鍵的主題細(xì)節(jié)，包括但不限于、小狗頭上的白色條紋、包上的徽標(biāo)、罐頭上的圖案和文字。
【AIGC-圖片生成視頻系列-4】DreamTuner：單張圖像足以進(jìn)行主題驅(qū)動生成,AIGC中的Diffusion Models,AIGC,人工智能,計算機(jī)視覺,深度學(xué)習(xí),算法

【AIGC-圖片生成視頻系列-4】DreamTuner：單張圖像足以進(jìn)行主題驅(qū)動生成,AIGC中的Diffusion Models,AIGC,人工智能,計算機(jī)視覺,深度學(xué)習(xí),算法

五. 姿勢控制角色驅(qū)動圖像生成的結(jié)果

該方法可以與 ControlNet 相結(jié)合，將其適用性擴(kuò)展到各種條件，例如姿勢。在下面的示例中，僅使用一張圖像進(jìn)行 DreamTuner 微調(diào)，并使用參考圖像的姿態(tài)作為參考條件。為了保證幀間的一致性，參考圖像和生成圖像的前一幀都用于自我注意力，參考權(quán)重分別為10和1。?

【AIGC-圖片生成視頻系列-4】DreamTuner：單張圖像足以進(jìn)行主題驅(qū)動生成,AIGC中的Diffusion Models,AIGC,人工智能,計算機(jī)視覺,深度學(xué)習(xí),算法

關(guān)注公眾號【AI杰克王】

1. 回復(fù)“資源”，獲取AIGC 博客教程，頂級大學(xué)PPT知識干貨；

2. 回復(fù)“星球”，獲取AIGC 免費知識星球入口，有前沿資深算法工程師分享討論。

歡迎加入AI杰克王的免費知識星球，海量干貨等著你，一起探討學(xué)習(xí)AIGC!

【AIGC-圖片生成視頻系列-4】DreamTuner：單張圖像足以進(jìn)行主題驅(qū)動生成,AIGC中的Diffusion Models,AIGC,人工智能,計算機(jī)視覺,深度學(xué)習(xí),算法文章來源地址http://www.zghlxwxcb.cn/news/detail-770391.html

到了這里，關(guān)于【AIGC-圖片生成視頻系列-4】DreamTuner：單張圖像足以進(jìn)行主題驅(qū)動生成的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

【超詳細(xì)】AIGC生成圖片和視頻
前沿準(zhǔn)備接入源代碼這兩天突然看到一個niubility的項目，名叫：stability，這個網(wǎng)站就是大名鼎鼎的stability，網(wǎng)址是：stability.io，感興趣的朋友可以去訪問試試。今天的主要目的是寫一個對接這個項目的一個實操案例，主要是用golang來實現(xiàn)的。下面呢我會帶著大家一步一步
2024年02月03日
瀏覽(13)
DreamTalk：單張圖像即可生成逼真人物說話頭像動畫，助力AI數(shù)字人落地
“ DreamTalk: When Expressive Talking Head Generation Meets Diffusion Probabilistic Models ” DreamTalk是一個基于擴(kuò)散的音頻驅(qū)動的富有表現(xiàn)力的說話頭生成框架，可以生成不同說話風(fēng)格的高質(zhì)量的說話頭視頻。DreamTalk對各種輸入表現(xiàn)出強(qiáng)大的性能，包括歌曲、多語言語音、噪聲音頻和域外肖像。
2024年04月15日
瀏覽(22)
AIGC系列文章目錄第三章 AIGC 簡單易用免費的AI圖像生成器: Stable Diffusion
目前親測體驗的AI圖像生成器有NovelAI、MJ和Stable Diffusion。其中，支持免費、無限生成、超高專業(yè)級畫質(zhì) 的只有 Stable Diffusion 。 Stable Diffusion 由 Stable Diffusion XL 提供支持，是一款最先進(jìn)的工具，可以將您的想象力變?yōu)楝F(xiàn)實。只需點擊幾下和簡單的文本輸入，您就可以創(chuàng)建令人
2024年02月03日
瀏覽(36)
【三維生成】Make-it-3D：diffusion+NeRF從單張圖像生成高保真三維物體（上交&微軟）
題目 : Make-It-3D: High-Fidelity 3D Creation from A Single Image with Diffusion Prior Paper : https://arxiv.org/pdf/2303.14184.pdf Code : https://make-it-3d.github.io/ 在本文中，研究者的目標(biāo)是：從一個真實或人工生成的單張圖像中創(chuàng)建高保真度的3D內(nèi)容。這將為藝術(shù)表達(dá)和創(chuàng)意開辟新的途徑，例如為像Stable
2024年02月13日
瀏覽(23)
AIGC之Image2Video（一）| Animate Anyone：從靜態(tài)圖像生成動態(tài)視頻，可將任意圖像角色動畫化
? ? ? ?近日，阿里發(fā)布了Animate Anyone，只需一張人物照片，結(jié)合骨骼動畫，就能生成人體動畫視頻。項目地址：https://humanaigc.github.io/animate-anyone/ 論文地址：https://arxiv.org/pdf/2311.17117.pdf Github ：https://github.com/HumanAIGC/AnimateAnyone ? ? ? ?在圖像生成領(lǐng)域視頻，尤其是在角色動
2024年02月04日
瀏覽(20)
自動駕駛采集多視角圖像處理（python實現(xiàn)不同文件夾下同名圖片批量拼接并生成視頻）
目錄 1.圖像拼接 2.合成視頻 2.1 cv2.videowriter_fourcc功能介紹 2.2讀取圖片合成視頻實現(xiàn)目標(biāo)：將自動駕駛車6個攝像頭采集到的圖片，按照正確順序拼接顯示，nuScenes數(shù)據(jù)集測試如下：圖像存放文件夾目錄如下：每個目錄下有相同名稱，不同視角采集到的圖像?。先顯示圖片，代
2024年01月18日
瀏覽(33)
AIGC技術(shù)研究與應(yīng)用 ---- 下一代人工智能：新范式！新生產(chǎn)力?。?.3-大模型發(fā)展歷程之圖像、視頻生成與視覺大模型）
2024年02月09日
瀏覽(96)
LLM-分布式訓(xùn)練工具（一）：DeepSpeed【微軟】【大模型分布式訓(xùn)練工具，實現(xiàn)ZeRO并行訓(xùn)練算法】【zero3配置將模型參數(shù)切分后分配到不同的顯卡中，突破單張顯卡容量不足以加載模型參數(shù)的限制】
DeepSpeed是微軟推出的大規(guī)模模型分布式訓(xùn)練的工具，主要實現(xiàn)了ZeRO并行訓(xùn)練算法。原始文檔鏈接： DeepSpeed Optimizer state partitioning (ZeRO stage 1) Gradient partitioning (ZeRO stage 2) Parameter partitioning (ZeRO stage 3) Custom mixed precision training handling A range of fast CUDA-extension-based optimizers ZeRO-Offlo
2024年02月16日
瀏覽(23)
aigc圖像生成技術(shù)
【AI繪畫】AI圖像生成技術(shù)時間軸（截至2023年2月28日）_嗶哩嗶哩_bilibili 摸了兩天魚做出來的ppt, 視頻播放量 31473、彈幕量 186、點贊數(shù) 1618、投硬幣枚數(shù) 1014、收藏人數(shù) 2654、轉(zhuǎn)發(fā)人數(shù) 907, 視頻作者大江戶戰(zhàn)士, 作者簡介 The future is now，相關(guān)視頻：第1集熱血重燃！16名頂尖AI程序
2024年02月15日
瀏覽(25)
【AIGC】圖片生成的原理與應(yīng)用
近兩年 AI 發(fā)展非常迅速，其中的 AI 繪畫也越來越火爆，AI 繪畫在很多應(yīng)用領(lǐng)域有巨大的潛力，AI 甚至能模仿各種著名藝術(shù)家的風(fēng)格進(jìn)行繪畫。目前比較有名商業(yè)化的 AI 繪畫軟件有 Midjourney、DALL·E2、以及百度出品的文心一格：https://yige.baidu.com/creation 但是他們都有一個共同點
2024年02月05日
瀏覽(25)