国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models

這篇具有很好參考價值的文章主要介紹了AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models

代碼:lllyasviel/ControlNet: Let us control diffusion models! (github.com)
論文地址

最近AI繪畫又雙叒叕進化了,前一次還只能生成二次元,這次三次元都能生成了。這次AI繪畫這么火爆的原因跟下面這篇文章脫不開關系,它將AI繪畫帶到了一個新的高度。

摘要

我們提出了一個神經(jīng)網(wǎng)絡結(jié)構(gòu)controlnet網(wǎng)絡來控制預訓練的大擴散模型以支持額外的輸入條件。controlnet網(wǎng)絡以端到端的方式學習任務特定條件,即使在訓練數(shù)據(jù)集較小( < 50k )的情況下,學習也是魯棒的。此外,訓練一個controlnet網(wǎng)絡和微調(diào)一個擴散模型一樣快,并且模型可以在個人設備上訓練?;蛘?,如果有強大的計算集群,模型可以擴展到大量的(百萬到十億)數(shù)據(jù)。我們報告了像Stable Diffusion這樣的大型擴散模型可以用ControlNets來增強,以啟用邊緣圖、分割圖、關鍵點等條件輸入。這可能會豐富控制大型擴散模型的方法,進而方便相關應用。

介紹

提出的問題

  • 基于文本提示的控制來生成圖像是否滿足我們的需求?
  • 在圖像處理中,考慮到許多長期存在的具有明確問題表述的任務,能否應用這些大模型來方便這些特定的任務?
  • 我們應該構(gòu)建什么樣的框架來處理廣泛的問題條件和用戶控制?
  • 在特定的任務中,大型模型可以保留從數(shù)十億張圖像中獲得的優(yōu)勢和能力?

文章的發(fā)現(xiàn)

  • 任務特定領域的可用數(shù)據(jù)規(guī)模并不總是像一般圖文領域那樣大。像姿勢理解這些領域的數(shù)據(jù)集就很小。這就要求在針對特定問題訓練大型模型時,采用穩(wěn)健的神經(jīng)網(wǎng)絡訓練方法以避免過擬合并保持泛化能力。
  • 當使用數(shù)據(jù)驅(qū)動的解決方案處理圖像處理任務時,大型計算集群并不總是可用的,因為耗時耗內(nèi)存。所以需要利用預訓練的權(quán)重,以及微調(diào)策略或遷移學習。
  • 各種圖像處理問題具有不同形式的問題定義、用戶控制或圖像標注??紤]到一些特定的任務,如depth-to-image、pose-to-person等,這些問題本質(zhì)上需要將原始輸入解釋為對象級或場景級的理解,這使得hand-crafted的過程性方法變得不可行。為了在許多任務中實現(xiàn)學習到的解決方案,端到端的學習是必不可少的。

根據(jù)以上的發(fā)現(xiàn),文章提出了控制大型圖像擴散模型(像Stable Diffusion)去學習任務特定輸入條件的端到端神經(jīng)網(wǎng)絡架構(gòu)ControlNet。

模型介紹

  • ControlNet將大型擴散模型的權(quán)重克隆為"trainale copy"和"locked copy":locked copy保留了從數(shù)十億張圖像中學習到的網(wǎng)絡能力,而trainale copy則在任務特定的數(shù)據(jù)集上訓練學習條件控制。
  • 可訓練和鎖定的神經(jīng)網(wǎng)絡塊與一種稱為"zero-convolution"的獨特類型的卷積層連接,其中卷積權(quán)重以學習的方式從零到優(yōu)化參數(shù)逐步增長。由于保留了production-ready權(quán)重,因此訓練在不同規(guī)模的數(shù)據(jù)集上具有魯棒性。由于zero-convolution并沒有給深度特征增加新的噪聲,因此與從頭開始訓練新層相比,訓練速度與微調(diào)擴散模型一樣快。

令人十分欣喜的是,在深度到圖像等任務中,在個人計算機(1個Nvidia RTX 3090TI)上訓練ControlNets可以取得與在擁有TB級GPU內(nèi)存和數(shù)千GPU小時的大型計算集群上訓練的商業(yè)模型相當?shù)慕Y(jié)果。

網(wǎng)絡概覽

AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models
解釋:

  • 整體還是U-Net框架

  • 注意整個網(wǎng)絡是一起訓練的,右邊綠色部分的初始參數(shù)是從左邊copy過來的,左邊部分的參數(shù)不能訓練,右邊部分的可以訓練。

  • 使用ControlNet創(chuàng)建穩(wěn)定擴散的12個編碼塊和1個中間塊的trainable copy,對應右邊綠色部分的。

  • 將條件圖像變成64 × 64的特征空間方法:使用一個4 × 4 kernel,2 × 2步長的4個卷積層,卷積層通過ReLU激活,通道數(shù)分別為16、32、64、128,以高斯權(quán)重初始化,與整個模型聯(lián)合訓練)的網(wǎng)絡,公式描述如下:
    AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models
    cf是轉(zhuǎn)換后的特征圖。

方法

所作的工作

AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models

初始網(wǎng)絡塊

如圖a所示:沒有使用ControlNet之前的一個網(wǎng)絡塊,用公式描述就是:
AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models
其中x是一個特征圖,F(xiàn)代表一個神經(jīng)網(wǎng)絡塊,它的參數(shù)是Θ,這個網(wǎng)絡塊將x轉(zhuǎn)換成另一個特征圖

使用了ControlNet的網(wǎng)絡塊

如圖b所示:使用了ControlNet之后的一個網(wǎng)絡塊,它所作的修改如下:

(1)它從原來的網(wǎng)絡中復制了一份參數(shù),這份參數(shù)是可以訓練的(論文中叫trainable copy,它的參數(shù)為Θc),而原來網(wǎng)絡的參數(shù)是不能訓練的(論文中叫l(wèi)ocked copy),也就是圖中加鎖的部分。

這樣做的目的是為了防止數(shù)據(jù)量小的時候過擬合并且保留之前模型的生成質(zhì)量。

(2)增加了zero-convolution,它的特點是權(quán)重和偏差都初始化為0。

經(jīng)過(1)(2)的修改后,新的網(wǎng)絡塊用公式描述就是:
AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models
其中Z表示zero convolution操作,Θz1和Θz2是兩個zero convolution的參數(shù)。

zero-convolution的訓練介紹

在第一個訓練階段,有:
AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models
因此我們可以推出:
AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models
因為優(yōu)化之前卷積部分的參數(shù)都是0,根據(jù)卷積操作的運算過程可知卷積的結(jié)果都是0。

由此可以看到:在第一個訓練步驟中,神經(jīng)網(wǎng)絡塊的trainable copy和locked copy的所有輸入和輸出都與ControlNet網(wǎng)絡不存在時一致。也就是說在開始優(yōu)化參數(shù)之前,ControlNet不會對深度神經(jīng)特征造成任何影響。任何進一步的優(yōu)化都將變得像微調(diào)(相比于從頭訓練這些層)一樣快。

梯度下降過程:

一個卷積層的公式描述如下:
AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models
I是輸入的特征圖,B是偏差,W是權(quán)重。
它的梯度為:(注意它的權(quán)重W和偏差B初始值都是0)
AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models
從這個公式可以看出,zero-convolution可以導致特征項I上的梯度變?yōu)榱?,但是?quán)重和偏置的梯度不受影響。

在本文中,I為輸入數(shù)據(jù)或從數(shù)據(jù)集中采樣的條件向量,肯定不為0,則在第一次梯度下降迭代中將權(quán)重W優(yōu)化為非零矩陣。梯度下降過程如下:
AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models
然后特征上的梯度變?yōu)椋?br>AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models
此時特征上的梯度不為0,由此神經(jīng)網(wǎng)絡開始學習。

訓練

損失函數(shù)跟擴散模型差不多,增加了任務指向型的條件參數(shù)cf。
AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models
同時文章將50 %的文本提示ct隨機替換為空字符串。這有利于增強ControlNet從輸入條件圖中識別語義內(nèi)容的能力。

實驗效果

挑幾個出來。

(1)使用Hough lines
AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models
(2)使用Canny算子
AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models
(3)使用姿勢
AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models

不足

當語義解釋是錯誤的,模型生成正確的內(nèi)容可能會有困難。
AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models
本來輪廓應該是杯子,但是即使給出文字提示是杯子也無法逆轉(zhuǎn)過來。文章來源地址http://www.zghlxwxcb.cn/news/detail-507934.html

到了這里,關于AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權(quán),不承擔相關法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • AI繪畫SD插件ControlNet模型解析

    AI繪畫SD插件ControlNet模型解析

    功能型: IP2P : 環(huán)境背景天氣修改, 以及單獨修改人物, make it xxx 。 Tile分塊重采樣:忽略細節(jié),并添加新的細節(jié)。 Inpaint局部重繪: 修改局部時, 更能懂得輸入的提示詞元素。 Reference參考:生成與參考圖像相似的圖像。會受模型和提示詞的影響。只使用預處理器,不適用控

    2024年02月11日
    瀏覽(24)
  • 【AIGC】【AI繪畫】controlNet介紹(原理+使用)

    【AIGC】【AI繪畫】controlNet介紹(原理+使用)

    下載安裝:建議下載V1.1版本 論文:https://arxiv.org/pdf/2302.05543.pdf 下載ControlNet倉庫 切換到ControlNet主目錄 創(chuàng)建名為control的conda虛擬環(huán)境并安裝依賴 激活名為control的虛擬環(huán)境 所有模型和檢測器都可以從 Hugging Face頁面下載。確保 SD 模型放在“ControlNet/models”中 , 檢測器放在“

    2024年02月08日
    瀏覽(53)
  • ControlNet多重控制功能推出,AI繪畫進入導演時代!

    ControlNet多重控制功能推出,AI繪畫進入導演時代!

    目錄 一、“不會開發(fā)游戲的AI工具制作者不是好博士” ?二、ControlNet出現(xiàn)的背景 三、什么是ControlNet? 四、「神采 Prome AI」的誕生 五、總結(jié) 去年DALLE2,Stable Diffusion等文-圖底層大模型發(fā)布帶動了應用層的發(fā)展,出現(xiàn)了一大批爆款產(chǎn)品,被認為是”AI繪畫元年“。目光再轉(zhuǎn)到今

    2024年02月08日
    瀏覽(26)
  • AI繪畫:SDXL版ControlNet模型和使用方法!

    AI繪畫:SDXL版ControlNet模型和使用方法!

    SDXL是目前最強的AI繪畫基礎模型,直接加載模型,就可以生成不錯的效果。但是它有一個致命的問題,就是不支持ControlNet。 在AI繪畫中,ControlNet是一個非常重要的工具。有了它,就可以生成更加可控精準的圖片。ControlNet的用途非常多,比如,控制人物姿勢、線稿上色、動漫

    2024年02月09日
    瀏覽(26)
  • 最新版本 Stable Diffusion 開源 AI 繪畫工具之 ControlNet 篇

    ControlNet 就是控制網(wǎng),并不需要你多了解它的底層原理,簡單來說,在 ControlNet 出來前,你使用 stable diffusion 時生成圖片,就像開盲盒 在圖片生成出來前,你根本不知道圖片內(nèi)容究竟是怎樣的,而 ControlNet 就是對于出圖更精準的一種控制 隨著 ControlNet 的出現(xiàn),才真正意義上讓

    2024年02月08日
    瀏覽(34)
  • 進階--AI繪畫里你必須要直到的controlnet模型使用方法

    進階--AI繪畫里你必須要直到的controlnet模型使用方法

    哈嘍,各位小伙伴們大家好,有一段時間沒有更新了,最近也是忙著搬家忙著置辦家具等等,今天終于得空,于是乎連忙抽空做了這期關于controlnet的使用教程。 因為最近我也是發(fā)現(xiàn),controlnet對于AI繪畫來說可真是太重要了,說白了,這個插件用好了,將會大大的提升我們的

    2024年02月04日
    瀏覽(34)
  • Stable Diffuse AI 繪畫 之 ControlNet 插件及其對應模型的下載安裝

    Stable Diffuse AI 繪畫 之 ControlNet 插件及其對應模型的下載安裝

    目錄 Stable Diffuse AI 繪畫 之 ControlNet 插件及其對應模型的下載安裝 一、簡單介紹 二、ControlNet 插件下載安裝 三、ControlNet 插件模型下載安裝 四、ControlNet 插件其他的下載安裝方式 五、ControlNet 插件模型名稱說明 Stable Diffusion是一個文本到圖像的潛在擴散模型,由CompVis、Stabil

    2024年02月08日
    瀏覽(26)
  • 借助 ControlNet 生成藝術二維碼 – 基于 Stable Diffusion 的 AI 繪畫方案

    借助 ControlNet 生成藝術二維碼 – 基于 Stable Diffusion 的 AI 繪畫方案

    背景介紹 在過去的數(shù)月中,亞馬遜云科技已經(jīng)推出了多篇博文,來介紹如何在亞馬遜云科技上部署 Stable Diffusion,或是如何結(jié)合 Amazon SageMaker 與 Stable Diffusion 進行模型訓練和推理任務。 為了幫助客戶快速、安全地在亞馬遜云科技上構(gòu)建、部署和管理應用程序,眾多合作伙伴與

    2024年02月08日
    瀏覽(23)
  • AI繪畫stablediffusion comfyui SDXL Controlnet模型終于全了 tile來了

    AI繪畫stablediffusion comfyui SDXL Controlnet模型終于全了 tile來了

    以前一直在直播中吐槽說不建議大家用SDXL生態(tài),即便已經(jīng)出來了Turbo,即便除了SDXLLighting等等周邊但是我們最最喜歡用的controlnet還是補全,即便是現(xiàn)在也不算完全意義的全,但是最起碼我們今天呢能夠帶來第一個期待已久的tile模型,和隱藏款的QRmonsterXL(小聲使用,別人還不

    2024年04月25日
    瀏覽(26)
  • 新書速覽|AI創(chuàng)意繪畫與視頻制作:基于Stable Diffusion和ControlNet

    新書速覽|AI創(chuàng)意繪畫與視頻制作:基于Stable Diffusion和ControlNet

    帶你創(chuàng)作更高品質(zhì)的圖像與動畫,釋放無限創(chuàng)意,探密更前沿的AI繪畫技巧 本書內(nèi)容 《AI創(chuàng)意繪畫與視頻制作:基于Stable Diffusion和ControlNet》將帶領讀者探索AI繪畫和短視頻創(chuàng)作的奇妙世界。本書詳細介紹 Stable Diffusion的基本概念、原理及其主要功能 的使用,闡述如何使用提示

    2024年01月20日
    瀏覽(18)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包