国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【AIGC】IP-Adapter:文本兼容圖像提示適配器,用于文本到圖像擴散模型

這篇具有很好參考價值的文章主要介紹了【AIGC】IP-Adapter:文本兼容圖像提示適配器,用于文本到圖像擴散模型。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

前言

????????IPAdapter能夠通過圖像給Stable Diffusion模型以內容提示,讓其生成參考該圖像畫風,可以免去Lora的訓練,達到參考畫風人物的生成效果。

摘要

????????通過文本提示詞生成的圖像,往往需要設置復雜的提示詞,通常設計提示詞變得很復雜。文本提示可以由圖像來替代。直接微調預訓練模型也是一種行之有效的方法,但是需要消耗大量計算資源。并且存在模型兼容性問題。在本文中,我們介紹了 IP-Adapter,這是一種有效且輕量級的適配器,用于實現(xiàn)預訓練文本到圖像擴散模型的圖像提示功能。我們的 IP 適配器的關鍵設計解耦的交叉注意力機制將文本特征和圖像特征的交叉注意力層分開。盡管我們的方法很簡單,但只有 22M 參數(shù)的 IP 適配器可以實現(xiàn)與完全微調的圖像提示模型相當甚至更好的性能。當我們凍結預訓練的擴散模型時,所提出的 IP-Adapter 不僅可以推廣到從同一基礎模型微調的其他自定義模型,還可以推廣到使用現(xiàn)有可控工具的可控生成。借助解耦交叉注意力策略的優(yōu)勢,圖像提示也可以很好地與文本提示配合使用,實現(xiàn)多模態(tài)圖像生成。項目頁面位于 https://ip-adapter.github.io。

?介紹

  1. ?GLIDE [1]、DALL-E 2 [2 ]、Imagen [ 3]、Stable Diffusion (SD) [4]、eDiff-I [5]和RAPHAEL [ 6]等大型文本到圖像擴散模型的成功,圖像生成取得了顯著的進步。編寫文本提示通常會比較復雜,并且生成內容無法表達復雜的場景或概念。
  2. DALL-E 2[ 2 ] 首次嘗試支持圖像提示,擴散模型以圖像嵌入而不是文本嵌入為條件,需要先驗模型才能實現(xiàn)文本到圖像的能力。然而,現(xiàn)有的大多數(shù)文本到圖像擴散模型都是以文本為條件來生成圖像的,例如,流行的SD模型以從凍結的CLIP[8]文本編碼器中提取的文本特征為條件。這些文本到圖像擴散模型是否也支持圖像提示。我們的工作試圖以一種簡單的方式為這些文本到圖像擴散模型啟用圖像提示的生成能力。
  3. SD Image Variations和Stable unCLIP,已經(jīng)證明了直接在圖像嵌入上微調文本條件擴散模型以實現(xiàn)圖像提示功能的有效性。然而,這種方法的缺點是顯而易見的。首先,它消除了使用文本生成圖像的原始能力,并且這種微調通常需要大量的計算資源。其次,微調的模型通常不可重用,因為圖像提示功能不能直接轉移到從相同的文本到圖像基礎模型派生的其他自定義模型。此外,新模型通常與現(xiàn)有的結構控制工具(如ControlNet[9])不兼容,這給下游應用帶來了重大挑戰(zhàn)。

?????????ControlNet [9]和T2I-adapter [11],已經(jīng)證明,在現(xiàn)有的文本到圖像擴散模型中可以有效地插入一個額外的網(wǎng)絡來指導圖像生成。

????????大多數(shù)研究側重于圖像生成,并帶有額外的結構控制,如用戶繪制的草圖、深度圖、語義分割圖等。此外,通過簡單的適配器,如T2I適配器的樣式適配器[11]和Uni-ControlNet的全局控制器[12],也可以通過簡單的適配器實現(xiàn)由參考圖像提供的樣式或內容的圖像生成。為了實現(xiàn)這一點,從CLIP圖像編碼器中提取的圖像特征通過可訓練網(wǎng)絡映射到新特征,然后與文本特征連接起來。通過替換原始文本特征,將合并后的特征輸入到擴散模型的UNet中,以指導圖像生成。這些適配器可以看作是具有使用圖像提示能力的一種方式,但生成的圖像僅部分忠實于提示的圖像。結果往往比微調的圖像提示模型差,更不用說從頭開始訓練的模型了。

????????我們認為,上述方法的主要問題在于文本到圖像擴散模型的交叉注意力模塊。對預訓練擴散模型中交叉注意力層的鍵和值投影權重進行訓練,以適應文本特征。因此,將圖像特征和文本特征合并到交叉注意力層中只能完成圖像特征與文本特征的對齊,但這可能會遺漏一些特定于圖像的信息,并最終導致僅使用參考圖像進行粗粒度可控生成(例如,圖像樣式)。

????????為此,我們提出了一種更有效的圖像提示適配器,命名為IP-Adapter,以避免了前人方法的缺點。具體而言,IP-Adapter對文本特征和圖像特征采用解耦的交叉注意力機制。對于擴散模型的UNet中的每個交叉注意力層,我們僅為圖像特征添加一個額外的交叉注意力層。在訓練階段,只訓練新的交叉注意力層的參數(shù),而原來的UNet模型保持凍結狀態(tài)。我們提出的適配器是輕量級的,但非常高效:只有22M參數(shù)的IP適配器的生成性能可與文本到圖像擴散模型中完全微調的圖像提示模型相媲美。更重要的是,我們的 IP 適配器具有出色的泛化能力,并且與文本提示兼容。使用我們提出的 IP 適配器,可以輕松完成各種圖像生成任務,如下圖所示。

【AIGC】IP-Adapter:文本兼容圖像提示適配器,用于文本到圖像擴散模型,深度學習,pytorch,AIGC,IPAdapter

?????????我們提出了IP-Adapter,這是一種輕量級的圖像提示適應方法,具有解耦的交叉注意力策略,適用于現(xiàn)有的文本到圖像擴散模型。定量和定性實驗結果表明,在基于圖像提示生成方面,具有約22M參數(shù)的小型IP適配器與完全微調的模型相當,甚至更好。

相關工作?

?文生圖擴散模型

????????大型文本轉圖像模型主要分為兩類:自回歸模型擴散模型。早期的作品,如DALLE [ 13 ]、CogView [ 14, 15 ]和Make-A-Scene [ 16],都是自回歸模型。對于自回歸模型,使用像VQ-VAE [ 17 ]將圖像轉換為token,然后訓練一個以文本標記為條件的自回歸轉換器[18]來預測圖像標記。然而,自回歸模型通常需要較大的參數(shù)和計算資源來生成高質量的圖像,如Parti [19]所示。

????????最近,擴散模型(DMs)[20,21,22,23]已成為文本到圖像生成的新模型。作為先驅,GLIDE采用級聯(lián)擴散架構,分辨率為64×64,分辨率為3.5B文本條件擴散模型,分辨率為256×256,分辨率為1.5B文本條件上采樣擴散模型。DALL-E 2 采用擴散模型條件圖像嵌入,并訓練先前的模型通過給出文本提示來生成圖像嵌入。DALL-E 2 不僅支持圖像生成的文本提示,還支持圖像提示。為了增強對文本的理解,Imagen 采用了 T5 [ 24],一個在純文本數(shù)據(jù)上預訓練的大型 transformer 語言模型,作為擴散模型的文本編碼器。Re-Imagen [ 25 ] 使用檢索到的信息來提高稀有或看不見實體的生成圖像的保真度。SD 建立在潛在擴散模型 [ 4 ] 之上,該模型在潛在空間而不是像素空間上運行,使 SD 能夠僅使用擴散模型生成高分辨率圖像。為了改善文本對齊,eDiff-I 設計了一組文本到圖像擴散模型,利用了多種條件,包括 T5 文本、CLIP 文本和 CLIP 圖像嵌入。Versatile Diffusion [ 26 ] 提出了一個統(tǒng)一的多流擴散框架,以支持單個模型中的文本到圖像、圖像到文本和變體。為了實現(xiàn)可控的圖像合成,Composer [ 27] 提出了一種在以圖像嵌入為條件的預訓練擴散模型上具有各種條件的聯(lián)合微調策略。RAPHAEL在文本條件圖像擴散模型中引入了混合專家(MoE)策略[28,29],以提高圖像質量和審美吸引力。

????????DALL-E 2 的一個吸引人的特點是它還可以使用圖像提示來生成圖像變化。因此,還有一些工作需要探索,以支持僅以文本為條件的文本到圖像擴散模型的圖像提示。SD 圖像變化模型是從修改后的 SD 模型微調而來的,其中文本特征被替換為 CLIP 圖像編碼器的圖像嵌入。穩(wěn)定的unCLIP也是SD上的微調模型,其中圖像嵌入被添加到時間嵌入中。雖然微調模型可以成功地使用圖像提示生成圖像,但往往需要比較大的訓練成本,并且無法與現(xiàn)有工具兼容,例如ControlNet[9]。

?適用于大型模型的適配器

????????由于微調大型預訓練模型效率低下,另一種方法是使用適配器,它添加了一些可訓練的參數(shù),但會凍結原始模型。適配器在NLP領域已經(jīng)應用了很長時間[30]。最近,適配器已被用于實現(xiàn)大型語言模型的視覺語言理解[31,32,33,34,35]。

????????隨著最近文本到圖像模型的普及,適配器也被用于為文本到圖像模型的生成提供額外的控制。ControlNet [9] 首先證明了可以使用預訓練的文本到圖像擴散模型來訓練適配器,以學習特定于任務的輸入條件,例如 canny edge。幾乎同時,T2I適配器[11]采用簡單輕量級的適配器來實現(xiàn)對生成圖像的顏色和結構的細粒度控制。為了降低微調成本,Uni-ControlNet [ 12 ] 提出了一種多尺度條件注入策略來學習各種局部控制的適配器。

????????除了用于結構控制的適配器外,還有根據(jù)所提供圖像的內容和風格進行可控生成的工作。ControlNet Shuffle 經(jīng)過訓練,可以重新組合圖像,可用于指導由用戶提供的圖像生成。此外,還提出了ControlNet Reference-only,通過簡單的特征注入在SD模型上實現(xiàn)圖像變體,無需訓練。在 T2I 適配器的更新版本中,樣式適配器旨在通過將從 CLIP 圖像編碼器中提取的圖像特征附加到文本特征來使用參考圖像來控制生成圖像的樣式。Uni-ControlNet的全局控制適配器還將CLIP圖像編碼器的圖像嵌入投射到小網(wǎng)絡的條件嵌入中,并與原始文本嵌入連接起來,用于指導參考圖像的樣式和內容的生成。SeeCoder [10] 提出了一個語義上下文編碼器來替換原始文本編碼器以生成圖像變體。

????????盡管上述適配器是輕量級的,但它們的性能幾乎無法與微調的圖像提示模型相提并論,更不用說從頭開始訓練的模型了。在這項研究中,我們引入了一種解耦的交叉注意力機制,以實現(xiàn)更有效的圖像提示適配器。所提出的適配器仍然簡單小巧,但優(yōu)于以前的適配器方法,甚至可以與微調模型相媲美。

方法

預備知識

????????擴散模型是一類生成模型,由兩個過程組成:擴散過程(也稱為正向過程),它使用固定的馬爾可夫 T 步鏈逐漸將高斯噪聲添加到數(shù)據(jù)中,以及去噪過程,該過程使用可學習模型從高斯噪聲生成樣本。擴散模型還可以基于其他輸入進行調節(jié),例如文本到圖像擴散模型中的文本。通常,預測噪聲的擴散模型的訓練目標(表示為 ε)被定義為變分邊界的簡化變體:

【AIGC】IP-Adapter:文本兼容圖像提示適配器,用于文本到圖像擴散模型,深度學習,pytorch,AIGC,IPAdapter????????其中 x表示帶有附加條件 c 的真實數(shù)據(jù),t ∈ [0, T ] 表示擴散過程的時間步長,x= αx+ σε 是 t 步的噪聲數(shù)據(jù),α,σ 是確定擴散過程的 t 預定義函數(shù)。一旦模型ε被訓練,就可以以迭代的方式從隨機噪聲中生成圖像。通常,在推理階段采用DDIM [21]、PNDM [36]和DPM-Solver[37,38]等快速采樣器來加速生成過程。?

????????對于條件擴散模型,分類器引導[ 23]是一種簡單的技術,用于通過利用來自單獨訓練的分類器的梯度來平衡圖像保真度和樣本多樣性。消除培訓的需要獨立分類器、無分類器指導[39]通常被用作替代方法。在這種方法中,條件和無條件擴散模型是通過在訓練過程中隨機丟棄 c 來聯(lián)合訓練的。在采樣階段,根據(jù)條件模型ε(x, c, t)和非條件模型ε(x, t)的預測來計算預測噪聲:

【AIGC】IP-Adapter:文本兼容圖像提示適配器,用于文本到圖像擴散模型,深度學習,pytorch,AIGC,IPAdapter????????在這里,W,通常稱為指導刻度或指導權重,是一個標量值,用于調整與條件 C 的對齊方式。對于文本到圖像擴散模型,無分類器引導在增強生成樣本的圖像-文本對齊方面起著至關重要的作用。

????????在我們的研究中,我們利用開源 SD 模型作為示例基礎模型來實現(xiàn) IP 適配器。SD 是一種潛在擴散模型,以從凍結的 CLIP 文本編碼器中提取的文本特征為條件。擴散模型的架構基于帶有注意力層的UNet[40]。與 Imagen 等基于像素的擴散模型相比,SD 效率更高,因為它是在預訓練的自動編碼器模型的潛在空間上構建的。

圖像提示適配器

?????????在本文中,圖像提示適配器旨在使預訓練的文本到圖像擴散模型能夠生成具有圖像提示的圖像。如前幾節(jié)所述,當前的適配器很難與微調的圖像提示模型或從頭開始訓練的模型的性能相匹配。主要原因是圖像特征無法有效地嵌入到預訓練模型中。大多數(shù)方法只是將串聯(lián)的特征饋送到凍結的交叉注意力層中,從而防止擴散模型從圖像提示中捕獲細粒度特征。為了解決這個問題,我們提出了一種解耦的交叉注意力策略,其中圖像特征被新添加的交叉注意力層嵌入。我們提出的 IP 適配器的整體架構如圖 2 所示。所提出的 IP 適配器由兩部分組成:用于從圖像提示中提取圖像特征的圖像編碼器,以及具有解耦交叉注意力的適配模塊,用于將圖像特征嵌入到預訓練的文本到圖像擴散模型中。

圖像編碼器?

????????在大多數(shù)方法之后,我們使用預訓練的 CLIP 圖像編碼器模型從圖像提示中提取圖像特征。CLIP 模型是一種多模態(tài)模型,通過對比學習在包含圖像文本對的大型數(shù)據(jù)集上進行訓練。我們利用 CLIP 圖像編碼器的全局圖像嵌入,它與圖像標題很好地對齊,可以表示圖像的豐富內容和風格。在訓練階段,CLIP圖像編碼器被凍結。

????????為了有效地分解全局圖像嵌入,我們使用一個小型可訓練投影網(wǎng)絡將圖像嵌入投影到長度為N的特征序列中(本研究使用N = 4),圖像特征的維度與預訓練擴散模型中文本特征的維度相同。我們在這項研究中使用的投影網(wǎng)絡由線性層和層歸一化組成[41]。

解耦的交叉注意力

?????????圖像特征通過具有解耦交叉注意力的自適應模塊集成到預訓練的 UNet 模型中。在原始 SD 模型中,來自 CLIP 文本編碼器的文本特征通過饋送到交叉注意力層中插入到 UNet 模型中。給定查詢特征 Z 和文本特征 c,交叉注意力 Z 的輸出可以由以下等式定義:

【AIGC】IP-Adapter:文本兼容圖像提示適配器,用于文本到圖像擴散模型,深度學習,pytorch,AIGC,IPAdapter

????????其中 Q = ZW, K = cW, V = cWare 分別是注意力操作的查詢、鍵和值矩陣,W, W, Ware 是可訓練線性投影層的權重矩陣。

?????????插入圖像特征的一種直接方法是將圖像特征和文本特征連接起來,然后將它們饋送到交叉注意力層中。然而,我們發(fā)現(xiàn)這種方法不夠有效。取而代之的是,我們提出了一種解耦的交叉注意力機制,其中文本特征和圖像特征的交叉注意力層是分開的。具體來說,我們在原始UNet模型中為每個交叉注意力層添加了一個新的交叉注意力層,以插入圖像特征。給定圖像特征c,新的交叉注意力Zis的輸出計算如下:

【AIGC】IP-Adapter:文本兼容圖像提示適配器,用于文本到圖像擴散模型,深度學習,pytorch,AIGC,IPAdapter

????????其中,Q = ZW,K= cW和 V= cWare 來自圖像特征的查詢、鍵和值矩陣。W 和 Ware 相應的權重矩陣。應該注意的是,我們對圖像交叉注意力使用與文本交叉注意力相同的查詢。因此,我們只需要為每個交叉注意力層添加兩個參數(shù) W, W。為了加快收斂速度,Wand Ware 從 Wand W 初始化。然后,我們只需將圖像交叉注意力的輸出添加到文本交叉注意力的輸出中即可。因此,解耦交叉注意力的最終公式定義如下:

?【AIGC】IP-Adapter:文本兼容圖像提示適配器,用于文本到圖像擴散模型,深度學習,pytorch,AIGC,IPAdapter

?????????我們凍結了原來的UNet模型,只有魔杖器皿可以在上面解耦的交叉注意力中訓練。

訓練與推理?

????????在訓練過程中,我們只優(yōu)化 IP-Adapter,同時保持預訓練擴散模型的參數(shù)固定。IP-Adapter 還使用圖像-文本對在數(shù)據(jù)集上進行訓練,使用與原始 SD 相同的訓練目標:

【AIGC】IP-Adapter:文本兼容圖像提示適配器,用于文本到圖像擴散模型,深度學習,pytorch,AIGC,IPAdapter

?????????我們還在訓練階段隨機丟棄圖像條件,以便在推理階段啟用無分類器指導:

【AIGC】IP-Adapter:文本兼容圖像提示適配器,用于文本到圖像擴散模型,深度學習,pytorch,AIGC,IPAdapter

????????在這里,如果圖像條件被刪除,我們只需將 CLIP 圖像嵌入歸零。?由于文本交叉注意力和圖像交叉注意力是分離的,我們也可以在推理階段調整圖像條件的權重:?

【AIGC】IP-Adapter:文本兼容圖像提示適配器,用于文本到圖像擴散模型,深度學習,pytorch,AIGC,IPAdapter

????????其中 λ 是權重因子,如果 λ = 0,則模型將成為原始文本到圖像擴散模型。

實驗?

????????為了訓練 IP-Adapter,我們構建了一個多模態(tài)數(shù)據(jù)集,其中包括來自兩個開源數(shù)據(jù)集 LAION-2B [42] 和 COYO-700M [43] 的大約 1000 萬個文本圖像對

?????????我們的實驗基于SD v1.5,我們使用OpenCLIP ViT-H/14 [44 ]作為圖像編碼器。SD 模型中有 16 個交叉注意力層,我們為每個層添加了一個新的圖像交叉注意力層。我們的 IP 適配器的總可訓練參數(shù)(包括投影網(wǎng)絡和適配模塊)約為 22M,使 IP 適配器非常輕巧。我們使用 HuggingFace diffusers庫 [45] 實現(xiàn)我們的 IP 適配器,并使用 DeepSpeed ZeRO-2 [ 13 ] 進行快速訓練。IP-Adapter 在具有 8 個 V100 GPU 的單臺機器上進行 1M 步長訓練,每個 GPU 的批處理大小為 8 個。我們使用AdamW優(yōu)化器[46],固定學習率為0.0001,權重衰減為0.01。在訓練過程中,我們將圖像的最短邊調整為 512,然后以 512 × 512 分辨率對圖像進行居中裁剪。為了實現(xiàn)無分類器指導,我們使用 0.05 的概率分別刪除文本和圖像,并使用 0.05 的概率同時刪除文本和圖像。在推理階段,我們采用 50 步的 DDIM 采樣器,并將引導等級設置為 7.5。當僅使用圖像提示時,我們將文本提示設置為空且 λ = 1.0。

結論

????????在這項工作中,我們提出了 IP-Adapter 來實現(xiàn)預訓練文本到圖像擴散模型的圖像提示功能。我們的 IP 適配器的核心設計基于解耦的交叉注意力策略,該策略為圖像特征整合了單獨的交叉注意力層。定量和定性實驗結果表明,我們的IP適配器只有22M參數(shù),其性能與一些完全微調的圖像提示模型和現(xiàn)有適配器相當,甚至更好。此外,我們的 IP 適配器只需經(jīng)過一次訓練,就可以直接與從同一基礎模型和現(xiàn)有結構可控工具派生的自定義模型集成,從而擴大其適用性。更重要的是,圖像提示可以與文本提示相結合,實現(xiàn)多模態(tài)圖像生成。

????????盡管我們的 IP 適配器很有效,但它只能生成在內容和樣式上類似于參考圖像的圖像。換句話說,它不能像一些現(xiàn)有的方法那樣合成與給定圖像的主題高度一致的圖像,例如Textual Inversion [ 51 ]和DreamBooth [52 ]。未來,我們的目標是開發(fā)更強大的圖像提示適配器,以增強一致性。

參考鏈接

?https://arxiv.org/pdf/2308.06721.pdf

GitHub - tencent-ailab/IP-Adapter: The image prompt adapter is designed to enable a pretrained text-to-image diffusion model to generate images with image prompt.文章來源地址http://www.zghlxwxcb.cn/news/detail-793671.html

到了這里,關于【AIGC】IP-Adapter:文本兼容圖像提示適配器,用于文本到圖像擴散模型的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • diffusion model(十五) : IP-Adapter技術小結

    diffusion model(十五) : IP-Adapter技術小結

    info paper https://arxiv.org/pdf/2308.06721.pdf code https://github.com/tencent-ailab/IP-Adapter org. Tencent AI Lab 個人博客地址 http://myhz0606.com/article/ip_adapter 為了對文生圖 diffusion model 進行特定概念的定制,常用 LoRA [1]、 textual inversion [2]等inference before fine-tune的方法。此類方法有一個弊端:每一個新

    2024年04月09日
    瀏覽(20)
  • 新一代“墊圖”神器,IP-Adapter的完整應用解讀

    新一代“墊圖”神器,IP-Adapter的完整應用解讀

    導讀 不用訓練lora,一張圖就能實現(xiàn)風格遷移,還支持多圖多特征提取,同時強大的拓展能力還可接入動態(tài)prompt矩陣、controlnet等等,這就是IP-Adapter,一種全新的“墊圖”方式,讓你的AIGC之旅更加高效輕松。 都是“墊圖”,誰能還原你心中的圖 “墊圖”這個概念大家肯定都不

    2024年02月20日
    瀏覽(19)
  • Stable Diffusion使用ControlNet:IP-Adapter實現(xiàn)圖片風格遷移

    Stable Diffusion使用ControlNet:IP-Adapter實現(xiàn)圖片風格遷移

    IP-Adapter 全稱是 Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models(文本到圖像擴散模型的文本兼容圖像提示適配器),是騰訊研究院出品的一個新的ControlNet模型,旨在使預訓練的文本到圖像擴散模型能夠生成具有圖像提示的圖像。 IP-Adapter是一種有效的輕量級適配器,

    2024年04月28日
    瀏覽(21)
  • 關于IP-Adapter的十幾個模型,到底是干啥用的?

    關于IP-Adapter的十幾個模型,到底是干啥用的?

    IP-Adapter的一系列模型在stable diffusion的實際應用中,越來越被頻繁的使用到,用于“換臉”或者“保證角色的一致性”,但是很多朋友在安裝或者使用別人的工作流的時候,經(jīng)常會遇到各種各樣的問題,同時因為資源在各種群里轉來轉去的,發(fā)現(xiàn)有很多個版本,所以有些時候

    2024年04月09日
    瀏覽(20)
  • [Stable Diffusion]ip-adapter:SD也可以墊圖了,一張圖復刻lora效果

    [Stable Diffusion]ip-adapter:SD也可以墊圖了,一張圖復刻lora效果

    Controlnet更新的v1.1.4版本新預處理ip-adapter,這項新能力簡直讓stablediffusion的實用性再上一個臺階。這些更新將改變sd的使用流程。 ? ip-adapter是騰訊Ai工作室發(fā)布的一個controlnet模型,可以通過stable diffusion的webui使用,這個新的功能簡單來說,他可以識別參考圖的藝術風格和內容

    2024年02月04日
    瀏覽(15)
  • ASIX AX88179 USB3.0 to gigabit ethernet adapter 適配器獲取不到ip地址

    ASIX AX88179 USB3.0 to gigabit ethernet adapter 適配器獲取不到ip地址

    筆記本使用綠聯(lián)經(jīng)典款的USB轉接頭接入有線網(wǎng)絡,突然發(fā)現(xiàn)獲取不到ip地址,DHCP獲取不到ip地址,電腦經(jīng)過反復重啟和插拔都沒有用。 在筆記本電腦里面任務管理器卸載該設備,然后重裝該驅動程序,對應到自己的操作系統(tǒng)版本即可,這個時候就可以自動獲取ip地址,通過抓

    2024年02月11日
    瀏覽(17)
  • T2I-Adapter:增強文本到圖像生成的控制能力

    T2I-Adapter:增強文本到圖像生成的控制能力

    鏈接:GitHub - TencentARC/T2I-Adapter: T2I-Adapter 文本到圖像生成 (T2I) 是人工智能領域的一個重要研究方向。近年來,隨著深度學習技術的發(fā)展,T2I 技術取得了顯著進展,生成的圖像在視覺效果上已經(jīng)與真實圖像難以區(qū)分。 然而,傳統(tǒng)的 T2I 模型往往缺乏對輸出圖像的控制能力。例

    2024年02月09日
    瀏覽(15)
  • 適配器模式(Adapter)

    適配器模式(Adapter)

    適配器是一種 結構型設計模式 ,它能使 接口不兼容的對象能夠相互合作 。 封裝器模式(Wrapper)。 1. 問題 假如你正在開發(fā)一款股票市場監(jiān)測程序,它會從 不同來源下載 XML 格式的股票數(shù)據(jù),然后向用戶呈現(xiàn)出美觀的圖表 。 在開發(fā)過程中, 你決定在程序中 整合一個第三方

    2024年02月11日
    瀏覽(17)
  • 11-適配器模式(Adapter)

    11-適配器模式(Adapter)

    將一個類的接口轉換成客戶希望的另一個接口。Adapter模式使得原本由于接口不兼容而不能在一起工作的那些類可以一起工作。 適配器模式屬于結構模式。 Adapter類,通過繼承src類,實現(xiàn)dst類接口,完成src-dst的適配。 以生活中充電器的例子來講解適配器,充電器本省相當于

    2024年01月18日
    瀏覽(18)
  • 適配器模式(Adapter Pattern)

    適配器模式(Adapter Pattern)是一種結構型設計模式,用于將一個類的接口轉換為另一個類的接口,以滿足客戶端的需求。 適配器模式的主要目的是使不兼容的接口能夠協(xié)同工作。它通過創(chuàng)建一個適配器類,該適配器類包裝了現(xiàn)有類的接口,使其與目標接口相匹配。 適配器模

    2024年02月16日
    瀏覽(28)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包