国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<span id="rheag"><th id="rheag"></th></span>

<span id="rheag"></span>

<source id="rheag"><sup id="rheag"></sup></source>

<rp id="rheag"></rp>

_{<big id="rheag"></big>}

百度最強中文AI作畫大模型

2年前作者：weixin_42001089分類：Toy博客閱讀(19)違法舉報

這篇具有很好參考價值的文章主要介紹了百度最強中文AI作畫大模型。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

前言

最近文生圖領(lǐng)域的發(fā)展可謂是分生水起，這主要是得益于最近大火的擴散模型，之前筆者也寫過一篇關(guān)于文本生產(chǎn)3D模型的文章，大家感興趣的可以穿梭：

https://zhuanlan.zhihu.com/p/570332906

今天要給大家介紹的這一篇paper是百度最新的文生圖佳作：ERNIE-ViLG 2.0，其在diffusion的model基礎(chǔ)上進行了兩方面設(shè)計：融入語言和圖像知識進行增強、混合降噪專家網(wǎng)絡(luò)。

ERNIE-ViLG 2.0目前在文本生成圖像公開權(quán)威評測集 MS-COCO取得了SOTA, 尤其是在中文領(lǐng)域展現(xiàn)出了超強優(yōu)勢。

論文鏈接：https://arxiv.org/pdf/2210.15257.pdf

體驗鏈接：https://wenxin.baidu.com/ernie-vilg

demo

在開始之前先給大家展示幾個demo，感受一波，學(xué)起來更有動力～

中文在線大模型,程序人生

中文在線大模型,程序人生

中文在線大模型,程序人生

中文在線大模型,程序人生

中文在線大模型,程序人生

可以看到不論是輪廓還是上色都是很棒的，而且很細(xì)節(jié)的描述都能捕捉到，比如最后一幅畫中的光從右邊打來。

更多的demo大家感興趣的話可以自己去體驗體驗～

方法

整體框架如下

中文在線大模型,程序人生

擴散模型

在開始介紹作者提出的創(chuàng)新點之前，不得不先介紹下擴散模型，作者是在其基礎(chǔ)上針對性的設(shè)計了兩點。

要詳細(xì)介紹擴散模型的話，其實設(shè)計到很多數(shù)學(xué)知識，而他的思想邏輯實際上很好理解，基本上兩句話就可以介紹清楚。

關(guān)于擴散模型這里就按照本篇paper中的介紹方式給大家從大的邏輯上介紹一下吧，如果有同學(xué)還是對細(xì)節(jié)更感興趣，還是建議去看擴散模型的原paper或者其他大牛的講解，現(xiàn)在擴散模型很火，網(wǎng)上資料多多，筆者就不再敘述了，也怕從根源上誤導(dǎo)到大家。

它的過程大致就是：給圖片不斷的加噪聲，然后再不斷的去噪聲。而這個噪聲就是人為的取了一個最常見的數(shù)學(xué)分布：高斯噪聲。

中文在線大模型,程序人生

x就是圖片的表征，每一步t都是在不斷的疊加一個噪聲，經(jīng)過不斷的疊加噪聲（從高斯分布隨機采樣），圖片就是越來越模糊。那么很明顯，如果我們能夠得到每一步的確切噪聲，那么就能夠回推出一開始的圖片，也就是復(fù)原。

再解釋一下這個邏輯：在隨機疊加噪聲的時候是隨機采樣的，而為了復(fù)原，我們需要訓(xùn)練一個去噪網(wǎng)絡(luò)，而這個所謂的網(wǎng)絡(luò)其實就是在擬合每一步這個隨機采樣的噪聲值，因為拿到了噪聲值就可以一步步往回推理直到復(fù)原。

中文在線大模型,程序人生

好了現(xiàn)在的重點變成了：怎么能夠精確得到這些噪聲呢？

那就是直接監(jiān)督訓(xùn)練吧：

中文在線大模型,程序人生

可以看到直接設(shè)計一個網(wǎng)絡(luò)，然后每一步監(jiān)督訓(xùn)練，具體的這個網(wǎng)絡(luò)的輸入是當(dāng)前這一步對應(yīng)的圖片表征，輸出就是這一步采樣疊加的噪聲。

有了這個訓(xùn)練好的模型，inference的時候便可以推理得到圖片在t步的預(yù)測值

中文在線大模型,程序人生

具體到?jīng)]一步的推理往回推理公式：

中文在線大模型,程序人生

上面就是擴散模型的去噪過程。

那上面說的“直接設(shè)計一個網(wǎng)絡(luò)”中的網(wǎng)絡(luò)是什么網(wǎng)絡(luò)呢？答案是：U-Net。

它的核心是一個cross-modal attention網(wǎng)絡(luò)

中文在線大模型,程序人生

(x,y)分別代表一對圖文訓(xùn)練pair，可以非常清晰的看到K、V是圖文的concatenated表征，Q是圖片的表征。

融入語言和圖像知識進行增強

再經(jīng)過前面的解釋，這里我們正式的看一下作者提出的第一個設(shè)計：

（1）文本知識

中文在線大模型,程序人生

中文在線大模型,程序人生

通過公式(8)可以看到在計算attention的時候，作者多加了一個權(quán)重W項，具體的它是一個可學(xué)習(xí)網(wǎng)絡(luò)矩陣，其中的每一個具體元素值ij，代表著image tokens i和 text tokens j的權(quán)重。

可以看到如果是非關(guān)鍵token，它的值是1，如果是關(guān)鍵token那么就會累積一個可學(xué)習(xí)的權(quán)重。

具體的什么是關(guān)鍵token呢？作者這里考慮了形容詞和名詞，凡是形容詞和名詞的，會在對應(yīng)的輸入開頭拼接一個[a]和[n],如上圖中的“灰色的”和“貓”的開頭。

（2）視覺知識

視覺知識這里，作者具體是采用了目標(biāo)檢測手段。

具體的融合手段是放在了上述擬合高斯噪聲loss那里，如下：

中文在線大模型,程序人生

在之前的基礎(chǔ)上，又是同樣的手段即多加了一個權(quán)重W，同理如果對應(yīng)的image和text token是關(guān)鍵物體（目標(biāo)檢測），那么就要著重懲罰此時的loss，也就是說這是關(guān)鍵物體，一定得給我畫出來呀。

說到這里，就會遇到另外一個問題：圖片中目標(biāo)檢測出來的物體，文本中沒有對應(yīng)的描述，這個時候怎么辦？

那就強行在文本后面append追加上這個目標(biāo)，如上圖框架中的“碗”。

除此之外，為了進一步增加泛化性，作者還用了一個images-text的模型，通過圖片生成對應(yīng)的文本，用這個文本隨機代替原先給擴散模型訓(xùn)練(images,text)pair中的text。

這樣的話文本中會包含一些圖片中的重要目標(biāo)。

混合降噪專家網(wǎng)絡(luò)

接下來接著第二點設(shè)計

這里就更好理解一點，看到擴散模型去噪那里，每一步都是用的同樣的模型或者說同一套參數(shù)，這里其實每一步應(yīng)該關(guān)注的點是不一樣的，所以說應(yīng)該個性化。

具體的作者這里每一步都對應(yīng)自己的參數(shù)，而是進行了分組，每一組其實就是連續(xù)的幾步step，同一個組內(nèi)對應(yīng)一套參數(shù)。

那具體多少組呢？也就是paper中提到的MoDE，多專家網(wǎng)絡(luò)，其實就是多少組，可以想象得到理論上來說越多越個性化，越效果好。

實驗

paper也做了很多實驗和case分析，大家感興趣的可以去詳細(xì)看看，這里給一下設(shè)計的兩個點的對應(yīng)消融實驗結(jié)果吧

中文在線大模型,程序人生

總結(jié)

融入知識是ERNIE系列的老手段了，也是起家的本領(lǐng)，怎么把更多更細(xì)粒度的知識融入到模型是ERNIE一直堅持創(chuàng)新的點，其已經(jīng)在各個領(lǐng)域模型發(fā)光發(fā)熱，大家對模型感興趣的可以持續(xù)關(guān)注～

歡迎關(guān)注，下期再見啦~

知乎，csdn，github，微信公眾號

本文由 mdnice 多平臺發(fā)布文章來源地址http://www.zghlxwxcb.cn/news/detail-606779.html

到了這里，關(guān)于百度最強中文AI作畫大模型的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

文心一言放開，百度搜索AI最強評測
今天凌晨，百度突然官宣，文心一言全面開放，人人都能上手用了！現(xiàn)在，只需登陸「文心一言官網(wǎng)」即可體驗。?真正重磅的是，一批全新重構(gòu)的百度AI原生應(yīng)用，包括百度搜索、「文心一言APP」、輸入法、百度文庫率先開放。人人皆知，百度搜索是國內(nèi)最大的引擎，是百
2024年02月10日
瀏覽(20)
人工智能AI時代：全棧程序員的人生規(guī)劃
博主默語帶您 Go to New World. ? 個人主頁—— 默語的博客???? 《java 面試題大全》 ??惟余輩才疏學(xué)淺，臨摹之作或有不妥之處，還請讀者海涵指正。??? 《MYSQL從入門到精通》數(shù)據(jù)庫是開發(fā)者必會基礎(chǔ)之一~ ?? 吾期望此文有資助于爾，即使粗淺難及深廣，亦備添少許微薄
2024年02月11日
瀏覽(49)
(十三)AI作畫、AI繪畫、AIGC本地大模型
AI作畫近期很火，涌現(xiàn)出了很多AIGC(AI內(nèi)容生成)的網(wǎng)站、平臺，但這些平臺都是使用的云上的算力，基本都有使用的各種限制等。一、本代碼自動將大模型下載本地，可以無-限-使-用。但是對硬件的要求較高需要8G顯存以上的顯卡才能快速出圖，用CPU會很慢的。【同時，針對
2024年02月11日
瀏覽(20)
AI 作畫：Stable Diffusion 模型原理與實踐
本文首先簡單介紹 Stable Diffusion 模型結(jié)構(gòu) Latent Diffusion 的論文和博客，然后介紹模型的訓(xùn)練和推理技術(shù)細(xì)節(jié)（不含數(shù)學(xué)推導(dǎo)），接著介紹幾個 prompt 搜索引擎等實用工具，最后簡單介紹 AI 作畫（圖像生成）的發(fā)展史，并測試了 Stable Diffusion 不同風(fēng)格和 prompt 的生成樣例。 Mod
2024年02月10日
瀏覽(33)
pytorch快速訓(xùn)練ai作畫模型的python代碼
在 PyTorch 中訓(xùn)練 AI 作畫模型的基本步驟如下: 準(zhǔn)備數(shù)據(jù)集: 需要準(zhǔn)備一個包含許多圖像的數(shù)據(jù)集, 這些圖像可以是手繪的或者是真實的圖像. 定義模型: 選擇一個適當(dāng)?shù)纳疃葘W(xué)習(xí)模型, 并使用 PyTorch 定義該模型. 例如, 可以使用卷積神經(jīng)網(wǎng)絡(luò) (CNN) 或者生成對抗網(wǎng)絡(luò) (GAN). 訓(xùn)練模型
2024年02月09日
瀏覽(25)
給我推薦20個比較流行的AI作畫模型
好的，下面是20個比較流行的AI作畫模型： DALL-E GAN Deep Dream CycleGAN StyleGAN pix2pix SketchRNN BigGAN ProGAN ESRGAN SPADE BigVAE StackGAN VQ-VAE 3D-GAN SinGAN Text2Image StarGAN FunGAN Image2StyleGAN 這些模型的具體應(yīng)用可以結(jié)合你的需求來進行選擇。
2024年02月12日
瀏覽(13)
給我推薦20個比較流行的AI作畫模型源碼
很抱歉,我并不會推薦任何源碼。但是我可以告訴你幾個比較流行的AI作畫模型。 pix2pix CycleGAN DALL-E BigGAN StyleGAN SPADE GauGAN ProGAN StarGAN ESRGAN MUNIT UNIT DRIT DRINet LAPGAN StackGAN COCO-GAN iTGAN HDGAN SINGAN 這些模型的應(yīng)用領(lǐng)域包括圖像風(fēng)格遷移、圖像生成、圖像轉(zhuǎn)換、自然圖像修復(fù)、視覺對
2024年02月11日
瀏覽(17)
12秒內(nèi)AI在手機上完成作畫！谷歌提出擴散模型推理加速新方法
本文源自：量子位只需12秒，只憑手機自己的算力，就能拿Stable Diffusion生成一張圖像。而且是完成了20次迭代的那種。要知道，現(xiàn)在的擴散模型基本都超過了10億參數(shù)，想要快速生成一張圖片，要么基于云計算，要么就是要本地硬件夠強大了。而隨著大模型應(yīng)用逐漸普及開
2024年02月01日
瀏覽(24)
使用Amazon SageMaker構(gòu)建高質(zhì)量AI作畫模型Stable Diffusion
近來，隨著新一代 AI 大型聊天機器人 ChatGPT 火遍科技圈，人工智能生成內(nèi)容( Artificial Intelligence Generated Content , AIGC )這一領(lǐng)域開始受到學(xué)術(shù)界、工業(yè)界甚至普通用戶的廣泛關(guān)注。 AIGC 憑借其獨特的“創(chuàng)造力”與人類無法企及的創(chuàng)作生成速度掀起了一股人工智能狂潮。但是，利
2023年04月14日
瀏覽(30)
目前最強的AI繪畫模型——Midjourney v5
我想，各類不僅是文字工作領(lǐng)域，藝術(shù)設(shè)計等相關(guān)的行業(yè)也應(yīng)當(dāng)被徹底顛覆了。官網(wǎng)：https://www.midjourney.com/home/?callbackUrl=%2Fapp%2F 訂閱：Purchase a subscription Midjourney是一個獨立的研究實驗室，探索新的思維媒介，擴大人類的想象力。 Midjourney是一個自籌資金的小團隊，專注于設(shè)
2023年04月08日
瀏覽(25)

<span id="qr1e4"><pre id="qr1e4"><u id="qr1e4"></u></pre></span>

<span id="qr1e4"><form id="qr1e4"></form></span>

<source id="qr1e4"><strong id="qr1e4"></strong></source>