国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

百度最強中文AI作畫大模型

這篇具有很好參考價值的文章主要介紹了百度最強中文AI作畫大模型。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

前言

最近文生圖領(lǐng)域的發(fā)展可謂是分生水起,這主要是得益于最近大火的擴散模型,之前筆者也寫過一篇關(guān)于文本生產(chǎn)3D模型的文章,大家感興趣的可以穿梭:

https://zhuanlan.zhihu.com/p/570332906

今天要給大家介紹的這一篇paper是百度最新的文生圖佳作:ERNIE-ViLG 2.0,其在diffusion的model基礎(chǔ)上進行了兩方面設(shè)計:融入語言和圖像知識進行增強、混合降噪專家網(wǎng)絡(luò)。

ERNIE-ViLG 2.0目前在文本生成圖像公開權(quán)威評測集 MS-COCO取得了SOTA, 尤其是在中文領(lǐng)域展現(xiàn)出了超強優(yōu)勢。

論文鏈接:https://arxiv.org/pdf/2210.15257.pdf

體驗鏈接:https://wenxin.baidu.com/ernie-vilg

demo

在開始之前先給大家展示幾個demo,感受一波,學(xué)起來更有動力~

中文在線大模型,程序人生
中文在線大模型,程序人生
中文在線大模型,程序人生
中文在線大模型,程序人生
中文在線大模型,程序人生

可以看到不論是輪廓還是上色都是很棒的,而且很細(xì)節(jié)的描述都能捕捉到,比如最后一幅畫中的光從右邊打來。

更多的demo大家感興趣的話可以自己去體驗體驗~

方法

整體框架如下

中文在線大模型,程序人生
  • 擴散模型

在開始介紹作者提出的創(chuàng)新點之前,不得不先介紹下擴散模型,作者是在其基礎(chǔ)上針對性的設(shè)計了兩點。

要詳細(xì)介紹擴散模型的話,其實設(shè)計到很多數(shù)學(xué)知識,而他的思想邏輯實際上很好理解,基本上兩句話就可以介紹清楚。

關(guān)于擴散模型這里就按照本篇paper中的介紹方式給大家從大的邏輯上介紹一下吧,如果有同學(xué)還是對細(xì)節(jié)更感興趣,還是建議去看擴散模型的原paper或者其他大牛的講解,現(xiàn)在擴散模型很火,網(wǎng)上資料多多,筆者就不再敘述了,也怕從根源上誤導(dǎo)到大家。

它的過程大致就是:給圖片不斷的加噪聲,然后再不斷的去噪聲。而這個噪聲就是人為的取了一個最常見的數(shù)學(xué)分布:高斯噪聲。

中文在線大模型,程序人生

x就是圖片的表征,每一步t都是在不斷的疊加一個噪聲,經(jīng)過不斷的疊加噪聲(從高斯分布隨機采樣),圖片就是越來越模糊。那么很明顯,如果我們能夠得到每一步的確切噪聲,那么就能夠回推出一開始的圖片,也就是復(fù)原。

再解釋一下這個邏輯:在隨機疊加噪聲的時候是隨機采樣的,而為了復(fù)原,我們需要訓(xùn)練一個去噪網(wǎng)絡(luò),而這個所謂的網(wǎng)絡(luò)其實就是在擬合每一步這個隨機采樣的噪聲值,因為拿到了噪聲值就可以一步步往回推理直到復(fù)原。

中文在線大模型,程序人生

好了現(xiàn)在的重點變成了:怎么能夠精確得到這些噪聲呢?

那就是直接監(jiān)督訓(xùn)練吧:

中文在線大模型,程序人生

可以看到直接設(shè)計一個網(wǎng)絡(luò),然后每一步監(jiān)督訓(xùn)練,具體的這個網(wǎng)絡(luò)的輸入是當(dāng)前這一步對應(yīng)的圖片表征,輸出就是這一步采樣疊加的噪聲。

有了這個訓(xùn)練好的模型,inference的時候便可以推理得到圖片在t步的預(yù)測值

中文在線大模型,程序人生

具體到?jīng)]一步的推理往回推理公式:

中文在線大模型,程序人生

上面就是擴散模型的去噪過程。

那上面說的“直接設(shè)計一個網(wǎng)絡(luò)”中的網(wǎng)絡(luò)是什么網(wǎng)絡(luò)呢?答案是:U-Net。

它的核心是一個cross-modal attention網(wǎng)絡(luò)

中文在線大模型,程序人生

(x,y)分別代表一對圖文訓(xùn)練pair,可以非常清晰的看到K、V是圖文的concatenated表征,Q是圖片的表征。

  • 融入語言和圖像知識進行增強

再經(jīng)過前面的解釋,這里我們正式的看一下作者提出的第一個設(shè)計:

(1)文本知識

中文在線大模型,程序人生
中文在線大模型,程序人生

通過公式(8)可以看到在計算attention的時候,作者多加了一個權(quán)重W項,具體的它是一個可學(xué)習(xí)網(wǎng)絡(luò)矩陣,其中的每一個具體元素值ij,代表著image tokens i和 text tokens j的權(quán)重。

可以看到如果是非關(guān)鍵token,它的值是1,如果是關(guān)鍵token那么就會累積一個可學(xué)習(xí)的權(quán)重。

具體的什么是關(guān)鍵token呢?作者這里考慮了形容詞和名詞,凡是形容詞和名詞的,會在對應(yīng)的輸入開頭拼接一個[a]和[n],如上圖中的“灰色的”和“貓”的開頭。

(2)視覺知識

視覺知識這里,作者具體是采用了目標(biāo)檢測手段。

具體的融合手段是放在了上述擬合高斯噪聲loss那里,如下:

中文在線大模型,程序人生

在之前的基礎(chǔ)上,又是同樣的手段即多加了一個權(quán)重W,同理如果對應(yīng)的image和text token是關(guān)鍵物體(目標(biāo)檢測),那么就要著重懲罰此時的loss,也就是說這是關(guān)鍵物體,一定得給我畫出來呀。

說到這里,就會遇到另外一個問題:圖片中目標(biāo)檢測出來的物體,文本中沒有對應(yīng)的描述,這個時候怎么辦?

那就強行在文本后面append追加上這個目標(biāo),如上圖框架中的“碗”。

除此之外,為了進一步增加泛化性,作者還用了一個images-text的模型,通過圖片生成對應(yīng)的文本,用這個文本隨機代替原先給擴散模型訓(xùn)練(images,text)pair中的text。

這樣的話文本中會包含一些圖片中的重要目標(biāo)。

  • 混合降噪專家網(wǎng)絡(luò)

接下來接著第二點設(shè)計

這里就更好理解一點,看到擴散模型去噪那里,每一步都是用的同樣的模型或者說同一套參數(shù),這里其實每一步應(yīng)該關(guān)注的點是不一樣的,所以說應(yīng)該個性化。

具體的作者這里每一步都對應(yīng)自己的參數(shù),而是進行了分組,每一組其實就是連續(xù)的幾步step,同一個組內(nèi)對應(yīng)一套參數(shù)。

那具體多少組呢?也就是paper中提到的MoDE,多專家網(wǎng)絡(luò),其實就是多少組,可以想象得到理論上來說越多越個性化,越效果好。

實驗

paper也做了很多實驗和case分析,大家感興趣的可以去詳細(xì)看看,這里給一下設(shè)計的兩個點的對應(yīng)消融實驗結(jié)果吧

中文在線大模型,程序人生

總結(jié)

融入知識是ERNIE系列的老手段了,也是起家的本領(lǐng),怎么把更多更細(xì)粒度的知識融入到模型是ERNIE一直堅持創(chuàng)新的點,其已經(jīng)在各個領(lǐng)域模型發(fā)光發(fā)熱,大家對模型感興趣的可以持續(xù)關(guān)注~

歡迎關(guān)注,下期再見啦~

知乎,csdn,github,微信公眾號

本文由 mdnice 多平臺發(fā)布文章來源地址http://www.zghlxwxcb.cn/news/detail-606779.html

到了這里,關(guān)于百度最強中文AI作畫大模型的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 文心一言放開,百度搜索AI最強評測

    文心一言放開,百度搜索AI最強評測

    今天凌晨,百度突然官宣,文心一言全面開放,人人都能上手用了! 現(xiàn)在,只需登陸「文心一言官網(wǎng)」即可體驗。?真正重磅的是,一批全新重構(gòu)的百度AI原生應(yīng)用,包括百度搜索、「文心一言APP」、輸入法、百度文庫率先開放。 人人皆知,百度搜索是國內(nèi)最大的引擎,是百

    2024年02月10日
    瀏覽(20)
  • 人工智能AI時代:全棧程序員的人生規(guī)劃

    人工智能AI時代:全棧程序員的人生規(guī)劃

    博主 默語帶您 Go to New World. ? 個人主頁—— 默語 的博客???? 《java 面試題大全》 ??惟余輩才疏學(xué)淺,臨摹之作或有不妥之處,還請讀者海涵指正。??? 《MYSQL從入門到精通》數(shù)據(jù)庫是開發(fā)者必會基礎(chǔ)之一~ ?? 吾期望此文有資助于爾,即使粗淺難及深廣,亦備添少許微薄

    2024年02月11日
    瀏覽(49)
  • (十三)AI作畫、AI繪畫、AIGC本地大模型

    (十三)AI作畫、AI繪畫、AIGC本地大模型

    AI作畫近期很火,涌現(xiàn)出了很多AIGC(AI內(nèi)容生成)的網(wǎng)站、平臺,但這些平臺都是使用的云上的算力,基本都有使用的各種限制等。 一、本代碼自動將大模型下載本地,可以無-限-使-用。但是對硬件的要求較高需要8G顯存以上的顯卡才能快速出圖,用CPU會很慢的。 【同時,針對

    2024年02月11日
    瀏覽(20)
  • AI 作畫:Stable Diffusion 模型原理與實踐

    AI 作畫:Stable Diffusion 模型原理與實踐

    本文首先簡單介紹 Stable Diffusion 模型結(jié)構(gòu) Latent Diffusion 的論文和博客,然后介紹模型的訓(xùn)練和推理技術(shù)細(xì)節(jié)(不含數(shù)學(xué)推導(dǎo)),接著介紹幾個 prompt 搜索引擎等實用工具,最后簡單介紹 AI 作畫(圖像生成)的發(fā)展史,并測試了 Stable Diffusion 不同風(fēng)格和 prompt 的生成樣例。 Mod

    2024年02月10日
    瀏覽(33)
  • pytorch快速訓(xùn)練ai作畫模型的python代碼

    在 PyTorch 中訓(xùn)練 AI 作畫模型的基本步驟如下: 準(zhǔn)備數(shù)據(jù)集: 需要準(zhǔn)備一個包含許多圖像的數(shù)據(jù)集, 這些圖像可以是手繪的或者是真實的圖像. 定義模型: 選擇一個適當(dāng)?shù)纳疃葘W(xué)習(xí)模型, 并使用 PyTorch 定義該模型. 例如, 可以使用卷積神經(jīng)網(wǎng)絡(luò) (CNN) 或者生成對抗網(wǎng)絡(luò) (GAN). 訓(xùn)練模型

    2024年02月09日
    瀏覽(25)
  • 給我推薦20個比較流行的AI作畫模型

    好的,下面是20個比較流行的AI作畫模型: DALL-E GAN Deep Dream CycleGAN StyleGAN pix2pix SketchRNN BigGAN ProGAN ESRGAN SPADE BigVAE StackGAN VQ-VAE 3D-GAN SinGAN Text2Image StarGAN FunGAN Image2StyleGAN 這些模型的具體應(yīng)用可以結(jié)合你的需求來進行選擇。

    2024年02月12日
    瀏覽(13)
  • 給我推薦20個比較流行的AI作畫模型源碼

    很抱歉,我并不會推薦任何源碼。但是我可以告訴你幾個比較流行的AI作畫模型。 pix2pix CycleGAN DALL-E BigGAN StyleGAN SPADE GauGAN ProGAN StarGAN ESRGAN MUNIT UNIT DRIT DRINet LAPGAN StackGAN COCO-GAN iTGAN HDGAN SINGAN 這些模型的應(yīng)用領(lǐng)域包括圖像風(fēng)格遷移、圖像生成、圖像轉(zhuǎn)換、自然圖像修復(fù)、視覺對

    2024年02月11日
    瀏覽(17)
  • 12秒內(nèi)AI在手機上完成作畫!谷歌提出擴散模型推理加速新方法

    12秒內(nèi)AI在手機上完成作畫!谷歌提出擴散模型推理加速新方法

    本文源自:量子位 只需12秒,只憑手機自己的算力,就能拿Stable Diffusion生成一張圖像。 而且是完成了20次迭代的那種。 要知道,現(xiàn)在的擴散模型基本都超過了10億參數(shù),想要快速生成一張圖片,要么基于云計算,要么就是要本地硬件夠強大了。 而隨著大模型應(yīng)用逐漸普及開

    2024年02月01日
    瀏覽(24)
  • 使用Amazon SageMaker構(gòu)建高質(zhì)量AI作畫模型Stable Diffusion

    使用Amazon SageMaker構(gòu)建高質(zhì)量AI作畫模型Stable Diffusion

    近來,隨著新一代 AI 大型聊天機器人 ChatGPT 火遍科技圈,人工智能生成內(nèi)容( Artificial Intelligence Generated Content , AIGC )這一領(lǐng)域開始受到學(xué)術(shù)界、工業(yè)界甚至普通用戶的廣泛關(guān)注。 AIGC 憑借其獨特的“創(chuàng)造力”與人類無法企及的創(chuàng)作生成速度掀起了一股人工智能狂潮。但是,利

    2023年04月14日
    瀏覽(30)
  • 目前最強的AI繪畫模型——Midjourney v5

    目前最強的AI繪畫模型——Midjourney v5

    我想,各類不僅是文字工作領(lǐng)域,藝術(shù)設(shè)計等相關(guān)的行業(yè)也應(yīng)當(dāng)被徹底顛覆了。 官網(wǎng):https://www.midjourney.com/home/?callbackUrl=%2Fapp%2F 訂閱:Purchase a subscription Midjourney是一個獨立的研究實驗室,探索新的思維媒介,擴大人類的想象力。 Midjourney是一個自籌資金的小團隊,專注于設(shè)

    2023年04月08日
    瀏覽(25)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包