這篇具有很好參考價值的文章主要介紹了文生圖——DALL-E 3 —論文解讀——第一版。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。
概述
?? ?本文主要是DALL·E 3官方第一版技術(shù)報告(論文)的解讀,原文《Improving Image Generation with Better Captions》論文解讀。該文要提升文生圖的效果,將技術(shù)點(diǎn)放到了,提升指令跟隨能力上,然后順藤摸瓜分為提升訓(xùn)練數(shù)據(jù)caption(使用模型合成caption),當(dāng)然也要提升模型(關(guān)于模型結(jié)構(gòu)、訓(xùn)練策略、數(shù)據(jù)集等都未做過多介紹,但是官方又明確提到,除了數(shù)據(jù),模型也起到了不少的作用)。
? ? 一句話省流版,數(shù)據(jù)方面,訓(xùn)練時使用95%模型(CoCa)合成詳細(xì)描述caption + 5%原本人類 caption,測試時使用GPT-4v 擴(kuò)寫人類caption;模型方面使用T5xxl + vae encoder + diffusion latent + 自家decoder 取得最好效果。
效果
? ? 參考幾個之前公眾號推出的測試效果:
?? ?
DALL·E 3內(nèi)部實(shí)測效果驚人!Karpathy生成逼真靈動「美國小姐」,50個物體一圖全包
?? ?
文章來源地址http://www.zghlxwxcb.cn/news/detail-720539.html
文章來源:http://www.zghlxwxcb.cn/news/detail-720539.html
到了這里,關(guān)于文生圖——DALL-E 3 —論文解讀——第一版的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!
本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!