国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

文生圖關(guān)鍵問題探索:個性化定制和效果評價

這篇具有很好參考價值的文章主要介紹了文生圖關(guān)鍵問題探索:個性化定制和效果評價。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

文生圖(Text-to-Image Generation)是AIGC(AI Generated Content,人工智能生成內(nèi)容)的一個主要方向。近年來,文生圖模型的效果和質(zhì)量得到飛速提升,投資界和研究界都在密切關(guān)注文生圖模型的進展。這一領(lǐng)域還有什么樣的問題或者發(fā)展方向?本文介紹了近期文生圖的發(fā)展歷程,從四個不同角度來介紹這一領(lǐng)域目前面臨的關(guān)鍵問題和研究進展。

作者 | 劉廣
責編 | Carol
出品 | 《新程序員》編輯部

2021年初,OpenAI團隊提出了CLIP[1]模型并開源了模型權(quán)重,其核心點有三個:通過對比學習進行圖文匹配學習,開源CLIP模型權(quán)重和發(fā)布CLIP Benchmark評測。從此,文圖多模態(tài)領(lǐng)域開始收到廣泛關(guān)注并迅速發(fā)展。文生圖應用最早出現(xiàn)的標志是OpenAI推出DALL· E[2],自此各大公司開始不斷推出新的文生圖模型,實際生成效果和效率相對于從前基于自回歸(Auto Regressive)和對抗網(wǎng)絡(GAN)等文生圖方法均提升顯著。

DALL·E的應用技術(shù)是Diffusion Model,主要用于生成圖像、音頻、文本等數(shù)據(jù)。它通過模擬數(shù)據(jù)的去噪過程來生成新的數(shù)據(jù)。與生成對抗網(wǎng)絡(GAN)相比,Diffusion models的生成過程更加穩(wěn)定,生成的數(shù)據(jù)也更加真實。Diffusion Model的發(fā)展如圖1所示:

文生圖關(guān)鍵問題探索:個性化定制和效果評價
圖1 AIGC-Text to Image 的發(fā)展

?特別是從2022年5月Stable Diffusion[3]的開源開始,作為一個迅速火出圈的AI技術(shù),Stable Diffusion以極快的速度獲得了大量的開源社區(qū)關(guān)注,開始引領(lǐng)AIGC行業(yè)發(fā)展。那么,為什么Stable Diffusion能夠這么快地火出圈?其根本還是在于生成的效果和效率非常高,極大地降低了創(chuàng)作的門檻,降低了創(chuàng)作的成本。這里列了Stable Diffusion的Discord上的幾個例子(見圖2),這些圖片都可以在Nvidia Tesla A100機器上通過3-4s的時間生成出來。

文生圖關(guān)鍵問題探索:個性化定制和效果評價
圖2 Stable Diffusion在Discord上的案例

雖然Stable Diffusion取得了很大的成功,但其本身存在一些問題會影響生成效果。主要包括:

  • 問題一:模型的機器評價與人工評價之間缺乏一致性。通過機器評價指標,比如FID值等,評價結(jié)果往往和真實的生成效果并不一致,因此不能很好地評價不同模型的效果。而人工評價標準難以統(tǒng)一并有高昂的成本。
  • 問題二:如何在生成過程中實現(xiàn)更高效的控制。如何提高生成圖像和文本輸入之間的一致性,特別是在使用簡短的提示句來生成圖像時,目前難以有效地控制所生成圖片與文本之間的相關(guān)性程度。
  • 問題三:如何進行定制個性化模型。如何定制一個文生圖模型,是行業(yè)應用的關(guān)鍵。快速的進行新概念/風格/人物的學習,是文生圖落地到各應用場景的第一個攔路虎。
  • 問題四:高質(zhì)量文圖數(shù)據(jù)集的缺乏。數(shù)據(jù)的重要性不言而喻,大量高質(zhì)量的文圖數(shù)據(jù)是文生圖發(fā)展的血液,沒有數(shù)據(jù)再好的算法也發(fā)揮不了作用。


?本文節(jié)選自《新程序員006:人工智能新十年》

如何評價文生圖模型的效果

如何評價文生圖模型的效果是生成類模型面臨的共性問題之一。通常,生成類模型的評價分為機器評價和人工評價兩種。機器評價方法如Bleu等,人工評價如ChatGPT中的人工評價等。然而,機器評價結(jié)果不完全符合人工評價結(jié)果,因此高機器評價并不一定代表生成效果好。

文生圖的模型評價也面臨同樣的問題,現(xiàn)在用于文生圖模型評價的機器評價指標比如FID值等指標的評價結(jié)果跟真實的圖片生成效果并不是一致,因此機器評價的結(jié)果并不能夠很好的評價不同的文生圖模型效果。但是,由于機器評價的便利性和客觀性等原因,還是有很多評價基準在采用機器評價指標。比如ArtBench,一個提供了很多不同藝術(shù)風格標注數(shù)據(jù)的數(shù)據(jù)集,也是用FID指標等機器評價方法來評價不同模型的效果。

從ArtBench的評測結(jié)果中可以看到基于GAN模型生成的圖片可以獲得最高的FID值,說明GAN生成跟訓練數(shù)據(jù)同分布圖片的能力還是更強。但同時這種更強的生成能力也是一種限制,限制了GAN模型的泛化能力,使得GAN只偏向于生成更像訓練數(shù)據(jù)中的樣本。在2021年NeurIPS上刊載的OpenAI團隊的文章Diffusion Models Beat GANs on Image Synthesis[4],指出了有引導的Diffusion 模型可以在各種機器評價指標上比GANs的效果更好。

但就像前面提到的一樣,機器評價指標好就真的會生成更高質(zhì)量的圖片嗎?由此可以看出,人工評價可能是更加合適文生圖模型的評價方式。但是人工評價沒有統(tǒng)一的標準,成本比較高。文章Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark[5]提出了一套人工評價的標準。讓人從三種prompts的難度以及三種不同的task維度來對比不同的文生圖模型的圖片生成效果(見表1),比如SD和DALL-E 2。難度的定義用論文中的原文表述是:“In that case, the task may be easy: generating 1-3 objects, medium-generating 4-10 objects, and hard-generating more than ten objects.”

文生圖關(guān)鍵問題探索:個性化定制和效果評價

表1 ?不同的文生圖模型的人工評測結(jié)果

論文也給出了人工評價的結(jié)果,在數(shù)量(counting)和人臉(faces)兩個類別的任務上,DALL·E2占優(yōu)勢,而在形狀(shapes)這個類型的任務上,SD占優(yōu)勢。從篇文章給出的結(jié)果來看,現(xiàn)在的文生圖模型中的第一梯隊水平模型,在數(shù)量和形狀方面,還是明顯弱于人臉的生成任務的。因此,我們可以從這篇文章中總結(jié)出現(xiàn)在文生圖模型存在的語言理解的問題,特別是數(shù)量和形狀在理解能力上偏弱。

文本理解能力可以通過更大更強的語言模型來解決,比如Google提出的Imagen[6]使用了更大的文本模型T5(Text-To-Text Transfer Transformer[7]),并在解碼和超分模型中都引入文本的信息來生成具有更豐富細節(jié)的圖片。為了評價文生圖模型的效果,Imagen團隊也同時提出了一個文生圖的評價基準DrawBench。該基準主要從兩個維度來評價文生圖的效果:image-text alignment和sample fidelity。其實驗指出,用T5作為文本編碼器的Imagen模型在這兩個維度上都有提升。但是,從上述實驗的結(jié)果可以得出,在Image框架下將文本編碼器從CLIP的文本塔換成T5,會有一定的alignment提升,但是不是特別明顯。所以更大的語言模型會帶來一定的alignment的提升,但是提升沒有預期的高。

整體來看,文生圖模型的評價是AIGC繼續(xù)發(fā)展的基石,急需評價體系的建立。

可控生成

?從上述論文對文生圖的評價結(jié)果可以看出來,達到可控生成任重而道遠,其中最關(guān)鍵的一點是alignment,還有很大的提升空間。因此,我們可以得到文生圖的第二個關(guān)鍵問題——可控生成。通過一句prompts輸入來生成圖片時,生成的圖片和文字之間的alignment會比較弱,比如:

  • 同時輸入多個實體不能實現(xiàn)完全生成;
  • 實體之間的關(guān)系不能體現(xiàn);
  • 顏色和數(shù)量不能體現(xiàn);
  • 文字顯示不出來。

在現(xiàn)行的一些研究中,研究者也提出引入對文本理解更好的模型來解決可控問題,比如EDiff-I[8]。這篇文章延續(xù)了Imagen的思路,既然T5文本理解對于可控生成有幫助,那就把它集成進來,發(fā)揮出1+1>2的效果。

但是,從文本模型角度來改進可控生成所需資源比較多,首先需要一個更強的文本模型,然后才能訓練得到更好的文生圖模型。因此,有一些研究便從可控編輯的角度來解決這個問題,比如一項名為P2P (Prompt-to-Prompt Image Editing with cross attention control[9]) 的研究便期望通過微調(diào)prompt達到可控生成的目標(見圖3)。

文生圖關(guān)鍵問題探索:個性化定制和效果評價

圖3 通過微調(diào)prompt達到可控生成的目標

InstructPix2Pix [10]這篇文章的思路跟P2P思路很像,也是通過圖像編輯來實現(xiàn)可控生成。不一樣的是,這篇文章用GPT-3來做prompt微調(diào)。從圖片編輯這條線上進行研究效果的確很驚艷,但是評價偏弱,沒有一個很好的評價標準和體系,還是很難繼續(xù)推進。圖像編輯算法Paint by Example提出了另外一種思路:將可控生成的難度降低,提供一個樣本圖片,結(jié)合圖像修復技術(shù)來達到局部可控生成。其技術(shù)思路很直觀,同時提供機器評價和人工評價的結(jié)果。

總得來說,這個方向的改進可能會引發(fā)下一波文生圖應用熱潮,但是因為評價方法的缺失,導致進展比較難以衡量。

個性化模型

本文首先從評測的角度探討了文生圖模型的關(guān)鍵問題:可控生成。接著從應用的角度出發(fā),重點研究如何定制一個文生圖模型,這是落地各行業(yè)應用的關(guān)鍵所在。在影視、動漫、漫畫、游戲、媒體、廣告、出版、時尚等行業(yè)使用文生圖模型時,常常會遇到新概念、風格、人物缺失的問題。例如,若需要生成某位明星A的中國風肖像,但該模型并未見過此明星的肖像,也無法識別中國風,這將嚴重限制文生圖模型的應用場景。因此,如何快速新增概念和風格,成為當前研究的重要方向之一。

說到這里,大家第一時間想到的肯定就是DreamBooth[11]、Textual Inversion[12]和美學梯度[13]。

DreamBooth本身是為Imagen設計的,通過三張圖就能夠快速學習到新概念/風格/人物,但是現(xiàn)在已經(jīng)遷移到了Stable Diffusion。這個技術(shù)有很多個不同的版本,其核心思想是在小樣本上微調(diào)的同時盡量減少過擬合。

Textual Inversion是從文本編碼器的角度來解決新概念引入的問題,其提出新風格和概念的引入需要從文本理解開始,新的風格和概念如果是OOV(Out Of Vocaburary,未登錄)的詞匯,那我們就在文本編碼器上增加這個詞匯來解決概念引入的問題。其思路是整個模型的所有參數(shù)都不需要調(diào)整,只需要增加一個額外的token以及其對應的embedding就可以,即插即用。

美學梯度方法跟之前inpainting的可控生成思路很類似,針對新的風格,我們先降低難度,給出一些新風格的樣例(這里是embedding),然后讓生成朝著與這個樣例更接近的方向展開。

總而言之,這條線上的研究現(xiàn)在也沒有什么評價標準和體系,處于方興未艾的階段,離落地也很近,基本出來效果就可以直接創(chuàng)業(yè)。

高質(zhì)量數(shù)據(jù)集

數(shù)據(jù)的重要性不言而喻,大量高質(zhì)量的文圖數(shù)據(jù)是文生圖發(fā)展的血液,沒有數(shù)據(jù)再好的算法也發(fā)揮不了作用。數(shù)據(jù)集不是開源一堆url提供下載就完了,其中包括了水印識別、NSFW(Not Suitable For Work)圖片識別、文圖匹配過濾等多種預處理操作,甚至包括說明文字的生成、改寫和優(yōu)化等操作。這個方向國外的LAION團隊做的非常的扎實,國內(nèi)也有一些公司開源了數(shù)據(jù)集。下表2列出,僅供參考。

文生圖關(guān)鍵問題探索:個性化定制和效果評價

表2:國內(nèi)外開源文圖數(shù)據(jù)集

綜上,文圖數(shù)據(jù)現(xiàn)在是英文的數(shù)據(jù)在數(shù)量和質(zhì)量上都比中文和其他語言高了一截,希望未來有十億級別的高質(zhì)量中文數(shù)據(jù)集出現(xiàn)。

結(jié)語

文生圖模型是當前人工智能領(lǐng)域最具潛力和前景的研究方向之一。未來,隨著計算能力的提高和技術(shù)的進一步發(fā)展,文生圖模型的應用前景將會更加廣泛和深遠。然而,針對其應用過程中存在的一些問題,如模型評價缺乏一致性、控制生成過程效率低下、定制個性化模型困難以及高質(zhì)量文圖數(shù)據(jù)集缺乏等,需要我們進一步研究探索解決方案。

隨著文生圖模型的不斷發(fā)展和完善,我們可以預見到未來人機交互方式的改變。在智能化時代的到來中,文生圖模型的應用將會極大地改變?nèi)藗兣c計算機交互的方式,讓計算機更加“懂人”,進一步提升人機交互的效率和質(zhì)量,也有望成為人工智能走向真正“人性化”的關(guān)鍵一步??傊纳鷪D模型作為一項研究熱點,具有極其廣泛的應用前景,未來也將在技術(shù)創(chuàng)新和產(chǎn)業(yè)應用中扮演越來越重要的角色。

參考鏈接

[1] Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International conference on machine learning.PMLR, 202

[2] Ramesh, Aditya, et al. "Zero-shot text-to-image generation." International Conference on Machine Learning. PMLR, 2021.

[3] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

[4] Dhariwal, Prafulla, and Alexander Nichol. "Diffusion models beat gans on image synthesis." Advances in Neural Information Processing Systems 34 (2021): 8780-8794.

[5] Petsiuk, Vitali, et al. "Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark." arXiv preprint arXiv:2211.12112 (2022).

[6] Saharia, Chitwan, et al. "Photorealistic text-to-image diffusion models with deep language understanding." Advances in Neural Information Processing Systems 35 (2022): 36479-36494.

[7] Raffel, Colin, et al. "Exploring the limits of transfer learning with a unified text-to-text transformer." The Journal of Machine Learning Research 21.1 (2020): 5485-5551.

[8] Balaji, Yogesh, et al. "ediffi: Text-to-image diffusion models with an ensemble of expert denoisers." arXiv preprint arXiv:2211.01324 (2022).

[9] Hertz, Amir, et al. "Prompt-to-prompt image editing with cross attention control." arXiv preprint arXiv:2208.01626 (2022).

[10] Brooks, Tim, Aleksander Holynski, and Alexei A. Efros. "Instructpix2pix: Learning to follow image editing instructions." arXiv preprint arXiv:2211.09800 (2022).

[11] Ruiz, Nataniel, et al. "Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation." arXiv preprint arXiv:2208.12242 (2022).

[12] Gal, Rinon, et al. "An image is worth one word: Personalizing text-to-image generation using textual inversion." arXiv preprint arXiv:2208.01618 (2022).

[13] Gallego, Victor. "Personalizing Text-to-Image Generation via Aesthetic Gradients." arXiv preprint arXiv:2209.12330 (2022).

作者介紹


文生圖關(guān)鍵問題探索:個性化定制和效果評價

?劉廣,北京郵電大學智能科學與技術(shù)博士,北京智源人工智能研究院NLP和多模態(tài)研究中心算法研究員。FlagAI核心貢獻者,主要研究方向是預訓練大模型和多模態(tài)文圖生成等方向。在人工智能領(lǐng)域頂級學術(shù)會議和國際學術(shù)期刊上發(fā)表論文數(shù)篇,發(fā)明專利申請十余項。文章來源地址http://www.zghlxwxcb.cn/news/detail-457827.html

到了這里,關(guān)于文生圖關(guān)鍵問題探索:個性化定制和效果評價的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務器費用

相關(guān)文章

  • 奧威BI數(shù)據(jù)可視化工具:個性化定制,打造獨特大屏

    奧威BI數(shù)據(jù)可視化工具:個性化定制,打造獨特大屏

    每個人都有自己獨特的審美,因此即使是做可視化大屏,也有很多人希望做出不一樣的報表,用以緩解審美疲勞的同時提高報表瀏覽效率。因此這也催生出了數(shù)據(jù)可視化工具的個性化可視化大屏制作需求。 奧威BI數(shù)據(jù)可視化工具:個性化定制,打造獨特可視化大屏 奧威BI數(shù)據(jù)

    2024年02月12日
    瀏覽(33)
  • 服裝行業(yè)多模態(tài)算法個性化產(chǎn)品定制方案 | 京東云技術(shù)團隊

    服裝行業(yè)多模態(tài)算法個性化產(chǎn)品定制方案 | 京東云技術(shù)團隊

    一、項目背景 AI賦能服裝設計師,設計好看、好穿、好賣的服裝 傳統(tǒng)服裝行業(yè)痛點 ? 設計師無法準確捕捉市場趨勢,抓住中國潮流 ? 上新周期長,高庫存滯銷風險大 ? 基本款居多,難以滿足消費者個性化需求 解決方案 ? GPT+數(shù)據(jù)洞察,快速反應市場時尚流行趨勢 ? 柔性

    2024年02月14日
    瀏覽(23)
  • 三防平板定制服務:億道信息與個性化生產(chǎn)的緊密結(jié)合

    三防平板定制服務:億道信息與個性化生產(chǎn)的緊密結(jié)合

    在當今數(shù)字化時代,個性化定制已經(jīng)成為了市場的一大趨勢,而三防平板定制服務作為其中的一部分,展現(xiàn)了數(shù)字化技術(shù)與個性化需求之間的緊密結(jié)合。這種服務是通過億道信息所提供的技術(shù)支持,為用戶提供了滿足特定需求的定制化三防平板,從而使得產(chǎn)品更符合用戶的個

    2024年04月09日
    瀏覽(134)
  • 三種風格:山海鯨可視化軟件模板的個性化定制之旅“

    三種風格:山海鯨可視化軟件模板的個性化定制之旅“

    當我們談論數(shù)據(jù)可視化時,一個好的可視化組件套件模板至關(guān)重要。一個優(yōu)秀的模板不僅可以提高數(shù)據(jù)可視化的效果,還能讓用戶更加深入地探索和理解數(shù)據(jù)。作為山海鯨可視化軟件的開發(fā)者,在提供 免費好用 的產(chǎn)品同時我們也希望最大限度降低用戶設計難度,因此我們精

    2024年01月22日
    瀏覽(19)
  • 基于ssm個性化旅游攻略定制系統(tǒng)設計與實現(xiàn)+jsp論文

    基于ssm個性化旅游攻略定制系統(tǒng)設計與實現(xiàn)+jsp論文

    在如今社會上,關(guān)于信息上面的處理,沒有任何一個企業(yè)或者個人會忽視,如何讓信息急速傳遞,并且歸檔儲存查詢,采用之前的紙張記錄模式已經(jīng)不符合當前使用要求了。所以,對個性化旅游攻略信息管理的提升,也為了對個性化旅游攻略信息進行更好的維護,個性化旅游

    2024年02月03日
    瀏覽(22)
  • 個性化定制,提升運營效率:SAP二次開發(fā)引領(lǐng)企業(yè)數(shù)字化轉(zhuǎn)型

    SAP二次開發(fā)引領(lǐng)企業(yè)數(shù)字化轉(zhuǎn)型 隨著企業(yè)競爭的日益激烈,定制化管理方案成為企業(yè)實現(xiàn)差異化競爭的重要工具。SAP作為全球領(lǐng)先的企業(yè)管理軟件提供商,SAP二次開發(fā)服務應運而生,為企業(yè)提供個性定制的解決方案,助力其實現(xiàn)數(shù)字化轉(zhuǎn)型,提高運營效率,迎接不斷變化的業(yè)

    2024年02月22日
    瀏覽(23)
  • 基于Android+Django+Python的服飾管理與個性化定制系統(tǒng)的設計與實現(xiàn)

    基于Android+Django+Python的服飾管理與個性化定制系統(tǒng)的設計與實現(xiàn)

    資源下載地址:https://download.csdn.net/download/sheziqiong/87904742 資源下載地址:https://download.csdn.net/download/sheziqiong/87904742 一、選題的背景和意義 1、課題研究背景 隨著移動終端技術(shù)和網(wǎng)絡技術(shù)的飛速發(fā)展,人們可以使用移動客戶端上網(wǎng),隨時隨地從互聯(lián)網(wǎng)獲取信息和服務,解決吃

    2024年03月13日
    瀏覽(30)
  • 個性化定制界面 VS 極簡版原裝界面:你更喜歡哪一個?為什么?

    個性化定制界面 VS 極簡版原裝界面:你更喜歡哪一個?為什么?

    不管昨天、今天、明天,能豁然開朗就是最美好的一天。 個性化定制界面和極簡版原裝界面,哪一個你用起來更加順手呢,相比之下你更喜歡哪一個? 隨著移動互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,手機和電腦成為我們生活中必不可少的工具之一。而手機和電腦界面作為我們與手機交互

    2024年02月11日
    瀏覽(26)
  • 【ChatGPT】Mr. Ranedeer:可定制個性化學習體驗的 GPT-4 AI 導師提示

    【ChatGPT】Mr. Ranedeer:可定制個性化學習體驗的 GPT-4 AI 導師提示

    Mr. Ranedeer AI Tutor 是一個可定制的提示,為具有不同需求和興趣的用戶提供個性化的學習體驗。它使用GPT-4來釋放AI的潛力,并允許您調(diào)整知識深度以匹配您的學習需求,自定義學習風格,溝通類型,語氣和推理框架 。 當您使用Mr. Ranedeer AI Tutor時,您 可以選擇自己的學習風格

    2024年02月11日
    瀏覽(31)
  • 企業(yè)版ChatGPT用戶激增至60萬;百度文心一言推出個性化聲音定制功能

    企業(yè)版ChatGPT用戶激增至60萬;百度文心一言推出個性化聲音定制功能

    ?? AI新聞 ?? 企業(yè)版ChatGPT用戶激增至60萬 摘要 :OpenAI首席運營官Brad Lightcap在接受采訪時透露,企業(yè)版ChatGPT的注冊用戶已超60萬,相較2024年1月的15萬用戶,短短三個月內(nèi)增長了300%。這一版本自2023年8月推出,特別支持無限制訪問GPT-4模型并提供深入的數(shù)據(jù)分析,幫助企業(yè)更有

    2024年04月09日
    瀏覽(26)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包