(DALLE-3)Improving Image Generation with Better Captions
引用: Betker J, Goh G, Jing L, et al. Improving image generation with better captions[J]. Computer Science. https://cdn. openai. com/papers/dall-e-3. pdf, 2023, 2(3): 8.
論文鏈接: https://arxiv.org/abs/2212.09748
簡介
論文展示了通過在高度描述性的生成圖像captions上訓練,可以顯著提高文本到圖像模型的提示跟隨能力?,F(xiàn)有的文本到圖像模型在遵循詳細圖像描述方面存在困難,經(jīng)常忽略提示中的單詞或混淆提示的含義。作者假設這個問題源于訓練數(shù)據(jù)集中圖像標題的噪聲和不準確性。通過訓練一個定制的圖像captions生成器并用它來重新標注訓練數(shù)據(jù)集來解決這個問題。然后,訓練了幾個文本到圖像模型,并發(fā)現(xiàn)在這些合成captions上訓練可靠地提高了提示跟隨能力。最后,使用這些發(fā)現(xiàn)構(gòu)建了DALLE 3:一個新的文本到圖像生成系統(tǒng),并在設計用來衡量提示跟隨、連貫性和美學的評估中測試了其性能,發(fā)現(xiàn)它與競爭對手相比具有優(yōu)勢。
Method
論文提出的文本到圖像模型是在由大量配對(t,i)組成的數(shù)據(jù)集上訓練的,其中i是圖像,t是描述該圖像的文本。在大規(guī)模數(shù)據(jù)集中,t通常來源于人類作者,他們專注于對圖像主題的簡單描述,而忽略了圖像中描繪的背景細節(jié)或常識關(guān)系。t中通常省略的重要細節(jié)可能包括:
- 廚房水槽或人行道上的停車標志等物體的存在以及對這些物體的描述。
- 場景中對象的位置和這些對象的數(shù)量。
- 常識性細節(jié),如場景中對象的顏色和大小。
- 顯示在圖像中的文本。
糟糕的是,在互聯(lián)網(wǎng)上發(fā)現(xiàn)的captions往往根本不正確;描述圖像的切向相關(guān)細節(jié)。例如,在通常用于為圖像制作captions的文本中,通常會發(fā)現(xiàn)廣告或表情包。作者假設所有這些缺點都可以通過綜合生成的 captions來解決。
圖像字幕與預測文本的傳統(tǒng)語言模型非常相似。語言模型首先使用標記器將文本字符串分解為離散的標記。一旦以這種方式分解,語料庫的文本部分就可以表示為一個序列,t=[t1,t2,…,tn]。然后,可以通過最大化以下可能性函數(shù),在文本上建立一個語言模型:
其中,θ是要優(yōu)化的captioner的參數(shù)。要將此語言模型轉(zhuǎn)換為captioner,只需要對圖像進行調(diào)整即可。這里的挑戰(zhàn)是圖像是由成千上萬的像素值組成的。對目前的神經(jīng)網(wǎng)絡來說,對所有這些信息進行調(diào)節(jié)是非常低效的,所以需要一個壓縮的表示空間。方便的是,CLIP提供了這一點。因此,給定預先訓練的CLIP圖像嵌入函數(shù)F(i),擴展語言模型的優(yōu)化目標如下:
為了改進圖像生成數(shù)據(jù)集中的captions,希望使caption生成器產(chǎn)生有利于學習文本到圖像模型的圖像描述。在第一次嘗試中,構(gòu)建了一個小的caption數(shù)據(jù)集,只描述圖像的主要主題。然后繼續(xù)在這個數(shù)據(jù)集上訓練captioner。該過程引起的θ更新可以導致模型偏向于描述圖像的主要主題。將此微調(diào)生成的captions稱為"short synthetic captions"。
然后,第二次重復這個過程,創(chuàng)建一個由長的、高度描述性的captions組成的數(shù)據(jù)集,描述微調(diào)數(shù)據(jù)集中每個圖像的內(nèi)容。這些captions不僅描述了圖像的主要主題,還描述了圖像周圍的環(huán)境、背景、圖像中的文本、風格、顏色等。再次在此數(shù)據(jù)集上captioner。將此captioner生成的captions稱為“描descriptive synthetic captions”。圖3顯示了基本事實、簡短合成和描述性合成captions的示例。
構(gòu)建完成后,將圖像captioner微調(diào)應用于文本到圖像數(shù)據(jù)集中的每個圖像,從而生成一組合成字幕,用于后續(xù)實驗。文章來源:http://www.zghlxwxcb.cn/news/detail-838742.html
實驗
文章來源地址http://www.zghlxwxcb.cn/news/detail-838742.html
到了這里,關(guān)于【論文閱讀】(DALLE-3)Improving Image Generation with Better Captions的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!