? ? ? ? ? ? ? ? ? ? ?
?使用 CLIP 對(duì)食物圖像進(jìn)行基于文本的圖像編輯
圖1:通過文本對(duì)食品圖像進(jìn)行處理的結(jié)果示例。最左邊一欄顯示的是原始輸入圖像。"Chahan"(日語中的炒飯)和 "蒸飯"。左起第二至第六列顯示了VQGAN-CLIP所處理的圖像。每個(gè)操作中使用的提示都是將食物名稱和 "與 "一個(gè)配料名稱結(jié)合起來。例如,第二列中的兩幅圖像分別是用提示語 "chahan with egg "和 "rice with egg "生成的。
摘要
????????最近,大規(guī)模的語言-圖像預(yù)訓(xùn)練模型,如CLIP,由于其對(duì)各種任務(wù),包括分類和圖像合成的顯著能力而引起了廣泛的關(guān)注。CLIP和GAN的組合可用于基于文本的圖像處理和基于文本的圖像合成。迄今為止,已經(jīng)提出了幾個(gè)CLIP和GAN的組合模型。然而,它們?cè)谑称穲D像領(lǐng)域的有效性還沒有得到全面的研究。在本文中,我們報(bào)告了使用VQGANCLIP進(jìn)行基于文本的食品圖像處理的實(shí)驗(yàn)結(jié)果,并討論了通過文本進(jìn)行食品圖像處理的可能性。????????
關(guān)鍵詞
基于文本的圖像處理,食物圖像處理,語言圖像預(yù)訓(xùn)練模型,CLIP
1 介紹
????????
????????隨著智能手機(jī)和社交媒體的發(fā)展,人們?cè)诨ヂ?lián)網(wǎng)上發(fā)布了各種照片。其中,最常張貼的照片之一是吃飯。漂亮的、巨大的、古怪的飯菜照片在一年中很容易成為社交媒體上的一個(gè)話題。一些餐館發(fā)布許多好看的照片,通過成為社交媒體上的潮流來增加他們的銷售額。
????????拍攝一張看起來美味或新奇的照片需要很多試錯(cuò)過程。拍完照片后,他們經(jīng)常使用先進(jìn)的圖像編輯軟件進(jìn)行編輯。這種軟件需要高水平的操作技能或知識(shí)
??????從2014年的GAN開始,用深度神經(jīng)網(wǎng)絡(luò)編輯圖像的技術(shù)在計(jì)算機(jī)視覺領(lǐng)域有了顯著的發(fā)展。在這種演變中,使用自然語言的圖像編輯,如ManiGAN和StyleCLIP,作為一種新的圖像編輯方式引起了人們的注意,因?yàn)樗鼈儾恍枰厥獾募寄芑蛑R(shí)進(jìn)行編輯。然而,這些模型大多沒有被應(yīng)用于食品圖像,主要應(yīng)用于人臉和動(dòng)物圖像。
????????此外,大規(guī)模語言圖像預(yù)訓(xùn)練模型,如 CLIP,最近因其在分類和圖像合成等各種任務(wù)中出色的zero-shot能力而備受關(guān)注。 CLIP 和 GAN 的結(jié)合可以用于基于文本的圖像處理和基于文本的圖像合成。幾個(gè)結(jié)合CLIP和GAN的模型已經(jīng)被提出,如StyleCLIP和StyleGAN-NADA。這些方法可以在不訓(xùn)練操縱模型的情況下操縱帶有文本的圖像。這是可能的,因?yàn)?CLIP 接受了 4 億對(duì)文本和圖像的訓(xùn)練,并且它了解語言和視覺之間的關(guān)系。
????????然而,它們?cè)谑称穲D像領(lǐng)域的有效性尚未得到全面檢驗(yàn)。本文通過許多實(shí)驗(yàn)檢驗(yàn)了基于文本的食物圖像處理的可能性。作為圖像處理方法,我們使用了 VQGANCLIP 。結(jié)果,我們證實(shí)了在食品領(lǐng)域使用 CLIP 進(jìn)行基于文本的圖像處理的有效性。
2 相關(guān)工作
自然語言圖像編輯模型有兩種主要類型:
????????一種是從頭開始學(xué)習(xí)圖像-文本對(duì)的模型。另一種是使用預(yù)先訓(xùn)練的視覺語言模型的模型
?ManiGAN,它學(xué)習(xí)圖像-文本對(duì),包含一個(gè)新的文本-圖像仿生組合模塊和一個(gè)細(xì)節(jié)校正模塊。這個(gè)GAN通過文本生成轉(zhuǎn)換為指定顏色或紋理的圖像。細(xì)節(jié)校正模塊可以提高在編輯細(xì)節(jié)時(shí)保持不相關(guān)部分的性能。TediGAN是使用預(yù)先訓(xùn)練好的StyleGAN的模型。它有一個(gè)相似性模塊,通過將圖像和文本映射到相同的潛在空間來學(xué)習(xí)它們之間的相似性。使用在面部圖像上訓(xùn)練的StyleGAN,TediGAN不需要生成器的GAN訓(xùn)練時(shí)間。然而,這個(gè)GAN限制了生成圖像的面部領(lǐng)域。從頭開始學(xué)習(xí)圖像-文本對(duì)的模型需要大量的訓(xùn)練時(shí)間和帶有文本的圖像,限制了編輯的圖像類型和操作。
????????最近的編輯模型經(jīng)常使用預(yù)先訓(xùn)練好的視覺語言模型的文本編碼器和圖像編碼器。特別是,CLIP是最常見的作為預(yù)訓(xùn)練的視覺語言模型。CLIP在從互聯(lián)網(wǎng)上收集的4億個(gè)圖像-文本對(duì)數(shù)據(jù)上進(jìn)行訓(xùn)練。雖然從頭開始訓(xùn)練的模型有有限的訓(xùn)練和狹窄的語言-視覺特征,但CLIP有相當(dāng)大的訓(xùn)練量和全面的語言-視覺特征。因此,它已被應(yīng)用于各種計(jì)算機(jī)視覺任務(wù),如圖像分類、檢測(cè)、分割、VQA和圖像合成。
????????StyleCLIP通過結(jié)合StyleGAN(圖像生成中的典型GAN)和CLIP,提出了三種編輯潛空間的方法來操縱圖像。有幾篇論文研究了通過操縱StyleGAN的潛空間進(jìn)行圖像編輯。然而,這些都是在語義監(jiān)督下學(xué)習(xí)的,或者需要人類指導(dǎo)。在本文中,CLIP自動(dòng)進(jìn)行這種指導(dǎo)。Paint by Word是一個(gè)部分圖像編輯模型,它結(jié)合了StyleGAN和使用掩碼的CLIP。很少有研究能改變圖像的某一部分而保留背景。這個(gè)模型可以通過編輯真實(shí)圖像中StyleGAN的潛伏代碼w來編輯掩碼中的特定部分。然而,本研究使用StyleGAN和BigGAN,它們是專門用于臥室和鳥類的GAN或通用GAN,而不是專門用于膳食。在我們的研究中,我們?cè)谏攀愁I(lǐng)域使用了經(jīng)過訓(xùn)練的VQGAN的z?。我們研究的最終目的是創(chuàng)建一個(gè)專門用于食物的圖像和文本的圖像編輯模型。因此,我們使用了VQGAN-CLIP,并在一組膳食圖像和文本上對(duì)它們進(jìn)行了訓(xùn)練。我們還研究了屏蔽功能,該功能只操作圖像的一部分,以方便編輯,正如他們所想的那樣。
3 方法
3.1 圖像操縱模型
????????我們用于食品圖像編輯的模型是VQGAN-CLIP。通過使用VQGAN進(jìn)行圖像生成部分,它可以通過網(wǎng)格(grid)控制圖像。此外,它將使用CNN學(xué)習(xí)圖像組件的詞匯,并使用Transformer學(xué)習(xí)它們的組成。此外,這個(gè)模型可以生成高質(zhì)量的圖像。CLIP可以計(jì)算出任何語言-視覺特征和圖像與文本之間的相似性,而且精確度很高。在傳統(tǒng)的圖像編輯模型中,模型架構(gòu)往往將文本固定在語法形式上進(jìn)行訓(xùn)練。然而,CLIP來自互聯(lián)網(wǎng)的訓(xùn)練數(shù)據(jù),允許各種語法形式,可以處理模糊的文本。這項(xiàng)研究使用了CLIP,因?yàn)樽匀晃谋揪庉嬓枰斫膺@種模糊的文本。
????????我們研究了VQGAN-CLIP,它在飯菜圖像上訓(xùn)練VQGAN和CLIP,而不是像ImageNet這樣的一般數(shù)據(jù)集,這是否對(duì)飯菜特征具有魯棒性。
?3.2 結(jié)構(gòu)
????????VQGAN-CLIP的結(jié)構(gòu)如圖2所示。
????????首先,對(duì)輸入圖像進(jìn)行調(diào)整,得到調(diào)整后的圖像
。然后,調(diào)整后的圖像
輸入到VQGAN的編碼器,生成初始潛伏向量
。請(qǐng)注意,
是VQGAN的編碼簿的維數(shù).接下來,潛伏向量
被輸入到VQGAN的解碼器,而輸出圖像
和輸入提示t被輸入到CLIP編碼器。這些給出了圖像標(biāo)記I和文本標(biāo)記T,而CLIP計(jì)算出了損失。然后,損失函數(shù)通過梯度下降法更新潛在向量
。最后,潛向量
被鉗制在VQGAN編碼簿的最大值和最小值之間,潛向量
被更新。因此,更新的潛向量
被再次輸入到VQGAN的解碼器,輸入到計(jì)算損失的CLIP,并重復(fù)更新潛向量
。
????????請(qǐng)注意,VQGAN的潛在向量是分配給每個(gè)方格? × w的向量
。該模型可以通過這個(gè)來限制編輯范圍。公式1顯示了通過使用
來計(jì)算潛向量
的梯度。掩碼
中的1表示是可操縱的網(wǎng)格,0表示不是可操縱的圖像。在計(jì)算潛伏向量
的梯度時(shí),本研究計(jì)算它們的元素相乘,使未改變的網(wǎng)格的梯度成為零。如果我們有一個(gè)與輸入尺寸相同的遮罩圖像,那么遮罩圖像就會(huì)被縮小,并被轉(zhuǎn)換為適合網(wǎng)格遮罩
。
圖2:用于食品圖像處理的VQGAN-CLIP架構(gòu)。我們用食品數(shù)據(jù)集對(duì)VQGAN和CLIP進(jìn)行專業(yè)化訓(xùn)練。VQGAN編碼器從輸入圖像制作一個(gè)潛伏向量。從潛伏向量,VQGAN解碼器做出一個(gè)初始的編輯圖像。之后,CLIP計(jì)算損失與提示。該損失優(yōu)化了潛伏向量。這種模式反復(fù)迭代,得到編輯過的圖像。可選的是,我們可以在它優(yōu)化的時(shí)候使用一個(gè)掩碼。?
?3.3 損失函數(shù)
????????操縱模型計(jì)算了公式2的損失。整個(gè)損失是CLIP損失和圖像損失
之和。本研究將
和
分別定為1。
????????以下公式3和公式4顯示了CLIP損失和圖像損失。CLIP損失和圖像損失使用VQGAN-CLIP實(shí)現(xiàn)的球面距離損失。球形距離損失的工作原理幾乎是圖像標(biāo)記和文本標(biāo)記之間的余弦相似度。這種損失也可以計(jì)算出初始和生成的圖像標(biāo)記之間的關(guān)系。圖像標(biāo)記I,是CLIP圖像編碼器對(duì)生成的圖像
和調(diào)整大小的圖像
。文本標(biāo)記T是CLIP文本編碼器對(duì)輸入提示t的輸出。?
?3.4 食品圖像數(shù)據(jù)集
?表1顯示了我們?cè)趯?shí)驗(yàn)中使用的食物圖像數(shù)據(jù)集的統(tǒng)計(jì)結(jié)果。為了專門研究膳食,VQGAN被微調(diào)為通過三個(gè)膳食數(shù)據(jù)集來提取食物特征,這些數(shù)據(jù)集有不同數(shù)量的膳食類別和圖像。另一方面,CLIP通過Recipe1M進(jìn)行微調(diào),其中包括成對(duì)的文本。本研究?jī)H使用Recipe1M的訓(xùn)練和評(píng)估數(shù)據(jù)集來訓(xùn)練VQGAN和CLIP,并使用Recipe1M的測(cè)試數(shù)據(jù)集來測(cè)量指標(biāo)。
表1:食品數(shù)據(jù)集的清單。關(guān)于Recipe1M,我們使用訓(xùn)練集和驗(yàn)證集來訓(xùn)練VQGAN。?
?表2:訓(xùn)練CLIP的提示清單。
?3.5 訓(xùn)練CLIP模型的提示語
?????????為了確定是否使用預(yù)訓(xùn)練的CLIP模型,我們?cè)u(píng)估了無預(yù)訓(xùn)練模型 "title_NoPretrain "和預(yù)訓(xùn)練模型 "title",它們都是用菜譜標(biāo)題提示進(jìn)行訓(xùn)練的。然后,我們檢查了轉(zhuǎn)移學(xué)習(xí)的學(xué)習(xí)提示,以使用預(yù)訓(xùn)練的模型。表2顯示了學(xué)習(xí)提示的列表,菜譜標(biāo)題為 "some_title",菜譜材料信息為" ingredients"。
????????這些提示是基于CoOp;在類別標(biāo)記前添加 "a "可以提高5%以上的分類準(zhǔn)確性。大多數(shù)時(shí)候,在文本前添加 "a的照片 "可以提高分類的準(zhǔn)確性。此外,添加與任務(wù)相關(guān)的上下文也會(huì)有明顯的改善。例如,添加 "一種花 "可以提高花卉圖像數(shù)據(jù)集的分類精度。對(duì)于CLIP的訓(xùn)練提示,我們也添加了這些前綴和后綴,以檢查性能的差異。
????????Recipe1M包含菜譜信息,如標(biāo)題和材料。本研究將標(biāo)題作為主要提示,將材料信息作為附加提示。訓(xùn)練提示 "成分 "只使用了成分信息。使用菜名和配料名稱組合的 "配料_標(biāo)題 "將標(biāo)題作為 "配料",將配料作為 "一些_標(biāo)題"。
?4 實(shí)驗(yàn)
4.1 概述
????????首先,我們比較了圖像編輯的提示。按提示的比較項(xiàng)目有這些:
????????(1)按稱呼方式的差異
????????(2)學(xué)習(xí)領(lǐng)域內(nèi)外的差異
????????(3)按口味形容詞的差異
????????(4)按配料的差異
????????然后,我們展示了VQGAN在不同數(shù)據(jù)集上訓(xùn)練時(shí)的差異,接著是由于CLIP訓(xùn)練期間的提示而產(chǎn)生的差異。最后,我們提出了一個(gè)使用指標(biāo)的VQGAN的定量評(píng)估。
?4.2 評(píng)價(jià)指標(biāo)
?????????本研究中對(duì)GAN的定量評(píng)價(jià)使用了Inception score(IS),F(xiàn)reshet initiation distance(FID),以及Kernel-Inception distance(KID)。
????????IS 是生成數(shù)據(jù)的條件標(biāo)簽分布 和周圍標(biāo)簽分布
之間的 Kullback-Leibler 散度 (KL-divergence)。這個(gè)指標(biāo)標(biāo)得越高,圖像的多樣性就越顯著,圖像的識(shí)別就越容易管理。一般來說,較高的IS適用于圖像編輯。IS是通過對(duì)所使用的圖像數(shù)量i的KL-divergence進(jìn)行平均而得出的。它描述為公式5。
????????FID是衡量真實(shí)圖像和生成圖像之間特征距離的著名指標(biāo)之一。這個(gè)指標(biāo)也被用來評(píng)估GAN的質(zhì)量。讓和
分別表示真實(shí)圖像的特征向量的平均值和協(xié)方差矩陣,m和c分別表示生成圖像的特征向量的平均值和協(xié)方差矩陣,F(xiàn)ID由公式6定義。設(shè)Tr為矩陣的跡線。FID值越低,圖像質(zhì)量就越高。
????????KID是用最大平均差異(MMD)計(jì)算的異同度樣本從不同分布中獨(dú)立提取。KID的定義如公式7所示。?
????????我們?cè)趤碜訰ecipe1M的測(cè)試數(shù)據(jù)集上的50,000張真實(shí)圖像和來自訓(xùn)練過的VQGAN的50,000張重建圖像之間計(jì)算這些指標(biāo)。這些圖像的大小被調(diào)整為256×256。我們?cè)趤碜訰ecipe1M的測(cè)試數(shù)據(jù)集上的50,000張真實(shí)圖像和來自訓(xùn)練過的VQGAN的50,000張重建圖像之間計(jì)算這些指標(biāo)。
????????這些圖像被調(diào)整為256×256的大小。我們通過使用Torch-fidelity 1來測(cè)量IS。我們使用clean-fid 2來測(cè)量FID。KID也是通過使用Torch-fidelity測(cè)量的。
????????此外,對(duì)CLIP的評(píng)價(jià)指標(biāo)使用了中位數(shù)排名(medR)、召回率(R@1,R@5,R@10)和CLIPScore[22]。 medR是中位數(shù)搜索排名。召回率是搜索結(jié)果在第一、第五和第十位內(nèi)的百分比。CLIPScore評(píng)估了生成的字幕候選者的質(zhì)量。使用CLIP作為損失函數(shù),損失可能很高,即使標(biāo)題是匹配的。同樣地,即使提示不合適,損失也可能很低。CLIPScore用來評(píng)估文本的匹配程度。以w=2.5,c為標(biāo)題標(biāo)記,v為圖像標(biāo)記,計(jì)算如下。
????????我們使用隨機(jī)的10k Recipe1M測(cè)試數(shù)據(jù)來評(píng)估CLIP。
????????OpenCLIP 3被用于CLIP訓(xùn)練和計(jì)算medR和Recall。作者的實(shí)現(xiàn)4用于測(cè)量CLIPScore。
?4.3 實(shí)現(xiàn)細(xì)節(jié)
????????在本研究中,我們對(duì)以下五個(gè)VQGAN進(jìn)行了微調(diào)。
????????(1) 訓(xùn)練過的ImageNet-1024模型
????????(2) 訓(xùn)練過的ImageNet-16384模型
????????(3) 訓(xùn)練過的Magical Rice Bowl模型,共59個(gè)epochs
????????(4) 訓(xùn)練過的Foodx251模型,共62epochs
????????(5) 訓(xùn)練過的Food500模型,共12個(gè)epochs
?????????每幅圖像的大小被調(diào)整為256×256的正方形,輸出分辨率被設(shè)置為相同的大小。編碼本的大小為256,分為16×16的網(wǎng)格,潛伏向量為。CLIP使用openCLIP 3進(jìn)行訓(xùn)練,這是CLIP的一個(gè)開源版本。OpenCLIP在Recipe1M的訓(xùn)練和評(píng)估數(shù)據(jù)集上訓(xùn)練,訓(xùn)練提示見表2。CLIP以ResNet50[23]為骨干,在32個(gè)epochs中進(jìn)行訓(xùn)練。訓(xùn)練部分的優(yōu)化函數(shù)是AdamW[24],它將批次大小設(shè)置為64,學(xué)習(xí)率為0.001,權(quán)重衰減因子為0.1。圖像生成部分的優(yōu)化函數(shù)使用Adam,它的步長(zhǎng)設(shè)置為0.05。我們對(duì)一幅圖像的編輯進(jìn)行了1000次圖像優(yōu)化迭代。
?5 實(shí)驗(yàn)結(jié)果
?我們展示了從圖3到圖12的輸出結(jié)果。圖像編輯所需的時(shí)間約為每幅圖像4至6分鐘。
?5.1 提示性的差異
????????我們比較了使用VQGAN-CLIP編輯圖像的提示。
????????在這5.1部分,我們使用了在Magical Rice Bowl數(shù)據(jù)集上訓(xùn)練的VQGAN和ViT-B/32的預(yù)訓(xùn)練的CLIP。我們使用在Magical Rice Bowl數(shù)據(jù)集上訓(xùn)練的VQGAN來澄清圖4中訓(xùn)練和未訓(xùn)練的圖像之間是否存在差異。
?圖3:以呼叫方式的差異。我們比較了 "形容詞+英文餐名"、"形容詞+日文餐名 "和 "僅形容詞"。用作提示語的形容詞(顏色)列在底部,餐名列在左邊。例如,最左邊一欄的提示語是 "紅色炒飯"、"紅色恰罕",以及從上往下的 "紅色"。
?????????圖3比較了飯菜的稱呼方式。Magical Rice Bowl數(shù)據(jù)集只有10個(gè)類別的日本菜。我們比較了 "形容詞+英文餐名"、"形容詞+日文餐名 "和 "僅形容詞"。在圖3的所有輸出圖像中,每個(gè)提示的顏色在不同的地方都可以看到。在只用形容詞的情況下,顏色的變化范圍很大,而且其變化也是平坦的,就像畫出來的一樣,而不是只用形容詞的情況下,顏色的變化是由成分決定的。比較 "形容詞+英文名稱 "和 "形容詞+日文餐名","形容詞+日文名稱 "看起來更自然。如果把英文餐名分成兩個(gè)詞,如 "炒飯",可能會(huì)被認(rèn)為是一個(gè)烹飪過程,而不是一個(gè)食物名稱。
?
圖4:VQGAN上的學(xué)習(xí)領(lǐng)域內(nèi)外的差異。左邊是學(xué)習(xí)內(nèi)的領(lǐng)域,右邊是學(xué)習(xí)外的領(lǐng)域。下面列出了輸入提示。VQGAN的學(xué)習(xí)域與否在圖像編輯方面沒有明顯的區(qū)別。?
?圖5:按口味形容詞的差異。所用的提示語列在下面。除了 "油膩",外觀沒有明顯變化。
????????接下來,我們展示了神奇飯碗數(shù)據(jù)集中所包含和排除的飯菜之間的區(qū)別。在這里,我們選擇了牛肉碗(gyudon)、海鮮碗(kaisendon)和炒面(yakisoba)作為神奇的米飯數(shù)據(jù)集中包含的圖像,而牛排、比薩和意大利面則作為不包含的圖像。圖4顯示了其結(jié)果。當(dāng)我們輸入gyudon的提示時(shí),出現(xiàn)了gyudon成分的物體。當(dāng)提示是炒面時(shí),在兩個(gè)輸入圖像中都出現(xiàn)了類似面條的物體。此外,我們還看到了牛排的顏色和形狀以及比薩餅的顏色,這并不包括神奇飯碗數(shù)據(jù)集中的十種膳食。因此,所有的輸出圖像中都有一些變化。包括在神奇的米飯碗數(shù)據(jù)集中的飯菜和不包括的飯菜之間沒有明顯的區(qū)別。在VQGAN的訓(xùn)練域中的包含或排除對(duì)圖像編輯沒有明顯影響。因此,這些圖像變化不是由VQGAN的訓(xùn)練引起的,而是取決于CLIP。
????????此外,為了觀察味覺形容詞的差異,我們?cè)诓兔屑尤肓说湫偷奈队X形容詞。所選的口味是熱的、甜的、咸的、酸的、苦的和油的。圖5顯示了輸入味覺形容詞的提示時(shí)的輸出。除了油性以外,在所有圖像中都沒有觀察到明顯的外觀變化。從這些輸出中,我們推斷出與味道有關(guān)的輸入可能不會(huì)有太大的變化,因?yàn)橐曈X意義很弱。為了進(jìn)行這些編輯,我們應(yīng)該在另一個(gè)視覺變化中添加諸如辛辣成分等詞語。
????????最后,我們?cè)趫D1中展示了使用添加配料的提示的輸出結(jié)果。在這里,我們考慮了模型通過添加雞蛋、培根、生菜、海鮮和火腿這五種成分的詞來改變圖像,在添加 "與 "字之后。如圖1所示,輸出可見的五種成分并不存在于神奇飯碗數(shù)據(jù)集的類別中。它是通過與大規(guī)模預(yù)訓(xùn)練的視覺語言模型CLIP聯(lián)系起來發(fā)生的。我們還發(fā)現(xiàn),有些情況下會(huì)編輯不同的部分,例如 "雞蛋飯 "中右上方的菜。因此,我們研究了一個(gè)輸入掩碼的功能。
????????添加配料的功能是這個(gè)圖像編輯模型的一個(gè)特點(diǎn)。因此,下面由VQGAN和CLIP模型進(jìn)行的比較使用了關(guān)于加料的提示。
5.2 訓(xùn)練過的VQGAN的區(qū)別
圖6顯示了用食物數(shù)據(jù)集訓(xùn)練的VQGAN的模型之間的差異。我們使用圖中所示的VQGAN和預(yù)先訓(xùn)練的ViT-B/32 CLIP。?
圖6:VQGAN的訓(xùn)練數(shù)據(jù)集的差異。下面列出了這些提示,左邊是用于訓(xùn)練VQGAN的數(shù)據(jù)集。在所有的訓(xùn)練模型中,質(zhì)量沒有明顯的差異。
????????在所有的輸出中,圖像編輯有差異,但它們是按照提示編輯的。所有訓(xùn)練模型的質(zhì)量沒有明顯差異,只有微小的差別。
5.3 受過訓(xùn)練的CLIP的不同之處
????????圖7和8比較了用Recipe1M訓(xùn)練CLIP時(shí)的訓(xùn)練提示。除了ViT-B/32預(yù)訓(xùn)練的CLIP,我們使用了從表2所示的提示中學(xué)習(xí)到的CLIP,用于原始CLIP。本節(jié)輸出使用ImageNet1024預(yù)訓(xùn)練的VQGAN
????????比較 "title_NoPretrain "和 "title",前者是用從頭開始的CLIP的標(biāo)題學(xué)習(xí),后者是用預(yù)訓(xùn)練的CLIP的標(biāo)題學(xué)習(xí),沒有明顯的區(qū)別。因此,我們?cè)谄渌麑W(xué)習(xí)提示中使用了預(yù)訓(xùn)練的模型。包括成分在內(nèi)的 "成分 "和 "成分_標(biāo)題 "提示的輸出有類似的人工智能。此外,那些CLIP模型不能根據(jù)提示操作圖像,而且觀察到圖像編輯的質(zhì)量較低。我們可以假設(shè),用食物成分學(xué)習(xí)CLIP并不能提高圖像質(zhì)量。這個(gè)猜想意味著材料在圖像的外觀上并沒有直接發(fā)揮重要作用。我們還發(fā)現(xiàn),用飯菜圖像訓(xùn)練CLIP并不能抑制整個(gè)結(jié)果圖像中的GAN特定偽影。至于 "APhotoOfA "和 "APhotoOfA_ATOF",兩個(gè)模型受到的干擾都比較小,但 "APhotoOfA_ATOF "的整體輸出被破壞得比較少。"APhotoOfA_ATOF "也比 "APhotoOfA "更穩(wěn)定。在圖7中,我們可以看到 "APhotoOfA_ATOF "中圖像右上方的培根、生菜和海鮮與米飯放在不同的盤子里。另外,在圖8中,我們可以在 "APhotoOfA_ATOF "中看到一個(gè)雞蛋、培根和火腿。最后,比較原始CLIP和整個(gè)訓(xùn)練后的CLIP,原始CLIP隨著提示顯示了一些變化,但圖像質(zhì)量很粗糙。
圖7:按CLIP學(xué)習(xí)提示對(duì)大米的差異。這些提示列在下面,左邊是CLIP學(xué)習(xí)的提示(見表2)。title_NoPretrain "和 "title "之間沒有明顯差異。圖像編輯的質(zhì)量在 "成分 "和 "成分_標(biāo)題 "中較低,在 "APhotoOfA_ATOF "和 "PhotoOfA "中較高。?
5.4 有掩蓋和無掩蓋的差異
????????在本節(jié)中,我們展示了使用掩蓋的結(jié)果。圖9到12顯示了結(jié)果。這些圖像使用了在Magical Rice Bowl數(shù)據(jù)集上訓(xùn)練的VQGAN和在ViT-B/32上預(yù)先訓(xùn)練的CLIP。此外,在圖9中,我們手動(dòng)創(chuàng)建了覆蓋米飯的方形面具,而在其他圖10到12中,我們使用了UECFoodPixComplete的mask。
????????在圖9中,配料被放置在米飯上,周圍的背景在蒙版中沒有變化。
????????在圖10中,我們使用了一個(gè)從UECFoodPixComplete的遮罩圖像中得到的圓形遮罩,我們可以確認(rèn),模型將配料添加到咖喱中。在圖11中,我們使用了一個(gè)從UECFoodPixComplete得到的大的矩形遮罩。在沒有遮罩的情況下,澆頭甚至有時(shí)是可見的,但有了遮罩后所有的澆頭都是可見的。
????????在圖12中,我們使用了從UECFoodPixComplete得到的一個(gè)大的不均勻的面具,像一個(gè)圓形。即使沒有蒙版,澆頭也是存在的。但有了masks,澆頭就會(huì)明顯地生成。此外,該模型使用面具不改變勺子的形狀。
圖8:按CLIP學(xué)習(xí)提示在Chahan上的差異。提示語列在下面,CLIP學(xué)習(xí)的提示語在左邊。結(jié)果幾乎與圖7相同。
表3: VQGAN中50,000張膳食圖像的重構(gòu)指標(biāo)?
圖9:在水稻圖像上使用手工創(chuàng)建的網(wǎng)格掩碼,其輸出結(jié)果的差異。上面的小圖像是輸入圖像和輸入掩碼。提示顯示在底部。上面的圖像是沒有掩碼的輸出結(jié)果,下面的圖像是有掩碼的輸出結(jié)果。結(jié)果顯示,背景被保留了下來。?
?圖10:在咖喱圖像上使用掩碼,輸出的差異。其格式與圖9相同。這些結(jié)果使用了從UECFoodPixComplete掩膜圖像中得到的圓形掩膜。對(duì)模型進(jìn)行了編輯,在蒙版上添加了配料
圖11:在炒面圖像上使用掩膜,輸出的差異。其格式與圖9相同。在沒有遮罩的情況下,有時(shí)甚至可以看到澆頭,但使用遮罩后,所有的澆頭都可以看到。?
表4: 對(duì)CLIP的定量評(píng)價(jià)?
圖12:在Chahan圖像上使用掩膜的輸出的差異。其格式與圖9相同。這些結(jié)果使用了從UECFoodPixComplete得到的一個(gè)大的不均勻的蒙版。勺子的形狀通過使用掩碼得到了保持。
?
????????使用遮罩,該模型沒有在指定的位置編輯圖像,被操縱的圖像沒有被破壞。此外,這個(gè)模型對(duì)非蒙版區(qū)域進(jìn)行了適當(dāng)?shù)木庉?,在蒙版邊界附近的圖像損壞較少。當(dāng)圖像的編輯范圍較小時(shí),沒有遮罩的編輯往往導(dǎo)致不能很好地被編輯,因?yàn)椴倏v的注意力被吸引到各個(gè)位置。相反,當(dāng)圖像的編輯范圍很廣時(shí),即使沒有遮罩也經(jīng)常進(jìn)行編輯。然而,如圖12所示,一個(gè)事物的形狀,如勺子,是由遮罩保持的。因此,我們可以說,在任何情況下,有遮罩的編輯質(zhì)量都會(huì)更好。雖然需要輸入蒙版,但當(dāng)我們想指定編輯點(diǎn)或想進(jìn)行大幅度的編輯時(shí),輸入蒙版圖像是一種非常有效的方法。
5.5 模型的定量評(píng)價(jià)
????????表3顯示了VQGAN的評(píng)價(jià)。在food500上預(yù)訓(xùn)練的VQGAN的FID和KID最低,而在Magical Rice Bowl數(shù)據(jù)集上訓(xùn)練的VQGAN的FID最高。ImageNet16384和foodx251的FID與在food500上預(yù)訓(xùn)練的FID相當(dāng),但I(xiàn)mageNet16384的KID與food500相比有一定差距。IS的比較表明,ImageNet1024是最好的,它表示最容易識(shí)別和最多樣化的,但food500也差不了多少,總體來說,food500是質(zhì)量最高的模型。
????????表3和圖6對(duì)VQGAN的訓(xùn)練數(shù)據(jù)集之間的差異進(jìn)行了定量和定性的評(píng)估。圖6中訓(xùn)練數(shù)據(jù)集之間的差異顯示,輸出的圖像沒有明顯的差異。然后,當(dāng)我們看表3時(shí),我們發(fā)現(xiàn)food500模型具有最高的準(zhǔn)確性。定量評(píng)價(jià)顯示了數(shù)值上的差異,但在圖像編輯的質(zhì)量上沒有明顯的差異。這表明通過定量評(píng)價(jià)的定性評(píng)價(jià)是復(fù)雜的。在圖像編輯方面,如本研究,還沒有形成標(biāo)準(zhǔn)的評(píng)價(jià)指標(biāo)和基準(zhǔn),定量評(píng)價(jià)并不能直接評(píng)價(jià)圖像編輯的優(yōu)劣。在圖像編輯中需要建立一個(gè)新的定量評(píng)價(jià)指標(biāo)。
????????表4顯示了CLIP的定量評(píng)價(jià)。"title"、"APhotoOF "和 "APhotoOf_ATOF "相對(duì)占優(yōu)勢(shì)。"title_NoPretrain "有最高的CLIPScore,但可能對(duì)文本和圖像之間的相似性不成熟。圖7和圖8也顯示了CLIP的訓(xùn)練提示之間的差異。當(dāng)模型得到一個(gè)好的定量評(píng)價(jià)時(shí),輸出的圖像也往往是好的。因此,與GAN定量評(píng)價(jià)不同,CLIP評(píng)價(jià)有可能通過定量評(píng)價(jià)提供定性評(píng)價(jià)。
6 結(jié)論
在這項(xiàng)研究中,我們研究了VQGAN-CLIP在編輯與膳食有關(guān)的圖像方面的有效性。為了進(jìn)一步將模型專門用于膳食圖像,我們?cè)谏攀硤D像數(shù)據(jù)集上訓(xùn)練了VQGAN,在具有各種訓(xùn)練提示的食譜數(shù)據(jù)集上訓(xùn)練了CLIP。
我們通過編輯提示、VQGAN的訓(xùn)練數(shù)據(jù)集和CLIP的訓(xùn)練提示,使用掩碼或不使用掩碼來比較差異。我們發(fā)現(xiàn),VQGAN的訓(xùn)練數(shù)據(jù)集在輸出的圖像中沒有顯示出明顯的差異。然而,評(píng)價(jià)指標(biāo)是用飯菜圖像數(shù)據(jù)集更好。"APhotoOfA_ATOF "的圖像損壞相對(duì)較少,在CLIP訓(xùn)練提示中的定量評(píng)價(jià)中得分較高。屏蔽圖像的功能是一個(gè)非常有效的圖像編輯工具。
我們將考慮增加一個(gè)自動(dòng)輸入掩碼的模型。我們還將考慮VQGAN模型以外的圖像生成模型,如PPDM[26]。
原文鏈接:https://doi.org/10.1145/3552484.3555751文章來源:http://www.zghlxwxcb.cn/news/detail-600806.html
1)? https://github.com/toshas/torch-fidelity
2)? https://github.com/GaParmar/clean-fid
3)? https://github.com/mlfoundations/open_clip
4)? https://github.com/jmhessel/clipscore文章來源地址http://www.zghlxwxcb.cn/news/detail-600806.html
到了這里,關(guān)于論文翻譯:Text-based Image Editing for Food Images with CLIP的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!