国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文翻譯：Text-based Image Editing for Food Images with CLIP

2年前作者：nocol.分類：Toy博客閱讀(24)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了論文翻譯：Text-based Image Editing for Food Images with CLIP。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

? ? ? ? ? ? ? ? ? ? ?

?使用 CLIP 對(duì)食物圖像進(jìn)行基于文本的圖像編輯

論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

圖1：通過文本對(duì)食品圖像進(jìn)行處理的結(jié)果示例。最左邊一欄顯示的是原始輸入圖像。"Chahan"（日語中的炒飯）和 "蒸飯"。左起第二至第六列顯示了VQGAN-CLIP所處理的圖像。每個(gè)操作中使用的提示都是將食物名稱和 "與 "一個(gè)配料名稱結(jié)合起來。例如，第二列中的兩幅圖像分別是用提示語 "chahan with egg "和 "rice with egg "生成的。

摘要

????????最近，大規(guī)模的語言-圖像預(yù)訓(xùn)練模型，如CLIP，由于其對(duì)各種任務(wù)，包括分類和圖像合成的顯著能力而引起了廣泛的關(guān)注。CLIP和GAN的組合可用于基于文本的圖像處理和基于文本的圖像合成。迄今為止，已經(jīng)提出了幾個(gè)CLIP和GAN的組合模型。然而，它們?cè)谑称穲D像領(lǐng)域的有效性還沒有得到全面的研究。在本文中，我們報(bào)告了使用VQGANCLIP進(jìn)行基于文本的食品圖像處理的實(shí)驗(yàn)結(jié)果，并討論了通過文本進(jìn)行食品圖像處理的可能性。????????

關(guān)鍵詞

基于文本的圖像處理，食物圖像處理，語言圖像預(yù)訓(xùn)練模型，CLIP

1 介紹

????????

????????隨著智能手機(jī)和社交媒體的發(fā)展，人們?cè)诨ヂ?lián)網(wǎng)上發(fā)布了各種照片。其中，最常張貼的照片之一是吃飯。漂亮的、巨大的、古怪的飯菜照片在一年中很容易成為社交媒體上的一個(gè)話題。一些餐館發(fā)布許多好看的照片，通過成為社交媒體上的潮流來增加他們的銷售額。

????????拍攝一張看起來美味或新奇的照片需要很多試錯(cuò)過程。拍完照片后，他們經(jīng)常使用先進(jìn)的圖像編輯軟件進(jìn)行編輯。這種軟件需要高水平的操作技能或知識(shí)

??????從2014年的GAN開始，用深度神經(jīng)網(wǎng)絡(luò)編輯圖像的技術(shù)在計(jì)算機(jī)視覺領(lǐng)域有了顯著的發(fā)展。在這種演變中，使用自然語言的圖像編輯，如ManiGAN和StyleCLIP，作為一種新的圖像編輯方式引起了人們的注意，因?yàn)樗鼈儾恍枰厥獾募寄芑蛑R(shí)進(jìn)行編輯。然而，這些模型大多沒有被應(yīng)用于食品圖像，主要應(yīng)用于人臉和動(dòng)物圖像。

????????此外，大規(guī)模語言圖像預(yù)訓(xùn)練模型，如 CLIP，最近因其在分類和圖像合成等各種任務(wù)中出色的zero-shot能力而備受關(guān)注。 CLIP 和 GAN 的結(jié)合可以用于基于文本的圖像處理和基于文本的圖像合成。幾個(gè)結(jié)合CLIP和GAN的模型已經(jīng)被提出，如StyleCLIP和StyleGAN-NADA。這些方法可以在不訓(xùn)練操縱模型的情況下操縱帶有文本的圖像。這是可能的，因?yàn)?CLIP 接受了 4 億對(duì)文本和圖像的訓(xùn)練，并且它了解語言和視覺之間的關(guān)系。

????????然而，它們?cè)谑称穲D像領(lǐng)域的有效性尚未得到全面檢驗(yàn)。本文通過許多實(shí)驗(yàn)檢驗(yàn)了基于文本的食物圖像處理的可能性。作為圖像處理方法，我們使用了 VQGANCLIP 。結(jié)果，我們證實(shí)了在食品領(lǐng)域使用 CLIP 進(jìn)行基于文本的圖像處理的有效性。

2 相關(guān)工作

自然語言圖像編輯模型有兩種主要類型：

????????一種是從頭開始學(xué)習(xí)圖像-文本對(duì)的模型。另一種是使用預(yù)先訓(xùn)練的視覺語言模型的模型

?ManiGAN，它學(xué)習(xí)圖像-文本對(duì)，包含一個(gè)新的文本-圖像仿生組合模塊和一個(gè)細(xì)節(jié)校正模塊。這個(gè)GAN通過文本生成轉(zhuǎn)換為指定顏色或紋理的圖像。細(xì)節(jié)校正模塊可以提高在編輯細(xì)節(jié)時(shí)保持不相關(guān)部分的性能。TediGAN是使用預(yù)先訓(xùn)練好的StyleGAN的模型。它有一個(gè)相似性模塊，通過將圖像和文本映射到相同的潛在空間來學(xué)習(xí)它們之間的相似性。使用在面部圖像上訓(xùn)練的StyleGAN，TediGAN不需要生成器的GAN訓(xùn)練時(shí)間。然而，這個(gè)GAN限制了生成圖像的面部領(lǐng)域。從頭開始學(xué)習(xí)圖像-文本對(duì)的模型需要大量的訓(xùn)練時(shí)間和帶有文本的圖像，限制了編輯的圖像類型和操作。

????????最近的編輯模型經(jīng)常使用預(yù)先訓(xùn)練好的視覺語言模型的文本編碼器和圖像編碼器。特別是，CLIP是最常見的作為預(yù)訓(xùn)練的視覺語言模型。CLIP在從互聯(lián)網(wǎng)上收集的4億個(gè)圖像-文本對(duì)數(shù)據(jù)上進(jìn)行訓(xùn)練。雖然從頭開始訓(xùn)練的模型有有限的訓(xùn)練和狹窄的語言-視覺特征，但CLIP有相當(dāng)大的訓(xùn)練量和全面的語言-視覺特征。因此，它已被應(yīng)用于各種計(jì)算機(jī)視覺任務(wù)，如圖像分類、檢測(cè)、分割、VQA和圖像合成。

????????StyleCLIP通過結(jié)合StyleGAN（圖像生成中的典型GAN）和CLIP，提出了三種編輯潛空間的方法來操縱圖像。有幾篇論文研究了通過操縱StyleGAN的潛空間進(jìn)行圖像編輯。然而，這些都是在語義監(jiān)督下學(xué)習(xí)的，或者需要人類指導(dǎo)。在本文中，CLIP自動(dòng)進(jìn)行這種指導(dǎo)。Paint by Word是一個(gè)部分圖像編輯模型，它結(jié)合了StyleGAN和使用掩碼的CLIP。很少有研究能改變圖像的某一部分而保留背景。這個(gè)模型可以通過編輯真實(shí)圖像中StyleGAN的潛伏代碼w來編輯掩碼中的特定部分。然而，本研究使用StyleGAN和BigGAN，它們是專門用于臥室和鳥類的GAN或通用GAN，而不是專門用于膳食。在我們的研究中，我們?cè)谏攀愁I(lǐng)域使用了經(jīng)過訓(xùn)練的VQGAN的z?。我們研究的最終目的是創(chuàng)建一個(gè)專門用于食物的圖像和文本的圖像編輯模型。因此，我們使用了VQGAN-CLIP，并在一組膳食圖像和文本上對(duì)它們進(jìn)行了訓(xùn)練。我們還研究了屏蔽功能，該功能只操作圖像的一部分，以方便編輯，正如他們所想的那樣。

3 方法

3.1 圖像操縱模型

????????我們用于食品圖像編輯的模型是VQGAN-CLIP。通過使用VQGAN進(jìn)行圖像生成部分，它可以通過網(wǎng)格（grid）控制圖像。此外，它將使用CNN學(xué)習(xí)圖像組件的詞匯，并使用Transformer學(xué)習(xí)它們的組成。此外，這個(gè)模型可以生成高質(zhì)量的圖像。CLIP可以計(jì)算出任何語言-視覺特征和圖像與文本之間的相似性，而且精確度很高。在傳統(tǒng)的圖像編輯模型中，模型架構(gòu)往往將文本固定在語法形式上進(jìn)行訓(xùn)練。然而，CLIP來自互聯(lián)網(wǎng)的訓(xùn)練數(shù)據(jù)，允許各種語法形式，可以處理模糊的文本。這項(xiàng)研究使用了CLIP，因?yàn)樽匀晃谋揪庉嬓枰斫膺@種模糊的文本。

????????我們研究了VQGAN-CLIP，它在飯菜圖像上訓(xùn)練VQGAN和CLIP，而不是像ImageNet這樣的一般數(shù)據(jù)集，這是否對(duì)飯菜特征具有魯棒性。

?3.2 結(jié)構(gòu)

????????VQGAN-CLIP的結(jié)構(gòu)如圖2所示。

????????首先，對(duì)輸入圖像論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫進(jìn)行調(diào)整，得到調(diào)整后的圖像。然后，調(diào)整后的圖像輸入到VQGAN的編碼器，生成初始潛伏向量論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫。請(qǐng)注意，是VQGAN的編碼簿的維數(shù).接下來，潛伏向量被輸入到VQGAN的解碼器，而輸出圖像論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫和輸入提示t被輸入到CLIP編碼器。這些給出了圖像標(biāo)記I和文本標(biāo)記T，而CLIP計(jì)算出了損失。然后，損失函數(shù)通過梯度下降法更新潛在向量論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫。最后，潛向量被鉗制在VQGAN編碼簿的最大值和最小值之間，潛向量被更新。因此，更新的潛向量論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫被再次輸入到VQGAN的解碼器，輸入到計(jì)算損失的CLIP，并重復(fù)更新潛向量。

????????請(qǐng)注意，VQGAN的潛在向量論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫是分配給每個(gè)方格? × w的向量。該模型可以通過這個(gè)來限制編輯范圍。公式1顯示了通過使用論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫來計(jì)算潛向量的梯度。掩碼中的1表示是可操縱的網(wǎng)格，0表示不是可操縱的圖像。在計(jì)算潛伏向量論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫的梯度時(shí)，本研究計(jì)算它們的元素相乘，使未改變的網(wǎng)格的梯度成為零。如果我們有一個(gè)與輸入尺寸相同的遮罩圖像，那么遮罩圖像就會(huì)被縮小，并被轉(zhuǎn)換為適合網(wǎng)格遮罩論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫。

論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

圖2：用于食品圖像處理的VQGAN-CLIP架構(gòu)。我們用食品數(shù)據(jù)集對(duì)VQGAN和CLIP進(jìn)行專業(yè)化訓(xùn)練。VQGAN編碼器從輸入圖像制作一個(gè)潛伏向量。從潛伏向量，VQGAN解碼器做出一個(gè)初始的編輯圖像。之后，CLIP計(jì)算損失與提示。該損失優(yōu)化了潛伏向量。這種模式反復(fù)迭代，得到編輯過的圖像。可選的是，我們可以在它優(yōu)化的時(shí)候使用一個(gè)掩碼。?

?3.3 損失函數(shù)

????????操縱模型計(jì)算了公式2的損失。整個(gè)損失是CLIP損失論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫和圖像損失之和。本研究將和分別定為1。

論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

????????以下公式3和公式4顯示了CLIP損失和圖像損失。CLIP損失和圖像損失使用VQGAN-CLIP實(shí)現(xiàn)的球面距離損失。球形距離損失的工作原理幾乎是圖像標(biāo)記和文本標(biāo)記之間的余弦相似度。這種損失也可以計(jì)算出初始和生成的圖像標(biāo)記之間的關(guān)系。圖像標(biāo)記I，論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫是CLIP圖像編碼器對(duì)生成的圖像和調(diào)整大小的圖像。文本標(biāo)記T是CLIP文本編碼器對(duì)輸入提示t的輸出。?

論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

?3.4 食品圖像數(shù)據(jù)集

?表1顯示了我們?cè)趯?shí)驗(yàn)中使用的食物圖像數(shù)據(jù)集的統(tǒng)計(jì)結(jié)果。為了專門研究膳食，VQGAN被微調(diào)為通過三個(gè)膳食數(shù)據(jù)集來提取食物特征，這些數(shù)據(jù)集有不同數(shù)量的膳食類別和圖像。另一方面，CLIP通過Recipe1M進(jìn)行微調(diào)，其中包括成對(duì)的文本。本研究?jī)H使用Recipe1M的訓(xùn)練和評(píng)估數(shù)據(jù)集來訓(xùn)練VQGAN和CLIP，并使用Recipe1M的測(cè)試數(shù)據(jù)集來測(cè)量指標(biāo)。

論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

表1：食品數(shù)據(jù)集的清單。關(guān)于Recipe1M，我們使用訓(xùn)練集和驗(yàn)證集來訓(xùn)練VQGAN。?

論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

?表2：訓(xùn)練CLIP的提示清單。

?3.5 訓(xùn)練CLIP模型的提示語

?????????為了確定是否使用預(yù)訓(xùn)練的CLIP模型，我們?cè)u(píng)估了無預(yù)訓(xùn)練模型 "title_NoPretrain "和預(yù)訓(xùn)練模型 "title"，它們都是用菜譜標(biāo)題提示進(jìn)行訓(xùn)練的。然后，我們檢查了轉(zhuǎn)移學(xué)習(xí)的學(xué)習(xí)提示，以使用預(yù)訓(xùn)練的模型。表2顯示了學(xué)習(xí)提示的列表，菜譜標(biāo)題為 "some_title"，菜譜材料信息為" ingredients"。

????????這些提示是基于CoOp；在類別標(biāo)記前添加 "a "可以提高5%以上的分類準(zhǔn)確性。大多數(shù)時(shí)候，在文本前添加 "a的照片 "可以提高分類的準(zhǔn)確性。此外，添加與任務(wù)相關(guān)的上下文也會(huì)有明顯的改善。例如，添加 "一種花 "可以提高花卉圖像數(shù)據(jù)集的分類精度。對(duì)于CLIP的訓(xùn)練提示，我們也添加了這些前綴和后綴，以檢查性能的差異。

????????Recipe1M包含菜譜信息，如標(biāo)題和材料。本研究將標(biāo)題作為主要提示，將材料信息作為附加提示。訓(xùn)練提示 "成分 "只使用了成分信息。使用菜名和配料名稱組合的 "配料_標(biāo)題 "將標(biāo)題作為 "配料"，將配料作為 "一些_標(biāo)題"。

?4 實(shí)驗(yàn)

4.1 概述

????????首先，我們比較了圖像編輯的提示。按提示的比較項(xiàng)目有這些:

????????(1)按稱呼方式的差異

????????(2)學(xué)習(xí)領(lǐng)域內(nèi)外的差異

????????(3)按口味形容詞的差異

????????(4)按配料的差異

????????然后，我們展示了VQGAN在不同數(shù)據(jù)集上訓(xùn)練時(shí)的差異，接著是由于CLIP訓(xùn)練期間的提示而產(chǎn)生的差異。最后，我們提出了一個(gè)使用指標(biāo)的VQGAN的定量評(píng)估。

?4.2 評(píng)價(jià)指標(biāo)

?????????本研究中對(duì)GAN的定量評(píng)價(jià)使用了Inception score（IS），F(xiàn)reshet initiation distance（FID），以及Kernel-Inception distance（KID）。

????????IS 是生成數(shù)據(jù)的條件標(biāo)簽分布論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫和周圍標(biāo)簽分布之間的 Kullback-Leibler 散度 (KL-divergence)。這個(gè)指標(biāo)標(biāo)得越高，圖像的多樣性就越顯著，圖像的識(shí)別就越容易管理。一般來說，較高的IS適用于圖像編輯。IS是通過對(duì)所使用的圖像數(shù)量i的KL-divergence進(jìn)行平均而得出的。它描述為公式5。

論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

????????FID是衡量真實(shí)圖像和生成圖像之間特征距離的著名指標(biāo)之一。這個(gè)指標(biāo)也被用來評(píng)估GAN的質(zhì)量。讓論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫和分別表示真實(shí)圖像的特征向量的平均值和協(xié)方差矩陣，m和c分別表示生成圖像的特征向量的平均值和協(xié)方差矩陣，F(xiàn)ID由公式6定義。設(shè)Tr為矩陣的跡線。FID值越低，圖像質(zhì)量就越高。

論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

????????KID是用最大平均差異(MMD)計(jì)算的異同度論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫樣本從不同分布中獨(dú)立提取。KID的定義如公式7所示。?

論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

????????我們?cè)趤碜訰ecipe1M的測(cè)試數(shù)據(jù)集上的50,000張真實(shí)圖像和來自訓(xùn)練過的VQGAN的50,000張重建圖像之間計(jì)算這些指標(biāo)。這些圖像的大小被調(diào)整為256×256。我們?cè)趤碜訰ecipe1M的測(cè)試數(shù)據(jù)集上的50,000張真實(shí)圖像和來自訓(xùn)練過的VQGAN的50,000張重建圖像之間計(jì)算這些指標(biāo)。

????????這些圖像被調(diào)整為256×256的大小。我們通過使用Torch-fidelity 1來測(cè)量IS。我們使用clean-fid 2來測(cè)量FID。KID也是通過使用Torch-fidelity測(cè)量的。

????????此外，對(duì)CLIP的評(píng)價(jià)指標(biāo)使用了中位數(shù)排名（medR）、召回率（R@1，R@5，R@10）和CLIPScore[22]。 medR是中位數(shù)搜索排名。召回率是搜索結(jié)果在第一、第五和第十位內(nèi)的百分比。CLIPScore評(píng)估了生成的字幕候選者的質(zhì)量。使用CLIP作為損失函數(shù)，損失可能很高，即使標(biāo)題是匹配的。同樣地，即使提示不合適，損失也可能很低。CLIPScore用來評(píng)估文本的匹配程度。以w=2.5，c為標(biāo)題標(biāo)記，v為圖像標(biāo)記，計(jì)算如下。

論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

????????我們使用隨機(jī)的10k Recipe1M測(cè)試數(shù)據(jù)來評(píng)估CLIP。

????????OpenCLIP 3被用于CLIP訓(xùn)練和計(jì)算medR和Recall。作者的實(shí)現(xiàn)4用于測(cè)量CLIPScore。

?4.3 實(shí)現(xiàn)細(xì)節(jié)

????????在本研究中，我們對(duì)以下五個(gè)VQGAN進(jìn)行了微調(diào)。

????????(1) 訓(xùn)練過的ImageNet-1024模型

????????(2) 訓(xùn)練過的ImageNet-16384模型

????????(3) 訓(xùn)練過的Magical Rice Bowl模型，共59個(gè)epochs

????????(4) 訓(xùn)練過的Foodx251模型，共62epochs

????????(5) 訓(xùn)練過的Food500模型，共12個(gè)epochs

?????????每幅圖像的大小被調(diào)整為256×256的正方形，輸出分辨率被設(shè)置為相同的大小。編碼本的大小為256，分為16×16的網(wǎng)格，潛伏向量為論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫。CLIP使用openCLIP 3進(jìn)行訓(xùn)練，這是CLIP的一個(gè)開源版本。OpenCLIP在Recipe1M的訓(xùn)練和評(píng)估數(shù)據(jù)集上訓(xùn)練，訓(xùn)練提示見表2。CLIP以ResNet50[23]為骨干，在32個(gè)epochs中進(jìn)行訓(xùn)練。訓(xùn)練部分的優(yōu)化函數(shù)是AdamW[24]，它將批次大小設(shè)置為64，學(xué)習(xí)率為0.001，權(quán)重衰減因子為0.1。圖像生成部分的優(yōu)化函數(shù)使用Adam，它的步長(zhǎng)設(shè)置為0.05。我們對(duì)一幅圖像的編輯進(jìn)行了1000次圖像優(yōu)化迭代。

?5 實(shí)驗(yàn)結(jié)果

?我們展示了從圖3到圖12的輸出結(jié)果。圖像編輯所需的時(shí)間約為每幅圖像4至6分鐘。

?5.1 提示性的差異

????????我們比較了使用VQGAN-CLIP編輯圖像的提示。

????????在這5.1部分，我們使用了在Magical Rice Bowl數(shù)據(jù)集上訓(xùn)練的VQGAN和ViT-B/32的預(yù)訓(xùn)練的CLIP。我們使用在Magical Rice Bowl數(shù)據(jù)集上訓(xùn)練的VQGAN來澄清圖4中訓(xùn)練和未訓(xùn)練的圖像之間是否存在差異。

論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

?圖3：以呼叫方式的差異。我們比較了 "形容詞+英文餐名"、"形容詞+日文餐名 "和 "僅形容詞"。用作提示語的形容詞（顏色）列在底部，餐名列在左邊。例如，最左邊一欄的提示語是 "紅色炒飯"、"紅色恰罕"，以及從上往下的 "紅色"。

?????????圖3比較了飯菜的稱呼方式。Magical Rice Bowl數(shù)據(jù)集只有10個(gè)類別的日本菜。我們比較了 "形容詞+英文餐名"、"形容詞+日文餐名 "和 "僅形容詞"。在圖3的所有輸出圖像中，每個(gè)提示的顏色在不同的地方都可以看到。在只用形容詞的情況下，顏色的變化范圍很大，而且其變化也是平坦的，就像畫出來的一樣，而不是只用形容詞的情況下，顏色的變化是由成分決定的。比較 "形容詞+英文名稱 "和 "形容詞+日文餐名"，"形容詞+日文名稱 "看起來更自然。如果把英文餐名分成兩個(gè)詞，如 "炒飯"，可能會(huì)被認(rèn)為是一個(gè)烹飪過程，而不是一個(gè)食物名稱。

論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

?

圖4：VQGAN上的學(xué)習(xí)領(lǐng)域內(nèi)外的差異。左邊是學(xué)習(xí)內(nèi)的領(lǐng)域，右邊是學(xué)習(xí)外的領(lǐng)域。下面列出了輸入提示。VQGAN的學(xué)習(xí)域與否在圖像編輯方面沒有明顯的區(qū)別。?

論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

?圖5：按口味形容詞的差異。所用的提示語列在下面。除了 "油膩"，外觀沒有明顯變化。

????????接下來，我們展示了神奇飯碗數(shù)據(jù)集中所包含和排除的飯菜之間的區(qū)別。在這里，我們選擇了牛肉碗（gyudon）、海鮮碗（kaisendon）和炒面（yakisoba）作為神奇的米飯數(shù)據(jù)集中包含的圖像，而牛排、比薩和意大利面則作為不包含的圖像。圖4顯示了其結(jié)果。當(dāng)我們輸入gyudon的提示時(shí)，出現(xiàn)了gyudon成分的物體。當(dāng)提示是炒面時(shí)，在兩個(gè)輸入圖像中都出現(xiàn)了類似面條的物體。此外，我們還看到了牛排的顏色和形狀以及比薩餅的顏色，這并不包括神奇飯碗數(shù)據(jù)集中的十種膳食。因此，所有的輸出圖像中都有一些變化。包括在神奇的米飯碗數(shù)據(jù)集中的飯菜和不包括的飯菜之間沒有明顯的區(qū)別。在VQGAN的訓(xùn)練域中的包含或排除對(duì)圖像編輯沒有明顯影響。因此，這些圖像變化不是由VQGAN的訓(xùn)練引起的，而是取決于CLIP。

????????此外，為了觀察味覺形容詞的差異，我們?cè)诓兔屑尤肓说湫偷奈队X形容詞。所選的口味是熱的、甜的、咸的、酸的、苦的和油的。圖5顯示了輸入味覺形容詞的提示時(shí)的輸出。除了油性以外，在所有圖像中都沒有觀察到明顯的外觀變化。從這些輸出中，我們推斷出與味道有關(guān)的輸入可能不會(huì)有太大的變化，因?yàn)橐曈X意義很弱。為了進(jìn)行這些編輯，我們應(yīng)該在另一個(gè)視覺變化中添加諸如辛辣成分等詞語。

????????最后，我們?cè)趫D1中展示了使用添加配料的提示的輸出結(jié)果。在這里，我們考慮了模型通過添加雞蛋、培根、生菜、海鮮和火腿這五種成分的詞來改變圖像，在添加 "與 "字之后。如圖1所示，輸出可見的五種成分并不存在于神奇飯碗數(shù)據(jù)集的類別中。它是通過與大規(guī)模預(yù)訓(xùn)練的視覺語言模型CLIP聯(lián)系起來發(fā)生的。我們還發(fā)現(xiàn)，有些情況下會(huì)編輯不同的部分，例如 "雞蛋飯 "中右上方的菜。因此，我們研究了一個(gè)輸入掩碼的功能。

????????添加配料的功能是這個(gè)圖像編輯模型的一個(gè)特點(diǎn)。因此，下面由VQGAN和CLIP模型進(jìn)行的比較使用了關(guān)于加料的提示。

5.2 訓(xùn)練過的VQGAN的區(qū)別

圖6顯示了用食物數(shù)據(jù)集訓(xùn)練的VQGAN的模型之間的差異。我們使用圖中所示的VQGAN和預(yù)先訓(xùn)練的ViT-B/32 CLIP。?

論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

圖6：VQGAN的訓(xùn)練數(shù)據(jù)集的差異。下面列出了這些提示，左邊是用于訓(xùn)練VQGAN的數(shù)據(jù)集。在所有的訓(xùn)練模型中，質(zhì)量沒有明顯的差異。

????????在所有的輸出中，圖像編輯有差異，但它們是按照提示編輯的。所有訓(xùn)練模型的質(zhì)量沒有明顯差異，只有微小的差別。

5.3 受過訓(xùn)練的CLIP的不同之處

????????圖7和8比較了用Recipe1M訓(xùn)練CLIP時(shí)的訓(xùn)練提示。除了ViT-B/32預(yù)訓(xùn)練的CLIP，我們使用了從表2所示的提示中學(xué)習(xí)到的CLIP，用于原始CLIP。本節(jié)輸出使用ImageNet1024預(yù)訓(xùn)練的VQGAN

????????比較 "title_NoPretrain "和 "title"，前者是用從頭開始的CLIP的標(biāo)題學(xué)習(xí)，后者是用預(yù)訓(xùn)練的CLIP的標(biāo)題學(xué)習(xí)，沒有明顯的區(qū)別。因此，我們?cè)谄渌麑W(xué)習(xí)提示中使用了預(yù)訓(xùn)練的模型。包括成分在內(nèi)的 "成分 "和 "成分_標(biāo)題 "提示的輸出有類似的人工智能。此外，那些CLIP模型不能根據(jù)提示操作圖像，而且觀察到圖像編輯的質(zhì)量較低。我們可以假設(shè)，用食物成分學(xué)習(xí)CLIP并不能提高圖像質(zhì)量。這個(gè)猜想意味著材料在圖像的外觀上并沒有直接發(fā)揮重要作用。我們還發(fā)現(xiàn)，用飯菜圖像訓(xùn)練CLIP并不能抑制整個(gè)結(jié)果圖像中的GAN特定偽影。至于 "APhotoOfA "和 "APhotoOfA_ATOF"，兩個(gè)模型受到的干擾都比較小，但 "APhotoOfA_ATOF "的整體輸出被破壞得比較少。"APhotoOfA_ATOF "也比 "APhotoOfA "更穩(wěn)定。在圖7中，我們可以看到 "APhotoOfA_ATOF "中圖像右上方的培根、生菜和海鮮與米飯放在不同的盤子里。另外，在圖8中，我們可以在 "APhotoOfA_ATOF "中看到一個(gè)雞蛋、培根和火腿。最后，比較原始CLIP和整個(gè)訓(xùn)練后的CLIP，原始CLIP隨著提示顯示了一些變化，但圖像質(zhì)量很粗糙。

論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

圖7：按CLIP學(xué)習(xí)提示對(duì)大米的差異。這些提示列在下面，左邊是CLIP學(xué)習(xí)的提示（見表2）。title_NoPretrain "和 "title "之間沒有明顯差異。圖像編輯的質(zhì)量在 "成分 "和 "成分_標(biāo)題 "中較低，在 "APhotoOfA_ATOF "和 "PhotoOfA "中較高。?

5.4 有掩蓋和無掩蓋的差異

????????在本節(jié)中，我們展示了使用掩蓋的結(jié)果。圖9到12顯示了結(jié)果。這些圖像使用了在Magical Rice Bowl數(shù)據(jù)集上訓(xùn)練的VQGAN和在ViT-B/32上預(yù)先訓(xùn)練的CLIP。此外，在圖9中，我們手動(dòng)創(chuàng)建了覆蓋米飯的方形面具，而在其他圖10到12中，我們使用了UECFoodPixComplete的mask。

????????在圖9中，配料被放置在米飯上，周圍的背景在蒙版中沒有變化。

????????在圖10中，我們使用了一個(gè)從UECFoodPixComplete的遮罩圖像中得到的圓形遮罩，我們可以確認(rèn)，模型將配料添加到咖喱中。在圖11中，我們使用了一個(gè)從UECFoodPixComplete得到的大的矩形遮罩。在沒有遮罩的情況下，澆頭甚至有時(shí)是可見的，但有了遮罩后所有的澆頭都是可見的。

????????在圖12中，我們使用了從UECFoodPixComplete得到的一個(gè)大的不均勻的面具，像一個(gè)圓形。即使沒有蒙版，澆頭也是存在的。但有了masks，澆頭就會(huì)明顯地生成。此外，該模型使用面具不改變勺子的形狀。

論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

圖8：按CLIP學(xué)習(xí)提示在Chahan上的差異。提示語列在下面，CLIP學(xué)習(xí)的提示語在左邊。結(jié)果幾乎與圖7相同。

論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

表3: VQGAN中50,000張膳食圖像的重構(gòu)指標(biāo)?

論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

圖9：在水稻圖像上使用手工創(chuàng)建的網(wǎng)格掩碼，其輸出結(jié)果的差異。上面的小圖像是輸入圖像和輸入掩碼。提示顯示在底部。上面的圖像是沒有掩碼的輸出結(jié)果，下面的圖像是有掩碼的輸出結(jié)果。結(jié)果顯示，背景被保留了下來。?

論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

?圖10：在咖喱圖像上使用掩碼，輸出的差異。其格式與圖9相同。這些結(jié)果使用了從UECFoodPixComplete掩膜圖像中得到的圓形掩膜。對(duì)模型進(jìn)行了編輯，在蒙版上添加了配料

論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

圖11：在炒面圖像上使用掩膜，輸出的差異。其格式與圖9相同。在沒有遮罩的情況下，有時(shí)甚至可以看到澆頭，但使用遮罩后，所有的澆頭都可以看到。?

論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

表4: 對(duì)CLIP的定量評(píng)價(jià)?

論文翻譯：Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

圖12：在Chahan圖像上使用掩膜的輸出的差異。其格式與圖9相同。這些結(jié)果使用了從UECFoodPixComplete得到的一個(gè)大的不均勻的蒙版。勺子的形狀通過使用掩碼得到了保持。

?

????????使用遮罩，該模型沒有在指定的位置編輯圖像，被操縱的圖像沒有被破壞。此外，這個(gè)模型對(duì)非蒙版區(qū)域進(jìn)行了適當(dāng)?shù)木庉?，在蒙版邊界附近的圖像損壞較少。當(dāng)圖像的編輯范圍較小時(shí)，沒有遮罩的編輯往往導(dǎo)致不能很好地被編輯，因?yàn)椴倏v的注意力被吸引到各個(gè)位置。相反，當(dāng)圖像的編輯范圍很廣時(shí)，即使沒有遮罩也經(jīng)常進(jìn)行編輯。然而，如圖12所示，一個(gè)事物的形狀，如勺子，是由遮罩保持的。因此，我們可以說，在任何情況下，有遮罩的編輯質(zhì)量都會(huì)更好。雖然需要輸入蒙版，但當(dāng)我們想指定編輯點(diǎn)或想進(jìn)行大幅度的編輯時(shí)，輸入蒙版圖像是一種非常有效的方法。

5.5 模型的定量評(píng)價(jià)

????????表3顯示了VQGAN的評(píng)價(jià)。在food500上預(yù)訓(xùn)練的VQGAN的FID和KID最低，而在Magical Rice Bowl數(shù)據(jù)集上訓(xùn)練的VQGAN的FID最高。ImageNet16384和foodx251的FID與在food500上預(yù)訓(xùn)練的FID相當(dāng)，但I(xiàn)mageNet16384的KID與food500相比有一定差距。IS的比較表明，ImageNet1024是最好的，它表示最容易識(shí)別和最多樣化的，但food500也差不了多少，總體來說，food500是質(zhì)量最高的模型。

????????表3和圖6對(duì)VQGAN的訓(xùn)練數(shù)據(jù)集之間的差異進(jìn)行了定量和定性的評(píng)估。圖6中訓(xùn)練數(shù)據(jù)集之間的差異顯示，輸出的圖像沒有明顯的差異。然后，當(dāng)我們看表3時(shí)，我們發(fā)現(xiàn)food500模型具有最高的準(zhǔn)確性。定量評(píng)價(jià)顯示了數(shù)值上的差異，但在圖像編輯的質(zhì)量上沒有明顯的差異。這表明通過定量評(píng)價(jià)的定性評(píng)價(jià)是復(fù)雜的。在圖像編輯方面，如本研究，還沒有形成標(biāo)準(zhǔn)的評(píng)價(jià)指標(biāo)和基準(zhǔn)，定量評(píng)價(jià)并不能直接評(píng)價(jià)圖像編輯的優(yōu)劣。在圖像編輯中需要建立一個(gè)新的定量評(píng)價(jià)指標(biāo)。

????????表4顯示了CLIP的定量評(píng)價(jià)。"title"、"APhotoOF "和 "APhotoOf_ATOF "相對(duì)占優(yōu)勢(shì)。"title_NoPretrain "有最高的CLIPScore，但可能對(duì)文本和圖像之間的相似性不成熟。圖7和圖8也顯示了CLIP的訓(xùn)練提示之間的差異。當(dāng)模型得到一個(gè)好的定量評(píng)價(jià)時(shí)，輸出的圖像也往往是好的。因此，與GAN定量評(píng)價(jià)不同，CLIP評(píng)價(jià)有可能通過定量評(píng)價(jià)提供定性評(píng)價(jià)。

6 結(jié)論

在這項(xiàng)研究中，我們研究了VQGAN-CLIP在編輯與膳食有關(guān)的圖像方面的有效性。為了進(jìn)一步將模型專門用于膳食圖像，我們?cè)谏攀硤D像數(shù)據(jù)集上訓(xùn)練了VQGAN，在具有各種訓(xùn)練提示的食譜數(shù)據(jù)集上訓(xùn)練了CLIP。

我們通過編輯提示、VQGAN的訓(xùn)練數(shù)據(jù)集和CLIP的訓(xùn)練提示，使用掩碼或不使用掩碼來比較差異。我們發(fā)現(xiàn)，VQGAN的訓(xùn)練數(shù)據(jù)集在輸出的圖像中沒有顯示出明顯的差異。然而，評(píng)價(jià)指標(biāo)是用飯菜圖像數(shù)據(jù)集更好。"APhotoOfA_ATOF "的圖像損壞相對(duì)較少，在CLIP訓(xùn)練提示中的定量評(píng)價(jià)中得分較高。屏蔽圖像的功能是一個(gè)非常有效的圖像編輯工具。

我們將考慮增加一個(gè)自動(dòng)輸入掩碼的模型。我們還將考慮VQGAN模型以外的圖像生成模型，如PPDM[26]。

原文鏈接：https://doi.org/10.1145/3552484.3555751

1）? https://github.com/toshas/torch-fidelity
2）? https://github.com/GaParmar/clean-fid
3）? https://github.com/mlfoundations/open_clip
4）? https://github.com/jmhessel/clipscore文章來源地址http://www.zghlxwxcb.cn/news/detail-600806.html

到了這里，關(guān)于論文翻譯：Text-based Image Editing for Food Images with CLIP的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

Text to image論文精讀MISE：多模態(tài)圖像合成和編輯Multimodal Image Synthesis and Editing: A Survey
由于信息在現(xiàn)實(shí)世界中以各種形式存在，多模態(tài)信息之間的有效交互和融合對(duì)于計(jì)算機(jī)視覺和深度學(xué)習(xí)研究中多模態(tài)數(shù)據(jù)的創(chuàng)建和感知起著關(guān)鍵作用。近期 OpenAI 發(fā)布的 DALLE-2 和谷歌發(fā)布的 Imagen 等實(shí)現(xiàn)了令人驚嘆的文字到圖像的生成效果，引發(fā)了廣泛關(guān)注并且衍生出了很多
2024年02月04日
瀏覽(27)
論文翻譯：DeepFilterNet
論文題目：DeepFilterNet: A Low Complexity Speech Enhancement Framework for Full-Band Audio based on Deep Filtering 題目譯文：DeepFilterNet：基于深度濾波器的全頻帶音頻低復(fù)雜度語音增強(qiáng)框架論文地址：https://arxiv.org/abs/2110.05588 論文代碼：https://github.com/Rikorose/DeepFilterNet 引用：Schr?ter H, Rosenkr
2024年02月07日
瀏覽(23)
bitcask論文翻譯/筆記
論文來源：bitcask-intro.pdf (riak.com) Bitcask的起源與Riak分布式數(shù)據(jù)庫的歷史緊密相連。在Riak的K/V集群中，每個(gè)節(jié)點(diǎn)都使用了可插拔的本地存儲(chǔ)；幾乎任何結(jié)構(gòu)的K/V存儲(chǔ)都可以用作每個(gè)主機(jī)的存儲(chǔ)引擎。這種可插拔性使得Riak的處理能夠并行化，從而可以在不影響代碼庫其他部分的
2024年01月20日
瀏覽(26)
論文翻譯插件推薦
火山翻譯，字節(jié)旗下產(chǎn)品。火山翻譯 - 在線翻譯 (volcengine.com) ? 使用方法：翻譯PDF文件：在瀏覽器上安裝火山翻譯插件之后，可以將瀏覽器打開的pdf文件，在其中選中某行文字進(jìn)行翻譯，方便快捷；翻譯網(wǎng)頁：右鍵翻譯網(wǎng)頁。安裝火山翻譯瀏覽器插件：火山翻譯瀏覽器插件
2024年02月13日
瀏覽(26)
玩轉(zhuǎn)ChatGPT：論文翻譯潤(rùn)色
一、寫在前面首先還是讓小Chat推銷下自己：嘿！你是否在寫論文的過程中感到頭疼，無從下手？你是否在擔(dān)心自己的語言表達(dá)不夠?qū)I(yè)、不夠流暢，影響了論文的質(zhì)量？不要擔(dān)心，ChatGPT的潤(rùn)色服務(wù)可以幫助你！我們的潤(rùn)色服務(wù)包括語言潤(rùn)色、格式排版、邏輯結(jié)構(gòu)調(diào)整、學(xué)
2024年02月05日
瀏覽(25)
Segment Anything【論文翻譯】
https://segment-anything.com/ https://arxiv.org/pdf/2304.02643.pdf 本文由博主墨理學(xué)AI 借助翻譯工具對(duì)該論文進(jìn)行了翻譯 ?? 我們介紹Segment Anything（SA）項(xiàng)目：這是一個(gè)全新的任務(wù)、模型和圖像分割數(shù)據(jù)集。通過在數(shù)據(jù)收集循環(huán)中使用我們高效的模型，我們建立了迄今為止最大的分割數(shù)據(jù)
2024年02月14日
瀏覽(31)
Segment Anything論文翻譯，SAM模型，SAM論文，SAM論文翻譯；一個(gè)用于圖像分割的新任務(wù)、模型和數(shù)據(jù)集；SA-1B數(shù)據(jù)集
論文鏈接： https://arxiv.org/pdf/2304.02643.pdf https://ai.facebook.com/research/publications/segment-anything/ 代碼連接：https://github.com/facebookresearch/segment-anything 論文翻譯： http://t.csdn.cn/nnqs8 https://blog.csdn.net/leiduifan6944/article/details/130080159 本文提出Segment Anything (SA)項(xiàng)目:一個(gè)用于圖像分割的新任務(wù)
2023年04月19日
瀏覽(69)
ChatGPT 助力英文論文翻譯和潤(rùn)色
?? CSDN 葉庭云： https://yetingyun.blog.csdn.net/ 隨著全球化的推進(jìn)，跨文化交流變得越來越重要。在學(xué)術(shù)領(lǐng)域，英文論文的質(zhì)量對(duì)于研究成果的傳播和認(rèn)可至關(guān)重要。然而，非英語母語者在撰寫和潤(rùn)色英文論文時(shí)可能面臨諸多挑戰(zhàn)。本文將介紹 ChatGPT 如何助力英文論文翻譯和潤(rùn)色
2024年02月08日
瀏覽(33)
SOF-SLAM論文翻譯
摘要 -同時(shí)定位與繪圖(SLAM)在計(jì)算機(jī)視覺和機(jī)器人領(lǐng)域中占有重要地位。為了便于分析，傳統(tǒng)的SLAM框架采用了強(qiáng)靜態(tài)世界假設(shè)。如何應(yīng)對(duì)動(dòng)態(tài)環(huán)境是一個(gè)非常重要的問題，越來越受到人們的關(guān)注?，F(xiàn)有的動(dòng)態(tài)場(chǎng)景SLAM系統(tǒng)要么單獨(dú)利用語義信息，要么單獨(dú)利用幾何信息，要么以
2024年02月16日
瀏覽(36)
如何用ChatGPT進(jìn)行“論文翻譯+潤(rùn)色”?
??2024年申報(bào)國(guó)自然項(xiàng)目基金撰寫及技巧最新基于Citespace、vosviewer、R語言的文獻(xiàn)計(jì)量學(xué)可視化分析技術(shù)及全流程文獻(xiàn)可視化SCI論文高效寫作方法 GPT引領(lǐng)前沿與應(yīng)用突破之GPT4科研實(shí)踐技術(shù)與AI繪圖不夸張說，只要調(diào)教好咒語，就必然會(huì)形成一場(chǎng)論文翻譯+潤(rùn)色的顛覆性革命！！
2024年02月06日
瀏覽(42)