国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文翻譯:Text-based Image Editing for Food Images with CLIP

這篇具有很好參考價(jià)值的文章主要介紹了論文翻譯:Text-based Image Editing for Food Images with CLIP。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

? ? ? ? ? ? ? ? ? ? ?

?使用 CLIP 對(duì)食物圖像進(jìn)行基于文本的圖像編輯

論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

圖1:通過文本對(duì)食品圖像進(jìn)行處理的結(jié)果示例。最左邊一欄顯示的是原始輸入圖像。"Chahan"(日語中的炒飯)和 "蒸飯"。左起第二至第六列顯示了VQGAN-CLIP所處理的圖像。每個(gè)操作中使用的提示都是將食物名稱和 "與 "一個(gè)配料名稱結(jié)合起來。例如,第二列中的兩幅圖像分別是用提示語 "chahan with egg "和 "rice with egg "生成的。

摘要

????????最近,大規(guī)模的語言-圖像預(yù)訓(xùn)練模型,如CLIP,由于其對(duì)各種任務(wù),包括分類和圖像合成的顯著能力而引起了廣泛的關(guān)注。CLIP和GAN的組合可用于基于文本的圖像處理和基于文本的圖像合成。迄今為止,已經(jīng)提出了幾個(gè)CLIP和GAN的組合模型。然而,它們?cè)谑称穲D像領(lǐng)域的有效性還沒有得到全面的研究。在本文中,我們報(bào)告了使用VQGANCLIP進(jìn)行基于文本的食品圖像處理的實(shí)驗(yàn)結(jié)果,并討論了通過文本進(jìn)行食品圖像處理的可能性。????????

關(guān)鍵詞

基于文本的圖像處理,食物圖像處理,語言圖像預(yù)訓(xùn)練模型,CLIP

1 介紹

????????

????????隨著智能手機(jī)和社交媒體的發(fā)展,人們?cè)诨ヂ?lián)網(wǎng)上發(fā)布了各種照片。其中,最常張貼的照片之一是吃飯。漂亮的、巨大的、古怪的飯菜照片在一年中很容易成為社交媒體上的一個(gè)話題。一些餐館發(fā)布許多好看的照片,通過成為社交媒體上的潮流來增加他們的銷售額。

????????拍攝一張看起來美味或新奇的照片需要很多試錯(cuò)過程。拍完照片后,他們經(jīng)常使用先進(jìn)的圖像編輯軟件進(jìn)行編輯。這種軟件需要高水平的操作技能或知識(shí)

??????從2014年的GAN開始,用深度神經(jīng)網(wǎng)絡(luò)編輯圖像的技術(shù)在計(jì)算機(jī)視覺領(lǐng)域有了顯著的發(fā)展。在這種演變中,使用自然語言的圖像編輯,如ManiGAN和StyleCLIP,作為一種新的圖像編輯方式引起了人們的注意,因?yàn)樗鼈儾恍枰厥獾募寄芑蛑R(shí)進(jìn)行編輯。然而,這些模型大多沒有被應(yīng)用于食品圖像,主要應(yīng)用于人臉和動(dòng)物圖像。

????????此外,大規(guī)模語言圖像預(yù)訓(xùn)練模型,如 CLIP,最近因其在分類和圖像合成等各種任務(wù)中出色的zero-shot能力而備受關(guān)注。 CLIP 和 GAN 的結(jié)合可以用于基于文本的圖像處理和基于文本的圖像合成。幾個(gè)結(jié)合CLIP和GAN的模型已經(jīng)被提出,如StyleCLIP和StyleGAN-NADA。這些方法可以在不訓(xùn)練操縱模型的情況下操縱帶有文本的圖像。這是可能的,因?yàn)?CLIP 接受了 4 億對(duì)文本和圖像的訓(xùn)練,并且它了解語言和視覺之間的關(guān)系。

????????然而,它們?cè)谑称穲D像領(lǐng)域的有效性尚未得到全面檢驗(yàn)。本文通過許多實(shí)驗(yàn)檢驗(yàn)了基于文本的食物圖像處理的可能性。作為圖像處理方法,我們使用了 VQGANCLIP 。結(jié)果,我們證實(shí)了在食品領(lǐng)域使用 CLIP 進(jìn)行基于文本的圖像處理的有效性。

2 相關(guān)工作

自然語言圖像編輯模型有兩種主要類型:

????????一種是從頭開始學(xué)習(xí)圖像-文本對(duì)的模型。另一種是使用預(yù)先訓(xùn)練的視覺語言模型的模型

?ManiGAN,它學(xué)習(xí)圖像-文本對(duì),包含一個(gè)新的文本-圖像仿生組合模塊和一個(gè)細(xì)節(jié)校正模塊。這個(gè)GAN通過文本生成轉(zhuǎn)換為指定顏色或紋理的圖像。細(xì)節(jié)校正模塊可以提高在編輯細(xì)節(jié)時(shí)保持不相關(guān)部分的性能。TediGAN是使用預(yù)先訓(xùn)練好的StyleGAN的模型。它有一個(gè)相似性模塊,通過將圖像和文本映射到相同的潛在空間來學(xué)習(xí)它們之間的相似性。使用在面部圖像上訓(xùn)練的StyleGAN,TediGAN不需要生成器的GAN訓(xùn)練時(shí)間。然而,這個(gè)GAN限制了生成圖像的面部領(lǐng)域。從頭開始學(xué)習(xí)圖像-文本對(duì)的模型需要大量的訓(xùn)練時(shí)間和帶有文本的圖像,限制了編輯的圖像類型和操作。

????????最近的編輯模型經(jīng)常使用預(yù)先訓(xùn)練好的視覺語言模型的文本編碼器和圖像編碼器。特別是,CLIP是最常見的作為預(yù)訓(xùn)練的視覺語言模型。CLIP在從互聯(lián)網(wǎng)上收集的4億個(gè)圖像-文本對(duì)數(shù)據(jù)上進(jìn)行訓(xùn)練。雖然從頭開始訓(xùn)練的模型有有限的訓(xùn)練和狹窄的語言-視覺特征,但CLIP有相當(dāng)大的訓(xùn)練量和全面的語言-視覺特征。因此,它已被應(yīng)用于各種計(jì)算機(jī)視覺任務(wù),如圖像分類、檢測(cè)、分割、VQA和圖像合成。

????????StyleCLIP通過結(jié)合StyleGAN(圖像生成中的典型GAN)和CLIP,提出了三種編輯潛空間的方法來操縱圖像。有幾篇論文研究了通過操縱StyleGAN的潛空間進(jìn)行圖像編輯。然而,這些都是在語義監(jiān)督下學(xué)習(xí)的,或者需要人類指導(dǎo)。在本文中,CLIP自動(dòng)進(jìn)行這種指導(dǎo)。Paint by Word是一個(gè)部分圖像編輯模型,它結(jié)合了StyleGAN和使用掩碼的CLIP。很少有研究能改變圖像的某一部分而保留背景。這個(gè)模型可以通過編輯真實(shí)圖像中StyleGAN的潛伏代碼w來編輯掩碼中的特定部分。然而,本研究使用StyleGAN和BigGAN,它們是專門用于臥室和鳥類的GAN或通用GAN,而不是專門用于膳食。在我們的研究中,我們?cè)谏攀愁I(lǐng)域使用了經(jīng)過訓(xùn)練的VQGAN的z?。我們研究的最終目的是創(chuàng)建一個(gè)專門用于食物的圖像和文本的圖像編輯模型。因此,我們使用了VQGAN-CLIP,并在一組膳食圖像和文本上對(duì)它們進(jìn)行了訓(xùn)練。我們還研究了屏蔽功能,該功能只操作圖像的一部分,以方便編輯,正如他們所想的那樣。

3 方法

3.1 圖像操縱模型

????????我們用于食品圖像編輯的模型是VQGAN-CLIP。通過使用VQGAN進(jìn)行圖像生成部分,它可以通過網(wǎng)格(grid)控制圖像。此外,它將使用CNN學(xué)習(xí)圖像組件的詞匯,并使用Transformer學(xué)習(xí)它們的組成。此外,這個(gè)模型可以生成高質(zhì)量的圖像。CLIP可以計(jì)算出任何語言-視覺特征和圖像與文本之間的相似性,而且精確度很高。在傳統(tǒng)的圖像編輯模型中,模型架構(gòu)往往將文本固定在語法形式上進(jìn)行訓(xùn)練。然而,CLIP來自互聯(lián)網(wǎng)的訓(xùn)練數(shù)據(jù),允許各種語法形式,可以處理模糊的文本。這項(xiàng)研究使用了CLIP,因?yàn)樽匀晃谋揪庉嬓枰斫膺@種模糊的文本。

????????我們研究了VQGAN-CLIP,它在飯菜圖像上訓(xùn)練VQGAN和CLIP,而不是像ImageNet這樣的一般數(shù)據(jù)集,這是否對(duì)飯菜特征具有魯棒性。

?3.2 結(jié)構(gòu)

????????VQGAN-CLIP的結(jié)構(gòu)如圖2所示。

????????首先,對(duì)輸入圖像論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫進(jìn)行調(diào)整,得到調(diào)整后的圖像論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫。然后,調(diào)整后的圖像論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫輸入到VQGAN的編碼器,生成初始潛伏向量論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫。請(qǐng)注意,論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫是VQGAN的編碼簿的維數(shù).接下來,潛伏向量論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫被輸入到VQGAN的解碼器,而輸出圖像論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫和輸入提示t被輸入到CLIP編碼器。這些給出了圖像標(biāo)記I和文本標(biāo)記T,而CLIP計(jì)算出了損失。然后,損失函數(shù)通過梯度下降法更新潛在向量論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫。最后,潛向量論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫被鉗制在VQGAN編碼簿的最大值和最小值之間,潛向量論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫被更新。因此,更新的潛向量論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫被再次輸入到VQGAN的解碼器,輸入到計(jì)算損失的CLIP,并重復(fù)更新潛向量論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

????????請(qǐng)注意,VQGAN的潛在向量論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫是分配給每個(gè)方格? × w的向量論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫。該模型可以通過這個(gè)來限制編輯范圍。公式1顯示了通過使用論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫來計(jì)算潛向量論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫的梯度。掩碼論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫中的1表示是可操縱的網(wǎng)格,0表示不是可操縱的圖像。在計(jì)算潛伏向量論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫的梯度時(shí),本研究計(jì)算它們的元素相乘,使未改變的網(wǎng)格的梯度成為零。如果我們有一個(gè)與輸入尺寸相同的遮罩圖像,那么遮罩圖像就會(huì)被縮小,并被轉(zhuǎn)換為適合網(wǎng)格遮罩論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫。

論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

圖2:用于食品圖像處理的VQGAN-CLIP架構(gòu)。我們用食品數(shù)據(jù)集對(duì)VQGAN和CLIP進(jìn)行專業(yè)化訓(xùn)練。VQGAN編碼器從輸入圖像制作一個(gè)潛伏向量。從潛伏向量,VQGAN解碼器做出一個(gè)初始的編輯圖像。之后,CLIP計(jì)算損失與提示。該損失優(yōu)化了潛伏向量。這種模式反復(fù)迭代,得到編輯過的圖像。可選的是,我們可以在它優(yōu)化的時(shí)候使用一個(gè)掩碼。?

?3.3 損失函數(shù)

????????操縱模型計(jì)算了公式2的損失。整個(gè)損失是CLIP損失論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫和圖像損失論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫之和。本研究將論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫分別定為1。

論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

????????以下公式3和公式4顯示了CLIP損失和圖像損失。CLIP損失和圖像損失使用VQGAN-CLIP實(shí)現(xiàn)的球面距離損失。球形距離損失的工作原理幾乎是圖像標(biāo)記和文本標(biāo)記之間的余弦相似度。這種損失也可以計(jì)算出初始和生成的圖像標(biāo)記之間的關(guān)系。圖像標(biāo)記I,論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫是CLIP圖像編碼器對(duì)生成的圖像論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫和調(diào)整大小的圖像論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫。文本標(biāo)記T是CLIP文本編碼器對(duì)輸入提示t的輸出。?

論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

?3.4 食品圖像數(shù)據(jù)集

?表1顯示了我們?cè)趯?shí)驗(yàn)中使用的食物圖像數(shù)據(jù)集的統(tǒng)計(jì)結(jié)果。為了專門研究膳食,VQGAN被微調(diào)為通過三個(gè)膳食數(shù)據(jù)集來提取食物特征,這些數(shù)據(jù)集有不同數(shù)量的膳食類別和圖像。另一方面,CLIP通過Recipe1M進(jìn)行微調(diào),其中包括成對(duì)的文本。本研究?jī)H使用Recipe1M的訓(xùn)練和評(píng)估數(shù)據(jù)集來訓(xùn)練VQGAN和CLIP,并使用Recipe1M的測(cè)試數(shù)據(jù)集來測(cè)量指標(biāo)。

論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

表1:食品數(shù)據(jù)集的清單。關(guān)于Recipe1M,我們使用訓(xùn)練集和驗(yàn)證集來訓(xùn)練VQGAN。?

論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

?表2:訓(xùn)練CLIP的提示清單。

?3.5 訓(xùn)練CLIP模型的提示語

?????????為了確定是否使用預(yù)訓(xùn)練的CLIP模型,我們?cè)u(píng)估了無預(yù)訓(xùn)練模型 "title_NoPretrain "和預(yù)訓(xùn)練模型 "title",它們都是用菜譜標(biāo)題提示進(jìn)行訓(xùn)練的。然后,我們檢查了轉(zhuǎn)移學(xué)習(xí)的學(xué)習(xí)提示,以使用預(yù)訓(xùn)練的模型。表2顯示了學(xué)習(xí)提示的列表,菜譜標(biāo)題為 "some_title",菜譜材料信息為" ingredients"。

????????這些提示是基于CoOp;在類別標(biāo)記前添加 "a "可以提高5%以上的分類準(zhǔn)確性。大多數(shù)時(shí)候,在文本前添加 "a的照片 "可以提高分類的準(zhǔn)確性。此外,添加與任務(wù)相關(guān)的上下文也會(huì)有明顯的改善。例如,添加 "一種花 "可以提高花卉圖像數(shù)據(jù)集的分類精度。對(duì)于CLIP的訓(xùn)練提示,我們也添加了這些前綴和后綴,以檢查性能的差異。

????????Recipe1M包含菜譜信息,如標(biāo)題和材料。本研究將標(biāo)題作為主要提示,將材料信息作為附加提示。訓(xùn)練提示 "成分 "只使用了成分信息。使用菜名和配料名稱組合的 "配料_標(biāo)題 "將標(biāo)題作為 "配料",將配料作為 "一些_標(biāo)題"。

?4 實(shí)驗(yàn)

4.1 概述

????????首先,我們比較了圖像編輯的提示。按提示的比較項(xiàng)目有這些:

????????(1)按稱呼方式的差異

????????(2)學(xué)習(xí)領(lǐng)域內(nèi)外的差異

????????(3)按口味形容詞的差異

????????(4)按配料的差異

????????然后,我們展示了VQGAN在不同數(shù)據(jù)集上訓(xùn)練時(shí)的差異,接著是由于CLIP訓(xùn)練期間的提示而產(chǎn)生的差異。最后,我們提出了一個(gè)使用指標(biāo)的VQGAN的定量評(píng)估。

?4.2 評(píng)價(jià)指標(biāo)

?????????本研究中對(duì)GAN的定量評(píng)價(jià)使用了Inception score(IS),F(xiàn)reshet initiation distance(FID),以及Kernel-Inception distance(KID)。

????????IS 是生成數(shù)據(jù)的條件標(biāo)簽分布 論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫 和周圍標(biāo)簽分布論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫 之間的 Kullback-Leibler 散度 (KL-divergence)。這個(gè)指標(biāo)標(biāo)得越高,圖像的多樣性就越顯著,圖像的識(shí)別就越容易管理。一般來說,較高的IS適用于圖像編輯。IS是通過對(duì)所使用的圖像數(shù)量i的KL-divergence進(jìn)行平均而得出的。它描述為公式5。

論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

????????FID是衡量真實(shí)圖像和生成圖像之間特征距離的著名指標(biāo)之一。這個(gè)指標(biāo)也被用來評(píng)估GAN的質(zhì)量。讓論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫分別表示真實(shí)圖像的特征向量的平均值和協(xié)方差矩陣,m和c分別表示生成圖像的特征向量的平均值和協(xié)方差矩陣,F(xiàn)ID由公式6定義。設(shè)Tr為矩陣的跡線。FID值越低,圖像質(zhì)量就越高。

論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

????????KID是用最大平均差異(MMD)計(jì)算的異同度論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫樣本從不同分布中獨(dú)立提取。KID的定義如公式7所示。?

論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

????????我們?cè)趤碜訰ecipe1M的測(cè)試數(shù)據(jù)集上的50,000張真實(shí)圖像和來自訓(xùn)練過的VQGAN的50,000張重建圖像之間計(jì)算這些指標(biāo)。這些圖像的大小被調(diào)整為256×256。我們?cè)趤碜訰ecipe1M的測(cè)試數(shù)據(jù)集上的50,000張真實(shí)圖像和來自訓(xùn)練過的VQGAN的50,000張重建圖像之間計(jì)算這些指標(biāo)。

????????這些圖像被調(diào)整為256×256的大小。我們通過使用Torch-fidelity 1來測(cè)量IS。我們使用clean-fid 2來測(cè)量FID。KID也是通過使用Torch-fidelity測(cè)量的。

????????此外,對(duì)CLIP的評(píng)價(jià)指標(biāo)使用了中位數(shù)排名(medR)、召回率(R@1,R@5,R@10)和CLIPScore[22]。 medR是中位數(shù)搜索排名。召回率是搜索結(jié)果在第一、第五和第十位內(nèi)的百分比。CLIPScore評(píng)估了生成的字幕候選者的質(zhì)量。使用CLIP作為損失函數(shù),損失可能很高,即使標(biāo)題是匹配的。同樣地,即使提示不合適,損失也可能很低。CLIPScore用來評(píng)估文本的匹配程度。以w=2.5,c為標(biāo)題標(biāo)記,v為圖像標(biāo)記,計(jì)算如下。

論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

????????我們使用隨機(jī)的10k Recipe1M測(cè)試數(shù)據(jù)來評(píng)估CLIP。

????????OpenCLIP 3被用于CLIP訓(xùn)練和計(jì)算medR和Recall。作者的實(shí)現(xiàn)4用于測(cè)量CLIPScore。

?4.3 實(shí)現(xiàn)細(xì)節(jié)

????????在本研究中,我們對(duì)以下五個(gè)VQGAN進(jìn)行了微調(diào)。

????????(1) 訓(xùn)練過的ImageNet-1024模型

????????(2) 訓(xùn)練過的ImageNet-16384模型

????????(3) 訓(xùn)練過的Magical Rice Bowl模型,共59個(gè)epochs

????????(4) 訓(xùn)練過的Foodx251模型,共62epochs

????????(5) 訓(xùn)練過的Food500模型,共12個(gè)epochs

?????????每幅圖像的大小被調(diào)整為256×256的正方形,輸出分辨率被設(shè)置為相同的大小。編碼本的大小為256,分為16×16的網(wǎng)格,潛伏向量為論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫。CLIP使用openCLIP 3進(jìn)行訓(xùn)練,這是CLIP的一個(gè)開源版本。OpenCLIP在Recipe1M的訓(xùn)練和評(píng)估數(shù)據(jù)集上訓(xùn)練,訓(xùn)練提示見表2。CLIP以ResNet50[23]為骨干,在32個(gè)epochs中進(jìn)行訓(xùn)練。訓(xùn)練部分的優(yōu)化函數(shù)是AdamW[24],它將批次大小設(shè)置為64,學(xué)習(xí)率為0.001,權(quán)重衰減因子為0.1。圖像生成部分的優(yōu)化函數(shù)使用Adam,它的步長(zhǎng)設(shè)置為0.05。我們對(duì)一幅圖像的編輯進(jìn)行了1000次圖像優(yōu)化迭代。

?5 實(shí)驗(yàn)結(jié)果

?我們展示了從圖3到圖12的輸出結(jié)果。圖像編輯所需的時(shí)間約為每幅圖像4至6分鐘。

?5.1 提示性的差異

????????我們比較了使用VQGAN-CLIP編輯圖像的提示。

????????在這5.1部分,我們使用了在Magical Rice Bowl數(shù)據(jù)集上訓(xùn)練的VQGAN和ViT-B/32的預(yù)訓(xùn)練的CLIP。我們使用在Magical Rice Bowl數(shù)據(jù)集上訓(xùn)練的VQGAN來澄清圖4中訓(xùn)練和未訓(xùn)練的圖像之間是否存在差異。

論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

?圖3:以呼叫方式的差異。我們比較了 "形容詞+英文餐名"、"形容詞+日文餐名 "和 "僅形容詞"。用作提示語的形容詞(顏色)列在底部,餐名列在左邊。例如,最左邊一欄的提示語是 "紅色炒飯"、"紅色恰罕",以及從上往下的 "紅色"。

?????????圖3比較了飯菜的稱呼方式。Magical Rice Bowl數(shù)據(jù)集只有10個(gè)類別的日本菜。我們比較了 "形容詞+英文餐名"、"形容詞+日文餐名 "和 "僅形容詞"。在圖3的所有輸出圖像中,每個(gè)提示的顏色在不同的地方都可以看到。在只用形容詞的情況下,顏色的變化范圍很大,而且其變化也是平坦的,就像畫出來的一樣,而不是只用形容詞的情況下,顏色的變化是由成分決定的。比較 "形容詞+英文名稱 "和 "形容詞+日文餐名","形容詞+日文名稱 "看起來更自然。如果把英文餐名分成兩個(gè)詞,如 "炒飯",可能會(huì)被認(rèn)為是一個(gè)烹飪過程,而不是一個(gè)食物名稱。

論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

?

圖4:VQGAN上的學(xué)習(xí)領(lǐng)域內(nèi)外的差異。左邊是學(xué)習(xí)內(nèi)的領(lǐng)域,右邊是學(xué)習(xí)外的領(lǐng)域。下面列出了輸入提示。VQGAN的學(xué)習(xí)域與否在圖像編輯方面沒有明顯的區(qū)別。?

論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

?圖5:按口味形容詞的差異。所用的提示語列在下面。除了 "油膩",外觀沒有明顯變化。

????????接下來,我們展示了神奇飯碗數(shù)據(jù)集中所包含和排除的飯菜之間的區(qū)別。在這里,我們選擇了牛肉碗(gyudon)、海鮮碗(kaisendon)和炒面(yakisoba)作為神奇的米飯數(shù)據(jù)集中包含的圖像,而牛排、比薩和意大利面則作為不包含的圖像。圖4顯示了其結(jié)果。當(dāng)我們輸入gyudon的提示時(shí),出現(xiàn)了gyudon成分的物體。當(dāng)提示是炒面時(shí),在兩個(gè)輸入圖像中都出現(xiàn)了類似面條的物體。此外,我們還看到了牛排的顏色和形狀以及比薩餅的顏色,這并不包括神奇飯碗數(shù)據(jù)集中的十種膳食。因此,所有的輸出圖像中都有一些變化。包括在神奇的米飯碗數(shù)據(jù)集中的飯菜和不包括的飯菜之間沒有明顯的區(qū)別。在VQGAN的訓(xùn)練域中的包含或排除對(duì)圖像編輯沒有明顯影響。因此,這些圖像變化不是由VQGAN的訓(xùn)練引起的,而是取決于CLIP。

????????此外,為了觀察味覺形容詞的差異,我們?cè)诓兔屑尤肓说湫偷奈队X形容詞。所選的口味是熱的、甜的、咸的、酸的、苦的和油的。圖5顯示了輸入味覺形容詞的提示時(shí)的輸出。除了油性以外,在所有圖像中都沒有觀察到明顯的外觀變化。從這些輸出中,我們推斷出與味道有關(guān)的輸入可能不會(huì)有太大的變化,因?yàn)橐曈X意義很弱。為了進(jìn)行這些編輯,我們應(yīng)該在另一個(gè)視覺變化中添加諸如辛辣成分等詞語。

????????最后,我們?cè)趫D1中展示了使用添加配料的提示的輸出結(jié)果。在這里,我們考慮了模型通過添加雞蛋、培根、生菜、海鮮和火腿這五種成分的詞來改變圖像,在添加 "與 "字之后。如圖1所示,輸出可見的五種成分并不存在于神奇飯碗數(shù)據(jù)集的類別中。它是通過與大規(guī)模預(yù)訓(xùn)練的視覺語言模型CLIP聯(lián)系起來發(fā)生的。我們還發(fā)現(xiàn),有些情況下會(huì)編輯不同的部分,例如 "雞蛋飯 "中右上方的菜。因此,我們研究了一個(gè)輸入掩碼的功能。

????????添加配料的功能是這個(gè)圖像編輯模型的一個(gè)特點(diǎn)。因此,下面由VQGAN和CLIP模型進(jìn)行的比較使用了關(guān)于加料的提示。

5.2 訓(xùn)練過的VQGAN的區(qū)別

圖6顯示了用食物數(shù)據(jù)集訓(xùn)練的VQGAN的模型之間的差異。我們使用圖中所示的VQGAN和預(yù)先訓(xùn)練的ViT-B/32 CLIP。?

論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

圖6:VQGAN的訓(xùn)練數(shù)據(jù)集的差異。下面列出了這些提示,左邊是用于訓(xùn)練VQGAN的數(shù)據(jù)集。在所有的訓(xùn)練模型中,質(zhì)量沒有明顯的差異。

????????在所有的輸出中,圖像編輯有差異,但它們是按照提示編輯的。所有訓(xùn)練模型的質(zhì)量沒有明顯差異,只有微小的差別。

5.3 受過訓(xùn)練的CLIP的不同之處

????????圖7和8比較了用Recipe1M訓(xùn)練CLIP時(shí)的訓(xùn)練提示。除了ViT-B/32預(yù)訓(xùn)練的CLIP,我們使用了從表2所示的提示中學(xué)習(xí)到的CLIP,用于原始CLIP。本節(jié)輸出使用ImageNet1024預(yù)訓(xùn)練的VQGAN

????????比較 "title_NoPretrain "和 "title",前者是用從頭開始的CLIP的標(biāo)題學(xué)習(xí),后者是用預(yù)訓(xùn)練的CLIP的標(biāo)題學(xué)習(xí),沒有明顯的區(qū)別。因此,我們?cè)谄渌麑W(xué)習(xí)提示中使用了預(yù)訓(xùn)練的模型。包括成分在內(nèi)的 "成分 "和 "成分_標(biāo)題 "提示的輸出有類似的人工智能。此外,那些CLIP模型不能根據(jù)提示操作圖像,而且觀察到圖像編輯的質(zhì)量較低。我們可以假設(shè),用食物成分學(xué)習(xí)CLIP并不能提高圖像質(zhì)量。這個(gè)猜想意味著材料在圖像的外觀上并沒有直接發(fā)揮重要作用。我們還發(fā)現(xiàn),用飯菜圖像訓(xùn)練CLIP并不能抑制整個(gè)結(jié)果圖像中的GAN特定偽影。至于 "APhotoOfA "和 "APhotoOfA_ATOF",兩個(gè)模型受到的干擾都比較小,但 "APhotoOfA_ATOF "的整體輸出被破壞得比較少。"APhotoOfA_ATOF "也比 "APhotoOfA "更穩(wěn)定。在圖7中,我們可以看到 "APhotoOfA_ATOF "中圖像右上方的培根、生菜和海鮮與米飯放在不同的盤子里。另外,在圖8中,我們可以在 "APhotoOfA_ATOF "中看到一個(gè)雞蛋、培根和火腿。最后,比較原始CLIP和整個(gè)訓(xùn)練后的CLIP,原始CLIP隨著提示顯示了一些變化,但圖像質(zhì)量很粗糙。

論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

圖7:按CLIP學(xué)習(xí)提示對(duì)大米的差異。這些提示列在下面,左邊是CLIP學(xué)習(xí)的提示(見表2)。title_NoPretrain "和 "title "之間沒有明顯差異。圖像編輯的質(zhì)量在 "成分 "和 "成分_標(biāo)題 "中較低,在 "APhotoOfA_ATOF "和 "PhotoOfA "中較高。?

5.4 有掩蓋和無掩蓋的差異

????????在本節(jié)中,我們展示了使用掩蓋的結(jié)果。圖9到12顯示了結(jié)果。這些圖像使用了在Magical Rice Bowl數(shù)據(jù)集上訓(xùn)練的VQGAN和在ViT-B/32上預(yù)先訓(xùn)練的CLIP。此外,在圖9中,我們手動(dòng)創(chuàng)建了覆蓋米飯的方形面具,而在其他圖10到12中,我們使用了UECFoodPixComplete的mask。

????????在圖9中,配料被放置在米飯上,周圍的背景在蒙版中沒有變化。

????????在圖10中,我們使用了一個(gè)從UECFoodPixComplete的遮罩圖像中得到的圓形遮罩,我們可以確認(rèn),模型將配料添加到咖喱中。在圖11中,我們使用了一個(gè)從UECFoodPixComplete得到的大的矩形遮罩。在沒有遮罩的情況下,澆頭甚至有時(shí)是可見的,但有了遮罩后所有的澆頭都是可見的。

????????在圖12中,我們使用了從UECFoodPixComplete得到的一個(gè)大的不均勻的面具,像一個(gè)圓形。即使沒有蒙版,澆頭也是存在的。但有了masks,澆頭就會(huì)明顯地生成。此外,該模型使用面具不改變勺子的形狀。

論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

圖8:按CLIP學(xué)習(xí)提示在Chahan上的差異。提示語列在下面,CLIP學(xué)習(xí)的提示語在左邊。結(jié)果幾乎與圖7相同。

論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

表3: VQGAN中50,000張膳食圖像的重構(gòu)指標(biāo)?

論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

圖9:在水稻圖像上使用手工創(chuàng)建的網(wǎng)格掩碼,其輸出結(jié)果的差異。上面的小圖像是輸入圖像和輸入掩碼。提示顯示在底部。上面的圖像是沒有掩碼的輸出結(jié)果,下面的圖像是有掩碼的輸出結(jié)果。結(jié)果顯示,背景被保留了下來。?

論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

?圖10:在咖喱圖像上使用掩碼,輸出的差異。其格式與圖9相同。這些結(jié)果使用了從UECFoodPixComplete掩膜圖像中得到的圓形掩膜。對(duì)模型進(jìn)行了編輯,在蒙版上添加了配料

論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

圖11:在炒面圖像上使用掩膜,輸出的差異。其格式與圖9相同。在沒有遮罩的情況下,有時(shí)甚至可以看到澆頭,但使用遮罩后,所有的澆頭都可以看到。?

論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

表4: 對(duì)CLIP的定量評(píng)價(jià)?

論文翻譯:Text-based Image Editing for Food Images with CLIP,計(jì)算機(jī)視覺,深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),圖像處理,AI作畫

圖12:在Chahan圖像上使用掩膜的輸出的差異。其格式與圖9相同。這些結(jié)果使用了從UECFoodPixComplete得到的一個(gè)大的不均勻的蒙版。勺子的形狀通過使用掩碼得到了保持。

?

????????使用遮罩,該模型沒有在指定的位置編輯圖像,被操縱的圖像沒有被破壞。此外,這個(gè)模型對(duì)非蒙版區(qū)域進(jìn)行了適當(dāng)?shù)木庉?,在蒙版邊界附近的圖像損壞較少。當(dāng)圖像的編輯范圍較小時(shí),沒有遮罩的編輯往往導(dǎo)致不能很好地被編輯,因?yàn)椴倏v的注意力被吸引到各個(gè)位置。相反,當(dāng)圖像的編輯范圍很廣時(shí),即使沒有遮罩也經(jīng)常進(jìn)行編輯。然而,如圖12所示,一個(gè)事物的形狀,如勺子,是由遮罩保持的。因此,我們可以說,在任何情況下,有遮罩的編輯質(zhì)量都會(huì)更好。雖然需要輸入蒙版,但當(dāng)我們想指定編輯點(diǎn)或想進(jìn)行大幅度的編輯時(shí),輸入蒙版圖像是一種非常有效的方法。

5.5 模型的定量評(píng)價(jià)

????????表3顯示了VQGAN的評(píng)價(jià)。在food500上預(yù)訓(xùn)練的VQGAN的FID和KID最低,而在Magical Rice Bowl數(shù)據(jù)集上訓(xùn)練的VQGAN的FID最高。ImageNet16384和foodx251的FID與在food500上預(yù)訓(xùn)練的FID相當(dāng),但I(xiàn)mageNet16384的KID與food500相比有一定差距。IS的比較表明,ImageNet1024是最好的,它表示最容易識(shí)別和最多樣化的,但food500也差不了多少,總體來說,food500是質(zhì)量最高的模型。

????????表3和圖6對(duì)VQGAN的訓(xùn)練數(shù)據(jù)集之間的差異進(jìn)行了定量和定性的評(píng)估。圖6中訓(xùn)練數(shù)據(jù)集之間的差異顯示,輸出的圖像沒有明顯的差異。然后,當(dāng)我們看表3時(shí),我們發(fā)現(xiàn)food500模型具有最高的準(zhǔn)確性。定量評(píng)價(jià)顯示了數(shù)值上的差異,但在圖像編輯的質(zhì)量上沒有明顯的差異。這表明通過定量評(píng)價(jià)的定性評(píng)價(jià)是復(fù)雜的。在圖像編輯方面,如本研究,還沒有形成標(biāo)準(zhǔn)的評(píng)價(jià)指標(biāo)和基準(zhǔn),定量評(píng)價(jià)并不能直接評(píng)價(jià)圖像編輯的優(yōu)劣。在圖像編輯中需要建立一個(gè)新的定量評(píng)價(jià)指標(biāo)。

????????表4顯示了CLIP的定量評(píng)價(jià)。"title"、"APhotoOF "和 "APhotoOf_ATOF "相對(duì)占優(yōu)勢(shì)。"title_NoPretrain "有最高的CLIPScore,但可能對(duì)文本和圖像之間的相似性不成熟。圖7和圖8也顯示了CLIP的訓(xùn)練提示之間的差異。當(dāng)模型得到一個(gè)好的定量評(píng)價(jià)時(shí),輸出的圖像也往往是好的。因此,與GAN定量評(píng)價(jià)不同,CLIP評(píng)價(jià)有可能通過定量評(píng)價(jià)提供定性評(píng)價(jià)。

6 結(jié)論

在這項(xiàng)研究中,我們研究了VQGAN-CLIP在編輯與膳食有關(guān)的圖像方面的有效性。為了進(jìn)一步將模型專門用于膳食圖像,我們?cè)谏攀硤D像數(shù)據(jù)集上訓(xùn)練了VQGAN,在具有各種訓(xùn)練提示的食譜數(shù)據(jù)集上訓(xùn)練了CLIP。

我們通過編輯提示、VQGAN的訓(xùn)練數(shù)據(jù)集和CLIP的訓(xùn)練提示,使用掩碼或不使用掩碼來比較差異。我們發(fā)現(xiàn),VQGAN的訓(xùn)練數(shù)據(jù)集在輸出的圖像中沒有顯示出明顯的差異。然而,評(píng)價(jià)指標(biāo)是用飯菜圖像數(shù)據(jù)集更好。"APhotoOfA_ATOF "的圖像損壞相對(duì)較少,在CLIP訓(xùn)練提示中的定量評(píng)價(jià)中得分較高。屏蔽圖像的功能是一個(gè)非常有效的圖像編輯工具。

我們將考慮增加一個(gè)自動(dòng)輸入掩碼的模型。我們還將考慮VQGAN模型以外的圖像生成模型,如PPDM[26]。


原文鏈接:https://doi.org/10.1145/3552484.3555751

1)? https://github.com/toshas/torch-fidelity
2)? https://github.com/GaParmar/clean-fid
3)? https://github.com/mlfoundations/open_clip
4)? https://github.com/jmhessel/clipscore文章來源地址http://www.zghlxwxcb.cn/news/detail-600806.html

到了這里,關(guān)于論文翻譯:Text-based Image Editing for Food Images with CLIP的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Text to image論文精讀MISE:多模態(tài)圖像合成和編輯Multimodal Image Synthesis and Editing: A Survey

    Text to image論文精讀MISE:多模態(tài)圖像合成和編輯Multimodal Image Synthesis and Editing: A Survey

    由于信息在現(xiàn)實(shí)世界中以各種形式存在, 多模態(tài)信息之間的有效交互和融合對(duì)于計(jì)算機(jī)視覺和深度學(xué)習(xí)研究中多模態(tài)數(shù)據(jù)的創(chuàng)建和感知起著關(guān)鍵作用 。 近期 OpenAI 發(fā)布的 DALLE-2 和谷歌發(fā)布的 Imagen 等實(shí)現(xiàn)了令人驚嘆的文字到圖像的生成效果,引發(fā)了廣泛關(guān)注并且衍生出了很多

    2024年02月04日
    瀏覽(27)
  • 論文翻譯:DeepFilterNet

    論文翻譯:DeepFilterNet

    論文題目 :DeepFilterNet: A Low Complexity Speech Enhancement Framework for Full-Band Audio based on Deep Filtering 題目譯文 :DeepFilterNet:基于深度濾波器的全頻帶音頻低復(fù)雜度語音增強(qiáng)框架 論文地址 :https://arxiv.org/abs/2110.05588 論文代碼 :https://github.com/Rikorose/DeepFilterNet 引用 :Schr?ter H, Rosenkr

    2024年02月07日
    瀏覽(23)
  • bitcask論文翻譯/筆記

    論文來源:bitcask-intro.pdf (riak.com) Bitcask的起源與Riak分布式數(shù)據(jù)庫的歷史緊密相連。在Riak的K/V集群中,每個(gè)節(jié)點(diǎn)都使用了可插拔的本地存儲(chǔ);幾乎任何結(jié)構(gòu)的K/V存儲(chǔ)都可以用作每個(gè)主機(jī)的存儲(chǔ)引擎。這種可插拔性使得Riak的處理能夠并行化,從而可以在不影響代碼庫其他部分的

    2024年01月20日
    瀏覽(26)
  • 論文翻譯插件推薦

    論文翻譯插件推薦

    火山翻譯,字節(jié)旗下產(chǎn)品。 火山翻譯 - 在線翻譯 (volcengine.com) ? 使用方法: 翻譯PDF文件:在瀏覽器上安裝火山翻譯插件之后,可以將瀏覽器打開的pdf文件,在其中選中某行文字進(jìn)行翻譯,方便快捷; 翻譯網(wǎng)頁:右鍵翻譯網(wǎng)頁。 安裝火山翻譯瀏覽器插件:火山翻譯瀏覽器插件

    2024年02月13日
    瀏覽(26)
  • 玩轉(zhuǎn)ChatGPT:論文翻譯潤(rùn)色

    玩轉(zhuǎn)ChatGPT:論文翻譯潤(rùn)色

    一、寫在前面 首先還是讓小Chat推銷下自己: 嘿! 你是否在寫論文的過程中感到頭疼,無從下手?你是否在擔(dān)心自己的語言表達(dá)不夠?qū)I(yè)、不夠流暢,影響了論文的質(zhì)量?不要擔(dān)心,ChatGPT的潤(rùn)色服務(wù)可以幫助你!我們的潤(rùn)色服務(wù)包括語言潤(rùn)色、格式排版、邏輯結(jié)構(gòu)調(diào)整、學(xué)

    2024年02月05日
    瀏覽(25)
  • Segment Anything【論文翻譯】

    Segment Anything【論文翻譯】

    https://segment-anything.com/ https://arxiv.org/pdf/2304.02643.pdf 本文由博主 墨理學(xué)AI 借助翻譯工具對(duì)該論文進(jìn)行了翻譯 ?? 我們介紹Segment Anything(SA)項(xiàng)目:這是一個(gè)全新的任務(wù)、模型和圖像分割數(shù)據(jù)集。通過在數(shù)據(jù)收集循環(huán)中使用我們高效的模型,我們建立了迄今為止最大的分割數(shù)據(jù)

    2024年02月14日
    瀏覽(31)
  • Segment Anything論文翻譯,SAM模型,SAM論文,SAM論文翻譯;一個(gè)用于圖像分割的新任務(wù)、模型和數(shù)據(jù)集;SA-1B數(shù)據(jù)集

    Segment Anything論文翻譯,SAM模型,SAM論文,SAM論文翻譯;一個(gè)用于圖像分割的新任務(wù)、模型和數(shù)據(jù)集;SA-1B數(shù)據(jù)集

    論文鏈接: https://arxiv.org/pdf/2304.02643.pdf https://ai.facebook.com/research/publications/segment-anything/ 代碼連接:https://github.com/facebookresearch/segment-anything 論文翻譯: http://t.csdn.cn/nnqs8 https://blog.csdn.net/leiduifan6944/article/details/130080159 本文提出Segment Anything (SA)項(xiàng)目:一個(gè)用于圖像分割的新任務(wù)

    2023年04月19日
    瀏覽(69)
  • ChatGPT 助力英文論文翻譯和潤(rùn)色

    ChatGPT 助力英文論文翻譯和潤(rùn)色

    ?? CSDN 葉庭云 : https://yetingyun.blog.csdn.net/ 隨著全球化的推進(jìn),跨文化交流變得越來越重要。在學(xué)術(shù)領(lǐng)域,英文論文的質(zhì)量對(duì)于研究成果的傳播和認(rèn)可至關(guān)重要。然而,非英語母語者在撰寫和潤(rùn)色英文論文時(shí)可能面臨諸多挑戰(zhàn)。本文將 介紹 ChatGPT 如何助力英文論文翻譯和潤(rùn)色

    2024年02月08日
    瀏覽(33)
  • SOF-SLAM論文翻譯

    SOF-SLAM論文翻譯

    摘要 -同時(shí)定位與繪圖(SLAM)在計(jì)算機(jī)視覺和機(jī)器人領(lǐng)域中占有重要地位。為了便于分析,傳統(tǒng)的SLAM框架采用了強(qiáng)靜態(tài)世界假設(shè)。如何應(yīng)對(duì)動(dòng)態(tài)環(huán)境是一個(gè)非常重要的問題,越來越受到人們的關(guān)注?,F(xiàn)有的動(dòng)態(tài)場(chǎng)景SLAM系統(tǒng)要么單獨(dú)利用語義信息,要么單獨(dú)利用幾何信息,要么以

    2024年02月16日
    瀏覽(36)
  • 如何用ChatGPT進(jìn)行“論文翻譯+潤(rùn)色”?

    如何用ChatGPT進(jìn)行“論文翻譯+潤(rùn)色”?

    ??2024年申報(bào)國(guó)自然項(xiàng)目基金撰寫及技巧最新基于Citespace、vosviewer、R語言的文獻(xiàn)計(jì)量學(xué)可視化分析技術(shù)及全流程文獻(xiàn)可視化SCI論文高效寫作方法 GPT引領(lǐng)前沿與應(yīng)用突破之GPT4科研實(shí)踐技術(shù)與AI繪圖 不夸張說,只要調(diào)教好咒語,就必然會(huì)形成一場(chǎng)論文翻譯+潤(rùn)色的顛覆性革命!!

    2024年02月06日
    瀏覽(42)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包