国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

文本-圖像生成(Text-to-Image Generation)的評價指標(biāo)介紹——CLIPScore、TISE

這篇具有很好參考價值的文章主要介紹了文本-圖像生成(Text-to-Image Generation)的評價指標(biāo)介紹——CLIPScore、TISE。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

CLIPScore: A Reference-free Evaluation Metric for Image Captioning

論文標(biāo)題:CLIPScore: A Reference-free Evaluation Metric for Image Captioning
這一篇是針對Image Caption領(lǐng)域的評價指標(biāo),但是有些基于條件的Diffusion模型也使用了這個評價指標(biāo)來衡量文本和生成圖像的匹配程度。

背景

本文提出的CLIPScore(下文簡稱CLIPS)是不需要推理的評估指標(biāo),之前常見的基于推理模型的評價指標(biāo)有 CIDEr 和 SPICE等(還有一些自檢索的方式),類似FID和IS利用到訓(xùn)練好的inceptionv3網(wǎng)絡(luò)計算圖像分布之間相似性的得分。
代碼鏈接:clipscore

簡單的原理圖
文本-圖像生成(Text-to-Image Generation)的評價指標(biāo)介紹——CLIPScore、TISE

公式

對于CLIP-S,作者建議使用“A Photo Depicts”作為prompt會提高效果。
文本-圖像生成(Text-to-Image Generation)的評價指標(biāo)介紹——CLIPScore、TISE
其中,c和v是CLIP編碼器對Caption和圖像處理輸出的embedding,w作者設(shè)置為2.5。這個公式不需要額外的模型推理運算,運算速度很快,作者稱在消費級GPU上,1分鐘可以處理4k張圖像-文本對。
CLIP-S也可以包含參考文本進(jìn)行評估。使用調(diào)和平均數(shù)(harmonic mean)計算結(jié)果:
文本-圖像生成(Text-to-Image Generation)的評價指標(biāo)介紹——CLIPScore、TISE
最終公式如下:
文本-圖像生成(Text-to-Image Generation)的評價指標(biāo)介紹——CLIPScore、TISE
其中,R是圖像對應(yīng)的參考文本描述。

總結(jié)

作者建議對圖像描述進(jìn)行評估,一般需要一個圖像感知的指標(biāo)(如CLIP-S)和一個針對參考文本的指標(biāo)(如SPICE)。本文的實驗設(shè)置值得學(xué)習(xí),作者通過一系列對比和巧妙設(shè)計的相關(guān)性實驗,得到了CLIP-S與人類對圖像描述的評估具有較高相似性的結(jié)論。

TISE: Bag of Metrics for Text-to-Image Synthesis Evaluation

背景

論文標(biāo)題:TISE: Bag of Metrics for Text-to-Image Synthesis Evaluation,TISE指的是Text-to-Image Synthesis Evaluation。
這一篇針對IS指標(biāo)進(jìn)行了改進(jìn),在原先的IS上加入了可調(diào)節(jié)因子以適應(yīng)不同數(shù)據(jù)集;同時引入O-IS和O-FID來保證目標(biāo)的真實性,PA來評估位置事實,CA來評估計數(shù)事實;最后,作者使用新的指標(biāo)對現(xiàn)有的SOTA方法進(jìn)行了評估,并提出了AttrGAN++,特別是對多目標(biāo)場景有更好的效果。
代碼鏈接:TISE
這篇開頭講了好多GAN進(jìn)行t2i任務(wù)的方法,讓我又重新回顧了一遍-_-||

文本-圖像生成基本評價指標(biāo)

圖像質(zhì)量和多樣性

首先上一個IS的計算公式,計算的是KL散度:
文本-圖像生成(Text-to-Image Generation)的評價指標(biāo)介紹——CLIPScore、TISE
計算類的邊緣分布p(y)和生成圖像的類條件分布p(y|x)之間的KL散度。經(jīng)過作者驗證發(fā)現(xiàn),IS的分?jǐn)?shù)是不一致的,一些生成的不切實際的圖像卻依然有較高的得分。
然后是FID,計算的是Frechet distance:
文本-圖像生成(Text-to-Image Generation)的評價指標(biāo)介紹——CLIPScore、TISE
其中,Trace表示矩陣的跡。

圖像和文本相關(guān)性

R-precision (RP)可以是圖像和100條候選描述(只有一條正確)中判斷正確的占比,也可以是圖像和文本經(jīng)過Encoder進(jìn)行cos計算得到的相似度。

創(chuàng)新點1:IS*

作者表示IS中預(yù)訓(xùn)練好的inceptionv3網(wǎng)絡(luò)存在校準(zhǔn)錯誤的問題,由于計算條件分布和邊緣分布的距離不一致,給出的置信度可能過高或者過低。所以需要進(jìn)行校準(zhǔn)。
作者對分類器的置信度分?jǐn)?shù)進(jìn)行校準(zhǔn)。很簡單,就是在神經(jīng)網(wǎng)絡(luò)處理輸出的邏輯向量進(jìn)入softmax歸一化層獲得概率值前,對類概率進(jìn)行放縮,公式如下:
文本-圖像生成(Text-to-Image Generation)的評價指標(biāo)介紹——CLIPScore、TISE
其中T 的值是通過最大化用于訓(xùn)練分類器的驗證集上的負(fù)對數(shù)似然損失來獲得的。作者在CUB上校準(zhǔn)得到的T=0.598。校準(zhǔn)之后,原先置信度過低的情況有所緩解,甚至一些生成的不真實的圖像在IS上得分很高,在IS*上表現(xiàn)正常。
文本-圖像生成(Text-to-Image Generation)的評價指標(biāo)介紹——CLIPScore、TISE

創(chuàng)新點2:多目標(biāo)文本-圖像生成指標(biāo)

文本-圖像生成(Text-to-Image Generation)的評價指標(biāo)介紹——CLIPScore、TISE
這個表格很好反映了文本到圖像生成所需要的一些評價措施,除了目前常用的圖像真實性評價指標(biāo)之外,也有RP和SOA用來評價文本相關(guān)性和目標(biāo)正確性。

預(yù)訓(xùn)練模型的更換

**RP(R-precision)**是通過對提取的圖像和文本特征之間的檢索結(jié)果進(jìn)行排序,來衡量文本描述和生成的圖像之間的視覺語義相似性的指標(biāo)。除了生成圖像的真實文本描述外,還從數(shù)據(jù)集中隨機抽取其他文本。然后,計算圖像特征和每個文本描述的text embedding之間的余弦相似性,并按相似性遞減的順序?qū)ξ谋久枋鲞M(jìn)行排序。如果生成圖像的真實文本描述排在前r個內(nèi),則相關(guān)。
在AttrGAN中,使用的DAMSM文本和圖像編碼器對多目標(biāo)存在過擬合問題,作者這里將其替換為CLIP的多模態(tài)編碼器。具體效果見下表,可以看到真實圖像的基于CLIP的RP值最高,符合實際,其他模型也不存在過擬合問題。
文本-圖像生成(Text-to-Image Generation)的評價指標(biāo)介紹——CLIPScore、TISE
**SOA(Semantic Object Accuracy)**來衡量生成圖像是否具有文本中的對象。有提出了兩個子度量,包括 SOA-I(圖像之間的平均召回率)和 SOA-C(類之間的平均召回率),公式為
文本-圖像生成(Text-to-Image Generation)的評價指標(biāo)介紹——CLIPScore、TISE
但是預(yù)訓(xùn)練好的YOLOv3在CPGAN上存在過擬合問題(即不真實的生成圖像存在較高的SOA值,甚至高于真實圖像),作者使用MaskRCNN來計算SOA值。

新的衡量指標(biāo) O-IS和O-FID

O-IS和O-FID是以對象為中心的IS和FID,旨在確保目標(biāo)的保真度。

PA(Positional Alignment)

PA(Positional Alignment)是位置對齊相關(guān)的指標(biāo),作者定義了位置字表——{above, right, far, outside, between, below, on top of, bottom, left, inside, in front of, behind, on, near, under },構(gòu)建<生成圖像,匹配的描述,相反的描述>三元組,對每一個三元組,圖像和真實的描述匹配分?jǐn)?shù)高,那么就是匹配成功,公式如下:
文本-圖像生成(Text-to-Image Generation)的評價指標(biāo)介紹——CLIPScore、TISE
其中,N_w是帶有位置單詞w的句子描述數(shù),k_w是成功的cases?;?strong>CLIP進(jìn)行計算。

CA(Counting Alignment)

CA(Counting Alignment)是計數(shù)相關(guān)的指標(biāo),在coco數(shù)據(jù)集上是{a, one, two, three, four},公式如下:
文本-圖像生成(Text-to-Image Generation)的評價指標(biāo)介紹——CLIPScore、TISE
cij 和 ?cij 是物體類別的真實的和預(yù)測的計數(shù),N_ic 是圖像 i 中可計數(shù)對象的數(shù)量,D是測試集樣本數(shù)。

RS (ranking score)

來一個總結(jié),計算所有評價指標(biāo)的平均作為一個基本衡量metric:
文本-圖像生成(Text-to-Image Generation)的評價指標(biāo)介紹——CLIPScore、TISE
#(metric) ∈ {1…N } 表示特定指標(biāo)的排名。
一些baseline在MScoco數(shù)據(jù)集上的結(jié)果如下表:
文本-圖像生成(Text-to-Image Generation)的評價指標(biāo)介紹——CLIPScore、TISE
文本-圖像生成(Text-to-Image Generation)的評價指標(biāo)介紹——CLIPScore、TISE

比較讓人意外的是cvpr2022的DF-GAN并沒有占到多少便宜,DALLE-mini使用VAGAN效果也并沒有很好。待我試試。文章來源地址http://www.zghlxwxcb.cn/news/detail-400358.html

到了這里,關(guān)于文本-圖像生成(Text-to-Image Generation)的評價指標(biāo)介紹——CLIPScore、TISE的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • Text to image論文精讀GigaGAN: 生成對抗網(wǎng)絡(luò)仍然是文本生成圖像的可行選擇

    Text to image論文精讀GigaGAN: 生成對抗網(wǎng)絡(luò)仍然是文本生成圖像的可行選擇

    GigaGAN是Adobe和卡內(nèi)基梅隆大學(xué)學(xué)者們提出的一種新的GAN架構(gòu),作者設(shè)計了一種新的GAN架構(gòu),推理速度、合成高分辨率、擴展性都極其有優(yōu)勢,其證明GAN仍然是文本生成圖像的可行選擇之一。 文章鏈接:https://arxiv.org/abs/2303.05511 項目地址:https://mingukkang.github.io/GigaGAN/ 最近,文

    2023年04月09日
    瀏覽(27)
  • 條件控制生成——diffusion模型——Adding Conditional Control to Text-to-Image Diffusion Models

    條件控制生成——diffusion模型——Adding Conditional Control to Text-to-Image Diffusion Models

    ??在之前的擴散模型介紹中,入門-1,主要考慮的是無條件下的圖片生成,涉及到的問題主要是如何保證圖片的質(zhì)量,這個過程需要考慮很多的參數(shù)項,參數(shù)設(shè)定的不同會對圖片的質(zhì)量和多樣性產(chǎn)生很大的影響。 ?? 能夠讓diffusion模型在工業(yè)界中大放異彩的模型,比如條件

    2024年02月16日
    瀏覽(25)
  • Text2Video-Zero:Text-to-Image擴散模型是Zero-Shot視頻生成器

    Text2Video-Zero:Text-to-Image擴散模型是Zero-Shot視頻生成器

    Paper: https://arxiv.org/abs/2303.13439 Project: https://github.com/Picsart-AI-Research/Text2Video-Zero 原文鏈接:Text2Video-Zero:Text-to-Image擴散模型是Zero-Shot視頻生成器(by 小樣本視覺與智能前沿) 目錄 最近的text-to-video生成方法依賴于計算量大的訓(xùn)練,并且需要大規(guī)模的視頻數(shù)據(jù)集。 在本文中,我

    2024年02月11日
    瀏覽(44)
  • Adding Conditional Control to Text-to-Image Diffusion Models

    Adding Conditional Control to Text-to-Image Diffusion Models

    安全驗證 - 知乎 知乎,中文互聯(lián)網(wǎng)高質(zhì)量的問答社區(qū)和創(chuàng)作者聚集的原創(chuàng)內(nèi)容平臺,于 2011 年 1 月正式上線,以「讓人們更好的分享知識、經(jīng)驗和見解,找到自己的解答」為品牌使命。知乎憑借認(rèn)真、專業(yè)、友善的社區(qū)氛圍、獨特的產(chǎn)品機制以及結(jié)構(gòu)化和易獲得的優(yōu)質(zhì)內(nèi)容,

    2024年02月06日
    瀏覽(20)
  • Adding Conditional Control to Text-to-Image Diffusion Models——【論文筆記】

    Adding Conditional Control to Text-to-Image Diffusion Models——【論文筆記】

    本文發(fā)表于ICCV2023? 論文地址:ICCV 2023 Open Access Repository (thecvf.com) 官方實現(xiàn)代碼:lllyasviel/ControlNet: Let us control diffusion models! (github.com)? 論文提出了一種神經(jīng)網(wǎng)絡(luò)架構(gòu)ControlNet,可以將空間條件控制添加到大型的預(yù)訓(xùn)練文本到圖像擴散模型中。ControlNet將預(yù)訓(xùn)練好的大型擴散模型

    2024年02月01日
    瀏覽(21)
  • 【論文筆記】SINE: SINgle Image Editing with Text-to-Image Diffusion Models

    【論文筆記】SINE: SINgle Image Editing with Text-to-Image Diffusion Models

    聲明 不定期更新自己精度論文,通俗易懂,初級小白也可以理解 涉及范圍:深度學(xué)習(xí)方向,包括 CV、NLP 論文標(biāo)題:SINE: SINgle Image Editing with Text-to-Image Diffusion Models 論文鏈接: https://www.semanticscholar.org/paper/SINE%3A-SINgle-Image-Editing-with-Text-to-Image-Zhang-Han/a6ad30123bef4b19ee40c3d63cfabf00

    2024年02月13日
    瀏覽(23)
  • AI作畫:十分鐘快速搭建自己的text-to-image diffusion models

    Diffusion Models專欄文章匯總:入門與實戰(zhàn) 前言: 最近AI作畫徹底火出圈,diffusion models的研究者也越來越多,就連搞推薦算法、搞目標(biāo)檢測的同學(xué)都來問我擴散模型的事情。這篇博客作為一個科普博客,手把手教大家如何用十分鐘搭建一個屬于自己的text-to-image stable diffusion mo

    2024年02月12日
    瀏覽(100)
  • Multi-Concept Customization of Text-to-Image Diffusion——【論文筆記】

    Multi-Concept Customization of Text-to-Image Diffusion——【論文筆記】

    本文發(fā)表于CVPR 2023 論文地址:CVPR 2023 Open Access Repository (thecvf.com) Github官方代碼地址:?github.com 最近的文本到圖像模型能夠根據(jù)文本提示生成高質(zhì)量的圖像,可以覆蓋廣泛的物體、風(fēng)格和場景。盡管這些模型具有多樣的通用功能,但用戶通常希望從他們自己的個人生活中綜合

    2024年01月22日
    瀏覽(50)
  • Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

    Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

    論文連接: Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models 論文代碼: Code 摘要 Text-to-image diffusion 以文本嵌入作為輸入能生成高質(zhì)量的圖像,這表明 diffusion model 的表征與高級語義概念高度關(guān)聯(lián)。此外, CLIP 能夠賦予圖像準(zhǔn)確地開集預(yù)測(即zero-shot 分類能力),因此

    2024年02月15日
    瀏覽(19)
  • AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models

    AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models

    代碼:lllyasviel/ControlNet: Let us control diffusion models! (github.com) 論文地址 最近AI繪畫又雙叒叕進(jìn)化了,前一次還只能生成二次元,這次三次元都能生成了。這次AI繪畫這么火爆的原因跟下面這篇文章脫不開關(guān)系,它將AI繪畫帶到了一個新的高度。 我們提出了一個神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)cont

    2024年02月11日
    瀏覽(23)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包