CLIPScore: A Reference-free Evaluation Metric for Image Captioning
論文標(biāo)題:CLIPScore: A Reference-free Evaluation Metric for Image Captioning
這一篇是針對Image Caption領(lǐng)域的評價指標(biāo),但是有些基于條件的Diffusion模型也使用了這個評價指標(biāo)來衡量文本和生成圖像的匹配程度。
背景
本文提出的CLIPScore(下文簡稱CLIPS)是不需要推理的評估指標(biāo),之前常見的基于推理模型的評價指標(biāo)有 CIDEr 和 SPICE等(還有一些自檢索的方式),類似FID和IS利用到訓(xùn)練好的inceptionv3網(wǎng)絡(luò)計算圖像分布之間相似性的得分。
代碼鏈接:clipscore
簡單的原理圖
公式
對于CLIP-S,作者建議使用“A Photo Depicts”作為prompt會提高效果。
其中,c和v是CLIP編碼器對Caption和圖像處理輸出的embedding,w作者設(shè)置為2.5。這個公式不需要額外的模型推理運算,運算速度很快,作者稱在消費級GPU上,1分鐘可以處理4k張圖像-文本對。
CLIP-S也可以包含參考文本進(jìn)行評估。使用調(diào)和平均數(shù)(harmonic mean)計算結(jié)果:
最終公式如下:
其中,R是圖像對應(yīng)的參考文本描述。
總結(jié)
作者建議對圖像描述進(jìn)行評估,一般需要一個圖像感知的指標(biāo)(如CLIP-S)和一個針對參考文本的指標(biāo)(如SPICE)。本文的實驗設(shè)置值得學(xué)習(xí),作者通過一系列對比和巧妙設(shè)計的相關(guān)性實驗,得到了CLIP-S與人類對圖像描述的評估具有較高相似性的結(jié)論。
TISE: Bag of Metrics for Text-to-Image Synthesis Evaluation
背景
論文標(biāo)題:TISE: Bag of Metrics for Text-to-Image Synthesis Evaluation,TISE指的是Text-to-Image Synthesis Evaluation。
這一篇針對IS指標(biāo)進(jìn)行了改進(jìn),在原先的IS上加入了可調(diào)節(jié)因子以適應(yīng)不同數(shù)據(jù)集;同時引入O-IS和O-FID來保證目標(biāo)的真實性,PA來評估位置事實,CA來評估計數(shù)事實;最后,作者使用新的指標(biāo)對現(xiàn)有的SOTA方法進(jìn)行了評估,并提出了AttrGAN++,特別是對多目標(biāo)場景有更好的效果。
代碼鏈接:TISE
這篇開頭講了好多GAN進(jìn)行t2i任務(wù)的方法,讓我又重新回顧了一遍-_-||
文本-圖像生成基本評價指標(biāo)
圖像質(zhì)量和多樣性
首先上一個IS的計算公式,計算的是KL散度:
計算類的邊緣分布p(y)和生成圖像的類條件分布p(y|x)之間的KL散度。經(jīng)過作者驗證發(fā)現(xiàn),IS的分?jǐn)?shù)是不一致的,一些生成的不切實際的圖像卻依然有較高的得分。
然后是FID,計算的是Frechet distance:
其中,Trace表示矩陣的跡。
圖像和文本相關(guān)性
R-precision (RP)可以是圖像和100條候選描述(只有一條正確)中判斷正確的占比,也可以是圖像和文本經(jīng)過Encoder進(jìn)行cos計算得到的相似度。
創(chuàng)新點1:IS*
作者表示IS中預(yù)訓(xùn)練好的inceptionv3網(wǎng)絡(luò)存在校準(zhǔn)錯誤的問題,由于計算條件分布和邊緣分布的距離不一致,給出的置信度可能過高或者過低。所以需要進(jìn)行校準(zhǔn)。
作者對分類器的置信度分?jǐn)?shù)進(jìn)行校準(zhǔn)。很簡單,就是在神經(jīng)網(wǎng)絡(luò)處理輸出的邏輯向量進(jìn)入softmax歸一化層獲得概率值前,對類概率進(jìn)行放縮,公式如下:
其中T 的值是通過最大化用于訓(xùn)練分類器的驗證集上的負(fù)對數(shù)似然損失來獲得的。作者在CUB上校準(zhǔn)得到的T=0.598。校準(zhǔn)之后,原先置信度過低的情況有所緩解,甚至一些生成的不真實的圖像在IS上得分很高,在IS*上表現(xiàn)正常。
創(chuàng)新點2:多目標(biāo)文本-圖像生成指標(biāo)
這個表格很好反映了文本到圖像生成所需要的一些評價措施,除了目前常用的圖像真實性評價指標(biāo)之外,也有RP和SOA用來評價文本相關(guān)性和目標(biāo)正確性。
預(yù)訓(xùn)練模型的更換
**RP(R-precision)**是通過對提取的圖像和文本特征之間的檢索結(jié)果進(jìn)行排序,來衡量文本描述和生成的圖像之間的視覺語義相似性的指標(biāo)。除了生成圖像的真實文本描述外,還從數(shù)據(jù)集中隨機抽取其他文本。然后,計算圖像特征和每個文本描述的text embedding之間的余弦相似性,并按相似性遞減的順序?qū)ξ谋久枋鲞M(jìn)行排序。如果生成圖像的真實文本描述排在前r個內(nèi),則相關(guān)。
在AttrGAN中,使用的DAMSM文本和圖像編碼器對多目標(biāo)存在過擬合問題,作者這里將其替換為CLIP的多模態(tài)編碼器。具體效果見下表,可以看到真實圖像的基于CLIP的RP值最高,符合實際,其他模型也不存在過擬合問題。
**SOA(Semantic Object Accuracy)**來衡量生成圖像是否具有文本中的對象。有提出了兩個子度量,包括 SOA-I(圖像之間的平均召回率)和 SOA-C(類之間的平均召回率),公式為
但是預(yù)訓(xùn)練好的YOLOv3在CPGAN上存在過擬合問題(即不真實的生成圖像存在較高的SOA值,甚至高于真實圖像),作者使用MaskRCNN來計算SOA值。
新的衡量指標(biāo) O-IS和O-FID
O-IS和O-FID是以對象為中心的IS和FID,旨在確保目標(biāo)的保真度。
PA(Positional Alignment)
PA(Positional Alignment)是位置對齊相關(guān)的指標(biāo),作者定義了位置字表——{above, right, far, outside, between, below, on top of, bottom, left, inside, in front of, behind, on, near, under },構(gòu)建<生成圖像,匹配的描述,相反的描述>三元組,對每一個三元組,圖像和真實的描述匹配分?jǐn)?shù)高,那么就是匹配成功,公式如下:
其中,N_w是帶有位置單詞w的句子描述數(shù),k_w是成功的cases?;?strong>CLIP進(jìn)行計算。
CA(Counting Alignment)
CA(Counting Alignment)是計數(shù)相關(guān)的指標(biāo),在coco數(shù)據(jù)集上是{a, one, two, three, four},公式如下:
cij 和 ?cij 是物體類別的真實的和預(yù)測的計數(shù),N_ic 是圖像 i 中可計數(shù)對象的數(shù)量,D是測試集樣本數(shù)。
RS (ranking score)
來一個總結(jié),計算所有評價指標(biāo)的平均作為一個基本衡量metric:
#(metric) ∈ {1…N } 表示特定指標(biāo)的排名。
一些baseline在MScoco數(shù)據(jù)集上的結(jié)果如下表:文章來源:http://www.zghlxwxcb.cn/news/detail-400358.html
比較讓人意外的是cvpr2022的DF-GAN并沒有占到多少便宜,DALLE-mini使用VAGAN效果也并沒有很好。待我試試。文章來源地址http://www.zghlxwxcb.cn/news/detail-400358.html
到了這里,關(guān)于文本-圖像生成(Text-to-Image Generation)的評價指標(biāo)介紹——CLIPScore、TISE的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!