文章匯總
存在的問(wèn)題
之前的來(lái)自目標(biāo)數(shù)據(jù)集的標(biāo)記數(shù)據(jù)(有監(jiān)督學(xué)習(xí))可能會(huì)限制可伸縮性。
動(dòng)機(jī)
通過(guò)無(wú)監(jiān)督提示學(xué)習(xí)(UPL)方法,以避免提示工程,同時(shí)提高類(lèi)clip視覺(jué)語(yǔ)言模型的遷移性能。
方法解讀
主張top-k而不是top-p
注:top-k是指挑選概率最大的k個(gè),top-p是指挑選預(yù)測(cè)概率大于p的那些數(shù)據(jù)
看圖說(shuō)話(huà):
對(duì)于a圖,橫坐標(biāo)為每種類(lèi)別(類(lèi)別id編號(hào)從0-40),Top-k(k=16)指挑選預(yù)測(cè)概率從大到小的前16名,綠線(xiàn)top-p(p=0.3)指挑選預(yù)測(cè)概率大于0.3的數(shù)據(jù),指定注意的是,在黃線(xiàn)top-p(p=0.9)中我們發(fā)現(xiàn),無(wú)法從CLass ID從0-17的數(shù)據(jù)中挑選出預(yù)測(cè)概率大于0.9的數(shù)據(jù)(因此黃色那部分的值為0),這也說(shuō)明Top-p在實(shí)際應(yīng)用中的不現(xiàn)實(shí)性。
對(duì)于b圖,縱坐標(biāo)是挑選的偽標(biāo)簽實(shí)際正確的數(shù)量,可以看到top-p(p=0.3,0.9)對(duì)于不同的Class ID上下波動(dòng)得十分大。
因此,作者認(rèn)為CLIP中置信度得分與偽標(biāo)簽準(zhǔn)確率之間的相關(guān)性相對(duì)較弱,主張通過(guò)Eq. 1和Eq. 2(Clip中的公式)為每個(gè)類(lèi)選擇top-K的置信樣本進(jìn)行后續(xù)優(yōu)化。
偽標(biāo)簽集合
不同的視覺(jué)模型對(duì)每個(gè)類(lèi)別的預(yù)測(cè)效果不同,比如ViT-L/14對(duì)CLass ID為0,1,5這些類(lèi)別的數(shù)據(jù)預(yù)測(cè)的最準(zhǔn),所以這里作者為了減弱不同的視覺(jué)模型對(duì)每個(gè)類(lèi)別的“敏感度”,選擇取平均(很暴力的手法,O(∩_∩)O哈哈~)
第i個(gè)樣本的概率,其中第M個(gè)CLIP模型預(yù)測(cè)的概率。
所以我們從實(shí)驗(yàn)中可以看到作者使用了各種視覺(jué)架構(gòu)的額外CLIP模型,包括ResNet-101、ResNet50x4、ResNet50x16、ResNet50x64、ViTB/ 32、ViTB/16和vitl /14 (Dosovitskiy et al 2020),以提高偽標(biāo)簽的質(zhì)量。
流程解讀
偽標(biāo)簽生成階段
使用多個(gè)視覺(jué)模型CLip來(lái)進(jìn)行對(duì)比學(xué)習(xí),按照top-k策略挑選偽標(biāo)簽。
提示表示優(yōu)化階段
這個(gè)階段就是clip進(jìn)行對(duì)比學(xué)習(xí)的訓(xùn)練,只是輸入數(shù)據(jù)有所不同。
圖片數(shù)據(jù),從上一階段獲得,但標(biāo)簽為偽標(biāo)簽。
文本數(shù)據(jù),為(me:是所有類(lèi)別的文本提示Token,接著預(yù)測(cè)時(shí)看看要預(yù)測(cè)的圖片與哪個(gè)
相似度最高)。,其中,是這塊結(jié)點(diǎn)需要學(xué)習(xí)的參數(shù),稱(chēng)為可學(xué)習(xí)的提示表示,表示類(lèi)c的固定詞嵌入。值得注意的是,類(lèi)別中的是共享的,所以也可以看到
中與無(wú)關(guān)。流程圖上也體現(xiàn)了這點(diǎn)。
模型的推理(即預(yù)測(cè)階段)
直接用clip模型來(lái)推理,其實(shí)與提示表示優(yōu)化階段相同,只是無(wú)需再訓(xùn)練了。
直接拿訓(xùn)練好的且每個(gè)類(lèi)別共享的再加上為文本輸入數(shù)據(jù),最終組成(me:是所有類(lèi)別的文本提示Token,接著預(yù)測(cè)時(shí)看看要預(yù)測(cè)的圖片與哪個(gè)相似度最高)。
要預(yù)測(cè)的圖片直接作為為圖片數(shù)據(jù)。
摘要
像CLIP這樣的對(duì)比視覺(jué)語(yǔ)言模型在遷移學(xué)習(xí)方面已經(jīng)取得了很大的進(jìn)展。在推理階段,需要精心設(shè)計(jì)適當(dāng)?shù)奈谋久枋?,也稱(chēng)為提示,以正確分類(lèi)給定的圖像。為了避免費(fèi)力的提示工程,最近的工作,如CoOp, CLIP-Adapter和Tip-Adapter提出了適應(yīng)視覺(jué)語(yǔ)言模型的下游圖像識(shí)別任務(wù)在一小組標(biāo)記數(shù)據(jù)上。雖然實(shí)現(xiàn)了有希望的改進(jìn),但要求來(lái)自目標(biāo)數(shù)據(jù)集的標(biāo)記數(shù)據(jù)可能會(huì)限制可伸縮性。在本文中,我們探索了一種不同的場(chǎng)景,其中目標(biāo)數(shù)據(jù)集的標(biāo)簽沒(méi)有提供,我們提出了一種無(wú)監(jiān)督提示學(xué)習(xí)(UPL)方法,以避免提示工程,同時(shí)提高類(lèi)clip視覺(jué)語(yǔ)言模型的遷移性能。據(jù)我們所知,UPL是第一個(gè)將無(wú)監(jiān)督學(xué)習(xí)引入提示學(xué)習(xí)的工作。實(shí)驗(yàn)表明,我們的UPL在ImageNet和其他10個(gè)數(shù)據(jù)集上的快速工程優(yōu)于原始CLIP。在大多數(shù)數(shù)據(jù)集上,UPL的增強(qiáng)版本甚至可以與8-shot CoOp和8-shot TIPAdapter競(jìng)爭(zhēng)。代碼和模型可在GitHub - tonyhuang2022/UPL: This repo is the official implementation of UPL (Unsupervised Prompt Learning for Vision-Language Models).上獲得。
介紹
最近,CLIP (Radford et al . 2021)、ALIGN (Jia et al . 2021)和FLIP (Yao et al . 2021)等視覺(jué)語(yǔ)言模型在視覺(jué)表征學(xué)習(xí)和遷移學(xué)習(xí)方面取得了可喜的進(jìn)展。與傳統(tǒng)的視覺(jué)框架相比,視覺(jué)語(yǔ)言模型使用雙塔架構(gòu)(通常由圖像編碼器和文本編碼器組成)在大規(guī)模圖像-文本對(duì)上進(jìn)行訓(xùn)練,以在共享嵌入空間中將圖像與原始文本對(duì)齊。將井優(yōu)化模型轉(zhuǎn)移到下游任務(wù)(Radford et al 2021;Jia等2021;Yao等2021;Yuan等2021;Gu等2021;Du et al . 2022;Xu et al . 2021b),需要仔細(xì)設(shè)計(jì)合適的文本描述,稱(chēng)為提示符,以正確分類(lèi)目標(biāo)圖像。例如,CLIP中使用的提示模板之一是“一個(gè)[CLS]的照片”(圖1a)。然而,識(shí)別正確的提示并非易事,這通常需要領(lǐng)域知識(shí)和費(fèi)力的提示工程。
圖1:(a)預(yù)訓(xùn)練CLIP的推斷。(b) CoOp、CLIP- adapter和Tip-Adapter等現(xiàn)有方法使用目標(biāo)數(shù)據(jù)集中的一小組標(biāo)記圖像,使預(yù)訓(xùn)練的CLIP適應(yīng)下游任務(wù)。(c)我們的UPL對(duì)來(lái)自目標(biāo)數(shù)據(jù)集的未標(biāo)記圖像進(jìn)行快速學(xué)習(xí)。
為了避免手工制作的提示設(shè)計(jì)并提高傳輸性能,一些監(jiān)督方法,例如CoOp (Zhou等人2021),CLIP-Adapter (Gao等人2021)和TipAdapter (Zhang等人2021a)提出使用目標(biāo)數(shù)據(jù)集中的一小組標(biāo)記圖像來(lái)調(diào)整視覺(jué)語(yǔ)言模型以用于下游圖像識(shí)別任務(wù),如圖1b所示。CoOp學(xué)習(xí)一個(gè)連續(xù)的提示表示來(lái)代替手工制作的提示;CLIP-Adapter采用附加網(wǎng)絡(luò)學(xué)習(xí)精細(xì)特征;TIP-Adapter進(jìn)一步擴(kuò)展了CLIP-Adapter,從少量監(jiān)督構(gòu)造一個(gè)查詢(xún)鍵緩存模型。然而,所有這些方法都需要來(lái)自目標(biāo)數(shù)據(jù)集的帶注釋的樣本,這可能會(huì)限制它們的擴(kuò)展能力。在本文中,我們研究了一種不提供目標(biāo)數(shù)據(jù)集標(biāo)簽的不同設(shè)置,并提出了一種無(wú)監(jiān)督提示學(xué)習(xí)(UPL)框架,以有效地適應(yīng)下游圖像識(shí)別任務(wù)的視覺(jué)語(yǔ)言模型,同時(shí)避免了繁瑣的提示設(shè)計(jì)。圖1c顯示了該示例。
具體而言,UPL首先利用預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型(如CLIP)為目標(biāo)圖像生成偽標(biāo)簽,然后對(duì)所選的偽標(biāo)簽樣本進(jìn)行自訓(xùn)練以?xún)?yōu)化可學(xué)習(xí)的提示表示。通過(guò)簡(jiǎn)單地用優(yōu)化的提示表示替換手工制作的提示,CLIP的泛化性能可以得到顯著改善。與基于閾值的自訓(xùn)練方法相比,我們根據(jù)觀(guān)察結(jié)果選擇每個(gè)類(lèi)的top-K自信樣本進(jìn)行自訓(xùn)練:1)視覺(jué)語(yǔ)言模型對(duì)不同的類(lèi)有偏偏好,使用預(yù)定義的閾值過(guò)濾掉不自信樣本導(dǎo)致偽數(shù)據(jù)分布不平衡;2)置信度得分與偽標(biāo)簽準(zhǔn)確率之間沒(méi)有明顯的相關(guān)性,這說(shuō)明置信度得分可能不是反映偽標(biāo)簽質(zhì)量的可靠指標(biāo)。雖然可能同時(shí)引入有噪聲的偽標(biāo)簽,但我們通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)我們的方法對(duì)噪聲具有魯棒性,因?yàn)樗蓄?lèi)都使用相同的提示表示。受CLIP提出的提示集成策略的啟發(fā),我們引入了偽標(biāo)簽集成和提示表示集成來(lái)進(jìn)一步推廣我們的方法。我們的貢獻(xiàn)可以總結(jié)如下:
?我們提出了一個(gè)無(wú)監(jiān)督提示學(xué)習(xí)(UPL)框架,以避免耗時(shí)的提示工程,并更好地適應(yīng)視覺(jué)語(yǔ)言模型(例如CLIP)用于下游圖像識(shí)別任務(wù)。據(jù)我們所知,UPL是第一個(gè)將無(wú)監(jiān)督學(xué)習(xí)引入到視覺(jué)語(yǔ)言模型的提示學(xué)習(xí)中的工作。
?我們深入分析了CLIP偽標(biāo)注的特點(diǎn)。在此基礎(chǔ)上,我們提出了top-K偽標(biāo)簽策略、偽標(biāo)簽集成和提示表示集成等一系列技術(shù)來(lái)提高遷移性能。
?我們的UPL在ImageNet和其他10個(gè)圖像分類(lèi)數(shù)據(jù)集上的快速工程顯著優(yōu)于原始CLIP。在大多數(shù)數(shù)據(jù)集上,UPL的增強(qiáng)版本甚至可以與監(jiān)督方法(如8-shot CoOp和8-shot TIPAdapter)競(jìng)爭(zhēng)。
相關(guān)工作
視覺(jué)語(yǔ)言模型
大規(guī)模圖像-文本對(duì)預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型在視覺(jué)表征學(xué)習(xí)中顯示出巨大的潛力。CLIP (Radford等人2021)創(chuàng)建了一個(gè)4億個(gè)數(shù)據(jù)集,ALIGN (Jia等人2021)利用了18億個(gè)帶噪聲的圖像-文本對(duì),F(xiàn)LIP (Yao等人2021)收集了一組3億對(duì)數(shù)據(jù)用于細(xì)粒度的視覺(jué)語(yǔ)言預(yù)訓(xùn)練,Wukong (Gu等人2022)提出了一個(gè)包含1億個(gè)數(shù)據(jù)的大規(guī)模中文跨模態(tài)數(shù)據(jù)集,用于對(duì)不同的多模態(tài)預(yù)訓(xùn)練方法進(jìn)行基準(zhǔn)測(cè)試。和Florence (Yuan et al . 2021)構(gòu)建了一個(gè)名為FLD-900M的9億圖像文本對(duì)數(shù)據(jù)集,并在44個(gè)代表性基準(zhǔn)中的大多數(shù)中獲得了新的最先進(jìn)的結(jié)果。這些視覺(jué)語(yǔ)言模型都使用雙塔架構(gòu),包括帶有ResNet的視覺(jué)(圖像)編碼器(He et al . 2016), ViT (Dosovitskiy et al . 2020)或Swin Transformer (Liu et al . 2021),以及帶有標(biāo)準(zhǔn)Transformer的語(yǔ)言(文本)編碼器(Vaswani et al . 2017)。
為了將圖像與嵌入空間中的原始文本對(duì)齊,采用了文本到圖像和圖像到文本的對(duì)比學(xué)習(xí)(Van den Oord, Li, and Vinyals 2018)。與自監(jiān)督預(yù)訓(xùn)練方法相比(Grill等人2020;Chen et al . 2020;他等人2020;Chen and He 2021)對(duì)于視覺(jué)表示學(xué)習(xí),視覺(jué)語(yǔ)言模型具有圖像識(shí)別的固有遷移能力。此外,代表性框架CLIP已經(jīng)適應(yīng)了一系列視覺(jué)任務(wù),如物體檢測(cè)(Gu et al 2021;Du等人2022),語(yǔ)義分割(Xu等人2021b),動(dòng)作識(shí)別(Wang, Xing, and Liu 2021),視頻剪輯檢索(Luo等人2021),視頻字幕(Tang等人2021)和3D識(shí)別(Zhang等人2021b)。
提示學(xué)習(xí)
預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型使用提示(例如,“一張[CLS]的照片”)來(lái)生成用于圖像識(shí)別的類(lèi)嵌入。識(shí)別正確的提示是非常重要的,這通常需要花費(fèi)大量的時(shí)間進(jìn)行提示工程。受到NLP中提示學(xué)習(xí)進(jìn)展的啟發(fā)(Zhong, Friedman, and Chen 2021;李梁2021;萊斯特,Al-Rfou和Constant 2021;Shin et al . 2020;Jiang et al . 2020), CoOp (Zhou et al . 2021)提出了一種持續(xù)提示優(yōu)化策略,以避免提示設(shè)計(jì)。CLIP-Adapter (Gao et al . 2021)訓(xùn)練額外的適配器網(wǎng)絡(luò),將文本特征和圖像特征映射到新的嵌入空間,以更好地適應(yīng)目標(biāo)數(shù)據(jù)集。Tip-Adapter (Zhang et al . 2021a)進(jìn)一步擴(kuò)展了CLIP-Adapter,通過(guò)從少量訓(xùn)練集構(gòu)建的鍵值緩存模型來(lái)創(chuàng)建權(quán)重。然而,所有這些方法都依賴(lài)于少量標(biāo)記數(shù)據(jù),這可能會(huì)限制它們的擴(kuò)展能力。相比之下,我們提出的UPL提高了預(yù)訓(xùn)練視覺(jué)語(yǔ)言模型的傳輸性能,同時(shí)不需要對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行注釋。
自監(jiān)督訓(xùn)練
自我訓(xùn)練(斯卡德?tīng)?965;Yarowsky 1995;Riloff 1996)是一種簡(jiǎn)單的半監(jiān)督學(xué)習(xí)方法。在這個(gè)范例中,訓(xùn)練良好的模型首先在未標(biāo)記的數(shù)據(jù)集上生成偽標(biāo)簽,然后通過(guò)使用標(biāo)記數(shù)據(jù)和偽標(biāo)記數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)。最近,自我訓(xùn)練在深度學(xué)習(xí)方面取得了重大進(jìn)展,例如圖像分類(lèi)(Yalniz et al 2019;Xie et al . 2020),目標(biāo)檢測(cè)(Xu et al . 2021a;Sohn et al . 2020),語(yǔ)義分割(Hu et al . 2021),語(yǔ)音識(shí)別(Kahn, Lee, and Hannun 2020;Parthasarathi and Strom 2019),動(dòng)作識(shí)別(Xu et al 2021c)和機(jī)器翻譯(He et al 2019)。視覺(jué)語(yǔ)言模型通常在大規(guī)模的圖像-文本對(duì)(例如CLIP的4億數(shù)據(jù))上進(jìn)行預(yù)訓(xùn)練,并通過(guò)提示顯示出有希望的傳輸性能。我們提出的UPL為目標(biāo)數(shù)據(jù)集生成偽標(biāo)簽,并通過(guò)精心設(shè)計(jì)的自我訓(xùn)練方法優(yōu)化連續(xù)提示表示。這種處理大大提高了傳輸性能。與傳統(tǒng)的自我訓(xùn)練相比,UPL只優(yōu)化連續(xù)的提示表示,同時(shí)保持整個(gè)網(wǎng)絡(luò)(即圖像編碼器和文本編碼器)固定。據(jù)我們所知,UPL是第一個(gè)將自我訓(xùn)練引入視覺(jué)語(yǔ)言模型快速學(xué)習(xí)的工作。
方法
在本節(jié)中,我們將介紹用于視覺(jué)語(yǔ)言模型的無(wú)監(jiān)督提示學(xué)習(xí)(UPL)框架,特別是用于CLIP (Radford et al . 2021)。UPL的目標(biāo)是避免費(fèi)力的提示工程,同時(shí)提高預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型的遷移性能。與先前的監(jiān)督方法不同(Zhou et al . 2021;Gao等人2021;Zhang et al . 2021a), UPL不需要對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行任何注釋。在本節(jié)中,我們首先概述我們的UPL。接下來(lái),我們介紹了為目標(biāo)圖像生成偽標(biāo)簽的處理。最后,描述了通過(guò)精心設(shè)計(jì)的自我訓(xùn)練方法進(jìn)行提示表示優(yōu)化的細(xì)節(jié)。
UPL概述
圖2:提出的無(wú)監(jiān)督提示學(xué)習(xí)(UPL)框架的概述。我們的UPL主要包含兩個(gè)部分,即偽標(biāo)簽生成和提示表示優(yōu)化。我們首先使用CLIP和一個(gè)簡(jiǎn)單的提示(例如,“一張[CLS]的照片”)來(lái)為目標(biāo)數(shù)據(jù)集生成偽標(biāo)簽,并為后續(xù)訓(xùn)練選擇每個(gè)類(lèi)的top-K自信樣本。然后,我們定義了一個(gè)可學(xué)習(xí)的提示表示,該表示在選定的偽標(biāo)記樣本上進(jìn)行優(yōu)化。對(duì)于推理,我們只需將手工制作的提示替換為優(yōu)化的提示表示。
我們的UPL旨在避免提示工程,并以無(wú)監(jiān)督的方式提高視覺(jué)語(yǔ)言模型的遷移性能。圖2顯示了概覽。UPL主要由偽標(biāo)簽生成和提示表示優(yōu)化兩個(gè)模塊組成。在第一步中,我們利用預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型(例如CLIP)為目標(biāo)數(shù)據(jù)集中未標(biāo)記的圖像生成偽標(biāo)簽。通過(guò)觀(guān)察發(fā)現(xiàn):1)置信度得分與偽標(biāo)簽準(zhǔn)確率的相關(guān)性較低;2)視覺(jué)語(yǔ)言模型的每類(lèi)精度有偏差,因此我們?yōu)槊總€(gè)類(lèi)選擇top-K的置信樣本,而不是保留置信分?jǐn)?shù)高于預(yù)定義閾值的所有樣本,用于隨后的提示表示優(yōu)化。在第二步中,我們定義了一個(gè)可學(xué)習(xí)的提示表示,其靈感來(lái)自CoOp (Zhou et al . 2021)。提示表示在所有類(lèi)別之間共享,并在使用生成的偽標(biāo)簽選擇的未標(biāo)記樣本上進(jìn)行優(yōu)化。在傳輸階段,我們簡(jiǎn)單地用優(yōu)化的提示表示替換手工制作的提示,并使用CLIP推理管道進(jìn)行圖像識(shí)別。
偽標(biāo)簽生成
CLIP推理
CLIP在大規(guī)模圖像-文本對(duì)上進(jìn)行預(yù)訓(xùn)練,以便在公共嵌入空間中將圖像與原始文本對(duì)齊。我們首先回顧C(jī)LIP的推論。給定包含C類(lèi)的目標(biāo)數(shù)據(jù)集,CLIP將提示(例如“一張[CLS]1的照片”)轉(zhuǎn)換為小寫(xiě)字節(jié)對(duì)編碼(BPE)表示(Sennrich, Haddow和Birch 2015),隨后將其輸入CLIP的文本編碼器以生成每個(gè)類(lèi)別的類(lèi)嵌入。我們用表示類(lèi)嵌入的集合,其中表示第c類(lèi)的類(lèi)嵌入。同時(shí),對(duì)于圖像,我們使用圖像表示CLIP圖像編碼器提取的視覺(jué)特征。則為c類(lèi)的概率計(jì)算為:
式中τ為CLIP學(xué)習(xí)到的溫度參數(shù),<·;·>為余弦相似度。我們可以很容易地識(shí)別預(yù)測(cè)通過(guò):
me:挑選這個(gè)image與所有class text中概率最大的一個(gè)。
偽標(biāo)簽生成
給定一個(gè)預(yù)訓(xùn)練的CLIP,我們可以使用Eq.1和Eq.2為來(lái)自目標(biāo)數(shù)據(jù)集的未標(biāo)記樣本生成偽標(biāo)簽。自監(jiān)督訓(xùn)練和半監(jiān)督學(xué)習(xí)方法通常保留分?jǐn)?shù)高于預(yù)定義的優(yōu)化閾值的可信樣本。然而,我們發(fā)現(xiàn)直接將該策略應(yīng)用于CLIP是不平凡的。原因有兩方面:
?我們觀(guān)察到CLIP在轉(zhuǎn)移到下游圖像識(shí)別任務(wù)時(shí)表現(xiàn)出對(duì)不同類(lèi)別的偏好偏差,這主要是由預(yù)訓(xùn)練數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集之間的域差距引起的。圖3說(shuō)明了這種現(xiàn)象。使用固定的預(yù)定義閾值來(lái)過(guò)濾掉不可信的樣本會(huì)導(dǎo)致偽標(biāo)記數(shù)據(jù)分布不平衡,這進(jìn)一步阻礙了優(yōu)化。
圖3:UCF-101數(shù)據(jù)集上兩種偽標(biāo)注策略的分析。我們觀(guān)察到CLIP在遷移學(xué)習(xí)中表現(xiàn)出對(duì)不同類(lèi)別的偏見(jiàn)偏好。經(jīng)典的自我訓(xùn)練預(yù)先定義了一個(gè)閾值來(lái)選擇高概率的樣本,導(dǎo)致偽標(biāo)記數(shù)據(jù)的分布不平衡(橙色和綠色的線(xiàn))。我們主張每個(gè)類(lèi)選擇top-K個(gè)可信樣本,生成一組平衡的偽標(biāo)記數(shù)據(jù)進(jìn)行自我訓(xùn)練(藍(lán)線(xiàn))。
?自我訓(xùn)練認(rèn)為置信度(概率)可以很好地反映偽標(biāo)簽和的資格,并且一個(gè)定義好的閾值(例如0.9)可用于選擇高質(zhì)量的樣本。然而,我們觀(guān)察到CLIP中置信度得分與偽標(biāo)簽準(zhǔn)確率之間的相關(guān)性相對(duì)較弱,如圖4所示。
圖4:我們?cè)赨CF-101數(shù)據(jù)集上選擇每個(gè)類(lèi)的前16個(gè)可信樣本,并計(jì)算每個(gè)類(lèi)的平均概率和偽標(biāo)簽精度。我們觀(guān)察到概率(置信度)不能完全反映偽標(biāo)簽的質(zhì)量。具有低平均概率的類(lèi)別有可能具有準(zhǔn)確的偽標(biāo)簽。
因此,我們主張通過(guò)Eq. 1和Eq. 2為每個(gè)類(lèi)選擇top-K的置信樣本進(jìn)行后續(xù)優(yōu)化。這可以防止某些類(lèi)別的大量樣本在訓(xùn)練期間壓倒模型。我們實(shí)驗(yàn)設(shè)K = 16。
偽標(biāo)簽集合
CLIP提供了一系列的視覺(jué)模型,包括ResNet-50, ResNet-101, ResNet50x4, ResNet-50x16, ResNet-50x64, VIT-B/32, VIT-B/16和VIT-L/14。我們觀(guān)察到,具有不同視覺(jué)體系結(jié)構(gòu)的CLIP模型具有偏向的分類(lèi)精度,如圖5所示?;谶@一發(fā)現(xiàn),我們提出了一種簡(jiǎn)單的偽標(biāo)簽集成策略來(lái)進(jìn)一步提高偽標(biāo)簽的質(zhì)量。特別地,給定具有不同視覺(jué)架構(gòu)的M個(gè)CLIP模型,我們利用Eq.1獲得由第M個(gè)CLIP模型預(yù)測(cè)的概率,然后將最終概率簡(jiǎn)單地平均為。類(lèi)似地,可以在上應(yīng)用公式2來(lái)生成增強(qiáng)的偽標(biāo)簽。一旦過(guò)程完成,我們使用偽標(biāo)記數(shù)據(jù)進(jìn)行無(wú)監(jiān)督提示表示優(yōu)化。
圖5:具有不同視覺(jué)編碼器的CLIP模型對(duì)不同的類(lèi)有偏好。我們?cè)赨CF-101數(shù)據(jù)集上研究了這一現(xiàn)象。我們比較了三種CLIP模型,即ResNet-50、ResNet-50x64和ViT-L/14,并計(jì)算了每個(gè)模型的分類(lèi)偽標(biāo)簽精度。我們顯示了ResNet-50x64和ResNet-50之間的精度差距(藍(lán)線(xiàn)),以及ViTL/14和ResNet-50之間的精度差距(橙線(xiàn))。
提示表示優(yōu)化
原始CLIP定義了各種提示模板,例如:“一個(gè)[CLS]的照片”用于遷移學(xué)習(xí)。然而,識(shí)別正確的提示并非易事,因?yàn)樗ǔP枰I(lǐng)域知識(shí)和費(fèi)力的提示工程。提示符的微小變化可能導(dǎo)致性能的巨大差異。CoOp (Zhou et al . 2021)提出通過(guò)優(yōu)化一小組標(biāo)記數(shù)據(jù)上的連續(xù)提示表示來(lái)避免手工制作提示設(shè)計(jì)。我們的UPL類(lèi)似于CoOp,但是,我們的方法不需要對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行任何注釋。
可學(xué)習(xí)的提示表示
我們的目標(biāo)是學(xué)習(xí)偽標(biāo)記數(shù)據(jù)的提示表示,以提高CLIP的傳輸性能。形式上,我們定義了可學(xué)習(xí)的提示表示,其中D表示詞嵌入的維度(CLIP為512),L是一個(gè)超參數(shù),默認(rèn)設(shè)置為16。給定一個(gè)包含C類(lèi)的目標(biāo)數(shù)據(jù)集,我們定義類(lèi)c(1≤c≤C)的連續(xù)提示符為:
其中表示類(lèi)c的固定詞嵌入。注意所有類(lèi)共享相同的提示表示V。訓(xùn)練非常簡(jiǎn)單,如圖2(右部分)所示。對(duì)于每個(gè)偽標(biāo)記圖像,我們通過(guò)將輸入圖像饋送到CLIP的視覺(jué)編碼器來(lái)提取其視覺(jué)特征;同時(shí),通過(guò)將輸入CLIP的文本編碼器g(·),可以生成類(lèi)嵌入。第c類(lèi)的概率計(jì)算為
推理
一旦完成對(duì)提示表示V的優(yōu)化,給定目標(biāo)數(shù)據(jù)集,我們將輸入CLIP的文本編碼器以生成所有類(lèi)別的類(lèi)嵌入。對(duì)于測(cè)試圖像,我們簡(jiǎn)單地將其輸入CLIP的圖像編碼器以提取其視覺(jué)特征,并應(yīng)用公式4來(lái)計(jì)算圖像識(shí)別的概率。
提示表示合奏
原始CLIP定義了許多提示符來(lái)增強(qiáng)其傳輸性能,啟發(fā)我們學(xué)習(xí)具有不同初始化的多提示表示。具體來(lái)說(shuō),我們獨(dú)立地優(yōu)化了N個(gè)隨機(jī)初始化的提示表示。在推理階段,我們計(jì)算所有提示表示預(yù)測(cè)的概率,并將平均概率作為最終預(yù)測(cè)。
實(shí)驗(yàn)
實(shí)現(xiàn)細(xì)節(jié)
視覺(jué)語(yǔ)言模型
我們使用CLIP (Radford等 2021)作為我們預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型。使用ResNet-50 (He et al 2016)對(duì)CLIP應(yīng)用UPL作為我們的基線(xiàn)。如圖5所示,我們觀(guān)察到具有不同視覺(jué)編碼器的CLIP模型對(duì)不同的類(lèi)別具有偏好。因此,我們提出了一個(gè)名為UPL*的增強(qiáng)版本,它利用具有各種視覺(jué)架構(gòu)的額外CLIP模型,包括ResNet-101、ResNet50x4、ResNet50x16、ResNet50x64、ViTB/ 32、ViTB/16和vitl /14 (Dosovitskiy et al 2020),以提高偽標(biāo)簽的質(zhì)量。請(qǐng)注意,這些額外的模型僅用于偽標(biāo)記,UPL*仍然使用與UPL相同的網(wǎng)絡(luò)架構(gòu)(帶有ResNet-50的CLIP)。
偽標(biāo)簽生成
CLIP設(shè)計(jì)了一系列用于推理的提示模板,例如,為ImageNet手工制作的80個(gè)提示。使用CLIP提供的所有提示來(lái)生成偽標(biāo)簽可能違背了我們避免費(fèi)力的提示工程的愿望。因此,我們只使用最簡(jiǎn)單的提示符來(lái)生成偽標(biāo)簽。例如,我們采用在ImageNet上推廣“一張[CLS]的照片”。關(guān)于偽標(biāo)簽生成中使用的提示模板的更多細(xì)節(jié),請(qǐng)參考補(bǔ)充材料。除非另有說(shuō)明,否則我們選擇每個(gè)類(lèi)的前16個(gè)可信樣本來(lái)優(yōu)化提示表示。
可學(xué)習(xí)的提示表示
通過(guò)從標(biāo)準(zhǔn)差等于0.02的零均值高斯分布中隨機(jī)初始化提示表示。我們?cè)贓q.3中默認(rèn)設(shè)置長(zhǎng)度L = 16。在系統(tǒng)級(jí)與先前的方法比較中,我們使用16個(gè)提示表示來(lái)進(jìn)行集成。除非特別說(shuō)明,對(duì)于所有消融研究,我們使用單一提示表示效率。
訓(xùn)練的細(xì)節(jié)
我們使用初始學(xué)習(xí)率為0.002的SGD和余弦衰減學(xué)習(xí)率調(diào)度器進(jìn)行優(yōu)化。我們?yōu)樗袛?shù)據(jù)集和批處理訓(xùn)練50個(gè)epoch并且batch設(shè)置為32。我們?cè)诘谝粋€(gè)epoch用固定的學(xué)習(xí)率1e-5來(lái)預(yù)熱訓(xùn)練。
數(shù)據(jù)集
繼CLIP (Radford等人2021)和CoOp (Zhou等人2021)之后,我們使用了11個(gè)公開(kāi)可用的圖像分類(lèi)數(shù)據(jù)集,包括ImageNet (Deng等人2009)、Caltech101 (Fei-Fei, Fergus, and Perona 2004)、DTD (Cimpoi等人2014)、EuroSAT (Helber等人2019)、FGVCAircraft (Maji等人2013)、Food101 (Bossard, Guillaumin, and Van Gool 2014)、Flowers102 (nil 2008)、OxfordPets (Parkhi等人2012)、SUN397 (Xiao等人2010)、StandfordCars (Krause等人2013)和UCF101 (Soomro, Zamir, 2014)。and Shah 2012)。這些數(shù)據(jù)集涵蓋了各種不同的視覺(jué)分類(lèi)任務(wù),如一般對(duì)象、細(xì)粒度甚至紋理分類(lèi),構(gòu)成了一個(gè)全面的基準(zhǔn)。
主要結(jié)果
表1報(bào)告了11個(gè)數(shù)據(jù)集的主要結(jié)果。我們將我們的方法與:1)原始CLIP與即時(shí)工程進(jìn)行比較;2)有監(jiān)督方法,包括CoOp (Zhou et al . 2021)和Tip-Adapter (Zhang et al . 2021年)。原始CLIP定義了許多提示模板(例如ImageNet的80)來(lái)提高傳輸性能。我們的UPL不僅避免了這種快速工程,而且比CLIP平均精度高出+4:2點(diǎn)。我們的UPL*涉及不同的CLIP模型進(jìn)行偽標(biāo)記,同時(shí)使用具有ResNet-50的單個(gè)CLIP進(jìn)行推理,進(jìn)一步將平均準(zhǔn)確率提高到68:37。與監(jiān)督方法相比,UPL優(yōu)于2-shot CoOp,并且UPL*在大多數(shù)數(shù)據(jù)集(ImageNet, Caltech101, EuroSAT, Food101, OxfordPets, SUN397和StandfordCars)上與8-shot CoOp和8-shot Tip-Adapter具有競(jìng)爭(zhēng)力。
表1:UPL和UPL*在11個(gè)數(shù)據(jù)集上的主要結(jié)果。我們將我們的無(wú)監(jiān)督方法與:1)原始CLIP與即時(shí)工程(Radford et al 2021)進(jìn)行比較;2)監(jiān)督方法,包括CoOp (Zhou et al . 2021)和Tip-Adapter (Zhang et al . 2021a)。UPL和UPL*都提高了原始CLIP的性能,并及時(shí)進(jìn)行工程設(shè)計(jì)。UPL優(yōu)于2-shot CoOp。UPL*在大多數(shù)數(shù)據(jù)集上與8-shot CoOp和8-shot Tip-Adapter競(jìng)爭(zhēng)。
消融實(shí)驗(yàn)
不同的偽標(biāo)簽策略
傳統(tǒng)的自訓(xùn)練和半監(jiān)督學(xué)習(xí)方法通常選擇置信度分?jǐn)?shù)高于預(yù)定義閾值的未標(biāo)記樣本作為偽標(biāo)記數(shù)據(jù)。在這里,我們將我們提出的top-K偽標(biāo)記策略與表2中基于閾值的策略進(jìn)行比較。我們還在圖3中可視化了不同策略的偽標(biāo)簽準(zhǔn)確性和正確偽標(biāo)簽的數(shù)量。使用較高的閾值(0.9)會(huì)導(dǎo)致偽標(biāo)記數(shù)據(jù)分布不平衡,而較低的閾值(0.3)會(huì)引入過(guò)多的噪聲,從而干擾訓(xùn)練。相反,我們的默認(rèn)top-K偽標(biāo)記策略確保了偽標(biāo)記數(shù)據(jù)的平衡分布,并防止某些類(lèi)別的大量樣本在訓(xùn)練期間壓倒模型。
選擇Top-K自信樣本作為偽標(biāo)記數(shù)據(jù)
我們已經(jīng)證明了top-K偽標(biāo)記策略的優(yōu)越性,這里我們研究了每個(gè)類(lèi)應(yīng)該使用多少個(gè)偽標(biāo)記樣本(K)。具體地說(shuō),我們改變K的值(K = 2;4;8;16)用不同數(shù)量的偽標(biāo)記數(shù)據(jù)訓(xùn)練我們的UPL。結(jié)果如圖6所示。隨著偽標(biāo)記樣本的增加,性能也隨之提高。因此我們?cè)O(shè)K = 16。
偽標(biāo)簽集成
如圖5所示,具有各種視覺(jué)體系結(jié)構(gòu)的CLIP模型對(duì)不同的類(lèi)具有偏好。本文定量評(píng)價(jià)了使用不同CLIP模型進(jìn)行偽標(biāo)注的偽標(biāo)注精度和傳遞精度。表3顯示了結(jié)果。
表3:偽標(biāo)簽集成策略在UCF101和SUN397數(shù)據(jù)集上的消融研究。對(duì)于UPL*,我們使用不同的CLIP模型和不同的視覺(jué)編碼器來(lái)生成偽標(biāo)簽,并評(píng)估偽標(biāo)簽的準(zhǔn)確性和傳遞精度。注意,不同的CLIP模型只用于偽標(biāo)記,訓(xùn)練和推理仍然使用ResNet-50在CLIP上進(jìn)行。
提示符表示的長(zhǎng)度
我們研究了表4中提示表示的長(zhǎng)度L。
表4:研究提示表示長(zhǎng)度L對(duì)Caltech101、DTD和StandfordCars的影響。UPL對(duì)L的變化不太敏感。
提示學(xué)習(xí)表現(xiàn)集合
CLIP設(shè)計(jì)了一系列促進(jìn)遷移性能的提示模板,啟發(fā)我們?cè)谕评黼A段學(xué)習(xí)多提示表示并將其集成。本文研究了不同數(shù)量(N = 2;4;8;16)圖7a中的提示表示。我們發(fā)現(xiàn)當(dāng)N = 16時(shí),性能幾乎飽和。接下來(lái),我們研究了提示表示集合的有效性。具體來(lái)說(shuō),我們使用UCF101數(shù)據(jù)集上的UPL獨(dú)立優(yōu)化了三種提示表示(pr - 1,2和3)。對(duì)于三個(gè)學(xué)習(xí)良好的提示表示中的每一個(gè),我們計(jì)算UCF101測(cè)試集上的每類(lèi)精度。我們使用PR-1作為基線(xiàn),并計(jì)算與其余兩個(gè)(PR-2和PR-3)的每類(lèi)精度差異。結(jié)果如圖7b所示。盡管三種提示表征的總體準(zhǔn)確率幾乎相同(PR-1、pr - 2和pr - 3的準(zhǔn)確率分別為64.58、64.66和64.39),但每類(lèi)準(zhǔn)確率差異顯著。因此,提示表示集合促進(jìn)遷移。
對(duì)噪聲偽標(biāo)簽的魯棒性
偽標(biāo)簽在自我訓(xùn)練中扮演重要角色。偽標(biāo)記的關(guān)鍵原則是生成足夠數(shù)量和高質(zhì)量的偽標(biāo)記樣本。最近的一些作品(Hu et al 2021;Rizve等2021;Xu等人(2021a)探索了減少有噪聲偽標(biāo)簽負(fù)面影響的方向。如圖3a所示,CLIP的每類(lèi)精度有偏差,這表明CLIP預(yù)測(cè)的偽標(biāo)簽對(duì)于表現(xiàn)不佳的類(lèi)別是有噪聲的。很自然會(huì)提出一個(gè)問(wèn)題:每個(gè)類(lèi)的偽標(biāo)簽準(zhǔn)確性和每個(gè)類(lèi)的傳輸準(zhǔn)確性之間是否存在任何對(duì)應(yīng)關(guān)系?為了回答這個(gè)問(wèn)題,我們對(duì)UCF101數(shù)據(jù)集進(jìn)行了以下計(jì)算:1)每個(gè)類(lèi)的偽標(biāo)簽精度;2)每類(lèi)傳遞改進(jìn)(UPL與原始CLIP之間的精度差異)。圖8顯示了結(jié)果。
圖8:我們?cè)赨CF101數(shù)據(jù)集上計(jì)算了每個(gè)類(lèi)的偽標(biāo)簽精度和每個(gè)類(lèi)的傳輸改進(jìn)。偽標(biāo)簽精度與傳遞精度之間沒(méi)有明顯的對(duì)應(yīng)關(guān)系。我們?nèi)匀豢吹竭@些具有低偽標(biāo)簽準(zhǔn)確性的類(lèi)的顯著傳輸改進(jìn),這表明我們的UPL對(duì)有噪聲的偽標(biāo)簽樣本具有魯棒性。
我們觀(guān)察到偽標(biāo)簽精度與傳遞精度之間不存在明顯的對(duì)應(yīng)關(guān)系。事實(shí)上,我們?nèi)匀挥^(guān)察到一些具有低偽標(biāo)簽準(zhǔn)確性的類(lèi)別的顯著傳輸改進(jìn),這表明我們的UPL對(duì)偽標(biāo)簽噪聲具有魯棒性。由于所有類(lèi)共享相同的提示表示(參見(jiàn)Eq. 3),提示表示在所有類(lèi)的偽標(biāo)記樣本上進(jìn)行優(yōu)化。雖然在某些類(lèi)別中存在噪聲偽標(biāo)簽,但我們?nèi)匀豢梢栽诖罅亢细竦膫螛?biāo)簽樣本上優(yōu)化一個(gè)有利的共享提示表示。
結(jié)論
在本文中,我們提出了一個(gè)無(wú)監(jiān)督提示學(xué)習(xí)(UPL)框架,以避免耗時(shí)的提示工程,同時(shí)促進(jìn)CLIP的遷移性能。與之前的監(jiān)督方法(如CoOp、CLIP-Adapter和TIP-Adapter)相比,我們的UPL是第一個(gè)無(wú)監(jiān)督框架,可以更好地將預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型適應(yīng)下游圖像識(shí)別任務(wù)。我們?cè)贗mageNet和10個(gè)廣泛使用的圖像分類(lèi)數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn)。我們的UPL在Imagenet和其他10個(gè)數(shù)據(jù)集上的快速工程優(yōu)于原始CLIP。此外,我們的無(wú)監(jiān)督方法在11個(gè)數(shù)據(jù)集的平均精度方面也優(yōu)于2-shot CoOp,并且UPL的改進(jìn)版本甚至可以與8-shotCoOp和8-shot Tip-Adapter在大多數(shù)數(shù)據(jù)集上競(jìng)爭(zhēng)。
參考資料
論文下載(2022 年)
https://arxiv.org/abs/2204.03649
文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-856450.html
代碼地址
GitHub - tonyhuang2022/UPL: This repo is the official implementation of UPL (Unsupervised Prompt Learning for Vision-Language Models).文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-856450.html
到了這里,關(guān)于論文解讀:(UPL)Unsupervised Prompt Learning for Vision-Language Models的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!