国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文解讀:(UPL)Unsupervised Prompt Learning for Vision-Language Models

這篇具有很好參考價(jià)值的文章主要介紹了論文解讀:(UPL)Unsupervised Prompt Learning for Vision-Language Models。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

文章匯總

存在的問(wèn)題

之前的來(lái)自目標(biāo)數(shù)據(jù)集的標(biāo)記數(shù)據(jù)(有監(jiān)督學(xué)習(xí))可能會(huì)限制可伸縮性。

動(dòng)機(jī)

通過(guò)無(wú)監(jiān)督提示學(xué)習(xí)(UPL)方法,以避免提示工程,同時(shí)提高類(lèi)clip視覺(jué)語(yǔ)言模型的遷移性能。

方法解讀

主張top-k而不是top-p

注:top-k是指挑選概率最大的k個(gè),top-p是指挑選預(yù)測(cè)概率大于p的那些數(shù)據(jù)

論文解讀:(UPL)Unsupervised Prompt Learning for Vision-Language Models,人工智能,深度學(xué)習(xí),多模態(tài)少樣本學(xué)習(xí),prompt

看圖說(shuō)話(huà):

對(duì)于a圖,橫坐標(biāo)為每種類(lèi)別(類(lèi)別id編號(hào)從0-40),Top-k(k=16)指挑選預(yù)測(cè)概率從大到小的前16名,綠線(xiàn)top-p(p=0.3)指挑選預(yù)測(cè)概率大于0.3的數(shù)據(jù),指定注意的是,在黃線(xiàn)top-p(p=0.9)中我們發(fā)現(xiàn),無(wú)法從CLass ID從0-17的數(shù)據(jù)中挑選出預(yù)測(cè)概率大于0.9的數(shù)據(jù)(因此黃色那部分的值為0),這也說(shuō)明Top-p在實(shí)際應(yīng)用中的不現(xiàn)實(shí)性。

對(duì)于b圖,縱坐標(biāo)是挑選的偽標(biāo)簽實(shí)際正確的數(shù)量,可以看到top-p(p=0.3,0.9)對(duì)于不同的Class ID上下波動(dòng)得十分大。

因此,作者認(rèn)為CLIP中置信度得分與偽標(biāo)簽準(zhǔn)確率之間的相關(guān)性相對(duì)較弱,主張通過(guò)Eq. 1和Eq. 2(Clip中的公式)為每個(gè)類(lèi)選擇top-K的置信樣本進(jìn)行后續(xù)優(yōu)化。

論文解讀:(UPL)Unsupervised Prompt Learning for Vision-Language Models,人工智能,深度學(xué)習(xí),多模態(tài)少樣本學(xué)習(xí),prompt

偽標(biāo)簽集合

論文解讀:(UPL)Unsupervised Prompt Learning for Vision-Language Models,人工智能,深度學(xué)習(xí),多模態(tài)少樣本學(xué)習(xí),prompt

不同的視覺(jué)模型對(duì)每個(gè)類(lèi)別的預(yù)測(cè)效果不同,比如ViT-L/14對(duì)CLass ID為0,1,5這些類(lèi)別的數(shù)據(jù)預(yù)測(cè)的最準(zhǔn),所以這里作者為了減弱不同的視覺(jué)模型對(duì)每個(gè)類(lèi)別的“敏感度”,選擇取平均(很暴力的手法,O(∩_∩)O哈哈~)

第i個(gè)樣本的概率,其中第M個(gè)CLIP模型預(yù)測(cè)的概率。

所以我們從實(shí)驗(yàn)中可以看到作者使用了各種視覺(jué)架構(gòu)的額外CLIP模型,包括ResNet-101、ResNet50x4、ResNet50x16、ResNet50x64、ViTB/ 32、ViTB/16和vitl /14 (Dosovitskiy et al 2020),以提高偽標(biāo)簽的質(zhì)量。

流程解讀

論文解讀:(UPL)Unsupervised Prompt Learning for Vision-Language Models,人工智能,深度學(xué)習(xí),多模態(tài)少樣本學(xué)習(xí),prompt

偽標(biāo)簽生成階段

使用多個(gè)視覺(jué)模型CLip來(lái)進(jìn)行對(duì)比學(xué)習(xí),按照top-k策略挑選偽標(biāo)簽。

提示表示優(yōu)化階段

這個(gè)階段就是clip進(jìn)行對(duì)比學(xué)習(xí)的訓(xùn)練,只是輸入數(shù)據(jù)有所不同。

圖片數(shù)據(jù),從上一階段獲得,但標(biāo)簽為偽標(biāo)簽。

文本數(shù)據(jù),為(me:是所有類(lèi)別的文本提示Token,接著預(yù)測(cè)時(shí)看看要預(yù)測(cè)的圖片與哪個(gè)
相似度最高)。,其中,是這塊結(jié)點(diǎn)需要學(xué)習(xí)的參數(shù),稱(chēng)為可學(xué)習(xí)的提示表示,表示類(lèi)c的固定詞嵌入。值得注意的是,類(lèi)別中的是共享的,所以也可以看到
無(wú)關(guān)。流程圖上也體現(xiàn)了這點(diǎn)。

模型的推理(即預(yù)測(cè)階段)

直接用clip模型來(lái)推理,其實(shí)與提示表示優(yōu)化階段相同,只是無(wú)需再訓(xùn)練了。

直接拿訓(xùn)練好的且每個(gè)類(lèi)別共享的再加上為文本輸入數(shù)據(jù),最終組成(me:是所有類(lèi)別的文本提示Token,接著預(yù)測(cè)時(shí)看看要預(yù)測(cè)的圖片與哪個(gè)相似度最高)。

要預(yù)測(cè)的圖片直接作為為圖片數(shù)據(jù)。

摘要

像CLIP這樣的對(duì)比視覺(jué)語(yǔ)言模型在遷移學(xué)習(xí)方面已經(jīng)取得了很大的進(jìn)展。在推理階段,需要精心設(shè)計(jì)適當(dāng)?shù)奈谋久枋?,也稱(chēng)為提示,以正確分類(lèi)給定的圖像。為了避免費(fèi)力的提示工程,最近的工作,如CoOp, CLIP-Adapter和Tip-Adapter提出了適應(yīng)視覺(jué)語(yǔ)言模型的下游圖像識(shí)別任務(wù)在一小組標(biāo)記數(shù)據(jù)上。雖然實(shí)現(xiàn)了有希望的改進(jìn),但要求來(lái)自目標(biāo)數(shù)據(jù)集的標(biāo)記數(shù)據(jù)可能會(huì)限制可伸縮性。在本文中,我們探索了一種不同的場(chǎng)景,其中目標(biāo)數(shù)據(jù)集的標(biāo)簽沒(méi)有提供,我們提出了一種無(wú)監(jiān)督提示學(xué)習(xí)(UPL)方法,以避免提示工程,同時(shí)提高類(lèi)clip視覺(jué)語(yǔ)言模型的遷移性能。據(jù)我們所知,UPL是第一個(gè)將無(wú)監(jiān)督學(xué)習(xí)引入提示學(xué)習(xí)的工作。實(shí)驗(yàn)表明,我們的UPL在ImageNet和其他10個(gè)數(shù)據(jù)集上的快速工程優(yōu)于原始CLIP。在大多數(shù)數(shù)據(jù)集上,UPL的增強(qiáng)版本甚至可以與8-shot CoOp和8-shot TIPAdapter競(jìng)爭(zhēng)。代碼和模型可在GitHub - tonyhuang2022/UPL: This repo is the official implementation of UPL (Unsupervised Prompt Learning for Vision-Language Models).上獲得。

介紹

最近,CLIP (Radford et al . 2021)、ALIGN (Jia et al . 2021)和FLIP (Yao et al . 2021)等視覺(jué)語(yǔ)言模型在視覺(jué)表征學(xué)習(xí)和遷移學(xué)習(xí)方面取得了可喜的進(jìn)展。與傳統(tǒng)的視覺(jué)框架相比,視覺(jué)語(yǔ)言模型使用雙塔架構(gòu)(通常由圖像編碼器和文本編碼器組成)在大規(guī)模圖像-文本對(duì)上進(jìn)行訓(xùn)練,以在共享嵌入空間中將圖像與原始文本對(duì)齊。將井優(yōu)化模型轉(zhuǎn)移到下游任務(wù)(Radford et al 2021;Jia等2021;Yao等2021;Yuan等2021;Gu等2021;Du et al . 2022;Xu et al . 2021b),需要仔細(xì)設(shè)計(jì)合適的文本描述,稱(chēng)為提示符,以正確分類(lèi)目標(biāo)圖像。例如,CLIP中使用的提示模板之一是“一個(gè)[CLS]的照片”(圖1a)。然而,識(shí)別正確的提示并非易事,這通常需要領(lǐng)域知識(shí)和費(fèi)力的提示工程。

論文解讀:(UPL)Unsupervised Prompt Learning for Vision-Language Models,人工智能,深度學(xué)習(xí),多模態(tài)少樣本學(xué)習(xí),prompt

圖1:(a)預(yù)訓(xùn)練CLIP的推斷。(b) CoOp、CLIP- adapter和Tip-Adapter等現(xiàn)有方法使用目標(biāo)數(shù)據(jù)集中的一小組標(biāo)記圖像,使預(yù)訓(xùn)練的CLIP適應(yīng)下游任務(wù)。(c)我們的UPL對(duì)來(lái)自目標(biāo)數(shù)據(jù)集的未標(biāo)記圖像進(jìn)行快速學(xué)習(xí)。

為了避免手工制作的提示設(shè)計(jì)并提高傳輸性能,一些監(jiān)督方法,例如CoOp (Zhou等人2021),CLIP-Adapter (Gao等人2021)和TipAdapter (Zhang等人2021a)提出使用目標(biāo)數(shù)據(jù)集中的一小組標(biāo)記圖像來(lái)調(diào)整視覺(jué)語(yǔ)言模型以用于下游圖像識(shí)別任務(wù),如圖1b所示。CoOp學(xué)習(xí)一個(gè)連續(xù)的提示表示來(lái)代替手工制作的提示;CLIP-Adapter采用附加網(wǎng)絡(luò)學(xué)習(xí)精細(xì)特征;TIP-Adapter進(jìn)一步擴(kuò)展了CLIP-Adapter,從少量監(jiān)督構(gòu)造一個(gè)查詢(xún)鍵緩存模型。然而,所有這些方法都需要來(lái)自目標(biāo)數(shù)據(jù)集的帶注釋的樣本,這可能會(huì)限制它們的擴(kuò)展能力。在本文中,我們研究了一種不提供目標(biāo)數(shù)據(jù)集標(biāo)簽的不同設(shè)置,并提出了一種無(wú)監(jiān)督提示學(xué)習(xí)(UPL)框架,以有效地適應(yīng)下游圖像識(shí)別任務(wù)的視覺(jué)語(yǔ)言模型,同時(shí)避免了繁瑣的提示設(shè)計(jì)。圖1c顯示了該示例。

具體而言,UPL首先利用預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型(如CLIP)為目標(biāo)圖像生成偽標(biāo)簽,然后對(duì)所選的偽標(biāo)簽樣本進(jìn)行自訓(xùn)練以?xún)?yōu)化可學(xué)習(xí)的提示表示。通過(guò)簡(jiǎn)單地用優(yōu)化的提示表示替換手工制作的提示,CLIP的泛化性能可以得到顯著改善。與基于閾值的自訓(xùn)練方法相比,我們根據(jù)觀(guān)察結(jié)果選擇每個(gè)類(lèi)的top-K自信樣本進(jìn)行自訓(xùn)練:1)視覺(jué)語(yǔ)言模型對(duì)不同的類(lèi)有偏偏好,使用預(yù)定義的閾值過(guò)濾掉不自信樣本導(dǎo)致偽數(shù)據(jù)分布不平衡;2)置信度得分與偽標(biāo)簽準(zhǔn)確率之間沒(méi)有明顯的相關(guān)性,這說(shuō)明置信度得分可能不是反映偽標(biāo)簽質(zhì)量的可靠指標(biāo)。雖然可能同時(shí)引入有噪聲的偽標(biāo)簽,但我們通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)我們的方法對(duì)噪聲具有魯棒性,因?yàn)樗蓄?lèi)都使用相同的提示表示。受CLIP提出的提示集成策略的啟發(fā),我們引入了偽標(biāo)簽集成和提示表示集成來(lái)進(jìn)一步推廣我們的方法。我們的貢獻(xiàn)可以總結(jié)如下:

?我們提出了一個(gè)無(wú)監(jiān)督提示學(xué)習(xí)(UPL)框架,以避免耗時(shí)的提示工程,并更好地適應(yīng)視覺(jué)語(yǔ)言模型(例如CLIP)用于下游圖像識(shí)別任務(wù)。據(jù)我們所知,UPL是第一個(gè)將無(wú)監(jiān)督學(xué)習(xí)引入到視覺(jué)語(yǔ)言模型的提示學(xué)習(xí)中的工作。

?我們深入分析了CLIP偽標(biāo)注的特點(diǎn)。在此基礎(chǔ)上,我們提出了top-K偽標(biāo)簽策略、偽標(biāo)簽集成和提示表示集成等一系列技術(shù)來(lái)提高遷移性能。

?我們的UPL在ImageNet和其他10個(gè)圖像分類(lèi)數(shù)據(jù)集上的快速工程顯著優(yōu)于原始CLIP。在大多數(shù)數(shù)據(jù)集上,UPL的增強(qiáng)版本甚至可以與監(jiān)督方法(如8-shot CoOp和8-shot TIPAdapter)競(jìng)爭(zhēng)。

相關(guān)工作

視覺(jué)語(yǔ)言模型

大規(guī)模圖像-文本對(duì)預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型在視覺(jué)表征學(xué)習(xí)中顯示出巨大的潛力。CLIP (Radford等人2021)創(chuàng)建了一個(gè)4億個(gè)數(shù)據(jù)集,ALIGN (Jia等人2021)利用了18億個(gè)帶噪聲的圖像-文本對(duì),F(xiàn)LIP (Yao等人2021)收集了一組3億對(duì)數(shù)據(jù)用于細(xì)粒度的視覺(jué)語(yǔ)言預(yù)訓(xùn)練,Wukong (Gu等人2022)提出了一個(gè)包含1億個(gè)數(shù)據(jù)的大規(guī)模中文跨模態(tài)數(shù)據(jù)集,用于對(duì)不同的多模態(tài)預(yù)訓(xùn)練方法進(jìn)行基準(zhǔn)測(cè)試。和Florence (Yuan et al . 2021)構(gòu)建了一個(gè)名為FLD-900M的9億圖像文本對(duì)數(shù)據(jù)集,并在44個(gè)代表性基準(zhǔn)中的大多數(shù)中獲得了新的最先進(jìn)的結(jié)果。這些視覺(jué)語(yǔ)言模型都使用雙塔架構(gòu),包括帶有ResNet的視覺(jué)(圖像)編碼器(He et al . 2016), ViT (Dosovitskiy et al . 2020)或Swin Transformer (Liu et al . 2021),以及帶有標(biāo)準(zhǔn)Transformer的語(yǔ)言(文本)編碼器(Vaswani et al . 2017)。

為了將圖像與嵌入空間中的原始文本對(duì)齊,采用了文本到圖像和圖像到文本的對(duì)比學(xué)習(xí)(Van den Oord, Li, and Vinyals 2018)。與自監(jiān)督預(yù)訓(xùn)練方法相比(Grill等人2020;Chen et al . 2020;他等人2020;Chen and He 2021)對(duì)于視覺(jué)表示學(xué)習(xí),視覺(jué)語(yǔ)言模型具有圖像識(shí)別的固有遷移能力。此外,代表性框架CLIP已經(jīng)適應(yīng)了一系列視覺(jué)任務(wù),如物體檢測(cè)(Gu et al 2021;Du等人2022),語(yǔ)義分割(Xu等人2021b),動(dòng)作識(shí)別(Wang, Xing, and Liu 2021),視頻剪輯檢索(Luo等人2021),視頻字幕(Tang等人2021)和3D識(shí)別(Zhang等人2021b)。

提示學(xué)習(xí)

預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型使用提示(例如,“一張[CLS]的照片”)來(lái)生成用于圖像識(shí)別的類(lèi)嵌入。識(shí)別正確的提示是非常重要的,這通常需要花費(fèi)大量的時(shí)間進(jìn)行提示工程。受到NLP中提示學(xué)習(xí)進(jìn)展的啟發(fā)(Zhong, Friedman, and Chen 2021;李梁2021;萊斯特,Al-Rfou和Constant 2021;Shin et al . 2020;Jiang et al . 2020), CoOp (Zhou et al . 2021)提出了一種持續(xù)提示優(yōu)化策略,以避免提示設(shè)計(jì)。CLIP-Adapter (Gao et al . 2021)訓(xùn)練額外的適配器網(wǎng)絡(luò),將文本特征和圖像特征映射到新的嵌入空間,以更好地適應(yīng)目標(biāo)數(shù)據(jù)集。Tip-Adapter (Zhang et al . 2021a)進(jìn)一步擴(kuò)展了CLIP-Adapter,通過(guò)從少量訓(xùn)練集構(gòu)建的鍵值緩存模型來(lái)創(chuàng)建權(quán)重。然而,所有這些方法都依賴(lài)于少量標(biāo)記數(shù)據(jù),這可能會(huì)限制它們的擴(kuò)展能力。相比之下,我們提出的UPL提高了預(yù)訓(xùn)練視覺(jué)語(yǔ)言模型的傳輸性能,同時(shí)不需要對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行注釋。

自監(jiān)督訓(xùn)練

自我訓(xùn)練(斯卡德?tīng)?965;Yarowsky 1995;Riloff 1996)是一種簡(jiǎn)單的半監(jiān)督學(xué)習(xí)方法。在這個(gè)范例中,訓(xùn)練良好的模型首先在未標(biāo)記的數(shù)據(jù)集上生成偽標(biāo)簽,然后通過(guò)使用標(biāo)記數(shù)據(jù)和偽標(biāo)記數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)。最近,自我訓(xùn)練在深度學(xué)習(xí)方面取得了重大進(jìn)展,例如圖像分類(lèi)(Yalniz et al 2019;Xie et al . 2020),目標(biāo)檢測(cè)(Xu et al . 2021a;Sohn et al . 2020),語(yǔ)義分割(Hu et al . 2021),語(yǔ)音識(shí)別(Kahn, Lee, and Hannun 2020;Parthasarathi and Strom 2019),動(dòng)作識(shí)別(Xu et al 2021c)和機(jī)器翻譯(He et al 2019)。視覺(jué)語(yǔ)言模型通常在大規(guī)模的圖像-文本對(duì)(例如CLIP的4億數(shù)據(jù))上進(jìn)行預(yù)訓(xùn)練,并通過(guò)提示顯示出有希望的傳輸性能。我們提出的UPL為目標(biāo)數(shù)據(jù)集生成偽標(biāo)簽,并通過(guò)精心設(shè)計(jì)的自我訓(xùn)練方法優(yōu)化連續(xù)提示表示。這種處理大大提高了傳輸性能。與傳統(tǒng)的自我訓(xùn)練相比,UPL只優(yōu)化連續(xù)的提示表示,同時(shí)保持整個(gè)網(wǎng)絡(luò)(即圖像編碼器和文本編碼器)固定。據(jù)我們所知,UPL是第一個(gè)將自我訓(xùn)練引入視覺(jué)語(yǔ)言模型快速學(xué)習(xí)的工作。

方法

在本節(jié)中,我們將介紹用于視覺(jué)語(yǔ)言模型的無(wú)監(jiān)督提示學(xué)習(xí)(UPL)框架,特別是用于CLIP (Radford et al . 2021)。UPL的目標(biāo)是避免費(fèi)力的提示工程,同時(shí)提高預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型的遷移性能。與先前的監(jiān)督方法不同(Zhou et al . 2021;Gao等人2021;Zhang et al . 2021a), UPL不需要對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行任何注釋。在本節(jié)中,我們首先概述我們的UPL。接下來(lái),我們介紹了為目標(biāo)圖像生成偽標(biāo)簽的處理。最后,描述了通過(guò)精心設(shè)計(jì)的自我訓(xùn)練方法進(jìn)行提示表示優(yōu)化的細(xì)節(jié)。

UPL概述

論文解讀:(UPL)Unsupervised Prompt Learning for Vision-Language Models,人工智能,深度學(xué)習(xí),多模態(tài)少樣本學(xué)習(xí),prompt

圖2:提出的無(wú)監(jiān)督提示學(xué)習(xí)(UPL)框架的概述。我們的UPL主要包含兩個(gè)部分,即偽標(biāo)簽生成和提示表示優(yōu)化。我們首先使用CLIP和一個(gè)簡(jiǎn)單的提示(例如,“一張[CLS]的照片”)來(lái)為目標(biāo)數(shù)據(jù)集生成偽標(biāo)簽,并為后續(xù)訓(xùn)練選擇每個(gè)類(lèi)的top-K自信樣本。然后,我們定義了一個(gè)可學(xué)習(xí)的提示表示,該表示在選定的偽標(biāo)記樣本上進(jìn)行優(yōu)化。對(duì)于推理,我們只需將手工制作的提示替換為優(yōu)化的提示表示。

我們的UPL旨在避免提示工程,并以無(wú)監(jiān)督的方式提高視覺(jué)語(yǔ)言模型的遷移性能。圖2顯示了概覽。UPL主要由偽標(biāo)簽生成和提示表示優(yōu)化兩個(gè)模塊組成。在第一步中,我們利用預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型(例如CLIP)為目標(biāo)數(shù)據(jù)集中未標(biāo)記的圖像生成偽標(biāo)簽。通過(guò)觀(guān)察發(fā)現(xiàn):1)置信度得分與偽標(biāo)簽準(zhǔn)確率的相關(guān)性較低;2)視覺(jué)語(yǔ)言模型的每類(lèi)精度有偏差,因此我們?yōu)槊總€(gè)類(lèi)選擇top-K的置信樣本,而不是保留置信分?jǐn)?shù)高于預(yù)定義閾值的所有樣本,用于隨后的提示表示優(yōu)化。在第二步中,我們定義了一個(gè)可學(xué)習(xí)的提示表示,其靈感來(lái)自CoOp (Zhou et al . 2021)。提示表示在所有類(lèi)別之間共享,并在使用生成的偽標(biāo)簽選擇的未標(biāo)記樣本上進(jìn)行優(yōu)化。在傳輸階段,我們簡(jiǎn)單地用優(yōu)化的提示表示替換手工制作的提示,并使用CLIP推理管道進(jìn)行圖像識(shí)別。

偽標(biāo)簽生成

CLIP推理

CLIP在大規(guī)模圖像-文本對(duì)上進(jìn)行預(yù)訓(xùn)練,以便在公共嵌入空間中將圖像與原始文本對(duì)齊。我們首先回顧C(jī)LIP的推論。給定包含C類(lèi)的目標(biāo)數(shù)據(jù)集,CLIP將提示(例如“一張[CLS]1的照片”)轉(zhuǎn)換為小寫(xiě)字節(jié)對(duì)編碼(BPE)表示(Sennrich, Haddow和Birch 2015),隨后將其輸入CLIP的文本編碼器以生成每個(gè)類(lèi)別的類(lèi)嵌入。我們用表示類(lèi)嵌入的集合,其中表示第c類(lèi)的類(lèi)嵌入。同時(shí),對(duì)于圖像,我們使用圖像表示CLIP圖像編碼器提取的視覺(jué)特征。則為c類(lèi)的概率計(jì)算為:

論文解讀:(UPL)Unsupervised Prompt Learning for Vision-Language Models,人工智能,深度學(xué)習(xí),多模態(tài)少樣本學(xué)習(xí),prompt

式中τ為CLIP學(xué)習(xí)到的溫度參數(shù),<·;·>為余弦相似度。我們可以很容易地識(shí)別預(yù)測(cè)通過(guò):

me:挑選這個(gè)image與所有class text中概率最大的一個(gè)。

論文解讀:(UPL)Unsupervised Prompt Learning for Vision-Language Models,人工智能,深度學(xué)習(xí),多模態(tài)少樣本學(xué)習(xí),prompt

偽標(biāo)簽生成

給定一個(gè)預(yù)訓(xùn)練的CLIP,我們可以使用Eq.1和Eq.2為來(lái)自目標(biāo)數(shù)據(jù)集的未標(biāo)記樣本生成偽標(biāo)簽。自監(jiān)督訓(xùn)練和半監(jiān)督學(xué)習(xí)方法通常保留分?jǐn)?shù)高于預(yù)定義的優(yōu)化閾值的可信樣本。然而,我們發(fā)現(xiàn)直接將該策略應(yīng)用于CLIP是不平凡的。原因有兩方面:

?我們觀(guān)察到CLIP在轉(zhuǎn)移到下游圖像識(shí)別任務(wù)時(shí)表現(xiàn)出對(duì)不同類(lèi)別的偏好偏差,這主要是由預(yù)訓(xùn)練數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集之間的域差距引起的。圖3說(shuō)明了這種現(xiàn)象。使用固定的預(yù)定義閾值來(lái)過(guò)濾掉不可信的樣本會(huì)導(dǎo)致偽標(biāo)記數(shù)據(jù)分布不平衡,這進(jìn)一步阻礙了優(yōu)化。

論文解讀:(UPL)Unsupervised Prompt Learning for Vision-Language Models,人工智能,深度學(xué)習(xí),多模態(tài)少樣本學(xué)習(xí),prompt

圖3:UCF-101數(shù)據(jù)集上兩種偽標(biāo)注策略的分析。我們觀(guān)察到CLIP在遷移學(xué)習(xí)中表現(xiàn)出對(duì)不同類(lèi)別的偏見(jiàn)偏好。經(jīng)典的自我訓(xùn)練預(yù)先定義了一個(gè)閾值來(lái)選擇高概率的樣本,導(dǎo)致偽標(biāo)記數(shù)據(jù)的分布不平衡(橙色和綠色的線(xiàn))。我們主張每個(gè)類(lèi)選擇top-K個(gè)可信樣本,生成一組平衡的偽標(biāo)記數(shù)據(jù)進(jìn)行自我訓(xùn)練(藍(lán)線(xiàn))

?自我訓(xùn)練認(rèn)為置信度(概率)可以很好地反映偽標(biāo)簽和的資格,并且一個(gè)定義好的閾值(例如0.9)可用于選擇高質(zhì)量的樣本。然而,我們觀(guān)察到CLIP中置信度得分與偽標(biāo)簽準(zhǔn)確率之間的相關(guān)性相對(duì)較弱,如圖4所示。

論文解讀:(UPL)Unsupervised Prompt Learning for Vision-Language Models,人工智能,深度學(xué)習(xí),多模態(tài)少樣本學(xué)習(xí),prompt

圖4:我們?cè)赨CF-101數(shù)據(jù)集上選擇每個(gè)類(lèi)的前16個(gè)可信樣本,并計(jì)算每個(gè)類(lèi)的平均概率和偽標(biāo)簽精度。我們觀(guān)察到概率(置信度)不能完全反映偽標(biāo)簽的質(zhì)量。具有低平均概率的類(lèi)別有可能具有準(zhǔn)確的偽標(biāo)簽。

因此,我們主張通過(guò)Eq. 1和Eq. 2為每個(gè)類(lèi)選擇top-K的置信樣本進(jìn)行后續(xù)優(yōu)化。這可以防止某些類(lèi)別的大量樣本在訓(xùn)練期間壓倒模型。我們實(shí)驗(yàn)設(shè)K = 16。

偽標(biāo)簽集合

CLIP提供了一系列的視覺(jué)模型,包括ResNet-50, ResNet-101, ResNet50x4, ResNet-50x16, ResNet-50x64, VIT-B/32, VIT-B/16和VIT-L/14。我們觀(guān)察到,具有不同視覺(jué)體系結(jié)構(gòu)的CLIP模型具有偏向的分類(lèi)精度,如圖5所示?;谶@一發(fā)現(xiàn),我們提出了一種簡(jiǎn)單的偽標(biāo)簽集成策略來(lái)進(jìn)一步提高偽標(biāo)簽的質(zhì)量。特別地,給定具有不同視覺(jué)架構(gòu)的M個(gè)CLIP模型,我們利用Eq.1獲得由第M個(gè)CLIP模型預(yù)測(cè)的概率,然后將最終概率簡(jiǎn)單地平均為。類(lèi)似地,可以在上應(yīng)用公式2來(lái)生成增強(qiáng)的偽標(biāo)簽。一旦過(guò)程完成,我們使用偽標(biāo)記數(shù)據(jù)進(jìn)行無(wú)監(jiān)督提示表示優(yōu)化。

論文解讀:(UPL)Unsupervised Prompt Learning for Vision-Language Models,人工智能,深度學(xué)習(xí),多模態(tài)少樣本學(xué)習(xí),prompt

圖5:具有不同視覺(jué)編碼器的CLIP模型對(duì)不同的類(lèi)有偏好。我們?cè)赨CF-101數(shù)據(jù)集上研究了這一現(xiàn)象。我們比較了三種CLIP模型,即ResNet-50、ResNet-50x64和ViT-L/14,并計(jì)算了每個(gè)模型的分類(lèi)偽標(biāo)簽精度。我們顯示了ResNet-50x64和ResNet-50之間的精度差距(藍(lán)線(xiàn)),以及ViTL/14和ResNet-50之間的精度差距(橙線(xiàn))。

提示表示優(yōu)化

原始CLIP定義了各種提示模板,例如:“一個(gè)[CLS]的照片”用于遷移學(xué)習(xí)。然而,識(shí)別正確的提示并非易事,因?yàn)樗ǔP枰I(lǐng)域知識(shí)和費(fèi)力的提示工程。提示符的微小變化可能導(dǎo)致性能的巨大差異。CoOp (Zhou et al . 2021)提出通過(guò)優(yōu)化一小組標(biāo)記數(shù)據(jù)上的連續(xù)提示表示來(lái)避免手工制作提示設(shè)計(jì)。我們的UPL類(lèi)似于CoOp,但是,我們的方法不需要對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行任何注釋。

可學(xué)習(xí)的提示表示

我們的目標(biāo)是學(xué)習(xí)偽標(biāo)記數(shù)據(jù)的提示表示,以提高CLIP的傳輸性能。形式上,我們定義了可學(xué)習(xí)的提示表示,其中D表示詞嵌入的維度(CLIP為512),L是一個(gè)超參數(shù),默認(rèn)設(shè)置為16。給定一個(gè)包含C類(lèi)的目標(biāo)數(shù)據(jù)集,我們定義類(lèi)c(1≤c≤C)的連續(xù)提示符論文解讀:(UPL)Unsupervised Prompt Learning for Vision-Language Models,人工智能,深度學(xué)習(xí),多模態(tài)少樣本學(xué)習(xí),prompt為:

論文解讀:(UPL)Unsupervised Prompt Learning for Vision-Language Models,人工智能,深度學(xué)習(xí),多模態(tài)少樣本學(xué)習(xí),prompt

其中表示類(lèi)c的固定詞嵌入。注意所有類(lèi)共享相同的提示表示V。訓(xùn)練非常簡(jiǎn)單,如圖2(右部分)所示。對(duì)于每個(gè)偽標(biāo)記圖像,我們通過(guò)將輸入圖像饋送到CLIP的視覺(jué)編碼器來(lái)提取其視覺(jué)特征;同時(shí),通過(guò)將輸入CLIP的文本編碼器g(·),可以生成類(lèi)嵌入。第c類(lèi)的概率計(jì)算為

論文解讀:(UPL)Unsupervised Prompt Learning for Vision-Language Models,人工智能,深度學(xué)習(xí),多模態(tài)少樣本學(xué)習(xí),prompt

推理

一旦完成對(duì)提示表示V的優(yōu)化,給定目標(biāo)數(shù)據(jù)集,我們將輸入CLIP的文本編碼器以生成所有類(lèi)別的類(lèi)嵌入。對(duì)于測(cè)試圖像,我們簡(jiǎn)單地將其輸入CLIP的圖像編碼器以提取其視覺(jué)特征,并應(yīng)用公式4來(lái)計(jì)算圖像識(shí)別的概率。

提示表示合奏

原始CLIP定義了許多提示符來(lái)增強(qiáng)其傳輸性能,啟發(fā)我們學(xué)習(xí)具有不同初始化的多提示表示。具體來(lái)說(shuō),我們獨(dú)立地優(yōu)化了N個(gè)隨機(jī)初始化的提示表示。在推理階段,我們計(jì)算所有提示表示預(yù)測(cè)的概率,并將平均概率作為最終預(yù)測(cè)。

實(shí)驗(yàn)

實(shí)現(xiàn)細(xì)節(jié)

視覺(jué)語(yǔ)言模型

我們使用CLIP (Radford等 2021)作為我們預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型。使用ResNet-50 (He et al 2016)對(duì)CLIP應(yīng)用UPL作為我們的基線(xiàn)。如圖5所示,我們觀(guān)察到具有不同視覺(jué)編碼器的CLIP模型對(duì)不同的類(lèi)別具有偏好。因此,我們提出了一個(gè)名為UPL*的增強(qiáng)版本,它利用具有各種視覺(jué)架構(gòu)的額外CLIP模型,包括ResNet-101、ResNet50x4、ResNet50x16、ResNet50x64、ViTB/ 32、ViTB/16和vitl /14 (Dosovitskiy et al 2020),以提高偽標(biāo)簽的質(zhì)量。請(qǐng)注意,這些額外的模型僅用于偽標(biāo)記,UPL*仍然使用與UPL相同的網(wǎng)絡(luò)架構(gòu)(帶有ResNet-50的CLIP)。

偽標(biāo)簽生成

CLIP設(shè)計(jì)了一系列用于推理的提示模板,例如,為ImageNet手工制作的80個(gè)提示。使用CLIP提供的所有提示來(lái)生成偽標(biāo)簽可能違背了我們避免費(fèi)力的提示工程的愿望。因此,我們只使用最簡(jiǎn)單的提示符來(lái)生成偽標(biāo)簽。例如,我們采用在ImageNet上推廣“一張[CLS]的照片”。關(guān)于偽標(biāo)簽生成中使用的提示模板的更多細(xì)節(jié),請(qǐng)參考補(bǔ)充材料。除非另有說(shuō)明,否則我們選擇每個(gè)類(lèi)的前16個(gè)可信樣本來(lái)優(yōu)化提示表示。

可學(xué)習(xí)的提示表示

通過(guò)從標(biāo)準(zhǔn)差等于0.02的零均值高斯分布中隨機(jī)初始化提示表示。我們?cè)贓q.3中默認(rèn)設(shè)置長(zhǎng)度L = 16。在系統(tǒng)級(jí)與先前的方法比較中,我們使用16個(gè)提示表示來(lái)進(jìn)行集成。除非特別說(shuō)明,對(duì)于所有消融研究,我們使用單一提示表示效率。

訓(xùn)練的細(xì)節(jié)

我們使用初始學(xué)習(xí)率為0.002的SGD和余弦衰減學(xué)習(xí)率調(diào)度器進(jìn)行優(yōu)化。我們?yōu)樗袛?shù)據(jù)集和批處理訓(xùn)練50個(gè)epoch并且batch設(shè)置為32。我們?cè)诘谝粋€(gè)epoch用固定的學(xué)習(xí)率1e-5來(lái)預(yù)熱訓(xùn)練。

數(shù)據(jù)集

繼CLIP (Radford等人2021)和CoOp (Zhou等人2021)之后,我們使用了11個(gè)公開(kāi)可用的圖像分類(lèi)數(shù)據(jù)集,包括ImageNet (Deng等人2009)、Caltech101 (Fei-Fei, Fergus, and Perona 2004)、DTD (Cimpoi等人2014)、EuroSAT (Helber等人2019)、FGVCAircraft (Maji等人2013)、Food101 (Bossard, Guillaumin, and Van Gool 2014)、Flowers102 (nil 2008)、OxfordPets (Parkhi等人2012)、SUN397 (Xiao等人2010)、StandfordCars (Krause等人2013)和UCF101 (Soomro, Zamir, 2014)。and Shah 2012)。這些數(shù)據(jù)集涵蓋了各種不同的視覺(jué)分類(lèi)任務(wù),如一般對(duì)象、細(xì)粒度甚至紋理分類(lèi),構(gòu)成了一個(gè)全面的基準(zhǔn)。

主要結(jié)果

表1報(bào)告了11個(gè)數(shù)據(jù)集的主要結(jié)果。我們將我們的方法與:1)原始CLIP與即時(shí)工程進(jìn)行比較;2)有監(jiān)督方法,包括CoOp (Zhou et al . 2021)和Tip-Adapter (Zhang et al . 2021年)。原始CLIP定義了許多提示模板(例如ImageNet的80)來(lái)提高傳輸性能。我們的UPL不僅避免了這種快速工程,而且比CLIP平均精度高出+4:2點(diǎn)。我們的UPL*涉及不同的CLIP模型進(jìn)行偽標(biāo)記,同時(shí)使用具有ResNet-50的單個(gè)CLIP進(jìn)行推理,進(jìn)一步將平均準(zhǔn)確率提高到68:37。與監(jiān)督方法相比,UPL優(yōu)于2-shot CoOp,并且UPL*在大多數(shù)數(shù)據(jù)集(ImageNet, Caltech101, EuroSAT, Food101, OxfordPets, SUN397和StandfordCars)上與8-shot CoOp和8-shot Tip-Adapter具有競(jìng)爭(zhēng)力。

論文解讀:(UPL)Unsupervised Prompt Learning for Vision-Language Models,人工智能,深度學(xué)習(xí),多模態(tài)少樣本學(xué)習(xí),prompt

表1:UPL和UPL*在11個(gè)數(shù)據(jù)集上的主要結(jié)果。我們將我們的無(wú)監(jiān)督方法與:1)原始CLIP與即時(shí)工程(Radford et al 2021)進(jìn)行比較;2)監(jiān)督方法,包括CoOp (Zhou et al . 2021)和Tip-Adapter (Zhang et al . 2021a)。UPL和UPL*都提高了原始CLIP的性能,并及時(shí)進(jìn)行工程設(shè)計(jì)。UPL優(yōu)于2-shot CoOp。UPL*在大多數(shù)數(shù)據(jù)集上與8-shot CoOp和8-shot Tip-Adapter競(jìng)爭(zhēng)。

消融實(shí)驗(yàn)

不同的偽標(biāo)簽策略

傳統(tǒng)的自訓(xùn)練和半監(jiān)督學(xué)習(xí)方法通常選擇置信度分?jǐn)?shù)高于預(yù)定義閾值的未標(biāo)記樣本作為偽標(biāo)記數(shù)據(jù)。在這里,我們將我們提出的top-K偽標(biāo)記策略與表2中基于閾值的策略進(jìn)行比較。我們還在圖3中可視化了不同策略的偽標(biāo)簽準(zhǔn)確性和正確偽標(biāo)簽的數(shù)量。使用較高的閾值(0.9)會(huì)導(dǎo)致偽標(biāo)記數(shù)據(jù)分布不平衡,而較低的閾值(0.3)會(huì)引入過(guò)多的噪聲,從而干擾訓(xùn)練。相反,我們的默認(rèn)top-K偽標(biāo)記策略確保了偽標(biāo)記數(shù)據(jù)的平衡分布,并防止某些類(lèi)別的大量樣本在訓(xùn)練期間壓倒模型。

選擇Top-K自信樣本作為偽標(biāo)記數(shù)據(jù)

我們已經(jīng)證明了top-K偽標(biāo)記策略的優(yōu)越性,這里我們研究了每個(gè)類(lèi)應(yīng)該使用多少個(gè)偽標(biāo)記樣本(K)。具體地說(shuō),我們改變K的值(K = 2;4;8;16)用不同數(shù)量的偽標(biāo)記數(shù)據(jù)訓(xùn)練我們的UPL。結(jié)果如圖6所示。隨著偽標(biāo)記樣本的增加,性能也隨之提高。因此我們?cè)O(shè)K = 16。

偽標(biāo)簽集成

如圖5所示,具有各種視覺(jué)體系結(jié)構(gòu)的CLIP模型對(duì)不同的類(lèi)具有偏好。本文定量評(píng)價(jià)了使用不同CLIP模型進(jìn)行偽標(biāo)注的偽標(biāo)注精度和傳遞精度。表3顯示了結(jié)果。

論文解讀:(UPL)Unsupervised Prompt Learning for Vision-Language Models,人工智能,深度學(xué)習(xí),多模態(tài)少樣本學(xué)習(xí),prompt

表3:偽標(biāo)簽集成策略在UCF101和SUN397數(shù)據(jù)集上的消融研究。對(duì)于UPL*,我們使用不同的CLIP模型和不同的視覺(jué)編碼器來(lái)生成偽標(biāo)簽,并評(píng)估偽標(biāo)簽的準(zhǔn)確性和傳遞精度。注意,不同的CLIP模型只用于偽標(biāo)記,訓(xùn)練和推理仍然使用ResNet-50在CLIP上進(jìn)行。

提示符表示的長(zhǎng)度

我們研究了表4中提示表示的長(zhǎng)度L。

論文解讀:(UPL)Unsupervised Prompt Learning for Vision-Language Models,人工智能,深度學(xué)習(xí),多模態(tài)少樣本學(xué)習(xí),prompt

表4:研究提示表示長(zhǎng)度L對(duì)Caltech101、DTD和StandfordCars的影響。UPL對(duì)L的變化不太敏感。

提示學(xué)習(xí)表現(xiàn)集合

CLIP設(shè)計(jì)了一系列促進(jìn)遷移性能的提示模板,啟發(fā)我們?cè)谕评黼A段學(xué)習(xí)多提示表示并將其集成。本文研究了不同數(shù)量(N = 2;4;8;16)圖7a中的提示表示。我們發(fā)現(xiàn)當(dāng)N = 16時(shí),性能幾乎飽和。接下來(lái),我們研究了提示表示集合的有效性。具體來(lái)說(shuō),我們使用UCF101數(shù)據(jù)集上的UPL獨(dú)立優(yōu)化了三種提示表示(pr - 1,2和3)。對(duì)于三個(gè)學(xué)習(xí)良好的提示表示中的每一個(gè),我們計(jì)算UCF101測(cè)試集上的每類(lèi)精度。我們使用PR-1作為基線(xiàn),并計(jì)算與其余兩個(gè)(PR-2和PR-3)的每類(lèi)精度差異。結(jié)果如圖7b所示。盡管三種提示表征的總體準(zhǔn)確率幾乎相同(PR-1、pr - 2和pr - 3的準(zhǔn)確率分別為64.58、64.66和64.39),但每類(lèi)準(zhǔn)確率差異顯著。因此,提示表示集合促進(jìn)遷移。

對(duì)噪聲偽標(biāo)簽的魯棒性

偽標(biāo)簽在自我訓(xùn)練中扮演重要角色。偽標(biāo)記的關(guān)鍵原則是生成足夠數(shù)量和高質(zhì)量的偽標(biāo)記樣本。最近的一些作品(Hu et al 2021;Rizve等2021;Xu等人(2021a)探索了減少有噪聲偽標(biāo)簽負(fù)面影響的方向。如圖3a所示,CLIP的每類(lèi)精度有偏差,這表明CLIP預(yù)測(cè)的偽標(biāo)簽對(duì)于表現(xiàn)不佳的類(lèi)別是有噪聲的。很自然會(huì)提出一個(gè)問(wèn)題:每個(gè)類(lèi)的偽標(biāo)簽準(zhǔn)確性和每個(gè)類(lèi)的傳輸準(zhǔn)確性之間是否存在任何對(duì)應(yīng)關(guān)系?為了回答這個(gè)問(wèn)題,我們對(duì)UCF101數(shù)據(jù)集進(jìn)行了以下計(jì)算:1)每個(gè)類(lèi)的偽標(biāo)簽精度;2)每類(lèi)傳遞改進(jìn)(UPL與原始CLIP之間的精度差異)。圖8顯示了結(jié)果。

論文解讀:(UPL)Unsupervised Prompt Learning for Vision-Language Models,人工智能,深度學(xué)習(xí),多模態(tài)少樣本學(xué)習(xí),prompt

圖8:我們?cè)赨CF101數(shù)據(jù)集上計(jì)算了每個(gè)類(lèi)的偽標(biāo)簽精度和每個(gè)類(lèi)的傳輸改進(jìn)。偽標(biāo)簽精度與傳遞精度之間沒(méi)有明顯的對(duì)應(yīng)關(guān)系。我們?nèi)匀豢吹竭@些具有低偽標(biāo)簽準(zhǔn)確性的類(lèi)的顯著傳輸改進(jìn),這表明我們的UPL對(duì)有噪聲的偽標(biāo)簽樣本具有魯棒性。

我們觀(guān)察到偽標(biāo)簽精度與傳遞精度之間不存在明顯的對(duì)應(yīng)關(guān)系。事實(shí)上,我們?nèi)匀挥^(guān)察到一些具有低偽標(biāo)簽準(zhǔn)確性的類(lèi)別的顯著傳輸改進(jìn),這表明我們的UPL對(duì)偽標(biāo)簽噪聲具有魯棒性。由于所有類(lèi)共享相同的提示表示(參見(jiàn)Eq. 3),提示表示在所有類(lèi)的偽標(biāo)記樣本上進(jìn)行優(yōu)化。雖然在某些類(lèi)別中存在噪聲偽標(biāo)簽,但我們?nèi)匀豢梢栽诖罅亢细竦膫螛?biāo)簽樣本上優(yōu)化一個(gè)有利的共享提示表示。

結(jié)論

在本文中,我們提出了一個(gè)無(wú)監(jiān)督提示學(xué)習(xí)(UPL)框架,以避免耗時(shí)的提示工程,同時(shí)促進(jìn)CLIP的遷移性能。與之前的監(jiān)督方法(如CoOp、CLIP-Adapter和TIP-Adapter)相比,我們的UPL是第一個(gè)無(wú)監(jiān)督框架,可以更好地將預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型適應(yīng)下游圖像識(shí)別任務(wù)。我們?cè)贗mageNet和10個(gè)廣泛使用的圖像分類(lèi)數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn)。我們的UPL在Imagenet和其他10個(gè)數(shù)據(jù)集上的快速工程優(yōu)于原始CLIP。此外,我們的無(wú)監(jiān)督方法在11個(gè)數(shù)據(jù)集的平均精度方面也優(yōu)于2-shot CoOp,并且UPL的改進(jìn)版本甚至可以與8-shotCoOp和8-shot Tip-Adapter在大多數(shù)數(shù)據(jù)集上競(jìng)爭(zhēng)。

參考資料

論文下載(2022 年)

https://arxiv.org/abs/2204.03649

論文解讀:(UPL)Unsupervised Prompt Learning for Vision-Language Models,人工智能,深度學(xué)習(xí),多模態(tài)少樣本學(xué)習(xí),prompt

代碼地址

GitHub - tonyhuang2022/UPL: This repo is the official implementation of UPL (Unsupervised Prompt Learning for Vision-Language Models).文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-856450.html

到了這里,關(guān)于論文解讀:(UPL)Unsupervised Prompt Learning for Vision-Language Models的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀(guān)點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 論文筆記 | PromptCast: A New Prompt-based Learning Paradigm for Time Series Forecasting

    論文筆記 | PromptCast: A New Prompt-based Learning Paradigm for Time Series Forecasting

    這篇論文的核心思想就是把原始的時(shí)序數(shù)據(jù)轉(zhuǎn)換成文本提示,對(duì)大模型進(jìn)行微調(diào),通過(guò)對(duì)話(huà)的方式進(jìn)行預(yù)測(cè)。 筆者是根據(jù)原文逐一翻譯并閱讀,文章可能有點(diǎn)長(zhǎng),有需要的可以直接看對(duì)應(yīng)部分。這也是筆者第一次分享論文筆記,有不好的地方還請(qǐng)讀者多見(jiàn)諒。 Paper:https://

    2024年04月25日
    瀏覽(26)
  • 論文閱讀《Vision-Language Pre-Training with Triple Contrastive Learning》

    論文閱讀《Vision-Language Pre-Training with Triple Contrastive Learning》

    本文是2022年CVPR上的一篇 多模態(tài) 論文,利用對(duì)比學(xué)習(xí)和動(dòng)量來(lái)進(jìn)行圖片與文本信息的上游預(yù)訓(xùn)練。 作者提出問(wèn)題 簡(jiǎn)單的跨模態(tài)比對(duì)模型無(wú)法確保來(lái)自同一模態(tài)的相似輸入保持相似。(模態(tài)內(nèi)部語(yǔ)義信息損失) 全局互信息最大化的操作沒(méi)有考慮局部信息和結(jié)構(gòu)信息。 對(duì)于上

    2024年04月13日
    瀏覽(28)
  • Unsupervised Learning of Monocular Depth Estimation and Visual Odometry 論文閱讀

    Unsupervised Learning of Monocular Depth Estimation and Visual Odometry 論文閱讀

    論文鏈接 Unsupervised Learning of Monocular Depth Estimation and Visual Odometry with Deep Feature Reconstruction 0. Abstract 盡管基于學(xué)習(xí)的方法在單視圖深度估計(jì)和視覺(jué)里程計(jì)方面顯示出有希望的結(jié)果,但大多數(shù)現(xiàn)有方法以監(jiān)督方式處理任務(wù)。最近的單視圖深度估計(jì)方法探索了通過(guò)最小化光度誤差在

    2024年03月10日
    瀏覽(43)
  • GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose 論文閱讀

    GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose 論文閱讀

    題目 :GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose 作者 :Zhichao Yin and Jianping Shi 來(lái)源 :CVPR 時(shí)間 :2018 我們提出了 GeoNet,這是一種聯(lián)合無(wú)監(jiān)督學(xué)習(xí)框架,用于視頻中的單目深度、光流和自我運(yùn)動(dòng)估計(jì)。 這三個(gè)組件通過(guò) 3D 場(chǎng)景幾何的性質(zhì)耦合在一起,由我們的框

    2024年02月09日
    瀏覽(23)
  • 【GPT-2】論文解讀:Language Models are Unsupervised Multitask Learners

    【GPT-2】論文解讀:Language Models are Unsupervised Multitask Learners

    論文:Language Models are Unsupervised Multitask Learners 作者:Alec Radford, Jeff Wu, Rewon Child, D. Luan, Dario Amodei, I. Sutskever 時(shí)間:2019 GPT-2 是一個(gè)有15億參數(shù)的模型,GPT-2的想法是轉(zhuǎn)向一個(gè)通用的系統(tǒng),不需要進(jìn)行數(shù)據(jù)集的標(biāo)注就可以執(zhí)行許多的任務(wù); 因?yàn)閿?shù)據(jù)集的創(chuàng)建是很難的,我們很難

    2024年02月22日
    瀏覽(20)
  • ChatGPT2論文解讀《Language Models are Unsupervised Multitask Learners》(2019)

    以下是我閱讀完整篇論文做的個(gè)人總結(jié),包含了ChatGPT-2文章的主要內(nèi)容,可以?xún)H看【論文總結(jié)】章節(jié)。 數(shù)據(jù)集 自制了一個(gè)網(wǎng)頁(yè)爬蟲(chóng),被抓取的網(wǎng)頁(yè)部分來(lái)自于社交平臺(tái),這些網(wǎng)頁(yè)由人工進(jìn)行過(guò)濾。最終生成 WebText數(shù)據(jù)集 ,包含45000000個(gè)鏈接。另一部分來(lái)自于新聞網(wǎng)站,數(shù)據(jù)截

    2024年02月08日
    瀏覽(28)
  • 論文解讀《Learning Deep Network for Detecting 3D Object Keypoints and 6D Poses》 無(wú)需位姿標(biāo)注的model-free 6D位姿估計(jì)

    論文解讀《Learning Deep Network for Detecting 3D Object Keypoints and 6D Poses》 無(wú)需位姿標(biāo)注的model-free 6D位姿估計(jì)

    論文:《Learning Deep Network for Detecting 3D Object Keypoints and 6D Poses》 摘要: 解決問(wèn)題:標(biāo)注困難且沒(méi)有CAD模型。 開(kāi)發(fā)了一種基于關(guān)鍵點(diǎn)的6D對(duì)象姿態(tài)檢測(cè)方法,Object Keypoint based POSe Estimation (OK-POSE)。通過(guò)使用大量具有多視點(diǎn)之間的 相對(duì)變換信息 的圖像對(duì)(相對(duì)變換信息可以很容

    2024年02月04日
    瀏覽(19)
  • Spectral Adversarial MixUp for Few-Shot Unsupervised Domain Adaptation論文速讀

    Spectral Adversarial MixUp for Few-Shot Unsupervised Domain Adaptation論文速讀

    域偏移是臨床應(yīng)用中的常見(jiàn)問(wèn)題,其中訓(xùn)練圖像(源域)和測(cè)試圖像(目標(biāo)域)處于不同的分布下。已經(jīng)提出了無(wú)監(jiān)督域適應(yīng) (UDA) 技術(shù),以使在源域中訓(xùn)練的模型適應(yīng)目標(biāo)域。但是,這些方法需要來(lái)自目標(biāo)域的大量圖像進(jìn)行模型訓(xùn)練。 本文提出了一種新的少樣本無(wú)監(jiān)督域

    2024年04月28日
    瀏覽(39)
  • Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models ----論文閱讀

    Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models ----論文閱讀

    Vary 的代碼和模型均已開(kāi)源,還給出了供大家試玩的網(wǎng)頁(yè) demo。感興趣的小伙伴可以去試試 主頁(yè):https://varybase.github.io/ 部分內(nèi)容參考:https://mp.weixin.qq.com/s/Sg_yHAVVN-yAYT61SNKvCA 官網(wǎng):https://openai.com/research/clip (要了解的建議看這個(gè),篇幅少點(diǎn),論文中大量篇幅是介紹實(shí)驗(yàn)的) 論

    2024年02月03日
    瀏覽(18)
  • 論文精讀:Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

    論文精讀:Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

    Status: Reading Author: Chunrui Han, Haoran Wei, Jianjian Sun, Jinrong Yang, Jinyue Chen, Liang Zhao, Lingyu Kong, Xiangyu Zhang, Zheng Ge Institution: 中國(guó)科學(xué)院大學(xué), 華中科技大學(xué), 曠視科技(MEGVII Technology) Publisher: arXiv Publishing/Release Date: December 11, 2023 Score /5: ?????? Type: Paper Link: https://arxiv.org/abs/

    2024年02月01日
    瀏覽(28)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包