iclr 2024 spotlight? reviewer 評(píng)分 6668
1 intro
- 在CV領(lǐng)域,很多Vision-language Model 會(huì)把來(lái)自圖像的Embedding輸入給LLM,并讓LLM作為Decoder輸出文字、類別、檢測(cè)框等
- 但是在這些模型中,LLM并不會(huì)直接處理來(lái)自圖像的Token,需要和語(yǔ)言進(jìn)行交互才可以
- ——>論文探索的是:LLMs能否有效地直接處理完全基于視覺的任務(wù),而不依賴于語(yǔ)言?(即LLM直接作為Encoder)
- 和現(xiàn)有Vision-language Models的區(qū)別
- 現(xiàn)有vision-language model研究如何把視覺embedding輸入給LLM(把視覺表征在語(yǔ)言空間對(duì)齊)
- 論文研究聚焦如何提供更好的embedding
-
LLM中的凍結(jié)Transformer塊在許多不同模態(tài)、任務(wù)的Encoder上都有用
- 2D語(yǔ)義:圖像分類 (image classification)
- 點(diǎn)云:點(diǎn)云分類 (point cloud classification)
- 視頻:動(dòng)作識(shí)別 (action recognition)
- 無(wú)語(yǔ)義,回歸任務(wù):軌跡預(yù)測(cè) (motion forecasting)
- 2D多模態(tài):2D VQA和圖像搜索 (2D VQA and Retrieval)
- 3D多模態(tài):3D VQA
2 方法
2.1 與視覺語(yǔ)言模型的比較?
- 論文提出的方法乍一看似乎與最近的視覺語(yǔ)言模型(VLMs)相似,其中線性層直接將視覺特征投影到LLMs的輸入空間中。
- 然而,論文提出的方法是不同的,因?yàn)?span style="color:#956fe7;">線性層不一定將視覺表示z對(duì)齊到語(yǔ)言空間中。(也不是將視覺embedding輸入給LLM)
- 具體而言,這體現(xiàn)在三個(gè)方面:
- (1)視覺預(yù)訓(xùn)練的獨(dú)立性。論文提出的方法支持從頭開始訓(xùn)練,不依賴于像CLIP這樣的預(yù)訓(xùn)練視覺編碼器。
- (2)語(yǔ)言的獨(dú)立性。論文提出的方法可以在沒有基于語(yǔ)言的輸入或提示的情況下運(yùn)行,并且它適用于一般的視覺表示學(xué)習(xí),而不僅僅是視覺語(yǔ)言任務(wù)。
- (3)轉(zhuǎn)換塊的獨(dú)立性。以前的VM將LLM視為一個(gè)連貫的模塊,而我們的框架將每個(gè)Transformer塊分離為一個(gè)獨(dú)立的視覺編碼層
2.2 與LLMs的比較。
- 由于視覺和文本數(shù)據(jù)之間的不同格式,論文大大改變了LLM Transformer的行為。
- (1)注意力掩碼。LLMs通常利用自回歸掩碼來(lái)模擬文本生成的順序。
- 然而,視覺數(shù)據(jù)中的標(biāo)記一次性出現(xiàn),例如貓的圖像標(biāo)記。
- ——>論文放棄自回歸注意力掩碼,僅使用注意力掩碼來(lái)指示填充標(biāo)記。
- (2)位置嵌入。LLMs中的位置嵌入,例如LLaMA中的旋轉(zhuǎn)位置嵌入,不是視覺編碼器的常見選項(xiàng)。
- ——>為簡(jiǎn)單起見和與原始視覺骨干的一致性而刪除LLMs的位置嵌入。
- (1)注意力掩碼。LLMs通常利用自回歸掩碼來(lái)模擬文本生成的順序。
- 該改進(jìn)對(duì)視覺任務(wù)仍然產(chǎn)生了積極影響。
3 實(shí)驗(yàn)
3.1 圖像分類
ViT模型的準(zhǔn)確性在合并凍結(jié)的LLaMA Transformer塊后持續(xù)提高
3.2 點(diǎn)云識(shí)別
3.3 動(dòng)作識(shí)別
3.4 姿勢(shì)預(yù)測(cè)
3.5 2D VQA & 3D VQA
3.6 LLM transformer 層 的影響
- 層的類型顯著改變了性能。
- 這些實(shí)驗(yàn)還驗(yàn)證了我們的框架適用于各種LLM和Transformer層,并強(qiáng)調(diào)選擇適當(dāng)?shù)腡ransformer層的重要性。
- 盡管它們可能不是最佳的,但最后的LLM層始終改善了性能
3.7?只有足夠大的LLM才有提升Visual Encoding的效果
4 信息過(guò)濾假設(shè)
作者認(rèn)為:“如果把加了LLM的提升都?xì)w結(jié)于"LLM包含了可以泛化的知識(shí)",其實(shí)比較偷懶而且不一定正確”
- 預(yù)訓(xùn)練的LLM Transformer 作為“過(guò)濾器”發(fā)揮作用
- 區(qū)分信息標(biāo)記并放大它們對(duì)預(yù)測(cè)的貢獻(xiàn)
- 放大激活特征的幅度或頻率的形式
- 【LLM Transformer模塊能夠在訓(xùn)練的過(guò)程中篩選和目標(biāo)任務(wù)相關(guān)的Visual Tokens并且放大他們的貢獻(xiàn)?!?/em>
4.1 定性推導(dǎo)
4.1.1?有意義信息標(biāo)記的顯著集中?
- 假設(shè)源于在增加預(yù)訓(xùn)練LLM Transformer后特征激活高亮展示了有意義的信息標(biāo)記
- 提取每個(gè)層后的特征激活信息
- 特征激活是根據(jù)幅度(中心化后的L2范數(shù))和頻率(傅里葉變換后的角度的L2范數(shù))計(jì)算的
- ——>在添加LLM transformer后,標(biāo)記激活更好地捕捉到目標(biāo)對(duì)象的區(qū)域
4.1.2?嘈雜的注意力分?jǐn)?shù)
- 與特征激活相比,注意力分?jǐn)?shù)很難捕捉到預(yù)測(cè)所需的相關(guān)視覺標(biāo)記
- 調(diào)查了CLS標(biāo)記(classification)和最后一個(gè)transformer塊中視覺標(biāo)記之間的注意力分?jǐn)?shù)
- 有監(jiān)督的 ViT 模型通常具有嘈雜的注意力分?jǐn)?shù)
- 盡管 ViT-LLaMA 展示了一些注意力頭中偶爾有分割能力,但大多數(shù)注意力分?jǐn)?shù)也受到散射和嘈雜的影響
- ——>LLM transformer 的好處不能簡(jiǎn)單地歸因于注意力分?jǐn)?shù),因?yàn)樽⒁饬Ψ謹(jǐn)?shù)無(wú)法可靠地貢獻(xiàn)正確的視覺標(biāo)記
4.2 定量證據(jù)
文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-850119.html
參考內(nèi)容:[ICLR 2024 (Spotlight)] LLM里的Transformer還可以這么用? - 知乎?【作者自己的sharing】文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-850119.html
到了這里,關(guān)于論文筆記:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!