国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文筆記:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS

這篇具有很好參考價(jià)值的文章主要介紹了論文筆記:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

iclr 2024 spotlight? reviewer 評(píng)分 6668

1 intro

  • 在CV領(lǐng)域,很多Vision-language Model 會(huì)把來(lái)自圖像的Embedding輸入給LLM,并讓LLM作為Decoder輸出文字、類別、檢測(cè)框等
    • 但是在這些模型中,LLM并不會(huì)直接處理來(lái)自圖像的Token,需要和語(yǔ)言進(jìn)行交互才可以
    • ——>論文探索的是:LLMs能否有效地直接處理完全基于視覺的任務(wù),而不依賴于語(yǔ)言?(即LLM直接作為Encoder
  • 和現(xiàn)有Vision-language Models的區(qū)別
    • 現(xiàn)有vision-language model研究如何把視覺embedding輸入給LLM(把視覺表征在語(yǔ)言空間對(duì)齊)
    • 論文研究聚焦如何提供更好的embedding
  • LLM中的凍結(jié)Transformer塊在許多不同模態(tài)、任務(wù)的Encoder上都有用

    • 2D語(yǔ)義:圖像分類 (image classification)
    • 點(diǎn)云:點(diǎn)云分類 (point cloud classification)
    • 視頻:動(dòng)作識(shí)別 (action recognition)
    • 無(wú)語(yǔ)義,回歸任務(wù):軌跡預(yù)測(cè) (motion forecasting)
    • 2D多模態(tài):2D VQA和圖像搜索 (2D VQA and Retrieval)
    • 3D多模態(tài):3D VQA

2 方法

論文筆記:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,論文筆記,論文閱讀,語(yǔ)言模型,人工智能

2.1 與視覺語(yǔ)言模型的比較?

  • 論文提出的方法乍一看似乎與最近的視覺語(yǔ)言模型(VLMs)相似,其中線性層直接將視覺特征投影到LLMs的輸入空間中。
    • 然而,論文提出的方法是不同的,因?yàn)?span style="color:#956fe7;">線性層不一定將視覺表示z對(duì)齊到語(yǔ)言空間中。(也不是將視覺embedding輸入給LLM)
    • 具體而言,這體現(xiàn)在三個(gè)方面:
      • (1)視覺預(yù)訓(xùn)練的獨(dú)立性。論文提出的方法支持從頭開始訓(xùn)練,不依賴于像CLIP這樣的預(yù)訓(xùn)練視覺編碼器。
      • (2)語(yǔ)言的獨(dú)立性。論文提出的方法可以在沒有基于語(yǔ)言的輸入或提示的情況下運(yùn)行,并且它適用于一般的視覺表示學(xué)習(xí),而不僅僅是視覺語(yǔ)言任務(wù)。
      • (3)轉(zhuǎn)換塊的獨(dú)立性。以前的VM將LLM視為一個(gè)連貫的模塊,而我們的框架將每個(gè)Transformer塊分離為一個(gè)獨(dú)立的視覺編碼層

2.2 與LLMs的比較。

  • 由于視覺和文本數(shù)據(jù)之間的不同格式,論文大大改變了LLM Transformer的行為。
    • (1)注意力掩碼。LLMs通常利用自回歸掩碼來(lái)模擬文本生成的順序。
      • 然而,視覺數(shù)據(jù)中的標(biāo)記一次性出現(xiàn),例如貓的圖像標(biāo)記。
      • ——>論文放棄自回歸注意力掩碼,僅使用注意力掩碼來(lái)指示填充標(biāo)記。
    • (2)位置嵌入。LLMs中的位置嵌入,例如LLaMA中的旋轉(zhuǎn)位置嵌入,不是視覺編碼器的常見選項(xiàng)。
      • ——>為簡(jiǎn)單起見和與原始視覺骨干的一致性而刪除LLMs的位置嵌入。
  • 該改進(jìn)對(duì)視覺任務(wù)仍然產(chǎn)生了積極影響。

3 實(shí)驗(yàn)

3.1 圖像分類

ViT模型的準(zhǔn)確性在合并凍結(jié)的LLaMA Transformer塊后持續(xù)提高

論文筆記:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,論文筆記,論文閱讀,語(yǔ)言模型,人工智能

3.2 點(diǎn)云識(shí)別

論文筆記:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,論文筆記,論文閱讀,語(yǔ)言模型,人工智能

3.3 動(dòng)作識(shí)別

論文筆記:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,論文筆記,論文閱讀,語(yǔ)言模型,人工智能

3.4 姿勢(shì)預(yù)測(cè)

論文筆記:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,論文筆記,論文閱讀,語(yǔ)言模型,人工智能

3.5 2D VQA & 3D VQA

論文筆記:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,論文筆記,論文閱讀,語(yǔ)言模型,人工智能

3.6 LLM transformer 層 的影響

  • 層的類型顯著改變了性能。
  • 這些實(shí)驗(yàn)還驗(yàn)證了我們的框架適用于各種LLM和Transformer層,并強(qiáng)調(diào)選擇適當(dāng)?shù)腡ransformer層的重要性。
  • 盡管它們可能不是最佳的,但最后的LLM層始終改善了性能

論文筆記:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,論文筆記,論文閱讀,語(yǔ)言模型,人工智能

3.7?只有足夠大的LLM才有提升Visual Encoding的效果

論文筆記:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,論文筆記,論文閱讀,語(yǔ)言模型,人工智能

4 信息過(guò)濾假設(shè)

作者認(rèn)為:“如果把加了LLM的提升都?xì)w結(jié)于"LLM包含了可以泛化的知識(shí)",其實(shí)比較偷懶而且不一定正確”

  • 預(yù)訓(xùn)練的LLM Transformer 作為“過(guò)濾器”發(fā)揮作用
    • 區(qū)分信息標(biāo)記并放大它們對(duì)預(yù)測(cè)的貢獻(xiàn)
    • 放大激活特征的幅度或頻率的形式
    • LLM Transformer模塊能夠在訓(xùn)練的過(guò)程中篩選和目標(biāo)任務(wù)相關(guān)的Visual Tokens并且放大他們的貢獻(xiàn)?!?/em>

4.1 定性推導(dǎo)

4.1.1?有意義信息標(biāo)記的顯著集中?

論文筆記:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,論文筆記,論文閱讀,語(yǔ)言模型,人工智能

  • 假設(shè)源于在增加預(yù)訓(xùn)練LLM Transformer后特征激活高亮展示了有意義的信息標(biāo)記
    • 提取每個(gè)層后的特征激活信息
    • 特征激活是根據(jù)幅度(中心化后的L2范數(shù))和頻率(傅里葉變換后的角度的L2范數(shù))計(jì)算的
  • ——>在添加LLM transformer后,標(biāo)記激活更好地捕捉到目標(biāo)對(duì)象的區(qū)域

4.1.2?嘈雜的注意力分?jǐn)?shù)

  • 與特征激活相比,注意力分?jǐn)?shù)很難捕捉到預(yù)測(cè)所需的相關(guān)視覺標(biāo)記
    • 調(diào)查了CLS標(biāo)記(classification)和最后一個(gè)transformer塊中視覺標(biāo)記之間的注意力分?jǐn)?shù)
    • 有監(jiān)督的 ViT 模型通常具有嘈雜的注意力分?jǐn)?shù)
    • 盡管 ViT-LLaMA 展示了一些注意力頭中偶爾有分割能力,但大多數(shù)注意力分?jǐn)?shù)也受到散射和嘈雜的影響
  • ——>LLM transformer 的好處不能簡(jiǎn)單地歸因于注意力分?jǐn)?shù),因?yàn)樽⒁饬Ψ謹(jǐn)?shù)無(wú)法可靠地貢獻(xiàn)正確的視覺標(biāo)記

4.2 定量證據(jù)

論文筆記:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,論文筆記,論文閱讀,語(yǔ)言模型,人工智能

參考內(nèi)容:[ICLR 2024 (Spotlight)] LLM里的Transformer還可以這么用? - 知乎?【作者自己的sharing】文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-850119.html

到了這里,關(guān)于論文筆記:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • [論文閱讀筆記] TRACE: A Comprehensive Benchmark for Continual Learning In Large Language Models

    [論文閱讀筆記] TRACE: A Comprehensive Benchmark for Continual Learning In Large Language Models

    TRACE: A Comprehensive Benchmark for Continual Learning In Large Language Models arXiv2023 復(fù)旦大學(xué) Benchmark、Continual Learing、LLMs 已經(jīng)對(duì)齊過(guò)的大模型 (Aligned LLMs )能力很強(qiáng),但持續(xù)學(xué)習(xí)能力缺乏關(guān)注; 目前CL的benchmark對(duì)于頂尖的LLMs來(lái)說(shuō)過(guò)于簡(jiǎn)單,并且在指令微調(diào)存在model的potential exposure。(這里的

    2024年01月18日
    瀏覽(31)
  • 【論文筆記】A Survey of Large Language Models in Medicine - Progress, Application, and Challenges

    【論文筆記】A Survey of Large Language Models in Medicine - Progress, Application, and Challenges

    將LLMs應(yīng)用于醫(yī)學(xué),以協(xié)助醫(yī)生和病人護(hù)理,成為人工智能和臨床醫(yī)學(xué)領(lǐng)域的一個(gè)有前景的研究方向。為此, 本綜述提供了醫(yī)學(xué)中LLMs當(dāng)前進(jìn)展、應(yīng)用和面臨挑戰(zhàn)的全面概述 。 具體來(lái)說(shuō),旨在回答以下問(wèn)題: 1)什么是LLMs,如何構(gòu)建醫(yī)學(xué)LLMs? 2)醫(yī)學(xué)LLMs的下游表現(xiàn)如何? 3)

    2024年02月03日
    瀏覽(36)
  • 【論文精讀】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    【論文精讀】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    自然語(yǔ)言處理(Natural Language Processing,NLP)領(lǐng)域內(nèi)的 預(yù)訓(xùn)練語(yǔ)言模型 ,包括基于RNN的ELMo和ULMFiT,基于Transformer的OpenAI GPT及Google BERT等。預(yù)訓(xùn)練語(yǔ)言模型的成功,證明了我們可以從海量的無(wú)標(biāo)注文本中學(xué)到潛在的語(yǔ)義信息,而無(wú)需為每一項(xiàng)下游NLP任務(wù)單獨(dú)標(biāo)注大量訓(xùn)練數(shù)據(jù)。

    2024年02月14日
    瀏覽(37)
  • X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks論文筆記

    X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks論文筆記

    Title:X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks Code CLIP這一類方法只能進(jìn)行圖片級(jí)別的視覺和文本對(duì)齊; 也有一些方法利用預(yù)訓(xùn)練的目標(biāo)檢測(cè)器進(jìn)行目標(biāo)級(jí)別的視覺和文本對(duì)齊,但是只能編碼目標(biāo)內(nèi)部的特征,無(wú)法有效表達(dá)多目標(biāo)上下文關(guān)聯(lián); 本文致力于進(jìn)行多粒度(

    2024年02月09日
    瀏覽(26)
  • 論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models

    論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models

    本文主要對(duì)2023一篇論文《Multimodal Chain-of-Thought Reasoning in Language Models》主要內(nèi)容進(jìn)行介紹。 大型語(yǔ)言模型(LLM)通過(guò)利用思想鏈(CoT)提示生成中間推理鏈作為推斷答案的基本原理,在復(fù)雜推理方面表現(xiàn)出了令人印象深刻的性能。然而,現(xiàn)有的CoT研究主要集中在語(yǔ)言模態(tài)上。

    2024年03月14日
    瀏覽(79)
  • Making Large Language Models Perform Better in Knowledge Graph Completion論文閱讀

    Making Large Language Models Perform Better in Knowledge Graph Completion論文閱讀

    原文鏈接: Making Large Language Models Perform Better in Knowledge Graph Completion 基于大語(yǔ)言模型(LLM)的知識(shí)圖補(bǔ)全(KGC) 旨在利用 LLM 預(yù)測(cè)知識(shí)圖譜中缺失的三元組 ,并豐富知識(shí)圖譜,使其成為更好的網(wǎng)絡(luò)基礎(chǔ)設(shè)施,這可以使許多基于網(wǎng)絡(luò)的自動(dòng)化服務(wù)受益。然而,基于LLM的KGC研究有

    2024年01月23日
    瀏覽(40)
  • 論文解讀: 2023-Lost in the Middle: How Language Models Use Long Contexts

    論文解讀: 2023-Lost in the Middle: How Language Models Use Long Contexts

    大模型使用的關(guān)鍵在于Prompt,然而大模型存在幻覺現(xiàn)象,如何減少這種現(xiàn)象的發(fā)生成為迫切解決的問(wèn)題。外部知識(shí)庫(kù)+LLM的方法可以緩解大模型幻覺,但是如何撰寫Prompt才能發(fā)揮LLM的性能。下面介紹這篇論文說(shuō)明上下文信息出現(xiàn)在Prompt什么位置使模型表現(xiàn)最佳,以及上下文文本

    2024年02月17日
    瀏覽(24)
  • REC 系列 Visual Grounding with Transformers 論文閱讀筆記

    REC 系列 Visual Grounding with Transformers 論文閱讀筆記

    寫在前面 ??Hello,馬上又是一周過(guò)去了,快要開學(xué)了,不知道小伙伴們狀態(tài)都調(diào)整過(guò)來(lái)了嗎?加油噢~ ??這同樣是一篇關(guān)于 REC 的文章,文章時(shí)間比較早了,但也是屬于那種入門必看的文章。 論文地址:VISUAL GROUNDING WITH TRANSFORMERS 代碼地址:https://github.com/usr922/vgtr 收錄于

    2024年02月12日
    瀏覽(27)
  • 論文筆記:ViTGAN: Training GANs with Vision Transformers

    論文筆記:ViTGAN: Training GANs with Vision Transformers

    2021 論文研究的問(wèn)題是:ViT是否可以在不使用卷積或池化的情況下完成圖像生成任務(wù) 即不用CNN,而使用ViT來(lái)完成圖像生成任務(wù) 將ViT架構(gòu)集成到GAN中,發(fā)現(xiàn)現(xiàn)有的GAN正則化方法與self-attention機(jī)制的交互很差,導(dǎo)致訓(xùn)練過(guò)程中嚴(yán)重的不穩(wěn)定 ——引入了新的正則化技術(shù)來(lái)訓(xùn)練帶有

    2024年02月07日
    瀏覽(22)
  • (論文閱讀)Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

    (論文閱讀)Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

    論文地址 https://openreview.net/pdf?id=_VjQlMeSB_J ????????我們探索如何生成一個(gè)思維鏈——一系列中間推理步驟——如何顯著提高大型語(yǔ)言模型執(zhí)行復(fù)雜推理的能力。 特別是,我們展示了這種推理能力如何通過(guò)一種稱為思維鏈提示的簡(jiǎn)單方法自然地出現(xiàn)在足夠大的語(yǔ)言模型中,

    2024年02月08日
    瀏覽(39)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包