国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models

這篇具有很好參考價值的文章主要介紹了論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

簡介

本文主要對2023一篇論文《Multimodal Chain-of-Thought Reasoning in Language Models》主要內(nèi)容進行介紹。

摘要

大型語言模型(LLM)通過利用思想鏈(CoT)提示生成中間推理鏈作為推斷答案的基本原理,在復(fù)雜推理方面表現(xiàn)出了令人印象深刻的性能。然而,現(xiàn)有的CoT研究主要集中在語言模態(tài)上。這篇文章提出了多模態(tài)CoT,將語言(文本)和視覺(圖像)模式結(jié)合到一個分為兩個階段的框架中,該框架將基本原理生成和答案推理分開。通過這種方式,答案推理可以利用基于多模式信息的更好生成的理由。使用多模CoT,模型在10億個參數(shù)下的性能比以前最先進的LLM(GPT-3.5)高出16個百分點(75.17%→91.68%的準確率),甚至超過了ScienceQA基準的人類表現(xiàn)。

引言

閱讀一本沒有數(shù)字或表格的教科書。通過聯(lián)合建模不同的數(shù)據(jù)模式,如視覺、語言和音頻,我們的知識獲取能力大大增強。大型語言模型(LLM)通過在推斷答案之前生成中間推理步驟,在復(fù)雜推理中表現(xiàn)出了令人印象深刻的性能。這種有趣的技術(shù)被稱為思維鏈推理(CoT)。

然而,現(xiàn)有的與CoT推理相關(guān)的研究在很大程度上是孤立在語言模態(tài)中的,很少考慮多模態(tài)場景。為了在多模態(tài)中引出CoT推理,文章提倡多模態(tài)CoT范式。

給定不同模態(tài)的輸入,多模態(tài)CoT將多步驟問題分解為中間推理步驟(基本原理),然后推斷答案。由于視覺和語言是最流行的模式,我們在這項工作中重點關(guān)注這兩種模式。
論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models,論文閱讀,人工智能
一個示例如圖1所示。
通常,有兩種方法可以引發(fā)多模式CoT推理:
(i)提示LLM
(ii)微調(diào)小模型

執(zhí)行多模式CoT的最直接方法是將不同模態(tài)的輸入轉(zhuǎn)換為一個模態(tài),并提示LLM執(zhí)行CoT。例如,可以通過字幕模型提取圖像的字幕,然后將字幕與要輸入LLM的原始語言連接起來。然而,在字幕制作過程中存在嚴重的信息丟失;因此,使用字幕(與視覺特征相反)可能會在不同模態(tài)的表示空間中缺乏相互協(xié)同作用。

為了促進模態(tài)之間的交互,另一個潛在的解決方案是通過融合多模態(tài)特征來微調(diào)較小的語言模型。

由于這種方法允許靈活地調(diào)整模型架構(gòu)以包含多模式特征,在這項工作中研究了微調(diào)模型,而不是提示LLM。

我們都知道1000億參數(shù)(100B)下的語言模型往往會產(chǎn)生幻覺推理,誤導(dǎo)答案推理。

為了減輕幻覺的挑戰(zhàn),文章提出了多模態(tài)CoT,將語言(文本)和視覺(圖像)模式結(jié)合到一個分為兩個階段的框架中,該框架將原理生成和答案推理分開。通過這種方式,答案推理可以利用基于多模式信息的更好生成的理由。我們的實驗是在ScienceQA基準上進行的,這是最新的帶有注釋推理鏈的多模式推理基準。實驗結(jié)果表明,我們的方法比以前的GPT-3.5模型提高了+16%(75.17%→91.68%)。文章的貢獻總結(jié)如下:
(i) 這項工作是第一次以不同的方式研究CoT推理。

(ii)提出了一個兩階段框架,通過微調(diào)語言模型來融合視覺和語言表示,以執(zhí)行多模式CoT。該模型能夠生成信息理性,以便于推斷最終答案。

(iii)文章的方法在ScienceQA基準上實現(xiàn)了最先進的新性能,比GPT-3.5的精度高出16%,甚至超過了人類的性能。

多模態(tài)思維鏈推理的挑戰(zhàn)

現(xiàn)有研究表明,CoT推理能力可能在一定規(guī)模的語言模型中出現(xiàn),例如超過100B參數(shù)的大模型。然而在1B模型中激發(fā)這種推理能力仍然是一個懸而未決的挑戰(zhàn),更不用說在多模式場景中了。

這篇文章的重點是在1B左右模型,因為這樣可以與常規(guī)消費級GPU(例如,32G內(nèi)存)一起進行微調(diào)和部署。接下來將闡述1B模型在CoT推理中失敗的原因,并研究如何設(shè)計一種有效的方法來克服這一挑戰(zhàn)。

下面有個有趣的現(xiàn)象:

在ScienceQA基準上微調(diào)了CoT推理的純文本基準模型。采用UnifiedQA-Base作為主干語言模型。任務(wù)為文本生成問題,其中模型將文本信息作為輸入,并生成由基本原理和答案組成的輸出序列。如圖1所示的示例,該模型將問題文本(Q)、上下文文本(C)和多個選項(M)的標記串聯(lián)作為輸入。
為了研究CoT的影響,我們將其與三種變體的性能進行了比較:
(i) 直接預(yù)測答案,無CoT(QCM→A)
(ii) 推理,其中答案推理以基本原理為條件(QCM→RA);
(iii) 使用基本原理解釋答案推理的解釋(QCM→AR)。
論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models,論文閱讀,人工智能
令人驚訝的是,我們觀察到準確性下降12.54%(80.40%→67.86%),如果模型在回答之前預(yù)測理性(QCM→RA)。結(jié)果表明,這些理由可能不一定有助于預(yù)測正確的答案。

其中的原因可能是模型在獲得所需答案之前超過了最大token限制,或者提前停止生成預(yù)測。

然而,文章發(fā)現(xiàn)生成的輸出(RA)的最大長度總是小于400個token,這低于語言模型的長度限制。因此,對理性危害答案推理的原因進行更深入的探討是值得的。

為了進一步探究上述情況形成的原因,并深入研究原理如何影響答案預(yù)測,本文將CoT問題分為兩個階段,即原理生成和答案推理?;驹砩墒褂肦ougeL分數(shù)來評估和答案推理使用準確性評估。表3顯示了基于兩階段框架的結(jié)果。盡管兩階段基線模型在基本原理生成方面獲得了91.76的RougeL分數(shù),但答案推理的準確率僅為70.53%。

論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models,論文閱讀,人工智能

與表2中的QCM→A(80.40%)相比,結(jié)果表明,在兩階段框架中生成的基本原理并不能提高答案的準確性。

論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models,論文閱讀,人工智能

接著隨機抽樣50個錯誤案例,發(fā)現(xiàn)模型傾向于產(chǎn)生幻覺推理,誤導(dǎo)答案推理。如圖2所示的例子,由于缺乏對視覺內(nèi)容的參考,模型(左部分Baseline)產(chǎn)生了“一個磁體的南極最接近另一磁體的南極”的幻覺。在錯誤案例中,此類錯誤的發(fā)生率為64%。

文章推測,這種幻覺現(xiàn)象是由于缺乏執(zhí)行有效的多模CoT所需的視覺上下文。為了注入視覺信息,一種簡單的方法是將配對的圖像轉(zhuǎn)換為字幕,然后將字幕附加在兩個階段的輸入中。然而,如表3所示,使用字幕只會產(chǎn)生邊際性能增益(增加0.59%). 然后,通過將視覺特征納入語言模型來探索一種先進的技術(shù)。具體而言,將配對圖像輸入到DETR模型中,以提取視覺特征。然后在提供給解碼器之前融合視覺特征,使用編碼的語言表示。有了視覺特征,基本原理生成的RougeL分數(shù)提高到了96.97%(QCM→R) ,這相應(yīng)地有助于提高84.91%的回答準確率(QCMR→A.有了這些有效的理由,幻覺現(xiàn)象得到了緩解——其中62.5%的幻覺錯誤已經(jīng)得到糾正(圖3(b))。這表明,視覺特征確實有利于生成有效的理由并有助于準確的答案推斷。作為兩階段方法(QCMR→A) 表3中的方法比表2中的所有一階段方法都獲得了更好的性能,在多模態(tài)CoT框架中選擇了兩階段方法。
論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models,論文閱讀,人工智能

多模態(tài)CoT框架

基于之前的分析,多模式CoT將語言(文本)和視覺(圖像)模式合并到一個兩階段的框架中,以減少幻覺輸出,提升模型的效果。

多模式CoT由兩個訓(xùn)練階段組成:
(i) 基本原理生成
(ii) 答案推理

兩個階段共享相同的模型體系結(jié)構(gòu),但輸入X和輸出Y不同。
整個過程如圖4所示。
論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models,論文閱讀,人工智能

在基本原理生成階段,模型的輸入為X,其中X如下:
論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models,論文閱讀,人工智能
其中括號中的前者表示第一階段中的語言輸入,后者表示視覺輸入,即圖像。

X可以看做實例化為多選推理問題的問題、上下文和選項的拼接,如圖4所示。目標是學(xué)習(xí)一個基本原理生成模型R=F(X),其中R是基本原理。

在答案推理階段,將基本原理R融入到到原始語言輸入論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models,論文閱讀,人工智能,因此繼續(xù)構(gòu)建第二階段的語言輸入:論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models,論文閱讀,人工智能其中? 表示拼接。然后,我們將更新后的輸入論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models,論文閱讀,人工智能饋送到答案推理模型,以推斷最終答案論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models,論文閱讀,人工智能。

現(xiàn)在回過頭來看圖4,應(yīng)該就比較清晰明了了。

多模態(tài)CoT模型架構(gòu)細節(jié)

上面我們已經(jīng)知道了文章的多模態(tài)CoT流程是怎么樣的了,接下來將分析其中關(guān)鍵的模型架構(gòu)細節(jié)也就是上文提到的F( ),以便我們能夠?qū)Χ嗄B(tài)CoT有更深入的理解。

F( )可以分為三個模塊:編碼模塊、融合模塊、解碼模塊

編碼模塊

論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models,論文閱讀,人工智能
其中
LanguageEncoder(·)指的就是transformer的encoder部分,輸出的就是Transformer編碼器中最后一層的隱藏狀態(tài)。

VisionExtractor(·) 用于將輸入圖像矢量化為視覺特征,使用的應(yīng)該是現(xiàn)成的視覺提取模型(DETR),其實應(yīng)該也是類似transformer的encoder,因為計算機視覺中,也有vision transformer。

融合模塊

在編碼模塊獲得到文本和圖片的表示后,先進行注意力計算,將文本和圖像信息聯(lián)系起來:
論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models,論文閱讀,人工智能
其中Q、K、V分別為論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models,論文閱讀,人工智能
然后使用門控融合機制進行特征融合:
論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models,論文閱讀,人工智能

其中論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models,論文閱讀,人工智能都是可訓(xùn)練的參數(shù)。

解碼模塊

這里就比較簡單,使用的就是transformer的decoder論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models,論文閱讀,人工智能作為輸入,輸出為我們需要的Y

至此,我們對多模態(tài)CoT應(yīng)該有一個比較深入的了解了,關(guān)鍵內(nèi)容其實就是使用encoder將文本信息和圖像信息表示出來,使用門控融合機制進行特征融合,然后預(yù)測出我們需要的結(jié)果這個過程就是F( )。

所以多模態(tài)CoT完整的流程就是先將初始的文本和圖像輸入F( )得到圖片和原始文本融合之后的CoT,然后再使用CoT的結(jié)果增強原始文本信息后得到的結(jié)果,再和圖片信息輸入F( )得到我們最終需要的預(yù)測結(jié)果。此時再去看圖4,應(yīng)該就一目了然了。

實驗結(jié)果

論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models,論文閱讀,人工智能
表4顯示了主要結(jié)果。Mutimodal CoTLarge比GPT-3.5高16.51%(75.17%→91.68%),并超過人類表現(xiàn)。具體而言,在8個問題類別中,Mutimodal CoT Large的得分為21.37%(67.43%→88.80%)的性能增益。與現(xiàn)有的UnifiedQA和GPT-3.5方法相比,這些方法利用上下文中的圖像字幕來提供視覺語義,結(jié)果表明使用圖像特征更有效。此外,根據(jù)表5中的消融研究結(jié)果,我們的兩階段框架有助于獲得優(yōu)異的結(jié)果??傮w而言,結(jié)果驗證了多模態(tài)的有效性以及通過兩階段框架使用1B模型實現(xiàn)CoT推理的潛力。

總結(jié)

使用圖像信息增強文本CoT,減少模型幻覺,提升模型效果,蠻有意思的文章來源地址http://www.zghlxwxcb.cn/news/detail-839683.html

到了這里,關(guān)于論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》全文翻譯

    《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》全文翻譯

    題目:《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》 作者:Jason Wei and et al. 會議: NeurlPS 2022 內(nèi)容概述:論文探索如何生成一個思想鏈(一系列中間推理步驟)來顯著提高大型語言模型執(zhí)行復(fù)雜推理的能力。 我們探索生成一條思維鏈(一系列中間推理步驟)如何顯

    2024年02月09日
    瀏覽(17)
  • 《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》【大模型思維鏈】

    《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》【大模型思維鏈】

    思維鏈,是一系列中間推理步驟,可以顯著提高大語言模型執(zhí)行復(fù)雜推理的能力。 思維鏈:一種簡單的提示方法,通過一系列的中間推理步驟,可以大大提高大語言模型執(zhí)行復(fù)雜推理的能力。 下圖為使用標準提示詞和使用思維鏈提示詞的輸出的區(qū)別: 與傳統(tǒng)Prompt的區(qū)別:

    2024年04月23日
    瀏覽(29)
  • 談?wù)凬LP中 大語言模型LLM的 思維鏈 Chain-of-Thought(CoT)

    談?wù)凬LP中 大語言模型LLM的 思維鏈 Chain-of-Thought(CoT)

    傳送門:https://github.com/wzzzd/LLM_Learning_Note/blob/main/Tuning/chain-of-thought-prompting.md 在過去幾年的探索中,業(yè)界發(fā)現(xiàn)了一個現(xiàn)象,在增大模型參數(shù)量和訓(xùn)練數(shù)據(jù)的同時,在多數(shù)任務(wù)上,模型的表現(xiàn)會越來越好。因而,現(xiàn)有的大模型LLM,最大參數(shù)量已經(jīng)超過了千億。 然而,增大模型參

    2024年02月12日
    瀏覽(22)
  • 論文閱讀:Multimodal Graph Transformer for Multimodal Question Answering

    論文閱讀:Multimodal Graph Transformer for Multimodal Question Answering

    論文名 :Multimodal Graph Transformer for Multimodal Question Answering 論文鏈接 盡管 Transformer模型 在視覺和語言任務(wù)中取得了成功,但它們經(jīng)常隱式地從大量數(shù)據(jù)中學(xué)習(xí)知識,而不能直接利用結(jié)構(gòu)化的輸入數(shù)據(jù)。另一方面, 結(jié)構(gòu)化學(xué)習(xí)方法 ,如集成先驗信息的圖神經(jīng)網(wǎng)絡(luò)(gnn),幾乎無法

    2024年02月04日
    瀏覽(21)
  • [論文閱讀]Multimodal Virtual Point 3D Detection

    [論文閱讀]Multimodal Virtual Point 3D Detection

    多模態(tài)虛擬點3D檢測 論文網(wǎng)址:MVP 論文代碼:MVP 方法MVP方法的核心思想是將RGB圖像中的2D檢測結(jié)果轉(zhuǎn)換為虛擬的3D點,并將這些虛擬點與原始的Lidar點云合并。具體步驟如下: (1) 使用2D檢測器(如CenterNet)在RGB圖像中檢測物體。 (2) 將檢測到的物體掩模投影到Lidar點云中,創(chuàng)建與

    2024年02月03日
    瀏覽(15)
  • 【論文閱讀筆記】Large Multimodal Agents: A Survey

    【論文閱讀筆記】Large Multimodal Agents: A Survey

    [寫在開頭] 深度學(xué)習(xí)小白,如果有不對的地方請大家多指正,對說的就是你大佬! 論文名稱: Large Multimodal Agents: A Survey 論文鏈接: https://arxiv.org/pdf/2402.15116.pdf Large Multimodal Agents (LMAs) 大型多模態(tài)智能體 Motivation 大語言模型的誕生賦予了 agent 類人的決策和推理能力,如何將 LL

    2024年03月18日
    瀏覽(23)
  • 論文閱讀:multimodal remote sensing survey 遙感多模態(tài)綜述

    論文閱讀:multimodal remote sensing survey 遙感多模態(tài)綜述

    參考: From Single- to Multi-modal Remote Sensing Imagery Interpretation: A Survey and Taxonomy Keywords:multimodal remote sensing 本文強調(diào)了單模態(tài)和多模態(tài)遙感影像判讀之間的關(guān)鍵差異,然后利用這些差異來指導(dǎo)我們對級聯(lián)結(jié)構(gòu)中多模態(tài)遙感影像判讀的研究。最后,對未來可能的研究方向進行了探討

    2024年02月02日
    瀏覽(26)
  • 【論文筆記】Gemini: A Family of Highly Capable Multimodal Models——細看Gemini

    【論文筆記】Gemini: A Family of Highly Capable Multimodal Models——細看Gemini

    【一句話總結(jié),對標GPT4,模型還是transformer的docoder部分,提出三個不同版本的Gemini模型,Ultra的最牛逼,Nano的可以用在手機上。】 谷歌提出了一個新系列多模態(tài)模型——Gemini家族模型,包括Ultra,Pro,Nano(1.5B Nano-1,3.25BNano-2)三種尺寸(模型由大到?。?。在圖像、音頻、視

    2024年02月04日
    瀏覽(13)
  • VL系列 Exchanging-based Multimodal Fusion with Transformer 論文閱讀筆記

    VL系列 Exchanging-based Multimodal Fusion with Transformer 論文閱讀筆記

    寫在前面 ??又是一個周末 教師節(jié),祝老師們節(jié)日快樂呀。依慣例,論文讀起來~ ??這是一篇多模態(tài)融合的文章,也算是這些年新出的一種方式了,具體還不知道啥情況,代碼已開源,一試便知。 論文地址:Exchanging-based Multimodal Fusion with Transformer 代碼地址:https://github.

    2024年02月05日
    瀏覽(24)
  • 【論文閱讀筆記】Tag-assisted multimodal sentiment analysis under uncertain missing modalities

    【論文閱讀筆記】Tag-assisted multimodal sentiment analysis under uncertain missing modalities

    Zeng J, Liu T, Zhou J. Tag-assisted multimodal sentiment analysis under uncertain missing modalities[C]//Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2022: 1545-1554.【開放源碼】 【論文概述】 本文提出了一種名為“標簽輔助變換器編碼器(TATE)網(wǎng)絡(luò)”的新型多

    2024年01月17日
    瀏覽(25)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包