国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

多模態(tài)大語言模型 LlaVA 論文解讀:Visual Instruction Tuning

這篇具有很好參考價值的文章主要介紹了多模態(tài)大語言模型 LlaVA 論文解讀:Visual Instruction Tuning。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

多模態(tài)大語言模型 LlaVA 論文解讀:Visual Instruction Tuning

代碼:https://github.com/haotian-liu/LLaVA

總覽

在這篇論文中,作者首次嘗試使用純語言 GPT-4 生成多模態(tài)語言圖像指令遵循數(shù)據(jù)(insruction-following data)。 通過對此類生成數(shù)據(jù)進行指令調整,推出了大型語言和視覺助手(Large Language and Vision Assistant,LLaVA)。一種端到端訓練的大型多模態(tài)模型,連接視覺編碼器和 LLM 以實現(xiàn)通用視覺和語言理解。

背景等相關方法:大型語言模型(LLM)表明語言可以發(fā)揮更廣泛的作用:通用助手的通用接口,各種任務指令可以用語言明確表示并指導端到端 訓練有素的神經助手切換到感興趣的任務來解決它。例如,最近 ChatGPT 和 GPT-4 的成功證明了對齊 LLM 在遵循人類指令方面的力量,并激發(fā)了人們對開發(fā)開源 LLM 的極大興趣。 其中,LLaMA [44] 是一個與 GPT-3 性能相匹配的開源 LLM。 Alpaca [43]、Vicuna [45]、GPT-4-LLM [34]利用各種機器生成的高質量指令跟隨樣本來提高 LLM 的對齊能力,與專有 LLM 相比,報告了令人印象深刻的性能。 重要的是,這行工作是純文本的。

不同于上面文本的指令微調,作者提出了視覺指令微調,第一個嘗試將指令微調拓展到多模態(tài)領域調整。貢獻如下:

  • 數(shù)據(jù)方面:使用ChatGPT/GPT-4來將數(shù)據(jù)轉化為多模態(tài)指令遵循數(shù)據(jù)(multimodel instrustion-following data);
  • 模型方面:使用CLIP+LLaMA進行指令微調,構建了多模態(tài)大模型LLaVA,得到了較好的結果;
  • 開源,開源,還是開源!這年頭大模型開源都算主要contribution了。

GPT-協(xié)助的數(shù)據(jù)生成

這部分我寫的比較細,因為現(xiàn)在大模型論文在模型上區(qū)別并不大,主要還是數(shù)據(jù)的區(qū)別。

基于已有的大量圖片對數(shù)據(jù),利用ChatGPT/GPT-4進行多模態(tài)指令遵循數(shù)據(jù)的收集。主要問題集中在如何用 Language-only/Text-only的ChatGPT/GPT-4模型來為圖片內容生成對應的指令。

最基本的方式:圖片Xv和其對應的說明文字Xc,構建一個問題集合Xq來提示大模型助手對圖片內容進行描述。通過提示GPT-4可以構建這樣一個問題序列,如下圖:

多模態(tài)大語言模型 LlaVA 論文解讀:Visual Instruction Tuning

然后可以將圖文對擴展成指令遵循版本的數(shù)據(jù)格式:Human: Xq Xv <STOP> \n Assistant: Xc <STOP> \n

但這樣構造的數(shù)據(jù)都缺乏多樣性和深入推理性,為了彌補這一問題,作者將視覺內容編碼送進ChatGPT來提高指令的質量,用了兩類的符合表示:文字說明(通常從不同的角度描述視覺場景)和編輯框BBox(通常對場景中的物體進行定位,每個邊界框對物體的概念及其空間位置進行編碼),如下圖:

多模態(tài)大語言模型 LlaVA 論文解讀:Visual Instruction Tuning

通過這兩類符合表示,將視覺內容傳達給了大模型,然后手工設計了3種對話方式,利用GPT-4進行生成和擴充,分別是對話、細節(jié)描述復雜推理。

多模態(tài)大語言模型 LlaVA 論文解讀:Visual Instruction Tuning

這里的每種類型使用的問題(Question)也是通過GPT進行in-context-learning來模仿生成的。其中,圖片/描述/邊界框等信息使用COCO數(shù)據(jù)集的數(shù)據(jù)。

以對話為例,作者采用了下圖的方式生成更多的對話標簽。

多模態(tài)大語言模型 LlaVA 論文解讀:Visual Instruction Tuning

最終累積158K的語言-圖片指令遵循樣本,58K對話、23K細節(jié)描述和77K復雜推理。同時在使用ChatGPT和GPT-4時,作者發(fā)現(xiàn)GPT-4生成的指令遵循數(shù)據(jù)質量更高,比如空間推理能力。

網絡結構

與GPT-4-LLM[34], Alpaca[43], Vicuna[45]類似,作者使用LLaMA來做 指令微調任務,網絡結構如下。整體比較簡單,再語言模型前(LLaMA)添加了一個視覺編碼器(CLIP)將圖片轉化為Patch features,然后這些圖片特征經過一個映射層W轉化為視覺Token,Vison Token與Language Token指令在同一個特征空間,一起拼接(concantate)一起送進大模型。

多模態(tài)大語言模型 LlaVA 論文解讀:Visual Instruction Tuning

這里的映射層W可以替換為更復雜的網絡來提升性能。

模型訓練

使用如下圖的方式組織輸入輸出,其中綠色部分為參與損失計算的部分,損失使用自回歸模型的損失,即next token prediction。

多模態(tài)大語言模型 LlaVA 論文解讀:Visual Instruction Tuning

作者使用了兩階段的訓練方式:

  1. 預訓練特征對齊模塊(映射層W);
  2. 端對端的微調語言模型+映射層。

實驗效果

多模態(tài)大語言模型 LlaVA 論文解讀:Visual Instruction Tuning

多模態(tài)大語言模型 LlaVA 論文解讀:Visual Instruction Tuning

其他可以學習的文章

miniGPT-4的同期工作: 微軟LLaVa模型論文筆記:https://zhuanlan.zhihu.com/p/625723805

Visual Instruction Tuning:https://zhuanlan.zhihu.com/p/624071363

參考文獻

[34] Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley, and Jianfeng Gao. Instruction tuning with GPT-4.

[43] Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, Percy Liang, and Tatsunori B. Hashimoto. Stanford alpaca: An instruction-following llama model. https://github.com/tatsu-lab/stanford_alpaca, 2023

[44] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timo- thée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023.

[45] Vicuna. Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgpt quality. https: //vicuna.lmsys.org/, 2023.文章來源地址http://www.zghlxwxcb.cn/news/detail-501987.html

到了這里,關于多模態(tài)大語言模型 LlaVA 論文解讀:Visual Instruction Tuning的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!

本文來自互聯(lián)網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包