【LMM 012】TinyGPT-V：24G顯存訓(xùn)練，8G顯存推理的高效多模態(tài)大模型

這篇具有很好參考價(jià)值的文章主要介紹了【LMM 012】TinyGPT-V：24G顯存訓(xùn)練，8G顯存推理的高效多模態(tài)大模型。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

論文標(biāo)題：TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones
論文作者：Zhengqing Yuan, Zhaoxu Li, Lichao Sun
作者單位：Anhui Polytechnic University, Nanyang Technological University, Lehigh University
論文原文：https://arxiv.org/abs/2312.16862
論文出處：–
論文被引：–（12/31/2023）
論文代碼：https://github.com/DLYuanGod/TinyGPT-V，115 star

Abstract

在先進(jìn)的多模型學(xué)習(xí)時(shí)代，GPT-4V 等多模態(tài)大型語言模型（MLLM）在連接語言和視覺元素方面取得了顯著進(jìn)展。然而，代碼閉源和相當(dāng)大的計(jì)算需求為普及使用和修改帶來了明顯的挑戰(zhàn)。這正是 LLaVA 和 MiniGPT-4 等開源 MLLM 的用武之地，它們?cè)诟鞣N任務(wù)中取得了突破性的成就。盡管取得了這些成就，計(jì)算效率仍是一個(gè)懸而未決的問題，因?yàn)檫@些模型（如 LLaVA-v1.5-13B）需要大量資源。為了解決這些問題，我們推出了 TinyGPT-V，這是一個(gè)將驚人性能與普通計(jì)算能力相結(jié)合的新潮模型。它只需要 24G GPU 進(jìn)行訓(xùn)練，8G GPU 或 CPU 進(jìn)行推理，因此脫穎而出。TinyGPT-V 以 Phi-2 為基礎(chǔ)，將有效的語言骨干與 BLIP-2 或 CLIP 的預(yù)訓(xùn)練視覺模塊相結(jié)合。TinyGPT-V 的 2.8B 參數(shù)可以經(jīng)過獨(dú)特的量化處理，適合在 8G 各種設(shè)備上進(jìn)行本地部署和推理任務(wù)。我們的工作促進(jìn)了設(shè)計(jì)高性價(jià)比，高效和高性能 MLLM 的進(jìn)一步發(fā)展，擴(kuò)大了它們?cè)趶V泛現(xiàn)實(shí)世界場(chǎng)景中的適用性。此外，本文還提出了通過小型骨干網(wǎng)建立多模態(tài)大型語言模型的新范式。

部署tinygptv,多模態(tài)學(xué)習(xí)（Multimodal Learning）,人工智能,多模態(tài),Phi2,MiniGPT,BLIP

1 Introduction

最近，隨著擴(kuò)展性多模態(tài)大語言模型（MLLM）GPT-4V 的問世，我們?cè)谝曈X語言理解和生成方面看到了一些令人印象深刻的能力[45]。盡管如此，必須承認(rèn)的是，GPT-4V 并未開源，因此限制了普遍使用和獨(dú)立修改。從好的方面看，最近開源 MLLMs（如 LLaVA 和 MiniGPT-4）的數(shù)量激增，它們?cè)谀承┤蝿?wù)中表現(xiàn)出了突破性的能力，在圖像描述（IC，Image Captioning），視覺問答（VQA）和指代表達(dá)理解（Referring Expression Comprehension，REC）等領(lǐng)域超過了 GPT-4V [8, 26, 27, 50]。例如，在各種視覺基礎(chǔ)和問題解答任務(wù)的測(cè)試中，MiniGPT-v2 [6] 與其他傳統(tǒng)視覺語言模型相比，表現(xiàn)出了卓越的實(shí)力。

盡管一些開源 MLLM 具備強(qiáng)大的視覺語言能力，但它們?cè)谟?xùn)練和推理階段仍然消耗了過多的計(jì)算資源。例如，LLaVA-v1.5-13B [26] 在 25.5 小時(shí)的訓(xùn)練過程中使用了 8 個(gè) 80GB 顯存的 A100 GPU。由于大型語言模型的性能直接影響到 MLLM 的能力，因此在使用這些模型時(shí)，如 LLaVA-v1.5-13B 使用 Vicuna-13b-v1.5 [49]，MiniGPT-v2 使用 LLaMA2-7B-Chat [41]，需要大量的大型語言模型參數(shù)來提高 IC，VQA 等復(fù)雜任務(wù)的性能 [50]。因此，我們需要一個(gè)能與 LLaMA2 和 Vicuna-v1.5 等模型性能相媲美的大型語言模型，而不需要過多的 GPU 計(jì)算資源。

因此，我們提出了一種名為 TinyGPT-V 的新模型，它只需要 24G GPU 進(jìn)行訓(xùn)練，推理只需要 8G GPU 或 CPU。

LLM：采用大型語言模型 Phi-2 [19]，該模型是在 Phi [24]的基礎(chǔ)上構(gòu)建的，其效果超過了 13B 語言模型的最佳效果，而且與規(guī)模大 25 倍的模型相比，其效果相似或更好。
視覺感知：使用了與 BLIP-2 [23] 或 CLIP [35] 相同的預(yù)訓(xùn)練視覺模塊，其中包含一個(gè)作為視覺編碼器的 ViT [10] 以及一個(gè)映射模塊。按照 MiniGPT 的訓(xùn)練方法，TinyGPT-V 在整個(gè)訓(xùn)練過程中只微調(diào)視覺編碼器和語言模型之間的映射模塊，而凍結(jié)所有其他參數(shù)。
TinyGPT-V 在不同的訓(xùn)練階段使用與 MiniGPT-v2 相同的數(shù)據(jù)集，如 LAION [37]，Conceptual Captions [4, 39]，SBU [33] 等 [25, 38, 18, 21] 。[25, 38, 18, 21, 29, 13, 31, 20, 46]。

在我們的研究中，我們觀察到 TinyGPT-V 顯示出許多與 GPT-4 相同的特質(zhì)，從 Phi-2 模型的應(yīng)用中受益匪淺。TinyGPT-V 僅有 2.8B 個(gè)參數(shù)，其獨(dú)特的量化過程使其適用于 8G 移動(dòng)設(shè)備上的本地部署和推理任務(wù)。TinyGPT-V 標(biāo)志著在實(shí)現(xiàn)無與倫比的性能和保持 MLLM 效率之間的平衡方面取得了重大進(jìn)展。通過我們的貢獻(xiàn)，我們努力使社區(qū)能夠設(shè)計(jì)出更具成本效益，更高效，更高性能的 MLLM，以滿足廣泛的實(shí)際應(yīng)用場(chǎng)景。

2 Related Work

Advanced language model.

從自然語言處理（NLP）領(lǐng)域的 GPT2 [36] 和 BERT [9] 等早期成功案例開始，語言模型的發(fā)展經(jīng)歷了許多重要的里程碑。這些基礎(chǔ)模型為隨后開發(fā)規(guī)模更大，包含數(shù)千億個(gè)參數(shù)的語言模型奠定了基礎(chǔ)。規(guī)模的急劇擴(kuò)大導(dǎo)致了先進(jìn)功能的出現(xiàn)，如 GPT-3 [2]，Chinchilla [16]，OPT [48] 和 BLOOM [44] 等模型。例如，ChatGPT [32] 和 InstructGPT [34] 利用這些強(qiáng)大的模型來回答各種問題和執(zhí)行復(fù)雜的任務(wù)，如coding。LLaMA [41] 等開源 LLM 的引入進(jìn)一步推動(dòng)了這一領(lǐng)域的研究，激發(fā)了 Alpaca [40]，Vicuna [7] 等后續(xù)開發(fā)。這些模型利用額外的高質(zhì)量指令數(shù)據(jù)集對(duì) LLaMA 模型進(jìn)行了微調(diào)，展示了 LLM 框架的多功能性和適應(yīng)性。最近最顯著的進(jìn)步是 Phi [24] 及其后續(xù)產(chǎn)品 Phi-2 [19]。這些模型表現(xiàn)出了卓越的性能，可與規(guī)模大 25 倍的模型相媲美，甚至超過它們。這表明語言建模的格局發(fā)生了重大變化，它強(qiáng)調(diào)效率和效果，而不一定依賴于純粹的規(guī)模。這種發(fā)展標(biāo)志著 NLP 領(lǐng)域進(jìn)入了一個(gè)新時(shí)代，更小，更高效的模型可以取得與更大的模型相媲美的結(jié)果，為應(yīng)用和研究開辟了新的可能性。

Multimodal language model.

近年來，將視覺輸入與用于視覺語言任務(wù)的大型語言模型相匹配的趨勢(shì)得到了廣泛關(guān)注[5, 42, 1 , 23 , 28, 26 , 50, 6]。

VisualGPT [5] 和 Frozen [42] 等開創(chuàng)性工作利用預(yù)先訓(xùn)練好的語言模型進(jìn)行 IC 和 VQA。
Flamingo [1] 等模型進(jìn)一步推動(dòng)了這一方法的發(fā)展，這些模型采用了門控交叉注意機(jī)制，將預(yù)先訓(xùn)練好的視覺編碼器和語言模型統(tǒng)一起來，在大量圖像-文本對(duì)上進(jìn)行訓(xùn)練。
BLIP-2 [23] 引入了高效的 Q-Former 來對(duì)齊視覺和語言模式。
這些開創(chuàng)性的研究為該領(lǐng)域的進(jìn)一步創(chuàng)新鋪平了道路，促成了 LLaVA [28] 和 MiniGPT4 [50] 等模型的開發(fā)，以及它們隨后的迭代：LLaVA-v1.5 [26]，MiniGPT-v2 [6]，ArtGPT-4 [47]，instruction GPT-4 [43] 和 Instruction Mining [3]。

這些模型通過指令調(diào)優(yōu)展示了先進(jìn)的多模態(tài)能力，展現(xiàn)了非凡的泛化能力。盡管這些多模態(tài)語言模型具有強(qiáng)大的視覺語言任務(wù)能力，但通常需要大量的計(jì)算資源。相比之下，TinyGPT-V 代表了一種范式的轉(zhuǎn)變，它利用成本效益高，功能強(qiáng)大的小型語言模型，實(shí)現(xiàn)了一種適用于各種真實(shí)世界視覺語言應(yīng)用的穩(wěn)健，易于部署的模型。這種方法強(qiáng)調(diào)了向更高效但同樣勝任的多模態(tài)語言建模邁進(jìn)的趨勢(shì)。

3 Method

我們首先提出了我們的視覺語言模型TinyGGPT-V，然后討論了模型的結(jié)構(gòu)和任務(wù)的組織，最后介紹了每個(gè)階段的訓(xùn)練過程。

3.1 Model Architecture

在本小節(jié)中，我們介紹了TinyGPT-V的結(jié)構(gòu)，它由視覺編碼器線性投影層和大型語言模型組成。

Visual encoder backbone.

與 MiniGPT-v2 一樣，ViT 的 EVA [11] 在 TinyGPT-V 適應(yīng)過程中充當(dāng)視覺基礎(chǔ)模型。在整個(gè)模型訓(xùn)練過程中，視覺基礎(chǔ)模型始終處于凍結(jié)狀態(tài)。我們的模型訓(xùn)練在第一，第二和第三階段以 224x224 的圖片分辨率運(yùn)行，在第四階段以 448x448 的圖片分辨率運(yùn)行。

Linear projection layers.

線性投影層的功能是將視覺編碼器提取的視覺特征嵌入語言模型。同時(shí)，還努力使廣泛的語言模型能夠理解基于圖像的信息。我們之所以采用源自 BLIP-2 [23] 架構(gòu)的 Q-Former 層作為初始線性投影層，是因?yàn)槲覀兿Ｍ谝曈X語言模型中部署預(yù)訓(xùn)練 BLIP 系統(tǒng)時(shí)，能夠從中提取最大的功能。這種方法大大減少了需要訓(xùn)練階段的參數(shù)量。我們利用高斯分布初始化的線性投影層作為第二層。這樣做的目的是彌合 Q-Former 輸出與語言模型嵌入層之間的維度差距，從而更好地將視覺標(biāo)記與語言模型的相關(guān)隱藏空間對(duì)齊。如圖 2 所示，為了加快 TinyGPT-V 的訓(xùn)練過程，我們首先使用 MiniGPT-4 （Vicuna 7B）中預(yù)先訓(xùn)練好的線性投影作為基礎(chǔ)層。隨后，我們整合了一個(gè)額外的線性層投影，以有效銜接 Phi-2 模型的相應(yīng)隱藏空間。

部署tinygptv,多模態(tài)學(xué)習(xí)（Multimodal Learning）,人工智能,多模態(tài),Phi2,MiniGPT,BLIP

Large lanuguage model backbone.

我們利用 Phi-2 [19] 模型作為 TinyGPT-V 大型語言模型的骨干。Phi-2 是一個(gè)擁有 27 億參數(shù)的語言模型，具有出色的推理能力和語言理解能力，在參數(shù)少于 130 億的基礎(chǔ)語言模型中表現(xiàn)出最先進(jìn)的性能。在復(fù)雜的基準(zhǔn)測(cè)試中，Phi-2 的性能可媲美或超越 25 倍以上的大多數(shù)模型。我們完全依靠 Phi-2 語言標(biāo)記（token）來執(zhí)行多項(xiàng)視覺語言操作。對(duì)于需要?jiǎng)?chuàng)建空間位置的視覺錨定任務(wù)，我們明確要求語言模型生成文本描述的邊界框，以表示其地理坐標(biāo)。

Normalization and LoRA for TinyGPT-V

部署tinygptv,多模態(tài)學(xué)習(xí)（Multimodal Learning）,人工智能,多模態(tài),Phi2,MiniGPT,BLIP

在第 4.3 節(jié)中，我們推斷，訓(xùn)練較小規(guī)模的大型語言模型進(jìn)行遷移學(xué)習(xí)，尤其是跨不同模態(tài)（如從文本到圖像）的遷移學(xué)習(xí)，會(huì)帶來巨大的挑戰(zhàn)。我們的研究發(fā)現(xiàn)，較小的模型在多模態(tài)數(shù)據(jù)計(jì)算過程中特別容易出現(xiàn) NaN 或 INF 值。這通常會(huì)導(dǎo)致計(jì)算損失值為 NaN，從而導(dǎo)致初始批量前向傳播失敗。此外，在這些較小的模型中，可訓(xùn)練參數(shù)的數(shù)量有限，這也會(huì)導(dǎo)致在整個(gè)訓(xùn)練過程中梯度消失。為了解決這些問題，如圖 3 ? 所示，我們整合了 LLaMA-2 的后規(guī)范化（post-norm）和輸入規(guī)范化（input norm）機(jī)制，在每個(gè)多頭注意力層 (MHA) 之后實(shí)施 RMS Norm，以規(guī)范后續(xù)層的數(shù)據(jù)。我們還更新了 Phi-2 模型中所有層的規(guī)范，以提高訓(xùn)練的穩(wěn)定性，如下式所示。

部署tinygptv,多模態(tài)學(xué)習(xí)（Multimodal Learning）,人工智能,多模態(tài),Phi2,MiniGPT,BLIP

此外，Henry et.al [15] 強(qiáng)調(diào)了 Query-Key Normalization 在低資源學(xué)習(xí)場(chǎng)景中的重要作用。因此，如圖 3 (d) 所示，我們?cè)?Phi-2 模型中加入了 “Query-Key Normalization”，詳見下式。

部署tinygptv,多模態(tài)學(xué)習(xí)（Multimodal Learning）,人工智能,多模態(tài),Phi2,MiniGPT,BLIP

LoRA 機(jī)制[17]的結(jié)構(gòu)如圖 3（a）所示，它是一種與圖 3（c）所示的凍結(jié)預(yù)訓(xùn)練權(quán)重并行的高效微調(diào)方法，不會(huì)增加大型語言模型的推理耗時(shí)，也更容易優(yōu)化。

3.2 Multi-task Instruction Template

在訓(xùn)練統(tǒng)一的多模態(tài)模型以處理視覺問答（VQA），圖像描述（IC），指代表達(dá)理解（REC），生成以及物體解析和定位（object parsing and grounding）等不同任務(wù)時(shí)，為了減少潛在的模糊性，我們?cè)诙嗳蝿?wù)指令模板中使用了 MiniGPT-v2 特定任務(wù)標(biāo)記。它源于 LLaMA-2 對(duì)話模板[41]，包括由圖像特征，任務(wù)標(biāo)識(shí)符和指令輸入組成的通用輸入格式。它有六個(gè)不同的任務(wù)標(biāo)識(shí)符，每個(gè)都與特定任務(wù)相關(guān)。對(duì)于需要模型識(shí)別所指對(duì)象空間位置的任務(wù)，它采用文本格式的邊界框，坐標(biāo)歸一化范圍為 0 到 100?？傊?，MiniGPT-v2 提供的獨(dú)特任務(wù)特定標(biāo)記有助于任務(wù)之間的歧義區(qū)分，從而使任務(wù)執(zhí)行更加精確和準(zhǔn)確。

3.3 Training Stages

在本小節(jié)中，將描述 TinyGT-V 的三階段訓(xùn)練過程。

Warm-up training for the first training stage.

在最初的預(yù)訓(xùn)練階段，TinyGPT-V 使用一個(gè)大型的對(duì)齊圖像-文本對(duì)庫學(xué)習(xí)視覺-語言理解。該模型將引入的投影層輸出識(shí)別為軟提示，引導(dǎo)其創(chuàng)建相關(guān)文本，并允許大型語言模型接受來自圖像模態(tài)的輸入。預(yù)訓(xùn)練過程使用了 Conceptual Caption，SBU 和 LAION 的組合數(shù)據(jù)集，訓(xùn)練 20000 步，約 500 萬個(gè)圖像-文本對(duì)。

Pre-training for the second training stage.

在初始訓(xùn)練階段之后，大語言模型便具備了處理圖像模態(tài)輸入的能力。為了保證模型在過渡到后續(xù)訓(xùn)練階段時(shí)性能更加穩(wěn)定，我們重新使用了第一階段的數(shù)據(jù)集，專門用于訓(xùn)練 LoRA 模塊。

Human-like learning for the third training stage.

我們從 MiniGPT4 或 LLaVA 中選擇了一些圖像-文本對(duì)（image-text pairings），對(duì) TinyGPT-V 模型進(jìn)行了微調(diào)，其中包括以下指令：

"###Human: <Img><ImageHere></Img> Take a look at this image and describe what you notice.###Assistant:."

我們使用了一個(gè)統(tǒng)一的模板（Template），包括隨機(jī)選擇的提示（Prompt），這提高了模型生成一致且更自然的響應(yīng)的能力。

Multi-task learning in the fourth training stage.

部署tinygptv,多模態(tài)學(xué)習(xí)（Multimodal Learning）,人工智能,多模態(tài),Phi2,MiniGPT,BLIP

TinyGPT-V 的第四個(gè)訓(xùn)練階段與 MiniGPT-v2 相同，主要是通過使用更多的多模態(tài)指令數(shù)據(jù)集來微調(diào)模型，從而增強(qiáng)其作為聊天機(jī)器人的對(duì)話能力。如表 1 所示，這些數(shù)據(jù)集包括 LLaVA，混合多任務(wù)數(shù)據(jù)集 Flickr30k 和非自然指令。

LLaVA 數(shù)據(jù)集用于多模態(tài)指令調(diào)優(yōu)，其中包含詳細(xì)描述和復(fù)雜推理示例。
Flickr30k 數(shù)據(jù)集用于改進(jìn)基礎(chǔ)圖像標(biāo)題生成以及對(duì)象解析和基礎(chǔ)能力。
此外，還創(chuàng)建了一個(gè)混合多任務(wù)數(shù)據(jù)集，以提高模型在多輪對(duì)話中處理多個(gè)任務(wù)的能力。
最后，為了恢復(fù)語言生成能力，在 TinyGPT-V 的第三階段訓(xùn)練中加入了非自然指令數(shù)據(jù)集。

4 Experiments

在本節(jié)中，我們將詳細(xì)介紹訓(xùn)練和評(píng)估方法。

4.1 Training

Experimental setting.

硬件環(huán)境：NVIDIA 24GB 顯存的 RTX 3090 GPU，AMD EPYC 7552 48 core CPU，80GB RAM。

軟件環(huán)境：PyTorch 2.0.0 ，CUDA 11.8，便于在 GPU 上進(jìn)行優(yōu)化的張量操作。

Training process.

部署tinygptv,多模態(tài)學(xué)習(xí)（Multimodal Learning）,人工智能,多模態(tài),Phi2,MiniGPT,BLIP

如圖 4 和圖 5 所示，在實(shí)驗(yàn)過程中，我們通過四個(gè)不同的階段精心安排了模型的訓(xùn)練，每個(gè)階段都有特定的學(xué)習(xí)率策略和損失曲線。

第 1 階段：采用動(dòng)態(tài)學(xué)習(xí)率方法，17 個(gè)epoch，每個(gè) epoch 包含 1000 次迭代。每個(gè)epoch 開始時(shí)的學(xué)習(xí)率為1e-5，到epoch結(jié)束時(shí)逐漸升至1e-4。所有epoch中均遵從這種模式。訓(xùn)練損失呈現(xiàn)出穩(wěn)步下降的趨勢(shì)，從 7.152 開始，逐漸下降到 2.620，反映出模型從數(shù)據(jù)中學(xué)習(xí)的能力在不斷提高。這一階段的目的是讓 TinyGPT-V 中的 Phi-2 模型對(duì)圖像模態(tài)的輸入做出某種反應(yīng)。完成文本和圖像在語義空間中的對(duì)齊。

第 2 階段：4 個(gè)epoch，每個(gè) epoch 迭代 5000 次，采用 linear_warmup_cosine_lr[14, 12] 學(xué)習(xí)率計(jì)劃。warmup 階段 5000 步，學(xué)習(xí)率從 1e-6（warmup_lr）線性上升到 1e-4（init_lr），然后余弦衰減到最低學(xué)習(xí)率 8e-5。在這一階段，損失持續(xù)減少，從 2.726 開始，最終達(dá)到 2.343。這一階段的目的是讓 LoRA 模塊在多模態(tài)數(shù)據(jù)中發(fā)揮作用，進(jìn)一步降低模型在圖像-文本對(duì)上的損失，提高模型從數(shù)據(jù)中學(xué)習(xí)的能力。

第 3 階段：5 個(gè)epoch，每個(gè) epoch 迭代 200 次。采用 linear_warmup_cosine_lr 計(jì)劃，熱身階段為 200 步。學(xué)習(xí)率從 1e-6，上升到 3e-5（init_lr），然后下降到 1e-5（min_lr）。損失值從 1.992 開始下降到 1.125，反映了明顯的改進(jìn)。這一階段的目的是讓 TinyGPT-V 同時(shí)接受語言和圖像模態(tài)輸入，并對(duì)它們做出響應(yīng)。經(jīng)過這一階段的訓(xùn)練，TinyGPT-V 已能完成大部分圖像回答任務(wù)。

第 4 階段：50 個(gè)epoch，每個(gè) epoch 迭代 1000 次。采用 linear_warmup_cosine_lr 計(jì)劃，warmup 階段 1000 步。學(xué)習(xí)率從 1e-6 開始，最高達(dá)到 1e-5（init_lr），然后經(jīng)歷余弦衰減，最低為 8e-5。訓(xùn)練損失值呈持續(xù)下降趨勢(shì)，從 2.720 開始，最終降至 1.399。這一階段的目的是讓 TinyGPT-V 同時(shí)執(zhí)行各種任務(wù)，如 VQA 或 VSR 任務(wù)，從而提高 TinyGPT-V 在多模態(tài)任務(wù)上的泛化性能。

4.2 Evaluation

Evaluation datasets.

GQA [18] 是一個(gè)用于真實(shí)世界視覺推理和組合問題解答的數(shù)據(jù)集，其強(qiáng)大的問題引擎可生成 2200 萬個(gè)不同的推理問題。
VSR [28] 包含 1 萬多個(gè)英文自然文本-圖像對(duì)，涵蓋 66 種空間關(guān)系。
IconQA [30] 包含 107439 個(gè)問題，旨在挑戰(zhàn)圖標(biāo)圖像背景下的視覺理解和推理，包括三個(gè)子任務(wù)（多圖像選擇，多文本選擇和填空）。
VizWiz[13]收集了 31000 多個(gè)視覺問題，每個(gè)問題都來自視障人士使用智能手機(jī)拍攝的一張照片，并附有一個(gè)與圖像相關(guān)的發(fā)聲問題，每個(gè)問題還有10個(gè)來自人群的答案。
由 Facebook AI 開發(fā)的 Hateful Memes dataset (HM) [22]是一個(gè)全面的多模態(tài)數(shù)據(jù)集，專門用于檢測(cè)備忘錄中的仇恨內(nèi)容，結(jié)合了圖像和文本元素，包含 10000 多個(gè)新創(chuàng)建的多模態(tài)示例。

Visual question answering results.

部署tinygptv,多模態(tài)學(xué)習(xí)（Multimodal Learning）,人工智能,多模態(tài),Phi2,MiniGPT,BLIP

如表 2 所示，TinyGPT-V 作為一個(gè)只有 28 億個(gè)參數(shù)的模型，在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)出明顯的競(jìng)爭(zhēng)力，可與擁有近 130 億個(gè)參數(shù)的模型相媲美。具體來說，在 VSR（視覺空間推理）零拍任務(wù)中，TinyGPT-V 以 53.2% 的最高得分超越了同類產(chǎn)品?？紤]到其參數(shù)大小約為 BLIP-2，LLaVA 和 InstructBLIP 等其他領(lǐng)先模型的 4.6 倍，這一成績(jī)尤其令人印象深刻。在 GQA 基準(zhǔn)測(cè)試中，TinyGPT-V 的得分率為 33.6%，落后于 InstructBLIP 的最高得分率 49.5%。不過，TinyGPT-V 在 IconVQ 挑戰(zhàn)賽中表現(xiàn)強(qiáng)勁，獲得了 43.3% 的分?jǐn)?shù)，僅比 InstructBLIP 的領(lǐng)先分?jǐn)?shù) 44.8% 少 1.5%。同樣，在 VizWiz 任務(wù)中，TinyGPT-V 表現(xiàn)出了值得稱贊的能力，得分率為 24.8%，雖然不是最高分，但由于減少了參數(shù)數(shù)量，得分率還是很高的。在 HM 數(shù)據(jù)集方面，TinyGPT-V 的得分為 53.2%，與 InstructBLIP 的最高得分 57.5%不相上下，再次證明了它的效率和與更大規(guī)模模型競(jìng)爭(zhēng)的能力?？傮w而言，TinyGPT-V 在這些多樣化和具有挑戰(zhàn)性的基準(zhǔn)測(cè)試中的表現(xiàn)令人矚目，尤其是考慮到其參數(shù)效率時(shí)更是如此。

4.3 Ablation Study

部署tinygptv,多模態(tài)學(xué)習(xí)（Multimodal Learning）,人工智能,多模態(tài),Phi2,MiniGPT,BLIP

如表 3 所示，完整的 TinyGPT-V 模型在所有階段都實(shí)現(xiàn)了低損失，但刪除關(guān)鍵模塊會(huì)導(dǎo)致嚴(yán)重的訓(xùn)練問題。

如果沒有 LoRA 模塊，從第 3 階段開始就會(huì)出現(xiàn)梯度消失。
如果沒有 Input Layer Norm 會(huì)顯著增加損失（第 1 階段為 2.839），并導(dǎo)致第 4 階段的梯度消失。
如果沒有 RMS Norm，模型在第 1 階段的損失會(huì)增加（2.747），并在第 2 階段面臨早期梯度消失。
沒有 QK Norm 會(huì)導(dǎo)致梯度立即消失。這些數(shù)據(jù)清楚地說明了每個(gè)模塊在防止梯度消失和在整個(gè)訓(xùn)練過程中保持低損失方面的關(guān)鍵作用。

5 Conclusion

在本研究中，我們介紹了 TinyGPT-V，它是一種參數(shù)高效的 MLLMs，專為一系列真實(shí)世界的視覺語言應(yīng)用而量身定制。我們的模型創(chuàng)新性地建立在緊湊而強(qiáng)大的 Phi-2 小型語言模型框架之上。通過這種方法，TinyGPT-V 在 VQA 和 REC 等各種基準(zhǔn)測(cè)試中取得了優(yōu)異成績(jī)，同時(shí)保持了可控的計(jì)算需求。值得注意的是，TinyGPT-V 可以在 24G GPU 上進(jìn)行訓(xùn)練，并部署在 8G 設(shè)備上，這表明在創(chuàng)建高性價(jià)比，高效和強(qiáng)大的 MLLM 方面取得了重大進(jìn)展。這篇論文標(biāo)志著我們?cè)跒閷?shí)際應(yīng)用案例創(chuàng)建更小，更強(qiáng)大的多模態(tài)語言模型方面做出了貢獻(xiàn)。我們?cè)O(shè)想，我們的工作將促進(jìn)進(jìn)一步探索，為各種應(yīng)用開發(fā)緊湊型 MLLM。文章來源地址http://www.zghlxwxcb.cn/news/detail-809891.html

到了這里，關(guān)于【LMM 012】TinyGPT-V：24G顯存訓(xùn)練，8G顯存推理的高效多模態(tài)大模型的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！