論文標(biāo)題:TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones
論文作者:Zhengqing Yuan, Zhaoxu Li, Lichao Sun
作者單位:Anhui Polytechnic University, Nanyang Technological University, Lehigh University
論文原文:https://arxiv.org/abs/2312.16862
論文出處:–
論文被引:–(12/31/2023)
論文代碼:https://github.com/DLYuanGod/TinyGPT-V,115 star
Abstract
在先進(jìn)的多模型學(xué)習(xí)時(shí)代,GPT-4V 等多模態(tài)大型語言模型(MLLM)在連接語言和視覺元素方面取得了顯著進(jìn)展。然而,代碼閉源和相當(dāng)大的計(jì)算需求為普及使用和修改帶來了明顯的挑戰(zhàn)。這正是 LLaVA 和 MiniGPT-4 等開源 MLLM 的用武之地,它們?cè)诟鞣N任務(wù)中取得了突破性的成就。盡管取得了這些成就,計(jì)算效率仍是一個(gè)懸而未決的問題,因?yàn)檫@些模型(如 LLaVA-v1.5-13B)需要大量資源。為了解決這些問題,我們推出了 TinyGPT-V,這是一個(gè)將驚人性能與普通計(jì)算能力相結(jié)合的新潮模型。它只需要 24G GPU 進(jìn)行訓(xùn)練,8G GPU 或 CPU 進(jìn)行推理,因此脫穎而出。TinyGPT-V 以 Phi-2 為基礎(chǔ),將有效的語言骨干與 BLIP-2 或 CLIP 的預(yù)訓(xùn)練視覺模塊相結(jié)合。TinyGPT-V 的 2.8B 參數(shù)可以經(jīng)過獨(dú)特的量化處理,適合在 8G 各種設(shè)備上進(jìn)行本地部署和推理任務(wù)。我們的工作促進(jìn)了設(shè)計(jì)高性價(jià)比,高效和高性能 MLLM 的進(jìn)一步發(fā)展,擴(kuò)大了它們?cè)趶V泛現(xiàn)實(shí)世界場(chǎng)景中的適用性。此外,本文還提出了通過小型骨干網(wǎng)建立多模態(tài)大型語言模型的新范式。
1 Introduction
最近,隨著擴(kuò)展性多模態(tài)大語言模型(MLLM)GPT-4V 的問世,我們?cè)谝曈X語言理解和生成方面看到了一些令人印象深刻的能力[45]。盡管如此,必須承認(rèn)的是,GPT-4V 并未開源,因此限制了普遍使用和獨(dú)立修改。從好的方面看,最近開源 MLLMs(如 LLaVA 和 MiniGPT-4)的數(shù)量激增,它們?cè)谀承┤蝿?wù)中表現(xiàn)出了突破性的能力,在圖像描述(IC,Image Captioning),視覺問答(VQA)和指代表達(dá)理解(Referring Expression Comprehension,REC)等領(lǐng)域超過了 GPT-4V [8, 26, 27, 50]。例如,在各種視覺基礎(chǔ)和問題解答任務(wù)的測(cè)試中,MiniGPT-v2 [6] 與其他傳統(tǒng)視覺語言模型相比,表現(xiàn)出了卓越的實(shí)力。
盡管一些開源 MLLM 具備強(qiáng)大的視覺語言能力,但它們?cè)谟?xùn)練和推理階段仍然消耗了過多的計(jì)算資源。例如,LLaVA-v1.5-13B [26] 在 25.5 小時(shí)的訓(xùn)練過程中使用了 8 個(gè) 80GB 顯存的 A100 GPU。由于大型語言模型的性能直接影響到 MLLM 的能力,因此在使用這些模型時(shí),如 LLaVA-v1.5-13B 使用 Vicuna-13b-v1.5 [49],MiniGPT-v2 使用 LLaMA2-7B-Chat [41],需要大量的大型語言模型參數(shù)來提高 IC,VQA 等復(fù)雜任務(wù)的性能 [50]。因此,我們需要一個(gè)能與 LLaMA2 和 Vicuna-v1.5 等模型性能相媲美的大型語言模型,而不需要過多的 GPU 計(jì)算資源。
因此,我們提出了一種名為 TinyGPT-V 的新模型,它只需要 24G GPU 進(jìn)行訓(xùn)練,推理只需要 8G GPU 或 CPU。
- LLM:采用大型語言模型 Phi-2 [19],該模型是在 Phi [24]的基礎(chǔ)上構(gòu)建的,其效果超過了 13B 語言模型的最佳效果,而且與規(guī)模大 25 倍的模型相比,其效果相似或更好。
- 視覺感知:使用了與 BLIP-2 [23] 或 CLIP [35] 相同的預(yù)訓(xùn)練視覺模塊,其中包含一個(gè)作為視覺編碼器的 ViT [10] 以及一個(gè)映射模塊。按照 MiniGPT 的訓(xùn)練方法,TinyGPT-V 在整個(gè)訓(xùn)練過程中只微調(diào)視覺編碼器和語言模型之間的映射模塊,而凍結(jié)所有其他參數(shù)。
- TinyGPT-V 在不同的訓(xùn)練階段使用與 MiniGPT-v2 相同的數(shù)據(jù)集,如 LAION [37],Conceptual Captions [4, 39],SBU [33] 等 [25, 38, 18, 21] 。[25, 38, 18, 21, 29, 13, 31, 20, 46]。
在我們的研究中,我們觀察到 TinyGPT-V 顯示出許多與 GPT-4 相同的特質(zhì),從 Phi-2 模型的應(yīng)用中受益匪淺。TinyGPT-V 僅有 2.8B 個(gè)參數(shù),其獨(dú)特的量化過程使其適用于 8G 移動(dòng)設(shè)備上的本地部署和推理任務(wù)。TinyGPT-V 標(biāo)志著在實(shí)現(xiàn)無與倫比的性能和保持 MLLM 效率之間的平衡方面取得了重大進(jìn)展。通過我們的貢獻(xiàn),我們努力使社區(qū)能夠設(shè)計(jì)出更具成本效益,更高效,更高性能的 MLLM,以滿足廣泛的實(shí)際應(yīng)用場(chǎng)景。
2 Related Work
Advanced language model.
從自然語言處理(NLP)領(lǐng)域的 GPT2 [36] 和 BERT [9] 等早期成功案例開始,語言模型的發(fā)展經(jīng)歷了許多重要的里程碑。這些基礎(chǔ)模型為隨后開發(fā)規(guī)模更大,包含數(shù)千億個(gè)參數(shù)的語言模型奠定了基礎(chǔ)。規(guī)模的急劇擴(kuò)大導(dǎo)致了先進(jìn)功能的出現(xiàn),如 GPT-3 [2],Chinchilla [16],OPT [48] 和 BLOOM [44] 等模型。例如,ChatGPT [32] 和 InstructGPT [34] 利用這些強(qiáng)大的模型來回答各種問題和執(zhí)行復(fù)雜的任務(wù),如coding。LLaMA [41] 等開源 LLM 的引入進(jìn)一步推動(dòng)了這一領(lǐng)域的研究,激發(fā)了 Alpaca [40],Vicuna [7] 等后續(xù)開發(fā)。這些模型利用額外的高質(zhì)量指令數(shù)據(jù)集對(duì) LLaMA 模型進(jìn)行了微調(diào),展示了 LLM 框架的多功能性和適應(yīng)性。最近最顯著的進(jìn)步是 Phi [24] 及其后續(xù)產(chǎn)品 Phi-2 [19]。這些模型表現(xiàn)出了卓越的性能,可與規(guī)模大 25 倍的模型相媲美,甚至超過它們。這表明語言建模的格局發(fā)生了重大變化,它強(qiáng)調(diào)效率和效果,而不一定依賴于純粹的規(guī)模。這種發(fā)展標(biāo)志著 NLP 領(lǐng)域進(jìn)入了一個(gè)新時(shí)代,更小,更高效的模型可以取得與更大的模型相媲美的結(jié)果,為應(yīng)用和研究開辟了新的可能性。
Multimodal language model.
近年來,將視覺輸入與用于視覺語言任務(wù)的大型語言模型相匹配的趨勢(shì)得到了廣泛關(guān)注[5, 42, 1 , 23 , 28, 26 , 50, 6]。
- VisualGPT [5] 和 Frozen [42] 等開創(chuàng)性工作利用預(yù)先訓(xùn)練好的語言模型進(jìn)行 IC 和 VQA。
- Flamingo [1] 等模型進(jìn)一步推動(dòng)了這一方法的發(fā)展,這些模型采用了門控交叉注意機(jī)制,將預(yù)先訓(xùn)練好的視覺編碼器和語言模型統(tǒng)一起來,在大量圖像-文本對(duì)上進(jìn)行訓(xùn)練。
- BLIP-2 [23] 引入了高效的 Q-Former 來對(duì)齊視覺和語言模式。
- 這些開創(chuàng)性的研究為該領(lǐng)域的進(jìn)一步創(chuàng)新鋪平了道路,促成了 LLaVA [28] 和 MiniGPT4 [50] 等模型的開發(fā),以及它們隨后的迭代:LLaVA-v1.5 [26],MiniGPT-v2 [6],ArtGPT-4 [47],instruction GPT-4 [43] 和 Instruction Mining [3]。
這些模型通過指令調(diào)優(yōu)展示了先進(jìn)的多模態(tài)能力,展現(xiàn)了非凡的泛化能力。盡管這些多模態(tài)語言模型具有強(qiáng)大的視覺語言任務(wù)能力,但通常需要大量的計(jì)算資源。相比之下,TinyGPT-V 代表了一種范式的轉(zhuǎn)變,它利用成本效益高,功能強(qiáng)大的小型語言模型,實(shí)現(xiàn)了一種適用于各種真實(shí)世界視覺語言應(yīng)用的穩(wěn)健,易于部署的模型。這種方法強(qiáng)調(diào)了向更高效但同樣勝任的多模態(tài)語言建模邁進(jìn)的趨勢(shì)。
3 Method
我們首先提出了我們的視覺語言模型TinyGGPT-V,然后討論了模型的結(jié)構(gòu)和任務(wù)的組織,最后介紹了每個(gè)階段的訓(xùn)練過程。
3.1 Model Architecture
在本小節(jié)中,我們介紹了TinyGPT-V的結(jié)構(gòu),它由視覺編碼器線性投影層和大型語言模型組成。
Visual encoder backbone.
與 MiniGPT-v2 一樣,ViT 的 EVA [11] 在 TinyGPT-V 適應(yīng)過程中充當(dāng)視覺基礎(chǔ)模型。在整個(gè)模型訓(xùn)練過程中,視覺基礎(chǔ)模型始終處于凍結(jié)狀態(tài)。我們的模型訓(xùn)練在第一,第二和第三階段以 224x224 的圖片分辨率運(yùn)行,在第四階段以 448x448 的圖片分辨率運(yùn)行。
Linear projection layers.
線性投影層的功能是將視覺編碼器提取的視覺特征嵌入語言模型。同時(shí),還努力使廣泛的語言模型能夠理解基于圖像的信息。我們之所以采用源自 BLIP-2 [23] 架構(gòu)的 Q-Former 層作為初始線性投影層,是因?yàn)槲覀兿M谝曈X語言模型中部署預(yù)訓(xùn)練 BLIP 系統(tǒng)時(shí),能夠從中提取最大的功能。這種方法大大減少了需要訓(xùn)練階段的參數(shù)量。我們利用高斯分布初始化的線性投影層作為第二層。這樣做的目的是彌合 Q-Former 輸出與語言模型嵌入層之間的維度差距,從而更好地將視覺標(biāo)記與語言模型的相關(guān)隱藏空間對(duì)齊。如圖 2 所示,為了加快 TinyGPT-V 的訓(xùn)練過程,我們首先使用 MiniGPT-4 (Vicuna 7B)中預(yù)先訓(xùn)練好的線性投影作為基礎(chǔ)層。隨后,我們整合了一個(gè)額外的線性層投影,以有效銜接 Phi-2 模型的相應(yīng)隱藏空間。
Large lanuguage model backbone.
我們利用 Phi-2 [19] 模型作為 TinyGPT-V 大型語言模型的骨干。Phi-2 是一個(gè)擁有 27 億參數(shù)的語言模型,具有出色的推理能力和語言理解能力,在參數(shù)少于 130 億的基礎(chǔ)語言模型中表現(xiàn)出最先進(jìn)的性能。在復(fù)雜的基準(zhǔn)測(cè)試中,Phi-2 的性能可媲美或超越 25 倍以上的大多數(shù)模型。我們完全依靠 Phi-2 語言標(biāo)記(token)來執(zhí)行多項(xiàng)視覺語言操作。對(duì)于需要?jiǎng)?chuàng)建空間位置的視覺錨定任務(wù),我們明確要求語言模型生成文本描述的邊界框,以表示其地理坐標(biāo)。
Normalization and LoRA for TinyGPT-V
在第 4.3 節(jié)中,我們推斷,訓(xùn)練較小規(guī)模的大型語言模型進(jìn)行遷移學(xué)習(xí),尤其是跨不同模態(tài)(如從文本到圖像)的遷移學(xué)習(xí),會(huì)帶來巨大的挑戰(zhàn)。我們的研究發(fā)現(xiàn),較小的模型在多模態(tài)數(shù)據(jù)計(jì)算過程中特別容易出現(xiàn) NaN 或 INF 值。這通常會(huì)導(dǎo)致計(jì)算損失值為 NaN,從而導(dǎo)致初始批量前向傳播失敗。此外,在這些較小的模型中,可訓(xùn)練參數(shù)的數(shù)量有限,這也會(huì)導(dǎo)致在整個(gè)訓(xùn)練過程中梯度消失。為了解決這些問題,如圖 3 ? 所示,我們整合了 LLaMA-2 的后規(guī)范化(post-norm)和輸入規(guī)范化(input norm)機(jī)制,在每個(gè)多頭注意力層 (MHA) 之后實(shí)施 RMS Norm,以規(guī)范后續(xù)層的數(shù)據(jù)。我們還更新了 Phi-2 模型中所有層的規(guī)范,以提高訓(xùn)練的穩(wěn)定性,如下式所示。
此外,Henry et.al [15] 強(qiáng)調(diào)了 Query-Key Normalization 在低資源學(xué)習(xí)場(chǎng)景中的重要作用。因此,如圖 3 (d) 所示,我們?cè)?Phi-2 模型中加入了 “Query-Key Normalization”,詳見下式。
LoRA 機(jī)制[17]的結(jié)構(gòu)如圖 3(a)所示,它是一種與圖 3(c)所示的凍結(jié)預(yù)訓(xùn)練權(quán)重并行的高效微調(diào)方法,不會(huì)增加大型語言模型的推理耗時(shí),也更容易優(yōu)化。
3.2 Multi-task Instruction Template
在訓(xùn)練統(tǒng)一的多模態(tài)模型以處理視覺問答(VQA),圖像描述(IC),指代表達(dá)理解(REC),生成以及物體解析和定位(object parsing and grounding)等不同任務(wù)時(shí),為了減少潛在的模糊性,我們?cè)诙嗳蝿?wù)指令模板中使用了 MiniGPT-v2 特定任務(wù)標(biāo)記。它源于 LLaMA-2 對(duì)話模板[41],包括由圖像特征,任務(wù)標(biāo)識(shí)符和指令輸入組成的通用輸入格式。它有六個(gè)不同的任務(wù)標(biāo)識(shí)符,每個(gè)都與特定任務(wù)相關(guān)。對(duì)于需要模型識(shí)別所指對(duì)象空間位置的任務(wù),它采用文本格式的邊界框,坐標(biāo)歸一化范圍為 0 到 100??傊?,MiniGPT-v2 提供的獨(dú)特任務(wù)特定標(biāo)記有助于任務(wù)之間的歧義區(qū)分,從而使任務(wù)執(zhí)行更加精確和準(zhǔn)確。
3.3 Training Stages
在本小節(jié)中,將描述 TinyGT-V 的三階段訓(xùn)練過程。
Warm-up training for the first training stage.
在最初的預(yù)訓(xùn)練階段,TinyGPT-V 使用一個(gè)大型的對(duì)齊圖像-文本對(duì)庫學(xué)習(xí)視覺-語言理解。該模型將引入的投影層輸出識(shí)別為軟提示,引導(dǎo)其創(chuàng)建相關(guān)文本,并允許大型語言模型接受來自圖像模態(tài)的輸入。預(yù)訓(xùn)練過程使用了 Conceptual Caption,SBU 和 LAION 的組合數(shù)據(jù)集,訓(xùn)練 20000 步,約 500 萬個(gè)圖像-文本對(duì)。
Pre-training for the second training stage.
在初始訓(xùn)練階段之后,大語言模型便具備了處理圖像模態(tài)輸入的能力。為了保證模型在過渡到后續(xù)訓(xùn)練階段時(shí)性能更加穩(wěn)定,我們重新使用了第一階段的數(shù)據(jù)集,專門用于訓(xùn)練 LoRA 模塊。
Human-like learning for the third training stage.
我們從 MiniGPT4 或 LLaVA 中選擇了一些圖像-文本對(duì)(image-text pairings),對(duì) TinyGPT-V 模型進(jìn)行了微調(diào),其中包括以下指令:
"###Human: <Img><ImageHere></Img> Take a look at this image and describe what you notice.###Assistant:."
我們使用了一個(gè)統(tǒng)一的模板(Template),包括隨機(jī)選擇的提示(Prompt),這提高了模型生成一致且更自然的響應(yīng)的能力。
Multi-task learning in the fourth training stage.
TinyGPT-V 的第四個(gè)訓(xùn)練階段與 MiniGPT-v2 相同,主要是通過使用更多的多模態(tài)指令數(shù)據(jù)集來微調(diào)模型,從而增強(qiáng)其作為聊天機(jī)器人的對(duì)話能力。如表 1 所示,這些數(shù)據(jù)集包括 LLaVA,混合多任務(wù)數(shù)據(jù)集 Flickr30k 和非自然指令。
- LLaVA 數(shù)據(jù)集用于多模態(tài)指令調(diào)優(yōu),其中包含詳細(xì)描述和復(fù)雜推理示例。
- Flickr30k 數(shù)據(jù)集用于改進(jìn)基礎(chǔ)圖像標(biāo)題生成以及對(duì)象解析和基礎(chǔ)能力。
- 此外,還創(chuàng)建了一個(gè)混合多任務(wù)數(shù)據(jù)集,以提高模型在多輪對(duì)話中處理多個(gè)任務(wù)的能力。
- 最后,為了恢復(fù)語言生成能力,在 TinyGPT-V 的第三階段訓(xùn)練中加入了非自然指令數(shù)據(jù)集。
4 Experiments
在本節(jié)中,我們將詳細(xì)介紹訓(xùn)練和評(píng)估方法。
4.1 Training
Experimental setting.
硬件環(huán)境:NVIDIA 24GB 顯存的 RTX 3090 GPU,AMD EPYC 7552 48 core CPU,80GB RAM。
軟件環(huán)境:PyTorch 2.0.0 ,CUDA 11.8,便于在 GPU 上進(jìn)行優(yōu)化的張量操作。
Training process.
如圖 4 和圖 5 所示,在實(shí)驗(yàn)過程中,我們通過四個(gè)不同的階段精心安排了模型的訓(xùn)練,每個(gè)階段都有特定的學(xué)習(xí)率策略和損失曲線。
第 1 階段:采用動(dòng)態(tài)學(xué)習(xí)率方法,17 個(gè)epoch,每個(gè) epoch 包含 1000 次迭代。每個(gè)epoch 開始時(shí)的學(xué)習(xí)率為1e-5,到epoch結(jié)束時(shí)逐漸升至1e-4。所有epoch中均遵從這種模式。訓(xùn)練損失呈現(xiàn)出穩(wěn)步下降的趨勢(shì),從 7.152 開始,逐漸下降到 2.620,反映出模型從數(shù)據(jù)中學(xué)習(xí)的能力在不斷提高。這一階段的目的是讓 TinyGPT-V 中的 Phi-2 模型對(duì)圖像模態(tài)的輸入做出某種反應(yīng)。完成文本和圖像在語義空間中的對(duì)齊。
第 2 階段:4 個(gè)epoch,每個(gè) epoch 迭代 5000 次,采用 linear_warmup_cosine_lr[14, 12] 學(xué)習(xí)率計(jì)劃。warmup 階段 5000 步,學(xué)習(xí)率從 1e-6(warmup_lr)線性上升到 1e-4(init_lr),然后余弦衰減到最低學(xué)習(xí)率 8e-5。在這一階段,損失持續(xù)減少,從 2.726 開始,最終達(dá)到 2.343。這一階段的目的是讓 LoRA 模塊在多模態(tài)數(shù)據(jù)中發(fā)揮作用,進(jìn)一步降低模型在圖像-文本對(duì)上的損失,提高模型從數(shù)據(jù)中學(xué)習(xí)的能力。
第 3 階段:5 個(gè)epoch,每個(gè) epoch 迭代 200 次。采用 linear_warmup_cosine_lr 計(jì)劃,熱身階段為 200 步。學(xué)習(xí)率從 1e-6,上升到 3e-5(init_lr),然后下降到 1e-5(min_lr)。損失值從 1.992 開始下降到 1.125,反映了明顯的改進(jìn)。這一階段的目的是讓 TinyGPT-V 同時(shí)接受語言和圖像模態(tài)輸入,并對(duì)它們做出響應(yīng)。經(jīng)過這一階段的訓(xùn)練,TinyGPT-V 已能完成大部分圖像回答任務(wù)。
第 4 階段:50 個(gè)epoch,每個(gè) epoch 迭代 1000 次。采用 linear_warmup_cosine_lr 計(jì)劃,warmup 階段 1000 步。學(xué)習(xí)率從 1e-6 開始,最高達(dá)到 1e-5(init_lr),然后經(jīng)歷余弦衰減,最低為 8e-5。訓(xùn)練損失值呈持續(xù)下降趨勢(shì),從 2.720 開始,最終降至 1.399。這一階段的目的是讓 TinyGPT-V 同時(shí)執(zhí)行各種任務(wù),如 VQA 或 VSR 任務(wù),從而提高 TinyGPT-V 在多模態(tài)任務(wù)上的泛化性能。
4.2 Evaluation
Evaluation datasets.
- GQA [18] 是一個(gè)用于真實(shí)世界視覺推理和組合問題解答的數(shù)據(jù)集,其強(qiáng)大的問題引擎可生成 2200 萬個(gè)不同的推理問題。
- VSR [28] 包含 1 萬多個(gè)英文自然文本-圖像對(duì),涵蓋 66 種空間關(guān)系。
- IconQA [30] 包含 107439 個(gè)問題,旨在挑戰(zhàn)圖標(biāo)圖像背景下的視覺理解和推理,包括三個(gè)子任務(wù)(多圖像選擇,多文本選擇和填空)。
- VizWiz[13]收集了 31000 多個(gè)視覺問題,每個(gè)問題都來自視障人士使用智能手機(jī)拍攝的一張照片,并附有一個(gè)與圖像相關(guān)的發(fā)聲問題,每個(gè)問題還有10個(gè)來自人群的答案。
- 由 Facebook AI 開發(fā)的 Hateful Memes dataset (HM) [22]是一個(gè)全面的多模態(tài)數(shù)據(jù)集,專門用于檢測(cè)備忘錄中的仇恨內(nèi)容,結(jié)合了圖像和文本元素,包含 10000 多個(gè)新創(chuàng)建的多模態(tài)示例。
Visual question answering results.
如表 2 所示,TinyGPT-V 作為一個(gè)只有 28 億個(gè)參數(shù)的模型,在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)出明顯的競(jìng)爭(zhēng)力,可與擁有近 130 億個(gè)參數(shù)的模型相媲美。具體來說,在 VSR(視覺空間推理)零拍任務(wù)中,TinyGPT-V 以 53.2% 的最高得分超越了同類產(chǎn)品??紤]到其參數(shù)大小約為 BLIP-2,LLaVA 和 InstructBLIP 等其他領(lǐng)先模型的 4.6 倍,這一成績(jī)尤其令人印象深刻。在 GQA 基準(zhǔn)測(cè)試中,TinyGPT-V 的得分率為 33.6%,落后于 InstructBLIP 的最高得分率 49.5%。不過,TinyGPT-V 在 IconVQ 挑戰(zhàn)賽中表現(xiàn)強(qiáng)勁,獲得了 43.3% 的分?jǐn)?shù),僅比 InstructBLIP 的領(lǐng)先分?jǐn)?shù) 44.8% 少 1.5%。同樣,在 VizWiz 任務(wù)中,TinyGPT-V 表現(xiàn)出了值得稱贊的能力,得分率為 24.8%,雖然不是最高分,但由于減少了參數(shù)數(shù)量,得分率還是很高的。在 HM 數(shù)據(jù)集方面,TinyGPT-V 的得分為 53.2%,與 InstructBLIP 的最高得分 57.5%不相上下,再次證明了它的效率和與更大規(guī)模模型競(jìng)爭(zhēng)的能力??傮w而言,TinyGPT-V 在這些多樣化和具有挑戰(zhàn)性的基準(zhǔn)測(cè)試中的表現(xiàn)令人矚目,尤其是考慮到其參數(shù)效率時(shí)更是如此。
4.3 Ablation Study
如表 3 所示,完整的 TinyGPT-V 模型在所有階段都實(shí)現(xiàn)了低損失,但刪除關(guān)鍵模塊會(huì)導(dǎo)致嚴(yán)重的訓(xùn)練問題。文章來源:http://www.zghlxwxcb.cn/news/detail-809891.html
- 如果沒有 LoRA 模塊,從第 3 階段開始就會(huì)出現(xiàn)梯度消失。
- 如果沒有 Input Layer Norm 會(huì)顯著增加損失(第 1 階段為 2.839),并導(dǎo)致第 4 階段的梯度消失。
- 如果沒有 RMS Norm,模型在第 1 階段的損失會(huì)增加(2.747),并在第 2 階段面臨早期梯度消失。
- 沒有 QK Norm 會(huì)導(dǎo)致梯度立即消失。這些數(shù)據(jù)清楚地說明了每個(gè)模塊在防止梯度消失和在整個(gè)訓(xùn)練過程中保持低損失方面的關(guān)鍵作用。
5 Conclusion
在本研究中,我們介紹了 TinyGPT-V,它是一種參數(shù)高效的 MLLMs,專為一系列真實(shí)世界的視覺語言應(yīng)用而量身定制。我們的模型創(chuàng)新性地建立在緊湊而強(qiáng)大的 Phi-2 小型語言模型框架之上。通過這種方法,TinyGPT-V 在 VQA 和 REC 等各種基準(zhǔn)測(cè)試中取得了優(yōu)異成績(jī),同時(shí)保持了可控的計(jì)算需求。值得注意的是,TinyGPT-V 可以在 24G GPU 上進(jìn)行訓(xùn)練,并部署在 8G 設(shè)備上,這表明在創(chuàng)建高性價(jià)比,高效和強(qiáng)大的 MLLM 方面取得了重大進(jìn)展。這篇論文標(biāo)志著我們?cè)跒閷?shí)際應(yīng)用案例創(chuàng)建更小,更強(qiáng)大的多模態(tài)語言模型方面做出了貢獻(xiàn)。我們?cè)O(shè)想,我們的工作將促進(jìn)進(jìn)一步探索,為各種應(yīng)用開發(fā)緊湊型 MLLM。文章來源地址http://www.zghlxwxcb.cn/news/detail-809891.html
到了這里,關(guān)于【LMM 012】TinyGPT-V:24G顯存訓(xùn)練,8G顯存推理的高效多模態(tài)大模型的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!