Valley: Video Assistant with Large Language model Enhanced abilitY
大家好,我是卷了又沒卷,薛定諤的卷的AI算法工程師「陳城南」~ 擔(dān)任某大廠的算法工程師,帶來最新的前沿AI知識(shí)和工具,包括AI相關(guān)技術(shù)、ChatGPT、AI繪圖等, 歡迎大家交流~。
近期基于LLaMA微調(diào)的模型有很多,Alpaca,Vicuna都是基于ChatGPT等數(shù)據(jù)進(jìn)行文本場(chǎng)景指令微調(diào),LLaVA也使用圖文對(duì)數(shù)據(jù)進(jìn)行了圖文場(chǎng)景多模態(tài)能力的擴(kuò)展(這幾個(gè)模型往期文章都有涉及,不清楚/感興趣的可以看)。
而本文提到的Valley則是字節(jié)發(fā)布的視頻場(chǎng)景多模態(tài)指令微調(diào)LLaMA模型。
其中這幾個(gè)指令微調(diào)版本的模型都大差不差,主要還是數(shù)據(jù)與訓(xùn)練的差異。本文描述Valley當(dāng)然對(duì)標(biāo)的是其類似模型LLaVA,原文introduction部分翻譯修改后如下:
在Valley中,我們遵循 LLaVA 的先預(yù)訓(xùn)練然后指令調(diào)整的流程,采用一個(gè)簡(jiǎn)單的投影模塊作為視頻、圖像和語言模式之間的橋梁。 我們采用 CLIP (Radford et al., 2021) 的 ViT-L/14 (Dosovitskiy et al., 2021) 作為視覺編碼器(與LLaVA一致),然后提出一種時(shí)空池化操作來統(tǒng)一視頻和圖像輸入的視覺編碼(模型差異點(diǎn))。 通過更新投影模塊進(jìn)行預(yù)訓(xùn)練,以使統(tǒng)一的視覺嵌入與 LLM 保持一致,其中 Stable-Vicuna (Chiang et al., 2023) 由于其多語言能力而成為選擇的 LLM。 此外,我們引入了從各種視頻任務(wù)中收集的多模態(tài)指令跟蹤數(shù)據(jù)集,包括視頻問答、長(zhǎng)描述、隨意關(guān)系推理和動(dòng)作識(shí)別。 經(jīng)過指令微調(diào),最終提出了我們的視頻理解谷多模態(tài)基礎(chǔ)模型。 作為人工智能助手,我們預(yù)計(jì)Valley將在各種視頻相關(guān)任務(wù)中得到廣泛的應(yīng)用,并幫助用戶以類似于在現(xiàn)實(shí)世界中與人聊天的方式更好地理解和解釋復(fù)雜的視頻。
結(jié)合論文內(nèi)容,我對(duì)Valley的貢獻(xiàn)作了概括:
- 模型:基于LLaVA的方法,添加了時(shí)空池化模塊應(yīng)對(duì)視頻(多幀)場(chǎng)景,將LLaVA從單圖擴(kuò)展為多圖(動(dòng)態(tài)長(zhǎng)度),同時(shí)將LLaVA的Vicuna語言模型換為Stable-Vicuna模型。;
- 數(shù)據(jù):搞了多模態(tài)的instruction-following數(shù)據(jù)集,聚焦于視頻理解、比較多樣的任務(wù)(包括multi-short captions,帶時(shí)間戳的時(shí)間性描述、長(zhǎng)視頻的復(fù)雜陳述。同時(shí)使用了ChatGPT生成對(duì)話人和視頻內(nèi)容的對(duì)話,進(jìn)一步增強(qiáng)數(shù)據(jù)集的質(zhì)量和多樣性。
- 開源:LLM時(shí)代,開源也是貢獻(xiàn)~
Related Work
感興趣的可以通過 相關(guān)工作來了解一下LLM的現(xiàn)狀,以下為部分機(jī)翻:
現(xiàn)有的方法可以分為兩種技術(shù)路線,一種是利用LLM作為調(diào)度器來調(diào)度現(xiàn)有的多模態(tài)模型,另一種是基于LLM來訓(xùn)練多模態(tài)模型。 前者在接收到用戶指令和各個(gè)基礎(chǔ)模型的功能后,將LLM作為控制器逐步調(diào)用相應(yīng)的模型,并整合各個(gè)模型的輸出內(nèi)容生成結(jié)果(Wu等,2023;Shen等,2023)。 ,2023;Yang 等人,2023)。 例如,HuggingGPT(Shen et al., 2023)利用ChatGPT根據(jù)其功能描述在Hugging Face1中選擇合適的模型并總結(jié)其執(zhí)行結(jié)果。 后者為法學(xué)碩士配備輔助模塊,幫助他們通過端到端訓(xùn)練理解多模態(tài)內(nèi)容(Li et al., 2023c; Zhu et al., 2023; Zhu et al., 2023; Zhu et al., 2023; Liu et al., 2023; Su 等人,2023;戴等人,2023)。 例如,LLaVA (Liu et al., 2023) 和 MiniGPT-4 (Zhu et al., 2023) 通過投影層將 LLaMA (Touvron et al., 2023) 與視覺編碼器連接起來,賦予其理解圖像的能力 。 Video-LLaMA (Zhang et al., 2023) 通過 Q-Former 為 LLaMA (Touvron et al., 2023) 提供視覺和音頻信息,賦予其基于視頻的對(duì)話能力。
方法部分
網(wǎng)絡(luò)結(jié)構(gòu)
在LLaVA(如上圖)基礎(chǔ)上進(jìn)行了擴(kuò)展,將其單圖擴(kuò)展為多圖(視頻),如下圖:
多幀的處理通過時(shí)空池化模塊,具體:
- 有T個(gè)圖,每個(gè)圖的特征為 Vcls + 256 個(gè)patch token;
- 在patch token上做時(shí)間維度的平均,即T個(gè)圖平均,則剩余特征為 T個(gè)Vcls + 256個(gè)平均后的patch token,下圖為patch token的平均;
- 因?yàn)閜atch token的時(shí)間平均會(huì)損失時(shí)間信息(保留空間信息),所以將Vcls token 拼接在patch token后面,最終得到 T+256個(gè)視覺Token的輸入,下圖的V平均就是patch token;
空間tokens:256 patch(平均),時(shí)序tokens:T個(gè)CLS Token;這兩個(gè)Token最終會(huì)經(jīng)過映射層(Projection)與Text tokens銜接在一起送給大模型;
指令微調(diào)數(shù)據(jù)收集
作者基于MSRVTT(10k)、VATEX(22k)、AativityNet(10k)、VIOLIN(5.8k)共多個(gè)數(shù)據(jù)集構(gòu)建了視頻中心多模態(tài)指令數(shù)據(jù),包含3種上下文類型,這些對(duì)應(yīng)的問答對(duì)生成通過stable-vicuna生成,如下圖
參考LLaVA和VideoChat中生成Prompt的方式,作者也用了上面的3種上下文文本和Stable-Vicuna生成了指令微調(diào)數(shù)據(jù),如下圖。累積42k對(duì)話和5.8k的問答對(duì),其中對(duì)話數(shù)據(jù)涵蓋基礎(chǔ)視頻內(nèi)容描述(目標(biāo)信息等)、時(shí)間內(nèi)容理解。問答數(shù)據(jù)包含因果推理、字符識(shí)別和視頻復(fù)雜內(nèi)容理解。
訓(xùn)練
同LLaVA類似的兩階段訓(xùn)練方式,第一階段通過預(yù)訓(xùn)練映射層來進(jìn)行特征對(duì)齊;第二階段再微調(diào)語言模型和映射層;
映射層預(yù)訓(xùn)練
使用圖文對(duì)、視頻文本對(duì)兩種數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,其中圖文對(duì)為L(zhǎng)LaVA的595k CC3M數(shù)據(jù),視頻文本對(duì)為參考LLaVA過濾方法進(jìn)行過濾的 702K WebVid2M 數(shù)據(jù)。兩種類型數(shù)據(jù)的Prompt組織方式一致,均為:
如果輸入單個(gè)圖像,則幀數(shù)為1。圖像-文本對(duì)和視頻-文本對(duì)構(gòu)建為單輪對(duì)話,使用各種問題詢問視頻內(nèi)容,并使用相應(yīng)的標(biāo)題進(jìn)行回答。
微調(diào)
不止上面提到的42k對(duì)話和5.8k的問答對(duì),為了增強(qiáng)對(duì)視覺內(nèi)容的強(qiáng)調(diào),還從LLaVA中收集了150k的圖片指令數(shù)據(jù)、以及VideoChat收集的11k視頻指令。
實(shí)驗(yàn)部分
沒有什么指標(biāo),給了幾個(gè)case大家感受下性能就行
Limitation
-
加入音頻信息,構(gòu)建 音、畫、文三種模態(tài)可感知的多模態(tài)模型;
-
提供中文感知能力,構(gòu)建更多的中文多模態(tài)數(shù)據(jù)來增強(qiáng)模型;文章來源:http://www.zghlxwxcb.cn/news/detail-554976.html
-
存在LLM固有的幻覺問題(hallucination problem)需要解決?;糜X問題指大模型的輸出是錯(cuò)誤的、無意義的、輸出與輸入是明顯不符合的(比如在摘要生成任務(wù)上)等情況,詳細(xì)可參考:文章來源地址http://www.zghlxwxcb.cn/news/detail-554976.html
- GPT-4的“hallucination”(幻覺)相關(guān)對(duì)策
- 對(duì)話大模型中的事實(shí)錯(cuò)誤:ChatGPT 的缺陷文本任務(wù)_問題
- Survey of Hallucination in Natural Language Generation arXiv:2202.03629v5
到了這里,關(guān)于LLaMA模型指令微調(diào) 字節(jié)跳動(dòng)多模態(tài)視頻大模型 Valley 論文詳解的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!