Valley: Video Assistant with Large Language model Enhanced abilitY 大家好,我是卷了又沒卷,薛定諤的卷的AI算法工程師「陳城南」~ 擔(dān)任某大廠的算法工程師,帶來最新的前沿AI知識和工具,包括AI相關(guān)技術(shù)、ChatGPT、AI繪圖等, 歡迎大家交流~。
?
近期基于LLaMA微調(diào)的模型有很多,Alpaca,Vicuna都是基于ChatGPT等數(shù)據(jù)進行文本場景指令微調(diào),LLaVA也使用圖文對數(shù)據(jù)進行了圖文場景多模態(tài)能力的擴展(這幾個模型往期文章都有涉及,不清楚/感興趣的可以看)。文章來源:http://www.zghlxwxcb.cn/news/detail-593397.html
而本文提到的Valley則是字節(jié)發(fā)布的視頻場景多模態(tài)指令微調(diào)LLaMA模型。 其中這幾個指令微調(diào)版本的模型都大差不差,主要還是數(shù)據(jù)與訓(xùn)練的差異。本文描述Valley當(dāng)然對標的是其類似模型LLaVA,原文introduction部分翻譯修改后如下: 在Valley中,我們遵循 LLaVA 的先預(yù)訓(xùn)練然后指令調(diào)整的流程,采用一個簡單的投影模塊作為視頻、圖像和語言模式之間的橋梁。 我們采用 CLIP (Radford et al., 2021) 的 ViT-L/14 (Dosovitskiy et al., 2021) 作為視覺編碼器(與LLaVA一致),然后提出一種時空池化操作來統(tǒng)一視頻和圖像輸入的視覺編碼(模型差異點)。 通過更新投影模塊進行預(yù)訓(xùn)練,以使統(tǒng)一的視覺嵌入與 LLM 保持一致,其中 Stable-Vicuna (Chiang et al., 2023) 由于其多語言能力而成為文章來源地址http://www.zghlxwxcb.cn/news/detail-593397.html
到了這里,關(guān)于7月第一講,LLaMA模型指令微調(diào) 字節(jié)跳動多模態(tài)視頻大模型的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!