一、概述
1、是什么
? ? Instruct BLIP 全稱《InstructBLIP: Towards General-purpose?Vision-Language Models with Instruction Tuning》,是一個多模態(tài)視覺-文本大語言模型,隸屬BLIP系列第三篇,可以完成:圖像描述、視覺問答、名畫名人等識別(問答、描述)。支持單幅圖片輸入(作為第一個輸入),多輪文本對話。(不支持圖文交錯輸入、寫代碼、視覺定位、JSON mode等。)
? ? 整體架構沿用BLIP2,在Q-former中多加入了文本prompt token來和圖片進行交互。構造一個指令數(shù)據集,只訓練q-former。
2、亮點
? ? *對視覺語言指令調優(yōu)進行了全面而系統(tǒng)的研究。將26個數(shù)據集轉換為指令調優(yōu)格式(13個用于指令調優(yōu),13個用于zero-shot評估),并將其分為11個任務類別(保留了四個完整的任務類別,以便在任務水平上進行zero-shot評估)。
? ? *提出了指令感知的視覺特征提取,這是一種新的機制,可以根據給定的指令靈活地提取信息豐富的特征。
? ? *使用兩個LLM家族評估并開源了一套InstructBLIP模型:FlanT5、Vicuna。
PS文章來源:http://www.zghlxwxcb.cn/news/detail-816896.html
? ? 這里要注意其實BLIP2的Q-former 也是有文本輸入的,也可以作為prompt,只是可能沒有專門經文章來源地址http://www.zghlxwxcb.cn/news/detail-816896.html
到了這里,關于VLM 系列——Instruct BLIP——論文解讀的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!