?Paperweekly 原創(chuàng) · 作者 |?Chunyuan Li
使用 GPT-4 進(jìn)行視覺指令學(xué)習(xí)!Visual Instruction Tuning with GPT-4!
▲?Generated by GLIGEN (https://gligen.github.io/): A cute lava llama and glasses
我們分享了 LLaVA (Language-and-Vision Assistant),一款展示了某些近似多模態(tài) GPT-4 水平能力的語(yǔ)言和視覺助手:
視覺聊天 (Visual Chat):相對(duì)得分達(dá)到了 GPT-4 的 85%
多模態(tài)推理任務(wù)的科學(xué)問答 (Science QA):達(dá)到了新的 SoTA 92.53%,超過了之前的最先進(jìn)的方法:多模態(tài)思維鏈技術(shù) (multimodal chain-of-thoughts)
▲?構(gòu)建一個(gè)包含30張未見圖像的評(píng)估數(shù)據(jù)集,其中每個(gè)圖像都關(guān)聯(lián)著三種類型的指令:對(duì)話、詳細(xì)描述和復(fù)雜推理。這樣總共有90個(gè)新的語(yǔ)言-圖像指令,我們進(jìn)行了LLaVA和GPT-4的評(píng)測(cè),并使用GPT-4將它們的結(jié)果從1到10進(jìn)行評(píng)分。每種類型的總分和相對(duì)分?jǐn)?shù)都被報(bào)告。LLaVA相對(duì)于GPT-4達(dá)到了85.1%的相對(duì)分?jǐn)?shù)
項(xiàng)目主頁(yè) Project Page:
https://llava-vl.github.io/
論文 Paper:
https://arxiv.org/abs/2304.08485
代碼 GitHub:
https://github.com/haotian-liu/LLaVA
演示 Demo:
https://llava.hliu.cc/
數(shù)據(jù) Data (158K unique language-image instruction-following samples):
https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K
模型 Model (LLaVA-13B):
https://huggingface.co/liuhaotian/LLaVA-13b-delta-v0
學(xué)習(xí)總結(jié)
我總結(jié)目前為止的項(xiàng)目主要體驗(yàn):
1. 多模態(tài)指令跟蹤數(shù)據(jù)(Multimodal Instruction-following Data)?
毫無疑問,數(shù)據(jù)質(zhì)量是這個(gè)項(xiàng)目的關(guān)鍵。我們大部分時(shí)間都在迭代新的指令數(shù)據(jù)。在這個(gè)數(shù)據(jù)為中心(Data-Centric)的項(xiàng)目中,需要考慮以下因素:圖像的符號(hào)化表示(包括 Caption & Boxes)、ChatGPT vs GPT-4、提示工程(Prompt Engineering)等。?
看到學(xué)術(shù)圈一直以來沒有這類數(shù)據(jù),我們開源了我們最新一個(gè)版本的數(shù)據(jù),希望能啟發(fā)更多人沿著這個(gè)道路去探索。
2. 視覺對(duì)話(Visual Chat)
LLaVA 在涉及面向用戶應(yīng)用的聊天過程中表現(xiàn)出非常強(qiáng)的泛化能力,盡管只是在不到 1M CC/COCO 數(shù)據(jù)的訓(xùn)練下進(jìn)行的。?
(a) 強(qiáng)大的多模態(tài)推理能力:GPT-4技術(shù)報(bào)告中的兩個(gè)基于圖像的推理示例,一度以為難以企及,利用LLaVA現(xiàn)在可以輕松復(fù)現(xiàn)。
(b) 強(qiáng)大的 OCR 文字識(shí)別能力:請(qǐng)看我剛剛制作的一些示例。它能識(shí)別 CVPR、我們的舉辦的 Computer Vision in the Wild (CVinW) Workshop 的標(biāo)志的圖片,和 LLaVA 本身相關(guān)的照片。
CVinW?Workshop:
https://github.com/Computer-Vision-in-the-Wild
3. 科學(xué)問答(Science QA)
單獨(dú)使用 LLaVA 實(shí)現(xiàn)了 90.92% 的準(zhǔn)確率。我們使用僅文本的 GPT-4 作為評(píng)判者,根據(jù)其自身先前的答案和 LLaVA 的答案預(yù)測(cè)最終答案。這種“GPT-4 作為評(píng)判者”的方案產(chǎn)生了新的 SOTA 92.53%。令人驚訝的是,GPT-4 可以作為一種有效的模型集成方法!這些結(jié)果希望啟發(fā)大家以后刷榜的時(shí)候,可以利用 GPT-4 這個(gè)神奇來集成不同方法。
總的來說,LLaVA 展示了一種非常有前途的方法,啟發(fā)大家復(fù)現(xiàn)且超越 GPT-4 的多模態(tài)能力。
更多閱讀
??
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
·文章來源:http://www.zghlxwxcb.cn/news/detail-500746.html
·
·
文章來源地址http://www.zghlxwxcb.cn/news/detail-500746.html
到了這里,關(guān)于Visual Instruction Tuning: 用LLaVA近似多模態(tài)GPT-4的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!