国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Visual Instruction Tuning: 用LLaVA近似多模態(tài)GPT-4

這篇具有很好參考價(jià)值的文章主要介紹了Visual Instruction Tuning: 用LLaVA近似多模態(tài)GPT-4。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

Visual Instruction Tuning: 用LLaVA近似多模態(tài)GPT-4

?Paperweekly 原創(chuàng) · 作者 |?Chunyuan Li

使用 GPT-4 進(jìn)行視覺指令學(xué)習(xí)!Visual Instruction Tuning with GPT-4!

Visual Instruction Tuning: 用LLaVA近似多模態(tài)GPT-4

▲?Generated by GLIGEN (https://gligen.github.io/): A cute lava llama and glasses

我們分享了 LLaVA (Language-and-Vision Assistant),一款展示了某些近似多模態(tài) GPT-4 水平能力的語(yǔ)言和視覺助手:

  • 視覺聊天 (Visual Chat):相對(duì)得分達(dá)到了 GPT-4 的 85%

  • 多模態(tài)推理任務(wù)的科學(xué)問答 (Science QA):達(dá)到了新的 SoTA 92.53%,超過了之前的最先進(jìn)的方法:多模態(tài)思維鏈技術(shù) (multimodal chain-of-thoughts)

Visual Instruction Tuning: 用LLaVA近似多模態(tài)GPT-4

▲?構(gòu)建一個(gè)包含30張未見圖像的評(píng)估數(shù)據(jù)集,其中每個(gè)圖像都關(guān)聯(lián)著三種類型的指令:對(duì)話、詳細(xì)描述和復(fù)雜推理。這樣總共有90個(gè)新的語(yǔ)言-圖像指令,我們進(jìn)行了LLaVA和GPT-4的評(píng)測(cè),并使用GPT-4將它們的結(jié)果從1到10進(jìn)行評(píng)分。每種類型的總分和相對(duì)分?jǐn)?shù)都被報(bào)告。LLaVA相對(duì)于GPT-4達(dá)到了85.1%的相對(duì)分?jǐn)?shù)

Visual Instruction Tuning: 用LLaVA近似多模態(tài)GPT-4

項(xiàng)目主頁(yè) Project Page:

https://llava-vl.github.io/

論文 Paper:

https://arxiv.org/abs/2304.08485

代碼 GitHub:

https://github.com/haotian-liu/LLaVA

演示 Demo:

https://llava.hliu.cc/

數(shù)據(jù) Data (158K unique language-image instruction-following samples):

https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K

模型 Model (LLaVA-13B):

https://huggingface.co/liuhaotian/LLaVA-13b-delta-v0

Visual Instruction Tuning: 用LLaVA近似多模態(tài)GPT-4

學(xué)習(xí)總結(jié)

我總結(jié)目前為止的項(xiàng)目主要體驗(yàn):

1. 多模態(tài)指令跟蹤數(shù)據(jù)(Multimodal Instruction-following Data)?

毫無疑問,數(shù)據(jù)質(zhì)量是這個(gè)項(xiàng)目的關(guān)鍵。我們大部分時(shí)間都在迭代新的指令數(shù)據(jù)。在這個(gè)數(shù)據(jù)為中心(Data-Centric)的項(xiàng)目中,需要考慮以下因素:圖像的符號(hào)化表示(包括 Caption & Boxes)、ChatGPT vs GPT-4、提示工程(Prompt Engineering)等。?

看到學(xué)術(shù)圈一直以來沒有這類數(shù)據(jù),我們開源了我們最新一個(gè)版本的數(shù)據(jù),希望能啟發(fā)更多人沿著這個(gè)道路去探索。

2. 視覺對(duì)話(Visual Chat)

LLaVA 在涉及面向用戶應(yīng)用的聊天過程中表現(xiàn)出非常強(qiáng)的泛化能力,盡管只是在不到 1M CC/COCO 數(shù)據(jù)的訓(xùn)練下進(jìn)行的。?

(a) 強(qiáng)大的多模態(tài)推理能力:GPT-4技術(shù)報(bào)告中的兩個(gè)基于圖像的推理示例,一度以為難以企及,利用LLaVA現(xiàn)在可以輕松復(fù)現(xiàn)。

Visual Instruction Tuning: 用LLaVA近似多模態(tài)GPT-4

Visual Instruction Tuning: 用LLaVA近似多模態(tài)GPT-4

(b) 強(qiáng)大的 OCR 文字識(shí)別能力:請(qǐng)看我剛剛制作的一些示例。它能識(shí)別 CVPR、我們的舉辦的 Computer Vision in the Wild (CVinW) Workshop 的標(biāo)志的圖片,和 LLaVA 本身相關(guān)的照片。

CVinW?Workshop:

https://github.com/Computer-Vision-in-the-Wild

Visual Instruction Tuning: 用LLaVA近似多模態(tài)GPT-4

Visual Instruction Tuning: 用LLaVA近似多模態(tài)GPT-4

Visual Instruction Tuning: 用LLaVA近似多模態(tài)GPT-4

3. 科學(xué)問答(Science QA)

單獨(dú)使用 LLaVA 實(shí)現(xiàn)了 90.92% 的準(zhǔn)確率。我們使用僅文本的 GPT-4 作為評(píng)判者,根據(jù)其自身先前的答案和 LLaVA 的答案預(yù)測(cè)最終答案。這種“GPT-4 作為評(píng)判者”的方案產(chǎn)生了新的 SOTA 92.53%。令人驚訝的是,GPT-4 可以作為一種有效的模型集成方法!這些結(jié)果希望啟發(fā)大家以后刷榜的時(shí)候,可以利用 GPT-4 這個(gè)神奇來集成不同方法。

Visual Instruction Tuning: 用LLaVA近似多模態(tài)GPT-4

總的來說,LLaVA 展示了一種非常有前途的方法,啟發(fā)大家復(fù)現(xiàn)且超越 GPT-4 的多模態(tài)能力。

更多閱讀

Visual Instruction Tuning: 用LLaVA近似多模態(tài)GPT-4

Visual Instruction Tuning: 用LLaVA近似多模態(tài)GPT-4

Visual Instruction Tuning: 用LLaVA近似多模態(tài)GPT-4

??

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

·

·

·

Visual Instruction Tuning: 用LLaVA近似多模態(tài)GPT-4文章來源地址http://www.zghlxwxcb.cn/news/detail-500746.html

到了這里,關(guān)于Visual Instruction Tuning: 用LLaVA近似多模態(tài)GPT-4的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【提示學(xué)習(xí)論文七】Visual Prompt Tuning論文原理

    【提示學(xué)習(xí)論文七】Visual Prompt Tuning論文原理

    這篇文章于2022年發(fā)表在ECCV(European Conference on Computer Vision),作者是Menglin Jia, Luming Tang,Bor-Chun Chen, Claire Cardie, Serge Belongie,Bharath Hariharan, Ser-Nam Lim。 VPT是一種有效的用于大規(guī)模Transformer的視覺微調(diào),只需要在輸入空間引入少量可訓(xùn)練參數(shù),同時(shí)凍結(jié)backbone。 目前適應(yīng)預(yù)訓(xùn)練模

    2024年01月17日
    瀏覽(28)
  • 小白理解GPT的“微調(diào)“(fine-tuning)

    對(duì)于GPT-3.5,我們實(shí)際上并不能在OpenAI的服務(wù)器上直接訓(xùn)練它。OpenAI的模型通常是預(yù)訓(xùn)練好的,也就是說,它們已經(jīng)在大量的語(yǔ)料上進(jìn)行過訓(xùn)練,學(xué)習(xí)到了語(yǔ)言的基本規(guī)則和模式。 然而,OpenAI提供了一種叫做\\\"微調(diào)\\\"(fine-tuning)的方法,讓我們可以在預(yù)訓(xùn)練好的模型基礎(chǔ)上進(jìn)行

    2024年02月04日
    瀏覽(21)
  • [論文閱讀筆記76]GPT Understands, Too(P-tuning)

    [論文閱讀筆記76]GPT Understands, Too(P-tuning)

    題目 論文作者與單位 來源 年份 GPT Understands, Too 清華大學(xué) Citations, References 論文鏈接:https://arxiv.org/pdf/2103.10385.pdf 論文代碼: 研究主題 問題背景 核心方法流程 亮點(diǎn) 數(shù)據(jù)集 結(jié)論 論文類型 微調(diào)大模型 采用傳統(tǒng)微調(diào)的gpt在自然語(yǔ)言理解(NLU)方面未能取得良好的效果

    2024年02月09日
    瀏覽(19)
  • Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于視頻理解的指令調(diào)諧視聽語(yǔ)言

    Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于視頻理解的指令調(diào)諧視聽語(yǔ)言

    我們提出了一個(gè)多模態(tài)框架Video-LLaMA1,它使 大型語(yǔ)言模型(LLM)能夠理解視頻中的視覺和聽覺內(nèi)容 。視頻-來自 凍結(jié)的預(yù)訓(xùn)練視頻和音頻編碼器和凍結(jié)的LLM的美洲駝引導(dǎo)跨模式訓(xùn)練 。不像以前的工作, 補(bǔ)充線性最小二乘法只處理視覺或聽覺信號(hào) (朱等,2023;劉等,2023;Huang

    2024年02月03日
    瀏覽(19)
  • 微軟出品,166頁(yè)深度解讀,多模態(tài)GPT-4V

    微軟出品,166頁(yè)深度解讀,多模態(tài)GPT-4V

    多模態(tài)王炸大模型GPT-4V,166頁(yè)“說明書”重磅發(fā)布!而且還是微軟團(tuán)隊(duì)出品。 什么樣的論文,能寫出166頁(yè)? 不僅詳細(xì)測(cè)評(píng)了GPT-4V在十大任務(wù)上的表現(xiàn),從基礎(chǔ)的圖像識(shí)別、到復(fù)雜的邏輯推理都有展示; 還傳授了一整套多模態(tài)大模型提示詞使用技巧—— 手把手教你從0到1學(xué)會(huì)

    2024年02月07日
    瀏覽(15)
  • 一文看懂多模態(tài)大型語(yǔ)言模型GPT-4

    一文看懂多模態(tài)大型語(yǔ)言模型GPT-4

    近日,OpenAI發(fā)布了最新版的生成預(yù)訓(xùn)練模型GPT-4。據(jù)官方介紹,最新一代的模型是一個(gè)大模型,性能比CPT-3.5強(qiáng)悍很多,不僅僅是接受圖像、文本、代碼等的輸入輸出,更多的是在很多專業(yè)領(lǐng)域表現(xiàn)出人類的水準(zhǔn)水;與上一代不同的是它的核心技術(shù)是基于Transformer的自回歸語(yǔ)言

    2023年04月08日
    瀏覽(17)
  • 基于LLMs的多模態(tài)大模型(Visual ChatGPT,PICa,MM-REACT,MAGIC)

    基于LLMs的多模態(tài)大模型(Visual ChatGPT,PICa,MM-REACT,MAGIC)

    當(dāng)LLMs已經(jīng)擁有了極強(qiáng)的對(duì)話能力后,如何使其擁有視覺和語(yǔ)音等多模態(tài)能力是緊接而來的熱點(diǎn)(雖然GPT4已經(jīng)有了),這個(gè)系列將不定期更新一些利用LLMs做多模態(tài)任務(wù)的文章。 直覺上,如果直接訓(xùn)練一個(gè)類似chatgpt架構(gòu)的多模態(tài)框架一定會(huì)消耗非常大的數(shù)據(jù)和計(jì)算量,此外如

    2024年02月06日
    瀏覽(24)
  • 探索 GPTCache|GPT-4 將開啟多模態(tài) AI 時(shí)代,GPTCache + Milvus 帶來省錢秘籍

    探索 GPTCache|GPT-4 將開啟多模態(tài) AI 時(shí)代,GPTCache + Milvus 帶來省錢秘籍

    世界正處于數(shù)字化的浪潮中,為了更好理解和分析大量數(shù)據(jù),人們對(duì)于人工智能(AI)解決方案的需求呈爆炸式增長(zhǎng)。 此前,OpenAI 推出基于 GPT-3.5 模型的智能對(duì)話機(jī)器人 ChatGPT,在自然語(yǔ)言處理(NLP)領(lǐng)域掀起了新一輪的技術(shù)革命,引發(fā)了大家對(duì)大語(yǔ)言模型(LLM)的關(guān)注。同

    2024年02月14日
    瀏覽(19)
  • Claude3 AI系列重磅推出:引領(lǐng)多模態(tài)智能時(shí)代的前沿技術(shù),超越GPT-4

    Claude3 AI系列重磅推出:引領(lǐng)多模態(tài)智能時(shí)代的前沿技術(shù),超越GPT-4

    劃重點(diǎn): ?? Claude3系列發(fā)布,包括Haiku、Sonnet和Opus版本,Opus在多個(gè)領(lǐng)域超越GPT-4。 ?? 用戶可免費(fèi)使用Claude3Sonnet模型,支持中文,API已覆蓋159個(gè)國(guó)家/地區(qū)。 ?? 新增多模態(tài)圖像識(shí)別提問功能,Claude3在數(shù)學(xué)與推理、可視化問答等方面超越GPT-4V。 (PS: wildcard已經(jīng)可以訂閱Clau

    2024年03月09日
    瀏覽(47)
  • 多模態(tài)大模型Claude 3正式接入集簡(jiǎn)云與語(yǔ)聚!對(duì)標(biāo)GPT-4且支持中文

    多模態(tài)大模型Claude 3正式接入集簡(jiǎn)云與語(yǔ)聚!對(duì)標(biāo)GPT-4且支持中文

    自O(shè)penAI發(fā)布GPT-4以來,引發(fā)了業(yè)務(wù)模式與應(yīng)用使用的巨大變革,掀起了各大企業(yè)對(duì)于多模態(tài)大模型的研究熱潮。3月初,AnthropicClaude在官網(wǎng)正式發(fā)布Claude 3系列多模態(tài)大模型,據(jù)了解,該模型在多個(gè)維度上超越了GPT-4,為您總結(jié)一波Claude 3的部分能力提升: OCR和復(fù)雜場(chǎng)景解析方面

    2024年03月17日
    瀏覽(23)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包