国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

多模態(tài)應用展望——看圖聊天、BLIP2

這篇具有很好參考價值的文章主要介紹了多模態(tài)應用展望——看圖聊天、BLIP2。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

看圖聊天

BLIP2 是 salesforce 公司開源的多模態(tài)模型,其大致的原理,可以類比看圖寫作,當前 AI 在文生圖模式之外,也支持圖生文模式,可以將照片中的核心元素識別出來。然后把這些元素作為上下文,交給 ChatGPT 類似的大語言模型進行擴展寫作和對話。

BLIP2 在線試用地址為:https://huggingface.co/spaces/Salesforce/BLIP2,在線 demo 使用 BLIP2-OPT-6.7B 模型來獲取圖片信息,使用 BLIP2-FlanT5xxl 模型來支持文本聊天。

我們用兩個實際的小任務,來測試一下 BLIP2 的能力,也順帶通過任務過程,介紹它的原理。

PPT 修改建議

某天,小辛很苦惱,在制作 PPT 時覺得 ChatGPT 只能提供內(nèi)容建議,不能幫助格式優(yōu)化。而他又很難把格式優(yōu)化的需求通過純文本的方式描述清楚。小辛更想直接手指著屏幕說:"這個地方和這個地方怎么對不齊???"

這其實就是一個多模態(tài)的內(nèi)容理解和生成。我們把過程拆解一下:

  1. 要從截圖中識別出來這是一個 PPT,并且其中有若干個掛件。
  2. 要從問題文本中理解出來問的是兩個掛件和對齊。
  3. 要把兩個模態(tài)的信息關(guān)聯(lián)起來:問的是截圖里 PPT 的哪兩個掛件的對齊。
  4. 從 PPT 知識中推理出最終回答。

這里第一步是 CV 的圖像識別能力,第二步是 NLP 的語義分析能力,第四步是 LLM 的對話能力,只要第三步能合理的生成 LLM 的 prompt,就可以構(gòu)建出完整的多模態(tài)能力。

我們在 BLIP2 的在線 demo 上做一次實驗。我把自己一份 PPT 截圖,上傳到 demo 上,開始詢問PPT 上兩個圖表是否對齊?BLIP2 回答:沒有。再第二輪問答,詢問:應該如何讓圖表對齊呢?BLIP2 回答:把左邊的圖表往下挪。

多模態(tài)應用展望——看圖聊天、BLIP2

全過程如截圖所示,可以說表現(xiàn)非常驚艷。如果加強第四步,引入 ChatGPT 能力,沒準還能具體介紹 PPT 操作中,左邊的圖表往下挪時,出現(xiàn)紅色對齊線就算真正對齊了吧。

競爭情報分析

第二個例子,我們用一個更實際的場景。作為產(chǎn)品經(jīng)理,競對分析和市場情報收集是非常重要的工作。某天,我們發(fā)現(xiàn)友商公眾號上,發(fā)布了他們公司年會的全員大合影。數(shù)出來全體員工的數(shù)量,將有助于我們推斷友商的競爭投入力度。

人臉識別其實是已經(jīng)非常完善的領域,直接在微信平臺中,我們都能找到現(xiàn)成的"幫你數(shù)"小程序完成這次統(tǒng)計。不過這次,用完"幫你數(shù)"以后,我們打算再考驗一次 BLIP2 的水準:

多模態(tài)應用展望——看圖聊天、BLIP2

有趣的現(xiàn)象發(fā)生了:多次重復運行,BLIP2 面對"圖中有多少人"這種直接詢問時,都只能給出"大于 100 人"這種模糊的回答。

這到底是是 CV 階段的問題,還是 Chat 階段的問題?我們引入 CLIP Interrogator 這個目前最主流的圖生文工具來看看。CLIP Interrogator 在主流的 stable-diffusion webui 里有內(nèi)置頁面可用,也可以直接使用在線 demo:https://huggingface.co/spaces/pharma/CLIP-Interrogator。將圖片加載到 CLIP Interrogator 中,得到的圖像是:

看起來確實不會數(shù)數(shù)?

我們換一個思路,這次給 BLIP2 的新問題是:"圖中的人數(shù)是否大于 125",BLIP2 卻很直接表示:NO。再問:"圖中人數(shù)是否大于 120",BLIP2 也很直接表示:YES!

我們可以看到,BLIP2 實際上獲取了比 CLIP-interrogator 輸出更豐富的信息,但需要一定的文本輸入引導,才會正確的說出來。

可惜的是,T5 是谷歌開源的上一代大語言模型,文本生成對話能力和 ChatGPT 有較大差距。讓我們期待 ChatGPT 接入圖生文能力的那天吧。到時候,甚至我們可以想象,讓 ChatGPT 把對話再轉(zhuǎn)換成 DallE2 prompt,然后自動生成應答圖片。人機之間,愉快的斗圖~文章來源地址http://www.zghlxwxcb.cn/news/detail-464476.html

到了這里,關(guān)于多模態(tài)應用展望——看圖聊天、BLIP2的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關(guān)文章

  • 多模態(tài)大模型系列論文(ALBEF、BLIP、BLIP-2)

    多模態(tài)大模型系列論文(ALBEF、BLIP、BLIP-2)

    ?視覺-文本 融合任務,如圖文檢索、視覺問答、NLVR (natural language vision reasoning)等 1)沒有對齊視覺的 tokens 和 文字的 tokens, 因此給 多模編碼器進行圖文交互學習時帶來挑戰(zhàn) 2)訓練多模模型,利用到了互聯(lián)網(wǎng)上爬取的數(shù)據(jù),這些數(shù)據(jù)中往往存在大量噪聲,傳統(tǒng)的圖文特征

    2024年02月08日
    瀏覽(42)
  • 多模態(tài)論文閱讀之BLIP

    多模態(tài)論文閱讀之BLIP

    BLIP: Bootstrapping Language-Image Pre-training for Uni?ed Vision-Language Understanding and Generation 模型角度:clip albef等要么采用encoder-base model 要么采用encoder-decoder model. However, encoder-based models are less straightforward to directly transfer to text generation tasks(e.g. image captioning), whereas encoder-decoder models have

    2024年02月06日
    瀏覽(26)
  • 看圖角色扮演聊天ui

    該程序是一個聊天機器人的界面程序,主要功能是讓用戶輸入文本,調(diào)用聊天機器人的模型或API,返回機器人的回復,并顯示在界面上。 下面從以下幾個方面講解此程序的創(chuàng)新和功能。 GUI功能:程序使用了Python內(nèi)置庫 tkinter 作為GUI框架,實現(xiàn)了對話記錄、文字輸入、發(fā)送按

    2024年02月11日
    瀏覽(20)
  • [BLIP]-多模態(tài)Language-Image預訓練模型

    [BLIP]-多模態(tài)Language-Image預訓練模型

    論文:https://arxiv.org/pdf/2201.12086.pdf ?代碼:GitHub - salesforce/BLIP: PyTorch code for BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation demo:BLIP - a Hugging Face Space by akhaliq motivation: 從模型角度來看,大多數(shù)方法要么采用基于編碼器的模型,要么采用編碼器

    2024年02月05日
    瀏覽(28)
  • MiniGPT-4開源了:看圖聊天、教學、創(chuàng)作、搭網(wǎng)站

    MiniGPT-4開源了:看圖聊天、教學、創(chuàng)作、搭網(wǎng)站

    一個月前,OpenAI 總裁 Greg Brockman 向世人展示了 GPT-4 令人驚訝的多模態(tài)能力,如從手寫文本直接生成網(wǎng)站和識別圖像中的幽默元素等。 盡管目前 OpenAI 暫未對 GPT-4 用戶開放這一能力,但具有多模態(tài)能力的視覺語言模型令人充滿了想象力。 近日,來自阿卜杜拉國王科技大學的研

    2024年02月01日
    瀏覽(20)
  • 基于LLMs的多模態(tài)大模型(Flamingo, BLIP-2,KOSMOS-1,ScienceQA)

    基于LLMs的多模態(tài)大模型(Flamingo, BLIP-2,KOSMOS-1,ScienceQA)

    前一篇博客已經(jīng)整理了不訓練視覺模型的文章們: 基于LLMs的多模態(tài)大模型(Visual ChatGPT,PICa,MM-REACT,MAGIC) 本篇文章將介紹一些需要訓練視覺編碼器來適配多模態(tài)大模型的工作們,這也是目前最為流行的研究思路。 其實早在2021年DeepMind發(fā)表Frozen的時候就已經(jīng)有了few-shot甚至

    2024年02月06日
    瀏覽(31)
  • 【多模態(tài)】5、BLIP | 統(tǒng)一理解與生成任務 為圖像生成更高質(zhì)量的文本描述

    【多模態(tài)】5、BLIP | 統(tǒng)一理解與生成任務 為圖像生成更高質(zhì)量的文本描述

    論文:BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation 代碼:https://github.com/salesforce/BLIP 線上體驗:https://huggingface.co/spaces/Salesforce/BLIP 出處:ICML 2022 | Salesforce Research 時間:2022.02 貢獻: 提出了一個可以聯(lián)合訓練理解和生成任務的多模態(tài)混合模

    2024年02月16日
    瀏覽(103)
  • CV多模態(tài)和AIGC的原理解析:從CLIP、BLIP到Stable Diffusion、Midjourney

    CV多模態(tài)和AIGC的原理解析:從CLIP、BLIP到Stable Diffusion、Midjourney

    終于開寫本CV多模態(tài)系列的核心主題:stable diffusion相關(guān)的了,為何執(zhí)著于想寫這個stable diffusion呢,源于三點 去年stable diffusion和midjourney很火的時候,就想寫,因為經(jīng)常被刷屏,但那會時間錯不開 去年11月底ChatGPT出來后,我今年1月初開始寫ChatGPT背后的技術(shù)原理,而今年2月份

    2024年02月13日
    瀏覽(29)
  • CV多模態(tài)和AIGC原理解析:從CLIP、BLIP到DALLE 3、Stable Diffusion、MDJ

    CV多模態(tài)和AIGC原理解析:從CLIP、BLIP到DALLE 3、Stable Diffusion、MDJ

    終于開寫本CV多模態(tài)系列的核心主題:stable diffusion相關(guān)的了,為何執(zhí)著于想寫這個stable diffusion呢,源于三點 去年stable diffusion和midjourney很火的時候,就想寫,因為經(jīng)常被刷屏,但那會時間錯不開 去年11月底ChatGPT出來后,我今年1月初開始寫ChatGPT背后的技術(shù)原理,而今年2月份

    2024年02月06日
    瀏覽(55)
  • CV多模態(tài)和AIGC的原理解析:從CLIP、BLIP到DALLE 3、Stable Diffusion/MDJ

    CV多模態(tài)和AIGC的原理解析:從CLIP、BLIP到DALLE 3、Stable Diffusion/MDJ

    終于開寫本CV多模態(tài)系列的核心主題:stable diffusion相關(guān)的了,為何執(zhí)著于想寫這個stable diffusion呢,源于三點 去年stable diffusion和midjourney很火的時候,就想寫,因為經(jīng)常被刷屏,但那會時間錯不開 去年11月底ChatGPT出來后,我今年1月初開始寫ChatGPT背后的技術(shù)原理,而今年2月份

    2024年02月08日
    瀏覽(27)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包