看圖聊天
BLIP2 是 salesforce 公司開源的多模態(tài)模型,其大致的原理,可以類比看圖寫作,當前 AI 在文生圖模式之外,也支持圖生文模式,可以將照片中的核心元素識別出來。然后把這些元素作為上下文,交給 ChatGPT 類似的大語言模型進行擴展寫作和對話。
BLIP2 在線試用地址為:https://huggingface.co/spaces/Salesforce/BLIP2,在線 demo 使用 BLIP2-OPT-6.7B 模型來獲取圖片信息,使用 BLIP2-FlanT5xxl 模型來支持文本聊天。
我們用兩個實際的小任務,來測試一下 BLIP2 的能力,也順帶通過任務過程,介紹它的原理。
PPT 修改建議
某天,小辛很苦惱,在制作 PPT 時覺得 ChatGPT 只能提供內(nèi)容建議,不能幫助格式優(yōu)化。而他又很難把格式優(yōu)化的需求通過純文本的方式描述清楚。小辛更想直接手指著屏幕說:"這個地方和這個地方怎么對不齊???"
這其實就是一個多模態(tài)的內(nèi)容理解和生成。我們把過程拆解一下:
- 要從截圖中識別出來這是一個 PPT,并且其中有若干個掛件。
- 要從問題文本中理解出來問的是兩個掛件和對齊。
- 要把兩個模態(tài)的信息關(guān)聯(lián)起來:問的是截圖里 PPT 的哪兩個掛件的對齊。
- 從 PPT 知識中推理出最終回答。
這里第一步是 CV 的圖像識別能力,第二步是 NLP 的語義分析能力,第四步是 LLM 的對話能力,只要第三步能合理的生成 LLM 的 prompt,就可以構(gòu)建出完整的多模態(tài)能力。
我們在 BLIP2 的在線 demo 上做一次實驗。我把自己一份 PPT 截圖,上傳到 demo 上,開始詢問PPT 上兩個圖表是否對齊?BLIP2 回答:沒有。再第二輪問答,詢問:應該如何讓圖表對齊呢?BLIP2 回答:把左邊的圖表往下挪。
全過程如截圖所示,可以說表現(xiàn)非常驚艷。如果加強第四步,引入 ChatGPT 能力,沒準還能具體介紹 PPT 操作中,左邊的圖表往下挪時,出現(xiàn)紅色對齊線就算真正對齊了吧。
競爭情報分析
第二個例子,我們用一個更實際的場景。作為產(chǎn)品經(jīng)理,競對分析和市場情報收集是非常重要的工作。某天,我們發(fā)現(xiàn)友商公眾號上,發(fā)布了他們公司年會的全員大合影。數(shù)出來全體員工的數(shù)量,將有助于我們推斷友商的競爭投入力度。
人臉識別其實是已經(jīng)非常完善的領域,直接在微信平臺中,我們都能找到現(xiàn)成的"幫你數(shù)"小程序完成這次統(tǒng)計。不過這次,用完"幫你數(shù)"以后,我們打算再考驗一次 BLIP2 的水準:
有趣的現(xiàn)象發(fā)生了:多次重復運行,BLIP2 面對"圖中有多少人"這種直接詢問時,都只能給出"大于 100 人"這種模糊的回答。
這到底是是 CV 階段的問題,還是 Chat 階段的問題?我們引入 CLIP Interrogator 這個目前最主流的圖生文工具來看看。CLIP Interrogator 在主流的 stable-diffusion webui 里有內(nèi)置頁面可用,也可以直接使用在線 demo:https://huggingface.co/spaces/pharma/CLIP-Interrogator。將圖片加載到 CLIP Interrogator 中,得到的圖像是:
看起來確實不會數(shù)數(shù)?
我們換一個思路,這次給 BLIP2 的新問題是:"圖中的人數(shù)是否大于 125",BLIP2 卻很直接表示:NO。再問:"圖中人數(shù)是否大于 120",BLIP2 也很直接表示:YES!
我們可以看到,BLIP2 實際上獲取了比 CLIP-interrogator 輸出更豐富的信息,但需要一定的文本輸入引導,才會正確的說出來。文章來源:http://www.zghlxwxcb.cn/news/detail-464476.html
可惜的是,T5 是谷歌開源的上一代大語言模型,文本生成對話能力和 ChatGPT 有較大差距。讓我們期待 ChatGPT 接入圖生文能力的那天吧。到時候,甚至我們可以想象,讓 ChatGPT 把對話再轉(zhuǎn)換成 DallE2 prompt,然后自動生成應答圖片。人機之間,愉快的斗圖~文章來源地址http://www.zghlxwxcb.cn/news/detail-464476.html
到了這里,關(guān)于多模態(tài)應用展望——看圖聊天、BLIP2的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!