服務(wù)器系列
前言
一個(gè)月前,OpenAI 總裁 Greg Brockman 向世人展示了 GPT-4 令人驚訝的多模態(tài)能力,如從手寫文本直接生成網(wǎng)站和識(shí)別圖像中的幽默元素等。
盡管目前 OpenAI 暫未對(duì) GPT-4 用戶開放這一能力,但具有多模態(tài)能力的視覺語(yǔ)言模型令人充滿了想象力。
近日,來(lái)自阿卜杜拉國(guó)王科技大學(xué)的研究團(tuán)隊(duì),便提出了一個(gè)具有類似 GPT-4 圖像理解與對(duì)話能力的 AI 大模型——MiniGPT-4,并將其開源。
據(jù)介紹,MiniGPT-4 具有出色的多模態(tài)能力,如從手寫草稿創(chuàng)建網(wǎng)站、生成詳細(xì)的圖像描述、根據(jù)圖像創(chuàng)作故事和詩(shī)歌、為圖像中描述的問題提供解決方案,以及根據(jù)食物照片教對(duì)話對(duì)象如何烹飪一道美味的菜品等。
MiniGPT4
MiniGPT4 是來(lái)自阿布杜拉國(guó)王科技大學(xué)的幾位博士做的,它能夠提供類似于GPT4的圖像理解,以及對(duì)話的能力,搶先一步感受圖像對(duì)話的強(qiáng)大之處。那我們先來(lái)看一下它的演示視頻,這個(gè)項(xiàng)目有幾個(gè)特點(diǎn):
第一就是多模態(tài) 也就是能夠讀懂圖片 在這個(gè)示例中呢 它可以回答圖片是關(guān)于什么內(nèi)容的 有多少種顏色甚至能夠說(shuō)明這個(gè)圖片是屬于什么風(fēng)格的。GPT-4 先進(jìn)的多模態(tài)生成能力的主要原因在于使用了更先進(jìn)的大型語(yǔ)言模型 (LLM)。MiniGPT-4,它僅使用一個(gè)投影層將凍結(jié)的視覺編碼器與凍結(jié)的 LLM Vicuna 對(duì)齊。我們的研究結(jié)果表明,MiniGPT-4 擁有許多類似于 GPT-4 所展示的功能,例如詳細(xì)的圖像描述生成和從手寫草稿創(chuàng)建網(wǎng)站。此外,我們還觀察到 MiniGPT-4 中的其他新興功能,包括根據(jù)給定的圖像寫故事和詩(shī)歌,為圖像中顯示的問題提供解決方案,教用戶如何根據(jù)食物照片做飯等。
第二點(diǎn) 高級(jí)大型語(yǔ)言模型,增強(qiáng)視覺語(yǔ)言理解。
第三點(diǎn) 低成本,僅僅用了4塊的A100GPU, 訓(xùn)練了僅僅10個(gè)小時(shí),絕對(duì)稱得上是迷你。
第四點(diǎn)就是整個(gè)項(xiàng)目是開源的。
它使用了更先進(jìn)的大模型語(yǔ)言,也就是說(shuō)未來(lái)在圖像聲音視頻等等領(lǐng)域呢,基于這些大模型所制造出來(lái)的應(yīng)用 ,實(shí)際的效果呢應(yīng)該都不會(huì)太差。 這個(gè)項(xiàng)目也證實(shí)了 ,大語(yǔ)言模型在圖像領(lǐng)域的可行性。 接下來(lái)呢相信應(yīng)該會(huì)有不少的開發(fā)者跑步入場(chǎng) ,將GPT4的能力進(jìn)一步的往音頻視頻等等領(lǐng)域延伸, 讓我們可以看到更多有趣令人驚艷的AI應(yīng)用程序。
試用地址:https://3228d8146e5c39b4be.gradio.live/
效果展示
在技術(shù)層面上,MiniGPT-4 由一個(gè)帶有預(yù)訓(xùn)練的 ViT 和 Q-Former 的視覺編碼器、一個(gè)單一的線性投影層和一個(gè) Vicuna 大語(yǔ)言模型組成。而且,MiniGPT-4 只需要訓(xùn)練線性層,使視覺特征與 Vicuna 保持一致。
有 Y Combinator 用戶這樣評(píng)價(jià) MiniGPT-4,“在技術(shù)層面上,他們正在做一些非常簡(jiǎn)單的事情…但結(jié)果非常驚人。最重要的是,它在 OpenAI 的 GPT-4 圖像模態(tài)之前出現(xiàn)。(這是)開源 AI 的真正勝利。”
也有用戶表示,“我認(rèn)為他們?yōu)橐粋€(gè)不相關(guān)的項(xiàng)目使用 GPT-4 名稱是一種糟糕的形式。畢竟,底層的 Vicuna 只是一個(gè)微調(diào)的 LLaMA。另外,他們使用了較小的 13B 版本。然而,結(jié)果看起來(lái)很有趣。”
項(xiàng)目地址:
https://minigpt-4.github.io/文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-429077.html
GitHub地址:
https://github.com/Vision-CAIR/MiniGPT-4文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-429077.html
到了這里,關(guān)于MiniGPT-4開源了:看圖聊天、教學(xué)、創(chuàng)作、搭網(wǎng)站的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!