GPT-4平替版：MiniGPT-4，支持圖像理解和對(duì)話，現(xiàn)已開(kāi)源

2年前作者：wshzd分類：Toy博客閱讀(24)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了GPT-4平替版：MiniGPT-4，支持圖像理解和對(duì)話，現(xiàn)已開(kāi)源。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

項(xiàng)目地址：https://minigpt-4.github.io/?
論文鏈接：https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf
代碼：https://github.com/Vision-CAIR/MiniGPT-4
視頻：https://youtu.be/__tftoxpBAw
數(shù)據(jù)集：https://drive.google.com/file/d/1nJXhoEcy3KTExr17I7BXqY5Y9Lx_-n-9/view
Demo地址：https://6b89c70eb5e14dca33.gradio.live/
Demo備選地址1：https://b2517615b965687635.gradio.live/
Demo備選地址2：https://c8de8ff74b6a6c6a9b.gradio.live/
Demo備選地址3：https://0a111504e072685259.gradio.live/
Demo備選地址4：https://90bc0bac96e6457e8f.gradio.live/

Demo界面如下：

GPT-4平替版：MiniGPT-4，支持圖像理解和對(duì)話，現(xiàn)已開(kāi)源

MiniGPT-4介紹

阿卜杜拉國(guó)王科技大學(xué)的研究團(tuán)隊(duì)，提出了一個(gè)具有類似 GPT-4 圖像理解與對(duì)話能力的 AI 大模型——MiniGPT-4，并將其開(kāi)源

MiniGPT-4 由一個(gè)帶有預(yù)訓(xùn)練的 ViT（與BLIP-2一樣）和 Q-Former 的視覺(jué)編碼器、一個(gè)單一的線性投影層和一個(gè) Vicuna 大語(yǔ)言模型組成，只訓(xùn)練線性投影層，視覺(jué)編碼器和Vicuna的參數(shù)凍結(jié)。模型結(jié)構(gòu)如下圖所示：

GPT-4平替版：MiniGPT-4，支持圖像理解和對(duì)話，現(xiàn)已開(kāi)源

實(shí)驗(yàn)發(fā)現(xiàn)，MiniGPT-4 具有出色的多模態(tài)能力，如從手寫草稿創(chuàng)建網(wǎng)站、生成詳細(xì)的圖像描述、根據(jù)圖像創(chuàng)作故事和詩(shī)歌、為圖像中描述的問(wèn)題提供解決方案，以及根據(jù)食物照片教對(duì)話對(duì)象如何烹飪一道美味的菜品等

MiniGPT-4兩階段fine-tuning

作者采用兩階段fine-tuningMiniGPT-4，第一階段是在公開(kāi)數(shù)據(jù)上微調(diào)，第二階段是構(gòu)建高質(zhì)量的對(duì)話數(shù)據(jù)再微調(diào)。

First?pretraining stage

MiniGPT-4使用一個(gè)線性投影層來(lái)對(duì)齊Vicuna語(yǔ)言編碼器和視覺(jué)特征。剛開(kāi)始，使用4個(gè)A100GPU以batch大小為256訓(xùn)練了20k個(gè)step（訓(xùn)練了10小時(shí)），訓(xùn)練數(shù)據(jù)是LAION，Conceptual Captions和SBU（總共5M數(shù)據(jù)），數(shù)據(jù)格式如下所示：

GPT-4平替版：MiniGPT-4，支持圖像理解和對(duì)話，現(xiàn)已開(kāi)源

<ImageFeature>?表示是線性投影層得到的視覺(jué)特征。

如果生成的句子不夠80個(gè)tokens，那么就在后面pad?###Human: Continue ###Assistant:

構(gòu)建第二階段微調(diào)所需要的數(shù)據(jù)

從Conceptual Caption數(shù)據(jù)集中隨機(jī)選擇5000個(gè)樣本，這些樣本可能會(huì)有噪聲或者有錯(cuò)誤，使用ChatGPT進(jìn)行修復(fù)這些錯(cuò)誤，Prompt如下：

GPT-4平替版：MiniGPT-4，支持圖像理解和對(duì)話，現(xiàn)已開(kāi)源

最終人工進(jìn)行檢查，最后整理符合要求的樣本有3500個(gè)，這些樣本將用于第二階段微調(diào)。

Second pretraining stage

第二階段微調(diào)的Prompt數(shù)據(jù)格式如下：

GPT-4平替版：MiniGPT-4，支持圖像理解和對(duì)話，現(xiàn)已開(kāi)源

<Instruction>?是從預(yù)定義好的instruction集中隨機(jī)采樣的，比如“Describe this image in detail”或“Could you describe the contents of this image for me”

Note：在計(jì)算回歸損失函數(shù)的時(shí)候不計(jì)算<Instruction>?這個(gè)特殊的Prompt。

這個(gè)階段使用一個(gè)A100GPU在batch大小為12的時(shí)候，訓(xùn)練400個(gè)step，僅僅訓(xùn)練了7分鐘。

MiniGPT-4示例

GPT-4平替版：MiniGPT-4，支持圖像理解和對(duì)話，現(xiàn)已開(kāi)源

GPT-4平替版：MiniGPT-4，支持圖像理解和對(duì)話，現(xiàn)已開(kāi)源文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-462648.html

到了這里，關(guān)于GPT-4平替版：MiniGPT-4，支持圖像理解和對(duì)話，現(xiàn)已開(kāi)源的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

智能AIGC寫作系統(tǒng)ChatGPT系統(tǒng)源碼+Midjourney繪畫+支持GPT-4-Turbo模型+支持GPT-4圖片對(duì)話
SparkAi創(chuàng)作系統(tǒng)是基于ChatGPT進(jìn)行開(kāi)發(fā)的Ai智能問(wèn)答系統(tǒng)和Midjourney繪畫系統(tǒng)，支持OpenAI-GPT全模型+國(guó)內(nèi)AI全模型。本期針對(duì)源碼系統(tǒng)整體測(cè)試下來(lái)非常完美，可以說(shuō)SparkAi是目前國(guó)內(nèi)一款的ChatGPT對(duì)接OpenAI軟件系統(tǒng)。那么如何搭建部署AI創(chuàng)作ChatGPT？小編這里寫一個(gè)詳細(xì)圖文教程吧！
2024年02月03日
瀏覽(24)
AI創(chuàng)作系統(tǒng)ChatGPT網(wǎng)站源碼，AI繪畫，支持GPT聯(lián)網(wǎng)提問(wèn)/即將支持TSS語(yǔ)音對(duì)話功能
SparkAi創(chuàng)作系統(tǒng)是基于ChatGPT進(jìn)行開(kāi)發(fā)的Ai智能問(wèn)答系統(tǒng)和Midjourney繪畫系統(tǒng)，支持OpenAI-GPT全模型+國(guó)內(nèi)AI全模型。本期針對(duì)源碼系統(tǒng)整體測(cè)試下來(lái)非常完美，可以說(shuō)SparkAi是目前國(guó)內(nèi)一款的ChatGPT對(duì)接OpenAI軟件系統(tǒng)。那么如何搭建部署AI創(chuàng)作ChatGPT？小編這里寫一個(gè)詳細(xì)圖文教程吧！
2024年02月03日
瀏覽(367)
AI創(chuàng)作系統(tǒng)ChatGPT系統(tǒng)源碼，支持Midjourney繪畫，GPT語(yǔ)音對(duì)話+DALL-E3文生圖
SparkAi創(chuàng)作系統(tǒng)是基于ChatGPT進(jìn)行開(kāi)發(fā)的Ai智能問(wèn)答系統(tǒng)和Midjourney繪畫系統(tǒng)，支持OpenAI-GPT全模型+國(guó)內(nèi)AI全模型。本期針對(duì)源碼系統(tǒng)整體測(cè)試下來(lái)非常完美，可以說(shuō)SparkAi是目前國(guó)內(nèi)一款的ChatGPT對(duì)接OpenAI軟件系統(tǒng)。那么如何搭建部署AI創(chuàng)作ChatGPT？小編這里寫一個(gè)詳細(xì)圖文教程吧！
2024年02月04日
瀏覽(28)
AI創(chuàng)作系統(tǒng)ChatGPT網(wǎng)站源碼+搭建部署教程文檔，AI繪畫，支持TSS GPT語(yǔ)音對(duì)話功能
SparkAi創(chuàng)作系統(tǒng)是基于ChatGPT進(jìn)行開(kāi)發(fā)的Ai智能問(wèn)答系統(tǒng)和Midjourney繪畫系統(tǒng)，支持OpenAI-GPT全模型+國(guó)內(nèi)AI全模型。本期針對(duì)源碼系統(tǒng)整體測(cè)試下來(lái)非常完美，可以說(shuō)SparkAi是目前國(guó)內(nèi)一款的ChatGPT對(duì)接OpenAI軟件系統(tǒng)。那么如何搭建部署AI創(chuàng)作ChatGPT？小編這里寫一個(gè)詳細(xì)圖文教程吧！
2024年02月04日
瀏覽(709)
AI創(chuàng)作系統(tǒng)ChatGPT網(wǎng)站源碼，支持AI繪畫，支持GPT語(yǔ)音對(duì)話+DALL-E3文生圖+智能思維導(dǎo)圖生成
SparkAi創(chuàng)作系統(tǒng)是基于ChatGPT進(jìn)行開(kāi)發(fā)的Ai智能問(wèn)答系統(tǒng)和Midjourney繪畫系統(tǒng)，支持OpenAI-GPT全模型+國(guó)內(nèi)AI全模型。本期針對(duì)源碼系統(tǒng)整體測(cè)試下來(lái)非常完美，可以說(shuō)SparkAi是目前國(guó)內(nèi)一款的ChatGPT對(duì)接OpenAI軟件系統(tǒng)。那么如何搭建部署AI創(chuàng)作ChatGPT？小編這里寫一個(gè)詳細(xì)圖文教程吧！
2024年02月04日
瀏覽(130)
AI創(chuàng)作系統(tǒng)ChatGPT網(wǎng)站源碼，支持Midjourney繪畫，GPT語(yǔ)音對(duì)話+智能AI思維導(dǎo)圖生成
SparkAi創(chuàng)作系統(tǒng)是基于ChatGPT進(jìn)行開(kāi)發(fā)的Ai智能問(wèn)答系統(tǒng)和Midjourney繪畫系統(tǒng)，支持OpenAI-GPT全模型+國(guó)內(nèi)AI全模型。本期針對(duì)源碼系統(tǒng)整體測(cè)試下來(lái)非常完美，可以說(shuō)SparkAi是目前國(guó)內(nèi)一款的ChatGPT對(duì)接OpenAI軟件系統(tǒng)。那么如何搭建部署AI創(chuàng)作ChatGPT？小編這里寫一個(gè)詳細(xì)圖文教程吧！
2024年02月04日
瀏覽(89)
AI創(chuàng)作系統(tǒng)ChatGPT商業(yè)運(yùn)營(yíng)網(wǎng)站系統(tǒng)源碼，支持AI繪畫，GPT語(yǔ)音對(duì)話+DALL-E3文生圖
SparkAi創(chuàng)作系統(tǒng)是基于ChatGPT進(jìn)行開(kāi)發(fā)的Ai智能問(wèn)答系統(tǒng)和Midjourney繪畫系統(tǒng)，支持OpenAI-GPT全模型+國(guó)內(nèi)AI全模型。本期針對(duì)源碼系統(tǒng)整體測(cè)試下來(lái)非常完美，可以說(shuō)SparkAi是目前國(guó)內(nèi)一款的ChatGPT對(duì)接OpenAI軟件系統(tǒng)。那么如何搭建部署AI創(chuàng)作ChatGPT？小編這里寫一個(gè)詳細(xì)圖文教程吧！
2024年02月03日
瀏覽(92)
【AIGC】3、Visual ChatGPT | 支持圖像/文本雙輸入的對(duì)話系統(tǒng)開(kāi)源啦
論文：Visual ChatGPT ：Talking, Drawing and Editing with Visual Foundation Models 代碼：https://github.com/microsoft/visual-chatgpt 出處：Microsoft Research Asia 時(shí)間：2023.03 Visual ChatGPT 是一個(gè)能夠調(diào)動(dòng)多個(gè)不同基礎(chǔ)視覺(jué)模型來(lái)理解視覺(jué)信息并生成對(duì)應(yīng)回答的系統(tǒng)。近期， Large Language models（LLMs）發(fā)展非常
2023年04月15日
瀏覽(98)
【AIGC】2、Visual ChatGPT | 支持圖像/文本雙輸入的對(duì)話系統(tǒng)開(kāi)源啦
論文：Visual ChatGPT ：Talking, Drawing and Editing with Visual Foundation Models 代碼：https://github.com/microsoft/visual-chatgpt 出處：Microsoft Research Asia 時(shí)間：2023.03 Visual ChatGPT 是一個(gè)能夠調(diào)動(dòng)多個(gè)不同基礎(chǔ)視覺(jué)模型來(lái)理解視覺(jué)信息并生成對(duì)應(yīng)回答的系統(tǒng)。近期， Large Language models（LLMs）發(fā)展非常
2024年02月09日
瀏覽(112)
智能AI問(wèn)答系統(tǒng)ChatGPT網(wǎng)站系統(tǒng)源碼+Midjourney繪畫+支持GPT-4-Turbo模型+支持GPT-4圖片理解能力
SparkAi創(chuàng)作系統(tǒng)是基于ChatGPT進(jìn)行開(kāi)發(fā)的Ai智能問(wèn)答系統(tǒng)和Midjourney繪畫系統(tǒng)，支持OpenAI-GPT全模型+國(guó)內(nèi)AI全模型。本期針對(duì)源碼系統(tǒng)整體測(cè)試下來(lái)非常完美，可以說(shuō)SparkAi是目前國(guó)內(nèi)一款的ChatGPT對(duì)接OpenAI軟件系統(tǒng)。那么如何搭建部署AI創(chuàng)作ChatGPT？小編這里寫一個(gè)詳細(xì)圖文教程吧！
2024年02月04日
瀏覽(28)