-
項(xiàng)目地址:https://minigpt-4.github.io/?
-
論文鏈接:https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf
-
代碼:https://github.com/Vision-CAIR/MiniGPT-4
-
視頻:https://youtu.be/__tftoxpBAw
-
數(shù)據(jù)集:https://drive.google.com/file/d/1nJXhoEcy3KTExr17I7BXqY5Y9Lx_-n-9/view
-
Demo地址:https://6b89c70eb5e14dca33.gradio.live/
-
Demo備選地址1:https://b2517615b965687635.gradio.live/
-
Demo備選地址2:https://c8de8ff74b6a6c6a9b.gradio.live/
-
Demo備選地址3:https://0a111504e072685259.gradio.live/
-
Demo備選地址4:https://90bc0bac96e6457e8f.gradio.live/
Demo界面如下:
MiniGPT-4介紹
阿卜杜拉國(guó)王科技大學(xué)的研究團(tuán)隊(duì),提出了一個(gè)具有類似 GPT-4 圖像理解與對(duì)話能力的 AI 大模型——MiniGPT-4,并將其開(kāi)源
MiniGPT-4 由一個(gè)帶有預(yù)訓(xùn)練的 ViT(與BLIP-2一樣) 和 Q-Former 的視覺(jué)編碼器、一個(gè)單一的線性投影層和一個(gè) Vicuna 大語(yǔ)言模型組成,只訓(xùn)練線性投影層,視覺(jué)編碼器和Vicuna的參數(shù)凍結(jié)。模型結(jié)構(gòu)如下圖所示:
實(shí)驗(yàn)發(fā)現(xiàn),MiniGPT-4 具有出色的多模態(tài)能力,如從手寫草稿創(chuàng)建網(wǎng)站、生成詳細(xì)的圖像描述、根據(jù)圖像創(chuàng)作故事和詩(shī)歌、為圖像中描述的問(wèn)題提供解決方案,以及根據(jù)食物照片教對(duì)話對(duì)象如何烹飪一道美味的菜品等
MiniGPT-4兩階段fine-tuning
作者采用兩階段fine-tuningMiniGPT-4,第一階段是在公開(kāi)數(shù)據(jù)上微調(diào),第二階段是構(gòu)建高質(zhì)量的對(duì)話數(shù)據(jù)再微調(diào)。
First?pretraining stage
MiniGPT-4使用一個(gè)線性投影層來(lái)對(duì)齊Vicuna語(yǔ)言編碼器和視覺(jué)特征。剛開(kāi)始,使用4個(gè)A100GPU以batch大小為256訓(xùn)練了20k個(gè)step(訓(xùn)練了10小時(shí)),訓(xùn)練數(shù)據(jù)是LAION,Conceptual Captions和SBU(總共5M數(shù)據(jù)),數(shù)據(jù)格式如下所示:
<ImageFeature>?表示是線性投影層得到的視覺(jué)特征。
如果生成的句子不夠80個(gè)tokens,那么就在后面pad?###Human: Continue ###Assistant:
構(gòu)建第二階段微調(diào)所需要的數(shù)據(jù)
從Conceptual Caption數(shù)據(jù)集中隨機(jī)選擇5000個(gè)樣本,這些樣本可能會(huì)有噪聲或者有錯(cuò)誤,使用ChatGPT進(jìn)行修復(fù)這些錯(cuò)誤,Prompt如下:
最終人工進(jìn)行檢查,最后整理符合要求的樣本有3500個(gè),這些樣本將用于第二階段微調(diào)。
Second pretraining stage
第二階段微調(diào)的Prompt數(shù)據(jù)格式如下:
<Instruction>?是從預(yù)定義好的instruction集中隨機(jī)采樣的,比如“Describe this image in detail”或“Could you describe the contents of this image for me”
Note:在計(jì)算回歸損失函數(shù)的時(shí)候不計(jì)算<Instruction>?這個(gè)特殊的Prompt。
這個(gè)階段使用一個(gè)A100GPU在batch大小為12的時(shí)候,訓(xùn)練400個(gè)step,僅僅訓(xùn)練了7分鐘。
MiniGPT-4示例
文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-462648.html
文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-462648.html
到了這里,關(guān)于GPT-4平替版:MiniGPT-4,支持圖像理解和對(duì)話,現(xiàn)已開(kāi)源的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!