前言
代碼地址:https://github.com/Vision-CAIR/MiniGPT-4
摘要
摘要寫的就很簡單了,標(biāo)黃的是重點,可以看到這個方法很簡單,就是拿了一個視覺的encoder(Blip-2)以及拿了一個文本的encoder(Vicuna),最后外加上一個projection層就構(gòu)成了MiniGPT4,并且在訓(xùn)練的時候視覺和文本的encoder都是凍結(jié)參數(shù)的,所以相當(dāng)于只是拿視覺和文本的編碼器來用,訓(xùn)練只訓(xùn)外加的projection層。
方法
方法就是說了視覺編碼器用的Blip-2,他是由vit+q-former構(gòu)成的。文本用的是vicuna,基于LLaMA設(shè)計的。就當(dāng)作文本和圖像的backbone就好了,具體細(xì)節(jié)可以不看,基本就是transformer的結(jié)構(gòu)。
然后就介紹了訓(xùn)練的細(xì)節(jié),訓(xùn)練分了兩個階段,第一階段預(yù)訓(xùn)練用的是500w的圖文對訓(xùn)模型,并且視覺和文本的encoder都是凍結(jié)參數(shù)的,第二階段用精修的數(shù)據(jù)集3500條圖文對精調(diào)模型參數(shù)。
第一階段預(yù)訓(xùn)練
沒啥可說的,介紹了下訓(xùn)練的參數(shù),用了4張A100訓(xùn)500w圖文對的數(shù)據(jù),訓(xùn)了10個小時。第一階段訓(xùn)練完作者測試模型發(fā)現(xiàn)模型生成的文本有很多重復(fù)的,不完整的,沒有邏輯的句子,對人類來說閱讀是十分不友好的,所以有了第二階段的精調(diào)。
第二階段訓(xùn)練
數(shù)據(jù)構(gòu)建
第二階段的主要目的是用高質(zhì)量的圖文對數(shù)據(jù)來消除視覺和語言的領(lǐng)域差異,通俗點說就是讓模型說的話更加的人類可讀。
構(gòu)建精修數(shù)據(jù)集的具體做法如下:
- 一:從Conceptual Caption dataset隨機選擇了5000個數(shù)據(jù)
- 二:用一階段訓(xùn)練的模型對這些數(shù)據(jù)做提問生成答案。
- 提問的prompt:###Human: Describe this image in detail. Give as many details as possible. Say everything you see. ###Assistant:
- 如果回答的內(nèi)容少于80個單詞(論文寫的token感覺應(yīng)該差不多意思),就追問,追問的prompt是:###Human: Continue ###Assistant:
- 然后拼接得到最后的回答,這個回答是詳細(xì)的圖像的描述。
- 三:這樣生成的描述還是存在噪聲以及錯誤的回答(重復(fù)的回答,不連貫的回答),接下來用chatgpt來修正這些回答:
- 輸入給chatgpt的提示詞為:Fix the error in the given paragraph. Remove any repeating sentences, meaningless characters, not English sentences, and so on. Remove unnecessary repetition. Rewrite any incomplete sentences. Return directly the results without explanation. Return directly the input paragraph if it is already correct without explanation.
- 四:人工驗證圖像描述的正確性并且有些chatgpt無法檢測的冗余句子也人工修正。最后從5000里面精挑了3500條。
fintune
finetune就比較簡單了,拿3500條精修的數(shù)據(jù)直接finetune就好了,輸入的模版是###Human: ###Assistant:
訓(xùn)練的機器是一張A100,batch size12,跑了400個step。文章來源:http://www.zghlxwxcb.cn/news/detail-653967.html
最后
MiNiGPT4安裝記錄:MiNiGPT4安裝記錄文章來源地址http://www.zghlxwxcb.cn/news/detail-653967.html
到了這里,關(guān)于Chatgpt論文筆記——MiNiGPT4解讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!