簡介
MiniGPT-4 旨在將來自預訓練視覺編碼器的視覺信息與先進的大型語言模型 (LLM) 對齊。 具體來說,在文本方面,作者利用 Vicuna 作為語言解碼器,在視覺感知方面,使用了與BLIP-2相同的視覺編碼器,并且語言和視覺模型都是開源的。本文的主要目標就是使用線性映射層來彌合視覺編碼器和 LLM 之間的差距,模型架構(gòu)圖如下所示:
特性:
- MiniGPT-4僅使用一個投影層將來自BLIP-2的凍結(jié)視覺編碼器與凍結(jié)的LLM,Vicuna對齊。
- 我們分兩個階段訓練 MiniGPT-4。第一個傳統(tǒng)的預訓練階段是使用 5 個 A10 在 4 小時內(nèi)使用大約 100 萬個對齊的圖像文本對進行訓練。在第一階段之后,駱馬能夠理解圖像。但駱馬的生成能力受到嚴重影響。
- 為了解決這個問題并提高可用性,我們提出了一種新穎的方法,通過模型本身和 ChatGPT 一起創(chuàng)建高質(zhì)量的圖像文本對。在此基礎(chǔ)上,我們創(chuàng)建了一個小的(總共3500對)但高質(zhì)量的數(shù)據(jù)集。
- 第二個微調(diào)階段在對話模板中對此數(shù)據(jù)集進行訓練,以顯著提高其生成可靠性和整體可用性。令我們驚訝的是,這個階段的計算效率很高,使用單個 A7 只需要大約 100 分鐘。
- MiniGPT-4 產(chǎn)生了許多新興的視覺語言功能,類似于 GPT-4 中展示的功能。
項目地址:https://github.com/Vision-CAIR/MiniGPT-4#online-demo
在線體驗地址:https://minigpt-4.github.io/
快速體驗
- 準備代碼和環(huán)境
git clone https://github.com/Vision-CAIR/MiniGPT-4.git
cd MiniGPT-4
conda env create -f environment.yml
conda activate minigpt4
- 準備訓練的Vicuna權(quán)重文件
當前版本的Minigpt-4建立在Vicuna-13b的V0 Versoin上。請在此處參考他們的說明以獲取權(quán)重。最終權(quán)重將在一個具有以下結(jié)構(gòu)的單個文件夾中:
>vicuna_weights
├── config.json
├── generation_config.json
├── pytorch_model.bin.index.json
├── pytorch_model-00001-of-00003.bin
- 在本地啟動演示
python demo.py --cfg-path eval_configs/minigpt4_eval.yaml
訓練
MiniGPT-4的訓練包含兩個對齊階段。
-
在第一個預訓練階段,使用來自Laion和CC數(shù)據(jù)集的圖像文本對訓練模型 以調(diào)整視覺和語言模型。要下載和準備數(shù)據(jù)集,請檢查 我們的第一階段數(shù)據(jù)集準備說明https://github.com/Vision-CAIR/MiniGPT-4/blob/main/dataset/README_1_STAGE.md。 在第一階段之后,視覺特征被映射并可以被語言理解 型。 若要啟動第一階段訓練,請運行以下命令。在我們的實驗中,我們使用4 A100。 您可以在配置文件中更改保存路徑 train_configs/minigpt4_stage1_pretrain.yaml
torchrun --nproc-per-node NUM_GPU train.py --cfg-path train_configs/minigpt4_stage1_pretrain.yaml
-
在第二階段,我們使用自己創(chuàng)建的小型高質(zhì)量圖像文本對數(shù)據(jù)集 并將其轉(zhuǎn)換為對話格式以進一步對齊 MiniGPT-4。 要下載并準備我們的第二階段數(shù)據(jù)集,請查看我們的第二階段數(shù)據(jù)集準備說明https://github.com/Vision-CAIR/MiniGPT-4/blob/main/dataset/README_2_STAGE.md。 要啟動第二階段對齊, 首先指定在 train_configs/minigpt1_stage4_pretrain.yaml 中在第 1 階段訓練的檢查點文件的路徑。 您還可以在此處指定輸出路徑。 然后,運行以下命令。在我們的實驗中,我們使用 1 個 A100。文章來源:http://www.zghlxwxcb.cn/news/detail-422603.html
實驗結(jié)果
文章來源地址http://www.zghlxwxcb.cn/news/detail-422603.html
到了這里,關(guān)于MiniGPT4,開源了的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!