国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<small id="fxjf2"><acronym id="fxjf2"></acronym></small>

MiniGPT4，開源了

2年前作者：kuokay分類：Toy博客閱讀(23)違法舉報

這篇具有很好參考價值的文章主要介紹了MiniGPT4，開源了。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

簡介

MiniGPT-4 旨在將來自預訓練視覺編碼器的視覺信息與先進的大型語言模型 (LLM) 對齊。具體來說，在文本方面，作者利用 Vicuna 作為語言解碼器，在視覺感知方面，使用了與BLIP-2相同的視覺編碼器，并且語言和視覺模型都是開源的。本文的主要目標就是使用線性映射層來彌合視覺編碼器和 LLM 之間的差距，模型架構(gòu)圖如下所示：

MiniGPT4，開源了
特性：

MiniGPT-4僅使用一個投影層將來自BLIP-2的凍結(jié)視覺編碼器與凍結(jié)的LLM，Vicuna對齊。
我們分兩個階段訓練 MiniGPT-4。第一個傳統(tǒng)的預訓練階段是使用 5 個 A10 在 4 小時內(nèi)使用大約 100 萬個對齊的圖像文本對進行訓練。在第一階段之后，駱馬能夠理解圖像。但駱馬的生成能力受到嚴重影響。
為了解決這個問題并提高可用性，我們提出了一種新穎的方法，通過模型本身和 ChatGPT 一起創(chuàng)建高質(zhì)量的圖像文本對。在此基礎(chǔ)上，我們創(chuàng)建了一個小的（總共3500對）但高質(zhì)量的數(shù)據(jù)集。
第二個微調(diào)階段在對話模板中對此數(shù)據(jù)集進行訓練，以顯著提高其生成可靠性和整體可用性。令我們驚訝的是，這個階段的計算效率很高，使用單個 A7 只需要大約 100 分鐘。
MiniGPT-4 產(chǎn)生了許多新興的視覺語言功能，類似于 GPT-4 中展示的功能。

項目地址:https://github.com/Vision-CAIR/MiniGPT-4#online-demo
在線體驗地址:https://minigpt-4.github.io/

快速體驗

準備代碼和環(huán)境

git clone https://github.com/Vision-CAIR/MiniGPT-4.git
cd MiniGPT-4
conda env create -f environment.yml
conda activate minigpt4

準備訓練的Vicuna權(quán)重文件

當前版本的Minigpt-4建立在Vicuna-13b的V0 Versoin上。請在此處參考他們的說明以獲取權(quán)重。最終權(quán)重將在一個具有以下結(jié)構(gòu)的單個文件夾中：

>vicuna_weights
├── config.json
├── generation_config.json
├── pytorch_model.bin.index.json
├── pytorch_model-00001-of-00003.bin

在本地啟動演示

python demo.py --cfg-path eval_configs/minigpt4_eval.yaml

訓練

MiniGPT-4的訓練包含兩個對齊階段。

在第一個預訓練階段，使用來自Laion和CC數(shù)據(jù)集的圖像文本對訓練模型以調(diào)整視覺和語言模型。要下載和準備數(shù)據(jù)集，請檢查我們的第一階段數(shù)據(jù)集準備說明https://github.com/Vision-CAIR/MiniGPT-4/blob/main/dataset/README_1_STAGE.md。在第一階段之后，視覺特征被映射并可以被語言理解型。若要啟動第一階段訓練，請運行以下命令。在我們的實驗中，我們使用4 A100。您可以在配置文件中更改保存路徑 train_configs/minigpt4_stage1_pretrain.yaml

torchrun --nproc-per-node NUM_GPU train.py --cfg-path train_configs/minigpt4_stage1_pretrain.yaml
在第二階段，我們使用自己創(chuàng)建的小型高質(zhì)量圖像文本對數(shù)據(jù)集并將其轉(zhuǎn)換為對話格式以進一步對齊 MiniGPT-4。要下載并準備我們的第二階段數(shù)據(jù)集，請查看我們的第二階段數(shù)據(jù)集準備說明https://github.com/Vision-CAIR/MiniGPT-4/blob/main/dataset/README_2_STAGE.md。要啟動第二階段對齊，首先指定在 train_configs/minigpt1_stage4_pretrain.yaml 中在第 1 階段訓練的檢查點文件的路徑。您還可以在此處指定輸出路徑。然后，運行以下命令。在我們的實驗中，我們使用 1 個 A100。

實驗結(jié)果

MiniGPT4，開源了

文章來源地址http://www.zghlxwxcb.cn/news/detail-422603.html

到了這里，關(guān)于MiniGPT4，開源了的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權(quán)，不承擔相關(guān)法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務器費用

MiniGPT4系列之二推理篇命令行方式：在RTX-3090 Ubuntu服務器推理詳解
MiniGPT4系列之一部署篇：在RTX-3090 Ubuntu服務器部署步驟詳解_seaside2003的博客-CSDN博客 MiniGPT4系列之二推理篇命令行方式：在RTX-3090 Ubuntu服務器推理詳解_seaside2003的博客-CSDN博客 MiniGPT4系列之三模型推理 (Web UI)：在RTX-3090 Ubuntu服務器推理_seaside2003的博客-CSDN博客本文參考以下知乎
2024年02月17日
瀏覽(42)
MiniGPT-4，開源了！
上個月GPT-4發(fā)布時，我曾寫過一篇文章分享過有關(guān)GPT-4的幾個關(guān)鍵信息。當時的分享就提到了GPT-4的一個重要特性，那就是多模態(tài)能力。比如發(fā)布會上演示的，輸入一幅圖（手套掉下去會怎么樣？）。 GPT-4可以理解并輸出給到：它會掉到木板上，并且球會被彈飛。再比如給
2024年02月01日
瀏覽(18)
AI看圖說話，MiniGPT-4已經(jīng)開源
MiniGPT-4 是一個人工智能工具，?最大的飛躍是增加了識圖能力，?并且回答準確性也得到顯著提高。?它可以識別圖片并回答關(guān)于圖片的問題，?例如圖片內(nèi)容、?顏色等等。 ?此外，?它還可以進行圖像對話，?即通過圖片和文本進行對話。 ?MiniGPT-4 在多個專業(yè)和學術(shù)基
2023年04月26日
瀏覽(19)
MiniGPT-4開源了：看圖聊天、教學、創(chuàng)作、搭網(wǎng)站
一個月前，OpenAI 總裁 Greg Brockman 向世人展示了 GPT-4 令人驚訝的多模態(tài)能力，如從手寫文本直接生成網(wǎng)站和識別圖像中的幽默元素等。盡管目前 OpenAI 暫未對 GPT-4 用戶開放這一能力，但具有多模態(tài)能力的視覺語言模型令人充滿了想象力。近日，來自阿卜杜拉國王科技大學的研
2024年02月01日
瀏覽(19)
GPT-4平替版：MiniGPT-4，支持圖像理解和對話，現(xiàn)已開源
項目地址：https://minigpt-4.github.io/? 論文鏈接：https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf 代碼：https://github.com/Vision-CAIR/MiniGPT-4 視頻：https://youtu.be/__tftoxpBAw 數(shù)據(jù)集：https://drive.google.com/file/d/1nJXhoEcy3KTExr17I7BXqY5Y9Lx_-n-9/view Demo地址：https://6b89c70eb5e14dca33.gradio.live/ Demo備
2024年02月06日
瀏覽(24)
LLMs：ColossalChat相關(guān)的開源訓練數(shù)據(jù)集簡介(SFT指令微調(diào)數(shù)據(jù)集+獎勵模型排序數(shù)據(jù)集+RLHF數(shù)據(jù)集)、RLHF算法實現(xiàn)的三個階段(監(jiān)督指令微調(diào)→訓練獎勵模型→RLHF訓練模型→???
LLMs：ColossalChat相關(guān)的開源訓練數(shù)據(jù)集簡介(SFT指令微調(diào)數(shù)據(jù)集+獎勵模型排序數(shù)據(jù)集+RLHF數(shù)據(jù)集)、RLHF算法實現(xiàn)的三個階段(監(jiān)督指令微調(diào)→訓練獎勵模型→RLHF訓練模型→推理量化和服務) ? 目錄 ColossalChat的使用方法 1、ColossalChat相關(guān)的開源訓練數(shù)據(jù)集 (1)、SFT指令微調(diào)數(shù)據(jù)集
2024年02月14日
瀏覽(27)
GPT-4開源平替miniGPT-4來了，僅需23G顯存單機可run，附論文、項目代碼地址
來源?|?新智元? 微信號：AI-era 先是ChatGPT的發(fā)布給世界帶來了一點小小的NLP震撼，隨后發(fā)布的GPT-4更是破圈計算機視覺，展現(xiàn)了非凡的多模態(tài)能力。不光能讀懂人類的梗，給個手繪草圖甚至可以直接寫出網(wǎng)站的代碼，徹底顛覆了對語言模型、視覺模型能力邊界的認知。 GPT-
2024年02月01日
瀏覽(24)
MiniGPT-4開源了，史無前例的AI圖片內(nèi)容分析，甚至能用于邏輯驗證碼推理識別
https://github.com/Vision-CAIR/MiniGPT-4 https://minigpt-4.github.io/ 出結(jié)果較慢，建議圖片小一點，并且提示文字盡可能簡短 The man in the image is wearing a white tank top and shorts. He is standing on a rocky cliff overlooking a body of water with mountains in the background. The man is holding a cell phone in his hand and appears to
2024年02月08日
瀏覽(23)
MVPArms官方快速組件化方案開源,來自5K star的信賴(1)
基礎(chǔ)庫(網(wǎng)絡請求、圖片加載等)的封裝路由框架(頁面跳轉(zhuǎn), 服務提供) 業(yè)務組件的劃分和代碼隔離 0.2.1 業(yè)務組件的劃分和代碼隔離先說第三點業(yè)務組件的劃分和代碼隔離 , 現(xiàn)在大部分的文章都圍繞著這點, 我這里發(fā)表下個人的觀點, 第三點確實是很重要的一點, 不管是大廠的
2024年04月27日
瀏覽(20)
一、課程設計目的與任務《數(shù)據(jù)結(jié)構(gòu)》課程設計是為訓練學生的數(shù)據(jù)組織能力和提高程序設計能力而設置的增強實踐能力的課程。目的：學習數(shù)據(jù)結(jié)構(gòu)課程，旨在使學生學會分析研究數(shù)據(jù)對象的特性，學會數(shù)據(jù)的組織方法，以
一、課程設計目的與任務《數(shù)據(jù)結(jié)構(gòu)》課程設計是為訓練學生的數(shù)據(jù)組織能力和提高程序設計能力而設置的增強實踐能力的課程。目的：學習數(shù)據(jù)結(jié)構(gòu)課程，旨在使學生學會分析研究數(shù)據(jù)對象的特性，學會數(shù)據(jù)的組織方法，以便選擇合適的數(shù)據(jù)的邏輯結(jié)構(gòu)和存儲結(jié)構(gòu)以及相應
2024年02月21日
瀏覽(102)