国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

VLM 系列——Instruct BLIP——論文解讀

2年前作者：TigerZ*分類：Toy博客閱讀(30)違法舉報

這篇具有很好參考價值的文章主要介紹了VLM 系列——Instruct BLIP——論文解讀。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

一、概述

1、是什么

? ? Instruct BLIP 全稱《InstructBLIP: Towards General-purpose?Vision-Language Models with Instruction Tuning》，是一個多模態(tài)視覺-文本大語言模型，隸屬BLIP系列第三篇，可以完成：圖像描述、視覺問答、名畫名人等識別（問答、描述）。支持單幅圖片輸入（作為第一個輸入），多輪文本對話。（不支持圖文交錯輸入、寫代碼、視覺定位、JSON mode等。）

? ? 整體架構沿用BLIP2，在Q-former中多加入了文本prompt token來和圖片進行交互。構造一個指令數(shù)據集，只訓練q-former。

2、亮點

? ? *對視覺語言指令調優(yōu)進行了全面而系統(tǒng)的研究。將26個數(shù)據集轉換為指令調優(yōu)格式（13個用于指令調優(yōu)，13個用于zero-shot評估），并將其分為11個任務類別（保留了四個完整的任務類別，以便在任務水平上進行zero-shot評估）。

? ? *提出了指令感知的視覺特征提取，這是一種新的機制，可以根據給定的指令靈活地提取信息豐富的特征。

? ? *使用兩個LLM家族評估并開源了一套InstructBLIP模型：FlanT5、Vicuna。

PS

? ? 這里要注意其實BLIP2的Q-former 也是有文本輸入的，也可以作為prompt，只是可能沒有專門經文章來源地址http://www.zghlxwxcb.cn/news/detail-816896.html

到了這里，關于VLM 系列——Instruct BLIP——論文解讀的文章就介紹完了。如果您還想了解更多內容，請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網！

本文來自互聯(lián)網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉載，請注明出處：如若內容造成侵權/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

多模態(tài)大模型系列論文（ALBEF、BLIP、BLIP-2）
?視覺-文本融合任務，如圖文檢索、視覺問答、NLVR （natural language vision reasoning）等 1）沒有對齊視覺的 tokens 和文字的 tokens, 因此給多模編碼器進行圖文交互學習時帶來挑戰(zhàn) 2）訓練多模模型，利用到了互聯(lián)網上爬取的數(shù)據，這些數(shù)據中往往存在大量噪聲，傳統(tǒng)的圖文特征
2024年02月08日
瀏覽(42)
最近讀的AIGC相關論文思路解讀
提示：本博客是作者本人最近對AIGC領域相關論文調研后，臨時記錄所用，所有觀點都是來自作者本人局限理解，以及個人思考，不代表對。如果你也正好看過相關文章，發(fā)現(xiàn)作者的想法和思路有問題，歡迎評論區(qū)留言指正！既然是論文閱讀分享，首先，你需要有一些AIGC基礎
2024年02月10日
瀏覽(27)
【計算機視覺 | 目標檢測】Grounding DINO：開集目標檢測論文解讀
介紹一篇較新的目標檢測工作：論文地址為： github 地址為：作者展示一種開集目標檢測方案： Grounding DINO ，將將基于 Transformer 的檢測器 DINO 與真值預訓練相結合。開集檢測關鍵是引入 language 至閉集檢測器，用于開集概念泛化。作者將閉集檢測器分為三個階段，提出一種
2024年02月10日
瀏覽(92)
AIGC系列之：DDPM原理解讀（簡單易懂版）
目錄 DDPM基本原理 DDPM中的Unet模塊 Unet模塊介紹 Unet流程示意圖 DownBlock和UpBlock MiddleBlock 文生圖模型的一般公式總結 ????????本文部分內容參考文章：https://juejin.cn/post/7251391372394053691，https://zhuanlan.zhihu.com/p/563661713，感謝博主的辛苦工作，本文盡量去繁就簡去理解DDPM的原理
2024年04月17日
瀏覽(23)
《萬字長文帶你解讀AIGC》系列之入門篇
歡迎關注『CVHub』官方微信公眾號！隨著 ChatGPT 的病毒式傳播，生成式人工智能 ( AIGC , a.k.a AI-generated content ）因其分析和創(chuàng)造文本、圖像、視頻以及其他方面的出眾能力而儼然成為當下最火熱的投資賽道，沒有之一。在如此鋪天蓋地的信息轟炸下，每個人似乎難以置身
2024年02月09日
瀏覽(32)
《萬字長文帶你解讀AIGC》系列之技術篇
歡迎關注『CVHub』官方微信公眾號！ Welcome to back! 在《萬字長文帶你解讀AIGC入門篇》一文中，我們詳細為大家介紹了 AIGC 的相關概念、背景及其如此火爆的原因，接下來我們將進一步深入探討AIGC背后的技術棧。作為本系列的技術篇，將從多個角度來介紹 AIGC 的技術棧，其中
2024年02月09日
瀏覽(21)
【CVHub】《萬字長文帶你解讀AIGC》系列之入門篇
本文來源“ CVHub ”公眾號，侵權刪，干貨滿滿。作者丨派派星來源丨CVHub 原文鏈接：《萬字長文帶你解讀AIGC》系列之入門篇圖0 隨著 ChatGPT 的病毒式傳播，生成式人工智能 ( AIGC , a.k.a? AI-generated content ）因其分析和創(chuàng)造文本、圖像、視頻以及其他方面的出眾能力而儼
2024年02月15日
瀏覽(23)
【計算機視覺 | 目標檢測】Open-Vocabulary DETR with Conditional Matching論文解讀
論文題目：具有條件匹配的開放詞匯表DETR 開放詞匯對象檢測是指在自然語言的引導下對新對象進行檢測的問題，越來越受到社會的關注。理想情況下，我們希望擴展一個開放詞匯表檢測器，這樣它就可以基于自然語言或范例圖像形式的用戶輸入生成邊界框預測。這為人機交
2024年01月21日
瀏覽(19)
GPT系列論文解讀：GPT-2
GPT（Generative Pre-trained Transformer）是一系列基于Transformer架構的預訓練語言模型，由OpenAI開發(fā)。以下是GPT系列的主要模型： GPT：GPT-1是于2018年發(fā)布的第一個版本，它使用了12個Transformer編碼器層和1.5億個參數(shù)。GPT-1的訓練數(shù)據包括了互聯(lián)網上的大量文本。 GPT-2：GPT-2于2019年發(fā)布
2024年02月07日
瀏覽(24)
軌跡預測論文解讀系列——幾種經典的網絡
首先問大家一個問題，什么是自動駕駛車輛的最大挑戰(zhàn)？答案是理解行人的運動并且預知行人之后的軌跡。人類的運動可以被認為是多模態(tài)性的，即人類有可能在任何給定的時刻向多個方向移動。而這種行為是自動駕駛汽車面臨的最大挑戰(zhàn)之一，因為它們的行駛路線受人的影
2023年04月08日
瀏覽(22)