国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【多模態(tài)】18、ViLD | 通過對視覺和語言知識蒸餾來實現(xiàn)開集目標(biāo)檢測(ICLR2022)

這篇具有很好參考價值的文章主要介紹了【多模態(tài)】18、ViLD | 通過對視覺和語言知識蒸餾來實現(xiàn)開集目標(biāo)檢測(ICLR2022)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

【多模態(tài)】18、ViLD | 通過對視覺和語言知識蒸餾來實現(xiàn)開集目標(biāo)檢測(ICLR2022),多模態(tài),目標(biāo)檢測,人工智能,計算機(jī)視覺

論文:Open-vocabulary Object Detection via Vision and Language Knowledge Distillation

代碼:https://github.com/tensorflow/tpu/tree/master/models/official/detection/projects/vild

效果:

  • 在 zero-shot 測試下,coco 達(dá)到了 36.6 AP,PASCAL VOC 達(dá)到了 72.2AP,Object365 達(dá)到了 11.8AP

本文提出了 Vision and Language knowledge Distillation(ViLD):

  • 通過將預(yù)訓(xùn)練的開集分類模型作為 teacher model,來蒸餾兩階段目標(biāo)檢測器 student model
  • 即使用 teacher model 來對 category texts 和 proposal region進(jìn)行編碼
  • 然后訓(xùn)練 student detector 來對齊 text 和 region embedding

一、背景

【多模態(tài)】18、ViLD | 通過對視覺和語言知識蒸餾來實現(xiàn)開集目標(biāo)檢測(ICLR2022),多模態(tài),目標(biāo)檢測,人工智能,計算機(jī)視覺

如圖 1 所示,作者思考,目標(biāo)檢測器能否識別 base category 之外的類別?

所以,本文作者就構(gòu)建了一個 open-vocabulary 目標(biāo)檢測器,用于檢測從 text 輸入的任意類別的目標(biāo)

現(xiàn)有的目標(biāo)檢測方法都是只學(xué)習(xí)數(shù)據(jù)集中出現(xiàn)的類別,而擴(kuò)充檢測類別的方法就是收集更多的類別標(biāo)注數(shù)據(jù),如 LVIS 包括 1203 個類別,有較為豐富的詞匯量,但也不夠強(qiáng)大。

另外一方面,互聯(lián)網(wǎng)上有豐富的 image-text pairs,CLIP 就嘗試使用 4 億圖文對兒來聯(lián)合訓(xùn)練模型,并且在 30 個數(shù)據(jù)集上展示了很好的效果

zero-shot 遷移的效果很大程度上來源于預(yù)訓(xùn)練的 text encoder 對任意類別文本的編碼能力,盡管現(xiàn)在對 image-level 特征表達(dá)的編碼能力已經(jīng)被證明挺好的了,但還 object-level 的特征編碼仍然很有挑戰(zhàn)

所以,本文作者思考能否從開集分類模型中拿到一些能力來用于開集檢測

作者首先從 R-CNN 類的方法入手,將開集目標(biāo)檢測也構(gòu)建為兩個子問題:

  • object proposal 的生成
  • open-vocabulary 圖像分類

如何操作 R-CNN 類的模型:

  • 先基于基礎(chǔ)類別訓(xùn)練一個 region proposal model
  • 然后使用預(yù)訓(xùn)練好的圖像分類器來對 cropped object proposal 進(jìn)行分類,可以包括新類和基礎(chǔ)類
  • 作者使用 LVIS 當(dāng)做 benchmark,把 rare 類別作為 novel categories,將其他類當(dāng)做 base categories
  • 缺點:很慢,因為每個 object proposal 都是一個個的進(jìn)入分類器來分類的

基于此,作者提出了 ViLD,來訓(xùn)練兩階段的開放詞匯目標(biāo)檢測器,ViLD 包含兩部分:從開集目標(biāo)分類模型的輸出中來學(xué)習(xí) text embedding 和 image embedding

  • ViLD-text:只會從基礎(chǔ)類中蒸餾
    • 首先,將類別名稱輸入預(yù)訓(xùn)練好的 text encoder 來得到 text embedding
    • 然后,使用推理的 text embedding 結(jié)果來對檢測到的 region 進(jìn)行分類
  • ViLD-image:會同時從基礎(chǔ)類和新類中來蒸餾,因為 proposal 網(wǎng)絡(luò)可能會檢測到包含新類的區(qū)域
    • 首先,將 object proposal 經(jīng)過 NMS 算法過濾后,在原圖上裁剪,裁剪出原圖區(qū)域,然后將裁剪后的原圖送入 CLIP 的 image encoder 中,CLIP 的 image encoder 的輸出就是該區(qū)域的教師特征,
    • 然后,訓(xùn)練一個 Mask R-CNN 來學(xué)習(xí)教師網(wǎng)絡(luò)的輸出,也就是將 student 輸出和 teacher image embedding 來對齊

二、方法

【多模態(tài)】18、ViLD | 通過對視覺和語言知識蒸餾來實現(xiàn)開集目標(biāo)檢測(ICLR2022),多模態(tài),目標(biāo)檢測,人工智能,計算機(jī)視覺

作者將檢測數(shù)據(jù)集中的類別分類 base 和 novel:

  • base: C B C_B CB?,參與訓(xùn)練
  • novel: C N C_N CN?

編碼器符號:

  • T ( . ) T(.) T(.):text encoder
  • V ( . ) V(.) V(.):image encoder

2.1 對新類別的定位 Localization

開放詞匯目標(biāo)檢測的第一個挑戰(zhàn)就是對新類別目標(biāo)的定位

作者以 Mask RCNN 為例,作者使用 class-agnostic 模塊替換了 class-specific 定位模塊,對每個 RoI,模型只能對所有類別預(yù)測一個 bbox 和一個 mask,而不是每個類別都會預(yù)測一個,所以,使用 class-agnostic 的模塊可以擴(kuò)展到用于新類別的定位

2.2 使用 cropped regions 進(jìn)行開放詞匯檢測

一旦對目標(biāo)候選區(qū)域定位成功,就可以使用預(yù)訓(xùn)練好的分類器來對區(qū)域進(jìn)行分類

Image embedding:

  • 作者基于基礎(chǔ)類別 C B C_B CB? 訓(xùn)練了一個 proposal 網(wǎng)絡(luò),來提取感興趣區(qū)域
  • 首先從原圖中 crop 并 resize ,然后將原圖區(qū)域輸入 CLIP 的 image encoder 中計算 image embedding
  • 作者使用了兩種 crop 區(qū)域的 resize 方式:1x 和 1.5x,1.5x 的用于提供更多的上下文信息,整合后的 embedding 然后會被歸一化

Text embedding:

  • 作者會使用 prompt 模版(如 “a photo of {} in the scene”)來送入 text encoder,并得到 text embedding

相似度:

  • 計算完兩個 embedding 之后,作者使用 cosine similarities 來計算 image embedding 和 text embedding 的相似程度,然后使用 softmax 激活和類內(nèi)的 NMS 來得到最終的檢測結(jié)果

效率:

  • 由于每個 cropped region 都會被送入 image encoder 來提取 image embedding,所以效率很低

2.3 ViLD

【多模態(tài)】18、ViLD | 通過對視覺和語言知識蒸餾來實現(xiàn)開集目標(biāo)檢測(ICLR2022),多模態(tài),目標(biāo)檢測,人工智能,計算機(jī)視覺

作者提出了 ViLD 來緩解上面提到的效率低的問題

使用 text embedding 來代替分類器:

  • 首先,引入了 ViLD-text,目標(biāo)是訓(xùn)練一個可以使用 text embedding 來分類的 region embedding
  • 如圖 3b 展示了訓(xùn)練的目標(biāo)函數(shù),使用 text embedding 來代替了如圖 3a 的分類器,只有 text embedding 用于訓(xùn)練
  • 對于沒有匹配到任何 gt 的 proposal,被分配到背景類別,可以學(xué)習(xí)其自己的編碼 e b g e_{bg} ebg?,
  • 對所有類別編碼,都計算 region embedding 和 category embedding 的余弦相似性,包括前景和背景 e b g e_{bg} ebg?,
  • 然后,計算帶溫度參數(shù)的 softmax 激活后的分布并計算 cross-entropy loss
  • 為了訓(xùn)練第一個階段,也就是 region proposal 網(wǎng)絡(luò),作者在線抽取 region proposal r,并且從頭開始使用 ViLD-text 來訓(xùn)練

ViLD-text 的 loss 如下:

【多模態(tài)】18、ViLD | 通過對視覺和語言知識蒸餾來實現(xiàn)開集目標(biāo)檢測(ICLR2022),多模態(tài),目標(biāo)檢測,人工智能,計算機(jī)視覺

蒸餾 image embedding:

訓(xùn)練 ViLD-image 時,主要是從 teacher model 來蒸餾到 student model 上

為了提升訓(xùn)練速度,對每個 training image 先離線抽取 M 個 proposal,并且計算其對應(yīng)的 image embedding

這些 proposal 包含了基礎(chǔ)類和新類,所以網(wǎng)絡(luò)是可以擴(kuò)展的

但 ViLD-text 只能從基礎(chǔ)類學(xué)習(xí)

ViLD-image loss 是 region embedding 和 image embedding 的 L1 loss:

【多模態(tài)】18、ViLD | 通過對視覺和語言知識蒸餾來實現(xiàn)開集目標(biāo)檢測(ICLR2022),多模態(tài),目標(biāo)檢測,人工智能,計算機(jī)視覺

ViLD 的整個訓(xùn)練 loss 如下:w 是超參數(shù)

【多模態(tài)】18、ViLD | 通過對視覺和語言知識蒸餾來實現(xiàn)開集目標(biāo)檢測(ICLR2022),多模態(tài),目標(biāo)檢測,人工智能,計算機(jī)視覺

三、效果

【多模態(tài)】18、ViLD | 通過對視覺和語言知識蒸餾來實現(xiàn)開集目標(biāo)檢測(ICLR2022),多模態(tài),目標(biāo)檢測,人工智能,計算機(jī)視覺

【多模態(tài)】18、ViLD | 通過對視覺和語言知識蒸餾來實現(xiàn)開集目標(biāo)檢測(ICLR2022),多模態(tài),目標(biāo)檢測,人工智能,計算機(jī)視覺

【多模態(tài)】18、ViLD | 通過對視覺和語言知識蒸餾來實現(xiàn)開集目標(biāo)檢測(ICLR2022),多模態(tài),目標(biāo)檢測,人工智能,計算機(jī)視覺

【多模態(tài)】18、ViLD | 通過對視覺和語言知識蒸餾來實現(xiàn)開集目標(biāo)檢測(ICLR2022),多模態(tài),目標(biāo)檢測,人工智能,計算機(jī)視覺文章來源地址http://www.zghlxwxcb.cn/news/detail-620208.html

到了這里,關(guān)于【多模態(tài)】18、ViLD | 通過對視覺和語言知識蒸餾來實現(xiàn)開集目標(biāo)檢測(ICLR2022)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【計算機(jī)視覺 & 自然語言處理】什么是多模態(tài)?

    【計算機(jī)視覺 & 自然語言處理】什么是多模態(tài)?

    多模態(tài)指的是多種模態(tài)的信息,包括:文本、圖像、視頻、音頻等。 顧名思義,多模態(tài)研究的就是這些不同類型的數(shù)據(jù)的融合的問題。 目前大多數(shù)工作中,只處理圖像和文本形式的數(shù)據(jù),即把視頻數(shù)據(jù)轉(zhuǎn)為圖像,把音頻數(shù)據(jù)轉(zhuǎn)為文本格式。這就涉及到圖像和文本領(lǐng)域的內(nèi)容

    2024年02月14日
    瀏覽(27)
  • BEV蒸餾來了!BEVDistill:用于多目3D目標(biāo)檢測的跨模態(tài)BEV蒸餾

    BEV蒸餾來了!BEVDistill:用于多目3D目標(biāo)檢測的跨模態(tài)BEV蒸餾

    點擊下方 卡片 ,關(guān)注“ 自動駕駛之心 ”公眾號 ADAS巨卷干貨,即可獲取 點擊進(jìn)入→ 自動駕駛之心【3D目標(biāo)檢測】技術(shù)交流群 后臺回復(fù)【3D檢測綜述】獲取最新基于點云/BEV/圖像的3D檢測綜述! ICLR2023雙盲審中 論文鏈接:https://openreview.net/forum?id=-2zfgNS917 基于多視圖的三維目標(biāo)

    2024年02月08日
    瀏覽(24)
  • BMVC 23丨多模態(tài)CLIP:用于3D場景問答任務(wù)的對比視覺語言預(yù)訓(xùn)練

    BMVC 23丨多模態(tài)CLIP:用于3D場景問答任務(wù)的對比視覺語言預(yù)訓(xùn)練

    來源:投稿 作者:橡皮 編輯:學(xué)姐 論文鏈接:https://arxiv.org/abs/2306.02329 訓(xùn)練模型將常識性語言知識和視覺概念從 2D 圖像應(yīng)用到 3D 場景理解是研究人員最近才開始探索的一個有前景的方向。然而,2D 提煉知識是否可以為下游 3D 視覺語言任務(wù)(例如 3D 問答)提供有用的表示仍

    2024年02月04日
    瀏覽(27)
  • yolov8(目標(biāo)檢測、圖像分割、關(guān)鍵點檢測)知識蒸餾:logit和feature-based蒸餾方法的實現(xiàn)

    yolov8(目標(biāo)檢測、圖像分割、關(guān)鍵點檢測)知識蒸餾:logit和feature-based蒸餾方法的實現(xiàn)

    在目標(biāo)檢測中,知識蒸餾的原理主要是利用教師模型(通常是大型的深度神經(jīng)網(wǎng)絡(luò))的豐富知識來指導(dǎo)學(xué)生模型(輕量級的神經(jīng)網(wǎng)絡(luò))的學(xué)習(xí)過程。通過蒸餾,學(xué)生模型能夠在保持較高性能的同時,減小模型的復(fù)雜度和計算成本。 知識蒸餾實現(xiàn)的方式有多種,但核心目標(biāo)是將

    2024年04月28日
    瀏覽(96)
  • 微軟亞洲研究院多模態(tài)模型NüWA:以自然語言創(chuàng)造視覺內(nèi)容

    微軟亞洲研究院多模態(tài)模型NüWA:以自然語言創(chuàng)造視覺內(nèi)容

    此前我們曾提出了一個問題:從文字腳本生成創(chuàng)意視頻一共分幾步?微軟亞洲研究院的開放領(lǐng)域視頻生成預(yù)訓(xùn)練模型給出了答案:只需一步。現(xiàn)在,我們追問:除了文字生成視頻之外,還有哪些途徑可以生成視頻?我們能否使用自然語言對視覺內(nèi)容進(jìn)行編輯?微軟亞洲研究院

    2024年02月04日
    瀏覽(21)
  • 【人工智能124種任務(wù)大集合】-集齊了自然語言處理(NLP),計算機(jī)視覺(CV),語音識別,多模態(tài)等任務(wù)

    【人工智能124種任務(wù)大集合】-集齊了自然語言處理(NLP),計算機(jī)視覺(CV),語音識別,多模態(tài)等任務(wù)

    大家好,我是微學(xué)AI,今天給大家介紹一下人工智能124種任務(wù)大集合,任務(wù)集合主要包括4大類:自然語言處理(NLP)、計算機(jī)視覺(CV)、語音識別、多模態(tài)任務(wù)。 我這里整理了124種應(yīng)用場景任務(wù)大集合,每個任務(wù)目錄如下: 句子嵌入(Sentence Embedding):將句子映射到固定維

    2024年02月13日
    瀏覽(26)
  • 【知識蒸餾】知識蒸餾(Knowledge Distillation)技術(shù)詳解

    【知識蒸餾】知識蒸餾(Knowledge Distillation)技術(shù)詳解

    參考論文:Knowledge Distillation: A Survey ???????? 近年來,深度學(xué)習(xí)在學(xué)術(shù)界和工業(yè)界取得了巨大的成功,根本原因在于其可拓展性和編碼大規(guī)模數(shù)據(jù)的能力。但是, 深度學(xué)習(xí)的主要挑戰(zhàn)在于,受限制于資源容量,深度神經(jīng)模型很難部署在資源受限制的設(shè)備上。如嵌入式設(shè)備

    2024年01月23日
    瀏覽(23)
  • 知識蒸餾之自蒸餾

    知識蒸餾之自蒸餾

    知識蒸餾之自蒸餾@TOC 本文整理了 近幾年頂會中的蒸餾類文章(強(qiáng)調(diào)self- distillation) ,后續(xù)可能會繼續(xù)更新其他計算機(jī)視覺領(lǐng)域頂會中的相關(guān)工作,歡迎各位伙伴相互探討。 注意力蒸餾 (Attention distillation) :用于把大網(wǎng)絡(luò)學(xué)習(xí)到的注意力特征圖(attention map)遷移到小網(wǎng)絡(luò)中

    2024年02月06日
    瀏覽(23)
  • 4.AI人工智能大模型匯總:類GPT系列模型、模型中轉(zhuǎn)站Auto-GPT、多模態(tài)大模型、視覺模型、自然語言模型

    4.AI人工智能大模型匯總:類GPT系列模型、模型中轉(zhuǎn)站Auto-GPT、多模態(tài)大模型、視覺模型、自然語言模型

    模型名稱 發(fā)布方 類型 開源類型 原始模型框架 paddle版本 模型能力 模型語言 模型參數(shù) 簡介 模型鏈接 體驗鏈接 paddle版本鏈接 項目鏈接 備注 發(fā)布日期 創(chuàng)建人 模型 星火認(rèn)知大模型 科大訊飛 語言模型 未發(fā)布 暫無paddle 文生文 中文 未知 https://xinghuo.xfyun.cn/?ch=bdtg-xh-cy01bd_vid=1

    2024年02月04日
    瀏覽(39)
  • 知識蒸餾實戰(zhàn):使用CoatNet蒸餾ResNet

    知識蒸餾實戰(zhàn):使用CoatNet蒸餾ResNet

    知識蒸餾(Knowledge Distillation),簡稱KD,將已經(jīng)訓(xùn)練好的模型包含的知識(”Knowledge”),蒸餾(“Distill”)提取到另一個模型里面去。Hinton在\\\"Distilling the Knowledge in a Neural Network\\\"首次提出了知識蒸餾(暗知識提取)的概念,通過引入與教師網(wǎng)絡(luò)(Teacher network:復(fù)雜、但預(yù)測精度優(yōu)

    2024年02月06日
    瀏覽(14)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包