国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

YOLO-World技術小結

2年前作者：莫葉何竹分類：Toy博客閱讀(16)違法舉報

這篇具有很好參考價值的文章主要介紹了YOLO-World技術小結。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

	info
paper	https://arxiv.org/abs/2401.17270
code	https://github.com/AILab-CVC/YOLO-World
org	騰訊
demo	https://huggingface.co/spaces/stevengrove/YOLO-World
個人博客位置	http://www.myhz0606.com/article/yolo_world

1 Motivation

這篇文章從計算效率的角度解決開集目標檢測問題（open-vocabulary object detection，OVD）。

YOLO-World技術小結,目標檢測,YOLO,YOLO-World,開集目標檢測

2 Method

經典的目標檢測的instance annotation是bounding box和類別對 $\Omega = \{ B_i, c_i\}^{N}_{i=1}$ 。對于OVD來說，此時的注釋變?yōu)?span id="n5n3t3z" class="katex--inline"> $\Omega = \{ B_i, t_i\}^{N}_{i=1}$ ，此處的 $t$ 可以是類別名、名詞短語、目標描述等。此外YOLO-Word還可以根據傳入的圖片和text，輸出預測的box及相關的object embedding。

2.1 模型架構

YOLO-World技術小結,目標檢測,YOLO,YOLO-World,開集目標檢測

模型架構由3個部分組成

YOLO backbone，用于提取多尺度的圖片特征
text encoder，用于提取名詞短語的特征。流程如下：給定一段text，首先會提取里面的名詞，隨后將提取的每個名詞短語輸入CLIP中得到向量?？梢灾?code>text encoder的輸出 $W$ $\in \mathbb{R} ^{C \times D}$ , $C$ 是名詞短語的數量， $D$ 是embedding的維度
Vision-Language PAN。用于預測bounding box和object embedding。其架構如下圖所示，核心組件有兩個，分別為Text-guided CSPLayer 及Image-Pooling Attention。下面對其進行簡單介紹

Text-guided CSPLayer

該層的目的是為了用文本向量來強化圖片特征。具體計算公式如下

$\prime } = X _ { l } \cdot \delta ( \max _ { j \in \{ 1 . . C \} } ( X _ { l } W _ { j } ^ { \top } ) ) ^ { \top } \tag{1}$

式中： $\, \in \, \mathbb { R } ^ { \, H \times W \times D } \, ( l \, \in \, \{ 3 , 4 , 5 \} )$ 為多尺度的圖片特征。 $W_j$ 為名詞 $j$ 的text embedding。 $\delta$ 為sigmoid函數。

YOLO-World技術小結,目標檢測,YOLO,YOLO-World,開集目標檢測

**Image-Pooling Attention**

該層的目的是為了用圖片特征來強化文本向量。具體做法為：將多尺度圖片特征通過max pooling，每個尺度經過max-pooling后的size $\in \mathbb{R} ^ {3 \times 3 \times D}$ 即9個patch token，因為有3個尺度，總計27個patch token,記作 $\tilde { X } \in \mathbb{R}^{27 \times D}$ 。隨后將這27個patch token作為 cross-attention的key，value，將text embedding作為query進行特征交互，從而得到image-aware的文本特征向量。

$\prime } = W + \mathrm { M u l t i H e a d } \mathrm { A t t e n t i o n } ( W , \tilde { X } , \tilde { X } ) \; \tag{2}$

2.2 優(yōu)化目標

優(yōu)化目標分為兩部分：其一是針對語義的region-text 對比損失 $\mathcal{L} _ {\mathrm{con}}$ ,其二是針對檢測框的IOU loss $\mathcal{L}_{\mathrm{iou}}$ 和distributed focal loss $\mathcal{L}_{\mathrm{fld}}$ ,總體優(yōu)化目標如下：

$\mathcal L } ( I ) \; = \; { \mathcal L } _ { \mathrm { c o n } } \, + \, \lambda _ { I } \, \cdot \, ( { \mathcal L } _ { \mathrm { i o u } } \, + \, { \mathcal L } _ { \mathrm { d f l } } ) , \tag{3}$

2.3 一些細節(jié)

2.3.1 如何大批量自動化生成訓練標注

目前我們可以很方便的拿到圖片對數據，此處的目標是如何將圖文對數據轉化成，圖片-instance annotation （ $\Omega = \{ B_i, t_i\}^{N}_{i=1}$ ）的形式

作者的方法如下：

import string
import nltk
from nltk import word_tokenize, pos_tag

nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')

def extract_noun_phrases(text):
    
    tokens = word_tokenize(text)
    tokens = [token for token in tokens if token not in string.punctuation]
    tagged = pos_tag(tokens)
    print(tagged)
    grammar = 'NP: {<DT>?<JJ.*>*<NN.*>+}'
    cp = nltk.RegexpParser(grammar)
    result = cp.parse(tagged)
    
    noun_phrases = []
    for subtree in result.subtrees():
        if subtree.label() == 'NP':
            noun_phrases.append(' '.join(t[0] for t in subtree.leaves()))
    
    return noun_phrases

[STEP2]: 將圖片和提取的名詞短語輸入到GLIP中檢測bounding box

[STEP3]: 將(region_img, region_text)和（img, text）送入到CLIP中計算相關度，如果相關度低，則過濾掉這個圖片(作者制定的規(guī)則是 $\sqrt { s ^ { i m g } * s ^ { r e g i o n }} > 0.3$ )。再通過NMS過濾掉冗余的bounding box。

2.3.2 `Vision-Language PAN` 的重參數化

當推理的詞表是固定的時候，此時text encoder的輸出是固定的， $W\in \mathbb{R} ^{C' \times D}$ , $C^{'}$ 是offline詞表的大小， $D$ 是embedding的維度。此時可以對Vision-Language PAN 層進行重參數化。

Text-guided CSPLayer 的重參數化

由于此時的 $W$ 是固定的，可以將其reshape成 $\in \mathbb{R} ^{C' \times D \times 1 \times 1}$ 隨后作為1x1卷積的權重，此時式1可以轉化為：

$\prime } = X \odot \delta ( \max ( \mathtt{Conv} ( X , W ) , \mathtt { d i m } = 1 ) ) , \tag{4}$

$\odot$ 表示包含reshape和transpose的矩陣乘法運算

**Image-Pooling Attention 的重參數化**

作者表示可以將式2簡化為:

$\prime } = W + \mathtt { S o f t m a x } ( W \odot \tilde { X } ) , \mathtt { d i m } = - 1 ) \odot W , \tag{5}$

論文給出的這個公式似乎有點問題，dim=-1不確定對應哪個操作？，此公式位于論文式6。
另外 $\odot$ 這個符號似乎有點歧義，在式4中， $\odot$ 應該是對應元素相乘（Hadamard product），式5中應該是普通矩陣乘法（matmul product）

3 Result

3.1 YOLO world的zero-shot能力

下表展現了YOLO-world在LVIS數據集上的zero-shot能力，可見效果優(yōu)于當前Sota，但速度更快（評估硬件：NVIDIA V100 GPU w/o TensorRT）。

YOLO-World技術小結,目標檢測,YOLO,YOLO-World,開集目標檢測

3.2 預訓練數據集對效果的影響

用Object365和GlodG就能達到較好的效果。加入CC3M效果提升不是很大，可能是因為CC3M的標簽是用2.3.1節(jié)的方法生成的，含有較多噪聲導致。

YOLO-World技術小結,目標檢測,YOLO,YOLO-World,開集目標檢測

3.3 text encoder對效果的影響

如果用輕量backbone最好結合微調。CLIP本身預訓練的數據規(guī)模特別大，如果微調數據不多的話，frozen的效果反而好。

YOLO-World技術小結,目標檢測,YOLO,YOLO-World,開集目標檢測

5 參考文獻

YOLO-World: Real-Time Open-Vocabulary Object Detection文章來源地址http://www.zghlxwxcb.cn/news/detail-836429.html

到了這里，關于YOLO-World技術小結的文章就介紹完了。如果您還想了解更多內容，請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網！

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉載，請注明出處：如若內容造成侵權/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

【計算機視覺 | 目標檢測】Grounding DINO：開集目標檢測論文解讀
介紹一篇較新的目標檢測工作：論文地址為： github 地址為：作者展示一種開集目標檢測方案： Grounding DINO ，將將基于 Transformer 的檢測器 DINO 與真值預訓練相結合。開集檢測關鍵是引入 language 至閉集檢測器，用于開集概念泛化。作者將閉集檢測器分為三個階段，提出一種
2024年02月10日
瀏覽(92)
目標檢測YOLO系列從入門到精通技術詳解100篇-【目標檢測】機器視覺（基礎篇）（十七）
目錄幾個高頻面試題目如何選擇合適的面掃相機算法原理分辨率與視野像素尺寸與景深像素尺寸
2024年02月19日
瀏覽(22)
目標檢測YOLO實戰(zhàn)應用案例100講-面向小樣本的目標檢測技術研究與應用
目錄面向小樣本的目標檢測技術研究傳統目標檢測算法? 二階段的目標檢測?
2024年02月13日
瀏覽(17)
目標檢測YOLO系列從入門到精通技術詳解100篇-【目標檢測】SLAM（基礎篇）（五）
目錄前言幾個相關概念雙目視慣雷達SLAM 相關工作系統綜述視覺前端
2024年02月05日
瀏覽(24)
目標檢測YOLO系列從入門到精通技術詳解100篇-【目標檢測】計算機視覺（基礎篇）
目錄前言幾個高頻面試題目計算機視覺中常見的錯誤及解決方案 1.翻轉圖像和關鍵點
2024年02月03日
瀏覽(32)
目標檢測YOLO系列從入門到精通技術詳解100篇-【目標檢測】計算機視覺（基礎篇）（三）
目錄幾個高頻面試題目計算機視覺與圖像處理、模式識別、機器學習學科之間的關系全景圖及計算機視覺技術全景圖的簡易制作方式
2024年02月03日
瀏覽(23)
GroundingDINO（一種開集目標檢測算法）服務化，根據文本生成檢測框
最近發(fā)現一個叫GroundingDINO的開集目標檢測算法，所謂開集目標檢測就是能檢測的目標類別不局限于訓練的類別，這個算法可以通過輸入文本的prompt然后輸出對應的目標框。可以用來做預標注或者其他應用，比如我們要訓練某個細分場景的算法時，我們找不到足夠的已經標注的
2024年02月06日
瀏覽(23)
【多模態(tài)】17、CORA | 將 CLIP 使用到開集目標檢測
論文：CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching 代碼：https://github.com/tgxs002/CORA 出處：CVPR2023 開集目標檢測（Open-vocabulary detection，OVD）最近得到了很大的關注，CLIP 的出現讓開集目標檢測有了新的解決方式 CLIP 是學習圖像和文本之間的關系來進
2024年02月16日
瀏覽(19)
【AIGC】15、Grounding DINO | 將 DINO 擴展到開集目標檢測
論文：Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection 代碼：https://github.com/IDEA-Research/GroundingDINO 出處：清華、IDEA 時間：2023.03.20 貢獻：本文提出了一種 open-set 的目標檢測器，Grounding DINO，將 Transformer based 檢測器 DINO 和 grounded pre-training 結合起來，能夠輸出
2024年02月09日
瀏覽(46)
【多模態(tài)】18、ViLD | 通過對視覺和語言知識蒸餾來實現開集目標檢測（ICLR2022）
論文：Open-vocabulary Object Detection via Vision and Language Knowledge Distillation 代碼：https://github.com/tensorflow/tpu/tree/master/models/official/detection/projects/vild 效果：在 zero-shot 測試下，coco 達到了 36.6 AP，PASCAL VOC 達到了 72.2AP，Object365 達到了 11.8AP 本文提出了 Vision and Language knowledge Distillation（
2024年02月14日
瀏覽(24)

国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Toy模板網

YOLO-World技術小結

1 Motivation