国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

一文帶你讀懂DETR模型

這篇具有很好參考價(jià)值的文章主要介紹了一文帶你讀懂DETR模型。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

論文地址:

End-to-End Object Detection with Transformers

?Detr是Facebook提出來的一種目標(biāo)檢測(cè)結(jié)構(gòu),使用了一種基于transformer的全新網(wǎng)絡(luò)結(jié)構(gòu),在沒有使用以往的諸如yolo之類的算法的情況下就能取得相當(dāng)不錯(cuò)的表現(xiàn),再次印證了transformer的優(yōu)越性能。

目錄

Introduction

Set Prediction

DETR architecture

Backbone

Transformers and Parallel Decoding

Prediction feed-forward networks (FFNs)

實(shí)驗(yàn)結(jié)果

DETR for panoptic segmentation

對(duì)于Detr模型的評(píng)價(jià)

自己的做的一點(diǎn)工作


Introduction

Detr處理的問題是目標(biāo)檢測(cè)問題。這類問題可以簡化為預(yù)測(cè)圖片中物體的包圍盒。現(xiàn)有的針對(duì)這類問題的處理方法都往往比較復(fù)雜,包括 defining surrogate regression and classification problems on a large set of proposals [37,5], anchors [23], or window centers [53,46]. Detr提供了一種使用transformer的encoder-decoder結(jié)構(gòu)來直接預(yù)測(cè)包圍盒的方法:

一文帶你讀懂DETR模型

Detr模型 先通過一個(gè)CNN的backbone網(wǎng)絡(luò)對(duì)圖片的進(jìn)行特征提取,使用一個(gè)transformer的encoder-decoder結(jié)構(gòu)直接獲得N個(gè)固定數(shù)量的包圍盒的預(yù)測(cè)。

本文的最主要貢獻(xiàn)是使用bipartite matching loss來計(jì)算預(yù)測(cè)結(jié)果與ground truth之間的損失,以及使用transformer來代替之前復(fù)雜的處理流程。與gpt里面的encoder-decoder不同,這里的decoder是一次性預(yù)測(cè)所有的bounding box。

接下來就這兩個(gè)關(guān)鍵問題進(jìn)行介紹:

Set Prediction

包圍盒的檢測(cè)也就是一個(gè)集合預(yù)測(cè)的問題。這類問題有時(shí)候會(huì)遇到集合交疊的問題:一文帶你讀懂DETR模型

以往處理這類問題的方法有Non Maximal Suppression。

同時(shí)由于Detr模型直接預(yù)測(cè)N個(gè)包圍盒的位置,而實(shí)際圖像里面往往只有很少的物體,所以就需要確定一種匹配的方法,來將物體包圍盒的ground truth來與這N個(gè)預(yù)測(cè)進(jìn)行匹配,沒有匹配成功的直接作為背景進(jìn)行padding。

由于多個(gè)包圍盒構(gòu)成了一個(gè)集合,所以模型預(yù)測(cè)出來的結(jié)果應(yīng)當(dāng)具有集合中的順序不變性。

這里使用的匹配算法是匈牙利匹配算法,這個(gè)算法計(jì)算每對(duì)預(yù)測(cè)的包圍盒和ground truth的包圍盒的距離,采用使得距離之和最小的匹配方式來進(jìn)行匹配:

一文帶你讀懂DETR模型

注意這里的σ實(shí)際上是1~N的一個(gè)全排列。也就是每個(gè)配對(duì)的包圍盒的標(biāo)簽對(duì)應(yīng)關(guān)系。

那么具體是怎么計(jì)算這個(gè)距離的呢? 這里貼一段原文里面的計(jì)算公式:

一文帶你讀懂DETR模型

?具體來說,包圍盒的距離由分類分?jǐn)?shù)和距離分?jǐn)?shù)所組成,總的配對(duì)目標(biāo)就是最小化下面的值:

一文帶你讀懂DETR模型

?另外原文中提到,在ci是空集(也即是背景)的時(shí)候要將對(duì)數(shù)損失減小十倍,以平衡樣本??占c預(yù)測(cè)值之間的Lbox距離是一個(gè)常數(shù),也就意味著這一部分實(shí)際上對(duì)匹配結(jié)果沒有影響

這個(gè)Bounding box loss的計(jì)算方式如下,還是比較復(fù)雜的。具體的計(jì)算方式在作者代碼的models\matcher.py里面,感興趣的可以自己去看看。

一文帶你讀懂DETR模型

DETR architecture

一文帶你讀懂DETR模型

Backbone

預(yù)處理的backbone網(wǎng)絡(luò)是一個(gè)對(duì)圖片的維度進(jìn)行變換的網(wǎng)絡(luò),通過卷積層來將圖片的大小降低,通道提高。

一文帶你讀懂DETR模型

Transformers and Parallel Decoding

Detr所使用的transformer結(jié)構(gòu)其實(shí)與transformer里面的encoder-decoder非常相似:

一文帶你讀懂DETR模型一文帶你讀懂DETR模型

Detr先將從backbone得到的C=2048的輸入用1*1的卷積層進(jìn)行降維,然后flatten后加入position embedding送入encoder中去。

在decoder的時(shí)候,使用0初始化object queries,再加上position embedding,可以這么理解:求取每一個(gè)position對(duì)應(yīng)的patch與圖片中的物體的embedding的相似度,使用position的query去查找對(duì)應(yīng)的K有沒有要查找的物體。

有幾個(gè)需要注意的點(diǎn):

1. Detr的encoder和decoder的position embedding是加在每一層multihead self-attention layer上的,而且只加在Q和K上,不加在V上,作者并沒有給出這樣做的原因,可能是因?yàn)镈etr的任務(wù)與position密切相關(guān),所以需要在每一層上都加。

一文帶你讀懂DETR模型

2. 原版transformer里面的outputs在輸入模型前需要加入attention mask,在預(yù)測(cè)的時(shí)候需要將預(yù)測(cè)出的當(dāng)前token輸入模型計(jì)算下一個(gè)token。而Detr的預(yù)測(cè)實(shí)際上是并行的,也不需要attention mask。

3. 在計(jì)算損失函數(shù)的時(shí)候,為了更塊的訓(xùn)練,在decoder的每一層上都將中間結(jié)果送入FFN中計(jì)算損失函數(shù):

一文帶你讀懂DETR模型

一文帶你讀懂DETR模型

?作者還提到,Detr需要較長的訓(xùn)練時(shí)間。這是由于采用了transfomer結(jié)構(gòu)造成的。

Prediction feed-forward networks (FFNs)

將Decoder的輸出送入一個(gè)三層的FFN中,預(yù)測(cè)五個(gè)值:包圍盒相對(duì)圖片的中心xy坐標(biāo),包圍盒相對(duì)于圖片的height和width,以及包圍盒的class label,也就是包圍盒是否為背景。隨后使用上面所講的box loss就可以訓(xùn)練模型。

實(shí)驗(yàn)結(jié)果

作者與Faster R-CNN做了比較,并做了大量的消融實(shí)驗(yàn),證明了計(jì)算auxiliary losses的有用性。

同時(shí)也對(duì)position embedding做了消融實(shí)驗(yàn)最后得出sine at attn是最好的position embedding方式:

一文帶你讀懂DETR模型

這里有一張比較有意思的圖:?

一文帶你讀懂DETR模型

這里是encoder attention的可視化,可以看到encoder確實(shí)是注意到了圖片中的不同部分

一文帶你讀懂DETR模型

這里是decoder的可視化,可以看到即使對(duì)于重疊的動(dòng)物的腿,detr依然能分的非常清除,這個(gè)效果還是很不錯(cuò)的。

另外對(duì)于decoder輸入的100個(gè)slot,detr統(tǒng)計(jì)了它們所預(yù)測(cè)的包圍盒的分布:

一文帶你讀懂DETR模型

?每個(gè)點(diǎn)的位置代表著包圍盒的位置,點(diǎn)的顏色代表包圍盒的大小,可以看出不同的slot負(fù)責(zé)圖像中不同的部分,所有slot都有可能預(yù)測(cè)整個(gè)圖片大小的包圍盒,這與coco的數(shù)據(jù)分布有關(guān)。

作者還測(cè)試了面對(duì)數(shù)據(jù)集中從未出現(xiàn)過的數(shù)量的包圍盒的模型泛化能力:

一文帶你讀懂DETR模型

DETR for panoptic segmentation

只需要對(duì)Detr做一點(diǎn)小小的修改,就可以將這個(gè)模型應(yīng)用到全景分割的任務(wù)上:

一文帶你讀懂DETR模型

為每一個(gè)預(yù)測(cè)出來的包圍盒,使用一個(gè)panoptic head來生成圖片對(duì)應(yīng)的物體的二元分割。然后使用argmax求出每一個(gè)pixel最可能對(duì)應(yīng)的物體。

訓(xùn)練的時(shí)候,有兩種訓(xùn)練策略:可以同時(shí)訓(xùn)練兩個(gè)head,也可以先訓(xùn)練預(yù)測(cè)box的head,再訓(xùn)練預(yù)測(cè)二元全景分割的head。

對(duì)于Detr模型的評(píng)價(jià)

detr模型使用一種全新的方式處理了物體分割這個(gè)已經(jīng)有了很成熟的算法的問題,而且出道即顛峰。可見transformer對(duì)于不同領(lǐng)域的問題都能解決的很好,有成為通用人工智能的無限潛力。

至于模型的缺點(diǎn),作者也承認(rèn),對(duì)于小目標(biāo)的檢測(cè)效果并不出眾。我認(rèn)為使用transformer的結(jié)構(gòu)在目前和未來是很難完全取代CNN的。這是因?yàn)楝F(xiàn)有的Vit模型都將圖片分成一個(gè)固定大小的patch,而不能像CNN那樣每一層有著不同的感受野,能獲取圖像不同尺寸特征的細(xì)節(jié)結(jié)構(gòu)。因此我們需要一種能夠感知圖像不同resolution的特征的方法,而不是全都劃分成同樣大小的patch一刀切。

而且detr模型收斂速度慢,資源消耗多。使用transformer來處理圖像往往都會(huì)遇到這種問題。

我認(rèn)為未來的許多cv問題都可以嘗試這種使用transformer作為中間層的處理方式,將重點(diǎn)放在輸入層輸出層以及其訓(xùn)練方法上。實(shí)踐已經(jīng)檢驗(yàn)了這些方法的有效性。

在后面的swin-transformer中,直接將圖片經(jīng)過簡單的全連接層處理就輸入到transformer中,但是我們完全可以嘗試更多的網(wǎng)絡(luò)結(jié)構(gòu)組合。

另外,我認(rèn)為可以充分利用圖像中的對(duì)稱性,比如將圖像左右翻轉(zhuǎn)計(jì)算包圍盒,然后將得到的包圍盒再次翻轉(zhuǎn)與原來的計(jì)算平均值。文章來源地址http://www.zghlxwxcb.cn/news/detail-451786.html

到了這里,關(guān)于一文帶你讀懂DETR模型的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 抖音小店無貨源處罰全解,一文帶你讀懂官方規(guī)則,合理規(guī)避風(fēng)險(xiǎn)

    抖音小店無貨源處罰全解,一文帶你讀懂官方規(guī)則,合理規(guī)避風(fēng)險(xiǎn)

    大家好,我是電商年年 根據(jù)官方解釋, “無貨源店鋪” ,指店鋪經(jīng)營者沒有現(xiàn)貨,在網(wǎng)上找產(chǎn)品找貨源,在未取得貨源方授權(quán)的情況下,把貨源信息“搬運(yùn)”到自己的店鋪中,等有消費(fèi)者下單,店鋪經(jīng)營者再去 貨源方店鋪下 單,由貨源方向消費(fèi)者派單發(fā)貨。 ? 那官方對(duì)于

    2024年02月03日
    瀏覽(22)
  • 3D智能相機(jī):帶你讀懂3D機(jī)器視覺如何實(shí)時(shí)掃描構(gòu)建物體的3D模型

    3D智能相機(jī):帶你讀懂3D機(jī)器視覺如何實(shí)時(shí)掃描構(gòu)建物體的3D模型

    作者:御劍飛行? 3D智能相機(jī)是一種能夠捕捉三維空間中物體形狀和位置信息的相機(jī)。它可以在一個(gè)瞬間同時(shí)捕捉到物體的深度和顏色信息,并用這些數(shù)據(jù)創(chuàng)建一個(gè)三維模型。 3D智能相機(jī)工作方式示意圖,圖源@御劍飛行 3D智能相機(jī)能夠捕獲物體的更詳細(xì)信息,包括其尺寸、形

    2024年04月09日
    瀏覽(22)
  • 一口氣帶你讀懂跨境電商出海模式

    作為一名跨境電商賣家,掌握正確的“出海模式”至關(guān)重要。今天,就讓我們一起揭開跨境電商的神秘面紗,探索它的各種出海模式,為你的電商之旅提供指引。 1???國際站模式 ?起步門檻:10W及以內(nèi) ?利潤:高 ?客單價(jià):較高(以?B2B?大單為主) ?運(yùn)營難度:中低,

    2024年02月21日
    瀏覽(27)
  • 工時(shí)管理為何對(duì)項(xiàng)目如此重要?8Manage 帶你讀懂!

    工時(shí)管理為何對(duì)項(xiàng)目如此重要?8Manage 帶你讀懂!

    “時(shí)間就是金錢”,相信作為管理者都已經(jīng)聽膩了這話,但在項(xiàng)目管理中確實(shí)是真理。你要知道項(xiàng)目工時(shí)是會(huì)直接影響到項(xiàng)目費(fèi)用成本的,不論項(xiàng)目工作是按小時(shí)還是按固定費(fèi)用計(jì)費(fèi)和付款,在一段工時(shí)內(nèi)完成的工作越多,說明效率就越高,而費(fèi)用成本也就越低。而且員工工

    2024年02月16日
    瀏覽(26)
  • Linux - 一篇帶你讀懂 Curl Proxy 代理模式

    Linux - 一篇帶你讀懂 Curl Proxy 代理模式

    curl 是一個(gè)很有名的處理網(wǎng)絡(luò)請(qǐng)求的 類Unix 工具。出于某種原因,我們進(jìn)行網(wǎng)絡(luò)請(qǐng)求,需要設(shè)置代理。本文講全面介紹如何為 curl 設(shè)置代理 設(shè)置代理參數(shù) 基本用法 設(shè)置 HTTP 代理 下面兩種設(shè)置代理的方式是可以的 由于代理地址的默認(rèn)協(xié)議為? HTTP, 所以可以省略,按照下面的

    2024年02月05日
    瀏覽(29)
  • 1.4W字!讓我?guī)阕x懂springmvc的世界!

    1.4W字!讓我?guī)阕x懂springmvc的世界!

    目錄 一.前提了解 1.tomcat和servlet的關(guān)系? 2.springmvc想要實(shí)現(xiàn)web開發(fā)必須滿足的條件是什么? 二.什么是SpringMVC 三.基于SpringMVC創(chuàng)建web項(xiàng)目 ①創(chuàng)建項(xiàng)目并選擇依賴 ?②設(shè)置熱部署(部分代碼改動(dòng)不需要手動(dòng)重新run即可生效) 四.理解前后端分離的開發(fā)過程 五.SpringMVC實(shí)現(xiàn)web開發(fā)

    2024年02月06日
    瀏覽(30)
  • 圖論:一文教你讀懂常見的圖遍歷算法

    圖論:一文教你讀懂常見的圖遍歷算法

    深度優(yōu)先搜索(DFS): 從一個(gè)起始節(jié)點(diǎn)開始,訪問該節(jié)點(diǎn)并將其標(biāo)記為已訪問。 遞歸地訪問所有與當(dāng)前節(jié)點(diǎn)直接相連且未被訪問過的節(jié)點(diǎn)。 重復(fù)上述步驟,直到所有節(jié)點(diǎn)都被訪問過或沒有未訪問的節(jié)點(diǎn)。 廣度優(yōu)先搜索(BFS): 從一個(gè)起始節(jié)點(diǎn)開始,將其放入隊(duì)列中,并標(biāo)

    2024年04月25日
    瀏覽(18)
  • 帶你讀論文第十一期:上海人工智能實(shí)驗(yàn)室孫偉高博士,分享大模型分布式訓(xùn)練方法!...

    帶你讀論文第十一期:上海人工智能實(shí)驗(yàn)室孫偉高博士,分享大模型分布式訓(xùn)練方法!...

    ?Datawhale論文? 來源:WhalePaper,負(fù)責(zé)人:芙蕖 由Datawhale團(tuán)隊(duì)成員發(fā)起,對(duì)目前學(xué)術(shù)論文中比較成熟的 Topic 和開源方案進(jìn)行分享,通過一起閱讀、分享論文學(xué)習(xí)的方式幫助大家更好地“高效+全面+自律”學(xué)習(xí),讓大家都有所收獲和提升!方向包括自然語言處理(NLP)、計(jì)算機(jī)視

    2024年04月23日
    瀏覽(29)
  • DETR-《End-to-End Object Detection with Transformers》論文精讀筆記

    DETR-《End-to-End Object Detection with Transformers》論文精讀筆記

    End-to-End Object Detection with Transformers 參考:跟著李沐學(xué)AI-DETR 論文精讀【論文精讀】 在摘要部分作者,主要說明了如下幾點(diǎn): DETR是一個(gè)端到端(end-to-end)框架,釋放了傳統(tǒng)基于CNN框架的一階段(YOLO等)、二階段(FasterRCNN等)目標(biāo)檢測(cè)器中需要大量的人工參與的步驟,例如:

    2024年02月11日
    瀏覽(29)
  • 【Deformable DETR 論文+源碼解讀】Deformable Transformers for End-to-End Object Detection

    【Deformable DETR 論文+源碼解讀】Deformable Transformers for End-to-End Object Detection

    上一篇講完了DETR相關(guān)原理和源碼,打算繼續(xù)再學(xué)習(xí)DETR相關(guān)改進(jìn)。這次要解讀的是21年發(fā)表的一篇論文: ICLR 2021:Deformable DETR: Deformable Transformers for End-to-End Object Detection 。 先感謝這位知乎大佬,講的太細(xì)了: Deformable DETR: 基于稀疏空間采樣的注意力機(jī)制,讓DCN與Transformer一起玩

    2023年04月16日
    瀏覽(17)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包