国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<nobr id="mmiyz"></nobr>

TOOD Task-aligned One-stage Object Detection 論文學(xué)習(xí)

2年前作者：calvinpaean分類：Toy博客閱讀(27)違法舉報

這篇具有很好參考價值的文章主要介紹了TOOD Task-aligned One-stage Object Detection 論文學(xué)習(xí)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

1. 解決了什么問題？

目標檢測通過多任務(wù)學(xué)習(xí)的方式，協(xié)同優(yōu)化目標的分類和定位。分類任務(wù)會學(xué)習(xí)目標的判別特征，關(guān)注于目標的顯著性或關(guān)鍵區(qū)域，而定位任務(wù)則學(xué)習(xí)準確地定位目標的邊界。因為定位和分類的學(xué)習(xí)機制不同，這倆任務(wù)學(xué)到的特征分布也不同。當(dāng)這兩個分支做預(yù)測時，會產(chǎn)生一定的錯位現(xiàn)象。

分類和定位是獨立的。兩個獨立的分支并行地做目標分類和定位，任務(wù)之間缺乏交流，會造成預(yù)測結(jié)果不一致。如下圖紅色格子，ATSS 識別的是餐桌，但定位的是披薩餅。
Task-agnostic 樣本分配。分類和定位的最佳 anchors 通常是不一致的，根據(jù)目標的形狀和特性差異可能很大。常用的樣本分配方法都是 task-agnostic，因此這倆任務(wù)很難作出準確而一致的預(yù)測。如下圖中的綠色格子代表了最佳的定位 anchor，它不是目標的中心點，而且與分類的最佳 anchor（紅色格子）沒有對齊。這會造成 NMS 時，一個準確定位的邊框被抑制掉。

如下圖，上面一行是 ATSS 預(yù)測的分類得分和定位得分的空間分布，下面一行是 TOOD 預(yù)測的分類得分和定位得分的空間分布。黃框是 ground truth，紅色格子是分類的最佳 anchor，綠色格子是定位的最佳 anchor，若二者重疊則只顯示紅色格子。紅框和綠框分別是紅色格子和綠色格子的 anchor 預(yù)測出的邊框。白色箭頭表示最佳 anchor 偏離目標中心點的主要方向。
TOOD Task-aligned One-stage Object Detection 論文學(xué)習(xí),目標檢測,目標檢測,學(xué)習(xí),人工智能

2. 提出了什么方法？

TOOD 學(xué)習(xí)對齊這兩個任務(wù)。作者首先設(shè)計了一個 task-aligned head (T-Head)，增強兩個任務(wù)間的交流，在學(xué)習(xí) task-interactive 和 task-specific 特征方面取得更好的平衡，更準確地對齊預(yù)測結(jié)果。其次，提出了 task alignment learning (TAL)，通過樣本分配機制和 task-aligned loss 訓(xùn)練，拉近兩個任務(wù)各自最優(yōu)的 anchors 的距離。

2.1 Overview

TOOD 的整體流程采用了“主干-FPN-Head”的結(jié)構(gòu)。TOOD 在每個位置使用一個 anchor，對于 anchor-free 檢測器它就是一個 anchor point，對于 anchor-based 檢測器它就是一個 anchor box。T-head 首先基于 FPN 特征預(yù)測分類和定位。然后 TAL 基于新提出的 task alignment metric 計算任務(wù)對齊信號，表示分類和定位預(yù)測的對齊程度。最后根據(jù) TAL 反向傳播的學(xué)習(xí)信號， T-head 自動地調(diào)節(jié)各類別的概率和邊框位置。對得最齊的 anchor 會得到更高的分類得分，并學(xué)習(xí)偏移量使預(yù)測框更加準確。
TOOD Task-aligned One-stage Object Detection 論文學(xué)習(xí),目標檢測,目標檢測,學(xué)習(xí),人工智能

2.2 Task-aligned Head

為了使 head 更加高效，作者從兩個方面出發(fā)：

增加兩個任務(wù)間的交流；
增強檢測器學(xué)習(xí)對齊的能力。

T-head 如下圖 (b) 所示，包括一個簡單的特征提取器和兩個 task-aligned predictors (TAP)。
TOOD Task-aligned One-stage Object Detection 論文學(xué)習(xí),目標檢測,目標檢測,學(xué)習(xí),人工智能

為了增強分類和定位任務(wù)間的交流，使用一個特征提取器（多個卷積層）學(xué)習(xí)一組 task-interactive 特征，即上圖(b) 藍色部分。該設(shè)計不僅能提高任務(wù)間的交流，也能為這倆任務(wù)提供具有多尺度感受野的多層級特征。 $X^{fpn}\in \mathbb{R}^{H\times W\times C}$ 代表 FPN 特征，其中 $H, W, C$ 分別是 FPN 特征的高度、寬度和通道數(shù)。特征提取器使用 $N$ 個卷積層和激活函數(shù)來計算 task-interactive 特征：
$X_k^{inter}=\left\{ \begin{array}{ll} \delta(\text{conv}_k(X^{fpn})), \quad k=1 \\ \delta(\text{conv}_k(X^{inter}_{k-1})),\quad k>1 \end{array} \right. \forall k\in \lbrace 1,2,...,N\rbrace$

其中 $\text{conv}_k$ 和 $\delta$ 表示第 $k$ 個卷積層和 $\text{relu}$ 函數(shù)。在 head 里使用單分支結(jié)構(gòu)提取豐富的多尺度特征，然后計算得到的 task-interactive 特征會輸入進兩個 TAP，學(xué)習(xí)對齊分類和定位。

2.2.1 TAP

在 task-interactive 特征上進行分類和定位，這兩個任務(wù)能互相感知到對方的狀態(tài)。但由于是單分支設(shè)計，task-interactive 特征難免會因任務(wù)不同而存在一定的特征沖突。作者提出了一個層注意力（layer attention）機制，動態(tài)地計算 task-specific 特征，使任務(wù)解耦。下圖展示了 TAP，分別計算分類或定位的 task-specific 特征：
TOOD Task-aligned One-stage Object Detection 論文學(xué)習(xí),目標檢測,目標檢測,學(xué)習(xí),人工智能

$X_k^{task}=\boldsymbol{w}_k \cdot X_k^{inter},\forall k\in \lbrace1,2,...,N\rbrace$

$\boldsymbol{w}_k$ 是學(xué)習(xí)得到的層注意力 $\boldsymbol{w}\in \mathbb{R}^N$ 的第 $k$ 個元素。 $\boldsymbol{w}$ 是從 task-interactive 特征計算而來的，能夠獲取 $X^{inter}$ 不同 layer 的依賴關(guān)系：

$\boldsymbol{w}=\sigma(fc_2(\delta(fc_1(\boldsymbol{x}^{inter}))))$

$fc_1, fc_2$ 代表兩個全連接層， $\sigma$ 是 $\text{sigmoid}$ 函數(shù)， $\delta$ 是 $\text{relu}$ 函數(shù)。將 $X_k^{inter}$ concat 起來得到 $X^{inter}$ ，然后使用全局平均池化得到 $\boldsymbol{x}^{inter}$ 。最后，分類或定位的結(jié)果由每個 $X^{task}$ 預(yù)測得到：
$Z^{task}=\text{conv}_2(\delta(\text{conv}_1(X^{task})))$

其中 $X^{task}$ 是將 $X_k^{task}$ 特征 concat 起來， $\text{conv}_1$ 是 $1\times 1$ 卷積，用于降維。 $Z^{task}$ 然后使用 $\text{sigmoid}$ 函數(shù)轉(zhuǎn)換為分類得分 $P\in \mathbb{R}^{H\times W\times 80}$ ，或者用 $\text{distance-to-bbox}$ 轉(zhuǎn)換為目標框 $B\in \mathbb{R}^{H\times W\times 4}$ 。

2.2.2 Prediction alignment

預(yù)測時，通過調(diào)節(jié)兩個預(yù)測（ $P$ 和 $B$ ）的空間分布，進一步對齊兩個任務(wù)。以前的方法使用 center-ness 分支或 IoU 分支，基于類別特征或位置特征來調(diào)節(jié)類別預(yù)測。而本文則通過 task-interactive 特征綜合考慮了兩個任務(wù)，然后對齊這兩個預(yù)測結(jié)果。如上圖，作者使用一個空間概率圖 $M\in \mathbb{R}^{H\times W\times 1}$ 調(diào)節(jié)類別的預(yù)測：

$P^{align}=\sqrt{P\times M}$

$M$ 由 interactive 特征計算而來，學(xué)習(xí)每個空間位置上兩個任務(wù)的對齊程度。

同時，為了對齊位置預(yù)測，從 interactive 特征學(xué)習(xí)一個空間偏移圖 $O\in \mathbb{R}^{H\times W\times 8}$ ，調(diào)節(jié)每個位置的預(yù)測框坐標。該偏移量使對得最齊的 anchor point 能識別到它附近最優(yōu)的邊界預(yù)測：

$B^{align}(i,j,c)=B(i+O(i,j,2\times c), j+O(i,j,2\times c+1), c)$

$(i, j, c)$ 表示張量中第 $c$ 個通道的第 $(i, j)$ 個位置。上式通過雙線性插值實現(xiàn)，因為 $B$ 的通道數(shù)不大，所以計算成本很低。注意，每個通道都會獨立地學(xué)習(xí)偏移量，即目標的每條邊都有一個偏移量。因為每條邊都能學(xué)習(xí)它附近最準確的 anchor point，預(yù)測的四條邊就能更加準確。因此，本文方法不僅能對齊定位和分類任務(wù)，也能通過識別每條邊精確的 anchor point 來提升定位的準確率。

$M$ 和 $O$ 從 interactive 特征中自動地學(xué)習(xí)：
$M=\sigma(\text{conv}_2(\delta(\text{conv}_1(X^{inter}))))$
$O=\text{conv}_4(\delta(\text{conv}_3(X^{inter})))$

$\text{conv}_1$ 和 $\text{conv}_3$ 是 2 個 $1\times 1$ 的卷積層，用于通道降維。 $M$ 和 $O$ 通過 TAL 學(xué)習(xí)。T-head 是一個獨立的模塊，可以不需要 TAL。

2.3 Task Alignment Learning

使用 TAL 進一步指導(dǎo) T-head 學(xué)習(xí)對齊分類和定位的預(yù)測。TAL 包括一個樣本分配策略和一個新的損失函數(shù)。它從任務(wù)對齊的角度出發(fā)，動態(tài)地選取高質(zhì)量 anchors，同時考慮 anchors 的分配和加權(quán)。

2.3.1 Task-aligned Sample Assignment

為了使用 NMS，anchor 分配應(yīng)該滿足以下兩個條件：

對齊的 anchor 能同時預(yù)測出較高的類別得分和準確的邊框位置；
錯位的 anchor 的類別得分應(yīng)該很低，會被抑制掉。

于是作者提出了一個新的 anchor 對齊度量，計算任務(wù)對齊的程度。在樣本分配和損失函數(shù)中加入該度量，動態(tài)優(yōu)化每個 anchor 的預(yù)測。

Anchor alignment metric. 類別得分和預(yù)測框與目標框間的 IoU 分別代表分類和定位任務(wù)的預(yù)測質(zhì)量，作者將類別得分和 IoU 結(jié)合，表示倆任務(wù)的對齊程度。使用下式計算每個實例的各 anchor 的對齊度量：
$t=s^{\alpha}\times u^{\beta}$

$s$ 表示類別得分， $u$ 表示 IoU。 $\alpha,\beta$ 用于控制兩項任務(wù)施加的影響。 $t$ 在任務(wù)對齊優(yōu)化的過程中扮演重要角色，使網(wǎng)絡(luò)動態(tài)地關(guān)注于高質(zhì)量（任務(wù)對齊）anchors。

Training sample assignment. 關(guān)注于任務(wù)對齊的 anchors，采用簡單的分配規(guī)則來選取訓(xùn)練樣本：對于每個實例，選取 $m$ 個 $t$ 值最大 anchors 作為正樣本，其余的 anchors 作為負樣本，然后計算損失。

2.4 Task-aligned Loss

分類目標函數(shù)

為了抬高對齊的 anchors 的類別得分，降低那些沒對齊的 anchors （ $t$ 值偏?。┑念悇e得分，訓(xùn)練時對 $t$ 做歸一化得到 $\hat{t}$ ，代替 positive anchor 的二值標簽。根據(jù)下面兩個性質(zhì)來歸一化 $\hat{t}$ ：

保證能有效地學(xué)習(xí)難例（即 $t$ 值較小的 positive anchors）；
保留實例之間關(guān)于預(yù)測框精度的排序。

于是作者采用歸一化方法來調(diào)節(jié) $\hat{t}$ ，對于每個實例， $\hat{t}$ 的最大值等于各 anchor 的 IoU $(u)$ 的最大值。對于分類任務(wù)，使用二元交叉熵來計算損失，將 $\hat{t}$ 作為正樣本的 ground-truth 標簽，而非 1：

$L_{cls\_pos}=\sum_{i=1}^{N_{pos}}BCE(s_i,\hat{t}_i)$
$BCE(s_i,\hat{t}_i)=\hat{t}_i \cdot \log(s_i) + (1 - \hat{t}_i) \cdot \log(1 - s_i)$

$i$ 表示某個實例的 $N_{pos}$ 個 positive anchors 中的第 $i$ 個 anchor。本文還用了 Focal Loss 緩解正負樣本不均衡的問題?？偟姆诸悡p失如下：
$L_{cls}=\sum_{i=1}^{N_{pos}}|\hat{t}_i-s_i|^{\gamma}\cdot BCE(s_i,\hat{t}_i)+\sum_{j=1}^{N_{neg}}s_j^{\gamma}\cdot BCE(s_j,0)$

$j$ 表示 $N_{neg}$ 個 negative anchors 的第 $j$ 個 anchor。 $\gamma$ 和 Focal Loss 一文的含義相同，是調(diào)節(jié)系數(shù)。

定位目標函數(shù)

對齊的 anchors 預(yù)測出的邊框通常置信度更高、邊框更準確，才能在 NMS 時保留下來。訓(xùn)練時， $t$ 通過加權(quán)損失來提升高質(zhì)量 anchor 的影響，降低低質(zhì)量 anchor 的影響。高質(zhì)量邊框?qū)δＰ陀泻锰?，而低質(zhì)量邊框則會產(chǎn)生大量冗余、無意義的信息。作者用 $t$ 值計算邊框的質(zhì)量。利用 $\hat{t}$ 對每個 anchor 的回歸損失做加權(quán)，

$L_{reg}=\sum_{i=1}^{N_{pos}}\hat{t}_i L_{GIoU}(b_i, \overline_i)$
$b,\overline$ 分別是預(yù)測框和目標框。總的 TAL 訓(xùn)練損失是 $L_{reg}$ 和 $L_{cls}$ 之和。文章來源地址http://www.zghlxwxcb.cn/news/detail-607544.html

到了這里，關(guān)于TOOD Task-aligned One-stage Object Detection 論文學(xué)習(xí)的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers
地址：https://arxiv.org/pdf/2207.02255.pdf 1. 摘要 ????OSFormer為基于transformer的偽裝實例分割(CIS)框架，有兩個關(guān)鍵設(shè)計，首先是位置敏感transformer（LST），通過【位置引導(dǎo)查詢】和【混合卷積前向傳播網(wǎng)絡(luò)】獲得定位標簽和實例級參數(shù)；第二，開發(fā)粗糙到精細融合模塊（CFF）合并來
2024年02月12日
瀏覽(28)
【AI面試】目標檢測中one-stage、two-stage算法的內(nèi)容和優(yōu)缺點對比匯總
在深度學(xué)習(xí)領(lǐng)域中，圖像分類，目標檢測和目標分割是三個相對來說較為基礎(chǔ)的任務(wù)了。再加上圖像生成（GAN，VAE，擴散模型），keypoints關(guān)鍵點檢測等等，基本上涵蓋了圖像領(lǐng)域大部分場景了。尤其是在目標檢測，一直是各大比賽（Pascal VOC, COCO, ImageNet）的主要任務(wù)。與此
2024年02月12日
瀏覽(19)
【半監(jiān)督學(xué)習(xí)】5、Efficient Teacher | 專為 one-stage anchor-based 方法設(shè)計的半監(jiān)督目標檢測方法
論文：Efficient Teacher: Semi-Supervised Object Detection for YOLOv5 出處：阿里時間：2023.03 目標檢測近年來的進展離不開大量的標注數(shù)據(jù)，但數(shù)據(jù)標識昂貴且耗時。故此，半監(jiān)督方法被提出，通過自動生成偽標簽來利用大量的未標注數(shù)據(jù)。目前的半監(jiān)督學(xué)習(xí)有如下三個最重要的挑戰(zhàn)：
2024年02月05日
瀏覽(35)
論文閱讀——《Retinexformer: One-stage Retinex-based Transformer for Low-light Image Enhancement》
本文試圖從原理和代碼簡單介紹低照度增強領(lǐng)域中比較新的一篇論文——Retinexformer，其效果不錯，刷新了十三大暗光增強效果榜單。 ? 論文名稱：Retinexformer: One-stage Retinex-based Transformer for Low-light Image Enhancement ?? 論文信息：由清華大學(xué)聯(lián)合維爾茲堡大學(xué)和蘇黎世聯(lián)邦理工
2024年01月18日
瀏覽(29)
【Soft NMS】《Soft-NMS – Improving Object Detection With One Line of Code》
ICCV-2017 NMS 是許多目標檢測算法重要的步驟之一 NMS 的缺點，if an object lies within the prede?ned overlap threshold, it leads to a miss.（sets the score for neighboring detections to zero） Intuitively, if a bounding box has a very high overlap with M M M （maximum score）, it should be assigned a very low score, while if it has a l
2024年02月16日
瀏覽(37)
目標檢測-One Stage-YOLOx
根據(jù)前文CenterNet、YOLOv4等可以看出學(xué)界和工業(yè)界都在積極探索使用各種tricks（anchor-free、各種組件、數(shù)據(jù)增強技術(shù)等等）來改進One Stage網(wǎng)絡(luò)的表現(xiàn)，2021年曠視科技結(jié)合先進的改進技巧，產(chǎn)出了多種改進模型，在多種情況下達到速度和精度的SOTA。值得一提的是，YOLOx使得YOLO系
2024年01月23日
瀏覽(27)
目標檢測-One Stage-YOLOv7
自YOLOv4之后，其作者提出一些新的trciks，YOLOv7誕生主要貢獻分為以下3個方面設(shè)計了幾種訓(xùn)練tricks（bag-of-freebies），使得實時目標檢測可以在不增加推理成本的情況下大大提高檢測精度針對目標檢測領(lǐng)域現(xiàn)有的兩個問題提出解決方案：一是模塊重參化如何高效合并，二是動態(tài)
2024年01月25日
瀏覽(48)
目標檢測-One Stage-YOLOv8
終于到了YOLO系列最新最火爆的網(wǎng)絡(luò)–YOLOv8，前面YOLOv5中已經(jīng)提到ultralytics團隊集成了先進的YOLO系列目標檢測最佳實踐，YOLOv8則是他們的最新力作。 YOLOv8本身的創(chuàng)新點不多，偏向工程實踐。提示：以下是本篇文章正文內(nèi)容，下面內(nèi)容可供參考 YOLOv8同樣根據(jù)縮放給出了以下版本
2024年01月19日
瀏覽(24)
目標檢測-One Stage-YOLOv5
前文目標檢測-One Stage-YOLOv4提到Y(jié)OLOv4主要是基于技巧的集成，對于算法落地具有重大意義，YOLOv5則在工程應(yīng)用方面更近一步，將算法深度集成，使得使用者不用再過多關(guān)注算法實現(xiàn)，且提供了多種預(yù)訓(xùn)練模型，到目前為止，由ultralytics團隊開發(fā)的 ultralytics 包，已經(jīng)支持 YOLOv3
2024年01月23日
瀏覽(19)
目標檢測-One Stage-YOLOv6
YOLOv6 是美團視覺智能部研發(fā)的一款目標檢測框架，致力于工業(yè)應(yīng)用。論文題目是《YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications》。和YOLOv4、YOLOv5等不同的是，YOLOv6對網(wǎng)絡(luò)結(jié)構(gòu)的改動較大。除了模型的結(jié)構(gòu)之外，YOLOv6的數(shù)據(jù)增強和YOLOv5的保持一致；而標簽分配
2024年01月23日
瀏覽(24)

<td id="f9kiu"></td>