国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<blockquote id="thbry"><mark id="thbry"></mark></blockquote>

<track id="thbry"></track>

<pre id="thbry"></pre>

【論文閱讀】Know Your Surroundings: Exploiting Scene Information for Object Tracking

1年前作者：~君亦笑分類：Toy博客閱讀(22)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了【論文閱讀】Know Your Surroundings: Exploiting Scene Information for Object Tracking。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

論文筆記

發(fā)表時(shí)間：2020
期刊會(huì)議：ECCV
方向分類：目標(biāo)跟蹤

研究內(nèi)容

做了什么：

本文提出了一個(gè)能夠在視頻序列中傳播目標(biāo)附近場景信息的跟蹤結(jié)構(gòu)，這種場景信息被用來實(shí)現(xiàn)提高目標(biāo)預(yù)測的場景感知能力。

解決了什么問題：

已存在的跟蹤器只依靠外觀來跟蹤，沒有利用任何周圍場景中的信息，容易被相似的物體干擾。

現(xiàn)狀不足

已存在的跟蹤器只依靠外觀來跟蹤，沒有利用任何周圍場景中的信息；
在線更新模板的方法雖然也利用了已跟蹤的幀，但是這樣的策略不能捕捉到場景中其他目標(biāo)的位置和特點(diǎn)。

創(chuàng)新點(diǎn)

提出了一個(gè)新的跟蹤結(jié)構(gòu)，能捕捉場景信息，并將其表示為一個(gè)位置狀態(tài)向量（state vector）；
提出了一個(gè)傳播模塊，該模塊能將上一幀中目標(biāo)附近的對(duì)象位置狀態(tài)映射到后續(xù)幀；
提出了一個(gè)預(yù)測器模塊，該模塊能夠有效的融合目標(biāo)外觀模型的輸出與場景信息對(duì)目標(biāo)位置進(jìn)行預(yù)測；
使用RNN網(wǎng)絡(luò)模塊來更新新的場景信息。

總體架構(gòu)

【論文閱讀】Know Your Surroundings: Exploiting Scene Information for Object Tracking,目標(biāo)跟蹤論文閱讀,論文閱讀,人工智能,深度學(xué)習(xí),目標(biāo)跟蹤

四個(gè)模塊：1.Propagation Module；2.Appearance Model；3.Target Predictor；4.State Update

總體思路：在傳統(tǒng)的跟蹤流程中增加一個(gè)state vector（傳統(tǒng)跟蹤是指僅使用appearance model和predictor），作用是保存上一幀中目標(biāo)附近的場景信息并映射到當(dāng)前幀。實(shí)際上，這個(gè)向量表示了上一幀中當(dāng)前位置是屬于背景、目標(biāo)還是相似干擾物。

跟蹤流程：使用兩個(gè)線索進(jìn)行跟蹤：1）目標(biāo)的外觀，2）場景信息（目標(biāo)附近其他對(duì)象的位置信息）。對(duì)于目標(biāo)的外觀，使用正常的跟蹤流程即可得到。例如DiMP中預(yù)測一個(gè)目標(biāo)外觀模型，然后使用這個(gè)模型在測試幀上進(jìn)行卷積得到最后的響應(yīng)圖 $s_t$ 。對(duì)于場景信息，由state vector得到。給定前一幀的場景信息 $h_{t-1}$ ，通過Propagation 模塊得到當(dāng)前幀的場景信息 ${\hat h_{t - 1}}$ ，和 ${\hat h_{t - 1}}$ 中每個(gè)位置的值的置信度 ${\xi _t}$ 。最后將通過外觀模型得到的響應(yīng)圖 $s_t$ ，當(dāng)前幀的場景信息 ${\hat h_{t - 1}}$ ，以及置信度 ${\xi _t}$ 輸入到最后的預(yù)測模塊中得到最后的位置響應(yīng)圖。
【論文閱讀】Know Your Surroundings: Exploiting Scene Information for Object Tracking,目標(biāo)跟蹤論文閱讀,論文閱讀,人工智能,深度學(xué)習(xí),目標(biāo)跟蹤

模塊細(xì)節(jié)

State 向量的構(gòu)造

為了知道目標(biāo)周圍的場景信息，本文為目標(biāo)附近的每個(gè)區(qū)域維持了一個(gè)state 向量。具體的，對(duì)于深度特征 $x_t$ 中的每個(gè)空間位置 $\in \Omega$ ，作者設(shè)置了一個(gè)S維的state向量 $h^r$ ，即 $\in {\mathbb{R}^{W \times H \times S}}$ 。這些state向量包含了有益于單目標(biāo)跟蹤的信息，例如他包含了這個(gè)位置對(duì)應(yīng)的是目標(biāo)，背景還是相似干擾物的信息。

在首次跟蹤時(shí)，使用一個(gè)包含了兩個(gè)卷積層的小網(wǎng)絡(luò) $\Upsilon$ 來初始化state向量，這個(gè)網(wǎng)絡(luò)使用初始幀中目標(biāo)標(biāo)注 $B_0$ 作為輸入，生成一個(gè)特定目標(biāo)位置的單通道標(biāo)簽圖。

在傳播過程中，給定測試幀 $t$ ，使用propagation模塊將state向量 $h_{t-1}$ 從前一幀的位置轉(zhuǎn)換到當(dāng)前幀的位置，即 $({\hat h_{t - 1}},{\xi _t}) = \Pi ({x_t},{x_{t - 1}},{h_{t - 1}})$ . 其中 ${\xi _t}$ 表示傳播后每個(gè)位置的state向量的置信度。

在更新過程中，使用最后得到的位置響應(yīng)圖 ${\varsigma _t}$ 和外觀模型預(yù)測得到的響應(yīng)圖 $s_t$ 來更新state向量。簡單來說就是使用當(dāng)前幀的響應(yīng)圖信息來更新場景信息，例如重新設(shè)置不正確的信息，將新進(jìn)入的對(duì)象標(biāo)記為干擾物。

State 傳播模塊

這一部分對(duì)應(yīng)于propagation module，作用是將上一幀中目標(biāo)附近各個(gè)位置對(duì)應(yīng)的場景信息傳播到當(dāng)前幀。
輸入：前一幀的深度特征 $x_{t-1}$ ，當(dāng)前幀的深度特征 $x_t$ ，前一幀的場景信息 $h_{t-1}$ .（注意這里的深度特征與外觀模型中使用的深度特征不一定相同）

過程：目的是計(jì)算兩幀之間的密集對(duì)應(yīng)性，并將這種對(duì)應(yīng)性表示為一種概率分布，其中 $p (r^{'} ∣ r)$ 表示在已知當(dāng)前幀位置r的情況下，該位置的目標(biāo)對(duì)應(yīng)于上一幀位置r’處的目標(biāo)的概率。

對(duì)于當(dāng)前幀的所有像素點(diǎn)我們可以得到一個(gè)4D的 ${\text{CV}} \in {\mathbb{R}^{W \times H \times W \times H}}$ （cost volume），他表示了當(dāng)前幀中每個(gè)位置與上一幀中每個(gè)位置的匹配損失。CV中每個(gè)元素 ${\text{CV}}(r',r)$ 的計(jì)算方法是：上一幀特征中以位置r’為中心的3x3窗口與當(dāng)前幀特征中以位置r為中心的3x3窗口計(jì)算互相關(guān)。為了計(jì)算的高效性，不計(jì)算所有像素點(diǎn)之間的對(duì)應(yīng)關(guān)系，只計(jì)算離目標(biāo)一定距離（ $d_{max}$ ）之內(nèi)的像素點(diǎn)之間的對(duì)應(yīng)關(guān)系。

下一步對(duì)這個(gè)對(duì)應(yīng)關(guān)系CV進(jìn)行處理。將CV切片 ${\text{C}}{{\text{V}}_{r'}}(r) \in {\mathbb{R}^{W \times H}}$ （表示上一幀位置r’與當(dāng)前幀所有位置的對(duì)應(yīng)關(guān)系）通過兩個(gè)卷積塊得到處理后的匹配損失 $\phi (r',r)$ （r’是一個(gè)常數(shù)，表示上一幀的位置），然后使用softmax對(duì) $\phi (r',r)$ 進(jìn)行處理得到初始對(duì)應(yīng)關(guān)系 $\phi' (r',r) = \frac{{\exp (\phi (r',r))}}{{\sum\nolimits_{r'' \in \Omega }{\exp (\phi (r',r''))}}}$ 。softmax操作聚合當(dāng)前幀維度上的信息，并提供兩個(gè)幀之間位置的軟關(guān)聯(lián)。類似的，為了聚合上一幀的位置信息，將 $\phi’$ 通過兩個(gè)更多的卷積塊并在前一幀的位置維度上使用softmax。然后我們就得到了上一幀位置r’處的場景信息在當(dāng)前幀每個(gè)位置r處的概率分布** $p (r^{'} ∣ r)$ 。

最后就是在上一幀state向量的基礎(chǔ)上根據(jù) $p (r^{'} ∣ r)$ 來計(jì)算當(dāng)前幀的state向量（當(dāng)前幀位置r處的state向量應(yīng)該是與上一幀中對(duì)應(yīng)關(guān)系最高的state向量）。
$\hat h_{t - 1}^r = \sum\limits_{r' \in \Omega } {h_{t - 1}^{r'}p(r'|r)}$

在使用 $\hat h_{t - 1}^r$ 進(jìn)行目標(biāo)定位時(shí)我們有必要知道由上一幀傳播得到的當(dāng)前幀位置r處的場景信息是否正確，因此針對(duì)當(dāng)前幀每個(gè)位置r處的概率分布 $p (r^{'} ∣ r)$ 估計(jì)一個(gè)置信度 ${\xi _t^r}$ 。 $p (r^{'} ∣ r)$ 中的值表示我們對(duì)當(dāng)前幀位置r對(duì)應(yīng)于上一幀某個(gè)位置的自信程度，正常情況下應(yīng)該是呈正態(tài)分布。但當(dāng) $p (r^{'} ∣ r)$ 呈均勻分布時(shí)，這在另一方面體現(xiàn)出的是一種不確定性，這時(shí)上述公式計(jì)算的是 $h_{t-1}^{r'}$ 的均值，計(jì)算出的 $\hat h_{t - 1}^r$ 是不可信的。為此本文使用 $p (r^{'} ∣ r)$ 的負(fù)香農(nóng)熵來得到 $\hat h_{t -1}^r$ 的置信度（感覺就是計(jì)算與均勻分布的相似程度，越相似越不可信）：
$\xi _t^r = \sum\limits_{r' \in \Omega } {p(r'|r)\log (p(r'|r))}$
這個(gè) $\xi _t^r$ 隨后會(huì)被用來決定是否信任 $\hat h_{t - 1}^r$ 用來計(jì)算最后的目標(biāo)置信分?jǐn)?shù)。

輸出：當(dāng)前幀的每個(gè)位置r處的state向量 $\hat h_{t - 1}^r$ ，當(dāng)前幀每個(gè)位置r處state向量的置信度 $\xi _t^r$

Target Confidence Score 預(yù)測

這一部分對(duì)應(yīng)于Predictor模塊，預(yù)測當(dāng)前幀中目標(biāo)的位置。

輸入：場景信息 $\hat h_{t-1}$ ，場景信息置信度 ${\xi _t}$ ，外觀模型的預(yù)測輸出 $s_t$ 。（ $s_t$ 對(duì)該位置進(jìn)行背景與目標(biāo)的分類， $\hat h_{t-1}$ 包含了該位置在上一幀的背景與目標(biāo)的分類信息， ${\xi _t}$ 表達(dá)了場景信息中每個(gè)位置的置信度）

過程：將三個(gè)輸入在通道維度上進(jìn)行concatenate，然后經(jīng)過兩個(gè)卷積塊，一個(gè)sigmoid層，最終得到中間的位置響應(yīng)圖 ${\xi _t}$ 。但這個(gè)響應(yīng)圖在目標(biāo)與其他物體交錯(cuò)時(shí)變得不可靠，為了處理這個(gè)情況，對(duì)響應(yīng)圖進(jìn)行了進(jìn)一步的處理。具體的，設(shè)定一個(gè)閾值 $\mu$ ，使用一個(gè)指示函數(shù)將響應(yīng)圖中小于這個(gè)閾值的全部mask掉。注意mask操作是可微操作。

輸出：最終的位置響應(yīng)圖 ${\varsigma _t}$ .

State更新

這一部分對(duì)應(yīng)于State Update模塊，根據(jù)當(dāng)前幀的信息更新State向量。

輸入： $s_t$ ， ${\varsigma _t}$ ， $\hat h_{t-1}$

過程：具體的功能是標(biāo)記新的干擾物，修正錯(cuò)誤的state向量。模塊包含一個(gè)卷積門控循環(huán)單元（ConvGRU，是一種RNN網(wǎng)絡(luò)）。首先將 $s_t$ 與 ${\xi_t}$ 的最大值concatenate到一起得到ConvGRU的輸入 ${f_t} \in {\mathbb{R}^{W \times H \times 4}}$ ，并將 $\hat h_{t-1}$ 作為ConvGRU前一個(gè)時(shí)間步的隱藏狀態(tài)（hidden states）。然后ConvGRU使用輸入的 $f_t$ 更新 $\hat h_{t-1}$ 的狀態(tài)得到 $h_t$ 。

輸出：新的state向量 $h_t$

訓(xùn)練方式

輸入：一個(gè)視頻序列

處理：采樣 $N_{train}$ 幀用來構(gòu)造外觀模型，再采樣一個(gè)包含 $N_{seq}$ 幀的子序列,用來對(duì)模型進(jìn)行訓(xùn)練

過程：

正常跟蹤訓(xùn)練：首先使用初始幀初始化一個(gè)state向量 $h_0$ ，然后傳播給下一幀得到 $\hat h_0$ ，并預(yù)測目標(biāo) ${\xi_1}$ ，最后使用預(yù)測得到的目標(biāo)分?jǐn)?shù)對(duì)state向量進(jìn)行更新得到$ h_1$。重復(fù)這個(gè)過程直至序列結(jié)束。

為了保證propagation模塊能夠得到學(xué)習(xí)，添加了一個(gè)小的網(wǎng)絡(luò)頭來預(yù)測state向量是屬于目標(biāo)還是背景。

因?yàn)橥庥^模型預(yù)測的 $s_t$ 在大部分情況下是準(zhǔn)確的，因此predictor模塊有可能只是 $s_t$ 的恒等變換，無法利用state向量。為了避免這種情況，訓(xùn)練期間在 $s_t$ 上隨機(jī)加上一些干擾峰，激勵(lì)預(yù)測器去利用場景信息來排除干擾。

損失計(jì)算：文章來源地址http://www.zghlxwxcb.cn/news/detail-856634.html

計(jì)算最終的 ${\xi _t}$ 與標(biāo)簽之間的均方差損失 $L_t^{pred}$
$L_t^{pred} = {\left\| {{\varsigma _t} - {z_t}} \right\|^2}$

這里 $z_t$ 是高斯函數(shù)生成的標(biāo)簽

計(jì)算predictor預(yù)測的原始 ${\xi _t}$ 與標(biāo)簽之間的損失 $L_t^{pred,raw}$

計(jì)算網(wǎng)絡(luò)頭對(duì)傳播前的state向量分類的損失 $L_t^{state}$ ，使用二分類交叉熵?fù)p失計(jì)算

計(jì)算網(wǎng)絡(luò)頭對(duì)傳播后的state向量分類的損失 $L_t^{state，prop}$ ，使用二分類交叉熵?fù)p失計(jì)算
總損失如下：
$\frac{1}{{{N_{seq}} - 1}}\sum\limits_{t = 1}^{{N_{seq}} - 1} {L_t^{pred} + \alpha L_t^{pred,raw} + \beta (L_t^{state} + L_t^{state,prop})}$

到了這里，關(guān)于【論文閱讀】Know Your Surroundings: Exploiting Scene Information for Object Tracking的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【已解決】535 Login Fail. Please enter your authorization code to login. More information in http://servi
介紹這里是小編成長之路的歷程，也是小編的學(xué)習(xí)之路。希望和各位大佬們一起成長！以下為小編最喜歡的兩句話：要有最樸素的生活和最遙遠(yuǎn)的夢想，即使明天天寒地凍，山高水遠(yuǎn)，路遠(yuǎn)馬亡。一個(gè)人為什么要努力？我見過最好的答案就是：因?yàn)槲蚁矚g的東西都很貴，
2023年04月10日
瀏覽(17)
【已解決】535 Login Fail. Please enter your authorization code to login. More information in http---servi
介紹這里是小編成長之路的歷程，也是小編的學(xué)習(xí)之路。希望和各位大佬們一起成長！以下為小編最喜歡的兩句話：要有最樸素的生活和最遙遠(yuǎn)的夢想，即使明天天寒地凍，山高水遠(yuǎn)，路遠(yuǎn)馬亡。一個(gè)人為什么要努力？我見過最好的答案就是：因?yàn)槲蚁矚g的東西都很貴，
2024年04月26日
瀏覽(14)
Authenticated private information retrieval-論文筆記
論文發(fā)表在 32nd USENIX Security Symposium (USENIX Security 23), 2023?usenix.org 論文作者：Simone Colombo, EPFL; Kirill Nikitin, Cornell Tech; Henry Corrigan-Gibbs, MIT;David J. Wu, UT Austin; Bryan Ford, EPFL 論文鏈接：https://www.usenix.org/system/files/sec23fall-prepub-78-colombo.pdf 1.1? Private Information Retrieval ????????隱私
2024年02月04日
瀏覽(26)
【NLP文章閱讀】Zero-Shot Information Extraction via Chatting with ChatGPT
轉(zhuǎn)載和使用規(guī)則：更多論文解讀請(qǐng)關(guān)注： NLP_paper，如需轉(zhuǎn)載文章需要為我的github項(xiàng)目star，并聲明文章來源零樣本信息提?。↖nformation Extraction）旨在從未注釋的文本中構(gòu)建IE系統(tǒng)。由于很少涉及人類干預(yù)，這是一項(xiàng)具有挑戰(zhàn)性的工作。零樣本IE具有挑戰(zhàn)性但值得一提，它減少
2023年04月09日
瀏覽(21)
51 -25 Scene as Occupancy，場景作為占用論文精讀
本文閱讀的文章是Scene as Occupancy，介紹了一種將物體表示為3D occupancy的新方法，以描述三維場景，并用于檢測、分割和規(guī)劃。文章提出了OccNet和OpenOcc兩個(gè)核心概念。 OccNet 3D占用網(wǎng)絡(luò)是一種以多視圖視覺為中心的方法，通過層級(jí)化的體素解碼器，可以重建3D感知模型和3D占用，
2024年02月22日
瀏覽(20)
51 -25 Scene as Occupancy 場景即占用論文精讀
本文閱讀的文章是Scene as Occupancy，介紹了一種將物體表示為3D occupancy的新方法，以描述三維場景，并用于檢測、分割和規(guī)劃。文章提出了OccNet和OpenOcc兩個(gè)核心概念。 OccNet 3D占用網(wǎng)絡(luò)是一種以多視圖視覺為中心的方法，通過層級(jí)化的體素解碼器，可以重建3D感知模型和3D占用，
2024年02月21日
瀏覽(17)
論文筆記: NSG: Neural Scene Graphs for Dynamic Scenes
對(duì)動(dòng)態(tài)場景進(jìn)行渲染，完成動(dòng)態(tài)前景與背景分離、背景inpainting、動(dòng)態(tài)前景編輯和新視角生成。之前的方法如nerf只能夠渲染靜態(tài)場景（利用的是靜態(tài)場景在多視角下的一致性），如將整張圖像場景中的所有物體編碼進(jìn)單個(gè)神經(jīng)網(wǎng)絡(luò)中，缺乏表征動(dòng)態(tài)物體和將這些物體分解為單
2024年01月16日
瀏覽(22)
Super Resolve Dynamic Scene from Continuous Spike Streams論文筆記
近期，脈沖相機(jī)在記錄高動(dòng)態(tài)場景中展示了其優(yōu)越的潛力。不像傳統(tǒng)相機(jī)將一個(gè)曝光時(shí)間內(nèi)的視覺信息進(jìn)行壓縮成像，脈沖相機(jī)連續(xù)地輸出二的脈沖流來記錄動(dòng)態(tài)場景，因此擁有極高的時(shí)間分辨率。而現(xiàn)有的脈沖相機(jī)重建方法主要集中在重建和脈沖相機(jī)相同分辨率的圖像上。
2024年02月10日
瀏覽(22)
【論文筆記】Scene Reconstruction From 4D Radar Data with GAN and Diffusion
原文鏈接：https://kth.diva-portal.org/smash/get/diva2:1799731/FULLTEXT01.pdf 本文使用深度生成模型（DGM）實(shí)現(xiàn)以4D雷達(dá)為條件的圖像生成，以提供雷達(dá)數(shù)據(jù)的另一可視化方法并增強(qiáng)可解釋性。實(shí)驗(yàn)中的雷達(dá)和RGB相機(jī)固定在路面上方并經(jīng)過時(shí)空同步。雷達(dá)和圖像的數(shù)據(jù)對(duì)會(huì)作為網(wǎng)絡(luò)的訓(xùn)練數(shù)
2024年02月03日
瀏覽(17)
【論文導(dǎo)讀】- A Topological Information Protected Federated Learning Approach for Traf?c Speed Forecasting
FASTGNN: A Topological Information Protected Federated Learning Approach forTraf?c Speed Forecasting 原文地址：https://ieeexplore.ieee.org/document/9340313 Federated learning has been applied to various tasks in intelligent transportation systems to protect data privacy through decentralized training schemes. The majority of the state-of-the-art model
2024年02月09日
瀏覽(54)