国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

[論文閱讀筆記26]Tracking Everything Everywhere All at Once

2年前作者：wjpwjpwjp0831分類：Toy博客閱讀(23)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了[論文閱讀筆記26]Tracking Everything Everywhere All at Once。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

論文地址: 論文
代碼地址: 代碼

這是一篇效果極好的像素級(jí)跟蹤的文章, 發(fā)表在ICCV2023, 可以非常好的應(yīng)對(duì)遮擋等情形, 其根本的方法在于將2D點(diǎn)投影到一個(gè)偽3D(quasi-3D)空間, 然后再映射回去, 就可以在其他幀中得到穩(wěn)定跟蹤.

這篇文章的方法不是很好理解, 代碼也剛開源, 做一下筆記備忘.

0. Abstract

傳統(tǒng)的光流或者粒子視頻跟蹤方法都是用有限的時(shí)間窗口去解決的, 所以他們并不能很好的應(yīng)對(duì)長(zhǎng)時(shí)遮擋, 也不能保持估計(jì)的軌跡的全局連續(xù)性. 為此, 我們提出了一個(gè)完整的, 全局的連續(xù)性的運(yùn)動(dòng)表示方法, 叫做OmniMotion. 具體地, OmniMotion將一個(gè)視頻序列表示成一個(gè)準(zhǔn)-3D的規(guī)范量(quasi-3D canonical volume), 然后通過定義一個(gè)雙射(也就是從平面空間到所謂的canonical的空間), 這樣我們通過一個(gè)準(zhǔn)3D空間, 就可以描述一個(gè)完整的運(yùn)動(dòng)(因?yàn)檠a(bǔ)償了2D缺失的信息).

1. Method

由于對(duì)相關(guān)領(lǐng)域知識(shí)的匱乏, 先略過Introduction和Related Work部分, 先來(lái)看方法.

從整體流程上, OmniMotion將一整個(gè)視頻序列作為輸入, 同時(shí)還輸入不太準(zhǔn)確的帶噪的運(yùn)動(dòng)估計(jì)(例如光流估計(jì)), 然后解出一個(gè)完整的, 全局的運(yùn)動(dòng)軌跡.

那么如何解決遮擋問題呢? 遮擋, 只是在2D的圖像平面下遮擋了, 但是在3D信息中是可以恢復(fù)出來(lái)的. 為此, 我們將場(chǎng)景給投影到某個(gè)3D空間, 這個(gè)空間可以盡可能描述像素完整的運(yùn)動(dòng). 比如說, 第 $t_1$ 幀的某個(gè)像素 $x_1$ , 給投影到這個(gè)3D空間變?yōu)?span id="n5n3t3z" class="katex--inline"> $x^{'}$ , 然后在第 $t_2$ 幀我們?cè)賹⑦@個(gè) $x^{'}$ 投射到2D平面, 就得到了對(duì)應(yīng)的點(diǎn) $x_2$ . 由于這個(gè)3D不需要真正的進(jìn)行3D重建(因?yàn)檎嬲?D重建是需要知道相機(jī)的內(nèi)參和外參, 內(nèi)參包括圖像中心的坐標(biāo), 相機(jī)的焦距等, 外參需要知道相機(jī)的朝向等, 是比較復(fù)雜的), 因此我們將該空間成為quasi-3D.

所以具體是如何做的呢?

1.1 規(guī)范3D量的組成

我們將前述的規(guī)范3D量記為 $G$ . 和神經(jīng)輻射場(chǎng)(NeRF)一樣, 我們?cè)?span id="n5n3t3z" class="katex--inline"> $G$ 上定義了一個(gè)基于坐標(biāo)的網(wǎng)絡(luò) $F_{\theta}$ , 該網(wǎng)絡(luò)將 $G$ 中的3D坐標(biāo) $u$ 映射到密度 $\sigma$ 和顏色 $c$ . 其中密度可以告訴我們表面(surface)在這個(gè)3D空間中的位置, 顏色是可以在訓(xùn)練過程中計(jì)算光度損失(photometric loss).

1.2 3D雙射

如前所述, 我們需要定義一個(gè)從本地坐標(biāo)(也就是視頻或圖像坐標(biāo))到quasi-3D空間的一個(gè)映射, 以及逆映射, 這樣我們可以再映射回別的時(shí)間索引的幀找到對(duì)應(yīng)點(diǎn). 然而, 實(shí)際上該工作是將本地的2D坐標(biāo)給提升到3D的(后面會(huì)講如何做的), 然后從提升后的本地3D坐標(biāo)投影到quasi-3D空間. 整個(gè)映射和逆映射的過程如下:

$x_j = \mathcal{T}_j^{-1}\circ \mathcal{T}_i(x_i)$

其中 $i, j$ 是frame index, 因此, 我們定義的映射是和時(shí)間有關(guān)的. 然而, 中間產(chǎn)物 $\mathcal{T}_i(x_i)$ 應(yīng)該是與時(shí)間無(wú)關(guān)的.

在實(shí)現(xiàn)上, 映射是用可逆神經(jīng)網(wǎng)絡(luò)(INN)做的.

1.3 計(jì)算運(yùn)動(dòng)

流程上, 我們?cè)?D圖像上的一個(gè)像素 $p_i$ , 我們首先將其提升到3D, 變成 $p_i'$ . 方法是在一個(gè)射線上進(jìn)行采樣. 然后用上一節(jié)定義的3D雙射投影到第 $j$ 幀對(duì)應(yīng)的3D點(diǎn), 最后再降維回2D就可以了.

具體地, 由于我們已經(jīng)將相機(jī)的運(yùn)動(dòng)包含在映射 $\mathcal{T}$ 內(nèi)了 , 因此我們直接將相機(jī)建模成固定的正交相機(jī). 固定正交相機(jī)的含義是, 物體不再具有近大遠(yuǎn)小的特征. 這樣一來(lái), 我們就可以很容易的將2D坐標(biāo)拓展到3D坐標(biāo). 也就是說, 既然物體的大小不再隨著深度的變化而變化, 那么2D像素點(diǎn) $x_i, y_i)$ 不論深度如何, 它的值(RGB)一直是一樣的, 因此前述的射線可以這樣定義:

$r_i(z)=o_i+zd, \\ o_i = [p_i, 0] \in \mathbb{R}^3, d = [0, 0, 1]$

因此我們?cè)谶@個(gè)射線上采集 $K$ 個(gè)樣本, 就相當(dāng)于在這個(gè)固定正交相機(jī)拍攝的3D場(chǎng)景中進(jìn)行深度采樣.

然后, 這么一堆樣本, 我們用映射 $\mathcal{T}_i$ 投影到quasi-3D空間, 然后再用之前說的映射 $F_{\theta}$ 轉(zhuǎn)換成密度和顏色的量 $(\sigma, c)$ , 即, 對(duì)于第 $k$ 個(gè)樣本:

$(\sigma_k, c_k) = F_\theta(\mathcal{T}_i(x_i^k)) \\ x_j^k = \mathcal{T}_j^{-1}((\sigma_k, c_k))$

隨后, 我們根據(jù)第 $j$ 幀的這 $K$ 個(gè)對(duì)應(yīng)樣本, 得到第 $j$ 幀的估計(jì):

$\hat{x}_j = \sum_{k=1}^KT_k\alpha_kx_j^k, \\ \text{where} ~~T_k=\Pi_{l=1}^{k-1}(1-\alpha_l), \\ \alpha_k = 1-\exp\{-\sigma_k\}$

以上的過程叫做alpha compositing, 是NeRF中一個(gè)常用的技巧. 意義是, 密度實(shí)際上表達(dá)了3D空間中存在物體的可能性, $1-\exp\{-\sigma_k\}$ 就是一種對(duì)概率的衡量. 對(duì)于是否采納第 $k$ 個(gè)樣本, 重要性為 $T_k\alpha_k$ , $\alpha_k$ 已經(jīng)解釋. $T_k$ 的含義是在這之前的樣本的聯(lián)合可信程度, 也就是說, 之前有一個(gè)樣本已經(jīng)比較可信了, 那么這個(gè)樣本就可以更少的采納.

以上是個(gè)人理解

因此, 上面的過程總結(jié)為下圖:
[論文閱讀筆記26]Tracking Everything Everywhere All at Once,讀文獻(xiàn),其他,論文閱讀,筆記,機(jī)器學(xué)習(xí),人工智能,目標(biāo)跟蹤,深度學(xué)習(xí)

2. Training

這個(gè)工作是用已有的光流方法生成標(biāo)簽, 指導(dǎo)訓(xùn)練的. 這部分重點(diǎn)先記一下?lián)p失函數(shù).

損失函數(shù)由三部分構(gòu)成, 一個(gè)是位置誤差, 也就是坐標(biāo)誤差. 一個(gè)是顏色誤差, 這就是前面 $c$ 的作用, 還有一個(gè)是因?yàn)橐ＷC平穩(wěn)性而加入的罰項(xiàng). 其中1, 3項(xiàng)采用1范數(shù), 第二項(xiàng)采用2范數(shù).

Flow loss:

$\mathcal{L}_{flo} = \sum_{f_{i \to j}}|| \hat{f}_{i \to j} - f_{i \to j}||_1, \\ \hat{f}_{i \to j} = \hat{p}_j - p_i$

photometric loss:

$\mathcal{L}_{pho} = \sum_{i, p}|| \hat{C}_{i}(p) - C_i(p)||_2^2$

smooth loss:

$\mathcal{L}_{reg} = \sum_{i, x}|| x_{i + 1} - x_i + x_{i - 1} - x_i||_1$

意義是保證前一幀和后一幀的差距盡量小.

最終的loss是這三項(xiàng)的線性組合.文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-680451.html

到了這里，關(guān)于[論文閱讀筆記26]Tracking Everything Everywhere All at Once的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【自監(jiān)督論文閱讀筆記】EVA: Exploring the Limits of Masked Visual Representation Learning at Scale
????????本文推出了 EVA ，這是一個(gè) 以視覺為中心的基礎(chǔ)模型，旨在僅使用可公開訪問的數(shù)據(jù)來(lái) 探索大規(guī)模視覺表示的局限性。EVA 是一種經(jīng)過預(yù)訓(xùn)練的普通 ViT，用于重建以可見圖像塊為條件的屏蔽掉的圖像-文本對(duì)齊（image-text aligned）的視覺特征。通過這個(gè)前置任
2024年02月06日
瀏覽(25)
[論文閱讀] BoT-SORT: Robust Associations Multi-Pedestrian Tracking
這篇文章是今年6月底發(fā)布的一篇多目標(biāo)跟蹤(MOT)的屠榜方法，命名為BoT-SORT。作者來(lái)自以色列的特拉維夫大學(xué)（Tel-Aviv University）。本文簡(jiǎn)單談?wù)勎覍?duì)這個(gè)算法的理解，因?yàn)橐彩荕OT領(lǐng)域的初學(xué)者，如有錯(cuò)誤希望各位讀者修正，也歡迎大家一起探討。 PS：文章內(nèi)部分圖片是原創(chuàng)
2024年02月02日
瀏覽(21)
【論文閱讀】Know Your Surroundings: Exploiting Scene Information for Object Tracking
發(fā)表時(shí)間：2020 期刊會(huì)議：ECCV 方向分類：目標(biāo)跟蹤做了什么：本文提出了一個(gè)能夠在視頻序列中傳播目標(biāo)附近場(chǎng)景信息的跟蹤結(jié)構(gòu)，這種場(chǎng)景信息被用來(lái)實(shí)現(xiàn)提高目標(biāo)預(yù)測(cè)的場(chǎng)景感知能力。解決了什么問題：已存在的跟蹤器只依靠外觀來(lái)跟蹤，沒有利用任何周圍場(chǎng)景中
2024年04月23日
瀏覽(21)
論文閱讀：Attention is all you need
【最近課堂上Transformer之前的DL基礎(chǔ)知識(shí)儲(chǔ)備差不多了，但學(xué)校里一般講到Transformer課程也接近了尾聲；之前參與的一些科研打雜訓(xùn)練了我閱讀論文的能力和閱讀源碼的能力，也讓我有能力有興趣對(duì)最最源頭的論文一探究竟；我最近也想按照論文梳理一下LLM是如何一路發(fā)展而來(lái)
2024年01月18日
瀏覽(23)
論文閱讀 Attention is all u need - transformer
提出一個(gè)僅需要self attention + linear組合成encoder+decoder的模型架構(gòu) 2.2.1 對(duì)比seq2seq，RNN Self Attention 輸入token轉(zhuǎn)為特征輸入 shape [n(序列長(zhǎng)度), D(特征維度)] 輸入進(jìn)入attention模塊輸出 shape [n(序列長(zhǎng)度), D1(特征維度)] 此時(shí)每個(gè)D1被N個(gè)D做了基于attention weight的加權(quán)求和進(jìn)入MLP 輸出 sha
2024年02月01日
瀏覽(29)
論文閱讀：FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects-6DoF位姿估計(jì)
CVPR2024滿分文章，英偉達(dá)團(tuán)隊(duì)工作。文章地址：https://arxiv.org/pdf/2312.08344.pdf 代碼地址：https://github.com/NVlabs/FoundationPose 提出FoundationPose，能用于6D位姿估計(jì)與跟蹤，無(wú)論模型是否可用都支持。只需要CAD模型或少量參考圖像就能進(jìn)行zero-shot測(cè)試，泛化能力依靠大規(guī)模訓(xùn)練， LLM 和
2024年04月29日
瀏覽(17)
論文閱讀 - Natural Language is All a Graph Needs
目錄摘要 Introduction Related Work 3 InstructGLM 3.1 Preliminary 3.2 Instruction Prompt Design 3.3 節(jié)點(diǎn)分類的生成指令調(diào)整 3.4 輔助自監(jiān)督鏈路預(yù)測(cè) 4 Experiments 4.1 Experimental Setup 4.2 Main Results 4.2.1 ogbn-arxiv ?4.2.2 Cora PubMed 4.3 Ablation Study 4.4 Instruction Tuning at Low Label Ratio ?5 Future Work 論文鏈接：https:/
2024年01月18日
瀏覽(23)
【論文閱讀】One For All: Toward Training One Graph Model for All Classification Tasks
會(huì)議： 2024-ICLR-UNDER_REVIEW 評(píng)分：6，6，6，10 作者：Anonymous authors 文章鏈接：ONE FOR ALL: TOWARDS TRAINING ONE GRAPHMODEL FOR ALL CLASSIFICATION TASKS 代碼鏈接：ONE FOR ALL: TOWARDS TRAINING ONE GRAPHMODEL FOR ALL CLASSIFICATION TASKS ?設(shè)計(jì)一個(gè)能夠解決多個(gè)任務(wù)的模型是人工智能長(zhǎng)期發(fā)展的一個(gè)目標(biāo)。最近，
2024年01月18日
瀏覽(29)
【論文閱讀】多目標(biāo)跟蹤—ByteTrackV2: 2D and 3D Multi-Object Tracking by Associating Every Detection Box
寫在前面： ByteTrack作者今年3月的新作品，升級(jí)了的V2版本并不是僅僅將ByteTrack擴(kuò)展到三維場(chǎng)景，而是在二階段匹配的框架下，結(jié)合了JDT和TBD常用的兩種基于運(yùn)動(dòng)模型進(jìn)行匹配的方法，提出了一種新的運(yùn)動(dòng)匹配模式，思路新穎，在三維MOT數(shù)據(jù)集nuScence上也達(dá)到了state-of-the-art。注
2024年02月04日
瀏覽(23)
One-4-All: Neural Potential Fields for Embodied Navigation 論文閱讀
題目：One-4-All: Neural Potential Fields for Embodied Navigation 作者：Sacha Morin, Miguel Saavedra-Ruiz 來(lái)源：arXiv 時(shí)間：2023 現(xiàn)實(shí)世界的導(dǎo)航可能需要使用高維 RGB 圖像進(jìn)行長(zhǎng)視野規(guī)劃，這對(duì)基于端到端學(xué)習(xí)的方法提出了巨大的挑戰(zhàn)。目前的半?yún)?shù)方法通過將學(xué)習(xí)的模塊與環(huán)境的拓?fù)溆洃浵?/p>
2024年02月14日
瀏覽(22)