国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

[論文閱讀筆記26]Tracking Everything Everywhere All at Once

這篇具有很好參考價(jià)值的文章主要介紹了[論文閱讀筆記26]Tracking Everything Everywhere All at Once。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。


論文地址: 論文
代碼地址: 代碼

這是一篇效果極好的像素級(jí)跟蹤的文章, 發(fā)表在ICCV2023, 可以非常好的應(yīng)對(duì)遮擋等情形, 其根本的方法在于將2D點(diǎn)投影到一個(gè)偽3D(quasi-3D)空間, 然后再映射回去, 就可以在其他幀中得到穩(wěn)定跟蹤.

這篇文章的方法不是很好理解, 代碼也剛開源, 做一下筆記備忘.


0. Abstract

傳統(tǒng)的光流或者粒子視頻跟蹤方法都是用有限的時(shí)間窗口去解決的, 所以他們并不能很好的應(yīng)對(duì)長(zhǎng)時(shí)遮擋, 也不能保持估計(jì)的軌跡的全局連續(xù)性. 為此, 我們提出了一個(gè)完整的, 全局的連續(xù)性的運(yùn)動(dòng)表示方法, 叫做OmniMotion. 具體地, OmniMotion將一個(gè)視頻序列表示成一個(gè)準(zhǔn)-3D的規(guī)范量(quasi-3D canonical volume), 然后通過定義一個(gè)雙射(也就是從平面空間到所謂的canonical的空間), 這樣我們通過一個(gè)準(zhǔn)3D空間, 就可以描述一個(gè)完整的運(yùn)動(dòng)(因?yàn)檠a(bǔ)償了2D缺失的信息).

1. Method

由于對(duì)相關(guān)領(lǐng)域知識(shí)的匱乏, 先略過Introduction和Related Work部分, 先來(lái)看方法.

從整體流程上, OmniMotion將一整個(gè)視頻序列作為輸入, 同時(shí)還輸入不太準(zhǔn)確的帶噪的運(yùn)動(dòng)估計(jì)(例如光流估計(jì)), 然后解出一個(gè)完整的, 全局的運(yùn)動(dòng)軌跡.

那么如何解決遮擋問題呢? 遮擋, 只是在2D的圖像平面下遮擋了, 但是在3D信息中是可以恢復(fù)出來(lái)的. 為此, 我們將場(chǎng)景給投影到某個(gè)3D空間, 這個(gè)空間可以盡可能描述像素完整的運(yùn)動(dòng). 比如說, 第 t 1 t_1 t1?幀的某個(gè)像素 x 1 x_1 x1?, 給投影到這個(gè)3D空間變?yōu)?span id="n5n3t3z" class="katex--inline"> x ′ x' x, 然后在第 t 2 t_2 t2?幀我們?cè)賹⑦@個(gè) x ′ x' x投射到2D平面, 就得到了對(duì)應(yīng)的點(diǎn) x 2 x_2 x2?. 由于這個(gè)3D不需要真正的進(jìn)行3D重建(因?yàn)檎嬲?D重建是需要知道相機(jī)的內(nèi)參和外參, 內(nèi)參包括圖像中心的坐標(biāo), 相機(jī)的焦距等, 外參需要知道相機(jī)的朝向等, 是比較復(fù)雜的), 因此我們將該空間成為quasi-3D.

所以具體是如何做的呢?

1.1 規(guī)范3D量的組成

我們將前述的規(guī)范3D量記為 G G G. 和神經(jīng)輻射場(chǎng)(NeRF)一樣, 我們?cè)?span id="n5n3t3z" class="katex--inline"> G G G上定義了一個(gè)基于坐標(biāo)的網(wǎng)絡(luò) F θ F_{\theta} Fθ?, 該網(wǎng)絡(luò)將 G G G中的3D坐標(biāo) u u u映射到密度 σ \sigma σ顏色 c c c. 其中密度可以告訴我們表面(surface)在這個(gè)3D空間中的位置, 顏色是可以在訓(xùn)練過程中計(jì)算光度損失(photometric loss).

1.2 3D雙射

如前所述, 我們需要定義一個(gè)從本地坐標(biāo)(也就是視頻或圖像坐標(biāo))到quasi-3D空間的一個(gè)映射, 以及逆映射, 這樣我們可以再映射回別的時(shí)間索引的幀找到對(duì)應(yīng)點(diǎn). 然而, 實(shí)際上該工作是將本地的2D坐標(biāo)給提升到3D的(后面會(huì)講如何做的), 然后從提升后的本地3D坐標(biāo)投影到quasi-3D空間. 整個(gè)映射和逆映射的過程如下:

x j = T j ? 1 ° T i ( x i ) x_j = \mathcal{T}_j^{-1}\circ \mathcal{T}_i(x_i) xj?=Tj?1?°Ti?(xi?)

其中 i , j i,j i,j是frame index, 因此, 我們定義的映射是和時(shí)間有關(guān)的. 然而, 中間產(chǎn)物 u = T i ( x i ) u= \mathcal{T}_i(x_i) u=Ti?(xi?)應(yīng)該是與時(shí)間無(wú)關(guān)的.

在實(shí)現(xiàn)上, 映射是用可逆神經(jīng)網(wǎng)絡(luò)(INN)做的.

1.3 計(jì)算運(yùn)動(dòng)

流程上, 我們?cè)?D圖像上的一個(gè)像素 p i p_i pi?, 我們首先將其提升到3D, 變成 p i ′ p_i' pi?. 方法是在一個(gè)射線上進(jìn)行采樣. 然后用上一節(jié)定義的3D雙射投影到第 j j j幀對(duì)應(yīng)的3D點(diǎn), 最后再降維回2D就可以了.

具體地, 由于我們已經(jīng)將相機(jī)的運(yùn)動(dòng)包含在映射 T \mathcal{T} T內(nèi)了 , 因此我們直接將相機(jī)建模成固定的正交相機(jī). 固定正交相機(jī)的含義是, 物體不再具有近大遠(yuǎn)小的特征. 這樣一來(lái), 我們就可以很容易的將2D坐標(biāo)拓展到3D坐標(biāo). 也就是說, 既然物體的大小不再隨著深度的變化而變化, 那么2D像素點(diǎn) ( x i , y i ) (x_i, y_i) (xi?,yi?)不論深度如何, 它的值(RGB)一直是一樣的, 因此前述的射線可以這樣定義:

r i ( z ) = o i + z d , o i = [ p i , 0 ] ∈ R 3 , d = [ 0 , 0 , 1 ] r_i(z)=o_i+zd, \\ o_i = [p_i, 0] \in \mathbb{R}^3, d = [0, 0, 1] ri?(z)=oi?+zd,oi?=[pi?,0]R3,d=[0,0,1]

因此我們?cè)谶@個(gè)射線上采集 K K K個(gè)樣本, 就相當(dāng)于在這個(gè)固定正交相機(jī)拍攝的3D場(chǎng)景中進(jìn)行深度采樣.

然后, 這么一堆樣本, 我們用映射 T i \mathcal{T}_i Ti?投影到quasi-3D空間, 然后再用之前說的映射 F θ F_{\theta} Fθ?轉(zhuǎn)換成密度和顏色的量 ( σ , c ) (\sigma, c) (σ,c), 即, 對(duì)于第 k k k個(gè)樣本:

( σ k , c k ) = F θ ( T i ( x i k ) ) x j k = T j ? 1 ( ( σ k , c k ) ) (\sigma_k, c_k) = F_\theta(\mathcal{T}_i(x_i^k)) \\ x_j^k = \mathcal{T}_j^{-1}((\sigma_k, c_k)) (σk?,ck?)=Fθ?(Ti?(xik?))xjk?=Tj?1?((σk?,ck?))

隨后, 我們根據(jù)第 j j j幀的這 K K K個(gè)對(duì)應(yīng)樣本, 得到第 j j j幀的估計(jì):

x ^ j = ∑ k = 1 K T k α k x j k , where?? T k = Π l = 1 k ? 1 ( 1 ? α l ) , α k = 1 ? exp ? { ? σ k } \hat{x}_j = \sum_{k=1}^KT_k\alpha_kx_j^k, \\ \text{where} ~~T_k=\Pi_{l=1}^{k-1}(1-\alpha_l), \\ \alpha_k = 1-\exp\{-\sigma_k\} x^j?=k=1K?Tk?αk?xjk?,where??Tk?=Πl=1k?1?(1?αl?),αk?=1?exp{?σk?}

以上的過程叫做alpha compositing, 是NeRF中一個(gè)常用的技巧. 意義是, 密度實(shí)際上表達(dá)了3D空間中存在物體的可能性, 1 ? exp ? { ? σ k } 1-\exp\{-\sigma_k\} 1?exp{?σk?}就是一種對(duì)概率的衡量. 對(duì)于是否采納第 k k k個(gè)樣本, 重要性為 T k α k T_k\alpha_k Tk?αk?, α k \alpha_k αk?已經(jīng)解釋. T k T_k Tk?的含義是在這之前的樣本的聯(lián)合可信程度, 也就是說, 之前有一個(gè)樣本已經(jīng)比較可信了, 那么這個(gè)樣本就可以更少的采納.

以上是個(gè)人理解

因此, 上面的過程總結(jié)為下圖:
[論文閱讀筆記26]Tracking Everything Everywhere All at Once,讀文獻(xiàn),其他,論文閱讀,筆記,機(jī)器學(xué)習(xí),人工智能,目標(biāo)跟蹤,深度學(xué)習(xí)

2. Training

這個(gè)工作是用已有的光流方法生成標(biāo)簽, 指導(dǎo)訓(xùn)練的. 這部分重點(diǎn)先記一下?lián)p失函數(shù).

損失函數(shù)由三部分構(gòu)成, 一個(gè)是位置誤差, 也就是坐標(biāo)誤差. 一個(gè)是顏色誤差, 這就是前面 c c c的作用, 還有一個(gè)是因?yàn)橐WC平穩(wěn)性而加入的罰項(xiàng). 其中1, 3項(xiàng)采用1范數(shù), 第二項(xiàng)采用2范數(shù).

Flow loss:

L f l o = ∑ f i → j ∣ ∣ f ^ i → j ? f i → j ∣ ∣ 1 , f ^ i → j = p ^ j ? p i \mathcal{L}_{flo} = \sum_{f_{i \to j}}|| \hat{f}_{i \to j} - f_{i \to j}||_1, \\ \hat{f}_{i \to j} = \hat{p}_j - p_i Lflo?=fij??∣∣f^?ij??fij?1?,f^?ij?=p^?j??pi?

photometric loss:

L p h o = ∑ i , p ∣ ∣ C ^ i ( p ) ? C i ( p ) ∣ ∣ 2 2 \mathcal{L}_{pho} = \sum_{i, p}|| \hat{C}_{i}(p) - C_i(p)||_2^2 Lpho?=i,p?∣∣C^i?(p)?Ci?(p)22?

smooth loss:

L r e g = ∑ i , x ∣ ∣ x i + 1 ? x i + x i ? 1 ? x i ∣ ∣ 1 \mathcal{L}_{reg} = \sum_{i, x}|| x_{i + 1} - x_i + x_{i - 1} - x_i||_1 Lreg?=i,x?∣∣xi+1??xi?+xi?1??xi?1?

意義是保證前一幀和后一幀的差距盡量小.

最終的loss是這三項(xiàng)的線性組合.文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-680451.html

到了這里,關(guān)于[論文閱讀筆記26]Tracking Everything Everywhere All at Once的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【自監(jiān)督論文閱讀筆記】EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

    【自監(jiān)督論文閱讀筆記】EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

    ????????本文推出了 EVA ,這是一個(gè) 以視覺為中心 的基礎(chǔ)模型,旨在僅使用可公開訪問的數(shù)據(jù)來(lái) 探索大規(guī)模 視覺表示的 局限性 。EVA 是一種經(jīng)過預(yù)訓(xùn)練的普通 ViT,用于 重建 以可見圖像塊為條件的 屏蔽掉的 圖像-文本對(duì)齊(image-text aligned)的視覺特征 。通過這個(gè)前置任

    2024年02月06日
    瀏覽(25)
  • [論文閱讀] BoT-SORT: Robust Associations Multi-Pedestrian Tracking

    [論文閱讀] BoT-SORT: Robust Associations Multi-Pedestrian Tracking

    這篇文章是今年6月底發(fā)布的一篇多目標(biāo)跟蹤(MOT)的 屠榜 方法,命名為BoT-SORT。作者來(lái)自以色列的特拉維夫大學(xué)(Tel-Aviv University)。本文簡(jiǎn)單談?wù)勎覍?duì)這個(gè)算法的理解,因?yàn)橐彩荕OT領(lǐng)域的初學(xué)者,如有錯(cuò)誤希望各位讀者修正,也歡迎大家一起探討。 PS:文章內(nèi)部分圖片是原創(chuàng)

    2024年02月02日
    瀏覽(21)
  • 【論文閱讀】Know Your Surroundings: Exploiting Scene Information for Object Tracking

    【論文閱讀】Know Your Surroundings: Exploiting Scene Information for Object Tracking

    發(fā)表時(shí)間 :2020 期刊會(huì)議 :ECCV 方向分類 : 目標(biāo)跟蹤 做了什么: 本文提出了一個(gè)能夠在視頻序列中傳播目標(biāo)附近場(chǎng)景信息的跟蹤結(jié)構(gòu),這種場(chǎng)景信息被用來(lái)實(shí)現(xiàn)提高目標(biāo)預(yù)測(cè)的場(chǎng)景感知能力。 解決了什么問題: 已存在的跟蹤器只依靠外觀來(lái)跟蹤,沒有利用任何周圍場(chǎng)景中

    2024年04月23日
    瀏覽(21)
  • 論文閱讀:Attention is all you need

    論文閱讀:Attention is all you need

    【最近課堂上Transformer之前的DL基礎(chǔ)知識(shí)儲(chǔ)備差不多了,但學(xué)校里一般講到Transformer課程也接近了尾聲;之前參與的一些科研打雜訓(xùn)練了我閱讀論文的能力和閱讀源碼的能力,也讓我有能力有興趣對(duì)最最源頭的論文一探究竟;我最近也想按照論文梳理一下LLM是如何一路發(fā)展而來(lái)

    2024年01月18日
    瀏覽(23)
  • 論文閱讀 Attention is all u need - transformer

    論文閱讀 Attention is all u need - transformer

    提出一個(gè)僅需要self attention + linear組合成encoder+decoder的模型架構(gòu) 2.2.1 對(duì)比seq2seq,RNN Self Attention 輸入token轉(zhuǎn)為特征輸入 shape [n(序列長(zhǎng)度), D(特征維度)] 輸入 進(jìn)入attention模塊 輸出 shape [n(序列長(zhǎng)度), D1(特征維度)] 此時(shí)每個(gè)D1被N個(gè)D做了基于attention weight的加權(quán)求和 進(jìn)入MLP 輸出 sha

    2024年02月01日
    瀏覽(29)
  • 論文閱讀:FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects-6DoF位姿估計(jì)

    論文閱讀:FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects-6DoF位姿估計(jì)

    CVPR2024滿分文章,英偉達(dá)團(tuán)隊(duì)工作。 文章地址:https://arxiv.org/pdf/2312.08344.pdf 代碼地址:https://github.com/NVlabs/FoundationPose 提出FoundationPose,能用于6D位姿估計(jì)與跟蹤,無(wú)論模型是否可用都支持。只需要CAD模型或少量參考圖像就能進(jìn)行zero-shot測(cè)試,泛化能力依靠大規(guī)模訓(xùn)練, LLM 和

    2024年04月29日
    瀏覽(17)
  • 論文閱讀 - Natural Language is All a Graph Needs

    論文閱讀 - Natural Language is All a Graph Needs

    目錄 摘要 Introduction Related Work 3 InstructGLM 3.1 Preliminary 3.2 Instruction Prompt Design 3.3 節(jié)點(diǎn)分類的生成指令調(diào)整 3.4 輔助自監(jiān)督鏈路預(yù)測(cè) 4 Experiments 4.1 Experimental Setup 4.2 Main Results 4.2.1 ogbn-arxiv ?4.2.2 Cora PubMed 4.3 Ablation Study 4.4 Instruction Tuning at Low Label Ratio ?5 Future Work 論文鏈接:https:/

    2024年01月18日
    瀏覽(23)
  • 【論文閱讀】One For All: Toward Training One Graph Model for All Classification Tasks

    【論文閱讀】One For All: Toward Training One Graph Model for All Classification Tasks

    會(huì)議: 2024-ICLR-UNDER_REVIEW 評(píng)分:6,6,6,10 作者:Anonymous authors 文章鏈接:ONE FOR ALL: TOWARDS TRAINING ONE GRAPHMODEL FOR ALL CLASSIFICATION TASKS 代碼鏈接:ONE FOR ALL: TOWARDS TRAINING ONE GRAPHMODEL FOR ALL CLASSIFICATION TASKS ?設(shè)計(jì)一個(gè)能夠解決多個(gè)任務(wù)的模型是人工智能長(zhǎng)期發(fā)展的一個(gè)目標(biāo)。最近,

    2024年01月18日
    瀏覽(29)
  • 【論文閱讀】多目標(biāo)跟蹤—ByteTrackV2: 2D and 3D Multi-Object Tracking by Associating Every Detection Box

    【論文閱讀】多目標(biāo)跟蹤—ByteTrackV2: 2D and 3D Multi-Object Tracking by Associating Every Detection Box

    寫在前面: ByteTrack作者今年3月的新作品,升級(jí)了的V2版本并不是僅僅將ByteTrack擴(kuò)展到三維場(chǎng)景,而是在二階段匹配的框架下,結(jié)合了JDT和TBD常用的兩種基于運(yùn)動(dòng)模型進(jìn)行匹配的方法,提出了一種新的運(yùn)動(dòng)匹配模式,思路新穎,在三維MOT數(shù)據(jù)集nuScence上也達(dá)到了state-of-the-art。注

    2024年02月04日
    瀏覽(23)
  • One-4-All: Neural Potential Fields for Embodied Navigation 論文閱讀

    One-4-All: Neural Potential Fields for Embodied Navigation 論文閱讀

    題目 :One-4-All: Neural Potential Fields for Embodied Navigation 作者 :Sacha Morin, Miguel Saavedra-Ruiz 來(lái)源 :arXiv 時(shí)間 :2023 現(xiàn)實(shí)世界的導(dǎo)航可能需要使用高維 RGB 圖像進(jìn)行長(zhǎng)視野規(guī)劃,這對(duì)基于端到端學(xué)習(xí)的方法提出了巨大的挑戰(zhàn)。 目前的半?yún)?shù)方法通過將學(xué)習(xí)的模塊與環(huán)境的拓?fù)溆洃浵?/p>

    2024年02月14日
    瀏覽(22)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包