国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<tbody id="cmwxb"><font id="cmwxb"></font></tbody>

<dfn id="cmwxb"></dfn>

<small id="cmwxb"></small><label id="cmwxb"><del id="cmwxb"></del></label><dfn id="cmwxb"><input id="cmwxb"><pre id="cmwxb"></pre></input></dfn>

<span id="cmwxb"><pre id="cmwxb"></pre></span>

NICE-SLAM: Neural Implicit Scalable Encoding for SLAM論文閱讀

2年前作者：瑪卡巴卡_qin分類：Toy博客閱讀(27)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了NICE-SLAM: Neural Implicit Scalable Encoding for SLAM論文閱讀。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

論文信息

標(biāo)題：NICE-SLAM: Neural Implicit Scalable Encoding for SLAM
作者：Zihan Zhu， Songyou Peng，Viktor Larsson — Zhejiang University
來源：CVPR
代碼：https://pengsongyou.github.io/nice-slam
時(shí)間：2022

Abstract

神經(jīng)隱式（Neural implicit representations）表示最近在同步定位和地圖繪制（SLAM）方面有一定的進(jìn)展，但現(xiàn)有方法會(huì)產(chǎn)生過度平滑的場(chǎng)景重建，并且難以擴(kuò)展到大型場(chǎng)景。這些限制主要是由于其簡(jiǎn)單的全連接網(wǎng)絡(luò)架構(gòu)，未在觀測(cè)中納入本地信息。

我們提出了 NICE-SLAM，這是一種密集 SLAM 系統(tǒng)，通過引入分層場(chǎng)景表示來合并多級(jí)局部信息。使用預(yù)先訓(xùn)練的幾何先驗(yàn)優(yōu)化這種表示，可以實(shí)現(xiàn)大型室內(nèi)場(chǎng)景的詳細(xì)重建。與最近的神經(jīng)隱式 SLAM 系統(tǒng)相比，我們的方法更具可擴(kuò)展性、高效性和魯棒性。

Introduction

現(xiàn)有方法的缺陷
傳統(tǒng)的密集視覺SLAM系統(tǒng)[29,41,58,59]滿足實(shí)時(shí)要求并且可以在大規(guī)模場(chǎng)景中使用，但它們無法對(duì)未觀察到的區(qū)域進(jìn)行合理的幾何估計(jì)。

基于學(xué)習(xí)的 SLAM 方法 [3,12,47,67] 獲得了一定水平的預(yù)測(cè)能力，因?yàn)樗鼈兺ǔＴ谔囟ㄓ谌蝿?wù)的數(shù)據(jù)集上進(jìn)行訓(xùn)練。此外，基于學(xué)習(xí)的方法往往可以更好地處理噪聲和異常值。然而，這些方法通常僅適用于具有多個(gè)對(duì)象的小場(chǎng)景。

iMAP [46] 的關(guān)鍵限制因素源于它使用單個(gè)多層感知器 (MLP) 來表示整個(gè)場(chǎng)景，而該場(chǎng)景只能通過每個(gè)新的、可能部分的 RGB-D 觀察進(jìn)行全局更新。相比之下，最近的工作[37, 48]表明，建立多級(jí)基于網(wǎng)格的特征有助于保留幾何細(xì)節(jié)并能夠重建復(fù)雜場(chǎng)景，但這些都是離線方法，沒有實(shí)時(shí)能力。

主要貢獻(xiàn)
? 我們推出NICE-SLAM，這是一種密集的RGB-D SLAM 系統(tǒng)，具有實(shí)時(shí)能力、可擴(kuò)展性、預(yù)測(cè)性，并且對(duì)各種具有挑戰(zhàn)性的場(chǎng)景具有魯棒性。

? NICE-SLAM 的核心是分層的、基于網(wǎng)格的神經(jīng)隱式編碼。與全局神經(jīng)場(chǎng)景編碼相比，這種表示允許局部更新，這是大規(guī)模方法的先決條件。

? 我們對(duì)各種數(shù)據(jù)集進(jìn)行了廣泛的評(píng)估，這些數(shù)據(jù)集在繪圖和跟蹤方面表現(xiàn)出了競(jìng)爭(zhēng)性的性能。

Related Work

Dense Visual SLAM

地圖表示可分為兩類：以地圖為中心（view-centric）和以世界為中心（world-centric）

view-centric:
將 3D 幾何體錨定到特定關(guān)鍵幀，通常在密集環(huán)境中表示為深度圖。
這一類別的早期例子之一是 DTAM 。由于其簡(jiǎn)單性，DTAM 已廣泛應(yīng)用于許多最新的基于學(xué)習(xí)的 SLAM 系統(tǒng)中。例如，[54, 68] 回歸深度和姿勢(shì)更新。 DeepV2D 類似地在回歸深度和姿態(tài)估計(jì)之間交替，但使用測(cè)試時(shí)優(yōu)化。 BA-Net 和 DeepFactors 通過使用一組基礎(chǔ)深度圖簡(jiǎn)化了優(yōu)化問題。還有一些方法，例如 CodeSLAM 、SceneCode 和 NodeSLAM ，它們優(yōu)化了解碼為關(guān)鍵幀或?qū)ο笊疃葓D的潛在表示。 DROID-SLAM 使用回歸光流來定義幾何殘差以進(jìn)行細(xì)化。 TANDEM 將多視圖立體與 DSO 結(jié)合起來，形成實(shí)時(shí)密集 SLAM 系統(tǒng)。

word-centric:
將 3D 幾何圖形錨定在統(tǒng)一的世界坐標(biāo)中，并且可以進(jìn)一步分為面元和體素網(wǎng)格，通常存儲(chǔ)占用或 TSDF 值。體素網(wǎng)格已廣泛用于 RGB-D SLAM，例如 KinectFusion 。

Neral Implict Representations(神經(jīng)隱式表示)

神經(jīng)隱式表示在對(duì)象幾何表示、場(chǎng)景完成、新穎視圖合成以及生成建模中有應(yīng)用。最近的一些論文嘗試使用 RGB-(D) 輸入來預(yù)測(cè)場(chǎng)景級(jí)幾何，但它們都假設(shè)給定的相機(jī)姿勢(shì)。另一些工作解決了相機(jī)位姿優(yōu)化問題，但它們需要相當(dāng)長(zhǎng)的優(yōu)化過程，不適合實(shí)時(shí)應(yīng)用。

給定 RGB-D 序列，IMAP引入了實(shí)時(shí)密集 SLAM 系統(tǒng)，該系統(tǒng)使用單個(gè)多層感知器 (MLP) 來緊湊地表示整個(gè)場(chǎng)景。然而，由于單個(gè) MLP 的模型容量有限，iMAP 無法生成詳細(xì)的場(chǎng)景幾何形狀和準(zhǔn)確的相機(jī)跟蹤，特別是對(duì)于較大的場(chǎng)景。

Method

NICE-SLAM: Neural Implicit Scalable Encoding for SLAM論文閱讀,論文,Navigation,論文閱讀
圖 2. 系統(tǒng)概覽。我們的方法采用 RGB-D 圖像流作為輸入，并以分層特征網(wǎng)格的形式輸出相機(jī)姿勢(shì)以及學(xué)習(xí)到的場(chǎng)景表示。從右到左，我們的管道可以解釋為生成模型，它根據(jù)給定的場(chǎng)景表示和相機(jī)姿勢(shì)渲染深度和彩色圖像。在測(cè)試時(shí)，我們通過可微渲染器（從左到右）反向傳播圖像和深度重建損失來解決逆問題，從而估計(jì)場(chǎng)景表示和相機(jī)姿勢(shì)。兩個(gè)實(shí)體在交替優(yōu)化中進(jìn)行估計(jì)： Mapping：反向傳播僅更新分層場(chǎng)景表示；Tracking：反向傳播僅更新相機(jī)姿態(tài)。為了更好的可讀性，我們將用于幾何編碼的精細(xì)網(wǎng)格與同等大小的顏色網(wǎng)格結(jié)合在一起，并將它們顯示為具有兩個(gè)屬性（紅色和橙色）的一個(gè)網(wǎng)格。

Hierarchical Scene Representation（層次化場(chǎng)景表示）

幾何形狀被編碼為三個(gè)特征網(wǎng)絡(luò) $\phi _\theta ^l$ 及其對(duì)應(yīng)的MLP解碼器 $f^l$ ，其中 $\in \{0,1,2\}$ 分別指coarse、mid、fine-level

場(chǎng)景外觀使用單特征網(wǎng)絡(luò) $\psi _\omega$ 和解碼器 $g_\omega$ 進(jìn)行建模

$\theta$ 和 $\omega$ 表示幾何和顏色的可優(yōu)化參數(shù)，即網(wǎng)格中的特征和顏色解碼器中的權(quán)重。

Mid-&Fine-level Geometric Representation

在重建過程中，我們以從粗到細(xì)的方法使用這兩個(gè)網(wǎng)格，首先通過優(yōu)化中級(jí)特征網(wǎng)格來重建幾何形狀，然后使用精細(xì)級(jí)進(jìn)行細(xì)化。

在實(shí)現(xiàn)中，我們使用邊長(zhǎng)分別為 32cm 和 16cm 的voxel grid(體素網(wǎng)格)，除了 TUM RGBD [45]，我們使用 16cm 和 8cm。對(duì)于mid-level，使用相關(guān)的 MLP $f^1$ 將特征直接解碼為占用值。對(duì)于任何點(diǎn) $\textbf{p} \in \mathbb{R}^3$ ，我們得到的占用率為
$o_{\textbf{p}}^1=f^1(\textbf{p},\phi ^1_{\theta}(\textbf{p}))$
其中 $o_{\textbf{p}}^1$ 表示特征網(wǎng)格在 p 點(diǎn)進(jìn)行三線性插值。

為了捕獲場(chǎng)景幾何中較小的高頻細(xì)節(jié)，我們以殘差方式添加精細(xì)級(jí)別的特征。特別地，精細(xì)級(jí)特征解碼器將相應(yīng)的中級(jí)特征和精細(xì)級(jí)特征兩者作為輸入，并輸出相對(duì)于中級(jí)占用率的偏移，即:
$\Delta o_{\textbf{p}}^1=f^2(\textbf{p},\phi ^1_{\theta}(\textbf{p}),\phi ^2_{\theta}(\textbf{p}))$
最終一個(gè)點(diǎn)的占用率為： $o_{\textbf{p}}=o_{\textbf{p}}^1+\Delta o_{\textbf{p}}^1$

我們固定了預(yù)訓(xùn)練解碼器 $f^1$ 和 $f^2$ ，并且在整個(gè)優(yōu)化過程中僅優(yōu)化特征網(wǎng)格 $\phi ^1_{\theta}$ 和 $\phi ^2_{\theta}$ ，這有助于穩(wěn)定優(yōu)化并學(xué)習(xí)一致的幾何形狀。

Coarse-level Geometric Representation

粗級(jí)特征網(wǎng)格旨在捕獲場(chǎng)景的高級(jí)幾何形狀（例如墻壁、地板等），并獨(dú)立于中級(jí)和精細(xì)級(jí)進(jìn)行優(yōu)化。

粗網(wǎng)格的目標(biāo)是能夠預(yù)測(cè)觀察到的幾何形狀（在中/精細(xì)級(jí)別中編碼）之外的近似占用值，即使每個(gè)粗體素僅被部分觀察到。為此，我們?cè)趯?shí)現(xiàn)中使用了非常低的分辨率，邊長(zhǎng)為 2m。與中級(jí)網(wǎng)格類似，我們通過對(duì)特征進(jìn)行插值并通過 MLP $f^0$ 直接解碼為占用值，即:
$o_{\textbf{p}}^0=f^0(\textbf{p},\phi ^0_{\theta}(\textbf{p}))$

Pre-training Feature Decoders

在我們的框架中，我們使用三種不同的固定 MLP 將網(wǎng)格特征解碼為占用值。粗級(jí)和中級(jí)解碼器作為 ConvONet [37] 的一部分進(jìn)行預(yù)訓(xùn)練，該網(wǎng)絡(luò)由 CNN 編碼器和 MLP 解碼器組成。我們使用預(yù)測(cè)值和真實(shí)值之間的二進(jìn)制交叉熵?fù)p失來訓(xùn)練編碼器/解碼器。

訓(xùn)練后，我們僅使用解碼器 MLP ，因?yàn)槲覀儗⒅苯觾?yōu)化特征以適應(yīng)重建管道中的觀察結(jié)果。

使用相同的策略來預(yù)訓(xùn)練精細(xì)級(jí)解碼器，只是我們?cè)谳斎氲浇獯a器之前簡(jiǎn)單地將中級(jí)特征 $\phi ^1_{\theta}(\textbf{p})$ 與精細(xì)級(jí)特征 $\phi ^2_{\theta}(\textbf{p})$ 連接起來。

Color Representation

為了對(duì)場(chǎng)景中的顏色進(jìn)行編碼，我們應(yīng)用另一個(gè)特征網(wǎng)格 $\psi _\omega$ 和解碼器 $_\omega$ ： $c_p=g _\omega(\textbf{p},\psi_\omega(\textbf{p}))$ , 其中 ω 表示優(yōu)化期間的可學(xué)習(xí)參數(shù)。

Network Design

對(duì)于所有 MLP 解碼器，我們使用 32 個(gè)隱藏特征維度和 5 個(gè)全連接塊。除了粗級(jí)幾何表示之外，我們?cè)谧鳛?MLP 解碼器的輸入之前對(duì) p 應(yīng)用可學(xué)習(xí)的高斯位置編碼。

Depth and Color Rendering

給定相機(jī)內(nèi)在參數(shù)和當(dāng)前相機(jī)位姿，我們可以計(jì)算像素坐標(biāo)的觀察方向 $\textbf{r}$ 。我們首先沿著這條射線采樣 $N_{strat}$ 點(diǎn)進(jìn)行分層采樣，同時(shí)也在深度附近均勻采樣 $N_{imp}$ 點(diǎn)。總共，我們對(duì)每條射線采樣 $N = N_{strat} + N_{imp}$ 個(gè)點(diǎn)。

$\textbf{p}_i=\textbf{o}+d_i\textbf{r},i \in \{1,...,N\}$ 表示給定相機(jī)原點(diǎn) $\textbf{o}$ 的射線 $\textbf{r}$ 上的采樣點(diǎn)， $d_i$ 對(duì)應(yīng)于 $\textbf{p}_i$ 沿該射線的深度值。

計(jì)算出每個(gè)點(diǎn)的粗級(jí)占用概率 $o_{p_i}^0$ 、精細(xì)級(jí)占用概率 $o_{p_i}$ 和顏色值 $c_{p_i}$ 。

將點(diǎn) $\textbf{p}_i$ 處的射線終止概率建模為粗略級(jí)別的 $\omega_i^c=o_{p_i}^0\prod_{j=1}^{i-1}(1-o_{p_j}^0)$ ，并且 $\omega_i^f=o_{p_i}\prod_{j=1}^{i-1}(1-o_{p_j})$ 為精細(xì)水平。

最后，對(duì)于每條光線，粗略和精細(xì)級(jí)別的深度以及顏色可以渲染為：

NICE-SLAM: Neural Implicit Scalable Encoding for SLAM論文閱讀,論文,Navigation,論文閱讀

Mapping and Tracking

Mapping
為了優(yōu)化場(chǎng)景表示，我們從當(dāng)前幀和選定的關(guān)鍵幀中均勻采樣總共 M 個(gè)像素。接下來，我們以分階段的方式進(jìn)行優(yōu)化，以最大限度地減少幾何和光度損失。

幾何損失只是粗略或精細(xì)級(jí)別的觀測(cè)值和預(yù)測(cè)深度之間的 L1 損失：
NICE-SLAM: Neural Implicit Scalable Encoding for SLAM論文閱讀,論文,Navigation,論文閱讀

光度損失也是 M 個(gè)采樣像素的渲染顏色值和觀察到的顏色值之間的 L1 損失：
NICE-SLAM: Neural Implicit Scalable Encoding for SLAM論文閱讀,論文,Navigation,論文閱讀

第一階段，我們使用等式（8）中的幾何損失 $L^f_g$ 僅優(yōu)化中層特征網(wǎng)格 $\phi^1_θ$ 。
接下來，我們使用相同的精細(xì)級(jí)深度損失 $L^f_g$ 聯(lián)合優(yōu)化中級(jí)和精細(xì)級(jí) $ψ^1_θ$ 、 $ψ^2_θ$ 特征。
最后，我們進(jìn)行局部捆綁調(diào)整（BA）來聯(lián)合優(yōu)化各級(jí)特征網(wǎng)格、顏色解碼器以及K個(gè)選定關(guān)鍵幀的相機(jī)外在參數(shù){ $R_i，t_i$ },其中 $λ_p$ 是損失權(quán)重因子。

這種多階段優(yōu)化方案可以實(shí)現(xiàn)更好的收斂，因?yàn)楦叻直媛实耐庥^和精細(xì)級(jí)特征可以依賴于來自中級(jí)特征網(wǎng)格的已經(jīng)細(xì)化的幾何形狀。

Camera Tracking
我們還運(yùn)行并行相機(jī)跟蹤來優(yōu)化當(dāng)前幀的相機(jī)姿勢(shì)，即旋轉(zhuǎn)和平移{R，t}。為此，我們對(duì)當(dāng)前幀中的 $M_t$ 像素進(jìn)行采樣，并使用與等式（9）相同的光度損失，以及修改后的幾何損失：
NICE-SLAM: Neural Implicit Scalable Encoding for SLAM論文閱讀,論文,Navigation,論文閱讀

相機(jī)跟蹤最終被表述為以下最小化問題：

NICE-SLAM: Neural Implicit Scalable Encoding for SLAM論文閱讀,論文,Navigation,論文閱讀
Robustness to Dynamic Objects
為了使優(yōu)化在跟蹤過程中對(duì)動(dòng)態(tài)對(duì)象更加魯棒，我們過濾了具有大深度/顏色重新渲染損失的像素。特別是，我們從優(yōu)化中刪除損失 Eq (12) 大于當(dāng)前幀中所有像素的中值損失值 10 倍的任何像素。

圖 6 顯示了一個(gè)示例，其中動(dòng)態(tài)對(duì)象被忽略，因?yàn)樗淮嬖谟阡秩镜?RGB 和深度圖像中。
NICE-SLAM: Neural Implicit Scalable Encoding for SLAM論文閱讀,論文,Navigation,論文閱讀

請(qǐng)注意，對(duì)于此任務(wù)，我們僅在映射過程中優(yōu)化場(chǎng)景表示。在動(dòng)態(tài)環(huán)境下聯(lián)合優(yōu)化相機(jī)參數(shù)和場(chǎng)景表示并非易事，我們認(rèn)為這是一個(gè)有趣的未來方向。

Keyframe Selection

我們本著 iMAP [46] 的精神維護(hù)一個(gè)全局關(guān)鍵幀列表，我們根據(jù)信息增益逐步添加新的關(guān)鍵幀。然而，與 iMAP [46] 相比，我們?cè)趦?yōu)化場(chǎng)景幾何時(shí)僅包含與當(dāng)前幀有視覺重疊的關(guān)鍵幀。

Experiments

我們考慮 5 個(gè)通用數(shù)據(jù)集：Replica [44]、ScanNet [13]、TUM RGB-D 數(shù)據(jù)集 [45]、Co-Fusion 數(shù)據(jù)集 [39]，以及自捕獲的具有多個(gè)房間的大型公寓。我們遵循與[53]中相同的 TUM RGB-D 預(yù)處理步驟。

** 這部分暫時(shí)先不關(guān)注

Conclusion

我們提出了 NICE-SLAM，這是一種密集視覺 SLAM 方法，它將神經(jīng)隱式表示的優(yōu)點(diǎn)與基于分層網(wǎng)格的場(chǎng)景表示的可擴(kuò)展性結(jié)合起來。與具有單個(gè)大 MLP 的場(chǎng)景表示相比，我們的實(shí)驗(yàn)表明，我們的表示（微小的 MLP + 多分辨率特征網(wǎng)格）不僅保證了精細(xì)的映射和高跟蹤精度，而且由于本地場(chǎng)景更新的好處。此外，我們的網(wǎng)絡(luò)能夠填充小孔并將場(chǎng)景幾何形狀外推到未觀察到的區(qū)域，從而穩(wěn)定相機(jī)跟蹤。

Limitations
我們方法的預(yù)測(cè)能力僅限于粗略表示的規(guī)模。此外，我們的方法不執(zhí)行閉環(huán)檢測(cè)，這是一個(gè)有趣的未來方向。最后，盡管傳統(tǒng)方法缺乏一些功能，但與基于學(xué)習(xí)的方法仍然存在需要彌補(bǔ)的性能差距。文章來源地址http://www.zghlxwxcb.cn/news/detail-615396.html

到了這里，關(guān)于NICE-SLAM: Neural Implicit Scalable Encoding for SLAM論文閱讀的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

NeRF-SLAM: Real-Time Dense Monocular SLAM with Neural Radiance Fields 論文閱讀
題目：NeRF-SLAM: Real-Time Dense Monocular SLAM with Neural Radiance Fields 作者：Antoni Rosinol, John J. Leonard， Luca Carlone 代碼：https://github.com/ToniRV/NeRF-SLAM 來源：arxiv 時(shí)間：2022 我們提出了一種新穎的幾何和光度 3D 映射流程，用于從單目圖像進(jìn)行準(zhǔn)確、實(shí)時(shí)的場(chǎng)景重建。為了實(shí)現(xiàn)這一目標(biāo)
2024年02月14日
瀏覽(19)
概述：隱式神經(jīng)表示（Implicit Neural Representations，INRs）
傳統(tǒng)用于形狀表示的隱式表示有：代數(shù)表示、函數(shù)表示、水平集表示等。 1.1.1 代數(shù)表示如下圖利用對(duì)基礎(chǔ)圖形的交并補(bǔ)，可以得到復(fù)雜的圖形。一般logo的設(shè)計(jì)或者三維零部件建模都是利用對(duì)基礎(chǔ)圖形的布爾運(yùn)算來得到目標(biāo)形狀。 1.1.2 函數(shù)表示除了代數(shù)以外，還可以用一些
2024年02月09日
瀏覽(16)
【論文閱讀】Scaling Laws for Neural Language Models
本文簡(jiǎn)要介紹 Scaling law 的主要結(jié)論原文地址：Scaling Laws for Neural Language Models 個(gè)人認(rèn)為不需要特別關(guān)注公式內(nèi)各種符號(hào)的具體數(shù)值，而更應(yīng)該關(guān)注不同因素之間的關(guān)系，比例等 Performance depends strongly on scale, weakly on model shape scale: 參數(shù)量 N N N , 數(shù)據(jù)量 D D D , 計(jì)算量 C C C shape: 模
2024年02月16日
瀏覽(30)
【論文筆記】NeuRAD: Neural Rendering for Autonomous Driving
原文鏈接：https://arxiv.org/abs/2311.15260 神經(jīng)輻射場(chǎng)（NeRF）應(yīng)用在自動(dòng)駕駛中，可以創(chuàng)建可編輯的場(chǎng)景數(shù)字克?。勺杂删庉嬕暯呛蛨?chǎng)景物體），以進(jìn)行仿真。但目前的方法或者需要大量的訓(xùn)練時(shí)間，或者對(duì)傳感器的建模過于簡(jiǎn)單（導(dǎo)致仿真和真實(shí)數(shù)據(jù)的間隙），或者性能較低。
2024年02月02日
瀏覽(19)
機(jī)器學(xué)習(xí)筆記：node2vec（論文筆記：node2vec: Scalable Feature Learning for Networks）
2016 KDD 利用graph上的節(jié)點(diǎn)相似性，對(duì)這些節(jié)點(diǎn)進(jìn)行embedding 同質(zhì)性：節(jié)點(diǎn)和其周圍節(jié)點(diǎn)的embedding比較相似藍(lán)色節(jié)點(diǎn)和其周圍的節(jié)點(diǎn) 結(jié)構(gòu)等價(jià)性結(jié)構(gòu)相近的點(diǎn)embedding相近比如藍(lán)色節(jié)點(diǎn)，都處于多個(gè)簇的連接處隨機(jī)游走是一種自監(jiān)督學(xué)習(xí)的embedding方法，不需要利用節(jié)點(diǎn)標(biāo)簽也不
2024年02月09日
瀏覽(44)
論文閱讀《Nougat：Neural Optical Understanding for Academic Documents》
科學(xué)知識(shí)主要存儲(chǔ)在書籍和科學(xué)期刊中，通常以PDF的形式。然而PDF格式會(huì)導(dǎo)致語義信息的損失，特別是對(duì)于數(shù)學(xué)表達(dá)式。我們提出了Nougat，這是一種視覺transformer模型，它執(zhí)行OCR任務(wù)，用于將科學(xué)文檔處理成標(biāo)記語言，并證明了我們的模型在新的科學(xué)文檔數(shù)據(jù)集上的有效性。
2024年02月09日
瀏覽(16)
論文筆記: NSG: Neural Scene Graphs for Dynamic Scenes
對(duì)動(dòng)態(tài)場(chǎng)景進(jìn)行渲染，完成動(dòng)態(tài)前景與背景分離、背景inpainting、動(dòng)態(tài)前景編輯和新視角生成。之前的方法如nerf只能夠渲染靜態(tài)場(chǎng)景（利用的是靜態(tài)場(chǎng)景在多視角下的一致性），如將整張圖像場(chǎng)景中的所有物體編碼進(jìn)單個(gè)神經(jīng)網(wǎng)絡(luò)中，缺乏表征動(dòng)態(tài)物體和將這些物體分解為單
2024年01月16日
瀏覽(22)
論文筆記：Adjusting for Autocorrelated Errors in Neural Networks for Time Series
2021 NIPS 原來的時(shí)間序列預(yù)測(cè)任務(wù)是根據(jù) 預(yù)測(cè) 論文提出用一階自回歸誤差預(yù)測(cè) 一階差分，類似于ResNet的殘差思路？記為pred，最終的預(yù)測(cè)結(jié)果 ?
2024年02月14日
瀏覽(17)
論文閱讀《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》
就上一篇博客如何寫論文、讀（分享匯報(bào)）論文，在《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》進(jìn)行實(shí)踐。《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》是一篇由Mingxing Tan和Quoc V. Le等人于2019年提出的論文，主要關(guān)注卷積神經(jīng)網(wǎng)絡(luò)（CNN）的模型縮
2024年02月03日
瀏覽(23)
One-4-All: Neural Potential Fields for Embodied Navigation 論文閱讀
題目：One-4-All: Neural Potential Fields for Embodied Navigation 作者：Sacha Morin, Miguel Saavedra-Ruiz 來源：arXiv 時(shí)間：2023 現(xiàn)實(shí)世界的導(dǎo)航可能需要使用高維 RGB 圖像進(jìn)行長(zhǎng)視野規(guī)劃，這對(duì)基于端到端學(xué)習(xí)的方法提出了巨大的挑戰(zhàn)。目前的半?yún)?shù)方法通過將學(xué)習(xí)的模塊與環(huán)境的拓?fù)溆洃浵?/p>
2024年02月14日
瀏覽(21)

<menu id="my4v6"><input id="my4v6"></input></menu>