国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

計(jì)算機(jī)視覺(jué)新巔峰,微軟&牛津聯(lián)合提出MVSplat登頂3D重建

這篇具有很好參考價(jià)值的文章主要介紹了計(jì)算機(jī)視覺(jué)新巔峰,微軟&牛津聯(lián)合提出MVSplat登頂3D重建。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

計(jì)算機(jī)視覺(jué)新巔峰,微軟&牛津聯(lián)合提出MVSplat登頂3D重建,人工智能,大模型,論文解讀,人工智能

開篇:探索稀疏多視圖圖像的3D場(chǎng)景重建與新視角合成的挑戰(zhàn)

3D場(chǎng)景重建和新視角合成是計(jì)算機(jī)視覺(jué)領(lǐng)域的一項(xiàng)基礎(chǔ)挑戰(zhàn),尤其是當(dāng)輸入圖像非常稀疏(例如,只有兩張)時(shí)。盡管利用神經(jīng)場(chǎng)景表示,例如場(chǎng)景表示網(wǎng)絡(luò)(SRN)、神經(jīng)輻射場(chǎng)(NeRF)和光場(chǎng)網(wǎng)絡(luò)(LFN)等,取得了顯著進(jìn)展,但這些方法在實(shí)際應(yīng)用中仍然不盡人意,原因包括每個(gè)場(chǎng)景的優(yōu)化成本高昂、內(nèi)存消耗大以及渲染速度慢。最近,3D高斯投影(3DGS)作為一種高效且表達(dá)力強(qiáng)的3D表示方法應(yīng)運(yùn)而生,它憑借快速的渲染速度和高質(zhì)量成為了研究的熱點(diǎn)。使用基于光柵化的渲染,3DGS天然避免了NeRF中昂貴的體積采樣過(guò)程,從而實(shí)現(xiàn)了高效且高質(zhì)量的3D重建和新視角合成。

接下來(lái)提出的幾種前饋高斯投影方法,如Splatter Image和pixelSplat,嘗試從稀疏視圖圖像進(jìn)行3D重建。Splatter Image使用U-Net架構(gòu)從單一視圖回歸像素對(duì)齊的高斯參數(shù),取得了單個(gè)對(duì)象3D重建的有希望的結(jié)果。然而,從單個(gè)圖像進(jìn)行3D重建本質(zhì)上是不適定的和模糊的,這使得它特別難以應(yīng)用于更一般和更大的場(chǎng)景級(jí)別重建。對(duì)于一般場(chǎng)景重建,pixelSplat提出從兩個(gè)輸入視圖回歸高斯參數(shù)。盡管pixelSplat學(xué)習(xí)了具有環(huán)視變換器的跨視圖感知特征,但僅從圖像特征預(yù)測(cè)可靠的概率深度分布仍然具有挑戰(zhàn)性,導(dǎo)致pixelSplat的幾何重建質(zhì)量相對(duì)較低且存在噪聲偽影。為了改進(jìn)幾何重建結(jié)果,需要使用額外的深度正則化損失進(jìn)行緩慢的深度微調(diào)。

為了準(zhǔn)確定位3D高斯中心,我們提出通過(guò)在3D空間中進(jìn)行平面掃描來(lái)構(gòu)建代價(jià)體積表示。具體來(lái)說(shuō),代價(jià)體積存儲(chǔ)了所有潛在深度候選項(xiàng)的跨視圖特征相似性,這些相似性可以為3D表面的定位提供有價(jià)值的幾何線索。通過(guò)我們的代價(jià)體積表示,任務(wù)被表述為學(xué)習(xí)執(zhí)行特征匹配以識(shí)別高斯中心,而不是像以前的工作那樣從圖像特征中進(jìn)行數(shù)據(jù)驅(qū)動(dòng)的3D回歸。這樣的表述降低了任務(wù)的學(xué)習(xí)難度,使我們的方法能夠以輕量級(jí)模型大小和快速速度實(shí)現(xiàn)最先進(jìn)的性能。

我們通過(guò)將由我們構(gòu)建的多視圖代價(jià)體積估計(jì)的多視圖一致深度反投影到3D空間中,獲得3D高斯中心。此外,我們還并行預(yù)測(cè)其他高斯屬性(協(xié)方差、不透明度和球諧系數(shù)),從而使用預(yù)測(cè)的3D高斯和可微分的投影操作渲染新視角圖像。我們的完整模型MVSplat是端到端訓(xùn)練的,僅使用渲染和真實(shí)圖像之間的光度損失進(jìn)行監(jiān)督。

在大規(guī)模的RealEstate10K和ACID基準(zhǔn)測(cè)試中,我們基于代價(jià)體積的方法MVSplat以最快的前饋推理速度(22 fps)實(shí)現(xiàn)了最先進(jìn)的性能。與最先進(jìn)的pixelSplat相比,我們的模型使用了更少的參數(shù),并且在提供更高的外觀和幾何質(zhì)量以及更好的跨數(shù)據(jù)集泛化能力的同時(shí),推理速度提高了2倍以上。廣泛的消融研究和分析強(qiáng)調(diào)了我們基于特征匹配的代價(jià)體積設(shè)計(jì)在實(shí)現(xiàn)高效前饋3D高斯投影模型方面的重要性。

論文標(biāo)題: MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images

機(jī)構(gòu):

1. Monash University

2. ETH Zurich

3. University of Tübingen, Tübingen AI Center

4. University of Oxford

5. Microsoft

6. Nanyang Technological University

論文鏈接:https://arxiv.org/pdf/2403.14627.pdf

項(xiàng)目地址: https://donydchen.github.io/mvsplat

公眾號(hào)【AI論文解讀】后臺(tái)回復(fù)“論文解讀” 獲取論文PDF!

3D高斯投影(3DGS)的介紹與優(yōu)勢(shì)

3D高斯投影(3D Gaussian Splatting,簡(jiǎn)稱3DGS)是一種高效且表現(xiàn)力強(qiáng)的三維表示方法,它因其快速的渲染速度和高質(zhì)量的重建而受到關(guān)注。3DGS使用基于光柵化的渲染方法,從而避免了NeRF中昂貴的體積采樣過(guò)程,實(shí)現(xiàn)了高效率和高質(zhì)量的3D重建及新視角合成。

1. 3DGS的工作原理:3DGS通過(guò)將3D高斯(Gaussian primitives)映射到圖像平面上,避免了傳統(tǒng)NeRF方法中的體積渲染,從而大幅提高了渲染速度。這些高斯原語(yǔ)由中心位置、協(xié)方差、不透明度和顏色參數(shù)定義,可以高效地用于渲染新視角的圖像。

2. 3DGS的優(yōu)勢(shì):與傳統(tǒng)的NeRF方法相比,3DGS具有多個(gè)顯著優(yōu)勢(shì)。首先,它的渲染速度快,因?yàn)樗苊饬税嘿F的體積采樣過(guò)程。其次,3DGS在處理稀疏視圖輸入時(shí)表現(xiàn)出色,這對(duì)于實(shí)際應(yīng)用中捕獲大量視圖是不切實(shí)際的情況尤為重要。此外,3DGS能夠在輕量級(jí)模型和快速速度的同時(shí),提供更高的外觀和幾何質(zhì)量,以及更好的跨數(shù)據(jù)集泛化能力。

MVSplat模型的核心設(shè)計(jì)

MVSplat是一個(gè)基于3DGS的前饋模型,它通過(guò)構(gòu)建成本體積(cost volume)來(lái)利用多視圖的對(duì)應(yīng)信息,從而更好地學(xué)習(xí)幾何結(jié)構(gòu)。與之前依賴于數(shù)據(jù)驅(qū)動(dòng)設(shè)計(jì)的方法不同,MVSplat的核心設(shè)計(jì)在于其有效地利用特征匹配信息來(lái)預(yù)測(cè)3D高斯中心,從而實(shí)現(xiàn)了高效的深度估計(jì)。

1. 成本體積的構(gòu)建:MVSplat通過(guò)平面掃描技術(shù)在3D空間中構(gòu)建成本體積,存儲(chǔ)了所有潛在深度候選項(xiàng)的跨視圖特征相似性。這些相似性為3D表面的定位提供了寶貴的幾何線索,使得模型能夠通過(guò)特征匹配來(lái)識(shí)別3D高斯中心。

2. 多視圖深度估計(jì):MVSplat的深度模型基于2D卷積和注意力機(jī)制,不使用許多先前MVS和前饋NeRF模型中的3D卷積,這使得模型高效。深度模型包括多視圖特征提取、成本體積構(gòu)建、成本體積細(xì)化、深度估計(jì)和深度細(xì)化等步驟。

3. 3D高斯參數(shù)的預(yù)測(cè):在獲得多視圖深度預(yù)測(cè)后,MVSplat直接將它們投影到3D點(diǎn)云中,并將每個(gè)視圖的點(diǎn)云轉(zhuǎn)換為對(duì)齊的世界坐標(biāo)系,直接組合為3D高斯的中心。同時(shí),模型還并行預(yù)測(cè)其他高斯屬性(協(xié)方差、不透明度和顏色參數(shù)),以便使用可微分的投影操作渲染新視角圖像。

4. 訓(xùn)練損失:MVSplat使用簡(jiǎn)單的渲染損失進(jìn)行端到端訓(xùn)練,通過(guò)預(yù)測(cè)的3D高斯參數(shù)渲染圖像,并以真實(shí)目標(biāo)RGB圖像作為監(jiān)督,計(jì)算訓(xùn)練損失。

MVSplat在大規(guī)模RealEstate10K和ACID基準(zhǔn)測(cè)試中取得了最先進(jìn)的性能,并以最快的前饋推理速度(22 fps)運(yùn)行。與最新的pixelSplat模型相比,MVSplat使用了更少的參數(shù),并且推理速度更快,同時(shí)提供了更高的外觀和幾何質(zhì)量,以及更好的跨數(shù)據(jù)集泛化能力。

實(shí)驗(yàn)設(shè)置與數(shù)據(jù)集描述

1. 數(shù)據(jù)集

本研究使用了兩個(gè)大型基準(zhǔn)數(shù)據(jù)集:RealEstate10K [42] 和 ACID [14]。RealEstate10K 數(shù)據(jù)集包含從 YouTube 下載的房地產(chǎn)視頻,分為 67,477 個(gè)訓(xùn)練場(chǎng)景和 7,289 個(gè)測(cè)試場(chǎng)景。ACID 數(shù)據(jù)集包含由無(wú)人機(jī)拍攝的自然場(chǎng)景,分為 11,075 個(gè)訓(xùn)練場(chǎng)景和 1,972 個(gè)測(cè)試場(chǎng)景。兩個(gè)數(shù)據(jù)集都提供了每個(gè)幀的估計(jì)相機(jī)內(nèi)參和外參。此外,為了進(jìn)一步評(píng)估跨數(shù)據(jù)集的泛化能力,還在多視圖 DTU [10] 數(shù)據(jù)集上進(jìn)行了直接評(píng)估,該數(shù)據(jù)集包含帶有相機(jī)位姿的以物體為中心的場(chǎng)景,在 DTU 數(shù)據(jù)集上,我們報(bào)告了 16 個(gè)驗(yàn)證場(chǎng)景的結(jié)果,每個(gè)場(chǎng)景有 4 個(gè)新視角。

2. 評(píng)價(jià)指標(biāo)

量化結(jié)果使用標(biāo)準(zhǔn)圖像質(zhì)量指標(biāo),包括像素級(jí)的 PSNR、補(bǔ)丁級(jí)的 SSIM [31] 和特征級(jí)的 LPIPS [40]。同時(shí)報(bào)告了推理時(shí)間和模型參數(shù),以便全面比較速度和準(zhǔn)確性的權(quán)衡。為了公平比較,所有實(shí)驗(yàn)都在 256×256 分辨率下進(jìn)行,以符合現(xiàn)有模型 [1, 27]。

3. 實(shí)現(xiàn)細(xì)節(jié)

MVSplat 使用 PyTorch 實(shí)現(xiàn),并使用 CUDA 中的現(xiàn)成 3DGS 渲染器。多視圖 Transformer 包含 6 層堆疊的自注意力和交叉注意力層。構(gòu)建成本體積時(shí),在所有實(shí)驗(yàn)中采樣了 128 個(gè)深度候選項(xiàng)。所有模型在單個(gè) A100 GPU 上訓(xùn)練了 300,000 次迭代,使用 Adam [13] 優(yōu)化器。更多細(xì)節(jié)在補(bǔ)充材料 Appendix C 中提供。代碼和模型可在 https://github.com/donydchen/mvsplat 獲取。

主要結(jié)果與性能分析

1. 圖像質(zhì)量評(píng)估

在 RealEstate10K [42] 和 ACID [14] 基準(zhǔn)測(cè)試中,MVSplat 在所有視覺(jué)質(zhì)量指標(biāo)上超越了所有先前的最先進(jìn)模型,并且在 LPIPS 指標(biāo)上有更明顯的改進(jìn),該指標(biāo)更符合人類感知。MVSplat 在具有挑戰(zhàn)性的條件下,即使在只有一個(gè)輸入視圖中呈現(xiàn)的區(qū)域(例如“樓梯扶手”和“燈罩”)或從遠(yuǎn)處視點(diǎn)捕獲的大型戶外物體(例如“橋梁”),也能實(shí)現(xiàn)最高質(zhì)量的新視圖結(jié)果。

計(jì)算機(jī)視覺(jué)新巔峰,微軟&牛津聯(lián)合提出MVSplat登頂3D重建,人工智能,大模型,論文解讀,人工智能

2. 模型效率評(píng)估

MVSplat 不僅在圖像質(zhì)量上表現(xiàn)優(yōu)異,而且在所有比較模型中具有最快的推理時(shí)間,并且模型尺寸輕巧,展示了其效率和實(shí)用性。MVSplat 使用的參數(shù)比 pixelSplat [1] 少 10 倍,并且推理速度快于 2 倍以上。

3. 幾何重建評(píng)估

MVSplat 生成的 3D 高斯原語(yǔ)質(zhì)量顯著高于最新的最先進(jìn)模型 pixelSplat [1]。pixelSplat 需要額外的 50,000 步微調(diào),使用額外的深度正則化損失來(lái)實(shí)現(xiàn)合理的幾何重建結(jié)果。而 MVSplat 僅通過(guò)光度監(jiān)督訓(xùn)練,就能生成高質(zhì)量的幾何結(jié)構(gòu)。

計(jì)算機(jī)視覺(jué)新巔峰,微軟&牛津聯(lián)合提出MVSplat登頂3D重建,人工智能,大模型,論文解讀,人工智能

4. 跨數(shù)據(jù)集泛化評(píng)估

MVSplat 在泛化到分布外的新場(chǎng)景方面具有固有的優(yōu)勢(shì),主要是因?yàn)槌杀倔w積捕獲了特征之間的相對(duì)相似性,這與特征的絕對(duì)尺度相比保持不變。在兩個(gè)跨數(shù)據(jù)集評(píng)估中,MVSplat 渲染出的新視圖具有競(jìng)爭(zhēng)力,盡管目標(biāo)數(shù)據(jù)集的場(chǎng)景包含與源數(shù)據(jù)集顯著不同的相機(jī)分布和圖像外觀。相比之下,pixelSplat 渲染的視圖嚴(yán)重退化,這主要是因?yàn)?pixelSplat 依賴于與特征值的絕對(duì)尺度相關(guān)的純特征聚合,這阻礙了其在接收來(lái)自其他數(shù)據(jù)集的不同圖像特征時(shí)的性能。

5. 更多視圖質(zhì)量評(píng)估

MVSplat 設(shè)計(jì)為對(duì)輸入視圖的數(shù)量不敏感,因此如果在測(cè)試階段有更多輸入視圖可用,無(wú)論在訓(xùn)練中使用了多少輸入視圖,都可以從中受益。在 DTU 上使用 3 個(gè)上下文視圖進(jìn)行測(cè)試時(shí),MVSplat 的結(jié)果優(yōu)于使用 2 個(gè)視圖的結(jié)果,這表明 MVSplat 可以利用更多的輸入視圖來(lái)提高性能。

6. 消融研究

通過(guò)在 RealEstate10K 上進(jìn)行詳盡的消融研究,分析了 MVSplat 的關(guān)鍵組件。結(jié)果表明,成本體積是 MVSplat 成功的關(guān)鍵,它在編碼器中發(fā)揮著最重要的作用,提供了更好的幾何質(zhì)量。此外,交叉視圖注意力在學(xué)習(xí)多視圖幾何結(jié)構(gòu)中也非常重要,它通過(guò)在輸入視圖之間融合信息來(lái)增強(qiáng)特征表達(dá)能力。

跨數(shù)據(jù)集泛化能力的評(píng)估

在計(jì)算機(jī)視覺(jué)領(lǐng)域,從稀疏的圖像(例如,僅兩張)進(jìn)行3D場(chǎng)景重建和新視角合成一直是一個(gè)基本挑戰(zhàn)。雖然使用神經(jīng)場(chǎng)景表示(如SRN、NeRF和LFN)取得了顯著進(jìn)展,但這些方法在實(shí)際應(yīng)用中仍不盡人意,原因在于每個(gè)場(chǎng)景的昂貴優(yōu)化成本、高內(nèi)存消耗和慢渲染速度。最近,基于成本體積的方法MVSplat在大規(guī)模RealEstate10K和ACID基準(zhǔn)測(cè)試中實(shí)現(xiàn)了最先進(jìn)的性能,具有最快的前饋推理速度(22 fps),并且在外觀和幾何質(zhì)量以及跨數(shù)據(jù)集泛化方面都優(yōu)于最新的pixelSplat模型。

1. 跨數(shù)據(jù)集泛化能力

MVSplat的跨數(shù)據(jù)集泛化能力得益于其成本體積表示,該表示捕獲了特征之間的相對(duì)相似性,這種相似性與特征的絕對(duì)尺度相比是不變的。為了評(píng)估這種泛化能力,研究人員選擇了僅在RealEstate10K(室內(nèi)場(chǎng)景)上訓(xùn)練的模型,并直接在ACID(室外場(chǎng)景)和DTU(以物體為中心的場(chǎng)景)上進(jìn)行了測(cè)試。結(jié)果顯示,盡管目標(biāo)數(shù)據(jù)集的場(chǎng)景與源數(shù)據(jù)集在相機(jī)分布和圖像外觀上有顯著差異,MVSplat仍能渲染出具有競(jìng)爭(zhēng)力的新視圖。相比之下,pixelSplat在渲染質(zhì)量上明顯下降,主要原因是它依賴于與特征值的絕對(duì)尺度相關(guān)的純特征聚合,這在接收來(lái)自其他數(shù)據(jù)集的不同圖像特征時(shí)會(huì)影響其性能。

計(jì)算機(jī)視覺(jué)新巔峰,微軟&牛津聯(lián)合提出MVSplat登頂3D重建,人工智能,大模型,論文解讀,人工智能

2. 更多視圖的質(zhì)量

MVSplat的設(shè)計(jì)使其對(duì)輸入視圖的數(shù)量不敏感,這意味著如果在測(cè)試階段有更多的輸入視圖可用,無(wú)論在訓(xùn)練中使用了多少輸入視圖,它都可以從中受益。通過(guò)在DTU上使用3個(gè)上下文視圖進(jìn)行測(cè)試,使用在2視圖RealEstate10K數(shù)據(jù)集上訓(xùn)練的模型,MVSplat的性能得到了提升。然而,pixelSplat在使用更多視圖時(shí)性能略有下降,即使研究人員已經(jīng)盡力將其發(fā)布的僅支持2視圖的模型擴(kuò)展到支持更多視圖的測(cè)試。這表明,更多視圖的特征分布可能與用于訓(xùn)練pixelSplat的兩視圖特征分布不同,這種依賴于純特征聚合的方法缺乏對(duì)特征分布變化的魯棒性。

模型的優(yōu)化與改進(jìn)

1. 模型優(yōu)化

為了提高模型性能,MVSplat采用了多種優(yōu)化策略。首先,它基于2D卷積和注意力機(jī)制,避免了許多以前的MVS和前饋NeRF模型中使用的3D卷積,從而提高了模型效率。其次,MVSplat通過(guò)構(gòu)建成本體積來(lái)存儲(chǔ)所有潛在深度候選項(xiàng)的跨視圖特征相似性,這些相似性為3D表面的定位提供了寶貴的幾何線索。此外,MVSplat還使用了一個(gè)輕量級(jí)的2D U-Net來(lái)進(jìn)一步細(xì)化成本體積,并預(yù)測(cè)每個(gè)視圖的深度圖。這些深度圖被投影到3D空間,并與其他高斯屬性(協(xié)方差、不透明度和球面諧波系數(shù))一起預(yù)測(cè),以使用可微分的splatting操作渲染新視圖。

2. 模型改進(jìn)

MVSplat的改進(jìn)主要體現(xiàn)在以下幾個(gè)方面:

成本體積表示:通過(guò)平面掃描在3D空間中構(gòu)建成本體積表示,為學(xué)習(xí)特征匹配以識(shí)別高斯中心提供了一個(gè)新的公式化方法,與以前的數(shù)據(jù)驅(qū)動(dòng)3D回歸方法不同。

多視圖深度估計(jì):MVSplat的深度模型僅基于2D卷積和注意力,不使用其他模型中的3D卷積,提高了模型效率。

高斯參數(shù)預(yù)測(cè):通過(guò)直接從多視圖深度預(yù)測(cè)中投影得到的3D點(diǎn)云作為高斯中心,同時(shí)預(yù)測(cè)不透明度、協(xié)方差和顏色參數(shù)。

訓(xùn)練損失:模型使用簡(jiǎn)單的渲染損失進(jìn)行端到端訓(xùn)練,無(wú)需地面真實(shí)幾何監(jiān)督。

通過(guò)這些優(yōu)化和改進(jìn),MVSplat在兩個(gè)大規(guī)模場(chǎng)景級(jí)重建基準(zhǔn)測(cè)試中樹立了新的最先進(jìn)水平,并且在外觀和幾何質(zhì)量以及跨數(shù)據(jù)集泛化方面都優(yōu)于最新的pixelSplat模型。

討論與總結(jié)

在本文中,我們探討了從稀疏多視圖圖像進(jìn)行3D場(chǎng)景重建和新視角合成的挑戰(zhàn),并介紹了最近提出的MVSplat模型。MVSplat模型通過(guò)構(gòu)建代價(jià)體積(cost volume)來(lái)利用多視圖間的對(duì)應(yīng)信息,從而更好地學(xué)習(xí)幾何結(jié)構(gòu)。這種方法與現(xiàn)有的數(shù)據(jù)驅(qū)動(dòng)設(shè)計(jì)有所不同,使得MVSplat在兩個(gè)大規(guī)模場(chǎng)景級(jí)重建基準(zhǔn)測(cè)試中設(shè)定了新的最高標(biāo)準(zhǔn)。與最新的先進(jìn)方法pixelSplat相比,MVSplat使用的參數(shù)少了10倍,推斷速度快了2倍以上,同時(shí)提供了更高的外觀和幾何質(zhì)量,以及更好的跨數(shù)據(jù)集泛化能力。

1. 成果總結(jié)

MVSplat模型在多個(gè)方面展現(xiàn)了其優(yōu)越性。首先,它在RealEstate10K和ACID基準(zhǔn)測(cè)試中取得了最佳的視覺(jué)質(zhì)量指標(biāo),并且具有最快的前饋推斷速度(22 fps),這證明了其在實(shí)際應(yīng)用中的高效性和實(shí)用性。其次,MVSplat在幾何重建方面也展現(xiàn)了顯著的優(yōu)勢(shì),能夠在沒(méi)有額外深度微調(diào)的情況下,通過(guò)光度監(jiān)督單獨(dú)訓(xùn)練,生成高質(zhì)量的3D高斯原語(yǔ)。此外,MVSplat在跨數(shù)據(jù)集泛化能力方面表現(xiàn)出色,尤其是在源數(shù)據(jù)集與目標(biāo)數(shù)據(jù)集之間存在較大差異時(shí),其性能提升更為顯著。

2. 技術(shù)細(xì)節(jié)

MVSplat模型的關(guān)鍵在于其代價(jià)體積表示,該表示存儲(chǔ)了所有潛在深度候選項(xiàng)的跨視圖特征相似性,為3D表面的定位提供了有價(jià)值的幾何線索。與之前的工作不同,MVSplat的任務(wù)被構(gòu)建為學(xué)習(xí)執(zhí)行特征匹配以識(shí)別3D高斯中心,這降低了任務(wù)的學(xué)習(xí)難度,并使得模型能夠以輕量級(jí)的模型大小和快速的速度實(shí)現(xiàn)最先進(jìn)的性能。

3. 實(shí)驗(yàn)結(jié)果

MVSplat在多個(gè)實(shí)驗(yàn)中均展現(xiàn)了其優(yōu)勢(shì)。在RealEstate10K和ACID數(shù)據(jù)集上的定量結(jié)果表明,MVSplat在所有視覺(jué)質(zhì)量指標(biāo)上均優(yōu)于先前的最佳模型。在幾何重建質(zhì)量的可視化比較中,MVSplat產(chǎn)生的3D高斯原語(yǔ)和平滑深度圖表現(xiàn)出更高的質(zhì)量。在跨數(shù)據(jù)集泛化測(cè)試中,MVSplat在未經(jīng)訓(xùn)練的新數(shù)據(jù)集上的渲染質(zhì)量也遠(yuǎn)超pixelSplat,這進(jìn)一步證明了其代價(jià)體積設(shè)計(jì)的有效性。

4. 未來(lái)方向

盡管MVSplat在多個(gè)方面取得了顯著的成果,但它在處理反射表面(如玻璃和窗戶)時(shí)可能產(chǎn)生不可靠的結(jié)果,這是現(xiàn)有方法的一個(gè)公開挑戰(zhàn)。此外,MVSplat目前主要在RealEstate10K數(shù)據(jù)集上進(jìn)行訓(xùn)練,盡管其規(guī)模較大,但多樣性不足以健壯地泛化到野外真實(shí)世界場(chǎng)景。未來(lái)的一個(gè)有趣方向是探索MVSplat模型擴(kuò)展到更大和更多樣化的訓(xùn)練數(shù)據(jù)集的可能性,例如通過(guò)混合現(xiàn)有的幾個(gè)場(chǎng)景級(jí)數(shù)據(jù)集。

總之,MVSplat模型的提出為稀疏多視圖圖像的3D場(chǎng)景重建和新視角合成提供了一種高效且有效的解決方案,其優(yōu)異的性能和泛化能力預(yù)示著在實(shí)際應(yīng)用中具有巨大的潛力。 文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-851675.html

到了這里,關(guān)于計(jì)算機(jī)視覺(jué)新巔峰,微軟&牛津聯(lián)合提出MVSplat登頂3D重建的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包