(20230410-20230416)論文閱讀簡單記錄和匯總
2023/04/09:很久沒有動筆寫東西了,這兩周就要被抓著匯報了,痛苦啊嗚嗚嗚嗚嗚
目錄
- (CVPR 2023): Temporal Interpolation Is All You Need for Dynamic Neural Radiance Fields
- (ICCV 2021):Video Autoencoder: self-supervised disentanglement of static 3D structure and motion
- (CVPR 2023):DINER: Disorder-Invariant Implicit Neural Representation
- (CVPR 2023):Regularize implicit neural representation by itself
- (DCC 2023):RQAT-INR: Improved Implicit Neural Image Compression
- (arxiv 2023):DNeRV: Modeling Inherent Dynamics via Difference Neural Representation for Videos
1. (CVPR 2023)Temporal Interpolation Is All You Need for Dynamic Neural Radiance Fields
Paper: https://arxiv.org/pdf/2302.09311.pdf
1.1 摘要
在動態(tài)場景中,時間插值在學(xué)習(xí)有意義的表示中起著至關(guān)重要的作用。本文提出了一種基于特征向量時間插值的動態(tài)場景四維時空神經(jīng)輻射場訓(xùn)練方法。兩種特征插值方法的建議取決于底層表示,神經(jīng)或網(wǎng)格表示。在神經(jīng)表示中,我們通過多個神經(jīng)網(wǎng)絡(luò)模塊從時空輸入中提取特征,并根據(jù)時間框架進(jìn)行插值。所提出的多層特征插值網(wǎng)絡(luò)有效地捕獲了短期和長期時間段的特征。在網(wǎng)格表示中,時空特征是通過四維哈希網(wǎng)格學(xué)習(xí)的。網(wǎng)格表示顯著減少了訓(xùn)練時間,與神經(jīng)網(wǎng)絡(luò)模型相比,速度快100多倍,同時保持訓(xùn)練模型的渲染質(zhì)量。靜態(tài)和動態(tài)特征的拼接以及簡單平滑項的加入進(jìn)一步提高了模型的性能。盡管其網(wǎng)絡(luò)結(jié)構(gòu)簡單,但我們證明了所提出的方法在神經(jīng)表示方面表現(xiàn)出優(yōu)于以往工作的性能,并且在網(wǎng)格表示方面表現(xiàn)出最快的訓(xùn)練速度。
1.2 方法
所提出方法的框架圖還是挺簡單的,我沒有去看平滑項的部分,關(guān)于靜態(tài)和動態(tài)特征的描述是場景中既包含了幾乎不變的靜態(tài)背景和隨時間發(fā)生變化的物體形變、位移和閃出,僅采用隨著
x
x
x和
t
t
t變化的嵌入編碼作為輸入特征向量是不夠的。因此NeRF MLP的輸入向量由靜態(tài)特征和動態(tài)特征兩部分組成,使用concat拼接起來。不同層次之間的動態(tài)特征由不同層次相鄰的tiny MLP處理得到,最后也通過concat拼接得到。
上方的示意圖已經(jīng)很好滴說明了動態(tài)特征是如何得到的了,可惜就是沒有開源,對于網(wǎng)絡(luò)的一些細(xì)節(jié)并不了解。
1.3 限制
雖然本文提出的特征插補方法能夠?qū)W習(xí)到有意義的時空特征,但也存在圖8所示特征插補失敗的情況。使用神經(jīng)表示,當(dāng)視頻序列中的小物體快速移動時,很難恢復(fù)3D結(jié)構(gòu)(圖8左)。(那這里其實有點像NeRV中采用MLP從位置編碼學(xué)習(xí)時空信息一樣,插值效果還是很拉跨,這是否說明位置編碼或神經(jīng)表示是存在問題的?) 使用諸如光流之類的附加信息有助于估計在物理上有意義的3D空間中的對應(yīng)關(guān)系,這將是有益的。與此同時,我們的特征插值框架由于估計在訓(xùn)練序列中不可見的動態(tài)區(qū)域而受到影響(圖8右)。平滑項基本上假設(shè)不可見區(qū)域保持靜態(tài),在這種情況下可能會降低性能。
1.4 結(jié)論
在本文中,我們提出了一種簡單而有效的特征插值方法來訓(xùn)練動態(tài)nerf。神經(jīng)表示和網(wǎng)格表示都表現(xiàn)出了令人印象深刻的性能。由于這些方法與現(xiàn)有的變形建?;蚬烙媹鼍傲鞯姆椒o關(guān),我們認(rèn)為所提出的方法為訓(xùn)練動態(tài)nerf提供了一個新的方向。平滑項應(yīng)用于中間特征向量進(jìn)一步提高了性能。
雖然由于神經(jīng)網(wǎng)絡(luò)的表示能力,神經(jīng)表示模型顯示了高質(zhì)量的渲染結(jié)果,但它需要數(shù)小時的訓(xùn)練和數(shù)秒的渲染,這對實時應(yīng)用造成了障礙。另一方面,網(wǎng)格表示在經(jīng)過幾分鐘的訓(xùn)練后,能夠在不到一秒鐘的時間內(nèi)渲染動態(tài)場景,這使得它在現(xiàn)實應(yīng)用中更加實用。兩種表示法是相互補充的,研究利用兩種表示法的混合表示法將是一個有趣的研究方向。
2. (ICCV 2021)Video Autoencoder: self-supervised disentanglement of static 3D structure and motion
Project Page:https://zlai0.github.io/VideoAutoencoder/
Paper:https://arxiv.org/abs/2110.02951
Code:https://github.com/zlai0/VideoAutoencoder/
2.1 摘要
提出了一種視頻自編碼器,用于自監(jiān)督地從視頻中學(xué)習(xí)三維結(jié)構(gòu)和攝像機姿態(tài)的解糾纏表示。基于視頻中的時間連續(xù)性,我們的工作假設(shè)附近視頻幀中的3D場景結(jié)構(gòu)保持靜態(tài)。給定一個視頻幀序列作為輸入,視頻自動編碼器提取場景的解糾纏表示,包括:(i)一個時間一致的深體素特征來表示3D結(jié)構(gòu);(ii)每個幀的相機姿態(tài)的3D軌跡。然后,這兩種表示將重新糾纏以呈現(xiàn)輸入視頻幀。該視頻自動編碼器可以直接使用像素重建損失進(jìn)行訓(xùn)練,無需任何地面真相3D或相機姿態(tài)注釋。該解糾纏表示可以應(yīng)用于一系列任務(wù),包括新視圖合成、攝像機姿態(tài)估計和通過運動跟蹤生成視頻。我們在幾個大規(guī)模的自然視頻數(shù)據(jù)集上評估了我們的方法,并在域外圖像上顯示了泛化結(jié)果。
2.2 方法
看了下對我沒啥用,就不繼續(xù)看了,以下是網(wǎng)絡(luò)結(jié)構(gòu)圖。
2.3 結(jié)論
我們提出了視頻自動編碼器,將視頻編碼為3D結(jié)構(gòu)和相機姿態(tài)的解糾纏表示。該模型只使用原始視頻進(jìn)行訓(xùn)練,沒有使用任何明確的3D監(jiān)督或相機姿勢。我們表明,我們的表示可以實現(xiàn)諸如攝像機姿態(tài)估計、新視圖合成和通過運動跟蹤生成視頻等任務(wù)。我們的模型在所有任務(wù)上都表現(xiàn)出卓越的泛化能力,并在自監(jiān)督相機姿態(tài)估計方面取得了最先進(jìn)的結(jié)果。與訓(xùn)練中使用地面真實攝像機的方法相比,我們的模型在新視圖合成方面也取得了相同的結(jié)果。
3. (CVPR 2023)DINER: Disorder-Invariant Implicit Neural Representation
Project Page:https://ezio77.github.io/DINER-website/
Paper:https://arxiv.org/pdf/2211.07871.pdf
Code:https://github.com/Ezio77/DINER
CVPR 2023版本之后還有一個arxiv的16頁擴展版《Disorder-invariant Implicit Neural Representation》,有興趣的可以自己去找一下。
3.1 摘要
隱式神經(jīng)表示(INR)將信號的屬性表征為對應(yīng)坐標(biāo)的函數(shù),成為求解逆問題的利器。然而,網(wǎng)絡(luò)訓(xùn)練中的光譜偏置限制了INR的能力。在本文中,我們發(fā)現(xiàn)這樣一個與頻率相關(guān)的問題可以通過重新排列輸入信號的坐標(biāo)來很大程度上解決,為此我們提出了通過在傳統(tǒng)的INR主干上增加哈希表來實現(xiàn)無序不變隱式神經(jīng)表示(DINER)。給定具有相同屬性直方圖且排列順序不同的離散信號,哈希表可以將坐標(biāo)投影到相同的分布中,后續(xù)的INR網(wǎng)絡(luò)可以更好地對映射信號進(jìn)行建模,從而顯著緩解頻譜偏差。實驗不僅揭示了DINER對于不同INR主干(MLP vs. SIREN)和各種任務(wù)(圖像/視頻表示、相位檢索和折射率恢復(fù))的泛化性,而且還顯示了其在質(zhì)量和速度上優(yōu)于最先進(jìn)的算法。
3.2 方法
作者首先提出現(xiàn)有方法的兩個問題:
- 現(xiàn)有INR方法的性能受到信號自頻分布的限制,通常需要更深或更寬的網(wǎng)絡(luò)架構(gòu)來提高擬合精度。
- 盡管參數(shù)編碼具有收斂速度快、精度高的優(yōu)勢,但仍有一個關(guān)鍵問題沒有得到解答,即這些特征的幾何意義是什么?
同時作者分析了二維輸入圖像的頻率分量對于INR擬合效果的影響,作者不改變圖像的色彩直方圖,將圖像中的像素按順序進(jìn)行排列或者重新排列得到兩幅圖像進(jìn)行INR擬合。
那么這里可以看出,針對不同調(diào)整過后的圖像擬合效果是完全不同的,對于最后的隨機像素排列圖像,圖像中存在大量高頻信息導(dǎo)致INR擬合效果是非常差的。但是這也啟發(fā)了作者另一個想法,INR的輸入是坐標(biāo)輸出是像素值,采用不同順序或者映射的輸入輸出對網(wǎng)絡(luò)來說是沒有變化的。
這句話可能有點拗口,我的意思是有正常圖像中坐標(biāo) x 1 x_1 x1?輸入得到輸出 y 1 y_1 y1?,和輸入 x 2 x_2 x2?得到輸出 y 2 y_2 y2?;那么通過位置變換輸入 x 3 x_3 x3?時得到 y 1 y_1 y1?,輸入 x 4 x_4 x4?時得到 y 2 y_2 y2?,這完全是沒有去別的。我只需要知道 x 3 x_3 x3?輸入得到的輸出值對應(yīng)的是 x 1 x_1 x1?位置的像素即可,既如果每個像素點和網(wǎng)絡(luò)輸入之間的映射即可。但是輸入坐標(biāo)的不同對于INR擬合的效果是千差萬別的,那么想當(dāng)然可以有一個想法,我們把輸入坐標(biāo)映射(輸入坐標(biāo)映射到了d部分)成另一個呈現(xiàn)為比較平滑、低頻分量較多的圖像(上圖中的f部分,其實就是INR學(xué)習(xí)了f這個圖,映射坐標(biāo)重新映射回去進(jìn)行排列就會變成a部分的圖)上去,就能夠使INR擬合能力大大增強,并且這個映射關(guān)系是可以根據(jù)輸入圖像的性質(zhì)進(jìn)行學(xué)習(xí)的
作者總結(jié)本文的貢獻(xiàn)為:
- 所提出DINER方法極大地提高了現(xiàn)有INR方法的精度,其中利用學(xué)習(xí)過的哈希表映射原始輸入的坐標(biāo),以便在后續(xù)INR模型中更好地表征。
- 所提出的DINER為具有相同屬性直方圖和不同排列順序的信號提供了一致的映射和表示能力。
- 所提出的DINER被推廣到各種任務(wù)中,包括二維圖像和三維視頻的表示,無透鏡成像中的相位檢索,以及強度衍射層析成像中的3D折射率恢復(fù),報告了現(xiàn)有最先進(jìn)技術(shù)的顯著性能增益
并提出了兩個命題:
- 信號的不同排列有不同的頻率分布,導(dǎo)致INR表示信號自身的能力不同。
- DINER是無序不變的,具有相同屬性直方圖分布的信號共享具有相同參數(shù)值的優(yōu)化網(wǎng)絡(luò)。(這一點也很有意思,那么對于相同直方圖的圖像可以僅采用一個INR進(jìn)行壓縮,只需要改變他的哈希表即可)
該表格也驗證了現(xiàn)有方法在擬合圖像時會趨向于擬合圖像的低頻部分,而對高頻部分的擬合訓(xùn)練緩慢,這也是INR論文中常提的網(wǎng)絡(luò)偏置或叫光譜偏差。實驗中各個部分都充分證明了所提出方法的有效性,實驗表現(xiàn)簡而言之就是牛逼Plus, 45dB真是牛逼啊。
DINER僅采用8.77k的參數(shù)量實現(xiàn)了一個300幀 1080P視頻的表征,這要是放在壓縮任務(wù)真是嚇?biāo)纻€人了,但是其實這用在壓縮上應(yīng)該是不切實際的,哈希表就會非常非常大。
此外,將原始輸入通過哈希表映射,然后再輸入網(wǎng)絡(luò)得到顏色通道的值,大家看看本節(jié)最上圖中的f部分,這個圖像什么,像不像PS或者Visio里面的取色版(手動狗頭Dog)。那么其實上面我的說法也錯了,甚至不需要相同直方圖,只需要一個足夠大的SIREN或者M(jìn)LP能夠映射8位色彩中的所有顏色,即
25
6
3
=
(
2
8
)
3
=
2
24
256^3=(2^8)^3=2^{24}
2563=(28)3=224,那么只需要更換哈希表就可以表示所有的圖像了。
我們有理由相信,DINER中INR部分其實是學(xué)習(xí)了一個色彩上的集合,沒有任何實際意義,真正能體現(xiàn)圖像的部分在哈希表中的坐標(biāo)映射。我目前還沒有看這個代碼,不知道這個哈希表存儲下來得有多大,不過在實驗中對[1200,1200]大小圖像采用了 2 21 2^{21} 221長度的哈希表,不可能太小- -。
3.3 討論
前面提到的實驗都集中在離散信號上。為了查詢連續(xù)信號中不可見的坐標(biāo),建議對網(wǎng)絡(luò)輸出進(jìn)行后插補操作,而不是向網(wǎng)絡(luò)輸入插值哈希鍵(如圖11所示),例如Plenoxels的探索,它將密度和諧波系數(shù)的網(wǎng)格[8]插入,而不是直接向網(wǎng)絡(luò)輸入不可見的位置和方向坐標(biāo)[22]。
太對味了,太對味了!!從我們上面的粗體字分析很容易得出DINER完全不具備INR的插值能力??! ,因為他根本算不上一個INR?。LP中除了擬合圖像中的顏色信息,不包含任何關(guān)于圖像的結(jié)構(gòu)、紋理等信息!!MLP只是學(xué)了個調(diào)色盤??!他在插值方面注定是失敗的?。?/p>
那么現(xiàn)在拋出另一個問題,實驗中其實可以看出MLP結(jié)構(gòu)和SIREN結(jié)構(gòu)所學(xué)習(xí)到的調(diào)色盤是存在一定差別的,這種情況是什么呢?我的猜測是MLP和SIREN結(jié)構(gòu)的網(wǎng)絡(luò)偏差是不同的,SIREN由于采用了Sin激活函數(shù),所以帶有一定頻率的網(wǎng)絡(luò)偏置,會學(xué)習(xí)最適合這個頻率的信息,那么在調(diào)色板上也會顯示一定的變化出來。 有其他見解的朋友可以將你們的看法發(fā)在評論區(qū)
3.5 結(jié)論
在這項工作中,我們提出了DINER,通過引入額外的哈希表,可以大大提高當(dāng)前INR骨干的準(zhǔn)確性。我們指出了INR表示信號的性能是由信號中元素的排列順序決定的。該方法可以將輸入的離散信號映射成一個低頻信號,在不改變屬性直方圖的情況下,僅改變排列順序,低頻信號是不變的。因此,不同INR骨干網(wǎng)的精度可以大大提高。 <—(結(jié)合這兩句話去看這個文章所提出的方法會非常簡單)大量的實驗驗證了所提出的DINER在信號擬合和反問題優(yōu)化任務(wù)中具有較高的精度和效率。
然而,目前的DINER只能處理離散信號。在未來,我們將專注于連續(xù)映射方法,而不是基于離散哈希表的映射,以擴展連續(xù)信號的優(yōu)勢,例如有符號距離函數(shù)[26]。
4. (CVPR 2023) Regularize implicit neural representation by itself
Paper:https://arxiv.org/abs/2303.15484
簡而言之就是一大堆公式懶得花時間看,對于提升INR表征能力應(yīng)該是近乎于沒有,作者采用迪利克雷能量和拉普拉斯矩陣平滑性復(fù)原圖像,取得了優(yōu)于原始INR的性能。(在我看來是利用MLP計算傳統(tǒng)方法中的一些矩陣、能量等公式并使其最小化,和傳統(tǒng)圖像增強方法采用什么能量計算、局部方差對比度優(yōu)化差不多?)
實驗中采用的基本都是采樣不均勻或者人為添加噪聲的圖像進(jìn)行擬合實驗,并不認(rèn)為該方法真的增強了INR的泛化性,而是INR+傳統(tǒng)套皮得到一個針對不均勻采樣圖像的增強表示,真有這么垃圾的圖像我直接一波圖像復(fù)原、圖像補全再INR擬合不好嗎。
當(dāng)然最有可能的結(jié)論是我沒看完所以在這瞎扯hhhhh,感興趣的朋友可以看看這篇論文然后在評論區(qū)討論233333
4.1 摘要
本文提出了一種隱式神經(jīng)表示正則化器(INRR)提高隱式神經(jīng)表示(INR)的泛化能力。INR是一個完全連接的網(wǎng)絡(luò),可以表示不受網(wǎng)格分辨率限制的細(xì)節(jié)信號。但是,它的泛化能力還有待提高,特別是對于非均勻采樣數(shù)據(jù)。提出的INRR基于可學(xué)習(xí)的狄利克雷能量(DE),測量矩陣的行/列之間的相似性。通過使用一個極小的INR參數(shù)化DE可以進(jìn)一步整合拉普拉斯矩陣的平滑性。INRR通過將信號的自相似性與拉普拉斯矩陣的平滑性完美地結(jié)合起來,實現(xiàn)了INR信號表示能力的泛化性提升。通過精心設(shè)計的數(shù)值實驗,本文還揭示了INRR的一系列性質(zhì),包括收斂軌跡和多尺度相似等動量方法。此外,該方法可以提高其他信號表示方法的性能。
4.2 方法和貢獻(xiàn)
作者總結(jié)滴貢獻(xiàn):
- 神經(jīng)切核(NTK)[1]從理論上分析了INR的泛化能力,并給出了INR在非均勻采樣情況下性能較差的原因。
- 在DE的基礎(chǔ)上,提出了一種微小的INR參數(shù)化正則子INRR,該正則子將圖像的自相似性和拉普拉斯矩陣的平滑性完美地結(jié)合在一起。
- 通過精心設(shè)計的數(shù)值實驗,揭示了INRR的動量方法、多尺度相似性和泛化能力等一系列性質(zhì)
4.3 結(jié)論
本文提出了一種新的正則化子INRR,該正則化子顯著提高了INR的表示性能,特別是在任意采樣訓(xùn)練數(shù)據(jù)的情況下。INRR將DE中的拉普拉斯矩陣參數(shù)化了一個極小的INR,然后自適應(yīng)地學(xué)習(xí)隱藏在圖像數(shù)據(jù)中的非局部相似性。INRR是一個通用框架,用于將多個先驗函數(shù)集成到一個正則化函數(shù)中,從而減少正則化函數(shù)的冗余。INRR、動量項、內(nèi)隱偏差和多尺度自相似度之間的聯(lián)系值得進(jìn)一步的理論分析。
5. (DCC 2023):RQAT-INR: Improved Implicit Neural Image Compression
Paper:https://arxiv.org/abs/2303.03028
5.1 摘要
近年來,用于圖像和視頻壓縮的深度變分自編碼器獲得了巨大的吸引力,因為與數(shù)十年之久的傳統(tǒng)編解碼器(如AVC、HEVC或VVC)相比,它們有潛力提供具有競爭力或更好的壓縮率。但由于其復(fù)雜性和能耗,這些方法離工業(yè)實際應(yīng)用還有很長的路要走。近年來,基于隱式神經(jīng)表示(INR)的編解碼器已經(jīng)出現(xiàn),與傳統(tǒng)的解碼方法相比,它具有更低的復(fù)雜度和能量消耗。但是,他們的表現(xiàn)與目前最先進(jìn)的方法還不能相提并論。在這項研究中,我們首先證明了基于INR的圖像編解碼器比基于VAE的方法具有更低的復(fù)雜度,然后我們提出了基于INR的圖像編解碼器的幾個改進(jìn),并在很大程度上優(yōu)于基線模型。
5.2 方法
RQAT-INR里面提出了三個方法:絕對最大值歸一化量化、邊界感知熵模型和正則化量化感知訓(xùn)練??戳讼赂杏X前兩個都是比較簡單的方法呀,最后一項加了個正則項略微有點意思。這里就給個正則化的損失(這個正則化量化感知訓(xùn)練類似于知識蒸餾操作),其他的有興趣就自己去看原文了。
編碼后的比特流情況和解碼操作如下圖所示
實驗效果方面相比于COIN和COIN++是有較明顯的提升,作者主要還展示了與VAE模型之間的復(fù)雜度比較,INR的方法與VAE方法之間的Flops差別差不多在1-2個數(shù)量級。
5.3 結(jié)論
在本文中,我們證明了基于INR的壓縮方法比基于VAE的壓縮方法具有更低的解碼復(fù)雜度。此外,我們提出了正則化量化感知訓(xùn)練和邊界感知熵模型,以提高基于隱式神經(jīng)表示的圖像壓縮的壓縮率。與現(xiàn)有方法相比,我們的方法帶來了32-41%的比特率增益。然而,這種改進(jìn)目前還不足以與最先進(jìn)的模型競爭,特別是在高碼率標(biāo)準(zhǔn)下。從圖4b可以看出,INR的PSNR損失是按碼率增加的。這可以解釋為選擇的MLP體系結(jié)構(gòu)并不是熵約束下圖像逼近的最優(yōu)體系結(jié)構(gòu)。在較低的速率下,由于參數(shù)的數(shù)量較低,網(wǎng)絡(luò)的可能架構(gòu)也受到限制。因此,所選擇的MLP可能與最優(yōu)體系結(jié)構(gòu)相差不遠(yuǎn)。然而,在高碼率條件下,INR網(wǎng)絡(luò)的可能結(jié)構(gòu)隨著網(wǎng)絡(luò)參數(shù)數(shù)量的增加而呈指數(shù)增長。因此,尋找最好的通用架構(gòu)和/或圖像自適應(yīng)架構(gòu)將是擺脫這個問題的某種方式,我們建議在未來的工作中解決這個問題。 此外,我們的量化是為了將權(quán)重編碼到比特流中,而不是降低模型的復(fù)雜性。我們的解碼器仍然對去量化參數(shù)執(zhí)行單精度浮點運算。為了進(jìn)一步降低解碼網(wǎng)絡(luò)的復(fù)雜度,將INR解碼網(wǎng)絡(luò)用整數(shù)網(wǎng)絡(luò)實現(xiàn)是我們今后的工作方向。
6. (arxiv 2023)HyperINR: A Fast and Predictive Hypernetwork for Implicit Neural Representations via Knowledge Distillation
Paper: https://arxiv.org/abs/2304.04188
簡而言之,第一段看完就不想看了,當(dāng)然意思不是說他不好,只是我看不懂。
6.1 摘要
內(nèi)隱神經(jīng)表征(INRs)最近在科學(xué)可視化領(lǐng)域表現(xiàn)出巨大的潛力,用于數(shù)據(jù)生成和可視化任務(wù)。然而,這些表示通常由大型多層感知器(mlp)組成,一次向前傳遞需要數(shù)百萬次操作,因此阻礙了交互式視覺探索。雖然減少mlp的大小和采用有效的參數(shù)編碼方案可以緩解這個問題,但它損害了不可見參數(shù)的泛化性,使其不適用于時間超分辨率等任務(wù)。在本文中,我們介紹了HyperINR,一種新型的超網(wǎng)絡(luò)結(jié)構(gòu),能夠直接預(yù)測緊湊型INR的權(quán)重。通過統(tǒng)一利用多分辨率哈希編碼單元的集成,所得到的INR獲得了最先進(jìn)的推理性能(高達(dá)100倍更高的推理帶寬),并支持交互式照片現(xiàn)實體可視化。此外,通過結(jié)合知識蒸餾,實現(xiàn)了出色的數(shù)據(jù)和可視化生成質(zhì)量,使我們的方法對實時參數(shù)探索有價值。我們通過一項全面的消融研究驗證了HyperINR架構(gòu)的有效性。我們展示了HyperINR在三個不同可視化任務(wù)中的多功能性:新穎的視圖合成、體數(shù)據(jù)的時間超分辨率和動態(tài)全局陰影的體繪制。HyperINR同時實現(xiàn)了效率和通用性,為INR在更廣泛的科學(xué)可視化應(yīng)用中應(yīng)用鋪平了道路。
- 我們設(shè)計了HyperINR:一種超級網(wǎng)絡(luò),可以有效地為給定參數(shù)生成常規(guī)INR的權(quán)重,實現(xiàn)最先進(jìn)的推理性能,并實現(xiàn)高質(zhì)量的交互式體積路徑跟蹤。
- 我們介紹了一個通過知識蒸餾優(yōu)化HyperINR的框架,為不可見參數(shù)獲得最先進(jìn)的數(shù)據(jù)泛化質(zhì)量,并支持實時參數(shù)探索。
- 我們展示了HyperINR出色的推理性能,以及在各種科學(xué)可視化任務(wù)中生成有意義的數(shù)據(jù)和可視化的能力。
6.2 結(jié)論
我們介紹了HyperINR,這是一種創(chuàng)新的超網(wǎng)絡(luò),可以為不可見的場景參數(shù)條件生成inr。通過使用大量小型多分辨率哈希編碼器、共享MLP和深度嵌入的權(quán)重插值操作,HyperINR實現(xiàn)了令人印象深刻的100倍更高的推理帶寬和交互式體渲染,具有出色的真實感。此外,通過知識蒸餾我們的方法獲得了最先進(jìn)的數(shù)據(jù)和可視化生成表現(xiàn)。我們的結(jié)果強調(diào)了HyperINR在各種可視化任務(wù)中的潛力,展示了其有效性和效率。我們相信HyperINR代表了科學(xué)可視化及其他領(lǐng)域內(nèi)基于隱式神經(jīng)表示的方法的發(fā)展向前邁出了一步。
7. (arxiv 2023)DNeRV: Modeling Inherent Dynamics via Difference Neural Representation for Videos 基于差分神經(jīng)表征的視頻固有動態(tài)建模
Paper: https://arxiv.org/abs/2304.06544
看了一眼是昨天上傳的文章,今天就給我逮住了hhhhhh,還是馬展老師課題組的文章。
7.1 摘要
現(xiàn)有的隱式神經(jīng)表示(INR)方法不能充分利用視頻中的時空冗余?;谒饕腎NRs忽略了特定于內(nèi)容的空間特征,而混合INRs忽略了相鄰幀的上下文依賴性,導(dǎo)致對大運動或動態(tài)場景的建模能力較差。我們從函數(shù)擬合的角度分析了這種局限性,揭示了幀差的重要性。為了使用顯式運動信息,我們提出了視頻差分神經(jīng)表示(DNeRV),它由內(nèi)容流和幀差流組成。我們還引入了一個協(xié)作內(nèi)容單元,用于有效地融合特征。我們測試DNeRV用于視頻壓縮、修補和插值。DNeRV在960 × 1920視頻的下游修補和插值方面取得了與最先進(jìn)的神經(jīng)壓縮方法相比具有競爭力的結(jié)果,并優(yōu)于現(xiàn)有的隱式方法。
7.2 方法
個人認(rèn)為作者(Qi Zhao)掛在arxiv的這篇文章還是一個初稿,很多地方的描述略顯生澀,很多地方需要更加詳細(xì)的打磨,例如Fig3和Fig4之間的不匹配,Related Work中部分描述存在錯誤,Motivation中的公式和推理個人認(rèn)為需要繼續(xù)打磨,無法構(gòu)成一個完備合理的推理過程,部分公式存在格式錯誤和不合理的現(xiàn)象。Fig5中缺少高碼率下的RD曲線,并且這張圖應(yīng)該擴大已展現(xiàn)所提出方法的性能優(yōu)勢,F(xiàn)ig5中兩張圖并列放在雙欄中的左欄中實在是太小了。
由于本文并未在期刊或會議進(jìn)行公開發(fā)表,并且論文中仍存在一些問題,因此不詳細(xì)闡述本文方法,有興趣的讀者可以自行搜索閱讀。
7.3 結(jié)論
在本文中,我們提出了視頻差分神經(jīng)表示(DNeRV)來建模上下文幀的固有動態(tài)。DNeRV基于差分流和協(xié)同內(nèi)容單元,在視頻回歸、壓縮、修補和插值等方面保持了其重構(gòu)質(zhì)量的優(yōu)勢。實驗結(jié)果表明,本文提出的DNeRV算法能夠較好地逼近隱式映射,實現(xiàn)視頻的有效魯棒表示,超越現(xiàn)有的NeRV方法。
7.4 未來方向
DNeRV顯示了它在各種視覺任務(wù)上的潛力?;贒NeRV改進(jìn)的任務(wù)特定方法有望挑戰(zhàn)最先進(jìn)的方法。此外,基于inr的網(wǎng)絡(luò) g θ g_\theta gθ?通過梯度下降擬合有限訓(xùn)練元組上的連續(xù) f f f,還需要改進(jìn)嚴(yán)格的理論分析。
8. (CVPR 2023)Towards Scalable Neural Representation for Diverse Videos
Project:https://boheumd.github.io/D-NeRV/
Paper和Code鏈接都在其中,本文是Hao Chen課題組的后續(xù)工作,第一作者是同課題組中的Bo He。文章來源:http://www.zghlxwxcb.cn/news/detail-530012.html
8.1 摘要
隱式神經(jīng)表征(INR)在表示3D場景和圖像方面得到了越來越多的關(guān)注,最近已被應(yīng)用于視頻編碼(例如NeRV [1],E-NeRV[2])。在取得可喜成果的同時,現(xiàn)有基于inr的方法僅限于編碼少量具有冗余視覺內(nèi)容的短視頻(例如,UVG數(shù)據(jù)集中的7個5秒視頻),導(dǎo)致模型設(shè)計單獨適合單個視頻幀,并且不能有效地擴展到大量不同的視頻。本文的重點是為更實際的設(shè)置開發(fā)神經(jīng)表示-編碼具有不同視覺內(nèi)容的長視頻和/或大量視頻。我們首先證明,與將視頻劃分為小子集并使用單獨的模型編碼相比,使用統(tǒng)一的模型聯(lián)合編碼長且不同的視頻可以獲得更好的壓縮結(jié)果?;谶@一觀察,我們提出了D-NeRV,一種新的神經(jīng)表示框架,旨在通過(i)將剪輯特定的視覺內(nèi)容與運動信息解耦,(ii)將時間推理引入隱式神經(jīng)網(wǎng)絡(luò),以及(iii)使用面向任務(wù)的流作為中間輸出以減少空間冗余來編碼不同的視頻。我們的新模型在很大程度上超越了NeRV和傳統(tǒng)的視頻壓縮技術(shù)在UCF101和UVG數(shù)據(jù)集。此外,當(dāng)用作有效的數(shù)據(jù)加載器時,在相同壓縮比的UCF101數(shù)據(jù)集上,D-NeRV動作識別任務(wù)的準(zhǔn)確率比NeRV高3%-10%。文章來源地址http://www.zghlxwxcb.cn/news/detail-530012.html
8.2 方法
到了這里,關(guān)于【論文閱讀】(20230410-20230416)論文閱讀簡單記錄和匯總的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!