国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023

這篇具有很好參考價(jià)值的文章主要介紹了【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

AI視野·今日CS.CV 計(jì)算機(jī)視覺論文速覽
Mon, 2 Oct 2023 (showing first 100 of 112 entries)
Totally 100 papers
??上期速覽?更多精彩請移步主頁

【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF


Interesting:

??*****The Dawn of LMMs, GPT4-V視覺大語言模型綜述。(from Microsoft Corporation)
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF

??生物外科組織數(shù)據(jù)集, Surgical Tattoos in Infrared (from )
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF

website:https://dx.doi.org/10.21227/w8g4-g548

??Neural Lithography, 計(jì)算神經(jīng)光刻技術(shù)。從設(shè)計(jì)到制造的可差分光刻模型,可差分透鏡。(from MIT)
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF

website:https://neural-litho.github.io/


??PARF, 基于輻射場融合的室內(nèi)新視角合成模型(from 清華 華為)
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF

【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF
website:https://oceanying.github.io/PARF/

??Forward Flow,基于前向流的動態(tài)場景新視角合成。 (from 西工大 )
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF
website: https://npucvr.github.io/ForwardFlowDNeRF

??LLM-grounded Video Diffusion, 基于大語言模型的視頻擴(kuò)散模型。(from 伯克利)
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF


??Retail-786k, 大規(guī)模視覺實(shí)體識別。(from 德國奧芬堡應(yīng)用科學(xué)大學(xué))
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF
website:https://www.retail-786k.org/

??腎臟活檢結(jié)構(gòu)模型, (from 荷蘭萊頓大學(xué))
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF


??HAvatar,基于神經(jīng)輻射場的頭部合成重建。(from 清華大學(xué)【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF)
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF


??GAIA-1, 用于自動駕駛生成的世界模型。(from wayve)
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF

??DEEDIFF, 加速diffusion模型的動態(tài)不確定性(from 谷歌)
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF
website:https://anonymous.4open.science/r/DeeDiff-E0F7/

??CONSISTENT123, 單圖3D資產(chǎn)生成的擴(kuò)散模型。(from 清華深圳 )
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF

website: https://consistent123.github.io/

??EGVD, 基于事件相機(jī)的視頻去雨(from 中科大)
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF
website:https://github.com/booker-max/EGVD

??事件相機(jī)位移估計(jì)eventail, 基于五點(diǎn)法的求解 (from 上海科技大學(xué))
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF

website:https://mgaoling.github.io/eventail/

??合成纖維繩缺陷檢測數(shù)據(jù)集, (from 丹麥奧爾堡大學(xué) )
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF
website:https://data.mendeley.com/datasets/by9wy6fxsr

??Perceptual Tone Mapping, 高動態(tài)范圍的色調(diào)映射。(from 浙江大學(xué))
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF


??TEXTFIELD3D, 去除文本噪聲的文本到3D模型。(from 哈工大)
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERFwebsite:https://tyhuang0428.github.io/textfield3d.html


??CrossZoom, 基于事件相機(jī)和 shape latent 的高分辨去模糊網(wǎng)絡(luò)模型。(from 武漢大學(xué))
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF
website:https://bestrivenzc.github.io/CZ-Net/

??DDBMs), 擴(kuò)散橋接模型,用于在不同分布間插值。(from 斯坦福)
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF


??Sketch2CADScript, 基于2D草圖到3D模型的生成,基于視覺transformer和參數(shù)化建模Rhino Grasshopper(from 洛桑理工 )
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF

??超低低功耗神經(jīng)形態(tài)芯片, 脈沖神經(jīng)網(wǎng)絡(luò)分類器。(from SynSense AG Meta)
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF
website:https://github.com/biphasic/Quartz-on-Loihi/
https://github.com/biphasic/Quartz

??用于處理神經(jīng)網(wǎng)絡(luò)的光子計(jì)算芯片, (from Lightmatter Inc. Corning Inc.)
【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023,計(jì)算機(jī)視覺,Papers,視覺,人工智能,計(jì)算機(jī)視覺,視覺,CV,diffusion model,NERF


Daily Computer Vision Papers

Multi-task View Synthesis with Neural Radiance Fields
Authors Shuhong Zheng, Zhipeng Bao, Martial Hebert, Yu Xiong Wang
多任務(wù)視覺學(xué)習(xí)是計(jì)算機(jī)視覺的一個重要方面。然而,目前的研究主要集中在多任務(wù)密集預(yù)測設(shè)置上,忽視了內(nèi)在的3D世界及其多視圖一致結(jié)構(gòu),缺乏通用的想象力。針對這些限制,我們提出了一種新穎的問題設(shè)置多任務(wù)視圖合成 MTVS,它將多任務(wù)預(yù)測重新解釋為一組針對多個場景屬性(包括 RGB)的新穎視圖合成任務(wù)。為了解決 MTVS 問題,我們提出了 MuvieNeRF,一個結(jié)合了多任務(wù)和交叉視圖知識來同時合成多個場景屬性的框架。 MuvieNeRF 集成了兩個關(guān)鍵模塊,即跨任務(wù)注意力 CTA 和跨視圖注意力 CVA 模塊,從而實(shí)現(xiàn)跨多個視圖和任務(wù)的信息的高效利用。對合成和現(xiàn)實(shí)基準(zhǔn)的廣泛評估表明,MuvieNeRF 能夠同時合成具有良好視覺質(zhì)量的不同場景屬性,甚至在各種設(shè)置中優(yōu)于傳統(tǒng)的判別模型。值得注意的是,我們表明 MuvieNeRF 在一系列 NeRF 主干中表現(xiàn)出普遍適用性。
SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation
Authors Zhongang Cai, Wanqi Yin, Ailing Zeng, Chen Wei, Qingping Sun, Yanjun Wang, Hui En Pang, Haiyi Mei, Mingyuan Zhang, Lei Zhang, Chen Change Loy, Lei Yang, Ziwei Liu
富有表現(xiàn)力的人體姿勢和形狀估計(jì) EHPS 將身體、手和面部運(yùn)動捕捉與眾多應(yīng)用相結(jié)合。盡管取得了令人鼓舞的進(jìn)展,但當(dāng)前最先進(jìn)的方法仍然在很大程度上依賴于有限的訓(xùn)練數(shù)據(jù)集。在這項(xiàng)工作中,我們研究了將 EHPS 擴(kuò)展到第一個名為 SMPLer X 的通用基礎(chǔ)模型,以 ViT Huge 作為骨干,并使用來自不同數(shù)據(jù)源的多達(dá) 450 萬個實(shí)例進(jìn)行訓(xùn)練。憑借大數(shù)據(jù)和大模型,SMPLer X 在不同的測試基準(zhǔn)中表現(xiàn)出強(qiáng)大的性能,甚至在未見過的環(huán)境中也具有出色的可移植性。 1 對于數(shù)據(jù)擴(kuò)展,我們對 32 個 EHPS 數(shù)據(jù)集進(jìn)行了系統(tǒng)調(diào)查,涵蓋了在任何單個數(shù)據(jù)集上訓(xùn)練的模型無法處理的各種場景。更重要的是,利用從廣泛的基準(zhǔn)測試過程中獲得的見解,我們優(yōu)化了培訓(xùn)方案并選擇了能夠使 EHPS 能力實(shí)現(xiàn)重大飛躍的數(shù)據(jù)集。 2 對于模型縮放,我們利用視覺轉(zhuǎn)換器來研究EHPS中模型尺寸的縮放規(guī)律。此外,我們的微調(diào)策略將 SMPLer X 轉(zhuǎn)變?yōu)閷I(yè)模型,使它們能夠?qū)崿F(xiàn)進(jìn)一步的性能提升。
LLM-grounded Video Diffusion Models
Authors Long Lian, Baifeng Shi, Adam Yala, Trevor Darrell, Boyi Li
文本條件擴(kuò)散模型已成為神經(jīng)視頻生成的有前途的工具。然而,當(dāng)前的模型仍然難以應(yīng)對復(fù)雜的時空提示,并且經(jīng)常產(chǎn)生受限或不正確的運(yùn)動,例如,甚至缺乏提示物體從左向右移動的能力。為了解決這些限制,我們引入了 LLM 接地視頻擴(kuò)散 LVD。 LVD 不是直接從文本輸入生成視頻,而是首先利用大型語言模型 LLM 基于文本輸入生成動態(tài)場景布局,然后使用生成的布局來指導(dǎo)視頻生成的擴(kuò)散模型。我們表明,法學(xué)碩士能夠僅從文本中理解復(fù)雜的時空動態(tài),并生成與現(xiàn)實(shí)世界中通常觀察到的提示和對象運(yùn)動模式緊密結(jié)合的布局。然后,我們建議通過調(diào)整注意力圖來指導(dǎo)使用這些布局的視頻擴(kuò)散模型。我們的方法是免費(fèi)訓(xùn)練的,可以集成到任何允許分類器指導(dǎo)的視頻擴(kuò)散模型中。
FACTS: First Amplify Correlations and Then Slice to Discover Bias
Authors Sriram Yenamandra, Pratik Ramesh, Viraj Prabhu, Judy Hoffman
計(jì)算機(jī)視覺數(shù)據(jù)集經(jīng)常包含任務(wù)相關(guān)標(biāo)簽和易于學(xué)習(xí)的潛在任務(wù)不相關(guān)屬性之間的虛假相關(guān)性,例如語境 。在此類數(shù)據(jù)集上訓(xùn)練的模型會學(xué)習(xí)捷徑,并且在相關(guān)性不成立的偏差沖突數(shù)據(jù)切片上表現(xiàn)不佳。在這項(xiàng)工作中,我們研究了識別此類切片的問題,以告知下游偏差緩解策略。我們提出首先放大相關(guān)性,然后切片以發(fā)現(xiàn)偏差事實(shí),其中我們首先通過強(qiáng)正則化的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化來放大相關(guān)性以適應(yīng)簡單的偏差對齊假設(shè)。接下來,我們通過偏差對齊特征空間中的混合建模執(zhí)行相關(guān)性感知切片,以發(fā)現(xiàn)捕獲不同相關(guān)性的表現(xiàn)不佳的數(shù)據(jù)切片。盡管很簡單,但我們的方法在各種不同評估設(shè)置的相關(guān)偏差識別方面比之前的工作顯著提高了 35 精度 10。
Classification of Potholes Based on Surface Area Using Pre-Trained Models of Convolutional Neural Network
Authors Chauhdary Fazeel Ahmad, Abdullah Cheema, Waqas Qayyum, Rana Ehtisham, Muhammad Haroon Yousaf, Junaid Mir, Nasim Shakouri Mahmoudabadi, Afaq Ahmad
坑洼是致命的,可能對車輛造成嚴(yán)重?fù)p壞,并可能導(dǎo)致致命事故。在南亞國家,由于路基條件差、地下排水缺乏和降雨過多,路面病害是主要原因。本研究比較了三種預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò) CNN 模型(即 ResNet 50、ResNet 18 和 MobileNet)的性能。首先,對路面圖像進(jìn)行分類,以確定圖像是否包含坑洼,即坑洼或正常。其次,路面圖像被分為三類,即小坑洼、大坑洼和正常。路面圖像是從 3.5 英尺腰高和 2 英尺處拍攝的。 MobileNet v2 檢測坑洼的準(zhǔn)確度為 98。在 2 英尺高度拍攝的圖像的分類對于大型、小型和普通路面的分類準(zhǔn)確度分別為 87.33 、88.67 和 92 。
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)
Authors Zhengyuan Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Chung Ching Lin, Zicheng Liu, Lijuan Wang
大型多模態(tài)模型 LMM 通過多感官技能(例如視覺理解)擴(kuò)展大型語言模型 LLM,以實(shí)現(xiàn)更強(qiáng)大的通用智能。在本文中,我們分析了最新的模型 GPT 4V ision,以加深對 LMM 的理解。分析重點(diǎn)關(guān)注 GPT 4V 可以執(zhí)行的有趣任務(wù),包含測試樣本來探究 GPT 4V 功能的質(zhì)量和通用性、其支持的輸入和工作模式以及提示模型的有效方法。在探索 GPT 4V 的方法中,我們策劃和組織了一系列精心設(shè)計(jì)的定性樣本,涵蓋各個領(lǐng)域和任務(wù)。對這些樣本的觀察表明,GPT 4V 在處理任意交錯的多模態(tài)輸入方面具有前所未有的能力,其功能的通用性共同使 GPT 4V 成為強(qiáng)大的多模態(tài)通用系統(tǒng)。此外,GPT 4V 獨(dú)特的理解輸入圖像上繪制的視覺標(biāo)記的能力可以催生新的人機(jī)交互方法,例如視覺參考提示。我們在報(bào)告最后深入討論了基于 GPT 4V 的系統(tǒng)的新興應(yīng)用場景和未來研究方向。
Directly Fine-Tuning Diffusion Models on Differentiable Rewards
Authors Kevin Clark, Paul Vicol, Kevin Swersky, David J Fleet
我們提出了直接獎勵微調(diào) DRaFT,這是一種簡單有效的方法,用于微調(diào)擴(kuò)散模型,以最大化可微分獎勵函數(shù),例如來自人類偏好模型的分?jǐn)?shù)。我們首先證明,可以通過完整的采樣過程反向傳播獎勵函數(shù)梯度,并且這樣做可以在各種獎勵上實(shí)現(xiàn)出色的性能,優(yōu)于基于強(qiáng)化學(xué)習(xí)的方法。然后,我們提出了更有效的 DRaFT 變體 DRaFT K(將反向傳播截?cái)酁椴蓸拥淖詈?K 個步驟)和 DRaFT LV(當(dāng) K 為 1 時獲得較低方差梯度估計(jì))。我們表明,我們的方法適用于各種情況獎勵函數(shù),可用于大幅提高穩(wěn)定擴(kuò)散 1.4 生成的圖像的美學(xué)質(zhì)量。
IFAST: Weakly Supervised Interpretable Face Anti-spoofing from Single-shot Binocular NIR Images
Authors Jiancheng Huang, Donghao Zhou, Shifeng Chen
單次人臉反欺騙 FAS 是保護(hù)人臉識別系統(tǒng)安全的一項(xiàng)關(guān)鍵技術(shù),它只需要靜態(tài)圖像作為輸入。然而,由于兩個主要原因,單次 FAS 仍然是一個具有挑戰(zhàn)性且尚未得到探索的問題:1 在數(shù)據(jù)方面,從 RGB 圖像學(xué)習(xí) FAS 在很大程度上依賴于上下文,并且沒有附加注釋的單次圖像包含有限的語義信息。 2 在模型方面,現(xiàn)有的單次 FAS 模型無法為其決策提供適當(dāng)?shù)淖C據(jù),并且基于深度估計(jì)的 FAS 方法需要昂貴的每像素注釋。為了解決這些問題,構(gòu)建并發(fā)布了大型雙目近紅外圖像數(shù)據(jù)集 BNI FAS,其中包含超過 300,000 張真實(shí)人臉和平面攻擊圖像,并提出了可解釋的 FAS Transformer IFAST,只需弱監(jiān)督即可產(chǎn)生可解釋的預(yù)測。我們的 IFAST 可以通過所提出的具有動態(tài)匹配注意力 DMA 塊的視差估計(jì) Transformer 生成像素級視差圖。此外,采用精心設(shè)計(jì)的置信圖生成器與所提出的雙師蒸餾模塊配合以獲得最終的判別結(jié)果。
Forward Flow for Novel View Synthesis of Dynamic Scenes
Authors Xiang Guo, Jiadai Sun, Yuchao Dai, Guanying Chen, Xiaoqing Ye, Xiao Tan, Errui Ding, Yumeng Zhang, Jingdong Wang
本文提出了一種神經(jīng)輻射場 NeRF 方法,用于使用前向扭曲對動態(tài)場景進(jìn)行新穎的視圖合成?,F(xiàn)有方法通常采用靜態(tài) NeRF 來表示規(guī)范空間,并通過使用學(xué)習(xí)的后向流場將采樣的 3D 點(diǎn)映射回規(guī)范空間來渲染其他時間步長的動態(tài)圖像。然而,這種反向流場是非平滑且不連續(xù)的,很難用常用的平滑運(yùn)動模型來擬合。為了解決這個問題,我們建議估計(jì)前向流場并將規(guī)范輻射場直接扭曲到其他時間步長。這種向前的流場在目標(biāo)區(qū)域內(nèi)是平滑且連續(xù)的,這有利于運(yùn)動模型的學(xué)習(xí)。為了實(shí)現(xiàn)這一目標(biāo),我們用體素網(wǎng)格表示規(guī)范輻射場,以實(shí)現(xiàn)高效的前向扭曲,并提出一種可微的扭曲過程,包括平均潑濺操作和修復(fù)網(wǎng)絡(luò),以解決多對一和一對多映射問題。徹底的實(shí)驗(yàn)表明,我們的方法在新穎的視圖渲染和運(yùn)動建模方面都優(yōu)于現(xiàn)有方法,證明了我們的前向流動運(yùn)動建模的有效性。
Prompt-based test-time real image dehazing: a novel pipeline
Authors Zixuan Chen, Zewei He, Ziqian Lu, Zhe Ming Lu
現(xiàn)有方法試圖通過探索精心設(shè)計(jì)的訓(xùn)練方案(例如,cycleGAN、先驗(yàn)損失)來提高模型對現(xiàn)實(shí)世界模糊圖像的泛化能力。然而,他們中的大多數(shù)需要非常復(fù)雜的訓(xùn)練程序才能達(dá)到令人滿意的結(jié)果。在這項(xiàng)工作中,我們提出了一種全新的測試管道,稱為基于提示的測試時間去霧 PTTD,以幫助在推理階段生成真實(shí)捕獲的模糊圖像的視覺上令人愉悅的結(jié)果。我們通過實(shí)驗(yàn)發(fā)現(xiàn),給定一個在合成數(shù)據(jù)上訓(xùn)練的去霧模型,通過微調(diào)編碼特征的統(tǒng)計(jì)數(shù)據(jù),即平均值和標(biāo)準(zhǔn)差,PTTD 能夠縮小域間隙,從而提高真實(shí)圖像去霧的性能。因此,我們首先應(yīng)用提示生成模塊 PGM 來生成視覺提示,這是平均值和標(biāo)準(zhǔn)差的適當(dāng)統(tǒng)計(jì)擾動的來源。然后,我們將特征適應(yīng)模塊FAM應(yīng)用到現(xiàn)有的去霧模型中,在生成的提示的指導(dǎo)下調(diào)整原始統(tǒng)計(jì)數(shù)據(jù)。請注意,PTTD 與模型無關(guān),并且可以配備在合成模糊清潔對上訓(xùn)練的各種最先進(jìn)的去霧模型。
Network Memory Footprint Compression Through Jointly Learnable Codebooks and Mappings
Authors Edouard Yvinec, Arnaud Dapogny, Kevin Bailly
計(jì)算能力的增長引發(fā)了人們對用于計(jì)算機(jī)視覺和自然語言處理的深度神經(jīng)網(wǎng)絡(luò) DNN 的巨大興趣。然而,這導(dǎo)致內(nèi)存占用增加,以至于在移動電話等商用設(shè)備上簡單地加載模型可能具有挑戰(zhàn)性。為了解決這一限制,量化是一種受歡迎的解決方案,因?yàn)樗鼘⒏呔葟埩坑成涞降途?、?nèi)存高效的格式。在減少內(nèi)存占用方面,其最有效的變體是基于密碼本的。然而,這些方法有兩個限制。首先,他們要么為每個張量定義一個碼本,要么使用內(nèi)存昂貴的映射到多個碼本。其次,映射的梯度下降優(yōu)化有利于跳向極值,因此不定義近端搜索。在這項(xiàng)工作中,我們建議解決這兩個限制。首先,我們最初對分布相似的神經(jīng)元進(jìn)行分組,并利用重新排序的結(jié)構(gòu)將不同的比例因子應(yīng)用于不同的組,或者將這些組中的權(quán)重映射到多個碼本,而無需任何映射開銷。其次,源于這種初始化,我們提出了碼本和權(quán)重映射的聯(lián)合學(xué)習(xí),其與最近基于梯度的后訓(xùn)練量化技術(shù)具有相似之處。第三,通過直接估計(jì)技術(shù)進(jìn)行估計(jì),我們引入了一種新穎的梯度更新定義,以實(shí)現(xiàn)碼本及其映射的近端搜索。
Towards Free Data Selection with General-Purpose Models
Authors Yichen Xie, Mingyu Ding, Masayoshi Tomizuka, Wei Zhan
理想的數(shù)據(jù)選擇算法可以有效地選擇信息最豐富的樣本,以最大限度地利用有限的注釋預(yù)算。然而,以主動學(xué)習(xí)方法為代表的當(dāng)前方法通常遵循繁瑣的流程,反復(fù)迭代耗時的模型訓(xùn)練和批量數(shù)據(jù)選擇。在本文中,我們通過設(shè)計(jì)一個獨(dú)特的數(shù)據(jù)選擇管道來挑戰(zhàn)這一現(xiàn)狀,該管道利用現(xiàn)有的通用模型通過單遍推理從各種數(shù)據(jù)集中選擇數(shù)據(jù),而無需額外的訓(xùn)練或監(jiān)督。在此新流程之后,提出了一種新穎的自由數(shù)據(jù)選擇 FreeSel 方法。具體來說,我們定義從通用模型的中間特征中提取的語義模式,以捕獲每個圖像中微妙的局部信息。然后,我們可以在細(xì)粒度語義模式級別通過基于距離的采樣一次選擇所有數(shù)據(jù)樣本。 FreeSel 繞過了繁重的批量選擇過程,實(shí)現(xiàn)了效率的顯著提高,并且比現(xiàn)有的主動學(xué)習(xí)方法快 530 倍。大量實(shí)驗(yàn)驗(yàn)證了 FreeSel 在各種計(jì)算機(jī)視覺任務(wù)上的有效性。
See Beyond Seeing: Robust 3D Object Detection from Point Clouds via Cross-Modal Hallucination
Authors Jianning Deng, Gabriel Chan, Hantao Zhong, Chris Xiaoxuan Lu
本文提出了一種通過跨模態(tài)幻覺從點(diǎn)云進(jìn)行魯棒 3D 物體檢測的新穎框架。我們提出的方法與 LiDAR 和 4D 雷達(dá)之間的幻覺方向無關(guān)。我們在空間和特征層面上引入多重對齊,以實(shí)現(xiàn)同時骨干細(xì)化和幻覺生成。具體來說,提出了空間對齊來處理幾何差異,以實(shí)現(xiàn) LiDAR 和雷達(dá)之間更好的實(shí)例匹配。特征對齊步驟進(jìn)一步彌合了傳感模式之間的內(nèi)在屬性差距并穩(wěn)定了訓(xùn)練。即使在推理階段僅使用單模態(tài)數(shù)據(jù)作為輸入,經(jīng)過訓(xùn)練的目標(biāo)檢測模型也可以更好地處理困難的檢測情況。
Efficient Anatomical labeling of Pulmonary Tree Structures via Implicit Point-Graph Networks
Authors Kangxian Xie, Jiancheng Yang, Donglai Wei, Ziqiao Weng, Pascal Fua
肺部疾病在全世界主要死亡原因中名列前茅。除其他外,治愈它們需要更好地了解肺部系統(tǒng)內(nèi)許多復(fù)雜的 3D 樹形結(jié)構(gòu),例如氣道、動脈和靜脈。理論上,可以使用高分辨率圖像堆棧對它們進(jìn)行建模。不幸的是,在密集體素網(wǎng)格上運(yùn)行的標(biāo)準(zhǔn) CNN 方法成本高昂。為了解決這個問題,我們引入了一種基于點(diǎn)的方法,該方法保留樹骨架的圖連接性并結(jié)合隱式表面表示。它以較低的計(jì)算成本提供 SOTA 精度,并且生成的模型具有可用的表面。
Efficient Large Scale Medical Image Dataset Preparation for Machine Learning Applications
Authors Stefan Denner, Jonas Scherer, Klaus Kades, Dimitrios Bounias, Philipp Schader, Lisa Kausch, Markus Bujotzek, Andreas Michael Bucher, Tobias Penzkofer, Klaus Maier Hein
在快速發(fā)展的醫(yī)學(xué)成像領(lǐng)域,機(jī)器學(xué)習(xí)算法已成為提高診斷準(zhǔn)確性不可或缺的一部分。然而,這些算法的有效性取決于高質(zhì)量醫(yī)學(xué)成像數(shù)據(jù)集的可用性和組織。醫(yī)學(xué)中的傳統(tǒng)數(shù)字成像和通信 DICOM 數(shù)據(jù)管理系統(tǒng)不足以處理機(jī)器學(xué)習(xí)算法所需的數(shù)據(jù)規(guī)模和復(fù)雜性。本文介紹了一種創(chuàng)新的數(shù)據(jù)管理工具,該工具是 Kaapana 開源工具包的一部分,旨在簡化大規(guī)模醫(yī)學(xué)成像數(shù)據(jù)集的組織、管理和處理。該工具專為滿足放射科醫(yī)生和機(jī)器學(xué)習(xí)研究人員的需求而定制。它結(jié)合了先進(jìn)的搜索、自動注釋和高效的標(biāo)記功能,以改進(jìn)數(shù)據(jù)管理。此外,該工具還有助于質(zhì)量控制和審查,使研究人員能夠驗(yàn)證大型數(shù)據(jù)集中的圖像和分割質(zhì)量。它還通過聚合和可視化元數(shù)據(jù)來發(fā)現(xiàn)數(shù)據(jù)集中的潛在偏差,這對于開發(fā)強(qiáng)大的機(jī)器學(xué)習(xí)模型至關(guān)重要。此外,Kaapana 已集成到放射合作網(wǎng)絡(luò) RACOON 中,這是一項(xiàng)開創(chuàng)性舉措,旨在創(chuàng)建一個全面的國家基礎(chǔ)設(shè)施,用于在德國所有大學(xué)診所聚合、傳輸和整合放射數(shù)據(jù)。
Information Flow in Self-Supervised Learning
Authors Zhiquan Tan, Jingqin Yang, Weiran Huang, Yang Yuan, Yifan Zhang
在本文中,我們提供了一個全面的工具箱,用于通過矩陣信息論的視角理解和增強(qiáng)自監(jiān)督學(xué)習(xí) SSL 方法。具體來說,通過利用矩陣互信息和聯(lián)合熵的原理,我們?yōu)榛趯Ρ群吞卣魅ハ嚓P(guān)的方法提供了統(tǒng)一的分析。此外,我們提出了基于矩陣信息理論的矩陣變分掩蔽自動編碼器 M MAE 方法,作為掩蔽圖像建模的增強(qiáng)。
Effect of structure-based training on 3D localization precision and quality
Authors Armin Abdehkakha, Craig Snoeyink
本研究介紹了單分子定位顯微鏡 SMLM 和 3D 對象重建中基于 CNN 的算法的基于結(jié)構(gòu)的訓(xùn)練方法。我們將這種方法與傳統(tǒng)的基于隨機(jī)的訓(xùn)練方法進(jìn)行比較,利用 LUENN 包作為我們的 AI 管道。定量評估表明,基于結(jié)構(gòu)的訓(xùn)練方法在檢測率和定位精度方面有顯著提高,特別是在不同的信噪比 SNR 方面。此外,該方法有效去除棋盤偽影,確保更準(zhǔn)確的 3D 重建。
A Foundation Model for General Moving Object Segmentation in Medical Images
Authors Zhongnuo Yan, Tong Han, Yuhao Huang, Lian Liu, Han Zhou, Jiongquan Chen, Wenlong Shi, Yan Cao, Xin Yang, Dong Ni
醫(yī)學(xué)圖像分割旨在描繪感興趣的解剖或病理結(jié)構(gòu),在臨床診斷中發(fā)揮著至關(guān)重要的作用。大量高質(zhì)量的標(biāo)注數(shù)據(jù)對于構(gòu)建高精度深度分割模型至關(guān)重要。然而,由于巨大的標(biāo)簽空間和較差的幀間一致性,醫(yī)學(xué)注釋非常繁瑣且耗時,尤其是對于醫(yī)學(xué)視頻或 3D 體積。最近,一項(xiàng)名為“移動對象分割 MOS”的基本任務(wù)在自然圖像方面取得了重大進(jìn)展。其目標(biāo)是在圖像序列中從背景中描繪出移動物體,只需要最少的注釋。在本文中,我們針對醫(yī)學(xué)圖像中的 MOS 提出了第一個基礎(chǔ)模型,名為 iMOS。對大型多模態(tài)醫(yī)學(xué)數(shù)據(jù)集的大量實(shí)驗(yàn)驗(yàn)證了所提出的 iMOS 的有效性。具體來說,通過僅對序列中的少量圖像進(jìn)行標(biāo)注,iMOS可以在整個序列的雙向上實(shí)現(xiàn)令人滿意的運(yùn)動物體跟蹤和分割性能。
Consistent123: One Image to Highly Consistent 3D Asset Using Case-Aware Diffusion Priors
Authors Yukang Lin, Haonan Han, Chaoqun Gong, Zunnan Xu, Yachao Zhang, Xiu Li
在預(yù)訓(xùn)練的擴(kuò)散模型的指導(dǎo)下,從單個圖像重建 3D 對象已經(jīng)證明了有希望的結(jié)果。然而,由于采用與案例無關(guān)的剛性策略,它們對任意案例的泛化能力和重建的3D一致性仍然很差。在這項(xiàng)工作中,我們提出了 Confluence123,這是一種案例感知的兩階段方法,用于從具有 2D 和 3D 擴(kuò)散先驗(yàn)的一張圖像進(jìn)行高度一致的 3D 資產(chǎn)重建。在第一階段,Constant123 僅利用 3D 結(jié)構(gòu)先驗(yàn)來進(jìn)行充分的幾何利用,并在此過程中嵌入基于 CLIP 的案例感知自適應(yīng)檢測機(jī)制。在第二階段,引入2D紋理先驗(yàn)并逐漸發(fā)揮主導(dǎo)指導(dǎo)作用,精細(xì)地雕刻3D模型的細(xì)節(jié)。 Consolidated123 更緊密地符合制導(dǎo)要求的發(fā)展趨勢,自適應(yīng)地為不同對象提供足夠的 3D 幾何初始化和合適的 2D 紋理細(xì)化。 Consolidated123可以獲得高度3D一致的重建,并且在各種對象上表現(xiàn)出很強(qiáng)的泛化能力。定性和定量實(shí)驗(yàn)表明,我們的方法明顯優(yōu)于最先進(jìn)的 3D 圖像方法。
A Survey on Deep Learning Techniques for Action Anticipation
Authors Zeyun Zhong, Manuel Martin, Michael Voit, Juergen Gall, J rgen Beyerer
預(yù)測未來可能的人類行為的能力對于包括自動駕駛和人機(jī)交互在內(nèi)的廣泛應(yīng)用至關(guān)重要。因此,近年來,人們引入了多種用于動作預(yù)測的方法,其中基于深度學(xué)習(xí)的方法尤其流行。在這項(xiàng)工作中,我們回顧了動作預(yù)期算法的最新進(jìn)展,特別關(guān)注日常生活場景。此外,我們根據(jù)這些方法的主要貢獻(xiàn)對其進(jìn)行分類,并以表格形式進(jìn)行總結(jié),讓讀者一目了然地掌握細(xì)節(jié)。
EGVD: Event-Guided Video Deraining
Authors Yueyi Zhang, Jin Wang, Wenming Weng, Xiaoyan Sun, Zhiwei Xiong
隨著深度學(xué)習(xí)的快速發(fā)展,視頻去雨取得了長足的進(jìn)步。然而,現(xiàn)有的視頻去雨管道對于具有復(fù)雜時空分布的雨層的場景無法達(dá)到令人滿意的性能。在本文中,我們通過使用事件攝像機(jī)來實(shí)現(xiàn)視頻除雨。作為神經(jīng)形態(tài)傳感器,事件相機(jī)適合非勻速運(yùn)動和動態(tài)光照條件的場景。我們提出了一種基于端到端學(xué)習(xí)的網(wǎng)絡(luò),以釋放事件攝像機(jī)在視頻除雨方面的潛力。首先,我們設(shè)計(jì)了一個事件感知運(yùn)動檢測模塊,以使用事件感知掩模自適應(yīng)地聚合多幀運(yùn)動上下文。其次,我們設(shè)計(jì)了一個金字塔自適應(yīng)選擇模塊,通過結(jié)合多模態(tài)上下文先驗(yàn)來可靠地分離背景層和雨層。此外,我們構(gòu)建了一個由雨天視頻和時間同步事件流組成的真實(shí)世界數(shù)據(jù)集。我們將我們的方法與合成和自我收集的現(xiàn)實(shí)世界數(shù)據(jù)集上最先進(jìn)的方法進(jìn)行比較,證明我們的方法具有明顯的優(yōu)越性。
When Epipolar Constraint Meets Non-local Operators in Multi-View Stereo
Authors Tianqi Liu, Xinyi Ye, Weiyue Zhao, Zhiyu Pan, Min Shi, Zhiguo Cao
基于學(xué)習(xí)的多視圖立體 MVS 方法嚴(yán)重依賴于特征匹配,這需要獨(dú)特的描述性表示。一個有效的解決方案是應(yīng)用非局部特征聚合,例如 Transformer。盡管這些技術(shù)很有用,但會給 MVS 帶來大量的計(jì)算開銷。每個像素都密集地關(guān)注整個圖像。相反,我們建議將非局部特征增強(qiáng)限制在一對線內(nèi),每個點(diǎn)僅關(guān)注相應(yīng)的一對極線。我們的想法受到經(jīng)典對極幾何的啟發(fā),它表明具有不同深度假設(shè)的一個點(diǎn)將投影到另一個視圖上的極線。此約束將立體匹配中的 2D 搜索空間減少到極線內(nèi)。類似地,這表明MVS的匹配是為了區(qū)分位于同一條線上的一系列點(diǎn)。受點(diǎn)對線搜索的啟發(fā),我們設(shè)計(jì)了一種線對點(diǎn)非局部增強(qiáng)策略。我們首先設(shè)計(jì)了一種優(yōu)化搜索算法,將 2D 特征圖分割成極線對。然后,極線變壓器 ET 在極線對之間執(zhí)行非局部特征增強(qiáng)。我們將 ET 納入基于學(xué)習(xí)的 MVS 基線,命名為 ET MVSNet。 ET MVSNet 在 DTU 和 Tanks and Temples 基準(zhǔn)測試上以高效率實(shí)現(xiàn)了最先進(jìn)的重建性能。
Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing
Authors Lukas Meiner, Jens Mehnert, Alexandru Paul Condurache
為了降低在資源受限設(shè)備上使用的卷積神經(jīng)網(wǎng)絡(luò) CNN 的計(jì)算成本,結(jié)構(gòu)化剪枝方法已顯示出可喜的結(jié)果,可大幅減少浮點(diǎn)運(yùn)算 FLOP,而不會大幅降低精度。然而,大多數(shù)最新方法需要微調(diào)或特定的訓(xùn)練程序,以在保留的準(zhǔn)確性和減少 FLOP 之間實(shí)現(xiàn)合理的權(quán)衡。這會帶來計(jì)算開銷形式的額外成本,并且需要提供可用的訓(xùn)練數(shù)據(jù)。為此,我們提出了 HASTE Hashing for Tractable Efficiency ,這是一個無參數(shù)、無數(shù)據(jù)的模塊,可以作為任何常規(guī)卷積模塊的即插即用替代品。它立即降低了網(wǎng)絡(luò)的測試時間推理成本,無需任何訓(xùn)練或微調(diào)。通過使用局部敏感哈希 LSH 來檢測通道維度中的冗余,我們能夠在不犧牲太多準(zhǔn)確性的情況下大幅壓縮潛在特征圖。相似的通道被聚合以同時減少輸入和濾波器深度,從而實(shí)現(xiàn)更便宜的卷積。我們在流行的視覺基準(zhǔn) CIFAR 10 和 ImageNet 上展示了我們的方法。
Towards Complex-query Referring Image Segmentation: A Novel Benchmark
Authors Wei Ji, Li Li, Hao Fei, Xiangyan Liu, Xun Yang, Juncheng Li, Roger Zimmermann
參考圖像理解 RIS 在過去十年中得到了廣泛的研究,導(dǎo)致了先進(jìn)算法的發(fā)展。然而,缺乏研究來調(diào)查現(xiàn)有算法如何與復(fù)雜的語言查詢進(jìn)行基準(zhǔn)測試,其中包括對周圍物體和背景的更多信息描述,例如給黑色汽車發(fā)短信。與發(fā)短信相比,黑色汽車停在道路上和公共汽車旁邊。 。鑒于大型預(yù)訓(xùn)練模型的語義理解能力有了顯著提高,通過結(jié)合類似于現(xiàn)實(shí)世界應(yīng)用程序的復(fù)雜語言,在 RIS 中進(jìn)一步邁出至關(guān)重要的一步。為了縮小這一差距,在現(xiàn)有的 RefCOCO 和 Visual Genome 數(shù)據(jù)集的基礎(chǔ)上,我們提出了一個具有復(fù)雜查詢的新 RIS 基準(zhǔn),即 textbf RIS CQ 。 RIS CQ數(shù)據(jù)集質(zhì)量高、規(guī)模大,以豐富、具體、信息豐富的查詢挑戰(zhàn)現(xiàn)有的RIS,使RIS研究更加真實(shí)。
PARF: Primitive-Aware Radiance Fusion for Indoor Scene Novel View Synthesis
Authors Haiyang Ying, Baowei Jiang, Jinzhi Zhang, Di Xu, Tao Yu, Qionghai Dai, Lu Fang
本文提出了一種快速場景輻射場重建方法,具有強(qiáng)大的新穎視圖合成性能和方便的場景編輯功能。其關(guān)鍵思想是充分利用語義解析和圖元提取來約束和加速輻射場重建過程。為了實(shí)現(xiàn)這一目標(biāo),提出了一種基元感知混合渲染策略,以享受體積渲染和基元渲染的最佳效果。我們進(jìn)一步貢獻(xiàn)了一個重建管道,對每個輸入幀迭代地進(jìn)行基元解析和輻射場學(xué)習(xí),成功地將語義、基元和輻射信息融合到單個框架中。
TBD Pedestrian Data Collection: Towards Rich, Portable, and Large-Scale Natural Pedestrian Data
Authors Allan Wang, Daisuke Sato, Yasser Corzo, Sonya Simkin, Aaron Steinfeld
社交導(dǎo)航和行人行為研究已轉(zhuǎn)向基于機(jī)器學(xué)習(xí)的方法,并集中在行人交互和行人機(jī)器人交互建模的主題上。為此,需要包含豐富信息的大規(guī)模數(shù)據(jù)集。我們描述了一個便攜式數(shù)據(jù)收集系統(tǒng),加上半自主標(biāo)簽管道。作為管道的一部分,我們設(shè)計(jì)了一個標(biāo)簽校正網(wǎng)絡(luò)應(yīng)用程序,有助于人工驗(yàn)證自動行人跟蹤結(jié)果。我們的系統(tǒng)能夠在不同的環(huán)境中進(jìn)行大規(guī)模數(shù)據(jù)收集并快速生產(chǎn)軌跡標(biāo)簽。與現(xiàn)有的行人數(shù)據(jù)收集方法相比,我們的系統(tǒng)包含三個組件,即自上而下和以自我為中心的視圖、在社交適當(dāng)?shù)臋C(jī)器人存在下的自然人類行為以及基于度量空間的人類驗(yàn)證標(biāo)簽的組合。據(jù)我們所知,現(xiàn)有的數(shù)據(jù)收集系統(tǒng)還沒有同時具備這三個組件的組合。
TextField3D: Towards Enhancing Open-Vocabulary 3D Generation with Noisy Text Fields
Authors Tianyu Huang, Yihan Zeng, Bowen Dong, Hang Xu, Songcen Xu, Rynson W.H. Lau, Wangmeng Zuo
最近的作品在文本 3D 指導(dǎo)下明確學(xué)習(xí) 3D 表示。然而,有限的文本3D數(shù)據(jù)限制了詞匯規(guī)模和世代文本控制。生成器很容易陷入對某些文本提示的刻板概念,從而失去開放詞匯生成能力。為了解決這個問題,我們引入了一種條件 3D 生成模型,即 TextField3D。具體來說,我們建議不要直接使用文本提示作為輸入,而是將動態(tài)噪聲注入給定文本提示的潛在空間,即噪聲文本字段 NTF。通過這種方式,有限的 3D 數(shù)據(jù)可以映射到 NTF 擴(kuò)展的文本潛在空間的適當(dāng)范圍。為此,提出了 NTFGen 模塊來對噪聲領(lǐng)域中的通用文本潛在代碼進(jìn)行建模。同時,提出了 NTFBind 模塊,將視圖不變圖像潛在代碼與噪聲場對齊,進(jìn)一步支持圖像條件 3D 生成。為了指導(dǎo)幾何和紋理中的條件生成,使用文本 3D 判別器和文本 2.5D 判別器構(gòu)建了多模態(tài)判別器。與之前的方法相比,TextField3D具有三個優(yōu)點(diǎn):1詞匯量大、2文本一致性、3低延遲。
Domain-Adaptive Learning: Unsupervised Adaptation for Histology Images with Improved Loss Function Combination
Authors Ravi Kant Gupta, Shounak Das, Amit Sethi
本文提出了一種針對 HE 染色組織學(xué)圖像的無監(jiān)督域適應(yīng) UDA 的新方法?,F(xiàn)有的對抗域適應(yīng)方法可能無法有效地對齊與分類問題相關(guān)的多模態(tài)分布的不同域。目標(biāo)是通過利用這些域的獨(dú)特特征來增強(qiáng)域?qū)R并減少這些域之間的域轉(zhuǎn)移。我們的方法提出了一種新穎的損失函數(shù)以及精心挑選的現(xiàn)有損失函數(shù),旨在解決組織學(xué)圖像特有的挑戰(zhàn)。這種損失組合不僅使模型準(zhǔn)確、魯棒,而且在訓(xùn)練收斂方面也更快。我們特別關(guān)注利用組織學(xué)特定特征,例如組織結(jié)構(gòu)和細(xì)胞形態(tài),以增強(qiáng)組織學(xué)領(lǐng)域的適應(yīng)性能。所提出的方法在準(zhǔn)確性、魯棒性和泛化方面進(jìn)行了廣泛的評估,超越了組織學(xué)圖像的最先進(jìn)技術(shù)。
Advances in Kidney Biopsy Structural Assessment through Dense Instance Segmentation
Authors Zhan Xiong, Junling He, Pieter Valkema, Tri Q. Nguyen, Maarten Naesens, Jesper Kers, Fons J. Verbeek
腎活檢是診斷腎臟疾病的金標(biāo)準(zhǔn)。腎臟病理學(xué)家專家做出的病變評分是半定量的,并且觀察者之間的變異性很高。因此,自動獲取每個分割的解剖對象的統(tǒng)計(jì)數(shù)據(jù)可以在減少勞動力和觀察者之間的變異性方面帶來顯著的好處。然而,活檢的實(shí)例分割一直是一個具有挑戰(zhàn)性的問題,因?yàn)閍平均有大約300到1000個密集接觸的解剖結(jié)構(gòu),b具有至少3個的多個類,c具有不同的尺寸和形狀。當(dāng)前使用的實(shí)例分割模型無法以有效且通用的方式同時應(yīng)對這些挑戰(zhàn)。在本文中,我們提出了第一個無錨實(shí)例分割模型,該模型結(jié)合了擴(kuò)散模型、變壓器模塊和 RCNN 區(qū)域卷積神經(jīng)網(wǎng)絡(luò)。我們的模型僅在一臺 NVIDIA GeForce RTX 3090 GPU 上進(jìn)行訓(xùn)練,但可以有效識別腎活檢中 3 種常見解剖對象類別(即腎小球、腎小管和動脈)的 500 多個對象。我們的數(shù)據(jù)集由從 148 張瓊斯銀染腎全切片圖像 WSI 中提取的 303 個斑塊組成,其中 249 個斑塊用于訓(xùn)練,54 個斑塊用于評估。此外,無需調(diào)整或重新訓(xùn)練,該模型可以直接轉(zhuǎn)移其域,從 PAS 染色的 WSI 中生成良好的實(shí)例分割結(jié)果。
Retail-786k: a Large-Scale Dataset for Visual Entity Matching
Authors Bianca Lamm 1 and 2 , Janis Keuper 1 1 IMLA, Offenburg University, 2 Markant Services International GmbH
實(shí)體匹配 EM 定義了通過將語義概念從示例組實(shí)體轉(zhuǎn)移到看不見的數(shù)據(jù)來學(xué)習(xí)對對象進(jìn)行分組的任務(wù)。盡管圖像數(shù)據(jù)在許多 EM 問題中普遍可用,但當(dāng)前大多數(shù)可用的 EM 算法僅依賴于文本元數(shù)據(jù)。在本文中,我們基于零售領(lǐng)域的生產(chǎn)級用例,介紹了第一個用于視覺實(shí)體匹配的公開可用的大規(guī)模數(shù)據(jù)集。使用多年來從不同歐洲零售商收集的掃描廣告?zhèn)鲉?,我們提供了總?786k 個手動注釋的高分辨率產(chǎn)品圖像,其中包含 18k 個不同的單獨(dú)零售產(chǎn)品,這些產(chǎn)品被分組為 3k 個實(shí)體。這些產(chǎn)品實(shí)體的注釋基于價(jià)格比較任務(wù),其中每個實(shí)體形成可比產(chǎn)品的等價(jià)類。在第一次基線評估之后,我們表明所提出的視覺實(shí)體匹配構(gòu)成了一個新的學(xué)習(xí)問題,使用基于標(biāo)準(zhǔn)圖像的分類和檢索算法無法充分解決該問題。相反,需要允許將基于示例的視覺等效類轉(zhuǎn)移到新數(shù)據(jù)的新方法來解決所提出的問題。
APNet: Urban-level Scene Segmentation of Aerial Images and Point Clouds
Authors Weijie Wei, Martin R. Oswald, Fatemeh Karimi Nejadasl, Theo Gevers
在本文中,我們重點(diǎn)研究城市場景點(diǎn)云的語義分割方法。我們的基本概念圍繞著協(xié)作利用不同的場景表示,以從不同的上下文信息和網(wǎng)絡(luò)架構(gòu)中受益。為此,所提出的網(wǎng)絡(luò)架構(gòu)(稱為 APNet)分為兩個分支:點(diǎn)云分支和航空圖像分支,其輸入是從點(diǎn)云生成的。為了利用每個分支的不同屬性,我們采用了幾何感知融合模塊,該模塊被學(xué)習(xí)以組合每個分支的結(jié)果。每個分支的額外單獨(dú)損失避免了一個分支主導(dǎo)結(jié)果,確保每個分支單獨(dú)獲得最佳性能,并明確定義融合網(wǎng)絡(luò)的輸入域,確保其僅執(zhí)行數(shù)據(jù)融合。我們的實(shí)驗(yàn)表明,融合輸出始終優(yōu)于各個網(wǎng)絡(luò)分支,并且 APNet 在 SensatUrban 數(shù)據(jù)集上實(shí)現(xiàn)了 65.2 mIoU 的最先進(jìn)性能。
Prototype Generation: Robust Feature Visualisation for Data Independent Interpretability
Authors Arush Tagade, Jessica Rumbelow
我們引入了原型生成,這是一種更嚴(yán)格、更穩(wěn)健的特征可視化形式,用于圖像分類模型的模型無關(guān)、數(shù)據(jù)獨(dú)立的可解釋性。我們展示了它生成導(dǎo)致自然激活路徑的輸入的能力,反駁了之前的說法,即特征可視化算法由于不自然的內(nèi)部激活而不值得信賴。我們通過定量測量我們生成的原型和自然圖像的內(nèi)部激活之間的相似性來證實(shí)這些說法。
Revisiting Cephalometric Landmark Detection from the view of Human Pose Estimation with Lightweight Super-Resolution Head
Authors Qian Wu, Si Yong Yeo, Yufei Chen, Jun Liu
頭影測量標(biāo)志的精確定位在正畸和正頜學(xué)領(lǐng)域具有非常重要的意義,因?yàn)樗哂凶詣踊P(guān)鍵點(diǎn)標(biāo)記的潛力。在地標(biāo)檢測的背景下,特別是在頭影測量中,據(jù)觀察,現(xiàn)有方法通常缺乏標(biāo)準(zhǔn)化的流程和精心設(shè)計(jì)的偏差減少流程,這會嚴(yán)重影響其性能。在本文中,我們重新審視了一項(xiàng)相關(guān)任務(wù),即人體姿勢估計(jì) HPE,它與頭影測量地標(biāo)檢測 CLD 有許多相似之處,并強(qiáng)調(diào)從前一個領(lǐng)域轉(zhuǎn)移技術(shù)以使后者受益的潛力。受這一洞察的激勵,我們基于成熟的 HPE 代碼庫(稱為 MMPose)開發(fā)了一個強(qiáng)大且適應(yīng)性強(qiáng)的基準(zhǔn)測試。該基準(zhǔn)可以作為實(shí)現(xiàn)卓越 CLD 性能的可靠基準(zhǔn)。此外,我們在框架內(nèi)引入了升級設(shè)計(jì),以進(jìn)一步提高性能。此增強(qiáng)功能涉及輕量級且高效的超分辨率模塊的結(jié)合,該模塊可生成高分辨率特征的熱圖預(yù)測,并受益于其減少量化偏差的能力,進(jìn)一步改進(jìn)性能。在 MICCAI CLDetection2023 挑戰(zhàn)中,我們的方法在三個指標(biāo)上獲得第一名,在其余一個指標(biāo)上獲得第三名。
HAvatar: High-fidelity Head Avatar via Facial Model Conditioned Neural Radiance Field
Authors Xiaochen Zhao, Lizhen Wang, Jingxiang Sun, Hongwen Zhang, Jinli Suo, Yebin Liu
在輕量級設(shè)置下建??蓜赢?3D 人體頭部頭像的問題非常重要,但尚未得到很好的解決?,F(xiàn)有的 3D 表示要么在人像圖像合成的真實(shí)感方面表現(xiàn)良好,要么在表情控制的準(zhǔn)確性方面表現(xiàn)良好,但無法兩者兼而有之。為了解決這個問題,我們引入了一種新穎的混合顯式隱式 3D 表示,面部模型條件神經(jīng)輻射場,它集成了 NeRF 的表達(dá)能力和參數(shù)模板的先驗(yàn)信息。在我們表示的核心,提出了一種基于合成渲染的條件方法,將參數(shù)模型的先驗(yàn)信息融合到隱式場中,而不限制其拓?fù)潇`活性。此外,基于混合表示,我們妥善克服了現(xiàn)有方法中出現(xiàn)的形狀不一致問題,提高了動畫的穩(wěn)定性。此外,通過采用基于 GAN 的整體架構(gòu),使用圖像到圖像轉(zhuǎn)換網(wǎng)絡(luò),我們實(shí)現(xiàn)了動態(tài)頭部外觀的高分辨率、逼真且視圖一致的合成。
Reconstruction of Patient-Specific Confounders in AI-based Radiologic Image Interpretation using Generative Pretraining
Authors Tianyu Han, Laura igutyt , Luisa Huck, Marc Huppertz, Robert Siepmann, Yossi Gandelsman, Christian Bl thgen, Firas Khader, Christiane Kuhl, Sven Nebelung, Jakob Kather, Daniel Truhn
檢測自動診斷輔助系統(tǒng)(例如人工智能驅(qū)動的系統(tǒng))中的誤導(dǎo)性模式對于確保其可靠性至關(guān)重要,特別是在醫(yī)療保健領(lǐng)域。當(dāng)前評估深度學(xué)習(xí)模型的技術(shù)無法在診斷層面可視化混雜因素。在這里,我們提出了一種稱為 DiffChest 的自調(diào)節(jié)擴(kuò)散模型,并在來自美國和歐洲多個醫(yī)療中心的 194,956 名患者的 515,704 張胸片的數(shù)據(jù)集上對其進(jìn)行訓(xùn)練。 DiffChest 解釋了患者特定級別的分類,并可視化可能誤導(dǎo)模型的混雜因素。在評估 DiffChest 識別治療相關(guān)混雜因素的能力時,我們發(fā)現(xiàn)讀者間高度一致,大多數(shù)成像結(jié)果中的 Fleiss Kappa 值為 0.8 或更高。以 11.1 至 100 的患病率準(zhǔn)確捕獲了混雜因素。此外,我們的預(yù)訓(xùn)練過程優(yōu)化了模型,以從輸入射線照片中捕獲最相關(guān)的信息。 DiffChest 在診斷胸腔積液和心功能不全等 11 種胸部疾病時取得了出色的診斷準(zhǔn)確性,并且對其余疾病至少具有足夠的診斷準(zhǔn)確性。
Continual Action Assessment via Task-Consistent Score-Discriminative Feature Distribution Modeling
Authors Yuan Ming Li, Ling An Zeng, Jing Ke Meng, Wei Shi Zheng
行動質(zhì)量評估 AQA 是一項(xiàng)試圖回答行動執(zhí)行情況的任務(wù)。雖然已經(jīng)取得了顯著的進(jìn)展,但 AQA 的現(xiàn)有工作假設(shè)所有訓(xùn)練數(shù)據(jù)一次性可見,但無法持續(xù)學(xué)習(xí)評估新技術(shù)行動。在這項(xiàng)工作中,我們解決了 AQA 中的持續(xù)學(xué)習(xí)問題,它敦促統(tǒng)一的模型順序?qū)W習(xí) AQA 任務(wù)而不會忘記。我們對連續(xù) AQA 建模的想法是順序?qū)W習(xí)任務(wù)一致的分?jǐn)?shù)判別性特征分布,其中潛在特征表示與分?jǐn)?shù)標(biāo)簽的強(qiáng)相關(guān)性,無論任務(wù)或動作類型如何。從這個角度來看,我們的目標(biāo)是從兩個方面減輕Continual AQA中的遺忘。首先,為了將新數(shù)據(jù)和先前數(shù)據(jù)的特征融合成分?jǐn)?shù)判別分布,提出了一種新穎的特征分?jǐn)?shù)相關(guān)性感知演練,以存儲和重用來自先前任務(wù)且內(nèi)存大小有限的數(shù)據(jù)。其次,開發(fā)了動作通用特定圖來學(xué)習(xí)和解耦動作通用知識和動作特定知識,以便可以更好地在各種任務(wù)中提取任務(wù)一致分?jǐn)?shù)判別特征。進(jìn)行了大量的實(shí)驗(yàn)來評估所提出的組件的貢獻(xiàn)。
Prototype-guided Cross-modal Completion and Alignment for Incomplete Text-based Person Re-identification
Authors Tiantian Gong, Guodong Du, Junsheng Wang, Yongkang Ding, Liyan Zhang
傳統(tǒng)的基于文本的行人重新識別 ReID 技術(shù)嚴(yán)重依賴于完全匹配的多模態(tài)數(shù)據(jù),這是一個理想的場景。然而,由于跨模態(tài)數(shù)據(jù)的收集和處理過程中不可避免的數(shù)據(jù)丟失和損壞,在實(shí)際應(yīng)用中通常會遇到數(shù)據(jù)不完整的問題。因此,我們考慮一個更實(shí)際的任務(wù),稱為基于不完整文本的 ReID 任務(wù),其中人物圖像和文本描述不完全匹配,并且包含部分缺失的模態(tài)數(shù)據(jù)。為此,我們提出了一種新穎的原型引導(dǎo)跨模式完成和對齊 PCCA 框架來處理上述基于不完整文本的 ReID 問題。具體來說,我們無法根據(jù)缺失模態(tài)數(shù)據(jù)的文本查詢直接檢索人物圖像。因此,我們通過計(jì)算現(xiàn)有圖像和文本之間的跨模態(tài)相似性,提出了缺失數(shù)據(jù)的跨模態(tài)最近鄰構(gòu)建策略,為缺失模態(tài)特征的完成提供了關(guān)鍵指導(dǎo)。此外,為了有效地完成缺失模態(tài)特征,我們利用上述缺失模態(tài)數(shù)據(jù)的跨模態(tài)最近鄰集和相應(yīng)的原型構(gòu)建關(guān)系圖,這可以進(jìn)一步增強(qiáng)生成的缺失模態(tài)特征。此外,為了圖像和文本之間更緊密的細(xì)粒度對齊,我們提出了一種原型感知的跨模態(tài)對齊損失,它可以有效地減少模態(tài)異質(zhì)性差距,從而在公共空間中實(shí)現(xiàn)更好的細(xì)粒度對齊。
Guiding Instruction-based Image Editing via Multimodal Large Language Models
Authors Tsu Jui Fu, Wenze Hu, Xianzhi Du, William Yang Wang, Yinfei Yang, Zhe Gan
基于指令的圖像編輯通過自然命令提高了圖像操作的可控性和靈活性,無需詳細(xì)描述或區(qū)域掩模。然而,人類指令有時太簡短,當(dāng)前的方法無法捕獲和遵循。多模態(tài)大語言模型 MLLM 在跨模態(tài)理解和通過 LM 生成視覺感知響應(yīng)方面表現(xiàn)出了良好的能力。我們研究 MLLM 如何促進(jìn)編輯指令并提出 MLLM 引導(dǎo)圖像編輯 MGIE。 MGIE 學(xué)習(xí)導(dǎo)出表達(dá)性指令并提供明確的指導(dǎo)。編輯模型共同捕捉這種視覺想象力,并通過端到端訓(xùn)練進(jìn)行操作。我們評估 Photoshop 風(fēng)格修改、全局照片優(yōu)化和本地編輯的各個方面。
SegRCDB: Semantic Segmentation via Formula-Driven Supervised Learning
Authors Risa Shinoda, Ryo Hayamizu, Kodai Nakashima, Nakamasa Inoue, Rio Yokota, Hirokatsu Kataoka
預(yù)訓(xùn)練是增強(qiáng)視覺模型的強(qiáng)大策略,可以使用有限數(shù)量的標(biāo)記圖像有效地訓(xùn)練它們。在語義分割中,創(chuàng)建注釋掩碼需要大量的人力和時間,因此,構(gòu)建具有語義標(biāo)簽的大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)集相當(dāng)困難。此外,語義分割預(yù)訓(xùn)練中重要的因素尚未得到充分研究。在本文中,我們提出了分割徑向輪廓數(shù)據(jù)庫 SegRCDB,它首次將公式驅(qū)動的監(jiān)督學(xué)習(xí)應(yīng)用于語義分割。 SegRCDB 支持語義分割的預(yù)訓(xùn)練,無需真實(shí)圖像或任何手動語義標(biāo)簽。 SegRCDB 基于對語義分割預(yù)訓(xùn)練中重要內(nèi)容的洞察,并允許高效的預(yù)訓(xùn)練。在 ADE 20k 和 Cityscapes 上使用相同數(shù)量的訓(xùn)練圖像進(jìn)行微調(diào)時,使用 SegRCDB 進(jìn)行預(yù)訓(xùn)練比使用 COCO Stuff 進(jìn)行預(yù)訓(xùn)練獲得了更高的 mIoU。 SegRCDB 通過無需手動注釋即可創(chuàng)建大型數(shù)據(jù)集,在語義分割預(yù)訓(xùn)練和研究方面具有巨大的潛力。 SegRCDB 數(shù)據(jù)集將在允許研究和商業(yè)用途的許可下發(fā)布。
GAIA-1: A Generative World Model for Autonomous Driving
Authors Anthony Hu, Lloyd Russell, Hudson Yeo, Zak Murez, George Fedoseev, Alex Kendall, Jamie Shotton, Gianluca Corrado
自動駕駛有望對交通帶來革命性的改進(jìn),但構(gòu)建能夠安全地應(yīng)對現(xiàn)實(shí)世界場景的非結(jié)構(gòu)化復(fù)雜性的系統(tǒng)仍然具有挑戰(zhàn)性。
DeeDiff: Dynamic Uncertainty-Aware Early Exiting for Accelerating Diffusion Model Generation
Authors Shengkun Tang, Yaqing Wang, Caiwen Ding, Yi Liang, Yao Li, Dongkuan Xu
擴(kuò)散模型在生成多樣化和高保真度圖像方面取得了巨大成功。性能的提高伴隨著每張圖像的生成速度較低,這阻礙了實(shí)時場景中的應(yīng)用擴(kuò)散模型。雖然某些特定預(yù)測受益于每次樣本迭代中模型的完整計(jì)算,但并非每次迭代都需要相同的計(jì)算量,這可能會導(dǎo)致計(jì)算浪費(fèi)。在這項(xiàng)工作中,我們提出了 DeeDiff,這是一種早期存在的框架,可以在每個采樣步驟中自適應(yīng)地分配計(jì)算資源,以提高擴(kuò)散模型的生成效率。具體來說,我們引入了用于擴(kuò)散模型的時間步感知不確定性估計(jì)模塊 UEM,該模塊附加到每個中間層以估計(jì)每層的預(yù)測不確定性。不確定性被視為決定推理是否終止的信號。此外,我們提出了不確定性感知分層損失來填補(bǔ)完整模型和早期退出模型之間的性能差距。通過這種損失策略,我們的模型能夠獲得與全層模型相當(dāng)?shù)慕Y(jié)果。在多個數(shù)據(jù)集上進(jìn)行的類條件、無條件和文本引導(dǎo)生成的廣泛實(shí)驗(yàn)表明,與擴(kuò)散模型上現(xiàn)有的早期方法相比,我們的方法實(shí)現(xiàn)了最先進(jìn)的性能和效率權(quán)衡。更重要的是,我們的方法甚至為基線模型帶來了額外的好處,并在 CIFAR 10 和 Celeb A 數(shù)據(jù)集上獲得了更好的性能。
GSDC Transformer: An Efficient and Effective Cue Fusion for Monocular Multi-Frame Depth Estimation
Authors Naiyu Fang, Lemiao Qiu, Shuyou Zhang, Zili Wang, Zheyuan Zhou, Kerui Hu
深度估計(jì)為自動駕駛中感知 3D 信息提供了另一種方法。單目深度估計(jì),無論是單幀還是多幀輸入,通過學(xué)習(xí)各種類型的線索并專門研究靜態(tài)或動態(tài)場景,都取得了巨大的成功。最近,這些線索融合成為一個有吸引力的話題,旨在使組合的線索在兩種類型的場景中都能表現(xiàn)良好。然而,自適應(yīng)線索融合依賴于注意力機(jī)制,其中二次復(fù)雜度限制了線索表示的粒度。此外,顯式線索融合依賴于精確的分割,這給掩模預(yù)測帶來了沉重的負(fù)擔(dān)。為了解決這些問題,我們提出了 GSDC Transformer,這是一種用于單目多幀深度估計(jì)中線索融合的高效且有效的組件。我們利用可變形注意力來學(xué)習(xí)精細(xì)尺度的線索關(guān)系,而稀疏注意力在粒度增加時減少了計(jì)算需求。為了補(bǔ)償動態(tài)場景中精度的下降,我們以超級標(biāo)記的形式表示場景屬性,而不依賴于精確的形狀。在歸因于動態(tài)場景的每個超級標(biāo)記中,我們收集其相關(guān)線索并學(xué)習(xí)局部密集關(guān)系以增強(qiáng)線索融合。
Imagery Dataset for Condition Monitoring of Synthetic Fibre Ropes
Authors Anju Rani, Daniel O. Arroyo, Petar Durdevic
在海上、風(fēng)力渦輪機(jī)行業(yè)等領(lǐng)域,合成纖維繩索 SFR 的自動目視檢查是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。SFR 中存在的任何缺陷都會損害其結(jié)構(gòu)完整性并帶來重大安全風(fēng)險(xiǎn)。由于這些繩索尺寸大、重量大,經(jīng)常拆卸和檢查它們通常是不切實(shí)際的。因此,迫切需要開發(fā)有效的缺陷檢測方法來評估其剩余使用壽命RUL。為了應(yīng)對這一挑戰(zhàn),我們生成了一個全面的數(shù)據(jù)集,其中總共包含 6,942 張?jiān)紙D像,代表正常和有缺陷的 SFR。該數(shù)據(jù)集涵蓋了在其整個使用壽命期間可能發(fā)生的各種缺陷場景,包括但不限于焊接缺陷、切斷線、擦傷、壓縮、芯子脫落和正常。該數(shù)據(jù)集作為支持計(jì)算機(jī)視覺應(yīng)用的資源,包括目標(biāo)檢測、分類和分割,旨在檢測和分析 SFR 中的缺陷。該數(shù)據(jù)集的可用性將有助于魯棒缺陷檢測算法的開發(fā)和評估。
A 5-Point Minimal Solver for Event Camera Relative Motion Estimation
Authors Ling Gao, Hang Su, Daniel Gehrig, Marco Cannici, Davide Scaramuzza, Laurent Kneip
基于事件的相機(jī)非常適合基于線的運(yùn)動估計(jì),因?yàn)樗鼈冎饕憫?yīng)場景中的邊緣。然而,根據(jù)事件準(zhǔn)確確定相機(jī)位移仍然是一個懸而未決的問題。這是因?yàn)樵谑褂檬录鄼C(jī)時,線特征提取和動力學(xué)估計(jì)是緊密耦合的,并且當(dāng)前沒有精確的模型可用于描述事件時空體積中線生成的復(fù)雜結(jié)構(gòu)。我們通過導(dǎo)出此類流形(我們稱之為事件尾)的正確非線性參數(shù)化來解決這個問題,并演示其在基于事件的線性運(yùn)動估計(jì)中的應(yīng)用,以及來自慣性測量單元的已知旋轉(zhuǎn)。使用這種參數(shù)化,我們引入了一種新穎的最小 5 點(diǎn)求解器,可以聯(lián)合估計(jì)線參數(shù)和線性相機(jī)速度投影,在考慮多條線時可以將其融合為單個平均線速度。我們在合成數(shù)據(jù)和真實(shí)數(shù)據(jù)上證明,我們的求解器比其他方法生成更穩(wěn)定的相對運(yùn)動估計(jì),同時比基于時空平面的聚類捕獲更多的內(nèi)點(diǎn)。特別是,我們的方法在估計(jì)線速度方面始終達(dá)到 100 的成功率,而現(xiàn)有的封閉式求解器只能達(dá)到 23 到 70 之間。
On Uniform Scalar Quantization for Learned Image Compression
Authors Haotian Zhang, Li Li, Dong Liu
將不可微量化納入基于梯度的網(wǎng)絡(luò)訓(xùn)練時,學(xué)習(xí)圖像壓縮面臨著獨(dú)特的挑戰(zhàn)。已經(jīng)提出了幾種量化替代方法來完成訓(xùn)練,但從理論角度來看,它們并沒有系統(tǒng)地得到證明。我們通過對比均勻標(biāo)量量化(最廣泛使用的類別,舍入是最簡單的情況)及其訓(xùn)練代理來填補(bǔ)這一空白。原則上,我們發(fā)現(xiàn)兩個關(guān)鍵因素,一個是替代項(xiàng)和舍入之間的差異,導(dǎo)致訓(xùn)練測試不匹配,另一個是替代項(xiàng)造成的梯度估計(jì)風(fēng)險(xiǎn),包括梯度估計(jì)的偏差和方差。我們的分析和模擬表明,訓(xùn)練測試不匹配和梯度估計(jì)風(fēng)險(xiǎn)之間存在權(quán)衡,并且權(quán)衡因不同的網(wǎng)絡(luò)結(jié)構(gòu)而異。受這些分析的啟發(fā),我們提出了一種基于隨機(jī)均勻退火的方法,該方法具有可調(diào)節(jié)的溫度系數(shù)來控制權(quán)衡。此外,我們的分析啟發(fā)了我們兩個微妙的技巧,一個是為估計(jì)的量化潛在分布的方差參數(shù)設(shè)置適當(dāng)?shù)南陆?,這有效地減少了訓(xùn)練測試失配,另一個是使用帶有部分停止梯度的零中心量化,這減少了梯度估計(jì)方差,從而穩(wěn)定了訓(xùn)練。
Unveiling Document Structures with YOLOv5 Layout Detection
Authors Herman Sugiharto, Yorissa Silviana, Yani Siti Nurpazrin
當(dāng)前數(shù)字環(huán)境的特點(diǎn)是數(shù)據(jù),特別是非結(jié)構(gòu)化數(shù)據(jù)的廣泛存在,這給金融、醫(yī)療和教育等領(lǐng)域帶來了許多問題。傳統(tǒng)的數(shù)據(jù)提取技術(shù)在處理非結(jié)構(gòu)化數(shù)據(jù)固有的多樣性和復(fù)雜性時遇到困難,因此需要采用更有效的方法。
Scalable Multi-Temporal Remote Sensing Change Data Generation via Simulating Stochastic Change Process
Authors Zhuo Zheng, Shiqi Tian, Ailong Ma, Liangpei Zhang, Yanfei Zhong
了解地球表面的時間動態(tài)是多時態(tài)遙感圖像分析的一項(xiàng)任務(wù),深度視覺模型及其燃料標(biāo)記的多時態(tài)圖像顯著促進(jìn)了這一任務(wù)。然而,大規(guī)模收集、預(yù)處理和注釋多時相遙感圖像并非易事,因?yàn)樗劝嘿F又知識密集。在本文中,我們通過生成建模提出了一種可擴(kuò)展的多時相遙感變化數(shù)據(jù)生成器,該生成器廉價(jià)且自動化,從而緩解了這些問題。我們的主要想法是模擬隨時間的隨機(jī)變化過程。我們將隨機(jī)變化過程視為概率語義狀態(tài)轉(zhuǎn)換,即生成概率變化模型GPCM,它將復(fù)雜的模擬問題解耦為兩個更可跟蹤的子問題,即變化事件模擬和語義變化綜合。為了解決這兩個問題,我們提出了變更生成器 Changen,這是一種基于 GAN 的 GPCM,能夠生成可控的對象變更數(shù)據(jù),包括可定制的對象屬性和變更事件。
HoloAssist: an Egocentric Human Interaction Dataset for Interactive AI Assistants in the Real World
Authors Xin Wang, Taein Kwon, Mahdi Rad, Bowen Pan, Ishani Chakraborty, Sean Andrist, Dan Bohus, Ashley Feniello, Bugra Tekin, Felipe Vieira Frujeri, Neel Joshi, Marc Pollefeys
構(gòu)建一個能夠在現(xiàn)實(shí)世界中感知、推理并與人類協(xié)作的交互式人工智能助手一直是人工智能社區(qū)的長期追求。這項(xiàng)工作是更廣泛的研究工作的一部分,旨在開發(fā)可以交互式指導(dǎo)人類在物理世界中執(zhí)行任務(wù)的智能代理。作為朝這個方向邁出的第一步,我們引入了 HoloAssist,這是一個大規(guī)模的以自我為中心的人類交互數(shù)據(jù)集,兩個人可以協(xié)作完成物理操作任務(wù)。任務(wù)執(zhí)行者在佩戴混合現(xiàn)實(shí)耳機(jī)時執(zhí)行任務(wù),該耳機(jī)捕獲七個同步數(shù)據(jù)流。任務(wù)指導(dǎo)員實(shí)時觀看表演者以自我為中心的視頻并進(jìn)行口頭指導(dǎo)。通過使用動作和對話注釋來增強(qiáng)數(shù)據(jù),并觀察不同參與者的豐富行為,我們提出了關(guān)于人類助手如何糾正錯誤、干預(yù)任務(wù)完成過程以及將其指令落實(shí)到環(huán)境的關(guān)鍵見解。 HoloAssist 涵蓋 350 個獨(dú)特的教練表演者對捕獲的 166 小時的數(shù)據(jù)。此外,我們構(gòu)建并提出了錯誤檢測、干預(yù)類型預(yù)測和手牌預(yù)測的基準(zhǔn),以及詳細(xì)的分析。我們預(yù)計(jì) HoloAssist 將為構(gòu)建能夠與現(xiàn)實(shí)世界中的人類流暢協(xié)作的人工智能助手提供重要資源。
Segment Anything Model is a Good Teacher for Local Feature Learning
Authors Jingqian Wu, Rongtao Xu, Zach Wood Doughty, Changwei Wang
局部特征檢測和描述在許多計(jì)算機(jī)視覺任務(wù)中發(fā)揮著重要作用,這些任務(wù)旨在檢測和描述任何場景和任何下游任務(wù)中的關(guān)鍵點(diǎn)。數(shù)據(jù)驅(qū)動的局部特征學(xué)習(xí)方法需要依賴像素級對應(yīng)進(jìn)行訓(xùn)練,這在大規(guī)模獲取方面具有挑戰(zhàn)性,從而阻礙了性能的進(jìn)一步提高。在本文中,我們建議 SAMFeat 引入 SAM 分段任何模型,這是一種在 1100 萬張圖像上訓(xùn)練的基本模型,作為指導(dǎo)局部特征學(xué)習(xí)的老師,從而激發(fā)在有限數(shù)據(jù)集上的更高性能。為此,首先,我們構(gòu)建了像素語義關(guān)系蒸餾 PSRD 的輔助任務(wù),它將 SAM 編碼器學(xué)習(xí)到的與類別無關(guān)的語義信息的特征關(guān)系蒸餾到局部特征學(xué)習(xí)網(wǎng)絡(luò)中,以利用語義辨別來改進(jìn)局部特征描述。其次,我們開發(fā)了一種稱為基于語義分組 WSC 的弱監(jiān)督對比學(xué)習(xí)的技術(shù),該技術(shù)利用源自 SAM 的語義分組作為弱監(jiān)督信號,來優(yōu)化局部描述符的度量空間。第三,我們設(shè)計(jì)了邊緣注意力引導(dǎo)EAG,通過促使網(wǎng)絡(luò)更多地關(guān)注SAM引導(dǎo)的邊緣區(qū)域,進(jìn)一步提高局部特征檢測和描述的準(zhǔn)確性。 SAMFeat 在 HPatches 上的圖像匹配、亞琛日夜的長期視覺定位等各種任務(wù)上的表現(xiàn)展示了其相對于之前的本地特征的優(yōu)越性。
SpikeMOT: Event-based Multi-Object Tracking with Sparse Motion Features
Authors Song Wang, Zhu Wang, Can Li, Xiaojuan Qi, Hayden Kwok Hay So
與傳統(tǒng)的 RGB 相機(jī)相比,事件相機(jī)卓越的時間分辨率使它們能夠捕獲幀之間的豐富信息,使其成為對象跟蹤的主要候選者。然而在實(shí)踐中,盡管具有理論上的優(yōu)勢,基于事件的多目標(biāo)跟蹤 MOT 的工作仍處于起步階段,特別是在現(xiàn)實(shí)世界中,來自復(fù)雜背景和相機(jī)運(yùn)動的事件很容易掩蓋真實(shí)的目標(biāo)運(yùn)動。在這項(xiàng)工作中,提出了一種基于事件的多對象跟蹤器(稱為 SpikeMOT)來解決這些挑戰(zhàn)。 SpikeMOT 利用尖峰神經(jīng)網(wǎng)絡(luò)從與對象相關(guān)的事件流中提取稀疏時空特征。生成的尖峰序列表示用于跟蹤高頻對象運(yùn)動,同時對象檢測器以等效幀速率提供這些對象的更新空間信息。為了評估 SpikeMOT 的有效性,我們引入了 DSEC MOT,這是第一個基于大規(guī)模事件的 MOT 基準(zhǔn),其中包含對現(xiàn)實(shí)世界環(huán)境中經(jīng)歷嚴(yán)重遮擋、頻繁軌跡交叉和長期重新識別的對象的細(xì)粒度注釋。
Perceptual Tone Mapping Model for High Dynamic Range Imaging
Authors Imran Mehmood, Xinye Shi, M. Usman Khan, Ming Ronnier Luo
色調(diào)映射的關(guān)鍵挑戰(zhàn)之一是將高動態(tài)范圍 HDR 圖像映射到標(biāo)準(zhǔn)動態(tài)范圍 SDR 顯示器時保持高動態(tài)范圍 HDR 圖像的感知質(zhì)量。傳統(tǒng)色調(diào)映射算子 TMO 會壓縮 HDR 圖像的亮度,而不考慮周圍環(huán)境和顯示條件,從而導(dǎo)致結(jié)果不佳。當(dāng)前的研究通過結(jié)合感知顏色外觀屬性來解決這一挑戰(zhàn)。在這項(xiàng)工作中,我們提出了一個利用 CIECAM16 感知屬性(即亮度、色彩度和色調(diào))的 TMO TMOz。 TMOz 考慮了環(huán)繞聲和顯示條件的影響,以實(shí)現(xiàn)更優(yōu)化的色彩再現(xiàn)。感知亮度被壓縮,感知色階,即色彩和色調(diào)是通過采用 CIECAM16 顏色適應(yīng)方程從 HDR 圖像中導(dǎo)出的。進(jìn)行了心理物理學(xué)實(shí)驗(yàn)來自動化亮度壓縮參數(shù)。該模型采用全自動和自適應(yīng)方法,無需手動選擇參數(shù)。 TMOz 根據(jù)對比度、色彩和整體圖像質(zhì)量進(jìn)行評估。
Synthetic Data Generation and Deep Learning for the Topological Analysis of 3D Data
Authors Dylan Peek, Matt P. Skerritt, Stephan Chalup
這項(xiàng)研究使用深度學(xué)習(xí)來估計(jì)由稀疏、無序的 3D 點(diǎn)云場景表示的流形拓?fù)?。合成了一個新的標(biāo)記數(shù)據(jù)集來訓(xùn)練神經(jīng)網(wǎng)絡(luò)并評估它們估計(jì)這些流形的屬的能力。該數(shù)據(jù)使用隨機(jī)同胚變形來激發(fā)視覺拓?fù)涮卣鞯膶W(xué)習(xí)。我們證明深度學(xué)習(xí)模型可以提取這些特征,并討論相對于基于持久同源性的現(xiàn)有拓?fù)鋽?shù)據(jù)分析工具的一些優(yōu)勢。語義分割用于結(jié)合拓?fù)錁?biāo)簽提供額外的幾何信息。通用點(diǎn)云多層感知器和變壓器網(wǎng)絡(luò)都用于比較這些方法的可行性。該試點(diǎn)研究的實(shí)驗(yàn)結(jié)果支持這樣的假設(shè):借助復(fù)雜的合成數(shù)據(jù)生成,神經(jīng)網(wǎng)絡(luò)可以執(zhí)行基于分割的拓?fù)鋽?shù)據(jù)分析。
nnSAM: Plug-and-play Segment Anything Model Improves nnUNet Performance
Authors Yunxiang Li, Bowen Jing, Xiang Feng, Zihan Li, Yongbo He, Jing Wang, You Zhang
計(jì)算機(jī)視覺基礎(chǔ)模型的最新發(fā)展,特別是 Segment Anything Model SAM,允許可擴(kuò)展且與領(lǐng)域無關(guān)的圖像分割作為通用分割工具。與此同時,醫(yī)學(xué)圖像分割領(lǐng)域也從像 nnUNet 這樣的專門神經(jīng)網(wǎng)絡(luò)中受益匪淺,該網(wǎng)絡(luò)在特定領(lǐng)域的數(shù)據(jù)集上進(jìn)行訓(xùn)練,并且可以自動配置網(wǎng)絡(luò)以適應(yīng)特定的分割挑戰(zhàn)。為了結(jié)合基礎(chǔ)模型和領(lǐng)域特定模型的優(yōu)點(diǎn),我們提出了 nnSAM,它將 SAM 模型與 nnUNet 模型協(xié)同集成,以實(shí)現(xiàn)更準(zhǔn)確和魯棒的醫(yī)學(xué)圖像分割。 nnSAM模型利用SAM強(qiáng)大而穩(wěn)健的特征提取功能,同時利用nnUNet的自動配置功能來促進(jìn)數(shù)據(jù)集定制學(xué)習(xí)。我們對不同大小的訓(xùn)練樣本對 nnSAM 模型的綜合評估表明,它允許很少的鏡頭學(xué)習(xí),這與醫(yī)學(xué)圖像分割高度相關(guān),因?yàn)楦哔|(zhì)量的帶注釋數(shù)據(jù)可能稀缺且獲取成本高昂。通過融合其前身的優(yōu)勢,nnSAM 將自己定位為醫(yī)學(xué)圖像分割領(lǐng)域潛在的新基準(zhǔn),提供了一種將廣泛適用性與專業(yè)效率相結(jié)合的工具。
AdaPose: Towards Cross-Site Device-Free Human Pose Estimation with Commodity WiFi
Authors Yunjiao Zhou, Jianfei Yang, He Huang, Lihua Xie
基于WiFi的姿態(tài)估計(jì)是一項(xiàng)對于智能家居和虛擬虛擬形象生成的發(fā)展具有巨大潛力的技術(shù)。然而,當(dāng)前基于 WiFi 的姿態(tài)估計(jì)方法主要是在受控實(shí)驗(yàn)室條件下使用復(fù)雜的視覺模型進(jìn)行評估,以獲取準(zhǔn)確的標(biāo)記數(shù)據(jù)。此外,WiFi CSI 對環(huán)境變量高度敏感,將預(yù)訓(xùn)練模型直接應(yīng)用于新環(huán)境可能會因域轉(zhuǎn)移而產(chǎn)生次優(yōu)結(jié)果。在本文中,我們提出了一種域自適應(yīng)算法 AdaPose,專為基于弱監(jiān)督 WiFi 的姿態(tài)估計(jì)而設(shè)計(jì)。所提出的方法旨在識別對環(huán)境動態(tài)具有高度抵抗力的一致人體姿勢。為了實(shí)現(xiàn)這一目標(biāo),我們引入了映射一致性損失,它根據(jù)映射級別輸入和輸出之間的內(nèi)部一致性來對齊源域和目標(biāo)域的域差異。我們使用我們自己收集的包含 WiFi CSI 幀的姿態(tài)估計(jì)數(shù)據(jù)集,在兩個不同場景中對域適應(yīng)進(jìn)行了廣泛的實(shí)驗(yàn)。
COMNet: Co-Occurrent Matching for Weakly Supervised Semantic Segmentation
Authors Yukun Su, Jingliang Deng, Zonghan Li
圖像級弱監(jiān)督語義分割是近年來深入研究的一項(xiàng)具有挑戰(zhàn)性的任務(wù)。大多數(shù)常見解決方案利用類激活圖 CAM 來定位對象區(qū)域。然而,分類網(wǎng)絡(luò)生成的此類響應(yīng)圖通常關(guān)注有區(qū)別的對象部分。在本文中,我們提出了一種新穎的共現(xiàn)匹配網(wǎng)絡(luò) COMNet,它可以提高 CAM 的質(zhì)量并強(qiáng)制網(wǎng)絡(luò)關(guān)注對象的整個部分。具體來說,我們對包含公共類的配對圖像進(jìn)行幀間匹配以增強(qiáng)相應(yīng)區(qū)域,并在單個圖像上構(gòu)建幀內(nèi)匹配以在對象區(qū)域中傳播語義特征。
Model2Scene: Learning 3D Scene Representation via Contrastive Language-CAD Models Pre-training
Authors Runnan Chen, Xinge Zhu, Nenglun Chen, Dawei Wang, Wei Li, Yuexin Ma, Ruigang Yang, Tongliang Liu, Wenping Wang
當(dāng)前成功的 3D 場景感知方法依賴于大規(guī)模注釋點(diǎn)云,獲取這些點(diǎn)云既繁瑣又昂貴。在本文中,我們提出了 Model2Scene,這是一種從計(jì)算機(jī)輔助設(shè)計(jì) CAD 模型和語言中學(xué)習(xí)免費(fèi) 3D 場景表示的新穎范例。主要挑戰(zhàn)是CAD模型與真實(shí)場景對象之間的領(lǐng)域差距,包括從單一模型到場景的模型到場景以及從合成模型到真實(shí)場景對象的合成到真實(shí)。為了應(yīng)對上述挑戰(zhàn),Model2Scene 首先通過混合數(shù)據(jù)增強(qiáng) CAD 模型來模擬擁擠的場景。接下來,我們提出了一種新穎的特征正則化操作,稱為深度凸包正則化 DCR,將點(diǎn)特征投影到統(tǒng)一的凸包空間中,從而減少域間隙。最終,我們對語言嵌入和 CAD 模型的點(diǎn)特征施加對比損失來預(yù)訓(xùn)練 3D 網(wǎng)絡(luò)。大量實(shí)驗(yàn)驗(yàn)證了學(xué)習(xí)到的 3D 場景表示對于各種下游任務(wù)是有益的,包括無標(biāo)簽 3D 對象顯著性檢測、標(biāo)簽高效 3D 場景感知和零樣本 3D 語義分割。值得注意的是,Model2Scene 產(chǎn)生了令人印象深刻的無標(biāo)簽 3D 對象顯著性檢測,在 ScanNet 和 S3DIS 數(shù)據(jù)集上的平均 mAP 分別為 46.08 和 55.49。
CrossZoom: Simultaneously Motion Deblurring and Event Super-Resolving
Authors Chi Zhang, Xiang Zhang, Mingyuan Lin, Cheng Li, Chu He, Wen Yang, Gui Song Xia, Lei Yu
盡管傳統(tǒng)事件相機(jī)和神經(jīng)形態(tài)事件相機(jī)之間的協(xié)作為基于幀事件的視覺應(yīng)用帶來了繁榮,但其性能仍然受到空間和時間域中兩種模態(tài)的分辨率差距的限制。本文致力于通過分別提高圖像的時間分辨率(即運(yùn)動去模糊)和事件的空間分辨率(即事件超分辨率)來彌補(bǔ)這一差距。為此,我們引入了 CrossZoom,這是一種新穎的統(tǒng)一神經(jīng)網(wǎng)絡(luò) CZ Net,可在模糊輸入和相應(yīng)的高分辨率 HR 事件的曝光期內(nèi)聯(lián)合恢復(fù)清晰的潛在序列。具體來說,我們提出了一種多尺度模糊事件融合架構(gòu),該架構(gòu)利用尺度變量屬性并有效融合交叉模態(tài)信息以實(shí)現(xiàn)交叉增強(qiáng)。設(shè)計(jì)基于注意力的自適應(yīng)增強(qiáng)和交叉交互預(yù)測模塊來減輕低分辨率LR事件固有的失真,并通過先前的模糊事件補(bǔ)充信息來增強(qiáng)最終結(jié)果。此外,我們提出了一個包含 HR 清晰模糊圖像和相應(yīng)的 HR LR 事件流的新數(shù)據(jù)集,以促進(jìn)未來的研究。對合成數(shù)據(jù)集和現(xiàn)實(shí)世界數(shù)據(jù)集進(jìn)行的廣泛定性和定量實(shí)驗(yàn)證明了所提出方法的有效性和魯棒性。
Denoising Diffusion Bridge Models
Authors Linqi Zhou, Aaron Lou, Samar Khanna, Stefano Ermon
擴(kuò)散模型是強(qiáng)大的生成模型,它使用隨機(jī)過程將噪聲映射到數(shù)據(jù)。然而,對于許多應(yīng)用程序(例如圖像編輯),模型輸入來自的分布不是隨機(jī)噪聲。因此,擴(kuò)散模型必須依靠指導(dǎo)或預(yù)測采樣等繁瑣的方法來將這些信息納入生成過程。在我們的工作中,我們提出了去噪擴(kuò)散橋模型 DDBM,這是基于擴(kuò)散橋的范式的自然替代方案,擴(kuò)散橋是在作為端點(diǎn)給出的兩個配對分布之間進(jìn)行插值的一系列過程。我們的方法從數(shù)據(jù)中學(xué)習(xí)擴(kuò)散橋的分?jǐn)?shù),并通過基于學(xué)習(xí)的分?jǐn)?shù)求解隨機(jī)微分方程,從一個端點(diǎn)分布映射到另一個端點(diǎn)分布。我們的方法自然地統(tǒng)一了幾類生成模型,例如基于分?jǐn)?shù)的擴(kuò)散模型和 OT 流匹配,使我們能夠根據(jù)更普遍的問題調(diào)整現(xiàn)有的設(shè)計(jì)和架構(gòu)選擇。根據(jù)經(jīng)驗(yàn),我們將 DDBM 應(yīng)用于像素和潛在空間中具有挑戰(zhàn)性的圖像數(shù)據(jù)集。在標(biāo)準(zhǔn)圖像轉(zhuǎn)換問題上,DDBM 比基線方法取得了顯著的改進(jìn),并且當(dāng)我們通過將源分布設(shè)置為隨機(jī)噪聲來將問題簡化為圖像生成時,DDBM 實(shí)現(xiàn)了與最先進(jìn)的方法相當(dāng)?shù)?FID 分?jǐn)?shù),盡管它是為更先進(jìn)的方法而構(gòu)建的。
Robust Asynchronous Collaborative 3D Detection via Bird's Eye View Flow
Authors Sizhe Wei, Yuxi Wei, Yue Hu, Yifan Lu, Yiqi Zhong, Siheng Chen, Ya Zhang
通過促進(jìn)多個智能體之間的通信,協(xié)作感知可以極大地提高每個智能體的感知能力。然而,由于通信延遲、中斷和時鐘錯位,代理之間的時間異步在現(xiàn)實(shí)世界中是不可避免的。該問題導(dǎo)致多智能體融合時信息不匹配,嚴(yán)重動搖協(xié)作的基礎(chǔ)。為了解決這個問題,我們提出了 CoBEVFlow,一種基于鳥瞰 BEV 流的異步魯棒協(xié)作 3D 感知系統(tǒng)。 CoBEVFlow 的關(guān)鍵直覺是補(bǔ)償運(yùn)動以對齊多個代理發(fā)送的異步協(xié)作消息。為了對場景中的運(yùn)動進(jìn)行建模,我們提出了 BEV 流,它是與每個空間位置相對應(yīng)的運(yùn)動向量的集合?;贐EV流,可以將異步感知特征重新分配到適當(dāng)?shù)奈恢?,減輕異步的影響。 CoBEVFlow有兩個優(yōu)點(diǎn):iCoBEVFlow可以處理以不規(guī)則、連續(xù)時間戳發(fā)送的異步協(xié)作消息,無需離散化;ii對于BEV流,CoBEVFlow僅傳輸原始感知特征,而不是生成新的感知特征,避免了額外的噪聲。為了驗(yàn)證 CoBEVFlow 的功效,我們創(chuàng)建了 IRregular V2V IRV2V,這是第一個具有各種時間異步性的合成協(xié)作感知數(shù)據(jù)集,可模擬不同的現(xiàn)實(shí)世界場景。對 IRV2V 和現(xiàn)實(shí)世界數(shù)據(jù)集 DAIR V2X 進(jìn)行的大量實(shí)驗(yàn)表明,CoBEVFlow 始終優(yōu)于其他基線,并且在極其異步的設(shè)置中具有魯棒性。
PC-Adapter: Topology-Aware Adapter for Efficient Domain Adaption on Point Clouds with Rectified Pseudo-label
Authors Joonhyung Park, Hyunjin Seo, Eunho Yang
由于不同的對象尺度、傳感器角度和自遮擋導(dǎo)致數(shù)據(jù)分布發(fā)生變化,理解從現(xiàn)實(shí)世界捕獲的點(diǎn)云具有挑戰(zhàn)性。先前的工作通過結(jié)合最近的學(xué)習(xí)原理(例如自監(jiān)督學(xué)習(xí)、自訓(xùn)練和對抗性訓(xùn)練)解決了這個問題,這會導(dǎo)致大量的計(jì)算開銷。為了實(shí)現(xiàn)簡潔而強(qiáng)大的點(diǎn)云域適應(yīng),我們重新審視點(diǎn)云數(shù)據(jù)的獨(dú)特挑戰(zhàn)在域轉(zhuǎn)移場景下,發(fā)現(xiàn)源數(shù)據(jù)的全局幾何形狀的重要性以及偏向源標(biāo)簽分布的目標(biāo)偽標(biāo)簽的趨勢。受我們觀察的啟發(fā),我們提出了一種適配器引導(dǎo)的域適應(yīng)方法 PC Adapter,該方法使用基于注意力的適配器保留源域的全局形狀信息,同時通過另一個配備圖卷積的適配器學(xué)習(xí)目標(biāo)域的局部特征。此外,我們提出了一種新穎的偽標(biāo)記策略,通過使用類別置信度分布調(diào)整置信度分?jǐn)?shù)來考慮相對置信度,從而適應(yīng)分類器偏差。
Incremental Rotation Averaging Revisited and More: A New Rotation Averaging Benchmark
Authors Xiang Gao, Hainan Cui, Shuhan Shen
為了進(jìn)一步提高基于增量參數(shù)估計(jì)的旋轉(zhuǎn)平均方法的準(zhǔn)確性和魯棒性,本文引入了增量旋轉(zhuǎn)平均IRA家族的新成員,稱為IRAv4。作為 IRAv4 最重要的特征,提取了特定于任務(wù)的連接支配集,作為旋轉(zhuǎn)全局對齊的更可靠和準(zhǔn)確的參考。此外,為了進(jìn)一步解決現(xiàn)有旋轉(zhuǎn)平均基準(zhǔn)依賴稍微過時的 Bundler 相機(jī)校準(zhǔn)結(jié)果作為地面事實(shí)并僅關(guān)注旋轉(zhuǎn)估計(jì)精度的局限性,本文提出了一種新的基于 COLMAP 的旋轉(zhuǎn)平均基準(zhǔn),該基準(zhǔn)結(jié)合了交叉檢查COLMAP和Bundler之間的關(guān)系,并采用旋轉(zhuǎn)和下游位置估計(jì)的準(zhǔn)確性作為評估指標(biāo),旨在為旋轉(zhuǎn)平均研究提供更可靠和更全面的評估工具。
YOLOR-Based Multi-Task Learning
Authors Hung Shuo Chang, Chien Yao Wang, Richard Robert Wang, Gene Chou, Hong Yuan Mark Liao
多任務(wù)學(xué)習(xí) MTL 旨在使用單個模型學(xué)習(xí)多個任務(wù),并在假設(shè)泛化和共享語義的情況下共同改進(jìn)所有任務(wù)。減少聯(lián)合學(xué)習(xí)期間任務(wù)之間的沖突很困難,通常需要仔細(xì)的網(wǎng)絡(luò)設(shè)計(jì)和極大的模型。我們建議以 You Only Learn One Representation YOLOR 為基礎(chǔ),這是一種專為多任務(wù)處理而設(shè)計(jì)的網(wǎng)絡(luò)架構(gòu)。 YOLOR 分別利用來自數(shù)據(jù)觀察和學(xué)習(xí)潛伏的顯式和隱式知識來改進(jìn)共享表示,同時最大限度地減少訓(xùn)練參數(shù)的數(shù)量。然而,YOLOR 及其后續(xù)產(chǎn)品 YOLOv7 一次只訓(xùn)練兩個任務(wù)。在本文中,我們聯(lián)合訓(xùn)練對象檢測、實(shí)例分割、語義分割和圖像描述。我們分析權(quán)衡并嘗試最大化語義信息的共享。通過我們的架構(gòu)和訓(xùn)練策略,我們發(fā)現(xiàn)我們的方法在所有任務(wù)上都實(shí)現(xiàn)了有競爭力的性能,同時保持較低的參數(shù)數(shù)量并且無需任何預(yù)訓(xùn)練。
Investigating Shift Equivalence of Convolutional Neural Networks in Industrial Defect Segmentation
Authors Zhen Qu, Xian Tao, Fei Shen, Zhengtao Zhang, Tao Li
在工業(yè)缺陷分割任務(wù)中,雖然像素精度和并集 IoU 交集是評估分割性能的常用指標(biāo),但輸出一致性(也指模型的等效性)經(jīng)常被忽視。即使輸入圖像發(fā)生很小的變化,分割結(jié)果也會產(chǎn)生顯著的波動?,F(xiàn)有的方法主要關(guān)注數(shù)據(jù)增強(qiáng)或抗鋸齒,以增強(qiáng)網(wǎng)絡(luò)對平移變換的魯棒性,但它們的平移等價(jià)在測試集上表現(xiàn)不佳,或者容易受到非線性激活函數(shù)的影響。此外,由于輸入圖像的平移而導(dǎo)致的邊界變化始終被忽略,從而對平移等價(jià)性施加了進(jìn)一步的限制。為了應(yīng)對這一特殊挑戰(zhàn),提出了一對稱為組件注意多相采樣 CAPS 的新型下采樣層,作為 CNN 中傳統(tǒng)采樣層的替代品。為了減輕圖像邊界變化對等價(jià)性的影響,CAPS中設(shè)計(jì)了自適應(yīng)加窗模塊來自適應(yīng)地濾除圖像的邊界像素。此外,提出了一個組件注意模塊來融合所有下采樣的特征以提高分割性能。
On the Contractivity of Plug-and-Play Operators
Authors Chirayu D. Athalye, Kunal N. Chaudhury, Bhartendu Kumar
在即插即用的 PnP 正則化中,ISTA 和 ADMM 等算法中的近端算子被強(qiáng)大的降噪器取代。這種形式上的替代在實(shí)踐中效果出人意料地好。事實(shí)上,PnP 已被證明可以為各種成像應(yīng)用提供最先進(jìn)的結(jié)果。 PnP 的實(shí)證成功促使研究人員了解其理論基礎(chǔ),特別是其收斂性。先前的工作表明,對于諸如非局部均值之類的核降噪器,PnP ISTA 在前向模型的一些強(qiáng)假設(shè)下可證明收斂。目前的工作是由以下問題推動的 我們能否放寬對前向模型的假設(shè) 收斂分析能否擴(kuò)展到 PnP ADMM 我們能否估計(jì)收斂率 在這封信中,我們使用對稱降噪器的收縮映射定理 i 來解決這些問題,我們表明在溫和條件下 PnP ISTA 和 PnP ADMM 表現(xiàn)出線性收斂,ii 對于核降噪器,我們表明 PnP ISTA 和 PnP ADMM 對于圖像修復(fù)表現(xiàn)出線性收斂。
Superpixel Transformers for Efficient Semantic Segmentation
Authors Alex Zihao Zhu, Jieru Mei, Siyuan Qiao, Hang Yan, Yukun Zhu, Liang Chieh Chen, Henrik Kretzschmar
語義分割旨在對圖像中的每個像素進(jìn)行分類,是機(jī)器感知中的一項(xiàng)關(guān)鍵任務(wù),在機(jī)器人和自動駕駛領(lǐng)域有許多應(yīng)用。由于該任務(wù)的高維度,大多數(shù)現(xiàn)有方法使用局部操作(例如卷積)來生成每像素特征。然而,由于在密集圖像上操作的計(jì)算成本很高,這些方法通常無法有效地利用全局上下文信息。在這項(xiàng)工作中,我們通過利用超像素的思想、圖像的過度分割,并將其應(yīng)用到現(xiàn)代變壓器框架中,提出了解決這個問題的方案。特別是,我們的模型學(xué)習(xí)通過一系列局部交叉注意力將像素空間分解為空間低維超像素空間。然后,我們將多頭自注意力應(yīng)用于超像素,以利用全局上下文豐富超像素特征,然后直接為每個超像素生成類預(yù)測。最后,我們使用超像素和圖像像素特征之間的關(guān)聯(lián)將超像素類預(yù)測直接投影回像素空間。與基于卷積的解碼器方法相比,超像素空間中的推理使我們的方法具有更高的計(jì)算效率。然而,由于全局自注意力機(jī)制生成的豐富的超像素特征,我們的方法在語義分割中實(shí)現(xiàn)了最先進(jìn)的性能。
LEF: Late-to-Early Temporal Fusion for LiDAR 3D Object Detection
Authors Tong He, Pei Sun, Zhaoqi Leng, Chenxi Liu, Dragomir Anguelov, Mingxing Tan
我們提出了一種使用時間 LiDAR 點(diǎn)云進(jìn)行 3D 對象檢測的晚期到早期循環(huán)特征融合方案。我們的主要動機(jī)是將對象感知的潛在嵌入融合到 3D 對象檢測器的早期階段。與直接從原始點(diǎn)學(xué)習(xí)相比,這種特征融合策略使模型能夠更好地捕獲具有挑戰(zhàn)性的物體的形狀和姿勢。我們的方法以循環(huán)方式進(jìn)行后期到早期的特征融合。這是通過在時間校準(zhǔn)和對齊的稀疏柱標(biāo)記上強(qiáng)制執(zhí)行基于窗口的注意力塊來實(shí)現(xiàn)的。利用鳥瞰圖前景柱分割,我們將模型需要融合到當(dāng)前幀中的稀疏歷史特征的數(shù)量減少了 10 倍。我們還提出了一種隨機(jī)長度 FrameDrop 訓(xùn)練技術(shù),該技術(shù)將模型推廣到推理時的可變幀長度,以提高性能而無需重新訓(xùn)練。
Stochastic Digital Twin for Copy Detection Patterns
Authors Yury Belousov, Olga Taran, Vitaliy Kinakh, Slava Voloshynovskiy
復(fù)制檢測模式 CDP 提供了一種有效的產(chǎn)品防偽技術(shù)。然而,研究 CDP 生產(chǎn)變異性的復(fù)雜性通常會導(dǎo)致程序耗時且成本高昂,從而限制了 CDP 的可擴(kuò)展性。計(jì)算機(jī)建模的最新進(jìn)展,特別是用于打印成像通道的數(shù)字孿生概念,可以增強(qiáng)可擴(kuò)展性并優(yōu)化認(rèn)證系統(tǒng)。
Preface: A Data-driven Volumetric Prior for Few-shot Ultra High-resolution Face Synthesis
Authors Marcel C. B hler 1 and 2 , Kripasindhu Sarkar 2 , Tanmay Shah 2 , Gengyan Li 1 and 2 , Daoye Wang 2 , Leonhard Helminger 2 , Sergio Orts Escolano 2 , Dmitry Lagun 2 , Otmar Hilliges 1 , Thabo Beeler 2 , Abhimitra Meka 2 1 ETH Zurich, 2 Google
NeRF 能夠高度逼真地合成人臉,包括復(fù)雜的外觀以及頭發(fā)和皮膚的反射效果。這些方法通常需要大量的多視圖輸入圖像,使得處理硬件密集且繁瑣,限制了對無約束設(shè)置的適用性。我們提出了一種新穎的體積人臉先驗(yàn),可以合成不屬于先驗(yàn)訓(xùn)練分布的主題的超高分辨率新穎視圖。該先前模型由身份條件 NeRF 組成,在已知相機(jī)校準(zhǔn)的不同人類的低分辨率多視圖圖像數(shù)據(jù)集上進(jìn)行訓(xùn)練。訓(xùn)練數(shù)據(jù)集的基于簡單稀疏地標(biāo)的 3D 對齊使我們的模型能夠?qū)W習(xí)幾何和外觀的平滑潛在空間,盡管訓(xùn)練身份數(shù)量有限。通過對任意分辨率的 2 或 3 個攝像機(jī)視圖進(jìn)行模型擬合,可以獲得新主題的高質(zhì)量體積表示。
Sketch2CADScript: 3D Scene Reconstruction from 2D Sketch using Visual Transformer and Rhino Grasshopper
Authors Hong Bin Yang
現(xiàn)有的 3D 模型重建方法通常以體素、點(diǎn)云或網(wǎng)格的形式生成輸出。然而,這些方法都有其局限性,可能并不適合所有場景。例如,生成的模型可能會表現(xiàn)出粗糙的表面和扭曲的結(jié)構(gòu),這使得手動編輯和后處理對人類來說具有挑戰(zhàn)性。在本文中,我們介紹了一種旨在解決這些問題的新穎的 3D 重建方法。我們訓(xùn)練了一個視覺轉(zhuǎn)換器來從單個線框圖像中預(yù)測場景描述符。該描述符包含重要信息,包括對象類型和位置、旋轉(zhuǎn)和大小等參數(shù)。根據(jù)預(yù)測的參數(shù),可以使用 Blender 或 Rhino Grasshopper 等提供可編程接口的 3D 建模軟件重建 3D 場景,從而生成精細(xì)且易于編輯的 3D 模型。為了評估所提出的模型,我們創(chuàng)建了兩個數(shù)據(jù)集,一個具有簡單場景,另一個具有復(fù)雜場景。
Space-Time Attention with Shifted Non-Local Search
Authors Kent Gauen, Stanley Chan
由于幀之間對象的運(yùn)動,有效計(jì)算視頻的注意力圖具有挑戰(zhàn)性。雖然標(biāo)準(zhǔn)非局部搜索對于每個查詢點(diǎn)周圍的窗口來說是高質(zhì)量的,但窗口的小尺寸無法容納運(yùn)動。長距離運(yùn)動的方法使用輔助網(wǎng)絡(luò)來預(yù)測最相似的關(guān)鍵坐標(biāo)作為距每個查詢位置的偏移量。然而,即使對于大規(guī)模網(wǎng)絡(luò),準(zhǔn)確預(yù)測偏移流場仍然具有挑戰(zhàn)性。微小的空間誤差會顯著影響注意力模塊的質(zhì)量。本文提出了一種將非局部搜索的質(zhì)量與預(yù)測偏移范圍相結(jié)合的搜索策略。該方法名為“平移非局部搜索”,在預(yù)測偏移周圍執(zhí)行小網(wǎng)格搜索,以糾正小的空間誤差。我們的方法就地計(jì)算消耗的內(nèi)存減少了 10 倍,速度比以前的工作快了 3 倍以上。實(shí)驗(yàn)上,糾正小空間誤差可將視頻幀對齊質(zhì)量提高 3 dB PSNR 以上。我們的搜索升級了現(xiàn)有的時空注意力模塊,將視頻去噪結(jié)果提高了 0.30 dB PSNR,總體運(yùn)行時間增加了 7.5 倍。
Propagation and Attribution of Uncertainty in Medical Imaging Pipelines
Authors Leonhard F. Feiner, Martin J. Menten, Kerstin Hammernik, Paul Hager, Wenqi Huang, Daniel Rueckert, Rickmer F. Braren, Georgios Kaissis
不確定性估計(jì)為醫(yī)學(xué)成像應(yīng)用提供了一種構(gòu)建可解釋神經(jīng)網(wǎng)絡(luò)的方法,主要針對專注于特定任務(wù)的單一深度學(xué)習(xí)模型進(jìn)行研究。在本文中,我們提出了一種通過醫(yī)學(xué)成像管道中的深度學(xué)習(xí)模型級聯(lián)傳播不確定性的方法。這使我們能夠匯總管道后期階段的不確定性,并為后續(xù)模型的預(yù)測獲得聯(lián)合不確定性度量。此外,我們可以單獨(dú)報(bào)告管道中每個組件的任意、基于數(shù)據(jù)的不確定性的貢獻(xiàn)。我們展示了我們的方法在真實(shí)成像管道上的實(shí)用性,該管道重建欠采樣的大腦和膝蓋磁共振 MR 圖像,并隨后預(yù)測圖像中的定量信息,例如大腦體積、膝蓋側(cè)或患者性別。
SatDM: Synthesizing Realistic Satellite Image with Semantic Layout Conditioning using Diffusion Models
Authors Orkhan Baghirli, Hamid Askarov, Imran Ibrahimli, Ismat Bakhishov, Nabi Nabiyev
地球觀測領(lǐng)域的深度學(xué)習(xí)模型在很大程度上依賴于大規(guī)模精確標(biāo)記衛(wèi)星圖像的可用性。然而,獲取和標(biāo)記衛(wèi)星圖像是一項(xiàng)資源密集型工作。雖然生成模型為解決數(shù)據(jù)稀缺問題提供了一種有前景的解決方案,但其潛力仍未得到充分開發(fā)。最近,去噪擴(kuò)散概率模型 DDPM 在從語義布局合成真實(shí)圖像方面展現(xiàn)出了巨大的前景。本文實(shí)現(xiàn)了一種條件 DDPM 模型,該模型能夠獲取語義地圖并生成高質(zhì)量、多樣化且相應(yīng)準(zhǔn)確的衛(wèi)星圖像。此外,還提供了優(yōu)化動態(tài)的全面說明。所提出的方法集成了方差學(xué)習(xí)、無分類器指導(dǎo)和改進(jìn)的噪聲調(diào)度等尖端技術(shù)。自適應(yīng)歸一化和自注意力機(jī)制的結(jié)合進(jìn)一步補(bǔ)充了去噪網(wǎng)絡(luò)架構(gòu),增強(qiáng)了模型的能力。我們提出的模型的有效性使用本研究背景下引入的精心標(biāo)記的數(shù)據(jù)集進(jìn)行了驗(yàn)證。驗(yàn)證包括 Frechet Inception Distance FID 和 Intersection over Union IoU 等算法方法,以及人類意見研究。我們的研究結(jié)果表明,生成的樣本與真實(shí)樣本的偏差最小,為數(shù)據(jù)增強(qiáng)等實(shí)際應(yīng)用打開了大門。我們期待在更廣泛的環(huán)境和數(shù)據(jù)模式中進(jìn)一步探索 DDPM。
Granularity at Scale: Estimating Neighborhood Well-Being from High-Resolution Orthographic Imagery and Hybrid Learning
Authors Ethan Brewer, Giovani Valdrighi, Parikshit Solunke, Joao Rulff, Yurii Piadyk, Zhonghui Lv, Jorge Poco, Claudio Silva
由于現(xiàn)有數(shù)據(jù)收集方法的限制,世界許多地區(qū)沒有居住人口福祉的基本信息。從衛(wèi)星或飛機(jī)等遠(yuǎn)程獲得的俯視圖像可以作為了解地面生命狀況的窗口,并有助于填補(bǔ)社區(qū)信息稀疏的空白,而在較小的地理尺度上進(jìn)行估計(jì)需要更高分辨率的傳感器。隨著傳感器分辨率的提高,機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺的最新進(jìn)展使得快速提取圖像數(shù)據(jù)中的特征并檢測圖像數(shù)據(jù)中的模式成為可能,在此過程中將這些特征與其他信息相關(guān)聯(lián)。在這項(xiàng)工作中,我們探討了兩種方法(監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)和基于視覺詞包的半監(jiān)督聚類)如何從公開的城市高分辨率圖像中估計(jì)人口密度、家庭收入中位數(shù)和各個社區(qū)的教育程度。美國。結(jié)果和分析表明,從圖像中提取的特征可以準(zhǔn)確估計(jì)鄰里密度 R 2 高達(dá) 0.81,監(jiān)督方法能夠解釋人口收入和教育方面大約一半的變化。
Ultra-low-power Image Classification on Neuromorphic Hardware
Authors Gregor Lenz, Garrick Orchard, Sadique Sheik
尖峰神經(jīng)網(wǎng)絡(luò) SNN 通過利用時間和空間稀疏性有望實(shí)現(xiàn)超低功耗應(yīng)用。二進(jìn)制激活的數(shù)量(稱為峰值)與在神經(jīng)形態(tài)硬件上執(zhí)行時消耗的功率成正比。對于主要依賴于空間特征的視覺任務(wù),使用時間反向傳播來訓(xùn)練此類 SNN 的計(jì)算成本很高。對于圖像識別數(shù)據(jù)集而言,訓(xùn)練無狀態(tài)人工神經(jīng)網(wǎng)絡(luò) ANN 然后將權(quán)重轉(zhuǎn)換為 SNN 是一種簡單的替代方案。大多數(shù)轉(zhuǎn)換方法依賴于 SNN 中的速率編碼來表示 ANN 激活,這使用大量的尖峰,因此需要能量來編碼信息。最近,時間轉(zhuǎn)換方法已經(jīng)顯示出有希望的結(jié)果,需要顯著減少每個神經(jīng)元的尖峰,但有時需要復(fù)雜的神經(jīng)元模型。我們提出了一種時間 ANN 到 SNN 的轉(zhuǎn)換方法,我們稱之為 Quartz,它基于第一個尖峰的時間 TTFS 。 Quartz 實(shí)現(xiàn)了很高的分類精度,并且可以輕松地在神經(jīng)形態(tài)硬件上實(shí)現(xiàn),同時使用最少量的突觸操作和內(nèi)存訪問。與之前的時間轉(zhuǎn)換方法相比,它會導(dǎo)致每個神經(jīng)元增加兩個突觸的成本,這些方法在神經(jīng)形態(tài)硬件上很容易獲得。我們在 MNIST、CIFAR10 和 ImageNet 上對 Quartz 進(jìn)行模擬基準(zhǔn)測試,以展示我們方法的優(yōu)勢,并跟進(jìn)在 Intel 的神經(jīng)擬態(tài)芯片 Loihi 上的實(shí)現(xiàn)。我們提供的證據(jù)表明,對于類似的分類精度,時間編碼在功耗、吞吐量和延遲方面具有優(yōu)勢。
Photonic Accelerators for Image Segmentation in Autonomous Driving and Defect Detection
Authors Lakshmi Nair, David Widemann, Brad Turcott, Nick Moore, Alexandra Wleklinski, Darius Bunandar, Ioannis Papavasileiou, Shihu Wang, Eric Logan
與傳統(tǒng)數(shù)字硬件相比,光子計(jì)算有望實(shí)現(xiàn)更快、更節(jié)能的深度神經(jīng)網(wǎng)絡(luò) DNN 推理。光子計(jì)算的進(jìn)步可以對自動駕駛和缺陷檢測等依賴于圖像分割模型的快速、準(zhǔn)確和節(jié)能執(zhí)行的應(yīng)用產(chǎn)生深遠(yuǎn)的影響。在本文中,我們研究了光子加速器上的圖像分割,以探索最適合光子加速器的圖像分割 DNN 架構(gòu)類型,以及在光子加速器上執(zhí)行不同圖像分割模型的吞吐量和能源效率,以及其中涉及的權(quán)衡。具體來說,我們證明了在光子加速器上執(zhí)行時,某些分割模型與數(shù)字 float32 模型相比,精度損失可以忽略不計(jì),并探索了其穩(wěn)健性的經(jīng)驗(yàn)推理。我們還討論了在模型表現(xiàn)不佳的情況下恢復(fù)準(zhǔn)確性的技術(shù)。此外,我們還比較了光子加速器上不同圖像分割工作負(fù)載的每秒吞吐量推斷和能耗估計(jì)。
STIR: Surgical Tattoos in Infrared
Authors Adam Schmidt, Omid Mohareri, Simon DiMaio, Septimiu E. Salcudean
量化內(nèi)窺鏡環(huán)境中跟蹤和繪制組織的方法的性能對于實(shí)現(xiàn)醫(yī)療干預(yù)和手術(shù)的圖像引導(dǎo)和自動化至關(guān)重要。迄今為止開發(fā)的數(shù)據(jù)集要么使用嚴(yán)格的環(huán)境、可見的標(biāo)記,要么要求注釋者在收集后標(biāo)記視頻中的顯著點(diǎn)。這些分別是不通用的、對算法可見的、或者成本高昂且容易出錯的。我們引入了一種新穎的標(biāo)記方法以及使用該方法的數(shù)據(jù)集,即紅外 STIR 中的外科紋身。 STIR 具有持久性但對可見光譜算法不可見的標(biāo)簽。這是通過用紅外熒光染料、吲哚菁綠 ICG 標(biāo)記組織點(diǎn),然后收集可見光視頻剪輯來完成的。 STIR 包含數(shù)百個體內(nèi)和離體場景的立體視頻剪輯,并在紅外光譜中標(biāo)記了起點(diǎn)和終點(diǎn)。 STIR 擁有 3,000 多個標(biāo)記點(diǎn),將有助于量化并更好地分析跟蹤和繪圖方法。介紹 STIR 后,我們使用 3D 和 2D 端點(diǎn)誤差和準(zhǔn)確性指標(biāo)來分析 STIR 上多種不同的基于幀的跟蹤方法。
Intriguing properties of generative classifiers
Authors Priyank Jaini, Kevin Clark, Robert Geirhos
快速識別對象的最佳范式是什么 判別推理 快速但可能容易進(jìn)行捷徑學(xué)習(xí)或使用生成模型 緩慢但可能更穩(wěn)健 我們以生成模型的最新進(jìn)展為基礎(chǔ),將文本到圖像模型轉(zhuǎn)變?yōu)榉诸惼鳌_@使我們能夠研究他們的行為并將其與歧視模型和人類心理物理數(shù)據(jù)進(jìn)行比較。我們報(bào)告了生成分類器的四個有趣的新興特性,它們在 Imagen 中顯示出破紀(jì)錄的類人形狀偏差 99,分布精度接近人類水平,與人類分類錯誤保持最先進(jìn)的一致性,并且它們理解某些感知錯覺。
XVO: Generalized Visual Odometry via Cross-Modal Self-Training
Authors Lei Lai, Zhongkai Shangguan, Jimuyang Zhang, Eshed Ohn Bar
我們提出了 XVO,一種半監(jiān)督學(xué)習(xí)方法,用于訓(xùn)練廣義單目視覺里程計(jì) VO 模型,在不同的數(shù)據(jù)集和設(shè)置中具有魯棒的自我操作能力。與通常研究單個數(shù)據(jù)集中的已知校準(zhǔn)的標(biāo)準(zhǔn)單目 VO 方法相比,XVO 有效地學(xué)習(xí)從視覺場景語義中恢復(fù)與現(xiàn)實(shí)世界比例的相對姿勢,即不依賴于任何已知的相機(jī)參數(shù)。我們通過 YouTube 上提供的大量無約束和異構(gòu)行車記錄儀視頻進(jìn)行自我訓(xùn)練來優(yōu)化運(yùn)動估計(jì)模型。我們的主要貢獻(xiàn)是雙重的。首先,我們憑經(jīng)驗(yàn)證明半監(jiān)督訓(xùn)練對于學(xué)習(xí)通用直接 VO 回歸網(wǎng)絡(luò)的好處。其次,我們演示了多模態(tài)監(jiān)督,包括分割、流、深度和音頻輔助預(yù)測任務(wù),以促進(jìn) VO 任務(wù)的廣義表示。具體來說,我們發(fā)現(xiàn)音頻預(yù)測任務(wù)可以顯著增強(qiáng)半監(jiān)督學(xué)習(xí)過程,同時減輕噪聲偽標(biāo)簽,特別是在高度動態(tài)和域外視頻數(shù)據(jù)中。盡管沒有多幀優(yōu)化或不了解相機(jī)參數(shù),我們提出的教師網(wǎng)絡(luò)在常用的 KITTI 基準(zhǔn)上實(shí)現(xiàn)了最先進(jìn)的性能。
ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens
Authors Yangyang Guo, Haoyu Zhang, Liqiang Nie, Yongkang Wong, Mohan Kankanhalli
在有限的計(jì)算預(yù)算下,學(xué)習(xí)通用的語言圖像模型在計(jì)算上是令人望而卻步的。本文深入研究了高效的語言圖像預(yù)訓(xùn)練,盡管該領(lǐng)域在降低計(jì)算成本和占用空間方面很重要,但受到的關(guān)注相對較少。為此,我們提出了一種視覺令牌修剪和合并方法,即ELIP,以基于語言輸出的監(jiān)督來去除影響力較小的令牌。我們的方法設(shè)計(jì)具有多種優(yōu)勢,例如計(jì)算效率高、內(nèi)存效率高、可訓(xùn)練參數(shù)自由,并且與之前的僅視覺標(biāo)記修剪方法的區(qū)別在于其與任務(wù)目標(biāo)的一致性。我們使用幾個連續(xù)的塊以逐步修剪的方式實(shí)現(xiàn)此方法。為了評估其泛化性能,我們將 ELIP 應(yīng)用于三種常用的語言圖像預(yù)訓(xùn)練模型,并利用公共圖像標(biāo)題對和 4M 圖像進(jìn)行預(yù)訓(xùn)練。我們的實(shí)驗(yàn)表明,通過刪除 12 個 ViT 層中的 30 個視覺標(biāo)記,ELIP 在各種下游任務(wù)(包括跨模態(tài)檢索、VQA、圖像字幕等)上保持了與基線 sim 平均準(zhǔn)確度下降 0.32 顯著可比的性能。我們的 ELIP 提供的 GPU 資源使我們能夠擴(kuò)展更大的批量大小,從而加速模型預(yù)訓(xùn)練,有時甚至增強(qiáng)下游模型性能。
MV-DeepSDF: Implicit Modeling with Multi-Sweep Point Clouds for 3D Vehicle Reconstruction in Autonomous Driving
Authors Yibo Liu, Kelly Zhu, Guile Wu, Yuan Ren, Bingbing Liu, Yang Liu, Jinjun Shan
從噪聲和稀疏的部分點(diǎn)云中重建3D車輛對于自動駕駛具有重要意義。大多數(shù)現(xiàn)有的 3D 重建方法不能直接應(yīng)用于這個問題,因?yàn)樗鼈兘?jīng)過精心設(shè)計(jì),可以處理具有微不足道噪聲的密集輸入。在這項(xiàng)工作中,我們提出了一種稱為 MV DeepSDF 的新穎框架,該框架從多掃描點(diǎn)云估計(jì)最佳符號距離函數(shù) SDF 形狀表示,以在野外重建車輛。雖然已經(jīng)有一些基于SDF的隱式建模方法,但它們只關(guān)注基于單視圖的重建,導(dǎo)致保真度較低。相反,我們首先分析潛在特征空間中的多次掃描一致性和互補(bǔ)性,并提出將隱式空間形狀估計(jì)問題轉(zhuǎn)化為元素集特征提取問題。然后,我們設(shè)計(jì)了一種新的架構(gòu)來提取各個元素級別的表示并將它們聚合以生成一組級別的預(yù)測潛在代碼。該集合級潛在代碼是隱式空間中最佳 3D 形狀的表達(dá),并且可以隨后解碼為車輛的連續(xù) SDF。通過這種方式,我們的方法可以在 3D 車輛重建的多次掃描中學(xué)習(xí)一致且互補(bǔ)的信息。
General Lipschitz: Certified Robustness Against Resolvable Semantic Transformations via Transformation-Dependent Randomized Smoothing
Authors Dmitrii Korzh, Mikhail Pautov, Olga Tsymboi, Ivan Oseledets
隨機(jī)平滑是構(gòu)建圖像分類器的最先進(jìn)方法,該分類器對于有界幅度的加性對抗性擾動具有魯棒性。然而,針對語義轉(zhuǎn)換(例如圖像模糊、平移、伽馬校正及其組合)構(gòu)建合理的證書更加復(fù)雜。在這項(xiàng)工作中,我們提出了 emph General Lipschitz GL,這是一個新框架,用于驗(yàn)證神經(jīng)網(wǎng)絡(luò)免受可組合可解析語義擾動的影響。在該框架內(nèi),我們分析了平滑分類器與變換相關(guān)的 Lipschitz 連續(xù)性。變換參數(shù)并導(dǎo)出相應(yīng)的魯棒性證書。
Automatic Cadastral Boundary Detection of Very High Resolution Images Using Mask R-CNN
Authors Neda Rahimpour Anaraki, Alireza Azadbakht, Maryam Tahmasbi, Hadi Farahani, Saeed Reza Kheradpisheh, Alireza Javaheri
最近,對加速和改進(jìn)自動地籍測繪檢測的需求很高。由于這個問題還處于起步階段,還有很多計(jì)算機(jī)視覺和深度學(xué)習(xí)的方法還沒有考慮到。在本文中,我們專注于深度學(xué)習(xí),并提供了三種提高工作質(zhì)量的幾何后處理方法。我們的框架包括兩個部分,每個部分都由幾個階段組成。我們解決這個問題的方法是使用實(shí)??例分割。在第一部分中,我們使用 Mask R CNN 和在 ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練的 ResNet 50 為骨干網(wǎng)。在第二階段,我們對第一部分的輸出應(yīng)用了三種幾何后處理方法,以獲得更好的整體輸出。在這里,我們還使用計(jì)算幾何來介紹一種簡化直線的新方法,我們稱之為基于口袋的簡化算法。為了評估我們解決方案的質(zhì)量,我們使用該領(lǐng)域流行的公式,即召回率、精度和 F 分?jǐn)?shù)。我們獲得的最高召回率為 95%,同時也保持了 72% 的高精度。結(jié)果 F 分?jǐn)?shù)為 82%。使用 Mask R CNN 對其輸出進(jìn)行一些幾何后處理來實(shí)現(xiàn)實(shí)例分割,為我們在該領(lǐng)域帶來了有希望的結(jié)果。
Decoding Imagery: Unleashing Large Language Models
Authors David Noever, Samantha Elizabeth Miller Noever
在一項(xiàng)挑戰(zhàn)響應(yīng)研究中,我們對 Google Bard 進(jìn)行了 64 項(xiàng)視覺挑戰(zhàn),旨在探索多模式大型語言模型法學(xué)碩士。挑戰(zhàn)跨越不同的類別,包括視覺情境推理、視覺文本推理和下一場景預(yù)測等,以辨別巴德在融合視覺和語言分析方面的能力。我們的研究結(jié)果表明,巴德傾向于依賴對視覺效果做出有根據(jù)的猜測,尤其是在從圖像中確定線索時。與 GPT4 等其他模型不同,Bard 似乎并不依賴于 Tesseract 等光學(xué)字符識別庫,而是像 Google Lens 和 Visual API 等深度學(xué)習(xí)模型一樣識別復(fù)雜圖像中的文本。值得注意的是,Bard 可以直觀地解決 ChatGPT 無法理解的驗(yàn)證碼,推薦 Tesseract 解決方案。此外,雖然巴德模型提出了基于視覺輸入的解決方案,但它無法重新創(chuàng)建或修改原始視覺對象來支持其結(jié)論。 Bard 未能重新繪制 ASCII 藝術(shù),文本可以描述或捕獲一個簡單的 Tic Tac Toe 網(wǎng)格,它聲稱可以分析下一步的動作。
MVMR: Evaluating Natural Language Video Localization Bias over Multiple Reliable Videos Pool
Authors Nakyeong Yang, Minsung Kim, Seunghyun Yoon, Joongbo Shin, Kyomin Jung
近年來,隨著多媒體內(nèi)容的爆炸式增長,自然語言視頻本地化(重點(diǎn)是檢測與給定自然語言查詢匹配的視頻時刻)已成為一個關(guān)鍵問題。然而,之前的研究都沒有探索從存在多個正面和負(fù)面視頻的大型語料庫中定位某個時刻。在本文中,我們提出了 MVMR 海量視頻時刻檢索任務(wù),其目的是在給定文本查詢的情況下從大量視頻中定位視頻幀。對于此任務(wù),我們提出了通過對現(xiàn)有視頻定位數(shù)據(jù)集采用相似性過濾來構(gòu)建數(shù)據(jù)集的方法,并引入了三個 MVMR 數(shù)據(jù)集。具體來說,我們采用基于嵌入的文本相似性匹配和視頻語言基礎(chǔ)技術(shù)來計(jì)算目標(biāo)查詢和視頻之間的相關(guān)性得分,以定義正集和負(fù)集。對于提出的 MVMR 任務(wù),我們進(jìn)一步開發(fā)了一個強(qiáng)大的模型,即可靠相互匹配網(wǎng)絡(luò) RMMN,它采用對比學(xué)習(xí)方案,有選擇地過濾可靠且信息豐富的負(fù)數(shù),從而使模型在 MVMR 任務(wù)上更加穩(wěn)健。
Framework and Model Analysis on Bengali Document Layout Analysis Dataset: BaDLAD
Authors Kazi Reyazul Hasan 1 , Mubasshira Musarrat 1 , Sadif Ahmed 1 , Shahriar Raj 1 1 Bangladesh University of Engineering and Technology
本研究的重點(diǎn)是使用先進(jìn)的計(jì)算機(jī)程序 Detectron2、YOLOv8 和 SAM 來理解孟加拉語文檔布局。我們在研究中查看了許多不同的孟加拉語文獻(xiàn)。 Detectron2 非常擅長查找和分離文檔的不同部分,例如文本框和段落。 YOLOv8 擅長計(jì)算不同的表格和圖片。我們還嘗試了 SAM,它可以幫助我們理解棘手的布局。我們測試了這些程序,看看它們的效果如何。通過比較它們的準(zhǔn)確性和速度,我們了解了哪一種適合不同類型的文檔。
Mechanical Artifacts in Optical Projection Tomography: Classification and Automatic Calibration
Authors Yan Liu, Jonathan Dong, Thanh An Pham, Francois Marelli, Michael Unser
光學(xué)投影斷層掃描 OPT 是生物醫(yī)學(xué)研究的強(qiáng)大工具。它使用傳統(tǒng)的斷層掃描重建算法實(shí)現(xiàn)了具有高空間分辨率的介觀生物樣本的 3D 可視化。然而,由于 OPT 儀器的實(shí)驗(yàn)缺陷,各種偽影降低了重建圖像的質(zhì)量。盡管已經(jīng)做出了許多努力來表征和糾正這些偽影,但它們都集中于一種特定類型的偽影。這項(xiàng)工作有兩個貢獻(xiàn)。首先,我們基于使用一組角度和平移參數(shù)的成像系統(tǒng)的 3D 描述,系統(tǒng)地記錄機(jī)械工件的目錄。然后,我們引入了一種校準(zhǔn)算法,該算法可以恢復(fù)輸入到最終 3D 迭代重建算法中的未知系統(tǒng)參數(shù),以獲得無失真體積圖像。
Neural Lithography: Close the Design-to-Manufacturing Gap in Computational Optics with a 'Real2Sim' Learned Photolithography Simulator
Authors Cheng Zheng, Guangyuan Zhao, Peter T.C. So
我們引入神經(jīng)光刻來解決計(jì)算光學(xué)中從設(shè)計(jì)到制造的差距。具有較大設(shè)計(jì)自由度的計(jì)算光學(xué)器件可實(shí)現(xiàn)超越傳統(tǒng)光學(xué)器件的先進(jìn)功能和性能。然而,現(xiàn)有的設(shè)計(jì)方法常常忽視制造過程的數(shù)值建模,這可能導(dǎo)致設(shè)計(jì)和制造的光學(xué)器件之間出現(xiàn)顯著的性能偏差。為了彌補(bǔ)這一差距,我們首次提出了一種完全可微分的設(shè)計(jì)框架,該框架將預(yù)先訓(xùn)練的光刻模擬器集成到基于模型的光學(xué)設(shè)計(jì)循環(huán)中。我們的光刻模擬器利用物理信息建模和數(shù)據(jù)驅(qū)動訓(xùn)練的結(jié)合,使用實(shí)驗(yàn)收集的數(shù)據(jù)集,作為設(shè)計(jì)過程中制造可行性的調(diào)節(jié)器,補(bǔ)償光刻過程中引入的結(jié)構(gòu)差異。
MixQuant: Mixed Precision Quantization with a Bit-width Optimization Search
Authors Eliska Kloberdanz, Wei Le
量化是一種創(chuàng)建高效深度神經(jīng)網(wǎng)絡(luò) DNN 的技術(shù),涉及以低于 f32 浮點(diǎn)精度的位寬執(zhí)行計(jì)算和存儲張量。量化可減少模型大小和推理延遲,因此允許將 DNN 部署在計(jì)算資源和實(shí)時系統(tǒng)受限的平臺上。然而,量化可能會因舍入誤差而導(dǎo)致數(shù)值不穩(wěn)定,從而導(dǎo)致計(jì)算不準(zhǔn)確,從而降低量化模型的精度。與之前的工作類似,這些工作表明偏差和激活都對量化更敏感,并且最好保持全精度或以更高的位寬度進(jìn)行量化,我們表明某些權(quán)重比其他權(quán)重更敏感,這應(yīng)該反映在其量化位上寬度。為此,我們提出了 MixQuant,這是一種搜索算法,可以根據(jù)舍入誤差找到每個層權(quán)重的最佳自定義量化位寬,并且可以與任何量化方法結(jié)合作為預(yù)處理優(yōu)化的一種形式。我們證明,將 MixQuant 與 BRECQ(一種最先進(jìn)的量化方法)相結(jié)合,可以比單獨(dú)使用 BRECQ 產(chǎn)生更好的量化模型精度。
Improving Trajectory Prediction in Dynamic Multi-Agent Environment by Dropping Waypoints
Authors Pranav Singh Chib, Pravendra Singh
軌跡固有的多樣性和不確定性給精確建模帶來了巨大的挑戰(zhàn)。運(yùn)動預(yù)測系統(tǒng)必須有效地學(xué)習(xí)過去的空間和時間信息,以預(yù)測智能體的未來軌跡。許多現(xiàn)有方法通過堆疊模型中的單獨(dú)組件來學(xué)習(xí)時間運(yùn)動以捕獲時間特征。本文介紹了一種名為 Temporal Waypoint Dropping TWD 的新穎框架,該框架通過路點(diǎn)丟棄技術(shù)促進(jìn)顯式時間學(xué)習(xí)。通過路徑點(diǎn)丟棄進(jìn)行學(xué)習(xí)可以迫使模型提高對代理之間時間相關(guān)性的理解,從而顯著增強(qiáng)軌跡預(yù)測。軌跡預(yù)測方法通常假設(shè)觀測到的軌跡航路點(diǎn)序列是完整的,而忽略了可能出現(xiàn)缺失值的現(xiàn)實(shí)場景,這可能會影響其性能。此外,這些模型在進(jìn)行預(yù)測時經(jīng)常表現(xiàn)出對特定航路點(diǎn)序列的偏差。我們的TWD有能力有效解決這些問題。它結(jié)合了隨機(jī)和固定過程,通過基于時間序列戰(zhàn)略性地刪除航路點(diǎn)來規(guī)范預(yù)測的過去軌跡。通過大量的實(shí)驗(yàn),我們證明了 TWD 在迫使模型學(xué)習(xí)代理之間復(fù)雜的時間相關(guān)性方面的有效性。我們的方法可以補(bǔ)充現(xiàn)有的軌跡預(yù)測方法,以提高預(yù)測精度。
Multi-Depth Branches Network for Efficient Image Super-Resolution
Authors Huiyuan Tian, Li Zhang, Shijian Li, Min Yao, Gang Pan
超分辨率 SR 領(lǐng)域已經(jīng)取得了重大進(jìn)展,但許多基于 CNN 的 SR 模型主要側(cè)重于恢復(fù)高頻細(xì)節(jié),往往忽略了關(guān)鍵的低頻輪廓信息。基于 Transformer 的 SR 方法雖然結(jié)合了全局結(jié)構(gòu)細(xì)節(jié),但經(jīng)常帶有大量參數(shù),導(dǎo)致計(jì)算開銷較高。在本文中,我們通過引入多深度分支網(wǎng)絡(luò) MDBN 來應(yīng)對這些挑戰(zhàn)。該框架通過集成一個捕獲圖像重要結(jié)構(gòu)特征的附加分支來擴(kuò)展 ResNet 架構(gòu)。我們提出的多深度分支模塊 MDBM 涉及在不同分支內(nèi)不同深度處堆疊相同大小的卷積核。通過對特征圖進(jìn)行全面分析,我們觀察到不同深度的分支可以分別提取輪廓和細(xì)節(jié)信息。通過整合這些分支,整體架構(gòu)可以在高頻視覺元素的恢復(fù)過程中保留必要的低頻語義結(jié)構(gòu)信息,這與人類視覺認(rèn)知更加接近。與類似 GoogLeNet 的模型相比,我們的基本多深度分支結(jié)構(gòu)具有更少的參數(shù)、更高的計(jì)算效率和更高的性能。我們的模型優(yōu)于最先進(jìn)的 SOTA 輕量級 SR 方法,推理時間更短。
Development of a Deep Learning Method to Identify Acute Ischemic Stroke Lesions on Brain CT
Authors Alessandro Fontanella, Wenwen Li, Grant Mair, Antreas Antoniou, Eleanor Platt, Paul Armitage, Emanuele Trucco, Joanna Wardlaw, Amos Storkey
計(jì)算機(jī)斷層掃描 CT 通常用于對急性缺血性中風(fēng) AIS 患者進(jìn)行成像,但放射科醫(yī)生對其進(jìn)行解釋非常耗時,并且容易受到觀察者間差異的影響。深度學(xué)習(xí) DL 技術(shù)可以提供自動化 CT 腦部掃描評估,但通常需要帶注釋的圖像。為了使用來自 AIS 患者的標(biāo)記但未注釋的 CT 腦部掃描來開發(fā)用于 AIS 的 DL 方法,我們使用從第三次國際中風(fēng)試驗(yàn) IST 3 中常規(guī)收集的 CT 腦部掃描來設(shè)計(jì)一種基于卷積神經(jīng)網(wǎng)絡(luò)的 DL 算法,這些掃描不是使用嚴(yán)格的研究協(xié)議。 DL 模型旨在檢測 AIS 病變并對受影響的大腦一側(cè)進(jìn)行分類。我們探討了 AIS 病變特征、背景大腦外觀和時間對 DL 性能的影響。根據(jù)專家標(biāo)記,對 2347 名平均年齡為 82 歲的 AIS 患者進(jìn)行了 5772 次獨(dú)特的 CT 掃描,其中 54 名患者存在可見的 AIS 病變。我們性能最佳的 DL 方法在病變存在和側(cè)面方面達(dá)到了 72 的準(zhǔn)確度。兩個病變的準(zhǔn)確度為 80 或多個 87 的準(zhǔn)確度較大,三個或更多的準(zhǔn)確度為 100 的病變可以更好地檢測到。后續(xù)掃描的準(zhǔn)確度為 76,而基線掃描的準(zhǔn)確度為 67。慢性腦部疾病降低了準(zhǔn)確性,特別是非中風(fēng)病變和陳舊性中風(fēng)病變的錯誤率分別為 32 和 31??梢允褂么罅砍R?guī)收集的 CT 腦部掃描數(shù)據(jù)來設(shè)計(jì) DL 方法,用于 CT 上的 AIS 病變檢測。
Unpaired Optical Coherence Tomography Angiography Image Super-Resolution via Frequency-Aware Inverse-Consistency GAN
Authors Weiwen Zhang, Dawei Yang, Haoxuan Che, An Ran Ran, Carol Y. Cheung, Hao Chen
對于光學(xué)相干斷層掃描血管造影 OCTA 圖像,有限的掃描速率導(dǎo)致在視場 FOV 和成像分辨率之間進(jìn)行權(quán)衡。盡管較大的視場圖像可能會揭示更多的中心凹旁血管病變,但由于分辨率較低,其應(yīng)用受到很大限制。為了提高分辨率,以前的工作僅通過使用配對數(shù)據(jù)進(jìn)行訓(xùn)練來獲得令人滿意的性能,但現(xiàn)實(shí)世界的應(yīng)用受到收集大規(guī)模配對圖像的挑戰(zhàn)的限制。因此,非常需要一種不配對的方法。生成對抗網(wǎng)絡(luò) GAN 常用于未配對的環(huán)境中,但它可能很難準(zhǔn)確保留細(xì)粒度的毛細(xì)血管細(xì)節(jié),而這些細(xì)節(jié)是 OCTA 的關(guān)鍵生物標(biāo)志物。在本文中,我們的方法希望通過利用頻率信息來保留這些細(xì)節(jié),頻率信息將細(xì)節(jié)表示為高頻 textbf hf ,將粗粒度背景表示為低頻 textbf lf ??偟膩碚f,我們針對 OCTA 圖像提出了一種基于 GAN 的不成對超分辨率方法,并通過雙路徑生成器特別強(qiáng)調(diào) textbf hf 細(xì)毛細(xì)血管。為了促進(jìn)重建圖像的精確頻譜,我們還為鑒別器提出了頻率感知的對抗性損失,并引入了頻率感知的焦點(diǎn)一致性損失以進(jìn)行端到端優(yōu)化。
Glioma subtype classification from histopathological images using in-domain and out-of-domain transfer learning: An experimental study
Authors Vladimir Despotovic, Sang Yoon Kim, Ann Christin Hau, Aliaksandra Kakoichankava, Gilbert Georg Klamminger, Felix Bruno Kleine Borgmann, Katrin B. M. Frauenknecht, Michel Mittelbronnf, Petr V. Nazarov
我們在本文中對成人型彌漫性膠質(zhì)瘤的計(jì)算機(jī)輔助分類的各種遷移學(xué)習(xí)策略和深度學(xué)習(xí)架構(gòu)進(jìn)行了全面比較。我們評估了組織病理學(xué)圖像目標(biāo)域的域外 ImageNet 表示的泛化性,并使用自監(jiān)督和多任務(wù)學(xué)習(xí)方法研究域內(nèi)適應(yīng)的影響,以使用中大規(guī)模組織病理學(xué)圖像數(shù)據(jù)集預(yù)訓(xùn)練模型。此外還提出了一種半監(jiān)督學(xué)習(xí)方法,其中利用微調(diào)模型來預(yù)測整個幻燈片圖像 WSI 的未注釋區(qū)域的標(biāo)簽。隨后使用上一步中確定的地面實(shí)況標(biāo)簽和弱標(biāo)簽對模型進(jìn)行重新訓(xùn)練,與領(lǐng)域遷移學(xué)習(xí)的標(biāo)準(zhǔn)相比,提供了卓越的性能,平衡精度為 96.91,F(xiàn)1 分?jǐn)?shù)為 97.07,并最大限度地減少了病理學(xué)家的注釋工作。
Robots That Can See: Leveraging Human Pose for Trajectory Prediction
Authors Tim Salzmann, Lewis Chiang, Markus Ryll, Dorsa Sadigh, Carolina Parada, Alex Bewley
預(yù)測家庭和辦公室等動態(tài)環(huán)境中所有人的運(yùn)動對于實(shí)現(xiàn)安全有效的機(jī)器人導(dǎo)航至關(guān)重要。這些空間仍然具有挑戰(zhàn)性,因?yàn)槿祟惒蛔裱瓏?yán)格的運(yùn)動規(guī)則,并且通常存在多個封閉的入口點(diǎn),例如角落和門,為突然相遇創(chuàng)造了機(jī)會。在這項(xiàng)工作中,我們提出了一種基于 Transformer 的架構(gòu),可根據(jù)輸入特征(包括來自船上野外感官信息的人體位置、頭部方向和 3D 骨骼關(guān)鍵點(diǎn))來預(yù)測以人為中心的環(huán)境中人類未來的軌跡。由此產(chǎn)生的模型捕獲了未來人類軌跡預(yù)測的固有不確定性,并在通用預(yù)測基準(zhǔn)和從適合預(yù)測任務(wù)的移動機(jī)器人捕獲的人類跟蹤數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的性能。
An Investigation Into Race Bias in Random Forest Models Based on Breast DCE-MRI Derived Radiomics Features
Authors Mohamed Huti, Tiarna Lee, Elinor Sawyer, Andrew P. King
最近的研究表明,人工智能模型在使用受保護(hù)屬性不平衡的數(shù)據(jù)進(jìn)行訓(xùn)練時可能會表現(xiàn)出性能偏差。迄今為止,大多數(shù)工作都集中在深度學(xué)習(xí)模型上,但利用手工制作的特征的經(jīng)典人工智能技術(shù)也可能容易受到這種偏見的影響。在本文中,我們研究了使用放射組學(xué)特征訓(xùn)練的隨機(jī)森林 RF 模型中存在種族偏見的可能性。我們的應(yīng)用是通過乳腺癌患者的動態(tài)對比增強(qiáng)磁共振成像 DCE MRI 來預(yù)測腫瘤分子亞型。我們的結(jié)果表明,從 DCE MRI 數(shù)據(jù)導(dǎo)出的放射組學(xué)特征確實(shí)包含種族可識別信息,并且可以訓(xùn)練 RF 模型根據(jù)這些數(shù)據(jù)預(yù)測白人和黑人種族,準(zhǔn)確度為 60 到 70,具體取決于所使用的特征子集。
A Survey of Incremental Transfer Learning: Combining Peer-to-Peer Federated Learning and Domain Incremental Learning for Multicenter Collaboration
Authors Yixing Huang, Christoph Bert, Ahmed Gomaa, Rainer Fietkau, Andreas Maier, Florian Putz
由于數(shù)據(jù)隱私的限制,多個臨床中心之間的數(shù)據(jù)共享受到限制,這阻礙了多中心協(xié)作高性能深度學(xué)習(xí)模型的開發(fā)。樸素的權(quán)重轉(zhuǎn)移方法在沒有原始數(shù)據(jù)的情況下共享中間模型權(quán)重,因此可以繞過數(shù)據(jù)隱私限制。然而,當(dāng)模型從一個中心轉(zhuǎn)移到下一個中??心時,由于遺忘問題,通常會觀察到性能下降。增量遷移學(xué)習(xí)結(jié)合了點(diǎn)對點(diǎn)聯(lián)邦學(xué)習(xí)和領(lǐng)域增量學(xué)習(xí),可以克服數(shù)據(jù)隱私問題,同時通過使用持續(xù)學(xué)習(xí)技術(shù)來保持模型性能。在這項(xiàng)工作中,傳統(tǒng)的領(lǐng)域任務(wù)增量學(xué)習(xí)框架適用于增量遷移學(xué)習(xí)。對不同的基于正則化的持續(xù)學(xué)習(xí)方法在多中心協(xié)作中的有效性進(jìn)行了全面調(diào)查。數(shù)據(jù)異構(gòu)性、分類器頭設(shè)置、網(wǎng)絡(luò)優(yōu)化器、模型初始化、中心順序和權(quán)重傳遞類型的影響已得到徹底研究。
RTFS-Net: Recurrent time-frequency modelling for efficient audio-visual speech separation
Authors Samuel Pegg, Kai Li, Xiaolin Hu
視聽語音分離方法旨在集成不同的模態(tài)以生成高質(zhì)量的分離語音,從而提高語音識別等下游任務(wù)的性能。大多數(shù)現(xiàn)有的最先進(jìn)的 SOTA 模型都在時域中運(yùn)行。然而,他們過于簡單化的聲學(xué)特征建模方法通常需要更大、計(jì)算量更大的模型才能實(shí)現(xiàn) SOTA 性能。在本文中,我們提出了一種新穎的時頻域視聽語音分離方法循環(huán)時頻分離網(wǎng)絡(luò)RTFS Net,該方法將其算法應(yīng)用于短時傅立葉變換產(chǎn)生的復(fù)雜時頻箱。我們使用多層 RNN 沿著每個維度獨(dú)立地建模和捕獲音頻的時間和頻率維度。此外,我們引入了一種獨(dú)特的基于注意力的融合技術(shù),用于音頻和視覺信息的有效集成,以及一種新的掩模分離方法,該方法利用聲學(xué)特征的固有頻譜性質(zhì)來實(shí)現(xiàn)更清晰的分離。 RTFS Net 僅使用 10 個參數(shù)和 18 個 MAC,性能優(yōu)于之前的 SOTA 方法。
A Vision-Guided Robotic System for Grasping Harvested Tomato Trusses in Cluttered Environments
Authors Luuk van den Bent, Tom s Coleman, Robert Babuska
目前,桁架番茄稱重和包裝需要大量的手工工作。自動化的主要障礙在于難以為已經(jīng)收獲的桁架開發(fā)可靠的機(jī)器人抓取系統(tǒng)。我們提出了一種方法來抓取堆放在相當(dāng)雜亂的板條箱中的桁架,這也是它們在收獲后通常儲存和運(yùn)輸?shù)姆绞健T摲椒ㄓ苫谏疃葘W(xué)習(xí)的視覺系統(tǒng)組成,首先識別板條箱中的各個桁架,然后確定桿上合適的抓取位置。為此,我們引入了具有在線學(xué)習(xí)功能的抓取姿勢排名算法。選擇最有希望的抓取姿勢后,機(jī)器人無需觸摸傳感器或幾何模型即可執(zhí)行捏握。使用配備有手眼 RGB D 相機(jī)的機(jī)器人操縱器進(jìn)行的實(shí)驗(yàn)室實(shí)驗(yàn)顯示,當(dāng)任務(wù)從一堆桁架中拾取所有桁架時,清除率達(dá)到 100。
Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩請移步主頁


pic from pexels.com文章來源地址http://www.zghlxwxcb.cn/news/detail-739312.html

到了這里,關(guān)于【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第258期】Mon, 2 Oct 2023的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 計(jì)算機(jī)視覺(CV)技術(shù)的優(yōu)勢

    計(jì)算機(jī)視覺(CV)技術(shù)的優(yōu)勢: 1. 自動化任務(wù):計(jì)算機(jī)視覺技術(shù)可以自動執(zhí)行一系列視覺任務(wù),如圖像分類、目標(biāo)檢測和識別等,從而實(shí)現(xiàn)任務(wù)的自動化。 2. 高速處理:計(jì)算機(jī)視覺技術(shù)可以在短時間內(nèi)處理大量的圖像和視頻數(shù)據(jù),實(shí)現(xiàn)快速的分析和決策。 3. 準(zhǔn)確性:相對于

    2024年01月22日
    瀏覽(23)
  • 計(jì)算機(jī)視覺 – Computer Vision | CV

    計(jì)算機(jī)視覺 – Computer Vision | CV

    人的大腦皮層, 有差不多 70% 都是在處理視覺信息。 是人類獲取信息最主要的渠道,沒有之一。 在網(wǎng)絡(luò)世界,照片和視頻(圖像的集合)也正在發(fā)生爆炸式的增長! 下圖是網(wǎng)絡(luò)上新增數(shù)據(jù)的占比趨勢圖?;疑墙Y(jié)構(gòu)化數(shù)據(jù),藍(lán)色是非結(jié)構(gòu)化數(shù)據(jù)(大部分都是圖像和視頻)。

    2024年02月11日
    瀏覽(36)
  • 動手學(xué)CV-Pytorch計(jì)算機(jī)視覺 天池計(jì)算機(jī)視覺入門賽SVHN數(shù)據(jù)集實(shí)戰(zhàn)

    這里我們以datawhale和天池合作的天池計(jì)算機(jī)視覺入門賽為例,通過案例實(shí)戰(zhàn)來進(jìn)一步鞏固本章所介紹的圖像分類知識。 該比賽以SVHN街道字符為賽題數(shù)據(jù),數(shù)據(jù)集報(bào)名后可見并可下載,該數(shù)據(jù)來

    2024年02月04日
    瀏覽(15)
  • 計(jì)算機(jī)視覺(CV)技術(shù)的優(yōu)勢和挑戰(zhàn)

    目錄 計(jì)算機(jī)視覺(CV)技術(shù)的優(yōu)勢和挑戰(zhàn) 優(yōu)勢: 挑戰(zhàn): 計(jì)算機(jī)視覺(CV)技術(shù)是一種利用計(jì)算機(jī)和算法來實(shí)現(xiàn)對圖像和視頻的分析、處理和理解的技術(shù)。為了應(yīng)對圖像多樣性,計(jì)算機(jī)視覺技術(shù)可以采用數(shù)據(jù)增強(qiáng)、遷移學(xué)習(xí)、復(fù)雜模型、多尺度處理、領(lǐng)域自適應(yīng)和合成數(shù)據(jù)等

    2024年02月09日
    瀏覽(21)
  • 基于cv2的手勢識別-計(jì)算機(jī)視覺

    基于cv2的手勢識別-計(jì)算機(jī)視覺

    ??閑的無聊做的一個小玩意,可以調(diào)用你的計(jì)算機(jī)相機(jī),識別框內(nèi)的手勢(剪刀、石頭和布),提供一個判決平臺,感興趣的可以繼續(xù)完善。 用到的參考小文獻(xiàn): 具體實(shí)現(xiàn)結(jié)果如下 并且我另寫了一個框架平臺,可以進(jìn)行下一步的功能拓展,發(fā)在我的資源界面了; ??我們

    2024年02月01日
    瀏覽(54)
  • 舉例說明計(jì)算機(jī)視覺(CV)技術(shù)的優(yōu)勢和挑戰(zhàn)

    計(jì)算機(jī)視覺(CV)技術(shù)是指通過計(jì)算機(jī)算法和模型來解析和理解圖像和視頻的能力。它的優(yōu)勢和挑戰(zhàn)如下所示: 優(yōu)勢: 高效精確:CV技術(shù)可以在很短的時間內(nèi)對大量圖像進(jìn)行高質(zhì)量的處理和分析,大大提高了處理速度和準(zhǔn)確性。 自動化:CV技術(shù)可以在沒有人工干預(yù)的情況下完

    2024年01月18日
    瀏覽(35)
  • 計(jì)算機(jī)視覺CV領(lǐng)域中多尺度特征的概念

    計(jì)算機(jī)視覺CV領(lǐng)域中多尺度特征的概念

    知乎:深度學(xué)習(xí)中的多尺度模型設(shè)計(jì) 知乎:計(jì)算機(jī)視覺中的多尺度模型都有哪些設(shè)計(jì)? CSDN:多尺度理解? 所謂多尺度,實(shí)際就是對信號的不同粒度的采樣。 通常在不同的尺度下我們可以觀察到不同的特征,從而完成不同的任務(wù)。 粒度更小/更密集的采樣可以看到更多的細(xì)節(jié)

    2023年04月08日
    瀏覽(17)
  • 計(jì)算機(jī)視覺CV:在自動駕駛方面的應(yīng)用與C++代碼實(shí)現(xiàn)

    目標(biāo)檢測:利用計(jì)算機(jī)視覺技術(shù),對道路上的各種障礙物進(jìn)行識別和檢測,例如行人、車輛、信號燈等等。 路徑規(guī)劃:利用計(jì)算機(jī)視覺技術(shù),實(shí)時分析道路上的交通情況和行駛條件,為自動駕駛汽車制定合理的路徑規(guī)劃策略。 實(shí)時定位:自動駕駛汽車必須實(shí)時地知道自己在

    2024年02月09日
    瀏覽(32)
  • 【計(jì)算機(jī)視覺】ICCV2023放榜!一起看看CV最新熱門研究方向!

    【計(jì)算機(jī)視覺】ICCV2023放榜!一起看看CV最新熱門研究方向!

    最近吃過晚飯看到新聞的時候,屬實(shí)有點(diǎn)驚訝: ICCV 2023 近日也開獎了!看了一下,總共收錄了2160篇論文,創(chuàng)了歷史新高。作為計(jì)算機(jī)視覺三大頂級會議之一,ICCV 收錄的論文自然也都具有非常高的研究價(jià)值,建議有需求的同學(xué)多關(guān)注多關(guān)注,說不定下一篇中稿的論文ideal就在

    2024年02月07日
    瀏覽(32)
  • 【計(jì)算機(jī)視覺 CV】常用的圖像(圖片)處理工具匯總【新加坡南洋理工】

    OpenCV的全稱是 Intel Open Source Computer Vision Library for C++ ,官網(wǎng): OpenCV官網(wǎng) Matlab提供的機(jī)器視覺工具箱,全稱是 Machine Vision Toolbox for Matlab ,官網(wǎng): Matlab MV Toolbox官網(wǎng) Matlab和加州理工提供的相機(jī)校正工具箱,全稱是 Camera Calibration Toolbox for Matlab ,官網(wǎng): CC Toolbox官網(wǎng) Matlab提供的

    2024年04月15日
    瀏覽(33)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包