国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第262期】Fri, 6 Oct 2023

這篇具有很好參考價(jià)值的文章主要介紹了【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第262期】Fri, 6 Oct 2023。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

AI視野·今日CS.CV 計(jì)算機(jī)視覺論文速覽
Fri, 6 Oct 2023
Totally 73 papers
??上期速覽?更多精彩請(qǐng)移步主頁(yè)

【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第262期】Fri, 6 Oct 2023,視覺,計(jì)算機(jī)視覺,Papers,計(jì)算機(jī)視覺,CV,NERF,圖像處理,Diffusion,Text2Image,LLM

Daily Computer Vision Papers

Improved Baselines with Visual Instruction Tuning
Authors Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee
大型多模態(tài)模型 LMM 最近在視覺指令調(diào)整方面取得了令人鼓舞的進(jìn)展。在這篇文章中,我們展示了 LLaVA 中完全連接的視覺語(yǔ)言跨模式連接器的強(qiáng)大功能和數(shù)據(jù)效率。通過對(duì) LLaVA 進(jìn)行簡(jiǎn)單修改,即使用帶有 MLP 投影的 CLIP ViT L 336px 并添加具有簡(jiǎn)單響應(yīng)格式提示的面向?qū)W術(shù)任務(wù)的 VQA 數(shù)據(jù),我們建立了更強(qiáng)大的基線,在 11 個(gè)基準(zhǔn)中實(shí)現(xiàn)了最先進(jìn)的水平。我們最終的 13B 檢查點(diǎn)僅使??用 1.2M 公開數(shù)據(jù),并在 1 天內(nèi)在單個(gè) 8 A100 節(jié)點(diǎn)上完成完整訓(xùn)練。我們希望這能讓最先進(jìn)的 LMM 研究更容易獲得。
ContactGen: Generative Contact Modeling for Grasp Generation
Authors Shaowei Liu, Yang Zhou, Jimei Yang, Saurabh Gupta, Shenlong Wang
本文提出了一種新穎的以對(duì)象為中心的接觸表示 ContactGen,用于手部對(duì)象交互。 ContactGen 包括三個(gè)組件:接觸圖指示接觸位置,部件圖表示接觸手部,方向圖告訴每個(gè)部件內(nèi)的接觸方向。給定一個(gè)輸入對(duì)象,我們提出了一個(gè)條件生成模型來(lái)預(yù)測(cè) ContactGen 并采用基于模型的優(yōu)化來(lái)預(yù)測(cè)多樣化且?guī)缀紊峡尚械淖ト?。?shí)驗(yàn)結(jié)果表明,我們的方法可以為各種物體生成高保真度和多樣化的人類抓握。
Aligning Text-to-Image Diffusion Models with Reward Backpropagation
Authors Mihir Prabhudesai, Anirudh Goyal, Deepak Pathak, Katerina Fragkiadaki
文本到圖像擴(kuò)散模型最近出現(xiàn)在圖像生成的最前沿,由大規(guī)模無(wú)監(jiān)督或弱監(jiān)督文本到圖像訓(xùn)練數(shù)據(jù)集提供支持。由于它們的訓(xùn)練不受監(jiān)督,控制它們?cè)谙掠稳蝿?wù)中的行為(例如最大化人類感知圖像質(zhì)量、圖像文本對(duì)齊或道德圖像生成)是很困難的。最近的工作使用普通強(qiáng)化學(xué)習(xí)將擴(kuò)散模型微調(diào)到下游獎(jiǎng)勵(lì)函數(shù),該學(xué)習(xí)因梯度估計(jì)器的高方差而臭名昭著。在本文中,我們提出了 AlignProp,一種通過去噪過程使用獎(jiǎng)勵(lì)梯度的端到端反向傳播將擴(kuò)散模型與下游獎(jiǎng)勵(lì)函數(shù)對(duì)齊的方法。雖然這種反向傳播的簡(jiǎn)單實(shí)現(xiàn)需要大量的內(nèi)存資源來(lái)存儲(chǔ)現(xiàn)代文本到圖像模型的偏導(dǎo)數(shù),但 AlignProp 微調(diào)低等級(jí)適配器權(quán)重模塊并使用梯度檢查點(diǎn),以使其內(nèi)存使用可行。我們測(cè)試 AlignProp,將擴(kuò)散模型微調(diào)到各種目標(biāo),例如圖像文本語(yǔ)義對(duì)齊、美觀、存在對(duì)象數(shù)量及其組合的可壓縮性和可控性。我們證明 AlignProp 比其他方案以更少的訓(xùn)練步驟獲得了更高的獎(jiǎng)勵(lì),同時(shí)概念上更簡(jiǎn)單,使其成為優(yōu)化擴(kuò)散模型以實(shí)現(xiàn)感興趣的可微分獎(jiǎng)勵(lì)函數(shù)的直接選擇。
Stylist: Style-Driven Feature Ranking for Robust Novelty Detection
Authors Stefan Smeu, Elena Burceanu, Emanuela Haller, Andrei Liviu Nicolicioiu
新穎性檢測(cè)旨在尋找與已見樣本的分布在某種形式上不同的樣本。但并非所有的改變都是平等的。數(shù)據(jù)可能會(huì)遭受多種分布變化,我們可能只想檢測(cè)某些類型的相關(guān)變化。與分布泛化中的工作類似,我們建議使用形式化方法將其分為與我們的任務(wù)相關(guān)的語(yǔ)義或內(nèi)容更改和與我們的任務(wù)無(wú)關(guān)的風(fēng)格更改。在這種形式化中,我們將穩(wěn)健的新穎性檢測(cè)定義為發(fā)現(xiàn)語(yǔ)義變化同時(shí)對(duì)風(fēng)格分布變化保持穩(wěn)健的任務(wù)。利用預(yù)訓(xùn)練的大規(guī)模模型表示,我們引入了 Stylist,這是一種專注于丟棄環(huán)境偏差特征的新穎方法。首先,我們根據(jù)環(huán)境之間的特征分布距離計(jì)算每個(gè)特征的得分。接下來(lái),我們展示了我們的選擇設(shè)法刪除了造成虛假相關(guān)性的特征并提高了新穎性檢測(cè)性能。為了進(jìn)行評(píng)估,我們將領(lǐng)域泛化數(shù)據(jù)集適應(yīng)我們的任務(wù)并分析方法的行為。我們還構(gòu)建了一個(gè)大型綜合數(shù)據(jù)集,我們可以在其中控制虛假相關(guān)程度。
Leveraging Unpaired Data for Vision-Language Generative Models via Cycle Consistency
Authors Tianhong Li, Sangnie Bhardwaj, Yonglong Tian, Han Zhang, Jarred Barber, Dina Katabi, Guillaume Lajoie, Huiwen Chang, Dilip Krishnan
當(dāng)前的視覺語(yǔ)言生成模型依賴于廣泛的配對(duì)圖像文本數(shù)據(jù)語(yǔ)料庫(kù)來(lái)獲得最佳性能和泛化能力。然而,自動(dòng)收集此類數(shù)據(jù),例如通過大規(guī)模網(wǎng)絡(luò)抓取會(huì)導(dǎo)致質(zhì)量低下和圖像文本相關(guān)性差,而人工注釋更準(zhǔn)確,但需要大量的手動(dòng)工作和費(fèi)用。我們引入了textbf ITIT textbf In textbf Tegrating textbf I mage textbf T ext ,這是一種基于循環(huán)一致性概念的創(chuàng)新訓(xùn)練范式,允許對(duì)不成對(duì)的圖像和文本數(shù)據(jù)進(jìn)行視覺語(yǔ)言訓(xùn)練。 ITIT 由聯(lián)合圖像文本編碼器和不相交的圖像和文本解碼器組成,可在單個(gè)框架中實(shí)現(xiàn)雙向圖像到文本和文本到圖像的生成。在訓(xùn)練過程中,ITIT 利用一小組配對(duì)圖像文本數(shù)據(jù)來(lái)確保其輸出在兩個(gè)方向上與輸入相當(dāng)匹配。同時(shí),該模型還在僅包含圖像或文本的更大數(shù)據(jù)集上進(jìn)行訓(xùn)練。這是通過強(qiáng)制原始未配對(duì)樣本和循環(huán)生成的對(duì)應(yīng)樣本之間的循環(huán)一致性來(lái)實(shí)現(xiàn)的。例如,它為給定的輸入圖像生成標(biāo)題,然后使用該標(biāo)題創(chuàng)建輸出圖像,并強(qiáng)制輸入和輸出圖像之間的相似性。我們的實(shí)驗(yàn)表明,使用不配對(duì)數(shù)據(jù)集的 ITIT 表現(xiàn)出與使用高質(zhì)量配對(duì)數(shù)據(jù)相似的縮放行為。
Drag View: Generalizable Novel View Synthesis with Unposed Imagery
Authors Zhiwen Fan, Panwang Pan, Peihao Wang, Yifan Jiang, Hanwen Jiang, Dejia Xu, Zehao Zhu, Dilin Wang, Zhangyang Wang
我們介紹 DragView,一種新穎的交互式框架,用于生成未見過的場(chǎng)景的新穎視圖。 DragView 從單個(gè)源圖像初始化新視圖,并且渲染由一組稀疏的未擺設(shè)的多視圖圖像支持,所有這些都在單個(gè)前饋傳遞中無(wú)縫執(zhí)行。我們的方法從用戶通過本地相對(duì)坐標(biāo)系拖動(dòng)源視圖開始。通過將采樣的 3D 點(diǎn)沿著目標(biāo)射線投影到源視圖上來(lái)獲得像素對(duì)齊的特征。然后,我們合并一個(gè)依賴于視圖的調(diào)制層,以有效地處理投影期間的遮擋。此外,我們擴(kuò)大了對(duì)極注意力機(jī)制以涵蓋所有源像素,從而促進(jìn)來(lái)自其他未設(shè)定視圖的初始化坐標(biāo)對(duì)齊點(diǎn)特征的聚合。最后,我們使用另一個(gè)轉(zhuǎn)換器將光線特征解碼為最終的像素強(qiáng)度。至關(guān)重要的是,我們的框架不依賴于 2D 先驗(yàn)?zāi)P突蛳鄼C(jī)姿勢(shì)的顯式估計(jì)。在測(cè)試過程中,DragView 展示了泛化到訓(xùn)練期間未見過的新場(chǎng)景的能力,并且僅利用未擺姿勢(shì)的支持圖像,從而能夠生成以靈活的相機(jī)軌跡為特征的照片逼真的新視圖。在我們的實(shí)驗(yàn)中,我們對(duì) DragView 與在無(wú)姿勢(shì)條件下運(yùn)行的最新場(chǎng)景表示網(wǎng)絡(luò)以及受噪聲測(cè)試相機(jī)姿勢(shì)影響的可推廣 NeRF 的性能進(jìn)行了全面比較。 DragView 始終展現(xiàn)出其在視圖合成質(zhì)量方面的卓越性能,同時(shí)也更加用戶友好。
Regress Before Construct: Regress Autoencoder for Point Cloud Self-supervised Learning
Authors Yang Liu, Chen Chen, Can Wang, Xulin King, Mengyuan Liu
Masked Autoencoders MAE 在 2D 和 3D 計(jì)算機(jī)視覺的自監(jiān)督學(xué)習(xí)中表現(xiàn)出了良好的性能。然而,現(xiàn)有的基于 MAE 的方法仍然存在一定的缺陷。首先,編碼器和解碼器之間的功能解耦不完整,限制了編碼器的表示學(xué)習(xí)能力。其次,下游任務(wù)僅利用編碼器,未能充分利用前置任務(wù)中通過編碼器解碼器架構(gòu)獲取的知識(shí)。在本文中,我們提出了 Point Regress AutoEncoder Point RAE,這是一種用于點(diǎn)云自監(jiān)督學(xué)習(xí)的回歸自動(dòng)編碼器的新方案。所提出的方法通過引入掩?;貧w器來(lái)解耦解碼器和編碼器之間的功能,該回歸器根據(jù)編碼器編碼的可見補(bǔ)丁表示來(lái)預(yù)測(cè)掩模補(bǔ)丁表示,并且解碼器根據(jù)預(yù)測(cè)的掩模補(bǔ)丁表示來(lái)重建目標(biāo)。通過這樣做,我們可以最大限度地減少解碼器更新對(duì)編碼器表示空間的影響。此外,我們引入了對(duì)齊約束,以確保從可見補(bǔ)丁的編碼表示預(yù)測(cè)的蒙版補(bǔ)丁的表示與從編碼器計(jì)算的蒙版補(bǔ)丁表示對(duì)齊。為了充分利用預(yù)訓(xùn)練階段學(xué)到的知識(shí),我們?yōu)樗岢龅狞c(diǎn) RAE 設(shè)計(jì)了一種新的微調(diào)模式。大量的實(shí)驗(yàn)表明,我們的方法在預(yù)訓(xùn)練期間是有效的,并且可以很好地概括各種下游任務(wù)。具體來(lái)說,我們的預(yù)訓(xùn)練模型在 ScanObjectNN 最難分割上實(shí)現(xiàn)了 textbf 90.28 的高精度,在 ModelNet40 上實(shí)現(xiàn)了 textbf 94.1 的高精度,超越了所有其他自監(jiān)督學(xué)習(xí)方法。
LumiNet: The Bright Side of Perceptual Knowledge Distillation
Authors Md. Ismail Hossain, M M Lutfe Elahi, Sameera Ramasinghe, Ali Cheraghian, Fuad Rahman, Nabeel Mohammed, Shafin Rahman
在知識(shí)蒸餾研究中,基于特征的方法由于能夠有效利用廣泛的教師模型而占據(jù)主導(dǎo)地位。相比之下,基于邏輯的方法被認(rèn)為不太擅長(zhǎng)從教師那里提取隱藏的黑暗知識(shí)。為了彌補(bǔ)這一差距,我們提出了 LumiNet,這是一種新穎的知識(shí)轉(zhuǎn)移算法,旨在增強(qiáng)基于 Logit 的蒸餾。我們引入了一個(gè)感知矩陣,旨在通過基于模型表示能力的調(diào)整來(lái)重新校準(zhǔn) logits。通過細(xì)致地分析班級(jí)內(nèi)動(dòng)態(tài),LumiNet 重建了更精細(xì)的班級(jí)間關(guān)系,使學(xué)生模型能夠?qū)W習(xí)更豐富的知識(shí)廣度。教師和學(xué)生模型都映射到這個(gè)精致的矩陣上,學(xué)生的目標(biāo)是盡量減少表征差異。對(duì)基準(zhǔn)數(shù)據(jù)集 CIFAR 100、ImageNet 和 MSCOCO 的嚴(yán)格測(cè)試證明了 LumiNet 的功效,揭示了其相對(duì)于領(lǐng)先的基于特征的方法的競(jìng)爭(zhēng)優(yōu)勢(shì)。此外,在探索遷移學(xué)習(xí)領(lǐng)域時(shí),我們?cè)u(píng)估了使用我們的方法訓(xùn)練的學(xué)生模型如何有效地適應(yīng)下游任務(wù)。值得注意的是,當(dāng)應(yīng)用于 Tiny ImageNet 時(shí),轉(zhuǎn)移的特征表現(xiàn)出卓越的性能,進(jìn)一步強(qiáng)調(diào)了 LumiNet 在不同設(shè)置中的多功能性和魯棒性。
Robustness-Guided Image Synthesis for Data-Free Quantization
Authors Jianhong Bai, Yuchen Yang, Huanpeng Chu, Hualiang Wang, Zuozhu Liu, Ruizhe Chen, Xiaoxuan He, Lianrui Mu, Chengfei Cai, Haoji Hu
量化已成為模型壓縮的一個(gè)有前途的方向。最近,無(wú)數(shù)據(jù)量化作為一種??避免隱私問題的有前途的方法得到了廣泛研究,它合成圖像作為真實(shí)訓(xùn)練數(shù)據(jù)的替代方案?,F(xiàn)有方法使用分類損失來(lái)確保合成圖像的可靠性。不幸的是,即使這些圖像被預(yù)先訓(xùn)練的模型很好地分類,它們?nèi)匀淮嬖诘驼Z(yǔ)義和同質(zhì)化問題。直觀上,這些低語(yǔ)義圖像對(duì)擾動(dòng)很敏感,當(dāng)生成器合成低語(yǔ)義圖像時(shí),預(yù)訓(xùn)練模型往往會(huì)產(chǎn)生不一致的輸出。為此,我們提出了魯棒性引導(dǎo)圖像合成RIS,這是一種簡(jiǎn)單但有效的方法,可以豐富合成圖像的語(yǔ)義并提高圖像多樣性,進(jìn)一步提高下游無(wú)數(shù)據(jù)壓縮任務(wù)的性能。具體來(lái)說,我們首先引入對(duì)輸入和模型權(quán)重的擾動(dòng),然后定義擾動(dòng)前后特征和預(yù)測(cè)級(jí)別的不一致性度量。在兩個(gè)層面不一致的基礎(chǔ)上,我們?cè)O(shè)計(jì)了魯棒性優(yōu)化目標(biāo)來(lái)增強(qiáng)合成圖像的語(yǔ)義。此外,我們還通過強(qiáng)制生成器合成標(biāo)簽空間中相關(guān)性較小的圖像來(lái)使我們的方法具有多樣性意識(shí)。
Visual inspection for illicit items in X-ray images using Deep Learning
Authors Ioannis Mademlis, Georgios Batsis, Adamantia Anna Rebolledo Chrysochoou, Georgios Th. Papadopoulos
自動(dòng)檢測(cè) X 射線圖像中的違禁物品可以顯著提高公共安全,提高機(jī)場(chǎng)、地鐵、海關(guān)郵局等安檢人員的工作效率并減輕其精神負(fù)擔(dān)。等等,在高峰時(shí)段實(shí)際上使它成為一個(gè)大數(shù)據(jù)問題。事實(shí)證明,依賴深度神經(jīng)網(wǎng)絡(luò) DNN 的現(xiàn)代計(jì)算機(jī)視覺算法即使在資源受限和嵌入式執(zhí)行場(chǎng)景下也能夠執(zhí)行此任務(wù),例如快速、單級(jí)目標(biāo)檢測(cè)器的情況。然而,尚未在通用評(píng)估協(xié)議下對(duì)各種相關(guān) DNN 組件方法進(jìn)行比較實(shí)驗(yàn)評(píng)估,這意味著缺少可靠的交叉方法比較。本文正是提出了這樣的比較評(píng)估,利用公共相關(guān)數(shù)據(jù)集和明確定義的方法來(lái)選擇正在評(píng)估的特定 DNN 組件模塊。
High-Degrees-of-Freedom Dynamic Neural Fields for Robot Self-Modeling and Motion Planning
Authors Lennart Schulze, Hod Lipson
機(jī)器人自身模型是機(jī)器人物理形態(tài)的與任務(wù)無(wú)關(guān)的表示,可在缺乏經(jīng)典幾何運(yùn)動(dòng)學(xué)模型的情況下用于運(yùn)動(dòng)規(guī)劃任務(wù)。特別是,當(dāng)后者難以設(shè)計(jì)或機(jī)器人的運(yùn)動(dòng)學(xué)發(fā)生意外變化時(shí),人類自由自我建模是真正自主代理的必要特征。在這項(xiàng)工作中,我們利用神經(jīng)場(chǎng)來(lái)允許機(jī)器人將其運(yùn)動(dòng)學(xué)自我建模為僅從用相機(jī)姿勢(shì)和配置注釋的 2D 圖像學(xué)習(xí)的神經(jīng)隱式查詢模型。與依賴于深度圖像或幾何知識(shí)的現(xiàn)有方法相比,這具有更大的適用性。為此,除了課程數(shù)據(jù)采樣策略之外,我們還提出了一種新的基于編碼器的神經(jīng)密度場(chǎng)架構(gòu),用于以大量自由度為條件的動(dòng)態(tài)對(duì)象為中心的場(chǎng)景。在 7 DOF 機(jī)器人測(cè)試設(shè)置中,學(xué)習(xí)的自我模型實(shí)現(xiàn)了機(jī)器人工作空間尺寸 2 的倒角 L2 距離。
Animatable Virtual Humans: Learning pose-dependent human representations in UV space for interactive performance synthesis
Authors Wieland Morgenstern, Milena T. Bagdasarian, Anna Hilsmann, Peter Eisert
我們提出了一種新穎的虛擬人表示方法,用于在 3D 應(yīng)用程序中實(shí)現(xiàn)高度逼真的實(shí)時(shí)動(dòng)畫和渲染。我們從最先進(jìn)的多視圖視頻重建獲得的高精度動(dòng)態(tài)網(wǎng)格序列中學(xué)習(xí)姿勢(shì)相關(guān)的外觀和幾何形狀。從網(wǎng)格序列中學(xué)習(xí)姿勢(shì)相關(guān)的外觀和幾何形狀提出了重大挑戰(zhàn),因?yàn)樗枰W(wǎng)絡(luò)學(xué)習(xí)人體復(fù)雜的形狀和關(guān)節(jié)運(yùn)動(dòng)。然而,像 SMPL 這樣的統(tǒng)計(jì)身體模型提供了寶貴的先驗(yàn)知識(shí),我們可以利用這些先驗(yàn)知識(shí)來(lái)限制搜索空間的維度,從而實(shí)現(xiàn)更高效、更有針對(duì)性的學(xué)習(xí)并定義姿勢(shì)依賴性。我們不是直接學(xué)習(xí)絕對(duì)姿態(tài)相關(guān)的幾何形狀,而是學(xué)習(xí)觀察到的幾何形狀和擬合的 SMPL 模型之間的差異。這使我們能夠在 SMPL 模型的一致 UV 空間中對(duì)姿勢(shì)相關(guān)的外觀和幾何進(jìn)行編碼。
Ctrl-Room: Controllable Text-to-3D Room Meshes Generation with Layout Constraints
Authors Chuan Fang, Xiaotao Hu, Kunming Luo, Ping Tan
文本驅(qū)動(dòng)的 3D 室內(nèi)場(chǎng)景生成可用于游戲、電影行業(yè)和 AR VR 應(yīng)用。然而,現(xiàn)有方法無(wú)法忠實(shí)地捕捉房間布局,也不允許靈活編輯房間中的各個(gè)對(duì)象。為了解決這些問題,我們推出了 Ctrl Room,它能夠僅通過文本提示生成具有設(shè)計(jì)師風(fēng)格布局和高保真紋理的令人信服的 3D 房間。此外,Ctrl Room 還支持多種交互式編輯操作,例如調(diào)整大小或移動(dòng)單個(gè)家具項(xiàng)目。我們的主要見解是將布局和外觀的建模分開。如何對(duì)同時(shí)考慮場(chǎng)景紋理和幾何形狀的房間進(jìn)行建模。為此,我們提出的方法由兩個(gè)階段組成:布局生成階段和外觀生成階段。布局生成階段訓(xùn)練文本條件擴(kuò)散模型,以通過我們的整體場(chǎng)景代碼參數(shù)化來(lái)學(xué)習(xí)布局分布。接下來(lái),外觀生成階段采用微調(diào)的 ControlNet,根據(jù) 3D 場(chǎng)景布局和文本提示生成生動(dòng)的房間全景圖像。通過這種方式,我們實(shí)現(xiàn)了具有令人信服的布局和生動(dòng)的紋理的高質(zhì)量 3D 房間。受益于場(chǎng)景代碼參數(shù)化,我們可以通過掩模引導(dǎo)編輯模塊輕松編輯生成的房間模型,而無(wú)需昂貴的編輯特定培訓(xùn)。
BID-NeRF: RGB-D image pose estimation with inverted Neural Radiance Fields
Authors goston Istv n Csehi, Csaba M t J zsa
我們的目標(biāo)是改進(jìn)反向神經(jīng)輻射場(chǎng) iNeRF 算法,該算法將圖像姿態(tài)估計(jì)問題定義為基于 NeRF 的迭代線性優(yōu)化。 NeRF 是新穎的神經(jīng)空間表示模型,可以合成現(xiàn)實(shí)世界場(chǎng)景或物體的逼真新穎視圖。我們的貢獻(xiàn)如下:我們使用基于深度的損失函數(shù)擴(kuò)展了定位優(yōu)化目標(biāo),我們引入了基于多圖像的損失函數(shù),其中使用具有已知相對(duì)姿勢(shì)的圖像序列而不增加計(jì)算復(fù)雜度,我們?cè)隗w積渲染期間省略了分層采樣,意味著僅使用粗略模型進(jìn)行姿態(tài)估計(jì),我們?nèi)绾瓮ㄟ^擴(kuò)展采樣間隔收斂來(lái)實(shí)現(xiàn)甚至或更高的初始姿態(tài)估計(jì)誤差。
Towards Unified Deep Image Deraining: A Survey and A New Benchmark
Authors Xiang Chen, Jinshan Pan, Jiangxin Dong, Jinhui Tang
近年來(lái),由于有效的圖像先驗(yàn)和深度學(xué)習(xí)模型的出現(xiàn),圖像去雨方面取得了重大進(jìn)展。由于每種除雨方法都有單獨(dú)的設(shè)置,例如訓(xùn)練和測(cè)試數(shù)據(jù)集、評(píng)估標(biāo)準(zhǔn),因此如何公平地全面評(píng)估現(xiàn)有方法并不是一項(xiàng)簡(jiǎn)單的任務(wù)。盡管現(xiàn)有的調(diào)查旨在全面審查圖像除雨方法,但很少有研究側(cè)重于提供統(tǒng)一的評(píng)估設(shè)置來(lái)檢驗(yàn)圖像除雨能力和實(shí)用性評(píng)估。在本文中,我們對(duì)現(xiàn)有的圖像去雨方法進(jìn)行了全面的回顧,并提供了一個(gè)統(tǒng)一的評(píng)估設(shè)置來(lái)評(píng)估圖像去雨方法的性能。我們構(gòu)建了一個(gè)名為 HQ RAIN 的新高質(zhì)量基準(zhǔn)來(lái)進(jìn)一步進(jìn)行廣泛的評(píng)估,該基準(zhǔn)由 5,000 配對(duì)的具有更高和諧性和真實(shí)感的高分辨率合成圖像組成。我們還討論了現(xiàn)有的挑戰(zhàn),并強(qiáng)調(diào)了一些值得探索的未來(lái)研究機(jī)會(huì)。為了方便廣大用戶復(fù)制和跟蹤最新的除雨技術(shù),我們建立了一個(gè)在線平臺(tái),提供現(xiàn)成的工具包,涉及大規(guī)模的性能評(píng)估。
3D-Aware Hypothesis & Verification for Generalizable Relative Object Pose Estimation
Authors Chen Zhao, Tong Zhang, Mathieu Salzmann
解決可概括的物體姿態(tài)估計(jì)問題的現(xiàn)有方法高度依賴于對(duì)未見物體的密集視圖。相比之下,我們解決的是只有對(duì)象的單個(gè)參考視圖可用的情況。我們的目標(biāo)是估計(jì)該參考視圖和以不同姿勢(shì)描繪對(duì)象的查詢圖像之間的相對(duì)對(duì)象姿勢(shì)。在這種情況下,由于測(cè)試期間存在看不見的對(duì)象以及參考和查詢之間的大規(guī)模對(duì)象構(gòu)成變化,因此魯棒的泛化勢(shì)在必行。為此,我們提出了一種新的假設(shè)和驗(yàn)證框架,在該框架中我們生成并評(píng)估多個(gè)姿勢(shì)假設(shè),最終選擇最可靠的一個(gè)作為相對(duì)對(duì)象姿勢(shì)。為了衡量可靠性,我們引入了 3D 感知驗(yàn)證,該驗(yàn)證將 3D 變換顯式應(yīng)用于從兩個(gè)輸入圖像中學(xué)習(xí)到的 3D 對(duì)象表示。
V2X Cooperative Perception for Autonomous Driving: Recent Advances and Challenges
Authors Tao Huang, Jianan Liu, Xi Zhou, Dinh C. Nguyen, Mostafa Rahimi Azghadi, Yuxuan Xia, Qing Long Han, Sumei Sun
準(zhǔn)確的感知對(duì)于推進(jìn)自動(dòng)駕駛和解決現(xiàn)代交通系統(tǒng)的安全挑戰(zhàn)至關(guān)重要。盡管計(jì)算機(jī)視覺在物體識(shí)別方面取得了重大進(jìn)展,但當(dāng)前的感知方法在復(fù)雜的現(xiàn)實(shí)世界交通環(huán)境中仍然面臨困難。對(duì)于單個(gè)車輛系統(tǒng)來(lái)說,物理遮擋和有限的傳感器視野等挑戰(zhàn)仍然存在。配合車聯(lián)網(wǎng) V2X 技術(shù)的感知 CP 已成為克服這些障礙并增強(qiáng)駕駛自動(dòng)化系統(tǒng)的解決方案。雖然一些研究探索了 CP 的基本架構(gòu)和關(guān)鍵組件,但仍然缺乏對(duì)最新創(chuàng)新的全面總結(jié),特別是在 V2X 通信技術(shù)的背景下。為了彌補(bǔ)這一差距,本文全面概述了 CP 技術(shù)的演變,從早期探索到最新發(fā)展,包括 V2X 通信技術(shù)的進(jìn)步。此外,還提出了一個(gè)當(dāng)代通用框架來(lái)說明基于 V2X 的 CP 工作流程,有助于對(duì) CP 系統(tǒng)組件的結(jié)構(gòu)化理解。此外,本文還根據(jù)當(dāng)前基于 V2X 的 CP 方法所解決的關(guān)鍵問題對(duì)它們進(jìn)行了分類。在該分類法中進(jìn)行了廣泛的文獻(xiàn)綜述,評(píng)估了現(xiàn)有的數(shù)據(jù)集和模擬器。
PrototypeFormer: Learning to Explore Prototype Relationships for Few-shot Image Classification
Authors Feihong He, Gang Li, Lingyu Si, Leilei Yan, Fanzhang Li, Fuchun Sun
很少有鏡頭圖像分類因解決新類別中樣本有限而分類性能不佳的挑戰(zhàn)而受到相當(dāng)大的關(guān)注。然而,許多研究采用復(fù)雜的學(xué)習(xí)策略和多樣化的特征提取方法來(lái)解決這個(gè)問題。在本文中,我們提出了名為 PrototypeFormer 的方法,該方法旨在通過探索原型關(guān)系來(lái)顯著推進(jìn)傳統(tǒng)的少鏡頭圖像分類方法。具體來(lái)說,我們利用變壓器架構(gòu)來(lái)構(gòu)建原型提取模塊,旨在提取對(duì)少數(shù)鏡頭分類更具辨別力的類表示。此外,在模型訓(xùn)練過程中,我們提出了一種基于對(duì)比學(xué)習(xí)的優(yōu)化方法,以在少數(shù)鏡頭學(xué)習(xí)場(chǎng)景中優(yōu)化原型特征。盡管很簡(jiǎn)單,但該方法的性能非常好,沒有任何花里胡哨的東西。我們已經(jīng)在幾個(gè)流行的少數(shù)鏡頭圖像分類基準(zhǔn)數(shù)據(jù)集上對(duì)我們的方法進(jìn)行了實(shí)驗(yàn),這表明我們的方法優(yōu)于當(dāng)前所有最先進(jìn)的方法。特別是,我們的方法在 miniImageNet 的 5 way 5 shot 和 5 way 1 shot 任務(wù)上達(dá)到了 97.07 和 90.88,分別以 7.27 和 8.72 的準(zhǔn)確率超越了最先進(jìn)的結(jié)果。
Exploring DINO: Emergent Properties and Limitations for Synthetic Aperture Radar Imagery
Authors Joseph A. Gallego Mejia, Anna Jungbluth, Laura Mart nez Ferrer, Matt Allen, Francisco Dorr, Freddie Kalaitzis, Ra l Ramos Poll n
自監(jiān)督學(xué)習(xí) SSL 模型最近在各種任務(wù)(包括圖像分割)中表現(xiàn)出了卓越的性能。本研究深入研究了無(wú)標(biāo)簽 DINO 算法自蒸餾的新特征及其在合成孔徑雷達(dá) SAR 圖像中的應(yīng)用。我們使用未標(biāo)記的 SAR 數(shù)據(jù)預(yù)訓(xùn)練基于視覺變換器 ViT 的 DINO 模型,然后微調(diào)模型以預(yù)測(cè)高分辨率土地覆蓋圖。我們嚴(yán)格評(píng)估 ViT 主干生成的注意力圖的效用,并將其與模型的令牌嵌入空間進(jìn)行比較。我們觀察到與從頭開始訓(xùn)練相比,預(yù)訓(xùn)練的模型性能略有提高,并討論了 SSL 在遙感和土地覆蓋分割方面的局限性和機(jī)遇。除了性能的小幅提升之外,我們還表明 ViT 注意力圖對(duì)于遙感具有巨大的內(nèi)在價(jià)值,并且可以為其他算法提供有用的輸入。
RL-based Stateful Neural Adaptive Sampling and Denoising for Real-Time Path Tracing
Authors Antoine Scardigli, Lukas Cavigelli, Lorenz K. M ller
蒙特卡羅路徑追蹤是一種用于逼真圖像合成的強(qiáng)大技術(shù),但在低樣本數(shù)時(shí)會(huì)受到高水平噪聲的影響,限制了其在實(shí)時(shí)應(yīng)用中的使用。為了解決這個(gè)問題,我們提出了一個(gè)框架,對(duì)采樣重要性網(wǎng)絡(luò)、潛在空間編碼器網(wǎng)絡(luò)和降噪器網(wǎng)絡(luò)進(jìn)行端到端訓(xùn)練。我們的方法使用強(qiáng)化學(xué)習(xí)來(lái)優(yōu)化采樣重要性網(wǎng)絡(luò),從而避免顯式的數(shù)值近似梯度。我們的方法不會(huì)通過平均來(lái)聚合每個(gè)像素的采樣值,而是保留所有采樣值,然后將其饋送到潛在空間編碼器中。編碼器通過學(xué)習(xí)潛在空間中的表示來(lái)取代手工制作的時(shí)空啟發(fā)法。最后,訓(xùn)練神經(jīng)降噪器來(lái)細(xì)化輸出圖像。
Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion
Authors Anton Razzhigaev, Arseniy Shakhmatov, Anastasia Maltseva, Vladimir Arkhipkin, Igor Pavlov, Ilya Ryabov, Angelina Kuts, Alexander Panchenko, Andrey Kuznetsov, Denis Dimitrov
文本到圖像的生成是現(xiàn)代計(jì)算機(jī)視覺中的一個(gè)重要領(lǐng)域,并且通過生成架構(gòu)的發(fā)展取得了實(shí)質(zhì)性的改進(jìn)。其中,基于擴(kuò)散的模型已經(jīng)證明了基本的質(zhì)量增強(qiáng)。這些模型通常分為兩類:像素級(jí)方法和潛在級(jí)方法。我們提出了 Kandinsky1,這是一種對(duì)潛在擴(kuò)散架構(gòu)的新穎探索,將圖像先驗(yàn)?zāi)P偷脑砼c潛在擴(kuò)散技術(shù)相結(jié)合。圖像先驗(yàn)?zāi)P捅粏为?dú)訓(xùn)練,以將文本嵌入映射到 CLIP 的圖像嵌入。該模型的另一個(gè)顯著特征是改進(jìn)的 MoVQ 實(shí)現(xiàn),它充當(dāng)圖像自動(dòng)編碼器組件。總體而言,設(shè)計(jì)的模型包含3.3B個(gè)參數(shù)。我們還部署了一個(gè)用戶友好的演示系統(tǒng),支持多種生成模式,例如文本到圖像生成、圖像融合、文本和圖像融合、圖像變體生成和文本引導(dǎo)修復(fù)修復(fù)。此外,我們還發(fā)布了康定斯基模型的源代碼和檢查點(diǎn)。
Ammonia-Net: A Multi-task Joint Learning Model for Multi-class Segmentation and Classification in Tooth-marked Tongue Diagnosis
Authors Shunkai Shi, Yuqi Wang, Qihui Ye, Yanran Wang, Yiming Zhu, Muhammad Hassan, Aikaterini Melliou, Dongmei Yu
在中醫(yī)看來(lái),舌頭上的齒痕是由于長(zhǎng)期牙齒受壓而產(chǎn)生的,是評(píng)估氣陽(yáng)虛弱的重要指標(biāo),而氣陽(yáng)虛弱與內(nèi)臟健康有著內(nèi)在的聯(lián)系。齒痕舌的手動(dòng)診斷完全依賴于經(jīng)驗(yàn)。盡管如此,牙印形狀、顏色和類型的多樣性對(duì)診斷的準(zhǔn)確性和一致性提出了挑戰(zhàn)。為了解決這些問題,我們提出了一種名為 Ammonia Net 的多任務(wù)聯(lián)合學(xué)習(xí)模型。該模型采用基于卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu),專為舌頭圖像的多類分割和分類而設(shè)計(jì)。 Ammonia Net 對(duì)舌頭圖像進(jìn)行語(yǔ)義分割,以識(shí)別舌痕和牙痕。在分割輸出的幫助下,它將圖像分類為所需數(shù)量的類健康舌、輕度舌、中度舌和重度舌。據(jù)我們所知,這是將牙痕語(yǔ)義分割結(jié)果應(yīng)用于牙痕舌分類的首次嘗試。為了訓(xùn)練 Ammonia Net,我們收集了 856 名受試者的 856 張舌頭圖像。經(jīng)過大量的大量實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,所提出的模型在牙標(biāo)舌識(shí)別的二類分類任務(wù)中達(dá)到了 99.06 的準(zhǔn)確率和 80.02 的準(zhǔn)確率。
Multi-Resolution Audio-Visual Feature Fusion for Temporal Action Localization
Authors Edward Fish, Jon Weinbren, Andrew Gilbert
時(shí)間動(dòng)作本地化 TAL 旨在識(shí)別未修剪視頻中的動(dòng)作開始、結(jié)束和類標(biāo)簽。雖然最近使用 Transformer 網(wǎng)絡(luò)和特征金字塔網(wǎng)絡(luò) FPN 的進(jìn)步增強(qiáng)了 TAL 任務(wù)中的視覺特征識(shí)別,但在將音頻特征集成到此類框架中方面進(jìn)展甚微。本文介紹了多分辨率視聽特征融合 MRAV FF,這是一種跨不同時(shí)間分辨率合并視聽數(shù)據(jù)的創(chuàng)新方法。我們方法的核心是分層門控交叉注意機(jī)制,該機(jī)制能夠敏銳地權(quán)衡不同時(shí)間尺度下音頻信息的重要性。這種技術(shù)不僅提高了回歸邊界的精度,而且還增強(qiáng)了分類置信度。
Mitigating the Influence of Domain Shift in Skin Lesion Classification: A Benchmark Study of Unsupervised Domain Adaptation Methods on Dermoscopic Images
Authors Sireesha Chamarthi, Katharina Fogelberg, Roman C. Maron, Titus J. Brinker, Julia Niebling
深度神經(jīng)網(wǎng)絡(luò)在皮膚病變分類方面的潛力已被證明與皮膚科醫(yī)生的診斷不相上下,甚至優(yōu)于皮膚科醫(yī)生的診斷。然而,當(dāng)測(cè)試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)顯著不同(即域轉(zhuǎn)移)時(shí),這些模型的性能通常會(huì)惡化。這對(duì)于用于現(xiàn)實(shí)世界皮膚病變分類任務(wù)的模型的限制給患者帶來(lái)了風(fēng)險(xiǎn)。例如,不同的圖像采集系統(tǒng)或患者身上以前未見過的解剖部位足以引起這種域的變化。因此,減輕此類轉(zhuǎn)變的負(fù)面影響至關(guān)重要,但事實(shí)證明,開發(fā)有效的方法來(lái)解決領(lǐng)域轉(zhuǎn)變具有挑戰(zhàn)性。在這項(xiàng)研究中,我們對(duì)八種不同的無(wú)監(jiān)督域適應(yīng)方法進(jìn)行了深入分析,以分析它們?cè)谔岣咂つw鏡數(shù)據(jù)集泛化方面的有效性。為了確保我們的研究結(jié)果的穩(wěn)健性,我們?cè)诳偣彩畟€(gè)不同的數(shù)據(jù)集上測(cè)試了每種方法,從而涵蓋了各種可能的領(lǐng)域轉(zhuǎn)變。此外,我們還研究了域轉(zhuǎn)移數(shù)據(jù)集中的哪些因素對(duì)域適應(yīng)方法的有效性有影響。我們的研究結(jié)果表明,所有八種領(lǐng)域適應(yīng)方法都能改善大多數(shù)分析數(shù)據(jù)集的 AUPRC??偠灾?,這些結(jié)果表明,無(wú)論域轉(zhuǎn)移的性質(zhì)如何,無(wú)監(jiān)督的域適應(yīng)通常都會(huì)導(dǎo)致二元黑色素瘤痣分類任務(wù)的性能提高。
Robust Zero Level-Set Extraction from Unsigned Distance Fields Based on Double Covering
Authors Fei Hou, Xuhui Chen, Wencheng Wang, Hong Qin, Ying He
在本文中,我們提出了一種稱為 DoubleCoverUDF 的新方法,用于從無(wú)符號(hào)距離場(chǎng) UDF 中提取零水平集。 DoubleCoverUDF 將學(xué)習(xí)的 UDF 和用戶指定的參數(shù) r(一個(gè)小的正實(shí)數(shù))作為輸入,并使用傳統(tǒng)的移動(dòng)立方體算法提取具有 iso 值 r 的 iso 曲面。我們表明,計(jì)算的等值面是目標(biāo)零水平集 S 的 r 偏移體積的邊界,無(wú)論 S 的拓?fù)淙绾?,它都是可定向流形。接下?lái),該算法計(jì)算覆蓋圖以將邊界網(wǎng)格投影到 S 上,保留網(wǎng)格的拓?fù)洳⒈苊庹郫B。如果 S 是可定向流形表面,我們的算法使用穩(wěn)健的最小切割后處理步驟將雙層網(wǎng)格分成單層。否則,它將保留雙層網(wǎng)格作為輸出。我們通過重建開放模型的 3D 表面來(lái)驗(yàn)證我們的算法,并在合成模型和基準(zhǔn)數(shù)據(jù)集上展示其功效和有效性。我們的實(shí)驗(yàn)結(jié)果證實(shí),我們的方法是穩(wěn)健的,并且在視覺評(píng)估和定量測(cè)量方面產(chǎn)生的網(wǎng)格質(zhì)量比現(xiàn)有的基于 UDF 的方法更好。
FreeReg: Image-to-Point Cloud Registration Leveraging Pretrained Diffusion Models and Monocular Depth Estimators
Authors Haiping Wang, Yuan Liu, Bing Wang, Yujing Sun, Zhen Dong, Wenping Wang, Bisheng Yang
匹配圖像和點(diǎn)云之間的跨模態(tài)特征是圖像到點(diǎn)云配準(zhǔn)的基本問題。然而,由于圖像和點(diǎn)之間的模態(tài)差異,通過現(xiàn)有的特征匹配度量學(xué)習(xí)??方法很難學(xué)習(xí)魯棒性和判別性的跨模態(tài)特征。我們建議首先通過預(yù)訓(xùn)練的大型模型來(lái)統(tǒng)一圖像和點(diǎn)云之間的模態(tài),然后在同一模態(tài)內(nèi)建立魯棒的對(duì)應(yīng)關(guān)系,而不是在跨模態(tài)數(shù)據(jù)上應(yīng)用度量學(xué)習(xí)。我們表明,通過深度到圖像擴(kuò)散模型提取的中間特征(稱為擴(kuò)散特征)在圖像和點(diǎn)云之間在語(yǔ)義上是一致的,這使得能夠構(gòu)建粗糙但魯棒的跨模態(tài)對(duì)應(yīng)。我們進(jìn)一步提取單目深度估計(jì)器生成的深度圖上的幾何特征。通過匹配此類幾何特征,我們顯著提高了擴(kuò)散特征產(chǎn)生的粗略對(duì)應(yīng)的準(zhǔn)確性。大量實(shí)驗(yàn)表明,無(wú)需任何特定任務(wù)的訓(xùn)練,直接利用這兩個(gè)特征即可產(chǎn)生準(zhǔn)確的圖像到點(diǎn)云配準(zhǔn)。
A Complementary Global and Local Knowledge Network for Ultrasound denoising with Fine-grained Refinement
Authors Zhenyu Bu, Kai Ni Wang, Fuxing Zhao, Shengxiao Li, Guang Quan Zhou
超聲成像是臨床檢查中常用的有效且非侵入性的診斷工具。然而,超聲圖像中散斑噪聲的存在總是會(huì)降低圖像質(zhì)量,阻礙后續(xù)任務(wù)(例如分割和分類)的性能?,F(xiàn)有的散斑降噪方法經(jīng)常會(huì)導(dǎo)致圖像過度平滑或無(wú)法充分保留詳細(xì)信息。在本文中,我們提出了一種互補(bǔ)的全局和局部知識(shí)網(wǎng)絡(luò),用于具有細(xì)粒度細(xì)化的超聲去噪。最初,所提出的架構(gòu)采用 L CSwinTransformer 作為編碼器來(lái)捕獲全局信息,并結(jié)合 CNN 作為解碼器來(lái)融合局部特征。與原始 CSwinTransformer 相比,我們?cè)诓煌A段擴(kuò)展了特征的分辨率,以提取更多的全局信息。隨后,我們將細(xì)粒度細(xì)化塊 FRB 集成到跳躍連接階段以進(jìn)一步增強(qiáng)功能。我們?cè)趦蓚€(gè)公共數(shù)據(jù)集 HC18 和 BUSI 上驗(yàn)證了我們的模型。實(shí)驗(yàn)結(jié)果表明,我們的模型在定量指標(biāo)和視覺表現(xiàn)方面都可以實(shí)現(xiàn)有競(jìng)爭(zhēng)力的表現(xiàn)。
Learning to Simplify Spatial-Temporal Graphs in Gait Analysis
Authors Adrian Cosma, Emilian Radoi
步態(tài)分析利用獨(dú)特的行走模式進(jìn)行跨多個(gè)領(lǐng)域的人員識(shí)別和評(píng)估。在用于步態(tài)分析的方法中,基于骨架的方法由于其穩(wěn)健且可解釋的特征而顯示出前景。然而,這些方法通常依賴于基于人體解剖學(xué)的手工制作的時(shí)空?qǐng)D,而忽略了數(shù)據(jù)集和任務(wù)的特殊性。本文提出了一種新方法來(lái)簡(jiǎn)化基于步態(tài)的性別估計(jì)的時(shí)空?qǐng)D表示,在不損失性能的情況下提高可解釋性。我們的方法采用兩個(gè)模型,上游模型和下游模型,可以調(diào)整每個(gè)步行實(shí)例的鄰接矩陣,從而消除圖的固定性質(zhì)。通過采用 Straight Through Gumbel Softmax 技巧,我們的模型可以進(jìn)行端到端訓(xùn)練。我們?cè)?CASIA B 數(shù)據(jù)集上證明了我們的方法對(duì)于基于步態(tài)的性別估計(jì)的有效性。生成的圖表是可解釋的,并且與現(xiàn)有模型中使用的固定圖表有質(zhì)的不同。
OpenPatch: a 3D patchwork for Out-Of-Distribution detectionpdf icon
Authors Paolo Rabino, Antonio Alliegro, Francesco Cappio Borlino, Tatiana Tommasi
將深度學(xué)習(xí)模型從實(shí)驗(yàn)室環(huán)境轉(zhuǎn)移到開放世界需要讓它們做好應(yīng)對(duì)不可預(yù)見條件的準(zhǔn)備。在一些應(yīng)用程序中,部署過程中出現(xiàn)的新類會(huì)帶來(lái)重大威脅,因此有效檢測(cè)它們至關(guān)重要。理想情況下,應(yīng)該在需要時(shí)使用這項(xiàng)技能,而不需要在每個(gè)新任務(wù)中進(jìn)行任何進(jìn)一步的計(jì)算訓(xùn)練。分布外檢測(cè)在過去幾年中引起了極大的關(guān)注,但是大多數(shù)研究涉及 2D 圖像,忽略了現(xiàn)實(shí)世界固有的 3D 性質(zhì),并且經(jīng)?;煜I(lǐng)域和語(yǔ)義新穎性。在這項(xiàng)工作中,我們關(guān)注后者,考慮 3D 點(diǎn)云捕獲的對(duì)象幾何結(jié)構(gòu),而不考慮特定領(lǐng)域。我們通過引入 OpenPatch 來(lái)推進(jìn)該領(lǐng)域的發(fā)展,它建立在大型預(yù)訓(xùn)練模型的基礎(chǔ)上,并簡(jiǎn)單地從其中間特征中提取一組描述每個(gè)已知類別的補(bǔ)丁表示。對(duì)于任何新樣本,我們通過評(píng)估它是否可以主要通過單個(gè)已知類的補(bǔ)丁或更確切地說通過多個(gè)類的貢獻(xiàn)來(lái)重構(gòu)來(lái)獲得新穎性分?jǐn)?shù)。當(dāng)參考已知數(shù)據(jù)是合成的時(shí),我們對(duì)現(xiàn)實(shí)世界點(diǎn)云樣本的語(yǔ)義新穎性檢測(cè)任務(wù)的方法進(jìn)行了廣泛的實(shí)驗(yàn)評(píng)估。我們證明 OpenPatch 在完整和少量已知樣本場(chǎng)景中均表現(xiàn)出色,展示了其在不同預(yù)訓(xùn)練目標(biāo)和網(wǎng)絡(luò)主干上的穩(wěn)健性。
ACT-Net: Anchor-context Action Detection in Surgery Videos
Authors Luoying Hao, Yan Hu, Wenjun Lin, Qun Wang, Heng Li, Huazhu Fu, Jinming Duan, Jiang Liu
手術(shù)細(xì)節(jié)動(dòng)作的識(shí)別和定位是開發(fā)上下文感知決策支持系統(tǒng)的重要組成部分。然而,大多數(shù)現(xiàn)有的檢測(cè)算法即使有位置也無(wú)法提供高精度的動(dòng)作類,因?yàn)樗鼈儧]有考慮手術(shù)過程在整個(gè)視頻中的規(guī)律性。這種限制阻礙了它們的應(yīng)用。此外,在臨床應(yīng)用中實(shí)施預(yù)測(cè)需要認(rèn)真?zhèn)鬟_(dá)模型置信度以贏得信任,這在手術(shù)動(dòng)作預(yù)測(cè)中尚未探索。在本文中,為了準(zhǔn)確檢測(cè)每時(shí)每刻發(fā)生的細(xì)粒度動(dòng)作,我們提出了一種錨上下文動(dòng)作檢測(cè)網(wǎng)絡(luò) ACTNet ,包括錨上下文檢測(cè) ACD 模塊和類條件擴(kuò)散 CCD 模塊,以回答以下問題 1 動(dòng)作在哪里發(fā)生 2 采取什么行動(dòng) 3 置信度預(yù)測(cè)如何。具體來(lái)說,所提出的 ACD 模塊在空間和時(shí)間上突出顯示與手術(shù)視頻中提取的錨點(diǎn)交互的區(qū)域,該區(qū)域根據(jù)錨點(diǎn)上下文交互輸出動(dòng)作位置及其類別分布。考慮到視頻中動(dòng)作類別的完整分布,CCD 模塊采用基于 ACD 估計(jì)器的基于去噪擴(kuò)散的生成模型,以進(jìn)一步準(zhǔn)確地重建動(dòng)作預(yù)測(cè)。此外,我們利用擴(kuò)散模型輸出的隨機(jī)性來(lái)獲取每個(gè)預(yù)測(cè)的模型置信度。
Point-Based Radiance Fields for Controllable Human Motion Synthesis
Authors Haitao Yu, Deheng Zhang, Peiyuan Xie, Tianyi Zhang
本文提出了一種基于靜態(tài)點(diǎn)輻射場(chǎng)的精細(xì)變形可控人體運(yùn)動(dòng)合成方法。盡管以前的可編輯神經(jīng)輻射場(chǎng)方法可以在新穎的視圖合成上產(chǎn)生令人印象深刻的結(jié)果并允許簡(jiǎn)單變形,但很少有算法可以實(shí)現(xiàn)復(fù)雜的 3D 人類編輯,例如正向運(yùn)動(dòng)學(xué)。我們的方法利用顯式點(diǎn)云來(lái)訓(xùn)練靜態(tài) 3D 場(chǎng)景,并通過使用變形 MLP 對(duì)點(diǎn)云平移進(jìn)行編碼來(lái)應(yīng)用變形。為了確保渲染結(jié)果與規(guī)范空間訓(xùn)練一致,我們使用 SVD 估計(jì)局部旋轉(zhuǎn),并將每點(diǎn)旋轉(zhuǎn)插值到預(yù)訓(xùn)練的輻射場(chǎng)的查詢視圖方向。
Realistic Speech-to-Face Generation with Speech-Conditioned Latent Diffusion Model with Face Prior
Authors Jinting Wang, Li Liu, Jun Wang, Hei Victor Cheng
面部語(yǔ)音生成是一個(gè)有趣的研究領(lǐng)域,重點(diǎn)是根據(jù)說話者的音頻語(yǔ)音生成逼真的面部圖像。然而,采用基于 GAN 的架構(gòu)的最先進(jìn)方法缺乏穩(wěn)定性,并且無(wú)法生成逼真的面部圖像。為了填補(bǔ)這一空白,我們提出了一種新穎的面對(duì)面語(yǔ)音生成框架,該框架利用了稱為 SCLDM 的語(yǔ)音條件潛在擴(kuò)散模型。據(jù)我們所知,這是第一項(xiàng)利用擴(kuò)散模型的卓越建模能力來(lái)生成語(yǔ)音的工作。保留語(yǔ)音和面部之間共享的身份信息對(duì)于生成真實(shí)的結(jié)果至關(guān)重要。因此,我們對(duì)語(yǔ)音編碼器和面部編碼器都采用對(duì)比預(yù)訓(xùn)練。這種預(yù)訓(xùn)練策略有助于語(yǔ)音屬性(例如年齡和性別)與人臉圖像中相應(yīng)的面部特征之間的有效對(duì)齊。此外,我們還解決了由擴(kuò)散模型引起的合成過程中過度多樣性帶來(lái)的挑戰(zhàn)。為了克服這一挑戰(zhàn),我們通過在擴(kuò)散過程之前整合統(tǒng)計(jì)面來(lái)引入殘差的概念。這一添加有助于消除面部的共享成分,并增強(qiáng)語(yǔ)音條件捕獲的細(xì)微變化。廣泛的定量、定性和用戶研究實(shí)驗(yàn)表明,我們的方法可以產(chǎn)生更真實(shí)的面部圖像,同時(shí)比最先進(jìn)的方法更好地保留說話者的身份。
CSI: Enhancing the Robustness of 3D Point Cloud Recognition against Corruption
Authors Zhuoyuan Wu, Jiachen Sun, Chaowei Xiao
盡管點(diǎn)云識(shí)別的深度神經(jīng)網(wǎng)絡(luò)最近取得了進(jìn)展,但由于不可避免的數(shù)據(jù)損壞,現(xiàn)實(shí)世界的安全關(guān)鍵應(yīng)用面臨著挑戰(zhàn)。當(dāng)前的模型通常無(wú)法推廣到不可預(yù)見的分布變化。在本研究中,我們利用點(diǎn)云數(shù)據(jù)固有的集合屬性引入一種新穎的關(guān)鍵子集識(shí)別CSI方法,旨在增強(qiáng)面對(duì)數(shù)據(jù)損壞時(shí)的識(shí)別魯棒性。我們的 CSI 框架集成了兩個(gè)關(guān)鍵組件:密度感知采樣 DAS 和自熵最小化 SEM,分別迎合靜態(tài)和動(dòng)態(tài) CSI。 DAS 通過考慮局部密度來(lái)確保高效穩(wěn)健的錨點(diǎn)采樣,而 SEM 在訓(xùn)練過程中用于強(qiáng)調(diào)最顯著的點(diǎn)對(duì)點(diǎn)注意力。評(píng)估顯示,我們的 CSI 方法在 ModelNet40 C 和 PointCloud C 上的錯(cuò)誤率分別為 18.4 和 16.3,這標(biāo)志著在各自基準(zhǔn)上比最先進(jìn)的方法有了顯著的改進(jìn),分別提高了 5.2 和 4.2。
Robust Representation Learning via Asymmetric Negative Contrast and Reverse Attention
Authors Nuoyan Zhou, Decheng Liu, Dawei Zhou, Xinbo Gao, Nannan Wang
深度神經(jīng)網(wǎng)絡(luò)很容易受到對(duì)抗性噪聲的影響。對(duì)抗性訓(xùn)練 AT 已被證明是保護(hù)神經(jīng)網(wǎng)絡(luò)不被愚弄的最有效的防御策略。然而,我們發(fā)現(xiàn) AT 忽略了學(xué)習(xí)魯棒特征,導(dǎo)致對(duì)抗魯棒性表現(xiàn)不佳。為了解決這個(gè)問題,我們強(qiáng)調(diào)了魯棒表示的兩個(gè)特征:1bf排除自然示例的特征遠(yuǎn)離其他類的特征2bf對(duì)齊自然和相應(yīng)對(duì)抗性示例的特征彼此接近。這些促使我們提出一個(gè)通用的 AT 框架,通過不對(duì)稱的負(fù)對(duì)比和反向注意力來(lái)獲得魯棒的表示。具體來(lái)說,我們根據(jù)預(yù)測(cè)概率設(shè)計(jì)不對(duì)稱負(fù)對(duì)比度,以排除特征空間中不同類別的示例。此外,我們提出通過線性分類器的參數(shù)對(duì)特征進(jìn)行加權(quán)作為反向注意力,以獲得類感知特征并拉近同一類的特征。對(duì)三個(gè)基準(zhǔn)數(shù)據(jù)集的實(shí)證評(píng)估表明,我們的方法極大地提高了 AT 的魯棒性,并實(shí)現(xiàn)了最先進(jìn)的性能。
Combining Datasets with Different Label Sets for Improved Nucleus Segmentation and Classification
Authors Amruta Parulekar, Utkarsh Kanwat, Ravi Kant Gupta, Medha Chippa, Thomas Jacob, Tripti Bameta, Swapnil Rane, Amit Sethi
使用深度神經(jīng)網(wǎng)絡(luò) DNN 對(duì)組織病理學(xué)圖像中的細(xì)胞核進(jìn)行分割和分類,可以通過自動(dòng)化細(xì)胞計(jì)數(shù)和形態(tài)測(cè)量評(píng)估來(lái)節(jié)省病理學(xué)家診斷各種疾?。òò┌Y)的時(shí)間。現(xiàn)在眾所周知,DNN 的準(zhǔn)確性隨著可用于訓(xùn)練的帶注釋數(shù)據(jù)集的大小而增加。盡管具有核注釋和類別標(biāo)簽的組織病理學(xué)圖像的多個(gè)數(shù)據(jù)集已公開,但這些數(shù)據(jù)集中的類別標(biāo)簽集有所不同。我們提出了一種訓(xùn)練 DNN 的方法,用于在多個(gè)數(shù)據(jù)集上進(jìn)行實(shí)例分割和分類,其中跨數(shù)據(jù)集的類集相關(guān)但不相同。具體來(lái)說,我們的方法旨在利用從粗到細(xì)的類層次結(jié)構(gòu),其中數(shù)據(jù)集中標(biāo)記和注釋的類集可以位于層次結(jié)構(gòu)的任何級(jí)別,只要這些類是互斥的。在數(shù)據(jù)集中,類集甚至不需要位于類層次結(jié)構(gòu)樹的同一級(jí)別。我們的結(jié)果表明,數(shù)據(jù)集測(cè)試分割所使用的類集的分割和分類指標(biāo)可以通過對(duì)另一個(gè)數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練來(lái)改進(jìn),由于我們的方法啟用了訓(xùn)練集的擴(kuò)展,該數(shù)據(jù)集甚至可能具有不同的類集。此外,通過將多個(gè)其他數(shù)據(jù)集與不同的類集相結(jié)合進(jìn)行訓(xùn)練,也可以改進(jìn)對(duì)以前未見過的數(shù)據(jù)集的泛化。改進(jìn)是質(zhì)的和量的。
Denoising Diffusion Step-aware Models
Authors Shuai Yang, Yukang Chen, Luozhou Wang, Shu Liu, Yingcong Chen
去噪擴(kuò)散概率模型 DDPM 已在各個(gè)領(lǐng)域的數(shù)據(jù)生成中廣受歡迎。然而,一個(gè)重要的瓶頸是生成過程的每一步都需要進(jìn)行全網(wǎng)絡(luò)計(jì)算,從而導(dǎo)致較高的計(jì)算開銷。本文提出了一種新穎的框架,即去噪擴(kuò)散步驟感知模型 DDSM 來(lái)應(yīng)對(duì)這一挑戰(zhàn)。與傳統(tǒng)方法不同,DDSM 采用一系列神經(jīng)網(wǎng)絡(luò),其大小根據(jù)每個(gè)生成步驟的重要性進(jìn)行調(diào)整,通過進(jìn)化搜索確定。這種逐步的網(wǎng)絡(luò)變化有效地規(guī)避了冗余的計(jì)算工作,特別是在不太關(guān)鍵的步驟中,從而提高了擴(kuò)散模型的效率。此外,步驟感知設(shè)計(jì)可以與其他效率驅(qū)動(dòng)的擴(kuò)散模型(例如 DDIM 和潛在擴(kuò)散)無(wú)縫集成,從而擴(kuò)大了計(jì)算節(jié)省的范圍。實(shí)證評(píng)估表明,DDSM 為 CIFAR 10 節(jié)省了 49 計(jì)算量,為 CelebA HQ 節(jié)省了 61 計(jì)算量,為 LSUN 臥室節(jié)省了 59 計(jì)算量,為 AFHQ 節(jié)省了 71 計(jì)算量,為 ImageNet 節(jié)省了 76 計(jì)算量,所有這些都沒有影響生成質(zhì)量。
Continual Test-time Domain Adaptation via Dynamic Sample Selection
Authors Yanshuo Wang, Jie Hong, Ali Cheraghian, Shafin Rahman, David Ahmedt Aristizabal, Lars Petersson, Mehrtash Harandi
持續(xù)測(cè)試時(shí)域適應(yīng) CTDA 的目標(biāo)是在不訪問源數(shù)據(jù)的情況下逐漸使預(yù)訓(xùn)練模型適應(yīng)一系列目標(biāo)域。本文提出了一種CTDA動(dòng)態(tài)樣本選擇DSS方法。 DSS 由動(dòng)態(tài)閾值、正學(xué)習(xí)和負(fù)學(xué)習(xí)過程組成。傳統(tǒng)上,模型從未標(biāo)記的未知環(huán)境數(shù)據(jù)中學(xué)習(xí),并同樣依賴所有樣本偽標(biāo)簽通過自訓(xùn)練來(lái)更新其參數(shù)。然而,這些偽標(biāo)簽中存在噪聲預(yù)測(cè),因此并非所有樣本都同樣值得信賴。因此,在我們的方法中,首先設(shè)計(jì)動(dòng)態(tài)閾值模塊來(lái)從高質(zhì)量樣本中選擇可疑的低質(zhì)量樣本。所選的低質(zhì)量樣本更有可能被錯(cuò)誤預(yù)測(cè)。因此,我們對(duì)高質(zhì)量和低質(zhì)量樣本應(yīng)用聯(lián)合正負(fù)學(xué)習(xí),以降低使用錯(cuò)誤信息的風(fēng)險(xiǎn)。我們進(jìn)行了大量的實(shí)驗(yàn),證明了我們提出的 CTDA 方法在圖像領(lǐng)域的有效性,優(yōu)于最先進(jìn)的結(jié)果。
Real-time Multi-modal Object Detection and Tracking on Edge for Regulatory Compliance Monitoring
Authors Jia Syuen Lim, Ziwei Wang, Jiajun Liu, Abdelwahed Khamis, Reza Arablouei, Robert Barlow, Ryan McAllister
跨不同工業(yè)領(lǐng)域的監(jiān)管合規(guī)審計(jì)需??要加強(qiáng)質(zhì)量保證和可追溯性。目前的手動(dòng)和間歇性審計(jì)方法帶來(lái)了重大挑戰(zhàn),可能導(dǎo)致監(jiān)控過程中的疏忽。為了解決這些問題,我們引入了一種實(shí)時(shí)多模態(tài)傳感系統(tǒng),該系統(tǒng)采用 3D 飛行時(shí)間和 RGB 相機(jī),并結(jié)合邊緣 AI 設(shè)備上的無(wú)監(jiān)督學(xué)習(xí)技術(shù)。這使得連續(xù)的對(duì)象跟蹤成為可能,從而提高記錄保存的效率并最大限度地減少人工干預(yù)。
Investigating the Limitation of CLIP Models: The Worst-Performing Categories
Authors Jie Jing Shao, Jiang Xin Shi, Xiao Wen Yang, Lan Zhe Guo, Yu Feng Li
對(duì)比語(yǔ)言圖像預(yù)訓(xùn)練 CLIP 通過將自然語(yǔ)言集成到視覺概念中提供了基礎(chǔ)模型,從而實(shí)現(xiàn)了下游任務(wù)的零鏡頭識(shí)別。通常期望通過精心設(shè)計(jì)的文本提示可以在多個(gè)領(lǐng)域?qū)崿F(xiàn)令人滿意的整體準(zhǔn)確性。然而,我們發(fā)現(xiàn)他們?cè)谧畈铑悇e中的表現(xiàn)明顯遜色于整體表現(xiàn)。例如,在 ImageNet 上,盡管整體性能達(dá)到了 64.1 ,但總共有 10 個(gè)類別的類別精度低至 0 。這種現(xiàn)象揭示了與使用 CLIP 模型相關(guān)的潛在風(fēng)險(xiǎn),特別是在特定類別非常重要的風(fēng)險(xiǎn)敏感應(yīng)用中。為了解決這個(gè)問題,我們研究了 CLIP 模型中兩種模式之間的一致性,并提出了類明智匹配裕度 cmm 來(lái)衡量推理混亂。 cmm可以有效地識(shí)別表現(xiàn)最差的類別并估計(jì)候選提示的潛在表現(xiàn)。我們進(jìn)一步查詢大型語(yǔ)言模型以豐富對(duì)表現(xiàn)最差類別的描述,并構(gòu)建加權(quán)集成以突出有效的提示。
Can pre-trained models assist in dataset distillation?
Authors Yao Lu, Xuguang Chen, Yuchen Zhang, Jianyang Gu, Tianle Zhang, Yifan Zhang, Xiaoniu Yang, Qi Xuan, Kai Wang, Yang You
數(shù)據(jù)集蒸餾 DD 是一項(xiàng)重要的技術(shù),它將大規(guī)模原始數(shù)據(jù)集中的知識(shí)封裝到小型合成數(shù)據(jù)集中,以進(jìn)行高效訓(xùn)練。同時(shí),預(yù)訓(xùn)練模型 PTM 充當(dāng)知識(shí)庫(kù),包含來(lái)自原始數(shù)據(jù)集的大量信息。這自然提出了一個(gè)問題:PTMs能否有效地將知識(shí)轉(zhuǎn)移到合成數(shù)據(jù)集,從而準(zhǔn)確指導(dǎo)DD。為此,我們進(jìn)行了初步實(shí)驗(yàn),證實(shí)了PTMs對(duì)DD的貢獻(xiàn)。隨后,我們系統(tǒng)地研究了 PTM 中的不同選項(xiàng),包括初始化參數(shù)、模型架構(gòu)、訓(xùn)練周期和領(lǐng)域知識(shí),揭示了 1 增加模型多樣性可以增強(qiáng)合成數(shù)據(jù)集的性能 2 次優(yōu)模型也可以幫助 DD 并在以下方面優(yōu)于訓(xùn)練有素的模型某些情況 3 領(lǐng)域特定的 PTM 對(duì)于 DD 來(lái)說不是強(qiáng)制性的,但合理的領(lǐng)域匹配至關(guān)重要。最后,通過選擇最佳選項(xiàng),我們顯著提高了基線 DD 方法的跨架構(gòu)泛化能力。我們希望我們的工作能夠促進(jìn)研究人員開發(fā)更好的 DD 技術(shù)。
SimVLG: Simple and Efficient Pretraining of Visual Language Generative Models
Authors Yiren Jian, Tingkai Liu, Yunzhe Tao, Soroush Vosoughi, HX Yang
在本文中,我們提出了 SimVLG,這是一種用于計(jì)算密集型視覺語(yǔ)言生成模型預(yù)訓(xùn)練的簡(jiǎn)化框架,利用凍結(jié)的預(yù)訓(xùn)練大型語(yǔ)言模型 LLM。視覺語(yǔ)言預(yù)訓(xùn)練 VLP 中的主流范式通常涉及兩個(gè)階段的優(yōu)化過程,一個(gè)致力于通用視覺語(yǔ)言表示學(xué)習(xí)的初始資源密集階段,旨在提取和鞏固相關(guān)的視覺特征,然后是專注于端到端對(duì)齊的后續(xù)階段視覺和語(yǔ)言模式之間。我們的單階段單一損失框架通過在訓(xùn)練過程中逐漸合并相似的視覺標(biāo)記來(lái)規(guī)避上述計(jì)算要求較高的第一階段訓(xùn)練。這種逐漸合并的過程有效地壓縮了視覺信息,同時(shí)保留了語(yǔ)義內(nèi)容的豐富性,從而在不犧牲性能的情況下實(shí)現(xiàn)快速收斂。我們的實(shí)驗(yàn)表明,我們的方法可以將視覺語(yǔ)言模型的訓(xùn)練速度提高 5 倍,而不會(huì)對(duì)整體性能產(chǎn)生明顯影響。此外,我們還表明,我們的模型只需 1 10 的數(shù)據(jù)即可實(shí)現(xiàn)與當(dāng)前視覺語(yǔ)言模型相當(dāng)?shù)男阅堋?/font>
PoseAction: Action Recognition for Patients in the Ward using Deep Learning Approaches
Authors Zherui Li, Raye Chen Hua Yeow
實(shí)時(shí)智能檢測(cè)和預(yù)測(cè)受試者行為,特別是他們的動(dòng)作或動(dòng)作,在病房中至關(guān)重要。這種方法的優(yōu)點(diǎn)是可以降低醫(yī)院護(hù)理成本并提高醫(yī)護(hù)人員的效率,尤其是在夜間或入院高峰期的情況下。因此,在這項(xiàng)工作中,我們建議使用計(jì)算機(jī)視覺 CV 和深度學(xué)習(xí) DL 方法來(lái)檢測(cè)主體并識(shí)別他們的行為。我們利用 OpenPose 作為準(zhǔn)確的主體檢測(cè)器來(lái)識(shí)別視頻流中人類主體的位置。此外,我們采用 AlphAction 的異步交互聚合 AIA 網(wǎng)絡(luò)來(lái)預(yù)測(cè)檢測(cè)到的主體的行為。提出了這種集成模型,稱為 PoseAction。同時(shí),使用 NTU RGB D 和 NTU RGB D 120 數(shù)據(jù)集的醫(yī)療相關(guān)視頻片段,對(duì)所提出的模型進(jìn)行進(jìn)一步訓(xùn)練,以預(yù)測(cè)病房區(qū)域的 12 種常見動(dòng)作,例如搖搖晃晃、胸痛和跌倒。結(jié)果表明,PoseAction 實(shí)現(xiàn)了最高分類 mAP 98.72 IoU 0.5 。此外,本研究開發(fā)了一種在線實(shí)時(shí)動(dòng)作識(shí)別模式,有力支持了PoseAction的臨床轉(zhuǎn)化。此外,利用OpenPose的人臉關(guān)鍵點(diǎn)識(shí)別功能,我們還實(shí)現(xiàn)了人臉模糊,這是解決患者和醫(yī)護(hù)人員隱私保護(hù)問題的實(shí)用解決方案。然而,目前 PoseAction 的訓(xùn)練數(shù)據(jù)有限,特別是在標(biāo)簽多樣性方面。
Classifying Whole Slide Images: What Matters?
Authors Long Nguyen, Aiden Nibali, Joshua Millward, Zhen He
最近,已經(jīng)提出了許多用于對(duì)非常高分辨率的整個(gè)幻燈片圖像 WSI 進(jìn)行分類的算法。這些新算法主要專注于尋找新穎的方法來(lái)組合從幻燈片中提取的小局部補(bǔ)丁的信息,重點(diǎn)是為最終預(yù)測(cè)器有效聚合更多全局信息。在本文中,我們深入探討了 WSI 分類算法的不同關(guān)鍵設(shè)計(jì)選擇,以研究對(duì)于實(shí)現(xiàn)高精度而言最重要的因素。令人驚訝的是,我們發(fā)現(xiàn)捕獲全局上下文信息并不一定意味著更好的性能。捕獲最多全局信息的模型始終比捕獲較少全局信息的模型表現(xiàn)更差。此外,一種非常簡(jiǎn)單的不捕獲全局信息的多實(shí)例學(xué)習(xí)方法的性能幾乎與捕獲大量全局信息的模型一樣好。這些結(jié)果表明,有效 WSI 分類的最重要特征是在局部小斑塊水平上捕獲的,其中細(xì)胞和組織微環(huán)境細(xì)節(jié)最為明顯。另一個(gè)令人驚訝的發(fā)現(xiàn)是,與對(duì)包含目標(biāo)癌癥在內(nèi)的 7 種癌癥的較小數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練相比,對(duì)包含 33 種癌癥的較大數(shù)據(jù)集進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練的性能明顯較差。
Ablation Study to Clarify the Mechanism of Object Segmentation in Multi-Object Representation Learning
Authors Takayuki Komatsu, Yoshiyuki Ohmura, Yasuo Kuniyoshi
多對(duì)象表示學(xué)習(xí)旨在使用多個(gè)對(duì)象的組合來(lái)表示復(fù)雜的現(xiàn)實(shí)世界視覺輸入。表示學(xué)習(xí)方法通??常使用無(wú)監(jiān)督學(xué)習(xí)將輸入圖像分割成單個(gè)對(duì)象并將這些對(duì)象編碼到每個(gè)潛在向量中。然而,目前尚不清楚以前的方法如何實(shí)現(xiàn)對(duì)單個(gè)對(duì)象的適當(dāng)分割。此外,大多數(shù)先前的方法使用變分自動(dòng)編碼器 VAE 來(lái)規(guī)范潛在向量。因此,尚不清楚 VAE 正則化是否有助于適當(dāng)?shù)膶?duì)象分割。為了闡明多對(duì)象表示學(xué)習(xí)中對(duì)象分割的機(jī)制,我們對(duì)典型方法 MONet 進(jìn)行了消融研究。 MONet 使用由注意力掩模和與注意力掩模相對(duì)應(yīng)的潛在向量組成的對(duì)來(lái)表示多個(gè)對(duì)象。每個(gè)潛在向量都是根據(jù)輸入圖像和注意掩模進(jìn)行編碼的。然后,從每個(gè)潛在向量中解碼分量圖像和注意掩模。 MONet 的損失函數(shù)由 1 輸入圖像和解碼分量圖像之間的重建損失之和、2 潛在向量的 VAE 正則化損失和 3 顯式編碼形狀信息的注意掩模的重建損失組成。我們對(duì)這三個(gè)損失函數(shù)進(jìn)行了消融研究,以研究其對(duì)分割性能的影響。我們的結(jié)果表明,VAE 正則化損失不會(huì)影響分割性能,而其他損失確實(shí)會(huì)影響分割性能。基于這個(gè)結(jié)果,我們假設(shè)最大化由對(duì)應(yīng)于注意掩模的單個(gè)潛在向量最好地表示的圖像區(qū)域的注意掩模是很重要的。
EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models
Authors Yefei He, Jing Liu, Weijia Wu, Hong Zhou, Bohan Zhuang
擴(kuò)散模型在圖像合成和相關(guān)生成任務(wù)中表現(xiàn)出了卓越的能力。然而,它們?cè)诘脱舆t現(xiàn)實(shí)世界應(yīng)用中的實(shí)用性受到大量計(jì)算成本和延遲問題的限制。量化是壓縮和加速擴(kuò)散模型的主要方式,其中訓(xùn)練后量化 PTQ 和量化感知訓(xùn)練 QAT 是兩種主要方法,每種方法都有自己的屬性。雖然 PTQ 在時(shí)間和數(shù)據(jù)使用方面都表現(xiàn)出效率,但它可能會(huì)導(dǎo)致低位寬下的性能下降。另一方面,QAT 可以緩解性能下降,但對(duì)計(jì)算和數(shù)據(jù)資源有大量要求。為了利用各自的優(yōu)點(diǎn),同時(shí)避免各自的缺點(diǎn),我們?yōu)榈臀粩U(kuò)散模型引入了一種無(wú)數(shù)據(jù)且參數(shù)高效的微調(diào)框架,稱為 EfficientDM,以實(shí)現(xiàn) QAT 級(jí)別的性能和類似 PTQ 的效率。具體來(lái)說,我們提出了低秩適配器 QALoRA 的量化感知變體,它可以與模型權(quán)重合并并聯(lián)合量化為低位寬。微調(diào)過程將全精度模型的去噪能力提煉為量化模型,從而消除了對(duì)訓(xùn)練數(shù)據(jù)的需求。我們還引入了尺度感知優(yōu)化,并采用時(shí)間學(xué)習(xí)步長(zhǎng)量化來(lái)進(jìn)一步提高性能。大量的實(shí)驗(yàn)結(jié)果表明,我們的方法顯著優(yōu)于之前基于 PTQ 的擴(kuò)散模型,同時(shí)保持相似的時(shí)間和數(shù)據(jù)效率。具體來(lái)說,在 ImageNet 256x256 上量化 LDM 4 至 4 位的權(quán)重和激活時(shí),sFID 僅略微增加 0.05。
A Large-Scale 3D Face Mesh Video Dataset via Neural Re-parameterized Optimization
Authors Kim Youwang, Lee Hyun, Kim Sung Bin, Suekyeong Nam, Janghoon Ju, Tae Hyun Oh
我們提出了 NeuFace,一種通過神經(jīng)重新參數(shù)化優(yōu)化對(duì)視頻進(jìn)行 3D 人臉網(wǎng)格偽注釋方法。盡管 3D 人臉重建方法取得了巨大進(jìn)步,但為野外動(dòng)態(tài)視頻生成可靠的 3D 人臉標(biāo)簽仍然具有挑戰(zhàn)性。使用 NeuFace 優(yōu)化,我們?cè)诖笠?guī)模人臉視頻(稱為 NeuFace 數(shù)據(jù)集)上對(duì)每個(gè)視圖幀精確且一致的人臉網(wǎng)格進(jìn)行注釋。我們研究神經(jīng)重新參數(shù)化如何通過梯度分析幫助在 3D 網(wǎng)格上重建圖像對(duì)齊的面部細(xì)節(jié)。通過利用數(shù)據(jù)集中 3D 人臉的自然性和多樣性,我們展示了數(shù)據(jù)集對(duì)于 3D 人臉相關(guān)任務(wù)的有用性,提高了現(xiàn)有 3D 人臉重建模型的重建精度并先驗(yàn)學(xué)習(xí) 3D 人臉運(yùn)動(dòng)。
Robust and Interpretable Medical Image Classifiers via Concept Bottleneck Models
Authors An Yan, Yu Wang, Yiwu Zhong, Zexue He, Petros Karypis, Zihan Wang, Chengyu Dong, Amilcare Gentili, Chun Nan Hsu, Jingbo Shang, Julian McAuley
醫(yī)學(xué)圖像分類是醫(yī)療保健的一個(gè)關(guān)鍵問題,有可能減輕醫(yī)生的工作量并促進(jìn)患者的診斷。然而,將深度學(xué)習(xí)模型部署到現(xiàn)實(shí)世界的醫(yī)療保健應(yīng)用程序時(shí)會(huì)出現(xiàn)兩個(gè)挑戰(zhàn)。首先,神經(jīng)模型傾向于學(xué)習(xí)虛假相關(guān)性而不是所需的特征,這在推廣到新領(lǐng)域(例如不同年齡的患者)時(shí)可能會(huì)出現(xiàn)不足。其次,這些黑盒模型缺乏可解釋性。在進(jìn)行診斷預(yù)測(cè)時(shí),了解模型出于可信和安全考慮而做出決策的原因非常重要。在本文中,為了解決這兩個(gè)限制,我們提出了一種新的范式,用自然語(yǔ)言概念構(gòu)建魯棒且可解釋的醫(yī)學(xué)圖像分類器。具體來(lái)說,我們首先從 GPT 4 中查詢臨床概念,然后使用視覺語(yǔ)言模型將潛在圖像特征轉(zhuǎn)換為顯式概念。我們?cè)诎藗€(gè)醫(yī)學(xué)圖像分類數(shù)據(jù)集上系統(tǒng)地評(píng)估我們的方法,以驗(yàn)證其有效性。在具有強(qiáng)混雜因素的挑戰(zhàn)性數(shù)據(jù)集上,我們的方法可以減輕虛假相關(guān)性,從而大大優(yōu)于標(biāo)準(zhǔn)視覺編碼器和其他基線。
ViFiT: Reconstructing Vision Trajectories from IMU and Wi-Fi Fine Time Measurements
Authors Bryan Bo Cao, Abrar Alali, Hansi Liu, Nicholas Meegan, Marco Gruteser, Kristin Dana, Ashwin Ashok, Shubham Jain
跟蹤視頻中的主體是基于攝像頭的物聯(lián)網(wǎng)應(yīng)用中最廣泛使用的功能之一,例如安全監(jiān)控、智慧城市交通安全增強(qiáng)、車輛與行人通信等。在計(jì)算機(jī)視覺領(lǐng)域,跟蹤通常是通過首先檢測(cè)具有邊界框的主體,然后將檢測(cè)到的邊界框跨視頻幀關(guān)聯(lián)來(lái)實(shí)現(xiàn)的。對(duì)于許多物聯(lián)網(wǎng)系統(tǒng)來(lái)說,攝像機(jī)捕獲的圖像通常通過網(wǎng)絡(luò)發(fā)送,以便在具有比邊緣設(shè)備更強(qiáng)大的計(jì)算資源的不同站點(diǎn)進(jìn)行處理。然而,通過網(wǎng)絡(luò)發(fā)送整個(gè)幀會(huì)導(dǎo)致大量帶寬消耗,可能超出系統(tǒng)帶寬限制。為了解決這個(gè)問題,我們提出了 ViFiT,這是一種基于變壓器的模型,可以根據(jù)手機(jī)數(shù)據(jù) IMU 和精細(xì)時(shí)間測(cè)量重建視覺邊界框軌跡。它利用了更好地建模長(zhǎng)期時(shí)間序列數(shù)據(jù)的轉(zhuǎn)換器能力。 ViFiT 在 Vi Fi 數(shù)據(jù)集上進(jìn)行評(píng)估,Vi Fi 數(shù)據(jù)集是 5 個(gè)不同現(xiàn)實(shí)世界場(chǎng)景(包括室內(nèi)和室外環(huán)境)中的大規(guī)模多模態(tài)數(shù)據(jù)集。為了填補(bǔ)聯(lián)合捕獲跟蹤質(zhì)量和視頻帶寬減少的系統(tǒng)特性的適當(dāng)指標(biāo)的空白,我們提出了一種新穎的評(píng)估框架,稱為“最小所需幀 MRF”和“最小所需幀比率 MRFR”。
Shielding the Unseen: Privacy Protection through Poisoning NeRF with Spatial Deformation
Authors Yihan Wu, Brandon Y. Feng, Heng Huang
在本文中,我們介紹了一種利用神經(jīng)輻射場(chǎng) NeRF 模型的生成能力來(lái)保護(hù)用戶隱私的創(chuàng)新方法。我們新穎的中毒攻擊方法會(huì)導(dǎo)致觀察到的視圖發(fā)生變化,這些變化是人眼無(wú)法察覺的,但足以破壞 NeRF 準(zhǔn)確重建 3D 場(chǎng)景的能力。為了實(shí)現(xiàn)這一目標(biāo),我們?cè)O(shè)計(jì)了一種雙層優(yōu)化算法,結(jié)合了基于投影梯度下降 PGD 的空間變形。我們?cè)趦蓚€(gè)常見的 NeRF 基準(zhǔn)數(shù)據(jù)集上廣泛測(cè)試了我們的方法,該數(shù)據(jù)集包含 29 個(gè)具有高質(zhì)量圖像的真實(shí)世界場(chǎng)景。我們的結(jié)果令人信服地證明,我們的隱私保護(hù)方法顯著損害了 NeRF 在這些基準(zhǔn)數(shù)據(jù)集上的性能。此外,我們還表明我們的方法具有適應(yīng)性和多功能性,可在各種擾動(dòng)強(qiáng)度和 NeRF 架構(gòu)中發(fā)揮作用。這項(xiàng)工作提供了對(duì) NeRF 漏洞的寶貴見解,并強(qiáng)調(diào)在開發(fā)強(qiáng)大的 3D 場(chǎng)景重建算法時(shí)需要考慮此類潛在的隱私風(fēng)險(xiǎn)。
Reinforcement Learning-based Mixture of Vision Transformers for Video Violence Recognition
Authors Hamid Mohammadi, Ehsan Nazerfard, Tahereh Firoozi
基于深度學(xué)習(xí)的視頻暴力識(shí)別涉及準(zhǔn)確且可擴(kuò)展的人類暴力識(shí)別。目前,大多數(shù)最先進(jìn)的視頻暴力識(shí)別研究都使用基于 CNN 的模型來(lái)表示和分類視頻。然而,最近的研究表明,在各種視頻分析基準(zhǔn)上,預(yù)先訓(xùn)練的 Transformer 比基于?? CNN 的模型更準(zhǔn)確。然而,這些模型尚未針對(duì)視頻暴力識(shí)別進(jìn)行徹底評(píng)估。本文介紹了一種基于 Transformer 的新型 MoE 專家混合視頻暴力識(shí)別系統(tǒng)。通過大型視覺變壓器和高效變壓器架構(gòu)的智能組合,所提出的系統(tǒng)不僅利用了視覺變壓器架構(gòu)的優(yōu)勢(shì),而且還降低了使用大型視覺變壓器的成本。所提出的架構(gòu)最大限度地提高了暴力識(shí)別系統(tǒng)的準(zhǔn)確性,同時(shí)通過基于強(qiáng)化學(xué)習(xí)的路由器主動(dòng)降低計(jì)算成本。
Privacy-preserving Multi-biometric Indexing based on Frequent Binary Patterns
Authors Daile Osorio Roig, Lazaro J. Gonzalez Soler, Christian Rathgeb, Christoph Busch
確保注冊(cè)受試者隱私保護(hù)的大規(guī)模識(shí)別系統(tǒng)的開發(fā)是一個(gè)重大挑戰(zhàn)。最近的要求是通過包含高效的多生物識(shí)別解決方案來(lái)提供互操作性和可用性的生物識(shí)別部署。在隱私保護(hù)的背景下,過去已經(jīng)提出了幾種模板保護(hù)方案。然而,這些方案似乎不足以索引生物特征識(shí)別系統(tǒng)中的工作量減少。更具體地說,它們已被用于執(zhí)行詳盡搜索的識(shí)別系統(tǒng),導(dǎo)致計(jì)算效率下降。為了克服這些限制,我們提出了一種有效的隱私保護(hù)多生物特征識(shí)別系統(tǒng),該系統(tǒng)檢索受保護(hù)的深度可取消模板,并且與生物特征和生物特征模板保護(hù)方案無(wú)關(guān)。為此,設(shè)計(jì)了多生物特征分箱方案,以利用從不同類型的生物特征中提取的頻繁二進(jìn)制模式中包含的低類內(nèi)變異特性。使用最先進(jìn)的基于深度神經(jīng)網(wǎng)絡(luò) DNN 的嵌入提取器在公開數(shù)據(jù)庫(kù)上報(bào)告的實(shí)驗(yàn)結(jié)果表明,受保護(hù)的多生物特征識(shí)別系統(tǒng)可以將計(jì)算工作量減少到大約 57 個(gè)索引最多三種類型的生物特征和 53 個(gè)索引最多兩種類型生物識(shí)別特征,同時(shí)提高基線生物識(shí)別系統(tǒng)在高安全閾值下的生物識(shí)別性能。
Point-PEFT: Parameter-Efficient Fine-Tuning for 3D Pre-trained Models
Authors Ivan Tang, Eric Zhang, Ray Gu
預(yù)訓(xùn)練大型模型的流行徹底改變了不同領(lǐng)域的下游任務(wù),例如語(yǔ)言、視覺和多模態(tài)。為了最大限度地減少下游任務(wù)的適應(yīng)成本,針對(duì)語(yǔ)言和 2D 圖像預(yù)訓(xùn)練模型提出了許多參數(shù)高效微調(diào) PEFT 技術(shù)。然而,用于 3D 預(yù)訓(xùn)練模型的專用 PEFT 方法仍在探索中。為此,我們引入了 Point PEFT,這是一種新穎的框架,用于以最少的可學(xué)習(xí)參數(shù)調(diào)整點(diǎn)云預(yù)訓(xùn)練模型。具體來(lái)說,對(duì)于預(yù)訓(xùn)練的 3D 模型,我們凍結(jié)其大部分參數(shù),僅在下游任務(wù)上調(diào)整新添加的 PEFT 模塊,該模塊由點(diǎn)先驗(yàn)提示和幾何感知適配器組成。點(diǎn)先驗(yàn)提示采用一組可學(xué)習(xí)的提示標(biāo)記,為此我們建議構(gòu)建一個(gè)具有特定領(lǐng)域知識(shí)的記憶庫(kù),并利用無(wú)參數(shù)注意來(lái)增強(qiáng)提示標(biāo)記。幾何感知適配器旨在聚合空間鄰域內(nèi)的點(diǎn)云特征,以通過局部交互捕獲細(xì)粒度的幾何信息。大量實(shí)驗(yàn)表明,我們的 Point PEFT 可以在各種下游任務(wù)上實(shí)現(xiàn)比完全微調(diào)更好的性能,同時(shí)僅使用 5 個(gè)可訓(xùn)練參數(shù),證明了我們方法的效率和有效性。
A quantum moving target segmentation algorithm for grayscale video
Authors Wenjie Liu, Lu Wang, Qingshan Wu
運(yùn)動(dòng)目標(biāo)分割MTS旨在分割出視頻中的運(yùn)動(dòng)目標(biāo),然而經(jīng)典算法在當(dāng)前視頻時(shí)代面臨著實(shí)時(shí)處理的巨大挑戰(zhàn)。一些學(xué)者已經(jīng)成功證明了在某些視頻處理任務(wù)中的量子優(yōu)勢(shì),但并未涉及運(yùn)動(dòng)目標(biāo)分割。本文提出了一種針對(duì)灰度視頻的量子運(yùn)動(dòng)目標(biāo)分割算法,該算法可以利用量子機(jī)制同時(shí)計(jì)算所有相鄰幀中所有像素的差異,然后快速分割出運(yùn)動(dòng)目標(biāo)。此外,設(shè)計(jì)了一種可行的量子比較器來(lái)區(qū)分灰度值和閾值。然后詳細(xì)設(shè)計(jì)了幾個(gè)量子電路單元,包括三幀差分、二值化和AND運(yùn)算,然后組合在一起構(gòu)建了完整的用于分割運(yùn)動(dòng)目標(biāo)的量子電路。對(duì)于 2 m 幀的量子視頻,每幀都是具有 q 灰度級(jí)的 2 n 乘以 2 n 圖像,我們的算法的復(fù)雜度可以降低到 O n 2 q 。與經(jīng)典算法相比,它是指數(shù)級(jí)的加速,同時(shí)其復(fù)雜度也優(yōu)于現(xiàn)有的量子算法。
Quantum image edge detection based on eight-direction Sobel operator for NEQR
Authors Wenjie Liu, Lu Wang
量子索貝爾邊緣檢測(cè)QSED是一種利用量子機(jī)制進(jìn)行圖像邊緣檢測(cè)的算法,可以解決經(jīng)典算法遇到的實(shí)時(shí)性問題。然而,現(xiàn)有的QSED算法僅考慮兩個(gè)或四個(gè)方向的Sobel算子,這導(dǎo)致在一些高清圖像中邊緣細(xì)節(jié)信息有一定的損失。本文提出了一種基于八方向Sobel算子的QSED算法,該算法不僅減少了邊緣信息的損失,而且可以同時(shí)計(jì)算量子圖像中所有像素的八方向梯度值。此外,還詳細(xì)設(shè)計(jì)了由梯度計(jì)算、非極大值抑制、雙閾值檢測(cè)和邊緣跟蹤單元組成的具體量子電路。對(duì)于具有 q 灰度的 2 n x 2 n 圖像,我們的算法的復(fù)雜度可以降低到 O n 2 q 2 ,這低于其他現(xiàn)有的經(jīng)典或量子算法。
Benchmarking Local Robustness of High-Accuracy Binary Neural Networks for Enhanced Traffic Sign Recognition
Authors Andreea Postovan, M d lina Era cu
交通標(biāo)志在自動(dòng)駕駛系統(tǒng)的道路安全和交通管理中發(fā)揮著至關(guān)重要的作用。準(zhǔn)確的交通標(biāo)志分類至關(guān)重要,但由于現(xiàn)實(shí)世界的復(fù)雜性(例如對(duì)抗性示例和遮擋)而具有挑戰(zhàn)性。
MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning
Authors Ke Wang, Houxing Ren, Aojun Zhou, Zimu Lu, Sichun Luo, Weikang Shi, Renrui Zhang, Linqi Song, Mingjie Zhan, Hongsheng Li
最近發(fā)布的 GPT 4 代碼解釋器在解決具有挑戰(zhàn)性的數(shù)學(xué)問題方面表現(xiàn)出了卓越的能力,這主要?dú)w功于它能夠使用自然語(yǔ)言無(wú)縫推理、生成代碼、執(zhí)行代碼以及根據(jù)執(zhí)行輸出繼續(xù)推理。在本文中,我們提出了一種微調(diào)開源語(yǔ)言模型的方法,使它們能夠使用代碼來(lái)建模和推導(dǎo)數(shù)學(xué)方程,從而增強(qiáng)它們的數(shù)學(xué)推理能力。我們提出了一種用數(shù)學(xué)問題及其基于代碼的解決方案生成新穎且高質(zhì)量數(shù)據(jù)集的方法,稱為 MathCodeInstruct。每個(gè)解決方案都交織著自然語(yǔ)言、代碼和執(zhí)行結(jié)果。我們還引入了定制的監(jiān)督微調(diào)和推理方法。這種方法產(chǎn)生了 MathCoder 模型,這是一系列能夠生成基于代碼的解決方案來(lái)解決具有挑戰(zhàn)性的數(shù)學(xué)問題的模型。令人印象深刻的是,MathCoder 模型在 MATH 45.2 和 GSM8K 83.9 數(shù)據(jù)集上在開源法學(xué)碩士中取得了最先進(jìn)的分?jǐn)?shù),大大優(yōu)于其他開源替代方案。值得注意的是,MathCoder 模型不僅在 GSM8K 和 MATH 上超越了 ChatGPT 3.5 和 PaLM 2,而且在競(jìng)賽級(jí)別 MATH 數(shù)據(jù)集上也超越了 GPT 4。
OMG-ATTACK: Self-Supervised On-Manifold Generation of Transferable Evasion Attacks
Authors Ofir Bar Tal, Adi Haviv, Amit H. Bermano
逃避攻擊 EA 用于通過扭曲輸入數(shù)據(jù)以誤導(dǎo)模型進(jìn)行不正確的分類來(lái)測(cè)試經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的魯棒性。創(chuàng)建這些攻擊是一項(xiàng)具有挑戰(zhàn)性的任務(wù),尤其是隨著模型和數(shù)據(jù)集的復(fù)雜性不斷增加。在這項(xiàng)工作中,我們引入了一種自監(jiān)督、計(jì)算經(jīng)濟(jì)的方法來(lái)生成對(duì)抗性示例,專為看不見的黑匣子設(shè)置而設(shè)計(jì)。我們的方法采用表示學(xué)習(xí)的技術(shù),在流形 EA 上生成,鼓勵(lì)這些 EA 類似于數(shù)據(jù)分布。在攻擊訓(xùn)練過的模型時(shí),這些攻擊的有效性與現(xiàn)有技術(shù)相當(dāng),但在攻擊未見過的模型時(shí),這些攻擊的有效性明顯更高,因?yàn)楣襞c數(shù)據(jù)而不是模型本身更相關(guān)。
Certification of Deep Learning Models for Medical Image Segmentation
Authors Othmane Laousy, Alexandre Araujo, Guillaume Chassagnon, Nikos Paragios, Marie Pierre Revel, Maria Vakalopoulou
在醫(yī)學(xué)成像領(lǐng)域,分割模型在過去十年中取得了顯著進(jìn)步,現(xiàn)在每天都在臨床實(shí)踐中使用。然而,與分類模型類似,分割模型也會(huì)受到對(duì)抗性攻擊的影響。在醫(yī)療保健等安全關(guān)鍵領(lǐng)域,驗(yàn)證模型預(yù)測(cè)至關(guān)重要。最近引入了隨機(jī)平滑,并提供了一個(gè)框架來(lái)驗(yàn)證模型并獲得理論保證。在本文中,我們首次提出基于隨機(jī)平滑和擴(kuò)散模型的經(jīng)認(rèn)證的醫(yī)學(xué)成像分割基線。我們的結(jié)果表明,利用去噪擴(kuò)散概率模型的力量有助于我們克服隨機(jī)平滑的限制。我們對(duì)胸部 X 光、皮膚病變和結(jié)腸鏡檢查的五個(gè)公共數(shù)據(jù)集進(jìn)行了廣泛的實(shí)驗(yàn),并根據(jù)經(jīng)驗(yàn)表明,即使對(duì)于高度擾動(dòng)的圖像,我們也能夠保持經(jīng)過認(rèn)證的高 Dice 分?jǐn)?shù)。
CLEVRER-Humans: Describing Physical and Causal Events the Human Way
Authors Jiayuan Mao, Xuelin Yang, Xikun Zhang, Noah D. Goodman, Jiajun Wu
構(gòu)建能夠推理物理事件及其因果關(guān)系的機(jī)器對(duì)于與物理世界的靈活交互至關(guān)重要。然而,大多數(shù)現(xiàn)有的物理和因果推理基準(zhǔn)完全基于合成生成的事件和因果關(guān)系的合成自然語(yǔ)言描述。這種設(shè)計(jì)帶來(lái)了兩個(gè)問題。首先,事件類型和自然語(yǔ)言描述都缺乏多樣性;其次,基于手動(dòng)定義的啟發(fā)式的因果關(guān)系與人類的判斷不同。為了解決這兩個(gè)缺點(diǎn),我們提出了 CLEVRER Humans 基準(zhǔn),這是一個(gè)視頻推理數(shù)據(jù)集,用于使用人類標(biāo)簽對(duì)物理事件進(jìn)行因果判斷。我們采用兩種技術(shù)來(lái)提高數(shù)據(jù)收集效率,首先是一種新穎的迭代事件完形填空任務(wù),以引出視頻中事件的新表示,我們將其稱為因果事件圖 CEG;其次是一種基于神經(jīng)語(yǔ)言生成模型的數(shù)據(jù)增強(qiáng)技術(shù)。我們將收集的 CEG 轉(zhuǎn)換為問題和答案,以與之前的工作保持一致。
Wasserstein Distortion: Unifying Fidelity and Realism
Authors Yang Qiu, Aaron B. Wagner, Johannes Ball , Lucas Theis
我們引入了一種圖像失真測(cè)量方法,即 Wasserstein 失真,它一方面概括了像素級(jí)保真度,另一方面概括了真實(shí)感。我們展示了 Wasserstein 失真如何在不同的參數(shù)選擇下以數(shù)學(xué)方式減少為純保真度約束或純現(xiàn)實(shí)主義約束。 Wasserstein 畸變下的一對(duì)接近的圖像說明了它的實(shí)用性。特別是,我們生成的隨機(jī)紋理對(duì)圖像的一個(gè)位置中的參考紋理具有高保真度,并且當(dāng)遠(yuǎn)離該點(diǎn)時(shí)平滑地過渡到紋理的獨(dú)立實(shí)現(xiàn)。
How Good Are Synthetic Medical Images? An Empirical Study with Lung Ultrasound
Authors Menghan Yu, Sourabh Kulhare, Courosh Mehanian, Charles B Delahunt, Daniel E Shea, Zohreh Laverriere, Ishan Shah, Matthew P Horning
眾所周知,獲取大量數(shù)據(jù)和注釋對(duì)于開發(fā)高性能深度學(xué)習(xí)模型非常有效,但在醫(yī)療保健領(lǐng)域?qū)崿F(xiàn)起來(lái)卻很困難且成本高昂。使用生成模型添加合成訓(xùn)練數(shù)據(jù)提供了一種有效應(yīng)對(duì)數(shù)據(jù)稀缺挑戰(zhàn)的低成本方法,還可以解決數(shù)據(jù)不平衡和患者隱私問題。在這項(xiàng)研究中,我們提出了一個(gè)全面的框架,可以無(wú)縫地融入醫(yī)學(xué)圖像分析的模型開發(fā)工作流程。我們使用不同大小的數(shù)據(jù)集來(lái)證明:i 生成模型作為數(shù)據(jù)增強(qiáng)方法的好處;ii 對(duì)抗性方法如何通過數(shù)據(jù)替換來(lái)保護(hù)患者隱私;iii 通過在真實(shí)的保留數(shù)據(jù)上測(cè)試模型,為這些用例提供新穎的性能指標(biāo)。我們表明,使用合成數(shù)據(jù)和真實(shí)數(shù)據(jù)進(jìn)行訓(xùn)練的效果優(yōu)于僅使用真實(shí)數(shù)據(jù)進(jìn)行的訓(xùn)練,并且僅使用合成數(shù)據(jù)訓(xùn)練的模型接近其真正的對(duì)應(yīng)模型。
MedSynV1: Text-guided Anatomy-aware Synthesis of High-Fidelity 3D CT Images
Authors Yanwu Xu, Li Sun, Wei Peng, Shyam Visweswaran, Kayhan Batmanghelich
本文介紹了一種在文本信息引導(dǎo)下生成高質(zhì)量 3D 肺部 CT 圖像的創(chuàng)新方法。雖然基于擴(kuò)散的生成模型越來(lái)越多地用于醫(yī)學(xué)成像,但當(dāng)前最先進(jìn)的方法僅限于低分辨率輸出,并且未充分利用放射學(xué)報(bào)告的豐富信息。放射學(xué)報(bào)告可以通過提供額外的指導(dǎo)和對(duì)圖像合成提供細(xì)粒度的控制來(lái)增強(qiáng)生成過程。然而,將文本引導(dǎo)生成擴(kuò)展到高分辨率 3D 圖像對(duì)記憶和解剖細(xì)節(jié)保留提出了重大挑戰(zhàn)。為了解決內(nèi)存問題,我們引入了一種使用修改后的 UNet 架構(gòu)的分層方案。我們首先合成以文本為條件的低分辨率圖像,作為后續(xù)完整體積數(shù)據(jù)生成器的基礎(chǔ)。為了確保生成的樣本的解剖學(xué)合理性,我們通過結(jié)合 CT 圖像生成血管、氣道和小葉分割掩模來(lái)提供進(jìn)一步的指導(dǎo)。該模型演示了使用文本輸入和分割任務(wù)生成合成圖像的能力。比較評(píng)估的結(jié)果表明,與基于 GAN 和擴(kuò)散技術(shù)的最先進(jìn)模型相比,我們的方法表現(xiàn)出優(yōu)越的性能,特別是在準(zhǔn)確保留裂痕線、氣道和血管結(jié)構(gòu)等關(guān)鍵解剖特征方面。這項(xiàng)創(chuàng)新帶來(lái)了新的可能性。這項(xiàng)研究的重點(diǎn)是兩個(gè)主要目標(biāo):1 開發(fā)一種基于文本提示和解剖成分創(chuàng)建圖像的方法;2 能夠根據(jù)解剖元素生成新圖像。
IceCloudNet: Cirrus and mixed-phase cloud prediction from SEVIRI input learned from sparse supervision
Authors Kai Jeggle, Mikolaj Czerkawski, Federico Serva, Bertrand Le Saux, David Neubauer, Ulrike Lohmann
含有冰粒的云在氣候系統(tǒng)中發(fā)揮著至關(guān)重要的作用。然而,它們?nèi)匀皇菤夂蚰P秃臀磥?lái)氣候預(yù)測(cè)的巨大不確定性來(lái)源。在這項(xiàng)工作中,我們?cè)趯?duì)地靜止衛(wèi)星儀器的時(shí)空覆蓋范圍和主動(dòng)衛(wèi)星檢索的質(zhì)量上創(chuàng)建了一個(gè)新的觀測(cè)約束,該約束依賴于冰的微物理特性。我們通過在三年的 SEVIRI 和 DARDAR 數(shù)據(jù)集上訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)這一目標(biāo)。
BTDNet: a Multi-Modal Approach for Brain Tumor Radiogenomic Classification
Authors Dimitrios Kollias, Karanjot Vendal, Priyanka Gadhavi, Solomon Russom
腦腫瘤在全世界范圍內(nèi)構(gòu)成了重大的健康挑戰(zhàn),其中膠質(zhì)母細(xì)胞瘤是最具侵襲性的形式之一。準(zhǔn)確測(cè)定 O6 甲基鳥嘌呤 DNA 甲基轉(zhuǎn)移酶 MGMT 啟動(dòng)子甲基化狀態(tài)對(duì)于個(gè)性化治療策略至關(guān)重要。然而,傳統(tǒng)方法是勞動(dòng)密集型且耗時(shí)的。本文提出了一種新穎的多模式方法 BTDNet,利用多參數(shù) MRI 掃描(包括 FLAIR、T1w、T1wCE 和 T2 3D 體積)來(lái)預(yù)測(cè) MGMT 啟動(dòng)子甲基化狀態(tài)。 BTDNet 解決了兩個(gè)主要挑戰(zhàn):可變體積長(zhǎng)度,即每個(gè)體積由不同數(shù)量的切片組成,以及體積級(jí)別注釋,即整個(gè) 3D 體積被注釋,而不是其組成的獨(dú)立切片。 BTDNet 由四個(gè)組件組成:i 數(shù)據(jù)增強(qiáng),執(zhí)行幾何變換、數(shù)據(jù)對(duì)凸組合和測(cè)試時(shí)間數(shù)據(jù)增強(qiáng) ii 3D 分析,通過 CNN RNN 執(zhí)行全局分析 iii 路由,包含處理變量的掩模層輸入特征長(zhǎng)度,以及 iv 模態(tài)融合,可以有效增強(qiáng)數(shù)據(jù)表示、減少歧義并緩解數(shù)據(jù)稀缺性。
Swin-Tempo: Temporal-Aware Lung Nodule Detection in CT Scans as Video Sequences Using Swin Transformer-Enhanced UNet
Authors Hossein Jafari, Karim Faez, Hamidreza Amindavar
肺癌具有極高的致死率,因此早期檢測(cè)至關(guān)重要。然而,識(shí)別肺結(jié)節(jié)給放射科醫(yī)生帶來(lái)了巨大的挑戰(zhàn),他們嚴(yán)重依賴他們的專業(yè)知識(shí)和經(jīng)驗(yàn)來(lái)進(jìn)行準(zhǔn)確的診斷。為了解決這個(gè)問題,基于機(jī)器學(xué)習(xí)技術(shù)的計(jì)算機(jī)輔助診斷系統(tǒng)應(yīng)運(yùn)而生,可以幫助醫(yī)生從計(jì)算機(jī)斷層掃描 CT 掃描中識(shí)別肺結(jié)節(jié)。不幸的是,該領(lǐng)域的現(xiàn)有網(wǎng)絡(luò)經(jīng)常受到計(jì)算復(fù)雜性的影響,導(dǎo)致假陰性和假陽(yáng)性率很高,從而限制了其有效性。為了應(yīng)對(duì)這些挑戰(zhàn),我們提出了一種創(chuàng)新模型,該模型利用了卷積神經(jīng)網(wǎng)絡(luò)和視覺轉(zhuǎn)換器的優(yōu)勢(shì)。受視頻中對(duì)象檢測(cè)的啟發(fā),我們將每個(gè) 3D CT 圖像視為視頻,將各個(gè)切片視為幀,將肺結(jié)節(jié)視為對(duì)象,從而實(shí)現(xiàn)時(shí)間序列應(yīng)用。我們工作的主要目標(biāo)是克服模型訓(xùn)練期間的硬件限制,允許高效處理 2D 數(shù)據(jù),同時(shí)利用切片間信息基于 3D 圖像上下文進(jìn)行準(zhǔn)確識(shí)別。我們通過對(duì)公開的 Lung Nodule Analysis 2016 數(shù)據(jù)集應(yīng)用 10 倍交叉驗(yàn)證技術(shù)來(lái)驗(yàn)證所提出的網(wǎng)絡(luò)。我們提出的架構(gòu)在參數(shù)很少的情況下實(shí)現(xiàn)了 97.84 的平均靈敏度標(biāo)準(zhǔn)和 96.0 的競(jìng)爭(zhēng)性能指標(biāo) CPM。
Learning Concept-Based Visual Causal Transition and Symbolic Reasoning for Visual Planning
Authors Yilue Qian, Peiyu Yu, Ying Nian Wu, Wei Wang, Lifeng Fan
視覺規(guī)劃以搜索初始視覺狀態(tài)和最終視覺目標(biāo)狀態(tài)之間的視覺因果轉(zhuǎn)換的形式模擬人類如何做出決策以實(shí)現(xiàn)期望的目標(biāo)。它在以自我為中心的視覺中變得越來(lái)越重要,具有指導(dǎo)智能體在復(fù)雜環(huán)境中執(zhí)行日常任務(wù)的優(yōu)勢(shì)。在本文中,我們提出了一個(gè)可解釋和可概括的視覺規(guī)劃框架,其中包括:i 一個(gè)新穎的基于替換的概念學(xué)習(xí)器 SCL,它將視覺輸入抽象為解開的概念表示;ii 符號(hào)抽象和推理,通過自學(xué)符號(hào)執(zhí)行任務(wù)規(guī)劃;iii 一個(gè)視覺因果轉(zhuǎn)換模型 ViCT,將視覺因果轉(zhuǎn)換為語(yǔ)義相似的現(xiàn)實(shí)世界動(dòng)作。給定初始狀態(tài),我們使用由學(xué)習(xí)的表示和因果轉(zhuǎn)換推動(dòng)的符號(hào)推理方法執(zhí)行目標(biāo)條件視覺規(guī)劃,以達(dá)到目標(biāo)狀態(tài)。為了驗(yàn)證所提出模型的有效性,我們收集了基于 AI2 THOR 的大規(guī)模視覺規(guī)劃數(shù)據(jù)集,稱為 CCTP。在這個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)證明了我們的方法在視覺任務(wù)規(guī)劃方面的卓越性能。
Enhanced Human-Robot Collaboration using Constrained Probabilistic Human-Motion Prediction
Authors Aadi Kothari, Tony Tohme, Xiaotong Zhang, Kamal Youcef Toumi
人體運(yùn)動(dòng)預(yù)測(cè)是高效、安全的人機(jī)協(xié)作的重要步驟。當(dāng)前的方法要么純粹依賴于以某種形式的基于神經(jīng)網(wǎng)絡(luò)的架構(gòu)來(lái)表示人體關(guān)節(jié),要么使用離線回歸模型來(lái)擬合超參數(shù),以期捕獲包含人體運(yùn)動(dòng)的模型。雖然這些方法提供了良好的初步結(jié)果,但它們錯(cuò)過了利用經(jīng)過充分研究的人體運(yùn)動(dòng)學(xué)模型以及身體和場(chǎng)景約束,這些約束可以幫助提高這些預(yù)測(cè)框架的功效,同時(shí)也明確避免不可信的人體關(guān)節(jié)配置。我們提出了一種新穎的人體運(yùn)動(dòng)預(yù)測(cè)框架,該框架將人體關(guān)節(jié)約束和場(chǎng)景約束納入高斯過程回歸 GPR 模型中,以預(yù)測(cè)設(shè)定時(shí)間范圍內(nèi)的人體運(yùn)動(dòng)。該公式與在線上下文感知約束模型相結(jié)合,以利用任務(wù)相關(guān)的運(yùn)動(dòng)。它在人類手臂運(yùn)動(dòng)學(xué)模型上進(jìn)行了測(cè)試,并在帶有 UR5 機(jī)器人手臂的人類機(jī)器人協(xié)作設(shè)置上實(shí)施,以展示我們方法的實(shí)時(shí)能力。還對(duì) HA4M 和 ANDY 等數(shù)據(jù)集進(jìn)行了模擬。
On the Performance of Multimodal Language Models
Authors Utsav Garg, Erhan Bas
指令調(diào)整的大型語(yǔ)言模型法學(xué)碩士已經(jīng)在各種下游任務(wù)中展示了有前途的零樣本泛化能力。最近的研究通過模型移植集成獨(dú)立預(yù)訓(xùn)練的視覺編碼器,為法學(xué)碩士引入了多模式功能。這些多模態(tài)變體經(jīng)過指令調(diào)整,類似于法學(xué)碩士,為多模態(tài)任務(wù)提供有效的零樣本泛化。本研究對(duì)不同的多模態(tài)指令調(diào)整方法進(jìn)行了比較分析,并評(píng)估了它們?cè)谝幌盗腥蝿?wù)中的性能,包括復(fù)雜推理、對(duì)話、圖像字幕、多項(xiàng)選擇題 MCQ 和二元分類。通過嚴(yán)格的基準(zhǔn)測(cè)試和消融實(shí)驗(yàn),我們揭示了將多模式功能納入法學(xué)碩士時(shí)指導(dǎo)架構(gòu)選擇的關(guān)鍵見解。然而,當(dāng)前的方法存在局限性,它們不能充分滿足對(duì)多樣化多模式指令數(shù)據(jù)集的需求,而這對(duì)于增強(qiáng)任務(wù)泛化至關(guān)重要。此外,他們?cè)谏苫貜?fù)時(shí)忽略了與真實(shí)性和事實(shí)性相關(guān)的問題。
Attributing Learned Concepts in Neural Networks to Training Data
Authors Nicholas Konz, Charles Godfrey, Madelyn Shapiro, Jonathan Tu, Henry Kvinge, Davis Brown
到目前為止,有大量證據(jù)表明深度學(xué)習(xí)模型學(xué)習(xí)某些人類可解釋的特征作為其數(shù)據(jù)內(nèi)部表示的一部分。由于正確或錯(cuò)誤的概念對(duì)于值得信賴的機(jī)器學(xué)習(xí)系統(tǒng)至關(guān)重要,因此很自然地會(huì)問模型原始訓(xùn)練集中的哪些輸入對(duì)于學(xué)習(xí)給定層的概念最重要。為了回答這個(gè)問題,我們將數(shù)據(jù)歸因方法與探索模型學(xué)到的概念的方法結(jié)合起來(lái)。在一系列網(wǎng)絡(luò)層上訓(xùn)練兩個(gè)概念數(shù)據(jù)集的網(wǎng)絡(luò)和探針集合,我們使用最近開發(fā)的 TRAK 方法進(jìn)行大規(guī)模數(shù)據(jù)歸因。我們發(fā)現(xiàn)了一些收斂的證據(jù),其中刪除概念的 10,000 個(gè)頂級(jí)歸因圖像并重新訓(xùn)練模型不會(huì)改變概念在網(wǎng)絡(luò)中的位置,也不會(huì)改變概念的探測(cè)稀疏性。
Blind CT Image Quality Assessment Using DDPM-derived Content and Transformer-based Evaluator
Authors Yongyi Shi, Wenjun Xia, Ge Wang, Xuanqin Mou
降低每次視圖的輻射劑量和利用每次掃描的稀疏視圖是兩種常見的 CT 掃描模式,盡管這通常會(huì)導(dǎo)致以噪聲和條紋偽影為特征的圖像失真。盲圖像質(zhì)量評(píng)估 BIQA 致力于評(píng)估與放射科醫(yī)生感知一致的感知質(zhì)量,這在推進(jìn)低劑量 CT 重建技術(shù)方面發(fā)揮著重要作用。一個(gè)有趣的方向涉及開發(fā)模仿人類視覺系統(tǒng) HVS 操作特征的 BIQA 方法。內(nèi)部生成機(jī)制IGM理論揭示了HVS主動(dòng)演繹主要內(nèi)容以增強(qiáng)理解力。在本研究中,我們引入了一種創(chuàng)新的 BIQA 指標(biāo),可以模擬 IGM 的主動(dòng)推理過程。最初,構(gòu)建一個(gè)主動(dòng)推理模塊(作為去噪擴(kuò)散概率模型 DDPM 實(shí)現(xiàn))來(lái)預(yù)測(cè)主要內(nèi)容。然后,通過評(píng)估失真圖像與其主要內(nèi)容之間的相互關(guān)系來(lái)導(dǎo)出相異圖。隨后,將失真圖像和相異圖組合成多通道圖像,將其輸入到基于變換器的圖像質(zhì)量評(píng)估器中。值得注意的是,通過專門使用這種基于變壓器的質(zhì)量評(píng)估器,我們?cè)?MICCAI 2023 低劑量計(jì)算機(jī)斷層掃描感知圖像質(zhì)量評(píng)估大賽中獲得了第二名。
Creating an Atlas of Normal Tissue for Pruning WSI Patching Through Anomaly Detection
Authors Peyman Nejat, Areej Alsaafin, Ghazal Alabtah, Nneka Comfere, Aaron Mangold, Dennis Murphree, Patricija Zot, Saba Yasir, Joaquin J. Garcia, H.R. Tizhoosh
修補(bǔ)十億像素的整個(gè)幻燈片圖像 WSI 是計(jì)算病理學(xué)中的一項(xiàng)重要任務(wù)。已經(jīng)提出了一些方法來(lái)選擇補(bǔ)丁的子集作為下游任務(wù)的 WSI 表示。雖然大多數(shù)計(jì)算病理學(xué)任務(wù)旨在對(duì)每個(gè) WSI 中病理病變的存在進(jìn)行分類或檢測(cè),但組織樣本中正常組織學(xué)的混雜作用和冗余性質(zhì)在 WSI 表示中通常被忽視。在本文中,我們僅使用從正常組織活檢獲得的 WSI 樣本提出并驗(yàn)證了正常組織圖譜的概念。此類圖譜可用于消除組織樣本的正常碎片,從而增加斑塊集合的代表性。我們通過使用 107 個(gè)正常皮膚 WSI 建立正常圖集來(lái)測(cè)試我們提出的方法,并演示如何改進(jìn)已建立的索引和像 Yottixel 這樣的搜索引擎。我們使用了 553 個(gè)皮膚鱗狀細(xì)胞癌 cSCC 的 WSI 來(lái)展示其優(yōu)勢(shì)。我們還驗(yàn)證了我們的方法應(yīng)用于 451 個(gè)乳房 WSI 的外部數(shù)據(jù)集。在利用所提出的正常圖集后,選定的 WSI 補(bǔ)丁數(shù)量減少了 30 到 50 個(gè),同時(shí)在兩個(gè)數(shù)據(jù)集的驗(yàn)證中保持相同的索引和搜索性能。
Batch-less stochastic gradient descent for compressive learning of deep regularization for image denoising
Authors Hui Shi IMB , Yann Traonmilin IMB , J F Aujol IMB
我們借助從干凈信號(hào)或圖像數(shù)據(jù)庫(kù)中獲取的先驗(yàn)信息來(lái)考慮去噪問題。如果有適合數(shù)據(jù)性質(zhì)的正則化器,則使用變分方法去噪會(huì)非常有效。由于最大后驗(yàn)貝葉斯框架,這種正則化器可以系統(tǒng)地與數(shù)據(jù)的分布聯(lián)系起來(lái)。
REFLECT: Summarizing Robot Experiences for Failure Explanation and Correction
Authors Zeyi Liu, Arpit Bahety, Shuran Song
自動(dòng)檢測(cè)和分析失敗執(zhí)行的能力對(duì)于可解釋且強(qiáng)大的機(jī)器人系統(tǒng)至關(guān)重要。最近,大型語(yǔ)言模型法學(xué)碩士在文本輸入方面表現(xiàn)出了強(qiáng)大的推理能力。為了利用 LLM 的力量來(lái)解釋機(jī)器人故障,我們引入了 REFLECT,這是一個(gè)框架,可以根據(jù)多感官觀察生成的機(jī)器人過去經(jīng)驗(yàn)的分層摘要來(lái)查詢 LLM 的故障推理。失敗解釋可以進(jìn)一步指導(dǎo)基于語(yǔ)言的規(guī)劃器糾正失敗并完成任務(wù)。為了系統(tǒng)地評(píng)估該框架,我們創(chuàng)建了包含各種任務(wù)和故障場(chǎng)景的 RoboFail 數(shù)據(jù)集。
Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩請(qǐng)移步主頁(yè)


pic from pexels.com文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-728396.html

到了這里,關(guān)于【AI視野·今日CV 計(jì)算機(jī)視覺論文速覽 第262期】Fri, 6 Oct 2023的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 計(jì)算機(jī)視覺(CV)技術(shù)的優(yōu)勢(shì)

    計(jì)算機(jī)視覺(CV)技術(shù)的優(yōu)勢(shì): 1. 自動(dòng)化任務(wù):計(jì)算機(jī)視覺技術(shù)可以自動(dòng)執(zhí)行一系列視覺任務(wù),如圖像分類、目標(biāo)檢測(cè)和識(shí)別等,從而實(shí)現(xiàn)任務(wù)的自動(dòng)化。 2. 高速處理:計(jì)算機(jī)視覺技術(shù)可以在短時(shí)間內(nèi)處理大量的圖像和視頻數(shù)據(jù),實(shí)現(xiàn)快速的分析和決策。 3. 準(zhǔn)確性:相對(duì)于

    2024年01月22日
    瀏覽(23)
  • 計(jì)算機(jī)視覺 – Computer Vision | CV

    計(jì)算機(jī)視覺 – Computer Vision | CV

    人的大腦皮層, 有差不多 70% 都是在處理視覺信息。 是人類獲取信息最主要的渠道,沒有之一。 在網(wǎng)絡(luò)世界,照片和視頻(圖像的集合)也正在發(fā)生爆炸式的增長(zhǎng)! 下圖是網(wǎng)絡(luò)上新增數(shù)據(jù)的占比趨勢(shì)圖?;疑墙Y(jié)構(gòu)化數(shù)據(jù),藍(lán)色是非結(jié)構(gòu)化數(shù)據(jù)(大部分都是圖像和視頻)。

    2024年02月11日
    瀏覽(38)
  • 動(dòng)手學(xué)CV-Pytorch計(jì)算機(jī)視覺 天池計(jì)算機(jī)視覺入門賽SVHN數(shù)據(jù)集實(shí)戰(zhàn)

    這里我們以datawhale和天池合作的天池計(jì)算機(jī)視覺入門賽為例,通過案例實(shí)戰(zhàn)來(lái)進(jìn)一步鞏固本章所介紹的圖像分類知識(shí)。 該比賽以SVHN街道字符為賽題數(shù)據(jù),數(shù)據(jù)集報(bào)名后可見并可下載,該數(shù)據(jù)來(lái)

    2024年02月04日
    瀏覽(17)
  • 計(jì)算機(jī)視覺(CV)技術(shù)的優(yōu)勢(shì)和挑戰(zhàn)

    目錄 計(jì)算機(jī)視覺(CV)技術(shù)的優(yōu)勢(shì)和挑戰(zhàn) 優(yōu)勢(shì): 挑戰(zhàn): 計(jì)算機(jī)視覺(CV)技術(shù)是一種利用計(jì)算機(jī)和算法來(lái)實(shí)現(xiàn)對(duì)圖像和視頻的分析、處理和理解的技術(shù)。為了應(yīng)對(duì)圖像多樣性,計(jì)算機(jī)視覺技術(shù)可以采用數(shù)據(jù)增強(qiáng)、遷移學(xué)習(xí)、復(fù)雜模型、多尺度處理、領(lǐng)域自適應(yīng)和合成數(shù)據(jù)等

    2024年02月09日
    瀏覽(21)
  • 基于cv2的手勢(shì)識(shí)別-計(jì)算機(jī)視覺

    基于cv2的手勢(shì)識(shí)別-計(jì)算機(jī)視覺

    ??閑的無(wú)聊做的一個(gè)小玩意,可以調(diào)用你的計(jì)算機(jī)相機(jī),識(shí)別框內(nèi)的手勢(shì)(剪刀、石頭和布),提供一個(gè)判決平臺(tái),感興趣的可以繼續(xù)完善。 用到的參考小文獻(xiàn): 具體實(shí)現(xiàn)結(jié)果如下 并且我另寫了一個(gè)框架平臺(tái),可以進(jìn)行下一步的功能拓展,發(fā)在我的資源界面了; ??我們

    2024年02月01日
    瀏覽(54)
  • 舉例說明計(jì)算機(jī)視覺(CV)技術(shù)的優(yōu)勢(shì)和挑戰(zhàn)

    計(jì)算機(jī)視覺(CV)技術(shù)是指通過計(jì)算機(jī)算法和模型來(lái)解析和理解圖像和視頻的能力。它的優(yōu)勢(shì)和挑戰(zhàn)如下所示: 優(yōu)勢(shì): 高效精確:CV技術(shù)可以在很短的時(shí)間內(nèi)對(duì)大量圖像進(jìn)行高質(zhì)量的處理和分析,大大提高了處理速度和準(zhǔn)確性。 自動(dòng)化:CV技術(shù)可以在沒有人工干預(yù)的情況下完

    2024年01月18日
    瀏覽(35)
  • 計(jì)算機(jī)視覺CV領(lǐng)域中多尺度特征的概念

    計(jì)算機(jī)視覺CV領(lǐng)域中多尺度特征的概念

    知乎:深度學(xué)習(xí)中的多尺度模型設(shè)計(jì) 知乎:計(jì)算機(jī)視覺中的多尺度模型都有哪些設(shè)計(jì)? CSDN:多尺度理解? 所謂多尺度,實(shí)際就是對(duì)信號(hào)的不同粒度的采樣。 通常在不同的尺度下我們可以觀察到不同的特征,從而完成不同的任務(wù)。 粒度更小/更密集的采樣可以看到更多的細(xì)節(jié)

    2023年04月08日
    瀏覽(17)
  • 計(jì)算機(jī)視覺CV:在自動(dòng)駕駛方面的應(yīng)用與C++代碼實(shí)現(xiàn)

    目標(biāo)檢測(cè):利用計(jì)算機(jī)視覺技術(shù),對(duì)道路上的各種障礙物進(jìn)行識(shí)別和檢測(cè),例如行人、車輛、信號(hào)燈等等。 路徑規(guī)劃:利用計(jì)算機(jī)視覺技術(shù),實(shí)時(shí)分析道路上的交通情況和行駛條件,為自動(dòng)駕駛汽車制定合理的路徑規(guī)劃策略。 實(shí)時(shí)定位:自動(dòng)駕駛汽車必須實(shí)時(shí)地知道自己在

    2024年02月09日
    瀏覽(32)
  • 【計(jì)算機(jī)視覺】ICCV2023放榜!一起看看CV最新熱門研究方向!

    【計(jì)算機(jī)視覺】ICCV2023放榜!一起看看CV最新熱門研究方向!

    最近吃過晚飯看到新聞的時(shí)候,屬實(shí)有點(diǎn)驚訝: ICCV 2023 近日也開獎(jiǎng)了!看了一下,總共收錄了2160篇論文,創(chuàng)了歷史新高。作為計(jì)算機(jī)視覺三大頂級(jí)會(huì)議之一,ICCV 收錄的論文自然也都具有非常高的研究?jī)r(jià)值,建議有需求的同學(xué)多關(guān)注多關(guān)注,說不定下一篇中稿的論文ideal就在

    2024年02月07日
    瀏覽(32)
  • 【計(jì)算機(jī)視覺 CV】常用的圖像(圖片)處理工具匯總【新加坡南洋理工】

    OpenCV的全稱是 Intel Open Source Computer Vision Library for C++ ,官網(wǎng): OpenCV官網(wǎng) Matlab提供的機(jī)器視覺工具箱,全稱是 Machine Vision Toolbox for Matlab ,官網(wǎng): Matlab MV Toolbox官網(wǎng) Matlab和加州理工提供的相機(jī)校正工具箱,全稱是 Camera Calibration Toolbox for Matlab ,官網(wǎng): CC Toolbox官網(wǎng) Matlab提供的

    2024年04月15日
    瀏覽(33)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包