一、檢測相關(guān)(15篇)
1.1 Artifacts Mapping: Multi-Modal Semantic Mapping for Object Detection and 3D Localization
偽像映射:用于目標(biāo)檢測和三維定位的多模式語義映射
論文地址:
https://arxiv.org/abs/2307.01121
幾何導(dǎo)航是當(dāng)今機(jī)器人領(lǐng)域的一個成熟的領(lǐng)域,研究重點正在轉(zhuǎn)向更高層次的場景理解,如語義映射。當(dāng)機(jī)器人需要與環(huán)境交互時,它必須能夠理解周圍環(huán)境的上下文信息。這項工作的重點是分類和定位地圖內(nèi)的對象,這是正在建設(shè)(SLAM)或已經(jīng)建成。為了進(jìn)一步探索這個方向,我們提出了一個框架,可以自主檢測和定位在已知環(huán)境中的預(yù)定義對象,使用多模態(tài)傳感器融合方法(結(jié)合RGB和深度數(shù)據(jù)從RGB-D相機(jī)和激光雷達(dá))。該框架由三個關(guān)鍵要素組成:通過RGB數(shù)據(jù)理解環(huán)境,通過多模態(tài)傳感器融合估計深度,以及管理偽像(即,過濾和穩(wěn)定測量)。實驗表明,該框架可以準(zhǔn)確地檢測出真實樣本環(huán)境中98%的目標(biāo),無需后期處理,而85%和80%的目標(biāo)是使用單個RGBD相機(jī)或RGB +激光雷達(dá)設(shè)置分別映射。與單傳感器(相機(jī)或激光雷達(dá))實驗的比較進(jìn)行表明,傳感器融合允許機(jī)器人準(zhǔn)確地檢測近和遠(yuǎn)的障礙物,這將是噪聲或不精確的純視覺或基于激光的方法。
1.2 Shi-NeSS: Detecting Good and Stable Keypoints with a Neural Stability Score
施奈斯:用神經(jīng)穩(wěn)定性評分檢測良好和穩(wěn)定的關(guān)鍵點
論文地址:
https://arxiv.org/abs/2307.01069
學(xué)習(xí)特征點檢測器由于關(guān)鍵點的定義的模糊性以及相應(yīng)地需要針對這樣的點專門準(zhǔn)備的地面實況標(biāo)簽而提出挑戰(zhàn)。在我們的工作中,我們解決了這兩個問題,利用手工制作的Shi檢測器和神經(jīng)網(wǎng)絡(luò)的組合。我們建立在由Shi檢測器提供的原則性和局部化關(guān)鍵點的基礎(chǔ)上,并使用由神經(jīng)網(wǎng)絡(luò)回歸的關(guān)鍵點穩(wěn)定性得分-神經(jīng)穩(wěn)定性得分(NeSS)來執(zhí)行它們的選擇。因此,我們的方法被命名為Shi-NeSS,因為它結(jié)合了Shi檢測器和關(guān)鍵點穩(wěn)定性得分的屬性,并且它只需要訓(xùn)練圖像集,而無需數(shù)據(jù)集預(yù)標(biāo)記或重建對應(yīng)標(biāo)記的需要。我們評估了Shi-NeSS的HPatches,ScanNet,MegaDepth和IMC-PT,展示了國家的最先進(jìn)的性能和良好的泛化下游任務(wù)。
1.3 HODINet: High-Order Discrepant Interaction Network for RGB-D Salient Object Detection
HODINet:用于RGB-D顯著目標(biāo)檢測的高階差異交互網(wǎng)絡(luò)
論文地址:
https://arxiv.org/abs/2307.00954
RGB-D顯著對象檢測(SOD)旨在通過聯(lián)合建模RGB和深度信息來檢測顯著區(qū)域。大多數(shù)RGB-D SOD方法應(yīng)用相同類型的骨干和融合模塊,以相同地學(xué)習(xí)多模態(tài)和多級特征。然而,這些特征對最終顯著性結(jié)果的貢獻(xiàn)不同,這引起了兩個問題:1)如何對RGB圖像和深度圖的差異特性進(jìn)行建模; 2)如何在不同階段融合這些跨模態(tài)特征。在本文中,我們提出了一個高階差異相互作用網(wǎng)絡(luò)(HODINet)的RGB-D SOD。具體地,我們首先采用基于變換器和基于CNN的架構(gòu)作為主干來分別編碼RGB和深度特征。然后,精細(xì)地提取高階表示,并嵌入空間和信道注意,以實現(xiàn)不同階段的跨模態(tài)特征融合。具體來說,我們設(shè)計了一個高階空間融合(HOSF)模塊和一個高階信道融合(HOCF)模塊來融合前兩個階段和后兩個階段的功能,分別。此外,采用級聯(lián)金字塔重構(gòu)網(wǎng)絡(luò),以自頂向下的方式逐步解碼融合特征。廣泛的實驗進(jìn)行了七個廣泛使用的數(shù)據(jù)集,以證明所提出的方法的有效性。我們在四個評估指標(biāo)下實現(xiàn)了對24個國家的最先進(jìn)的方法的競爭性能。
1.4 Graph-level Anomaly Detection via Hierarchical Memory Networks
基于分層記憶網(wǎng)絡(luò)的圖級異常檢測
論文地址:
https://arxiv.org/abs/2307.00755
圖級異常檢測旨在識別與圖集中的大多數(shù)相比表現(xiàn)出異常結(jié)構(gòu)和節(jié)點屬性的異常圖。一個主要的挑戰(zhàn)是學(xué)習(xí)正常模式表現(xiàn)在細(xì)粒度和整體視圖的圖形,以識別圖形是異常的部分或整體。為了應(yīng)對這一挑戰(zhàn),我們提出了一種新的方法,稱為分層存儲器網(wǎng)絡(luò)(HimNet),它學(xué)習(xí)分層存儲器模塊-節(jié)點和圖形存儲器模塊-通過圖形自動編碼器網(wǎng)絡(luò)架構(gòu)。節(jié)點級存儲器模塊被訓(xùn)練為對節(jié)點之間的細(xì)粒度內(nèi)部圖交互進(jìn)行建模以用于檢測局部異常圖,而圖級存儲器模塊專用于學(xué)習(xí)整體正常模式以用于檢測全局異常圖。這兩個模塊聯(lián)合優(yōu)化,以檢測本地和全球異常圖。對來自不同領(lǐng)域的16個真實世界圖數(shù)據(jù)集的廣泛實證結(jié)果表明,i)HimNet顯著優(yōu)于最先進(jìn)的方法,ii)它對異常污染具有魯棒性。代碼可從以下網(wǎng)址獲得:https://github.com/Niuchx/HimNet。
1.5 Feasibility of Universal Anomaly Detection without Knowing the Abnormality in Medical Images
醫(yī)學(xué)圖像不知道異常情況下通用異常檢測的可行性
論文地址:
https://arxiv.org/abs/2307.00750
最近已經(jīng)開發(fā)了許多異常檢測方法,特別是深度學(xué)習(xí)方法,以通過在訓(xùn)練期間僅采用正常圖像來識別異常圖像形態(tài)。不幸的是,許多現(xiàn)有的異常檢測方法針對特定的“已知”異常(例如,腦腫瘤、骨分?jǐn)?shù)、細(xì)胞類型)。此外,即使在訓(xùn)練過程中僅使用正常圖像,在驗證過程期間也經(jīng)常采用異常圖像(例如,異常圖像)。歷元選擇、超參數(shù)調(diào)整),這可能無意地泄漏假定的“未知”異常。在這項研究中,我們調(diào)查了這兩個基本方面的普遍異常檢測醫(yī)學(xué)圖像(1)跨四個醫(yī)學(xué)數(shù)據(jù)集比較各種異常檢測方法,(2)研究關(guān)于如何在僅使用正常圖像的驗證階段期間無偏地選擇最佳異常檢測模型的不可避免但經(jīng)常被忽視的問題,(3)提出了一種簡單的決策級集成方法,在不知道異常的情況下,充分利用不同類型異常檢測的優(yōu)點。我們的實驗結(jié)果表明,沒有一個評估的方法在所有數(shù)據(jù)集上始終達(dá)到最佳性能。我們提出的方法增強(qiáng)了一般性能的魯棒性(平均AUC 0.956)。
1.6 LXL: LiDAR Exclusive Lean 3D Object Detection with 4D Imaging Radar and Camera Fusion
LXL:激光雷達(dá)獨(dú)有的4D成像雷達(dá)和相機(jī)融合的傾斜3D目標(biāo)檢測
論文地址:
https://arxiv.org/abs/2307.00724
作為一種新興技術(shù)和相對便宜的設(shè)備,4D成像雷達(dá)已經(jīng)被證實在自動駕駛中執(zhí)行3D物體檢測方面是有效的。然而,4D雷達(dá)點云的稀疏性和噪聲性阻礙了進(jìn)一步的性能改善,并且缺乏對其與其他模態(tài)融合的深入研究。另一方面,大多數(shù)基于攝像機(jī)的感知方法通過Lift-Splat-Shoot(LSS)中提出的“基于深度的濺射”將提取的圖像透視圖特征幾何地轉(zhuǎn)換為鳥瞰圖,一些研究人員利用其他模態(tài),如LiDAR或普通汽車?yán)走_(dá)進(jìn)行增強(qiáng)。最近,一些作品已經(jīng)將“采樣”策略應(yīng)用于圖像視圖變換,表明即使沒有圖像深度預(yù)測,它也優(yōu)于“飛濺”。然而,“采樣”的潛力并沒有完全釋放出來。本文研究了基于攝像機(jī)和四維成像雷達(dá)融合的“采樣”視圖變換策略的三維目標(biāo)檢測。在所提出的模型中,LXL,預(yù)測的圖像深度分布圖和雷達(dá)3D占用網(wǎng)格被用來幫助圖像視圖變換,稱為“雷達(dá)占用輔助的基于深度的采樣”。在VoD和TJ 4DRadSet數(shù)據(jù)集上的實驗表明,該方法比現(xiàn)有的3D目標(biāo)檢測方法有顯著的優(yōu)勢,沒有花里胡哨。消融研究表明,我們的方法在不同的增強(qiáng)設(shè)置中表現(xiàn)最好。
1.7 SSC3OD: Sparsely Supervised Collaborative 3D Object Detection from LiDAR Point Clouds
SSC3OD:基于稀疏監(jiān)督的激光雷達(dá)點云協(xié)同三維目標(biāo)檢測
論文地址:
https://arxiv.org/abs/2307.00717
協(xié)同3D目標(biāo)檢測以其多個智能體之間的交互優(yōu)勢,在自動駕駛中得到了廣泛的研究。然而,現(xiàn)有的協(xié)作式3D對象檢測器在一個完全監(jiān)督的范例嚴(yán)重依賴于大規(guī)模的注釋的3D邊界框,這是勞動密集型和耗時的。為了解決這個問題,我們提出了一個稀疏監(jiān)督的協(xié)同3D對象檢測框架SSC 3 OD,它只需要每個代理隨機(jī)標(biāo)記場景中的一個對象。具體地,該模型由兩個新穎的組件組成,即,基于柱的掩碼自動編碼器(Pillar-MAE)和實例挖掘模塊。Pillar-MAE模塊旨在以自我監(jiān)督的方式對高級語義進(jìn)行推理,實例挖掘模塊在線為協(xié)作檢測器生成高質(zhì)量的偽標(biāo)簽。通過引入這些簡單而有效的機(jī)制,所提出的SSC 3 OD可以減輕不完整的注釋的不利影響。我們基于協(xié)作感知數(shù)據(jù)集生成稀疏標(biāo)簽來評估我們的方法。在三個大規(guī)模數(shù)據(jù)集上進(jìn)行的大量實驗表明,我們提出的SSC 3 OD可以有效地提高稀疏監(jiān)督協(xié)作3D對象檢測器的性能。
1.8 Efficient Visual Fault Detection for Freight Train Braking System via Heterogeneous Self Distillation in the Wild
基于異質(zhì)自蒸餾的貨車制動系統(tǒng)野外高效視覺故障檢測
論文地址:
https://arxiv.org/abs/2307.00701
在受限的硬件環(huán)境下,高效的貨物列車視覺故障檢測是保證鐵路安全運(yùn)行的關(guān)鍵環(huán)節(jié)。盡管基于深度學(xué)習(xí)的方法在對象檢測方面表現(xiàn)出色,但貨運(yùn)訓(xùn)練故障檢測的效率仍不足以應(yīng)用于現(xiàn)實世界的工程。本文提出了一種異構(gòu)的自蒸餾框架,以確保檢測的準(zhǔn)確性和速度,同時滿足低資源需求。輸出特征知識中的特權(quán)信息可以通過蒸餾從教師轉(zhuǎn)移到學(xué)生模型以提高性能。我們首先采用一個輕量級的骨干來提取特征,并生成一個新的異構(gòu)知識頸。這樣的頸部通過并行編碼對通道之間的位置信息和長程依賴性進(jìn)行建模,以優(yōu)化特征提取能力。然后,我們利用一般分布,以獲得更可靠和準(zhǔn)確的包圍盒估計。最后,我們采用了一種新的損失函數(shù),使網(wǎng)絡(luò)很容易集中在標(biāo)簽附近的值,以提高學(xué)習(xí)效率。四個故障數(shù)據(jù)集上的實驗表明,我們的框架可以實現(xiàn)超過37幀每秒,并保持最高的精度與傳統(tǒng)的蒸餾方法相比。此外,與最先進(jìn)的方法相比,我們的框架表現(xiàn)出更有競爭力的性能,更低的內(nèi)存使用量和最小的模型大小。
1.9 A MIL Approach for Anomaly Detection in Surveillance Videos from Multiple Camera Views
一種多視角監(jiān)控視頻異常檢測的MIL方法
論文地址:
https://arxiv.org/abs/2307.00562
遮擋和雜波是導(dǎo)致監(jiān)控視頻中異常檢測困難的兩種場景狀態(tài)。此外,異常事件是罕見的,因此,類別不平衡和缺乏標(biāo)記的異常數(shù)據(jù)也是該任務(wù)的關(guān)鍵特征。因此,弱監(jiān)督方法被大量研究用于該應(yīng)用。在本文中,我們解決這些典型的問題,異常檢測在監(jiān)控視頻相結(jié)合的多實例學(xué)習(xí)(MIL),以處理缺乏標(biāo)簽和多個攝像機(jī)視圖(MC),以減少遮擋和雜波的影響。在由此產(chǎn)生的MC-MIL算法中,我們應(yīng)用多相機(jī)組合損失函數(shù)來訓(xùn)練回歸網(wǎng)絡(luò)與Sultani的MIL排名函數(shù)。為了評估這里首次提出的MC-MIL算法,多相機(jī)PETS-2009基準(zhǔn)數(shù)據(jù)集被重新標(biāo)記用于來自多個相機(jī)視圖的異常檢測任務(wù)。結(jié)果顯示,與單攝像頭配置相比,F(xiàn)1分?jǐn)?shù)的性能有了顯著提高。
1.10 End-to-End Out-of-distribution Detection with Self-supervised Sampling
基于自監(jiān)督采樣的端到端非分布檢測
論文地址:
https://arxiv.org/abs/2307.00519
分布外(OOD)檢測使模型在封閉集上訓(xùn)練,以識別開放世界中的未知數(shù)據(jù)。盡管許多現(xiàn)有技術(shù)已經(jīng)產(chǎn)生了相當(dāng)大的改進(jìn),但是仍然存在兩個關(guān)鍵的障礙。首先,尚未提出一個統(tǒng)一的視角來看待具有個人設(shè)計的發(fā)展藝術(shù),這對于提供相關(guān)方向的見解至關(guān)重要。其次,大多數(shù)研究集中在預(yù)訓(xùn)練特征的后處理方案上,而忽視了端到端訓(xùn)練的優(yōu)越性,極大地限制了OOD檢測的上限。為了解決這些問題,我們提出了一個通用的概率框架來解釋許多現(xiàn)有的方法和OOD數(shù)據(jù)自由模型,即自監(jiān)督采樣OOD檢測(SSOD),以展現(xiàn)端到端學(xué)習(xí)的潛力?;诰矸e的局部特性,SSOD有效地利用來自于分布(ID)數(shù)據(jù)的自然OOD信號。通過這些監(jiān)督,它聯(lián)合優(yōu)化OOD檢測和傳統(tǒng)的ID分類。大量的實驗表明,SSOD在許多大規(guī)?;鶞?zhǔn)測試上建立了有競爭力的最先進(jìn)的性能,在那里它比最近的方法,如KNN,以很大的幅度,例如,F(xiàn)PR95時SUN為48.99%至35.52%。
1.11 Human-to-Human Interaction Detection
人與人的交互檢測
論文地址:
https://arxiv.org/abs/2307.00464
全面了解視頻流中感興趣的人與人之間的互動,如排隊、握手、打斗和追逐,對于校園、廣場和公園等區(qū)域的公共安全監(jiān)控具有極其重要的意義。不同于傳統(tǒng)的人類交互識別,它使用編排的視頻作為輸入,忽略并發(fā)的交互組,并在不同的階段進(jìn)行檢測和識別,我們引入了一個新的任務(wù),名為人與人的交互檢測(HID)。HID致力于在一個模型中檢測主體,識別個人明智的行為,并根據(jù)他們的互動關(guān)系對人進(jìn)行分組。首先,基于流行的AVA數(shù)據(jù)集創(chuàng)建的動作檢測,我們建立了一個新的HID基準(zhǔn),稱為AVA-Interaction(AVA-I),通過添加注釋的交互關(guān)系,在一幀一幀的方式。AVA-I由85,254幀和86,338個交互組組成,每個圖像最多包括4個并發(fā)交互組。第二,我們提出了一種新的基線方法SaMFormer HID,包含一個視覺特征提取器,分裂階段,利用基于變換器的模型解碼動作實例和交互式組,和一個合并階段,重建實例和組之間的關(guān)系。所有SaMFormer組件都以端到端的方式進(jìn)行聯(lián)合培訓(xùn)。在AVA-I上的大量實驗驗證了SaMFormer優(yōu)于代表性方法的優(yōu)越性。數(shù)據(jù)集和代碼將公開,以鼓勵更多的后續(xù)研究。
1.12 Detection of River Sandbank for Sand Mining with the Presence of Other High Mineral Content Regions Using Multi-spectral Images
利用多光譜圖像檢測其他高礦物含量區(qū)域的采砂河流沙洲
論文地址:
https://arxiv.org/abs/2307.00314
采砂是一個蓬勃發(fā)展的行業(yè)。河流沙洲是采砂的主要來源之一。河道采砂潛在區(qū)域的探測直接影響到經(jīng)濟(jì)、社會和環(huán)境。在過去,半監(jiān)督和監(jiān)督技術(shù)已被用于檢測采礦區(qū)域,包括采砂。一些技術(shù)采用多模態(tài)分析結(jié)合不同的模態(tài),如多光譜成像,合成孔徑雷達(dá)(SAR)成像,航空圖像,和點云數(shù)據(jù)。然而,區(qū)別河流沙洲地區(qū)的光譜特征尚未得到充分的探索。本文提出了一種新的方法來檢測河流沙洲地區(qū)的采砂利用多光譜圖像沒有任何標(biāo)記的數(shù)據(jù),在季節(jié)。與河流的聯(lián)系和豐富的礦物是這一地區(qū)最突出的特征。擬議的工作使用這些區(qū)別特征來確定河流沙洲地區(qū)的光譜特征,這對其他高礦物豐度地區(qū)是魯棒的。它遵循兩個步驟的方法,首先,潛在的高礦物質(zhì)區(qū)域被檢測到,然后,它們被隔離使用河流的存在。所提出的技術(shù)提供了平均準(zhǔn)確度,精確度和召回率分別為90.75%,85.47%和73.5%,在沒有使用任何標(biāo)記的數(shù)據(jù)集從Landsat 8圖像的季節(jié)。
1.13 Image Matters: A New Dataset and Empirical Study for Multimodal Hyperbole Detection
IMAGE Matters:一種新的多模式夸張檢測數(shù)據(jù)集及實證研究
論文地址:
https://arxiv.org/abs/2307.00209
夸張是一種常見的語言現(xiàn)象??鋸埖臋z測是理解人類表情的重要組成部分。目前已經(jīng)有一些關(guān)于夸張識別的研究,但大多數(shù)研究都是針對語篇情態(tài)的。然而,隨著社交媒體的發(fā)展,人們可以用各種模態(tài)來創(chuàng)建雙曲表達(dá),包括文本、圖像、視頻等。在本文中,我們專注于多模態(tài)夸張檢測。我們創(chuàng)建了一個多模態(tài)檢測數(shù)據(jù)集\footnote{該數(shù)據(jù)集將向社區(qū)發(fā)布。}從微博(一個中國的社交媒體),并進(jìn)行了一些研究。本文將微博中的文本和圖像作為兩種模態(tài),探討了文本和圖像在夸張檢測中的作用。不同的預(yù)先訓(xùn)練的多模態(tài)編碼器也在該下游任務(wù)上進(jìn)行評估,以顯示它們的性能。此外,由于該數(shù)據(jù)集是由五個不同的主題構(gòu)建的,我們還評估了不同模型的跨域性能。這些研究可以作為一個基準(zhǔn),并指出進(jìn)一步研究的方向多模態(tài)夸張檢測。
1.14 Obscured Wildfire Flame Detection By Temporal Analysis of Smoke Patterns Captured by Unmanned Aerial Systems
基于無人機(jī)煙霧模式時間分析的隱蔽野火火焰探測
論文地址:
https://arxiv.org/abs/2307.00104
本研究論文解決了使用僅配備RGB攝像機(jī)的無人機(jī)實時檢測模糊野火(當(dāng)火焰被樹木,煙霧,云和其他自然障礙物覆蓋時)的挑戰(zhàn)。我們提出了一種新的方法,采用語義分割的基礎(chǔ)上的時間分析的煙霧模式在視頻序列。我們的方法利用基于深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)的編碼器-解碼器架構(gòu),具有預(yù)訓(xùn)練的CNN編碼器和用于解碼的3D卷積,同時使用特征的順序堆疊來利用時間變化。預(yù)測的火災(zāi)位置可以幫助無人機(jī)有效地抗擊森林火災(zāi),并在準(zhǔn)確的火焰位置精確定位阻燃化學(xué)品滴。我們將我們的方法應(yīng)用到一個策劃的數(shù)據(jù)集,從FLAME 2數(shù)據(jù)集,包括RGB視頻以及IR視頻,以確定地面實況。我們所提出的方法具有獨(dú)特的屬性,檢測模糊的火,并實現(xiàn)了85.88%的骰子得分,同時實現(xiàn)了92.47%的高精度和90.67%的分類準(zhǔn)確率的測試數(shù)據(jù)顯示有前途的結(jié)果時,目視檢查。事實上,我們的方法優(yōu)于其他方法的一個顯著的邊際視頻級火災(zāi)分類,我們獲得了約100%的準(zhǔn)確率使用MobileNet+CBAM作為編碼器骨干。
1.15 A Parts Based Registration Loss for Detecting Knee Joint Areas
一種基于零件的膝關(guān)節(jié)區(qū)域檢測方法
論文地址:
https://arxiv.org/abs/2307.00083
文章來源:http://www.zghlxwxcb.cn/news/detail-537265.html
在本文中,被認(rèn)為是基于零件的損失微調(diào)登記膝關(guān)節(jié)區(qū)域。這里的部分被定義為抽象的特征向量的位置,它們是自動選擇的參考圖像。對于測試圖像,鼓勵檢測到的部分具有與參考圖像中的對應(yīng)部分相似的空間配置。文章來源地址http://www.zghlxwxcb.cn/news/detail-537265.html
到了這里,關(guān)于【計算機(jī)視覺 | 目標(biāo)檢測】arxiv 計算機(jī)視覺關(guān)于目標(biāo)檢測的學(xué)術(shù)速遞(7 月 4 日論文合集)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!