2018
Class-Agnostic Counting
code: https://paperswithcode.com/paper/class-agnostic-counting
摘要:幾乎所有現(xiàn)有的計(jì)數(shù)方法都是為一個(gè)特定的對(duì)象類而設(shè)計(jì)的。然而,我們的工作旨在創(chuàng)建一個(gè)能夠計(jì)數(shù)任何類對(duì)象的計(jì)數(shù)模型。為了實(shí)現(xiàn)這一目標(biāo),我們將計(jì)數(shù)表述為一個(gè)匹配問題,使我們能夠利用對(duì)象計(jì)數(shù)問題中自然存在的圖像自相似性。我們做出了以下三個(gè)貢獻(xiàn):首先,通用匹配網(wǎng)絡(luò)(GMN)架構(gòu),它可以以類無關(guān)的方式對(duì)任何對(duì)象進(jìn)行計(jì)數(shù);其次,通過將計(jì)數(shù)問題重新定義為匹配對(duì)象之一,我們可以利用標(biāo)記為跟蹤的大量視頻數(shù)據(jù),其中包含適合訓(xùn)練計(jì)數(shù)模型的自然重復(fù)。這些數(shù)據(jù)使我們能夠訓(xùn)練GMN。第三,為了根據(jù)不同的用戶需求定制GMN,使用一個(gè)適配器模塊以最小的努力專門化模型,即使用一些標(biāo)記的示例,并只適應(yīng)訓(xùn)練參數(shù)的一小部分。這是一種少鏡頭學(xué)習(xí)的形式,它對(duì)于由于需要專家知識(shí)(例如微生物學(xué))而導(dǎo)致標(biāo)簽有限的領(lǐng)域是實(shí)用的。我們?cè)谝幌盗鞋F(xiàn)有的計(jì)數(shù)基準(zhǔn)上演示了我們的方法的靈活性:特別是單元格、汽車和人類人群。該模型在細(xì)胞和人群計(jì)數(shù)數(shù)據(jù)集上取得了具有競(jìng)爭(zhēng)力的性能,僅使用三張訓(xùn)練圖像就超過了最先進(jìn)的汽車數(shù)據(jù)集。當(dāng)在整個(gè)數(shù)據(jù)集上進(jìn)行訓(xùn)練時(shí),該方法的性能大大優(yōu)于以往所有的方法。
2021
Learning To Count Everything
code: https://paperswithcode.com/paper/learning-to-count-everything
摘要:現(xiàn)有的視覺計(jì)數(shù)工作主要集中于一個(gè)特定的類別,如人、動(dòng)物和細(xì)胞。在本文中,我們感興趣的是計(jì)算所有內(nèi)容,即計(jì)算來自任何類別的對(duì)象,只給出來自該類別的少數(shù)注釋實(shí)例。為此,我們將計(jì)數(shù)作為一個(gè)幾個(gè)鏡頭的回歸任務(wù)。為了解決這一任務(wù),我們提出了一種新的方法,它將查詢圖像與查詢圖像中的幾個(gè)示例對(duì)象一起使用,并預(yù)測(cè)查詢圖像中所有感興趣對(duì)象的存在的密度圖。我們還提出了一種新的適應(yīng)策略,以適應(yīng)我們的網(wǎng)絡(luò)在測(cè)試時(shí)適應(yīng)任何新的視覺類別,只使用來自新類別的少數(shù)范例對(duì)象。我們還介紹了一個(gè)包含147個(gè)對(duì)象類別的數(shù)據(jù)集,其中包含超過6000張圖像,適合于少鏡頭計(jì)數(shù)的任務(wù)。這些圖像用兩種類型的標(biāo)注,點(diǎn)和邊界框,它們可以用于開發(fā)少鏡頭計(jì)數(shù)模型。在該數(shù)據(jù)集上的實(shí)驗(yàn)表明,我們的方法優(yōu)于幾種最先進(jìn)的目標(biāo)探測(cè)器和少鏡頭計(jì)數(shù)方法。
OBJECT COUNTING: YOU ONLY NEED TO LOOK AT ONE
摘要: 本文旨在解決一個(gè)熱門對(duì)象計(jì)數(shù)的挑戰(zhàn)性任務(wù)。給定一個(gè)包含新穎的、以前未見過的類別對(duì)象的圖像,該任務(wù)的目標(biāo)是只使用一個(gè)支持的邊界框示例來計(jì)算所需類別中的所有實(shí)例。為此,我們提出了一個(gè)計(jì)數(shù)模型,通過該模型,您只需要查看一個(gè)實(shí)例(LaoNet)。首先,一個(gè)特征相關(guān)模塊結(jié)合了自我注意和相關(guān)注意模塊來學(xué)習(xí)內(nèi)部關(guān)系和相互關(guān)系。它使網(wǎng)絡(luò)對(duì)不同實(shí)例之間的旋轉(zhuǎn)和大小的不一致性具有魯棒性。其次,設(shè)計(jì)了一種尺度聚合機(jī)制來幫助提取具有不同尺度信息的特征。與現(xiàn)有的少鏡頭計(jì)數(shù)方法相比,LaoNet在學(xué)習(xí)收斂速度較快的同時(shí),取得了最先進(jìn)的結(jié)果。
2022
Represent, Compare, and Learn: A Similarity-Aware Framework for Class-Agnostic Counting
code: https://github.com/SinicaGroup/Class-agnostic-Few-shot-Object-Counting
摘要:類不可知計(jì)數(shù)(CAC)的目的是對(duì)給定少數(shù)樣本的查詢圖像中的所有實(shí)例進(jìn)行計(jì)數(shù)。一個(gè)標(biāo)準(zhǔn)的管道是從范例中提取視覺特征,并將它們與查詢圖像進(jìn)行匹配,以推斷對(duì)象計(jì)數(shù)。這個(gè)管道中的兩個(gè)基本組成部分是特征表示和相似度度量?,F(xiàn)有的方法要么采用預(yù)先訓(xùn)練好的網(wǎng)絡(luò)來表示特征,要么學(xué)習(xí)新的特征,同時(shí)應(yīng)用具有固定內(nèi)積的樸素相似度度量。我們發(fā)現(xiàn)這種范式導(dǎo)致噪聲相似性匹配,從而損害計(jì)數(shù)性能。在這項(xiàng)工作中,我們提出了一個(gè)相似度感知的CAC框架,聯(lián)合學(xué)習(xí)表示和相似度度量。我們首先用一個(gè)稱為雙線線性匹配網(wǎng)絡(luò)(BMNet)的樸素基線實(shí)例化我們的框架,它的關(guān)鍵組件是一個(gè)可學(xué)習(xí)的雙線性相似度度量。為了進(jìn)一步體現(xiàn)我們框架的核心,我們將BMNet擴(kuò)展到BMNet+,從三個(gè)方面建模相似性: 1)通過自相似性來表示實(shí)例,以增強(qiáng)實(shí)例對(duì)類內(nèi)變化的特征魯棒性;2)動(dòng)態(tài)比較相似性,以關(guān)注每個(gè)樣本的關(guān)鍵模式;3)從監(jiān)督信號(hào)中學(xué)習(xí),對(duì)匹配結(jié)果施加顯式約束。在最近的CAC數(shù)據(jù)集FSC147上進(jìn)行的廣泛實(shí)驗(yàn)表明,我們的模型明顯優(yōu)于最先進(jìn)的CAC方法。
Learning to Count Anything: Reference-less Class-agnostic Counting with Weak Supervision
code: https://paperswithcode.com/paper/learning-to-count-anything-reference-less
摘要:當(dāng)前的類不可知的計(jì)數(shù)方法可以推廣到不可見的類,但通常需要參考圖像來定義要計(jì)數(shù)的對(duì)象的類型,以及在訓(xùn)練期間的實(shí)例注釋。無參考的類不可知的計(jì)數(shù)是一個(gè)新興的領(lǐng)域,它認(rèn)為計(jì)數(shù)的核心是一個(gè)重復(fù)識(shí)別任務(wù)。這些方法有助于計(jì)算一個(gè)不斷變化的集合組合。我們展示了具有全局上下文的一般特征空間可以枚舉圖像中的實(shí)例,而不枚舉對(duì)象類型的存在。具體來說,我們證明了從沒有點(diǎn)級(jí)監(jiān)督或參考圖像的視覺變壓器特征中回歸優(yōu)于其他無參考的方法,并且與使用參考圖像的方法具有競(jìng)爭(zhēng)力。我們?cè)诋?dāng)前標(biāo)準(zhǔn)的少鏡頭計(jì)數(shù)數(shù)據(jù)集FSC-147上展示了這一點(diǎn)。我們還提出了一個(gè)改進(jìn)的數(shù)據(jù)集,F(xiàn)SC-133,它消除了來自FSC-147中的錯(cuò)誤、歧義和重復(fù)圖像,并在其上展示了類似的性能。據(jù)我們所知,我們是第一個(gè)弱監(jiān)督無類不可知計(jì)數(shù)方法。
Scale-Prior Deformable Convolution for Exemplar-Guided Class-Agnostic Counting
摘要:類不可知論計(jì)數(shù)最近成為一項(xiàng)更實(shí)用的計(jì)數(shù)任務(wù),它旨在預(yù)測(cè)任何范例對(duì)象的數(shù)量和分布,而不是計(jì)算行人或汽車等特定類別。然而,最近的方法是在設(shè)計(jì)樣本和查詢圖像之間的相似匹配規(guī)則,而忽略了提取特征的魯棒性。為了解決這個(gè)問題,我們提出了一種尺度先驗(yàn)可變形卷積,通過將樣本的信息,例如,尺度,集成到計(jì)數(shù)網(wǎng)絡(luò)的主干中。結(jié)果表明,所提出的計(jì)數(shù)網(wǎng)絡(luò)可以提取與給定樣本相似的對(duì)象的語義特征,并有效地過濾不相關(guān)的背景。此外,我們發(fā)現(xiàn),由于不同樣本中的對(duì)象尺度的不同,傳統(tǒng)的l2和廣義損失不適用于類不可知計(jì)數(shù)。在此,我們提出了一個(gè)尺度敏感的廣義損失來解決這個(gè)問題。它可以根據(jù)給定的范例調(diào)整成本函數(shù)公式,使預(yù)測(cè)和地面真實(shí)值之間的差異更加突出。大量的實(shí)驗(yàn)表明,我們的模型獲得了顯著的改進(jìn),并在一個(gè)公共的類無關(guān)的計(jì)數(shù)基準(zhǔn)上取得了最先進(jìn)的性能。
CounTR: Transformer-based Generalised Visual Counting
摘要:在本文中,我們考慮了廣義視覺對(duì)象計(jì)數(shù)問題,目的是開發(fā)一個(gè)計(jì)算模型來計(jì)算任意語義類別的對(duì)象數(shù)量,使用任意數(shù)量的“范例”,即零射擊或低射計(jì)數(shù)。為此,我們做出了以下四個(gè)貢獻(xiàn): (1)我們引入了一種新的基于transformer的架構(gòu),用于一般化視覺對(duì)象計(jì)數(shù),稱為計(jì)數(shù)transformer(CounTR),它明確地捕捉圖像補(bǔ)丁之間的相似性或給定的“樣本”;(2)采用兩階段訓(xùn)練機(jī)制,首先用自監(jiān)督學(xué)習(xí)對(duì)模型進(jìn)行預(yù)訓(xùn)練,然后進(jìn)行監(jiān)督微調(diào);(3)我們提出了一個(gè)簡單的、可擴(kuò)展的管道,用于合成具有大量實(shí)例或來自不同語義類別的訓(xùn)練圖像,明確地迫使模型使用給定的“范例”;(4)我們對(duì)大規(guī)模計(jì)數(shù)基準(zhǔn)進(jìn)行了徹底的消融研究,如FSC- 147,并在零鏡頭和少鏡頭設(shè)置上展示了最先進(jìn)的性能。
Few-shot Object Counting with Similarity-Aware Feature Enhancement
code: https://github.com/zhiyuanyou/SAFECount
摘要:這項(xiàng)工作研究了少鏡頭對(duì)象計(jì)數(shù)的問題,它計(jì)數(shù)在查詢圖像中發(fā)生的范例對(duì)象(即,由一個(gè)或幾個(gè)支持圖像描述)的數(shù)量。主要的挑戰(zhàn)在于,目標(biāo)對(duì)象可以密集地打包在查詢圖像中,這使得很難識(shí)別每一個(gè)對(duì)象。為了解決這一障礙,我們提出了一種新的學(xué)習(xí)模塊,包括相似度比較模塊和特征增強(qiáng)模塊。具體地說,給定一個(gè)支持圖像和一個(gè)查詢圖像,我們首先通過比較它們?cè)诿總€(gè)空間位置上的投影特征來得到一個(gè)得分圖。關(guān)于所有支持圖像的得分圖被一起收集,并跨范例維度和空間維度進(jìn)行歸一化,生成一個(gè)可靠的相似性圖。然后,我們利用所開發(fā)的點(diǎn)向相似性作為加權(quán)系數(shù),利用支持特征來增強(qiáng)查詢特征。這種設(shè)計(jì)鼓勵(lì)模型通過更多地關(guān)注類似于支持圖像的區(qū)域來檢查查詢圖像,從而使不同對(duì)象之間的邊界更加清晰。在各種基準(zhǔn)和訓(xùn)練設(shè)置上的廣泛實(shí)驗(yàn)表明,我們以足夠大的優(yōu)勢(shì)超過了最先進(jìn)的方法。例如,在最近的一個(gè)大規(guī)模的FSC-147數(shù)據(jù)集上,我們通過將平均絕對(duì)誤差從22.08提高到14.32(35%↑),超過了最先進(jìn)的方法。
Few-shot Object Counting and Detection
code: https://paperswithcode.com/paper/few-shot-object-counting-and-detection
摘要: 我們處理了一個(gè)關(guān)于少射目標(biāo)計(jì)數(shù)和檢測(cè)的新任務(wù)。給定一個(gè)目標(biāo)對(duì)象類的幾個(gè)示例邊界框,我們?cè)噲D計(jì)數(shù)和檢測(cè)目標(biāo)類中的所有對(duì)象。此任務(wù)與少鏡頭對(duì)象計(jì)數(shù)共享相同的監(jiān)督,但另外輸出對(duì)象邊界框和總對(duì)象計(jì)數(shù)。為了解決這一具有挑戰(zhàn)性的問題,我們引入了一種新的雙階段訓(xùn)練策略和一種新的不確定性感知的少鏡頭目標(biāo)檢測(cè)器:計(jì)數(shù)-detr。前者旨在生成偽地真邊界框來訓(xùn)練后者。后者利用了前者提供的偽地真,但采取了必要的步驟來解釋偽地真的不完善性。為了驗(yàn)證我們的方法在新任務(wù)上的性能,我們引入了兩個(gè)新的數(shù)據(jù)集FSCD-147和FSCD-LVIS。這兩個(gè)數(shù)據(jù)集都包含具有復(fù)雜場(chǎng)景的圖像,每個(gè)圖像有多個(gè)對(duì)象類,以及對(duì)象形狀、大小和外觀的巨大變化。我們提出的方法在計(jì)數(shù)和檢測(cè)方面優(yōu)于在計(jì)數(shù)和檢測(cè)方面都有很大的優(yōu)勢(shì)。
2023
CAN SAM COUNT ANYTHING? AN EMPIRICAL STUDY ON SAM COUNTING
code: https://github.com/Vision-Intelligence-and-Robots-Group/count-anything
摘要:Meta AI最近發(fā)布了“分段任何東西模型”(SAM),該模型因其在類不可知分割方面令人印象深刻的表現(xiàn)而獲得了關(guān)注。在本研究中,我們探討了使用SAM進(jìn)行具有挑戰(zhàn)性的少鏡頭對(duì)象計(jì)數(shù)任務(wù),即通過提供幾個(gè)邊界框來計(jì)數(shù)一個(gè)看不見類別的對(duì)象。我們將SAM的性能與其他少量的鏡頭計(jì)數(shù)方法進(jìn)行了比較,發(fā)現(xiàn)目前沒有進(jìn)一步的微調(diào),它并不令人滿意,特別是對(duì)于小的和擁擠的對(duì)象。
Zero-Shot Object Counting
code: https://github.com/cvlab-stonybrook/zero-shot-counting
摘要: 類不可知的對(duì)象計(jì)數(shù)的目的是在測(cè)試時(shí)計(jì)算任意類的對(duì)象實(shí)例。目前解決這一具有挑戰(zhàn)性問題的方法需要人工注釋的范例作為輸入,而這對(duì)于新的類別通常是不可用的,特別是對(duì)于自治系統(tǒng)。因此,我們提出了零射擊對(duì)象計(jì)數(shù)(ZSC),這是一個(gè)新的設(shè)置,在測(cè)試期間只有類名可用。這樣的計(jì)數(shù)系統(tǒng)不需要循環(huán)中的人工注釋器,并且可以自動(dòng)操作。從一個(gè)類名開始,我們提出了一種方法,可以準(zhǔn)確地識(shí)別最優(yōu)補(bǔ)丁,然后可以用作計(jì)數(shù)樣本。具體來說,我們首先構(gòu)建一個(gè)類原型來選擇可能包含感興趣的對(duì)象的補(bǔ)丁,即與類相關(guān)的補(bǔ)丁。此外,我們引入了一個(gè)模型,可以定量地衡量任意補(bǔ)丁作為計(jì)數(shù)范例的適應(yīng)性。通過將該模型應(yīng)用于所有的候選補(bǔ)丁,我們可以選擇最合適的補(bǔ)丁作為范例進(jìn)行計(jì)數(shù)。在最近的類不可知計(jì)數(shù)數(shù)據(jù)集FSC-147上的實(shí)驗(yàn)結(jié)果驗(yàn)證了我們的方法的有效性。
CounTR: Transformer-based Generalised Visual Counting
code: https://paperswithcode.com/paper/countr-transformer-based-generalised-visual
摘要:在本文中,我們考慮了廣義視覺對(duì)象計(jì)數(shù)問題,目的是開發(fā)一個(gè)計(jì)算模型來計(jì)算任意語義類別的對(duì)象數(shù)量,使用任意數(shù)量的“范例”,即零射擊或低射計(jì)數(shù)。為此,我們做出了以下四個(gè)貢獻(xiàn): (1)我們引入了一種新的基于變壓器的架構(gòu),用于一般化視覺對(duì)象計(jì)數(shù),稱為計(jì)數(shù)變換器(CounTR),它明確地捕捉圖像補(bǔ)丁之間的相似性或給定的“樣本”;(2)采用兩階段訓(xùn)練機(jī)制,首先用自監(jiān)督學(xué)習(xí)對(duì)模型進(jìn)行預(yù)訓(xùn)練,然后進(jìn)行監(jiān)督微調(diào);(3)我們提出了一個(gè)簡單的、可擴(kuò)展的管道,用于合成具有大量實(shí)例或來自不同語義類別的訓(xùn)練圖像,明確地迫使模型使用給定的“范例”;(4)我們對(duì)大規(guī)模計(jì)數(shù)基準(zhǔn)進(jìn)行了徹底的消融研究,如FSC- 147,并在零鏡頭和少鏡頭設(shè)置上展示了最先進(jìn)的性能。
CLIP-Count: Towards Text-Guided Zero-Shot Object Counting
code: https://paperswithcode.com/paper/clip-count-towards-text-guided-zero-shot
摘要: 視覺語言模型的最新進(jìn)展顯示了顯著的零鏡頭文本圖像匹配能力,可轉(zhuǎn)移到下游任務(wù),如目標(biāo)檢測(cè)和分割。然而,調(diào)整這些模型進(jìn)行物體計(jì)數(shù),其中包括估計(jì)圖像中物體的數(shù)量,仍然是一個(gè)艱巨的挑戰(zhàn)。在本研究中,我們首次探索了轉(zhuǎn)移視覺語言模型的類不可知的對(duì)象計(jì)數(shù)。具體來說,我們提出了CLIP-Count,這是一種新的管道,可以以零鏡頭文本引導(dǎo)的方式估計(jì)開放詞匯量對(duì)象的密度映射,而不需要對(duì)特定的對(duì)象類進(jìn)行任何微調(diào)。為了將文本嵌入與密集圖像特征對(duì)齊,我們引入了一個(gè)塊-文本對(duì)比損失,指導(dǎo)模型學(xué)習(xí)信息塊級(jí)圖像表示,以進(jìn)行密集預(yù)測(cè)。此外,我們?cè)O(shè)計(jì)了一個(gè)分層的補(bǔ)丁-文本交互模塊,在不同的分辨率圖像特征上傳播語義信息。得益于充分利用預(yù)先訓(xùn)練好的視覺語言模型的豐富的圖像-文本對(duì)齊知識(shí),我們的方法有效地為感興趣的對(duì)象生成高質(zhì)量的密度映射。在FSC-147、CARPK和上??萍既巳河?jì)數(shù)數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,我們提出的方法達(dá)到了最先進(jìn)的零射擊目標(biāo)計(jì)數(shù)的精度和通用性。文章來源:http://www.zghlxwxcb.cn/news/detail-485180.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-485180.html
到了這里,關(guān)于few-shot / one shot / zero shot object counting論文匯總的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!