国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

第二章:Learning Deep Features for Discriminative Localization ——學(xué)習(xí)用于判別定位的深度特征

這篇具有很好參考價(jià)值的文章主要介紹了第二章:Learning Deep Features for Discriminative Localization ——學(xué)習(xí)用于判別定位的深度特征。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

0.摘要

????????在這項(xiàng)工作中,我們重新審視了在[13]中提出的全局平均池化層,并闡明了它如何明確地使卷積神經(jīng)網(wǎng)絡(luò)(CNN)具有出色的定位能力,盡管它是在圖像級(jí)別標(biāo)簽上進(jìn)行訓(xùn)練的。雖然這個(gè)技術(shù)之前被提出作為一種訓(xùn)練規(guī)范化的手段,但我們發(fā)現(xiàn)它實(shí)際上構(gòu)建了一個(gè)通用的可定位的深度表示,揭示了CNN在圖像上的隱式注意力。盡管全局平均池化看起來非常簡單,但我們?cè)贗LSVRC 2014數(shù)據(jù)集上實(shí)現(xiàn)了37.1%的top-5錯(cuò)誤率,而沒有使用任何邊界框標(biāo)注進(jìn)行訓(xùn)練。我們?cè)诟鞣N實(shí)驗(yàn)中證明,我們的網(wǎng)絡(luò)能夠定位到具有區(qū)分性的圖像區(qū)域,盡管它只是被訓(xùn)練用于解決分類任務(wù)。

1.引言

????????周等人最近的研究[34]表明,卷積神經(jīng)網(wǎng)絡(luò)(CNN)的各個(gè)層的卷積單元實(shí)際上可以作為物體檢測器,即使沒有提供有關(guān)物體位置的監(jiān)督信息。盡管在卷積層中具有定位物體的顯著能力,但當(dāng)使用全連接層進(jìn)行分類時(shí),這種能力會(huì)喪失。最近,一些流行的全卷積神經(jīng)網(wǎng)絡(luò),如網(wǎng)絡(luò)中的網(wǎng)絡(luò)(NIN)[13]和GoogLeNet [25],已經(jīng)提出避免使用全連接層以減少參數(shù)數(shù)量同時(shí)保持高性能。

????????為了實(shí)現(xiàn)這一點(diǎn),[13]使用全局平均池化作為結(jié)構(gòu)規(guī)范化器,在訓(xùn)練過程中防止過擬合。在我們的實(shí)驗(yàn)中,我們發(fā)現(xiàn)全局平均池化層的優(yōu)勢不僅僅是作為一個(gè)規(guī)范化器 - 實(shí)際上,通過稍微調(diào)整,網(wǎng)絡(luò)可以保持其卓越的定位能力直到最后一層。這種調(diào)整使得網(wǎng)絡(luò)可以在單次前向傳遞中輕松識(shí)別出具有區(qū)分性的圖像區(qū)域,適用于各種任務(wù),甚至是網(wǎng)絡(luò)最初沒有經(jīng)過訓(xùn)練的任務(wù)。如圖1(a)所示,經(jīng)過對(duì)象分類訓(xùn)練的CNN能夠成功地定位與人類交互的對(duì)象而不是人類本身的區(qū)域,用于動(dòng)作分類。

????????盡管我們的方法看起來非常簡單,但在ILSVRC基準(zhǔn)測試[21]的弱監(jiān)督物體定位任務(wù)中,我們的最佳網(wǎng)絡(luò)實(shí)現(xiàn)了37.1%的top-5測試錯(cuò)誤率,這與完全監(jiān)督的AlexNet [10]的34.2%的top-5測試錯(cuò)誤率非常接近。此外,我們還證明了我們方法中深度特征的可定位性可以輕松地轉(zhuǎn)移到其他識(shí)別數(shù)據(jù)集,用于通用分類、定位和概念發(fā)現(xiàn)。

第二章:Learning Deep Features for Discriminative Localization ——學(xué)習(xí)用于判別定位的深度特征,學(xué)習(xí),人工智能,原型模式,transformer,機(jī)器學(xué)習(xí),深度學(xué)習(xí)

圖1.全局平均池化層的簡單修改結(jié)合我們的類別激活映射(CAM)技術(shù),使經(jīng)過分類訓(xùn)練的CNN可以在單次前向傳遞中既對(duì)圖像進(jìn)行分類,又定位特定類別的圖像區(qū)域,例如用于刷牙的牙刷和用于砍樹的鏈鋸。

1.1.相關(guān)工作

????????卷積神經(jīng)網(wǎng)絡(luò)(CNN)在各種視覺識(shí)別任務(wù)上取得了令人印象深刻的性能[10,35,8]。最近的研究表明,盡管CNN是在圖像級(jí)別的標(biāo)簽上進(jìn)行訓(xùn)練的,但它具有令人矚目的物體定位能力[1,16,2,15,18]。在這項(xiàng)工作中,我們展示了在使用適當(dāng)?shù)募軜?gòu)的情況下,我們可以將這種能力從僅定位對(duì)象擴(kuò)展準(zhǔn)確定位圖像中用于區(qū)分的哪些區(qū)域。在這里,我們討論了與本文最相關(guān)的兩個(gè)研究方向:弱監(jiān)督的物體定位可視化CNN的內(nèi)部表示。

弱監(jiān)督物體定位:最近有很多研究探索使用CNN進(jìn)行弱監(jiān)督物體定位[1,16,2,15]。Bergamo等人[1]提出了一種自我學(xué)習(xí)的物體定位技術(shù),涉及遮蓋圖像區(qū)域以識(shí)別導(dǎo)致最大激活的區(qū)域,以定位物體。Cinbis等人[2]和Pinheiro等人[18]將多實(shí)例學(xué)習(xí)與CNN特征相結(jié)合,用于物體定位。Oquab等人[15]提出了一種將中層圖像表示轉(zhuǎn)移的方法,并展示了通過在多個(gè)重疊的補(bǔ)丁上評(píng)估CNN的輸出可以實(shí)現(xiàn)一定程度的物體定位。然而,這些作者并沒有實(shí)際評(píng)估定位能力。另一方面,盡管這些方法取得了有希望的結(jié)果,但它們并沒有進(jìn)行端到端的訓(xùn)練,需要多次前向傳遞網(wǎng)絡(luò)來定位物體,使得它們難以應(yīng)用于實(shí)際的數(shù)據(jù)集。我們的方法進(jìn)行了端到端的訓(xùn)練,并可以在單次前向傳遞中定位物體。

????????與我們的方法最相似的是Oquab等人[16]基于全局最大池化的工作。他們將全局最大池化應(yīng)用于定位物體上的一個(gè)點(diǎn),而不是確定物體的完整范圍。然而,他們的定位僅限于物體邊界上的一個(gè)點(diǎn),而不是確定物體的完整范圍。我們認(rèn)為,雖然最大和平均函數(shù)非常相似,但使用平均池化會(huì)鼓勵(lì)網(wǎng)絡(luò)識(shí)別物體的完整范圍。這背后的基本直覺是,與最大池化相比,平均池化的損失在網(wǎng)絡(luò)識(shí)別物體的所有區(qū)域時(shí)更有利于網(wǎng)絡(luò)。這在第3.2節(jié)中有更詳細(xì)的解釋,并通過實(shí)驗(yàn)證實(shí)。此外,與[16]不同的是,我們證明了這種定位能力是通用的,即使是對(duì)于網(wǎng)絡(luò)沒有經(jīng)過訓(xùn)練的問題,也可以觀察到這種定位能力。

????????我們使用類別激活映射來指代為每個(gè)圖像生成的加權(quán)激活映射,如第2節(jié)所述。我們想強(qiáng)調(diào)的是,雖然全局平均池化不是我們?cè)谶@里提出的一種新技術(shù),但我們認(rèn)為它可以用于準(zhǔn)確的判別性定位的觀察是我們工作獨(dú)有的。我們相信,這種技術(shù)的簡單性使其具有可移植性,并可以應(yīng)用于各種計(jì)算機(jī)視覺任務(wù),實(shí)現(xiàn)快速準(zhǔn)確的定位。

可視化CNN:最近有一些研究[30,14,4,34]試圖通過可視化CNN學(xué)習(xí)到的內(nèi)部表示來更好地理解它們的特性。Zeiler等人[30]使用反卷積網(wǎng)絡(luò)來可視化每個(gè)單元激活的模式。Zhou等人[34]展示了CNN在訓(xùn)練中學(xué)習(xí)到的物體檢測器,并證明同一個(gè)網(wǎng)絡(luò)可以在單次前向傳遞中同時(shí)進(jìn)行場景識(shí)別和物體定位。這兩項(xiàng)工作只分析了卷積層,忽略了全連接層,因此描繪了不完整的情況。通過去除全連接層并保持大部分性能,我們能夠從頭到尾地理解我們的網(wǎng)絡(luò)。

????????Mahendran等人[14]和Dosovitskiy等人[4]通過反轉(zhuǎn)不同層次的深度特征來分析CNN的視覺編碼。雖然這些方法可以反轉(zhuǎn)全連接層,但它們只顯示深度特征中保存的信息,而沒有突出顯示這些信息的相對(duì)重要性。與[14]和[4]不同,我們的方法可以準(zhǔn)確地突出顯示圖像的哪些區(qū)域?qū)τ趨^(qū)分是重要的。總體而言,我們的方法為我們進(jìn)一步了解CNN提供了另一個(gè)視角。

2.類激活映射(Class Activation Mapping,CAM)

????????在本節(jié)中,我們描述了使用全局平均池化(GAP)在CNN中生成類別激活映射(CAM)的過程。對(duì)于特定的類別,類別激活映射指示CNN用于識(shí)別該類別的區(qū)分性圖像區(qū)域(例如,圖3)。生成這些映射的過程如圖2所示。

????????我們使用的網(wǎng)絡(luò)架構(gòu)類似于Network in Network [13]和GoogLeNet [25],該網(wǎng)絡(luò)主要由卷積層組成,在最終輸出層(在分類任務(wù)中是softmax層)之前,我們對(duì)卷積特征圖進(jìn)行全局平均池化,并將其作為全連接層的特征,該全連接層生成所需的輸出(分類或其他)。在這種簡單的連接結(jié)構(gòu)下,我們可以通過將輸出層的權(quán)重投影到卷積特征圖上來確定圖像區(qū)域的重要性,我們稱之為類別激活映射技術(shù)。

????????如圖2所示,全局平均池化將最后一個(gè)卷積層的每個(gè)單元的特征圖的空間平均值輸出。這些值的加權(quán)和用于生成最終的輸出。類似地,我們計(jì)算最后一個(gè)卷積層的特征圖的加權(quán)和,以獲取我們的類別激活映射。我們將在下面更正式地描述這個(gè)過程,以softmax為例。相同的技術(shù)可以應(yīng)用于回歸和其他損失函數(shù)。

第二章:Learning Deep Features for Discriminative Localization ——學(xué)習(xí)用于判別定位的深度特征,學(xué)習(xí),人工智能,原型模式,transformer,機(jī)器學(xué)習(xí),深度學(xué)習(xí)

第二章:Learning Deep Features for Discriminative Localization ——學(xué)習(xí)用于判別定位的深度特征,學(xué)習(xí),人工智能,原型模式,transformer,機(jī)器學(xué)習(xí),深度學(xué)習(xí)

????????根據(jù)之前的研究[34,30]的直覺,我們期望每個(gè)單元被其感受野內(nèi)的某種視覺模式激活。因此,fk是這種視覺模式存在的映射。類別激活映射只是不同空間位置上這些視覺模式存在程度的加權(quán)線性和。通過將類別激活映射上采樣到輸入圖像的尺寸,我們可以確定與特定類別最相關(guān)的圖像區(qū)域。在圖3中,我們展示了使用上述方法輸出的一些CAMs示例。我們可以看到各個(gè)類別的圖像的區(qū)分性區(qū)域被突出顯示。在圖4中,我們突出顯示了在使用不同的類別c生成映射時(shí)單個(gè)圖像的CAMs的差異。我們觀察到,即使對(duì)于給定的圖像,不同類別的區(qū)分性區(qū)域也是不同的。這表明我們的方法按預(yù)期工作。我們將在后面的章節(jié)中定量地證明這一點(diǎn)。

全局平均池化(GAP)與全局最大池化(GMP)之間的區(qū)別:根據(jù)之前有關(guān)使用GMP進(jìn)行弱監(jiān)督目標(biāo)定位的研究[16],我們認(rèn)為強(qiáng)調(diào)GAP和GMP之間的直觀區(qū)別非常重要。我們認(rèn)為,與GMP鼓勵(lì)網(wǎng)絡(luò)僅識(shí)別一個(gè)區(qū)分性部分相比,GAP損失鼓勵(lì)網(wǎng)絡(luò)識(shí)別對(duì)象的范圍。這是因?yàn)樵趯?duì)映射進(jìn)行平均時(shí),通過找到對(duì)象的所有區(qū)分性部分,可以使值最大化,因?yàn)樗械图せ疃紩?huì)降低特定映射的輸出。另一方面,對(duì)于GMP來說,除了最具區(qū)分性的部分之外的所有圖像區(qū)域的低分?jǐn)?shù)不會(huì)影響分?jǐn)?shù),因?yàn)橹粓?zhí)行最大值操作。我們?cè)贗LSVRC數(shù)據(jù)集上在第3節(jié)進(jìn)行了實(shí)驗(yàn)證明了這一點(diǎn):盡管GMP在分類性能上與GAP相似,但是GAP在定位方面表現(xiàn)優(yōu)于GMP。第二章:Learning Deep Features for Discriminative Localization ——學(xué)習(xí)用于判別定位的深度特征,學(xué)習(xí),人工智能,原型模式,transformer,機(jī)器學(xué)習(xí),深度學(xué)習(xí)

圖2. 類別激活映射:預(yù)測的類別分?jǐn)?shù)被映射回之前的卷積層,生成類別激活映射(CAMs)。CAM突出顯示了類別特定的區(qū)分性區(qū)域。第二章:Learning Deep Features for Discriminative Localization ——學(xué)習(xí)用于判別定位的深度特征,學(xué)習(xí),人工智能,原型模式,transformer,機(jī)器學(xué)習(xí),深度學(xué)習(xí)

圖3. 來自ILSVRC [21]的兩個(gè)類別的CAMs。這些映射突出顯示了用于圖像分類的區(qū)分性圖像區(qū)域,例如briard類別的動(dòng)物頭部和杠鈴上的盤子。第二章:Learning Deep Features for Discriminative Localization ——學(xué)習(xí)用于判別定位的深度特征,學(xué)習(xí),人工智能,原型模式,transformer,機(jī)器學(xué)習(xí),深度學(xué)習(xí)

圖4. 從給定圖像的前5個(gè)預(yù)測類別生成的CAMs示例,其中地面實(shí)況為圓頂。每個(gè)類別激活映射上方顯示了預(yù)測的類別及其得分。我們觀察到,突出顯示的區(qū)域在預(yù)測的類別之間有所變化,例如,圓頂激活了上部的圓形部分,而宮殿激活了復(fù)合物的下部平坦部分。

3.弱監(jiān)督目標(biāo)定位

????????在本節(jié)中,我們?cè)u(píng)估了在ILSVRC 2014基準(zhǔn)數(shù)據(jù)集[21]上訓(xùn)練的CAM的定位能力。我們首先在第3.1節(jié)中描述了實(shí)驗(yàn)設(shè)置和使用的各種CNN。然后,在第3.2節(jié)中,我們驗(yàn)證了我們的技術(shù)在學(xué)習(xí)定位時(shí)不會(huì)對(duì)分類性能產(chǎn)生不利影響,并提供了弱監(jiān)督目標(biāo)定位的詳細(xì)結(jié)果。

3.1.實(shí)驗(yàn)設(shè)計(jì)

????????對(duì)于我們的實(shí)驗(yàn),我們?cè)u(píng)估了在以下流行的CNN上使用CAM的效果:AlexNet [10],VGGnet [24]和GoogLeNet [25]。一般來說,對(duì)于這些網(wǎng)絡(luò)的每一個(gè),我們?cè)谧罱K輸出之前移除全連接層,并用GAP緊隨其后,然后是一個(gè)全連接的softmax層。需要注意的是,移除全連接層大大減少了網(wǎng)絡(luò)參數(shù)(例如,對(duì)于VGGnet,減少了90%的參數(shù)),但也會(huì)帶來一些分類性能的下降。

????????我們發(fā)現(xiàn),當(dāng)GAP之前的最后一個(gè)卷積層具有更高的空間分辨率時(shí),網(wǎng)絡(luò)的定位能力得到改善,我們稱之為映射分辨率。為了實(shí)現(xiàn)這一點(diǎn),我們從一些網(wǎng)絡(luò)中移除了幾個(gè)卷積層。具體而言,我們進(jìn)行了以下修改:對(duì)于AlexNet,我們移除了conv5之后的層(即pool5到prob),從而得到一個(gè)13×13的映射分辨率。對(duì)于VGGnet,我們移除了conv5-3之后的層(即pool5到prob),從而得到一個(gè)14×14的映射分辨率。對(duì)于GoogLeNet,我們移除了inception4e之后的層(即pool4到prob),從而得到一個(gè)14×14的映射分辨率。對(duì)于上述每個(gè)網(wǎng)絡(luò),我們添加了一個(gè)大小為3×3,步長為1,填充為1,具有1024個(gè)單元的卷積層,然后是一個(gè)GAP層和一個(gè)softmax層。然后,我們對(duì)這些網(wǎng)絡(luò)進(jìn)行了2次微調(diào),使用ILSVRC [21]的130萬個(gè)訓(xùn)練圖像進(jìn)行1000種物體分類,得到了我們的最終網(wǎng)絡(luò)AlexNet-GAP,VGGnet-GAP和GoogLeNet-GAP。

????????對(duì)于分類任務(wù),我們將我們的方法與原始的AlexNet [10],VGGnet [24]和GoogLeNet [25]進(jìn)行比較,并提供Network in Network (NIN) [13]的結(jié)果。對(duì)于定位任務(wù),我們將我們的方法與原始的GoogLeNet [3],NIN和使用反向傳播[23]而不是CAM進(jìn)行比較。此外,為了比較平均池化和最大池化,我們還提供了使用全局最大池化(GoogLeNet-GMP)進(jìn)行訓(xùn)練的GoogLeNet的結(jié)果。我們使用與ILSVRC相同的錯(cuò)誤度量(top-1、top-5)來評(píng)估我們的網(wǎng)絡(luò)在分類和定位任務(wù)中的性能。對(duì)于分類任務(wù),我們?cè)贗LSVRC驗(yàn)證集上進(jìn)行評(píng)估,對(duì)于定位任務(wù),我們?cè)隍?yàn)證集和測試集上進(jìn)行評(píng)估。

3.2.結(jié)果

????????我們首先報(bào)告物體分類的結(jié)果,以證明我們的方法不會(huì)對(duì)分類性能造成重大影響。然后,我們證明我們的方法在弱監(jiān)督目標(biāo)定位方面是有效的。

分類:表1總結(jié)了原始網(wǎng)絡(luò)和我們的GAP網(wǎng)絡(luò)的分類性能。我們發(fā)現(xiàn),在大多數(shù)情況下,從各種網(wǎng)絡(luò)中移除額外的層會(huì)導(dǎo)致1-2%的小幅度性能下降。我們觀察到,AlexNet在移除全連接層時(shí)受到的影響最大。為了補(bǔ)償,我們?cè)贕AP之前添加了兩個(gè)卷積層,得到了AlexNet*-GAP網(wǎng)絡(luò)。我們發(fā)現(xiàn),AlexNet*-GAP的性能與AlexNet相當(dāng)。因此,總體上我們發(fā)現(xiàn)我們的GAP網(wǎng)絡(luò)在分類性能方面基本保持不變。此外,我們觀察到,GoogLeNet-GAP和GoogLeNet-GMP在分類上有類似的性能,正如預(yù)期的那樣。需要注意的是,網(wǎng)絡(luò)在分類上表現(xiàn)良好是為了在定位任務(wù)中能夠準(zhǔn)確識(shí)別物體類別和邊界框位置,從而實(shí)現(xiàn)高性能的定位任務(wù)非常重要。

定位:為了進(jìn)行定位,我們需要生成一個(gè)邊界框及其對(duì)應(yīng)的物體類別。為了從CAMs生成邊界框,我們使用一個(gè)簡單的閾值技術(shù)來分割熱圖。我們首先將值大于CAM的最大值的20%的區(qū)域進(jìn)行分割。然后,我們選擇覆蓋分割圖中最大連通組件的邊界框。對(duì)于前5個(gè)預(yù)測類別,我們使用這種方法生成邊界框,并計(jì)算定位評(píng)估指標(biāo)。圖6(a)顯示了使用此技術(shù)生成的一些示例邊界框。表2顯示了在ILSVRC驗(yàn)證集上的定位性能,并在圖5中展示了示例輸出。

????????我們觀察到,我們的GAP網(wǎng)絡(luò)在所有基準(zhǔn)方法中表現(xiàn)得更好,其中GoogLeNet-GAP在top-5定位錯(cuò)誤率方面達(dá)到了最低的43%,這是非常顯著的,因?yàn)樵摼W(wǎng)絡(luò)沒有在單個(gè)標(biāo)注的邊界框上進(jìn)行訓(xùn)練。我們觀察到,我們的CAM方法在定位任務(wù)上明顯優(yōu)于[23]中的反向傳播方法(參見圖6(b)進(jìn)行比較)。此外,我們觀察到,盡管在分類任務(wù)中情況相反,GoogLeNet-GAP在定位任務(wù)上明顯優(yōu)于GoogLeNet。我們認(rèn)為,GoogLeNet的低映射分辨率(7×7)使其無法獲得準(zhǔn)確的定位結(jié)果。最后,我們觀察到,GoogLeNet-GAP相對(duì)于GoogLeNet-GMP有著明顯的優(yōu)勢,這說明了對(duì)于確定物體的范圍,平均池化比最大池化更重要。

????????為了進(jìn)一步將我們的方法與現(xiàn)有的弱監(jiān)督[23]和全監(jiān)督[25,22,25]的CNN方法進(jìn)行比較,我們?cè)贗LSVRC測試集上評(píng)估了GoogLeNet-GAP的性能。我們?cè)谶@里采用了稍微不同的邊界框選擇策略:我們從前兩個(gè)預(yù)測類別的類激活圖中選擇兩個(gè)邊界框(一個(gè)緊密的和一個(gè)松散的),并從第三個(gè)預(yù)測類別中選擇一個(gè)松散的邊界框。這種啟發(fā)式方法在分類精度和定位精度之間進(jìn)行權(quán)衡。我們發(fā)現(xiàn),這種啟發(fā)式方法有助于提高驗(yàn)證集的性能。性能總結(jié)如表3所示。在弱監(jiān)督設(shè)置下,具有啟發(fā)式方法的GoogLeNet-GAP實(shí)現(xiàn)了37.1%的top-5錯(cuò)誤率,與全監(jiān)督設(shè)置下AlexNet(34.2%)的top-5錯(cuò)誤率非常接近。雖然令人印象深刻,但與相同架構(gòu)的全監(jiān)督網(wǎng)絡(luò)進(jìn)行比較時(shí)(即弱監(jiān)督的GoogLeNet-GAP與全監(jiān)督的GoogLeNet),我們還有很長的路要走。

表1. ILSVRC驗(yàn)證集上的分類錯(cuò)誤率。

第二章:Learning Deep Features for Discriminative Localization ——學(xué)習(xí)用于判別定位的深度特征,學(xué)習(xí),人工智能,原型模式,transformer,機(jī)器學(xué)習(xí),深度學(xué)習(xí)

表2. ILSVRC驗(yàn)證集上的定位錯(cuò)誤率。Back prop表示使用[23]進(jìn)行定位,而不是CAM。第二章:Learning Deep Features for Discriminative Localization ——學(xué)習(xí)用于判別定位的深度特征,學(xué)習(xí),人工智能,原型模式,transformer,機(jī)器學(xué)習(xí),深度學(xué)習(xí)

表3.各種弱監(jiān)督和全監(jiān)督方法在ILSVRC測試集上的定位錯(cuò)誤率。第二章:Learning Deep Features for Discriminative Localization ——學(xué)習(xí)用于判別定位的深度特征,學(xué)習(xí),人工智能,原型模式,transformer,機(jī)器學(xué)習(xí),深度學(xué)習(xí)

4.通用定位的深度特征

????????在CNN的高層級(jí)特征(例如AlexNet的fc6和fc7)的響應(yīng)已被證明是非常有效的通用特征,并在各種圖像數(shù)據(jù)集上達(dá)到了最先進(jìn)的性能[3,20,35]。在這里,我們展示了我們的GAP CNN所學(xué)習(xí)到的特征也作為通用特征表現(xiàn)良好,并且作為額外的獎(jiǎng)勵(lì),可以確定用于分類的有區(qū)別的圖像區(qū)域,盡管它們沒有被訓(xùn)練用于這些特定任務(wù)。為了獲得類似于原始softmax層的權(quán)重,我們簡單地在GAP層的輸出上訓(xùn)練了一個(gè)線性SVM [5]。

????????首先,我們將我們的方法與一些基線方法在以下場景和對(duì)象分類基準(zhǔn)測試中進(jìn)行比較:SUN397 [28],MIT Indoor67 [19],Scene15 [11],SUN Attribute [17],Caltech101 [6],Caltech256 [9],Stanford Action40 [29]和UIUC Event8 [12]。實(shí)驗(yàn)設(shè)置與[35]中相同。在表5中,我們將我們最好的網(wǎng)絡(luò)GoogLeNet-GAP的特征性能與AlexNet的fc7特征和GoogLeNet的ave pool特征進(jìn)行比較。

????????正如預(yù)期的那樣,GoogLeNet-GAP和GoogLeNet在性能上明顯優(yōu)于AlexNet。此外,我們觀察到,盡管GoogLeNet-GAP具有更少的卷積層,但其性能與GoogLeNet相似。總體而言,我們發(fā)現(xiàn)GoogLeNet-GAP特征作為通用視覺特征與最先進(jìn)的方法具有競爭力。

????????更重要的是,我們希望探索在這種情況下使用我們的CAM技術(shù)與GoogLeNet-GAP生成的定位圖是否具有信息量。圖8展示了各種數(shù)據(jù)集的一些示例圖。我們觀察到,最具區(qū)分性的區(qū)域在所有數(shù)據(jù)集上都被突出顯示。總的來說,我們的方法可以有效地生成可定位的深度特征用于通用任務(wù)。

????????在第4.1節(jié)中,我們探索了對(duì)鳥類的細(xì)粒度識(shí)別,并展示了我們?nèi)绾卧u(píng)估通用定位能力并利用它來進(jìn)一步提高性能。在第4.2節(jié)中,我們展示了如何使用GoogLeNet-GAP從圖像中識(shí)別通用的視覺模式。

4.1.細(xì)粒度識(shí)別

????????在這一部分中,我們將我們的通用可定位深度特征應(yīng)用于在CUB-200-2011 [27]數(shù)據(jù)集中識(shí)別200種鳥類。該數(shù)據(jù)集包含11,788張圖像,其中5,994張用于訓(xùn)練,5,794張用于測試。我們選擇這個(gè)數(shù)據(jù)集是因?yàn)樗€包含邊界框注釋,可以讓我們?cè)u(píng)估我們的定位能力。表4總結(jié)了結(jié)果。

????????我們發(fā)現(xiàn),當(dāng)在訓(xùn)練和測試中使用完整的圖像而沒有任何邊界框注釋時(shí),GoogLeNet-GAP的性能與現(xiàn)有方法相當(dāng),準(zhǔn)確率達(dá)到了63.0%。當(dāng)使用邊界框注釋時(shí),準(zhǔn)確率提高到了70.5%。現(xiàn)在,鑒于我們網(wǎng)絡(luò)的定位能力,我們可以使用類似于第3.2節(jié)(即閾值法)的方法,在訓(xùn)練和測試集中首先識(shí)別出鳥類邊界框。然后,我們?cè)俅问褂肎oogLeNet-GAP從邊界框內(nèi)的圖像裁剪中提取特征進(jìn)行訓(xùn)練和測試。我們發(fā)現(xiàn),這顯著提高了性能,達(dá)到了67.8%。這種定位能力在細(xì)粒度識(shí)別中特別重要,因?yàn)楦鱾€(gè)類別之間的區(qū)別微妙,有一個(gè)更加聚焦的圖像裁剪可以實(shí)現(xiàn)更好的區(qū)分。

????????此外,我們發(fā)現(xiàn),在0.5交并比(IoU)準(zhǔn)則下,GoogLeNet-GAP能夠準(zhǔn)確地定位41.0%的圖像中的鳥類,而隨機(jī)情況下的準(zhǔn)確率為5.5%。我們?cè)趫D7中展示了一些示例。這進(jìn)一步驗(yàn)證了我們方法的定位能力。第二章:Learning Deep Features for Discriminative Localization ——學(xué)習(xí)用于判別定位的深度特征,學(xué)習(xí),人工智能,原型模式,transformer,機(jī)器學(xué)習(xí),深度學(xué)習(xí)

圖5.CNN-GAP的類激活圖和反向傳播方法的類別特定顯著性圖。

第二章:Learning Deep Features for Discriminative Localization ——學(xué)習(xí)用于判別定位的深度特征,學(xué)習(xí),人工智能,原型模式,transformer,機(jī)器學(xué)習(xí),深度學(xué)習(xí)

圖6.a)來自GoogleNet-GAP的定位示例。b)GooleNet-GAP定位和使用AlexNet進(jìn)行反向傳播的對(duì)比。綠色表示真實(shí)邊界框,紅色表示來自類激活圖的預(yù)測邊界框。

4.2.模式識(shí)別

????????在本節(jié)中,我們探討了我們的技術(shù)是否能夠在圖像中識(shí)別除了物體之外的常見元素或模式,如文本或高層概念。給定一組包含共同概念的圖像,我們希望確定我們的網(wǎng)絡(luò)識(shí)別哪些區(qū)域是重要的,并且這是否與輸入模式相對(duì)應(yīng)。我們采用了與之前類似的方法:對(duì)GoogLeNet-GAP網(wǎng)絡(luò)的GAP層進(jìn)行線性SVM訓(xùn)練,并應(yīng)用CAM技術(shù)來確定重要區(qū)域。我們進(jìn)行了三個(gè)模式發(fā)現(xiàn)實(shí)驗(yàn),使用了我們的深度特征。結(jié)果如下所述。請(qǐng)注意,在這種情況下,我們沒有訓(xùn)練和測試集的劃分-我們只是使用我們的CNN進(jìn)行視覺模式發(fā)現(xiàn)。

在場景中發(fā)現(xiàn)有信息量的對(duì)象:我們從SUN數(shù)據(jù)集[28]中選擇了10個(gè)場景類別,其中包含至少200個(gè)經(jīng)過完全標(biāo)注的圖像,總共4675個(gè)經(jīng)過完全標(biāo)注的圖像。我們?yōu)槊總€(gè)場景類別訓(xùn)練一個(gè)一對(duì)多的線性SVM,并使用線性SVM的權(quán)重計(jì)算CAM。在圖9中,我們繪制了預(yù)測場景類別的CAM,并列出了與高CAM激活區(qū)域最頻繁重疊的前6個(gè)對(duì)象,針對(duì)兩個(gè)場景類別。我們觀察到,高激活區(qū)域經(jīng)常對(duì)應(yīng)于表明特定場景類別的對(duì)象。

在弱標(biāo)注圖像中的概念定位:使用[33]中的硬負(fù)樣本挖掘算法,我們學(xué)習(xí)概念檢測器,并應(yīng)用我們的CAM技術(shù)來定位圖像中的概念。為了訓(xùn)練一個(gè)短語的概念檢測器,正樣本集包含在其文本標(biāo)題中包含短語的圖像,負(fù)樣本集由隨機(jī)選擇的在其文本標(biāo)題中沒有任何相關(guān)詞語的圖像組成。在圖10中,我們展示了兩個(gè)概念檢測器的排名靠前的圖像和CAM。請(qǐng)注意,CAM定位了概念的信息區(qū)域,即使這些短語比典型的物體名稱更抽象。

弱監(jiān)督的文本檢測器:我們使用來自SVT數(shù)據(jù)集[26]的350個(gè)包含文本的Google StreetView圖像作為正樣本集,以及來自SUN數(shù)據(jù)集[28]中的戶外場景圖像的隨機(jī)采樣圖像作為負(fù)樣本集,訓(xùn)練了一個(gè)弱監(jiān)督的文本檢測器。如圖11所示,我們的方法能夠準(zhǔn)確地突出顯示文本,而無需使用邊界框注釋。

解釋視覺問答:我們?cè)谝曈X問答中使用我們的方法和可定位的深度特征,這是在[36]中提出的基準(zhǔn)方法。在開放式軌道的測試標(biāo)準(zhǔn)上,它的總體準(zhǔn)確率為55.89%。如圖12所示,我們的方法突出顯示與預(yù)測答案相關(guān)的圖像區(qū)域。

表格4. 在CUB200數(shù)據(jù)集上的細(xì)粒度分類性能。GoogLeNet-GAP能夠成功定位重要的圖像裁剪,提升分類性能。

第二章:Learning Deep Features for Discriminative Localization ——學(xué)習(xí)用于判別定位的深度特征,學(xué)習(xí),人工智能,原型模式,transformer,機(jī)器學(xué)習(xí),深度學(xué)習(xí)第二章:Learning Deep Features for Discriminative Localization ——學(xué)習(xí)用于判別定位的深度特征,學(xué)習(xí),人工智能,原型模式,transformer,機(jī)器學(xué)習(xí),深度學(xué)習(xí)

圖7. CUB200數(shù)據(jù)集中四個(gè)鳥類別的選定圖像的CAMs和推斷出的邊界框(以紅色表示)。在第4.1節(jié)中,我們對(duì)邊界框的質(zhì)量進(jìn)行了定量評(píng)估(0.5 IoU的準(zhǔn)確率為41.0%)。我們發(fā)現(xiàn),在這些CAM邊界框中提取GoogLeNet-GAP特征并重新訓(xùn)練SVM可以將鳥類別的分類準(zhǔn)確率提高約5%(表4)。

表格5. 不同深度特征在代表性場景和物體數(shù)據(jù)集上的分類準(zhǔn)確率。

第二章:Learning Deep Features for Discriminative Localization ——學(xué)習(xí)用于判別定位的深度特征,學(xué)習(xí),人工智能,原型模式,transformer,機(jī)器學(xué)習(xí),深度學(xué)習(xí)第二章:Learning Deep Features for Discriminative Localization ——學(xué)習(xí)用于判別定位的深度特征,學(xué)習(xí),人工智能,原型模式,transformer,機(jī)器學(xué)習(xí),深度學(xué)習(xí)
圖8. 使用我們的GoogLeNet-GAP深度特征進(jìn)行通用判別定位。我們展示了來自4個(gè)數(shù)據(jù)集的3個(gè)類別中的2個(gè)圖像,并在它們下方顯示了它們的類別激活圖。我們觀察到圖像的判別區(qū)域經(jīng)常被突出顯示,例如,在斯坦福行動(dòng)40中,拖把被定位用于清潔地板,而在烹飪中,平底鍋和碗被定位,類似的觀察也適用于其他數(shù)據(jù)集。這證明了我們的深度特征的通用定位能力。

第二章:Learning Deep Features for Discriminative Localization ——學(xué)習(xí)用于判別定位的深度特征,學(xué)習(xí),人工智能,原型模式,transformer,機(jī)器學(xué)習(xí),深度學(xué)習(xí)

圖9. 兩個(gè)場景類別的信息對(duì)象。對(duì)于餐廳和浴室類別,我們展示了原始圖像的示例(頂部),并列出了該場景類別中出現(xiàn)頻率最高的6個(gè)對(duì)象及其對(duì)應(yīng)的出現(xiàn)頻率。底部顯示了CAMs以及與高激活區(qū)域最頻繁重疊的6個(gè)對(duì)象的列表。第二章:Learning Deep Features for Discriminative Localization ——學(xué)習(xí)用于判別定位的深度特征,學(xué)習(xí),人工智能,原型模式,transformer,機(jī)器學(xué)習(xí),深度學(xué)習(xí)

圖10. 從弱標(biāo)注圖像中學(xué)到的概念的信息區(qū)域。盡管這些概念相當(dāng)抽象,但我們的GoogLeNet-GAP網(wǎng)絡(luò)能夠?qū)ζ溥M(jìn)行適當(dāng)?shù)亩ㄎ弧?img src="https://imgs.yssmx.com/Uploads/2023/07/606289-18.png" alt="第二章:Learning Deep Features for Discriminative Localization ——學(xué)習(xí)用于判別定位的深度特征,學(xué)習(xí),人工智能,原型模式,transformer,機(jī)器學(xué)習(xí),深度學(xué)習(xí)" referrerpolicy="no-referrer" />

圖11. 學(xué)習(xí)一個(gè)弱監(jiān)督的文本檢測器。即使我們的網(wǎng)絡(luò)沒有使用文本或任何邊界框注釋進(jìn)行訓(xùn)練,但文本仍然能夠準(zhǔn)確地在圖像上被檢測到。第二章:Learning Deep Features for Discriminative Localization ——學(xué)習(xí)用于判別定位的深度特征,學(xué)習(xí),人工智能,原型模式,transformer,機(jī)器學(xué)習(xí),深度學(xué)習(xí)

圖12. 在視覺問答中,展示了對(duì)于預(yù)測的答案類別而突出顯示的圖像區(qū)域的示例。

5.可視化特定類別的單元

????????Zhou等人[34]已經(jīng)表明,CNN的各個(gè)層的卷積單元充當(dāng)視覺概念檢測器,識(shí)別從低級(jí)概念(如紋理或材料)到高級(jí)概念(如物體或場景)的概念。隨著網(wǎng)絡(luò)的深入,單元的區(qū)分能力越來越強(qiáng)。然而,在許多網(wǎng)絡(luò)中存在全連接層,很難確定不同單元對(duì)于識(shí)別不同類別的重要性。在這里,通過使用GAP和排序的softmax權(quán)重,我們可以直接可視化對(duì)于給定類別最具有區(qū)分性的單元。我們稱之為CNN的類特定單元。

????????圖13展示了在用于物體識(shí)別的ILSVRC數(shù)據(jù)集(頂部)和用于場景識(shí)別的Places數(shù)據(jù)庫(底部)上訓(xùn)練的AlexNet?-GAP的類特定單元。我們遵循與[34]類似的程序,估計(jì)最終卷積層中每個(gè)單元的感受野并分割其頂部激活圖像。然后,我們簡單地使用softmax權(quán)重對(duì)給定類別的單元進(jìn)行排序。從圖中,我們可以確定對(duì)于分類最具有區(qū)分性的物體部分以及哪些單元檢測到了這些部分。例如,檢測到狗臉和身體毛發(fā)的單元對(duì)于拉克蘭梗是重要的;檢測到沙發(fā)、桌子和壁爐的單元對(duì)于客廳是重要的。因此,我們可以推斷CNN實(shí)際上學(xué)習(xí)了一組單詞,其中每個(gè)單詞都是一個(gè)具有區(qū)分性的類特定單元。這些類特定單元的組合指導(dǎo)CNN對(duì)每個(gè)圖像進(jìn)行分類。

第二章:Learning Deep Features for Discriminative Localization ——學(xué)習(xí)用于判別定位的深度特征,學(xué)習(xí),人工智能,原型模式,transformer,機(jī)器學(xué)習(xí),深度學(xué)習(xí)

圖13. 分別為在ImageNet(頂部)和Places(底部)上訓(xùn)練的AlexNet*-GAP的類特定單元的可視化。每個(gè)數(shù)據(jù)集顯示了三個(gè)選定類別的前三個(gè)單元。每一行顯示了由該單元的感受野分割的最可信圖像。例如,對(duì)于用于場景識(shí)別的網(wǎng)絡(luò),檢測到黑板、椅子和桌子的單元對(duì)于教室的分類是重要的。

6.結(jié)論

????????在這項(xiàng)工作中,我們提出了一種通用技術(shù),稱為類別激活映射(CAM),用于具有全局平均池化的CNN。這使得經(jīng)過分類訓(xùn)練的CNN能夠?qū)W習(xí)進(jìn)行對(duì)象定位,而無需使用任何邊界框注釋。類別激活圖允許我們?cè)谌魏谓o定圖像上可視化預(yù)測的類別分?jǐn)?shù),突出顯示CNN檢測到的具有區(qū)分性的對(duì)象部分。我們?cè)贗LSVRC基準(zhǔn)測試中評(píng)估了我們的方法在弱監(jiān)督對(duì)象定位上的效果,證明我們的全局平均池化CNN能夠進(jìn)行準(zhǔn)確的對(duì)象定位。此外,我們還證明了CAM定位技術(shù)可以推廣到其他視覺識(shí)別任務(wù),即我們的技術(shù)可以產(chǎn)生通用的可定位的深度特征,可以幫助其他研究人員理解CNN在其任務(wù)中使用的鑒別基礎(chǔ)。文章來源地址http://www.zghlxwxcb.cn/news/detail-606289.html

到了這里,關(guān)于第二章:Learning Deep Features for Discriminative Localization ——學(xué)習(xí)用于判別定位的深度特征的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 第二章 集合

    第二章 集合

    提示:這里可以添加系列文章的所有文章的目錄,目錄需要自己手動(dòng)添加 例如:第一章 Python 機(jī)器學(xué)習(xí)入門之pandas的使用 提示:寫完文章后,目錄可以自動(dòng)生成,如何生成可參考右邊的幫助文檔 HashSet 底層就是基于 HashMap 實(shí)現(xiàn)的。兩者主要區(qū)別: 線程是否安全: HashMap 是非

    2024年02月02日
    瀏覽(19)
  • 信息系統(tǒng)安全(第二章)

    信息系統(tǒng)安全(第二章)

    2.1.1基本概念 在網(wǎng)絡(luò)開放環(huán)境中,信息系統(tǒng)易遭受各種各樣的攻擊,例如消息竊聽,身份偽裝,消息偽造與篡 改,消息重放等。這種入侵行為的實(shí)施相當(dāng)一部分建立在入侵者獲得已經(jīng)存在的通信通道或偽裝身 份與系統(tǒng)建立通信通道的基礎(chǔ)上。因此,在信息系統(tǒng)中,用戶在登

    2024年04月09日
    瀏覽(28)
  • 操作系統(tǒng)——第二章

    一.單選題(共30題,60.0分) 1 ()是指從作業(yè)提交給系統(tǒng)到作業(yè)完成的時(shí)間間隔 (2.0分) A、 周轉(zhuǎn)時(shí)間 B、 響應(yīng)時(shí)間 C、 等待時(shí)間 D、 運(yùn)行時(shí)間 正確答案: A 2 引入多道程序設(shè)計(jì)技術(shù)之后,處理器的利用率() (2.0分) A、 有所改善 B、 極大提高 C、 降低 D、 無變化 正確答

    2023年04月08日
    瀏覽(25)
  • 第二章 變量和引用

    第二章 變量和引用

    目錄 2.1. 深入認(rèn)識(shí)變量 2.1.1. 什么是變量 2.1.2. 變量的名稱 2.1.3. 變量的類型 2.1.4. 變量的定義 2.1.5. 自定義變量 2.1.6. 環(huán)境變量 2.1.7. 位置變量 2.2. 變量賦值和作用域 2.2.1. 顯示賦值:變量名=變量值 2.2.2. read 從鍵盤讀入變量值 2.2.3. 變量和引號(hào) 2.2.4. 變量的作用域 變量是在程序

    2024年02月20日
    瀏覽(20)
  • 第二章 re模塊

    第二章 re模塊

    在處理字符串時(shí),經(jīng)常會(huì)有查找符合某些復(fù)雜規(guī)則的字符串的需求。正則表達(dá)式就是用于描述這些規(guī)則的工具。換句話說,正則表達(dá)式就是記錄文本規(guī)則的代碼。 Python 提供了 re 模塊用于實(shí)現(xiàn)正則表達(dá)式的操作。在實(shí)現(xiàn)時(shí),可以使用 re 模塊提供的方法,如search()、match()、fi

    2024年02月09日
    瀏覽(23)
  • 第二章 翻譯

    第二章 翻譯

    Section Ⅲ Translation Directions: In this section, there is a text in English. Translate it into Chinese. Write your translation on ANSWER SHEET 2. (15points) “Sustainability” has become a popular word these days, but to Ted Ning, the concept will always have personal meaning. Having endured a painful period of unsustainability in his own life made it

    2024年02月08日
    瀏覽(33)
  • 第二章 進(jìn)程管理

    第二章 進(jìn)程管理

    目錄 2.1? 進(jìn)程的引入 2.1.1程序的順序執(zhí)行 1.程序的順序執(zhí)行 2.程序順序執(zhí)行時(shí)的特征 2.1.2? 程序的并發(fā)執(zhí)行及其特征 1.并發(fā)執(zhí)行的概念 2.程序并發(fā)執(zhí)行時(shí)的特征 2.1.3? 進(jìn)程的定義與特征 1.進(jìn)程的定義 2.進(jìn)程的特征 2.1.4? 進(jìn)程的基本狀態(tài)及轉(zhuǎn)換 1.進(jìn)程的三個(gè)基本狀態(tài)

    2024年02月04日
    瀏覽(27)
  • 第二章Python序列-列表

    第二章Python序列-列表

    (1)直接將一個(gè)列表對(duì)象賦給變量 (2)用list()將其他類型轉(zhuǎn)化為列表 雙向索引 (1)訪問:通過索引 (2)通過for語句 修改 (1)運(yùn)算符 +(合并列表,生成一個(gè)新列表) +=(合并列表,原地操作) * (列表元素重復(fù)) (2)append()方法 語法:append(object) (3)指定位置添加 insert

    2023年04月11日
    瀏覽(63)
  • 第二章——開始學(xué)習(xí)C++

    第二章——開始學(xué)習(xí)C++

    進(jìn)入C++ 首先介紹一個(gè)顯示消息的簡單C++程序(不同于以往的“Hello,world\\\")? ? ?注意看這里的文件名,是以.cpp 結(jié)尾的。這是C++程序常用的方式 在其他環(huán)境中可能需要不同的擴(kuò)展名 ?另外C++對(duì)大小寫敏感,也就是說嚴(yán)格區(qū)分大寫字母和小寫字母。 通過上面這一小段程序來分

    2024年02月13日
    瀏覽(24)
  • 第二章 webpack基礎(chǔ)用法

    第二章 webpack基礎(chǔ)用法

    ?Entry用來指定webpack打包的入口,下圖中webpack找到入口文件后,會(huì)將該文件所有的代碼和非代碼依賴都梳理出來,最終遍歷完依賴樹后生成打包后的靜態(tài)資源。 ?單入口:entry是一個(gè)字符串 module.exports={ ? ? ? ? entry:\\\'./path/to/my/entry/file.js\\\' } ?多入口:entry是一個(gè)對(duì)象 module.exp

    2023年04月15日
    瀏覽(27)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包