国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

ICLR2022/擴(kuò)散模型/語(yǔ)義分割:基于擴(kuò)散模型的標(biāo)簽高效語(yǔ)義分割Label-efficient semantic segmentation with diffusion models

這篇具有很好參考價(jià)值的文章主要介紹了ICLR2022/擴(kuò)散模型/語(yǔ)義分割:基于擴(kuò)散模型的標(biāo)簽高效語(yǔ)義分割Label-efficient semantic segmentation with diffusion models。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

論文下載
開(kāi)源代碼

0.摘要

去噪擴(kuò)散概率模型最近受到了大量關(guān)注,因?yàn)樗鼈儍?yōu)于其他方法,如GAN,并且目前提供了最先進(jìn)的生成性能。擴(kuò)散模型的卓越性能使其在多個(gè)應(yīng)用中成為一個(gè)有吸引力的工具,包括繪畫(huà)、超分辨率和語(yǔ)義編輯。在本文中,我們證明了擴(kuò)散模型也可以作為語(yǔ)義分割的工具,特別是在標(biāo)簽數(shù)據(jù)稀缺的情況下。特別是,對(duì)于幾個(gè)預(yù)訓(xùn)練的擴(kuò)散模型,我們研究了來(lái)自執(zhí)行反向擴(kuò)散過(guò)程的馬爾可夫步驟的網(wǎng)絡(luò)的中間激活。我們表明,這些激活有效地從輸入圖像中捕獲語(yǔ)義信息,并且似乎是分割問(wèn)題的優(yōu)秀像素級(jí)表示?;谶@些觀察結(jié)果,我們描述了一種簡(jiǎn)單的分割方法,即使只提供少數(shù)訓(xùn)練圖像,該方法也可以工作。我們的方法在多個(gè)數(shù)據(jù)集上顯著優(yōu)于現(xiàn)有的替代方法,以實(shí)現(xiàn)相同的人工監(jiān)督量

1.概述

去噪擴(kuò)散概率模型(DDPM)(Sohl-Dickstein等人,2015年;Ho等人,2020年)最近在模擬自然圖像分布的各種方法中,無(wú)論是在單個(gè)樣本的真實(shí)性還是其多樣性方面,都表現(xiàn)得更好(Dhariwal&Nichol,2021)。DDPM的這些優(yōu)勢(shì)在應(yīng)用中得到了成功的利用,例如彩色化(Song等人,2021)、補(bǔ)漆(Song等,2021)、超分辨率(Saharia等人,2021;Li等,2021b)和語(yǔ)義編輯(Meng等人,2021),與GAN相比,DDPM通常取得更令人印象深刻的結(jié)果。
然而,到目前為止,DDPM還沒(méi)有被用作非歧視性計(jì)算機(jī)視覺(jué)問(wèn)題的有效圖像表示的來(lái)源。盡管先前的文獻(xiàn)已經(jīng)證明,各種生成范式,如GAN(Donahue&Simonyan,2019)或自回歸模型(Chen等人,2020a),可以用于提取常見(jiàn)視覺(jué)任務(wù)的表示,但目前尚不清楚DDPM是否也可以作為表示學(xué)習(xí)者。在本文中,我們?cè)谡Z(yǔ)義分割的背景下對(duì)這個(gè)問(wèn)題給出了肯定的答案
特別是,我們研究了U-Net網(wǎng)絡(luò)的中間激活,該網(wǎng)絡(luò)近似于DDPM中反向擴(kuò)散過(guò)程的馬爾可夫步驟。直觀地說(shuō),這個(gè)網(wǎng)絡(luò)學(xué)會(huì)了去噪其輸入,并且不清楚為什么中間激活應(yīng)該捕獲高級(jí)視覺(jué)問(wèn)題所需的語(yǔ)義信息。然而,我們表明,在某些擴(kuò)散步驟中,這些激活確實(shí)捕獲了這些信息,因此,可以潛在地用作下游任務(wù)的圖像表示??紤]到這些觀察結(jié)果,我們提出了一種簡(jiǎn)單的語(yǔ)義分割方法,該方法利用了這些表示,即使只提供了幾個(gè)帶標(biāo)簽的圖像,也能成功地工作。在幾個(gè)數(shù)據(jù)集上,我們表明,在相同的監(jiān)督量下,我們基于DDPM的分割方法優(yōu)于現(xiàn)有的基線。
總之,我們論文的貢獻(xiàn)如下:

  • 我們研究了最先進(jìn)的DDPM學(xué)習(xí)的表示,并表明它們捕獲了對(duì)下游視覺(jué)任務(wù)有價(jià)值的高級(jí)語(yǔ)義信息
  • 我們?cè)O(shè)計(jì)了一種簡(jiǎn)單的語(yǔ)義分割方法,該方法利用這些表示,并在少數(shù)鏡頭操作點(diǎn)中執(zhí)行替代方案
  • 我們?cè)谙嗤臄?shù)據(jù)集上比較了基于DDPM的表示和基于GAN的表示,并證明了前者在語(yǔ)義分割方面的優(yōu)勢(shì)

2.相關(guān)工作

在本節(jié)中,我們簡(jiǎn)要介紹了與我們的工作相關(guān)的現(xiàn)有研究路線。

2.1.擴(kuò)散模型

擴(kuò)散模型(Sohl Dickstein等人,2015;Ho等人,2020)是一類生成模型,通過(guò)馬爾可夫鏈的端點(diǎn)近似真實(shí)圖像的分布,馬爾可夫鏈起源于簡(jiǎn)單的參數(shù)分布,通常是標(biāo)準(zhǔn)高斯分布。每一個(gè)馬爾可夫步驟都是由一個(gè)深度神經(jīng)網(wǎng)絡(luò)建模的,該網(wǎng)絡(luò)可以有效地學(xué)習(xí)用已知的高斯核反轉(zhuǎn)擴(kuò)散過(guò)程。Ho等人強(qiáng)調(diào)了擴(kuò)散模型和分?jǐn)?shù)匹配的等價(jià)性(Song&Ermon,2019;2020),表明它們是通過(guò)迭代去噪過(guò)程將簡(jiǎn)單已知分布逐漸轉(zhuǎn)換為目標(biāo)分布的兩個(gè)不同視角。最近的工作(Nichol,2021;Dhariwal&Nichol(2021)開(kāi)發(fā)了更強(qiáng)大的模型架構(gòu)以及不同的高級(jí)目標(biāo),這導(dǎo)致DDPM在生成質(zhì)量和多樣性方面戰(zhàn)勝了GAN。DDPM已廣泛應(yīng)用于多種應(yīng)用,包括圖像彩色化(Song等人,2021)、超分辨率(Saharia等人,2021;Li等人,2021b)、上色(Song等,2021)和語(yǔ)義編輯(Meng等人,2021)。在我們的工作中,我們證明了也可以成功地將它們用于語(yǔ)義分割。

2.2.基于生成模型的圖像分割

基于生成模型的圖像分割是當(dāng)前一個(gè)活躍的研究方向,然而,現(xiàn)有的方法主要基于GAN。第一行工作(Voynov&Babenko,2020;Voynov等人,2021;Melas-Kyriazi等人,2021)基于這樣的證據(jù),即最先進(jìn)的GAN的潛在空間具有與不同影響前地/背景像素的效果相對(duì)應(yīng)的方向,這允許生成合成數(shù)據(jù)來(lái)訓(xùn)練分割模型。然而,這些方法目前只能執(zhí)行二進(jìn)制分割,目前還不清楚它們是否可以用于語(yǔ)義分割的一般設(shè)置。第二行作品(Zhang等人,2021;Tritrong等人,2021;Xu,2021;Galeev等人,2020)與我們的研究更為相關(guān),它們基于GAN中獲得的中間表示。特別是,(Zhang等人,2021)中提出的方法根據(jù)這些表示訓(xùn)練像素類預(yù)測(cè)模型,并確認(rèn)其標(biāo)記效率。在實(shí)驗(yàn)部分,我們將(Zhang等人,2021)的方法與基于DDPM的方法進(jìn)行了比較,并展示了我們解決方案的幾個(gè)獨(dú)特優(yōu)勢(shì)

2.3.區(qū)分性任務(wù)生成模型的表征

作為表征學(xué)習(xí)者,生成模型的使用已經(jīng)被廣泛研究用于全球預(yù)測(cè)(Donahue&Si-monyan,2019;Chen等人,2020a)和密集預(yù)測(cè)問(wèn)題(Zhang等人,2021;Tritronge等人,2021;Xu,2021;Xu等人,2021)。盡管先前的工作強(qiáng)調(diào)了這些表示的實(shí)際優(yōu)勢(shì),例如分布外魯棒性(Li等人,2021a),但與基于對(duì)比學(xué)習(xí)的替代無(wú)監(jiān)督方法相比,生成模型作為表示學(xué)習(xí)者受到的關(guān)注較少(Chen等人,2020b)。主要原因可能是難以在復(fù)雜多樣的數(shù)據(jù)集上訓(xùn)練高質(zhì)量的生成模型。然而,鑒于DDPM最近在Imagenet上的成功(Deng等人,2009年),我們可以預(yù)計(jì),這一方向?qū)⒃谖磥?lái)吸引更多的關(guān)注。

3.擴(kuò)散模型表示

在接下來(lái)一節(jié)中,我們研究了通過(guò)擴(kuò)散模型學(xué)習(xí)的圖像表示。首先,我們簡(jiǎn)要概述了DDPM框架。然后,我們描述了如何使用DDPM提取特征,并研究這些特征可能會(huì)捕獲什么樣的語(yǔ)義信息

  • 背景

擴(kuò)散模型將噪聲xT~(0,I)通過(guò)逐漸去噪xT到噪聲較小的采樣xt轉(zhuǎn)換為采樣x0。形式上,我們得到了一個(gè)正向擴(kuò)散過(guò)程:
ICLR2022/擴(kuò)散模型/語(yǔ)義分割:基于擴(kuò)散模型的標(biāo)簽高效語(yǔ)義分割Label-efficient semantic segmentation with diffusion models
對(duì)于某些固定方差表β1,…,βt
重要的是,噪聲樣本x可以直接從數(shù)據(jù)x0獲得:
ICLR2022/擴(kuò)散模型/語(yǔ)義分割:基于擴(kuò)散模型的標(biāo)簽高效語(yǔ)義分割Label-efficient semantic segmentation with diffusion models
預(yù)訓(xùn)練DDPM近似于反向過(guò)程
ICLR2022/擴(kuò)散模型/語(yǔ)義分割:基于擴(kuò)散模型的標(biāo)簽高效語(yǔ)義分割Label-efficient semantic segmentation with diffusion models
實(shí)際上,噪聲預(yù)測(cè)網(wǎng)絡(luò) ? θ ( x t , t ) \epsilon_θ(x_t,t) ?θ?(xt?,t)不是預(yù)測(cè)方程(3)中的分布平均值,而是預(yù)測(cè)步長(zhǎng)t處的噪聲分量;平均值是該噪聲分量和xt的線性組合。協(xié)方差預(yù)測(cè)因子 ∑ θ ( x t , t ) ∑_θ(x_t,t) θ?(xt?,t)可以是標(biāo)量協(xié)方差的固定集合,也可以是學(xué)習(xí)的(后者被證明可以提高模型質(zhì)量(Nichol,2021))
去噪模型 ? θ ( x t , t ) \epsilon_θ(x_t,t) ?θ?(xt?,t)通常由UNet架構(gòu)的不同變體參數(shù)化(Ronneberger等人,2015),在我們的實(shí)驗(yàn)中,我們研究了在(Dhariwal&Nichol,2021)中提出的最先進(jìn)的模型

  • 表征提取

ICLR2022/擴(kuò)散模型/語(yǔ)義分割:基于擴(kuò)散模型的標(biāo)簽高效語(yǔ)義分割Label-efficient semantic segmentation with diffusion models

圖1:擬議方法概述。(1) x0→xt,通過(guò)根據(jù)q(xt|x0)添加噪聲。(2) 從噪聲預(yù)測(cè)器 ? θ ( x t , t ) \epsilon_θ(x_t,t) ?θ?(xt?,t)中提取特征圖。(3) 通過(guò)將特征圖上采樣到圖像分辨率并將其拼接,收集像素級(jí)表示。(4) 使用像素級(jí)特征向量訓(xùn)練MLP集合,以預(yù)測(cè)每個(gè)像素的類標(biāo)簽

對(duì)于給定的真實(shí)圖像 x 0 ∈ R H × W × 3 x_0∈R^{H×W×3} x0?RH×W×3,可以從噪聲預(yù)測(cè)網(wǎng)絡(luò) ? θ ( x t , t ) \epsilon_θ(x_t,t) ?θ?(xt?,t)計(jì)算出T組激活張量。時(shí)間步長(zhǎng)t的總體方案如圖1所示。首先,我們通過(guò)根據(jù)等式(2)添加高斯噪聲來(lái)破壞x0。噪聲xt用作UNet模型參數(shù)化的 ? θ ( x t , t ) \epsilon_θ(x_t,t) ?θ?(xt?,t)的輸入。然后使用雙線性插值將UNet的中間激活上采樣到H×W。這允許將他們視作x0像素水平的表示。

3.1.表征分析

我們分析了噪聲預(yù)測(cè)器 ? θ ( x t , t ) \epsilon_θ(x_t,t) ?θ?(xt?,t)產(chǎn)生的差分表示。我們考慮了在LSUN Horse和FFHQ-256數(shù)據(jù)集上訓(xùn)練的最先進(jìn)的DDPM檢查點(diǎn)

  • 來(lái)自噪聲預(yù)測(cè)器的中間激活捕獲語(yǔ)義信息

在這個(gè)實(shí)驗(yàn)中,我們從LSUN Horse和FFHQ數(shù)據(jù)集中獲取了一些圖像,并分別手動(dòng)將每個(gè)像素分配給21個(gè)和34個(gè)語(yǔ)義類中的一個(gè)。我們的目標(biāo)是了解DDPM生成的像素級(jí)表示是否有效地捕獲有關(guān)語(yǔ)義的信息。為此,我們訓(xùn)練了一個(gè)多層感知器(MLP),以根據(jù)18UNet解碼器塊之一在特定擴(kuò)散步驟上產(chǎn)生的特征來(lái)預(yù)測(cè)像素語(yǔ)義標(biāo)簽。注意,我們只考慮解碼器激活,因?yàn)樗鼈冞€通過(guò)跳過(guò)連接聚合編碼器激活。MLP在20張圖片上進(jìn)行訓(xùn)練,并在20張保持圖片上進(jìn)行評(píng)估。預(yù)測(cè)性能以平均IoU衡量
ICLR2022/擴(kuò)散模型/語(yǔ)義分割:基于擴(kuò)散模型的標(biāo)簽高效語(yǔ)義分割Label-efficient semantic segmentation with diffusion models

圖2:不同UNet解碼器塊和擴(kuò)散步驟的基于DDPM的逐像素表示的預(yù)測(cè)性能演變。區(qū)塊編號(hào)從深到低。信息量最大的特征通常對(duì)應(yīng)于反向擴(kuò)散過(guò)程的后續(xù)步驟和UNet解碼器的中間層。前面的步驟對(duì)應(yīng)于未提供信息的表示。附錄A中提供了其他數(shù)據(jù)集的圖表

不同區(qū)塊和擴(kuò)散步驟的預(yù)測(cè)性能演變?nèi)鐖D2所示。區(qū)塊從深到淺依次編號(hào)。圖2顯示了噪聲預(yù)測(cè)器 ? θ ( x t , t ) \epsilon_θ(x_t,t) ?θ?(xt?,t)產(chǎn)生的特征的分辨性隨不同的塊體和擴(kuò)散步驟而變化。特別是,與反向擴(kuò)散過(guò)程的后續(xù)步驟相對(duì)應(yīng)的特征通常更有效地捕獲語(yǔ)義信息。相反,與早期步驟相對(duì)應(yīng)的步驟通常沒(méi)有信息。在不同的塊中,UNet解碼器中間層產(chǎn)生的特征似乎是所有擴(kuò)散步驟中信息最豐富的
ICLR2022/擴(kuò)散模型/語(yǔ)義分割:基于擴(kuò)散模型的標(biāo)簽高效語(yǔ)義分割Label-efficient semantic segmentation with diffusion models

圖3:LSUN Horse數(shù)據(jù)集上具有最?。ㄗ螅┖妥畲螅ㄓ遥┢骄娣e的類的基于DDPM的逐像素表示的預(yù)測(cè)性能的演變。在相反的過(guò)程中,小尺寸對(duì)象的預(yù)測(cè)性能稍后開(kāi)始增長(zhǎng)。較深的塊對(duì)于較大的對(duì)象信息更豐富,較淺的塊對(duì)于較小的對(duì)象信息更多。附錄A中提供了其他數(shù)據(jù)集的類似評(píng)估。

此外,我們還基于注釋數(shù)據(jù)集中的平均面積分別考慮了小型和大型語(yǔ)義類。然后,我們?cè)诓煌腢Net塊和擴(kuò)散步驟中獨(dú)立評(píng)估這些類的平均IoU。LSUN Horse的結(jié)果如圖3所示。正如預(yù)期的那樣,大型對(duì)象的預(yù)測(cè)性能在相反的過(guò)程中開(kāi)始提前增長(zhǎng)。更大的塊對(duì)于較小的對(duì)象信息更豐富,而更深的塊對(duì)于較大的對(duì)象信息更多。在這兩種情況下,最具區(qū)別性的特征仍然對(duì)應(yīng)于中間塊。
圖2表明,對(duì)于某些UNet塊和擴(kuò)散步驟,類似的基于DDPM的表示對(duì)應(yīng)于相同語(yǔ)義的像素。圖4顯示了由FFHQ檢查點(diǎn)從dif融合步驟
ICLR2022/擴(kuò)散模型/語(yǔ)義分割:基于擴(kuò)散模型的標(biāo)簽高效語(yǔ)義分割Label-efficient semantic segmentation with diffusion models

圖4:由在擴(kuò)散步驟{50,200,400,600,800}上從UNetdecoder塊{6、8、10、12}提取的特征形成的k均值聚類(k=5)的示例。來(lái)自中間塊的聚類在空間上跨越連貫的語(yǔ)義對(duì)象和部分

{50,200,400,600,800}上的塊{6、8、10、12}中提取的特征形成的k均值聚類(k=5),并確認(rèn)聚類可以跨越連貫的語(yǔ)義對(duì)象和對(duì)象部分。在塊B=6中,特征對(duì)應(yīng)于粗語(yǔ)義掩碼。在另一個(gè)極端,B=12的特征可以區(qū)分細(xì)粒度的面部部分,但對(duì)于粗糙的碎片,其語(yǔ)義意義較小。在不同的擴(kuò)散步驟中,最有意義的特征與后面的特征相對(duì)應(yīng)。我們將這種行為歸因于這樣一個(gè)事實(shí),即在反向過(guò)程的早期階段,DDPM樣本的全局結(jié)構(gòu)尚未出現(xiàn),因此,在這個(gè)階段很難預(yù)測(cè)分割掩模。圖4中的掩模定性地證實(shí)了這種直覺(jué)。t=800,掩模很難反映實(shí)際圖像的內(nèi)容,而對(duì)于較小的值,掩模和圖像在語(yǔ)義上是一致的。

3.2.基于DDPM的FEW-SHOT語(yǔ)義分割表示

上述觀察到的中間DDPM激活的潛在有效性暗示了它們用作密集預(yù)測(cè)任務(wù)的圖像表示。圖1示意性地展示了我們的整體圖像分割方法,該方法利用了這些表示的可分辨性。更詳細(xì)地,我們考慮FEW-SHOT半監(jiān)督設(shè)置,當(dāng)大量未標(biāo)記圖像 X 1 , … , X N ? R H × W × 3 {X_1,…,X_N}?R^{H×W×3} X1?,XN??RH×W×3來(lái)自特定域是可用的,并且僅有n張訓(xùn)練圖片 X 1 , … , X n ? R H × W × 3 {X_1,…,X_n}?R^{H×W×3} X1?,,Xn??RH×W×3有K類語(yǔ)義分割掩膜 Y 1 , … , Y n ? R H × W × { 1 , . . . , K } {Y_1,…,Y_n}?R^{H×W×\{1,...,K\}} Y1?,,Yn??RH×W×{1,...,K}
第一步,我們以無(wú)監(jiān)督的方式在整個(gè) X 1 , … , X N {X_1,…,X_N} X1?,,XN?上訓(xùn)練擴(kuò)散模型。然后,該擴(kuò)散模型用于使用UNet塊的子集和擴(kuò)散步長(zhǎng)來(lái)提取標(biāo)記圖像的像素級(jí)表示。在這項(xiàng)工作中,我們使用了來(lái)自UNet解碼器的中間塊B={5,6,7,8,12}和反向擴(kuò)散過(guò)程的后續(xù)步驟t={50,150,250}的表示。這些塊和時(shí)間步驟是由第3.1節(jié)中的見(jiàn)解驅(qū)動(dòng)的,但有意不針對(duì)每個(gè)數(shù)據(jù)集進(jìn)行調(diào)整。
雖然在特定時(shí)間步長(zhǎng)的特征提取是隨機(jī)的,但我們?cè)诘?.1節(jié)中消除了所有時(shí)間步長(zhǎng)的噪聲。從所有塊B和步長(zhǎng)t提取的表示被采樣到圖像大小并連接,形成訓(xùn)練圖像的所有像素的特征向量。像素級(jí)表示的總體尺寸為8448。
然后,接下來(lái)(Zhang等人,2021),我們?cè)谶@些特征向量上訓(xùn)練獨(dú)立多層感知器(MLP)的集合,其目的是預(yù)測(cè)訓(xùn)練圖像中每個(gè)可用像素的語(yǔ)義標(biāo)簽。我們采用了來(lái)自(Zhang等人,2021)的集成配置和訓(xùn)練設(shè)置,并在我們的實(shí)驗(yàn)中使用了所有其他方法,詳見(jiàn)附錄C。
為了分割測(cè)試圖像,我們提取其基于DDPM的逐像素表示,并使用它們通過(guò)集合來(lái)預(yù)測(cè)像素標(biāo)簽。最終預(yù)測(cè)是通過(guò)多數(shù)投票得出的。

4.實(shí)驗(yàn)

本節(jié)通過(guò)實(shí)驗(yàn)證實(shí)了基于DDPM的表示方法在尾數(shù)分割問(wèn)題中的優(yōu)勢(shì)。我們從與現(xiàn)有替代方案的徹底比較開(kāi)始,然后通過(guò)額外分析剖析DDPM成功的原因

  • 數(shù)據(jù)集

在我們的評(píng)估中,我們主要使用LSUN(Yu等人,2015)和FFHQ-256(Karras等人,2019)中的“臥室”、“貓”和“馬”類別。作為每個(gè)數(shù)據(jù)集的訓(xùn)練集,我們考慮了幾個(gè)圖像,這些圖像的細(xì)粒度語(yǔ)義掩碼是按照協(xié)議收集的(Zhang等人,2021)。對(duì)于每個(gè)數(shù)據(jù)集,聘請(qǐng)一名專業(yè)評(píng)估員對(duì)樣本進(jìn)行注釋和測(cè)試。我們將收集的數(shù)據(jù)集表示為Bedroom-28、FFHQ-34、Cat-15、Horse-21,其中數(shù)字對(duì)應(yīng)于語(yǔ)義類的數(shù)量。
此外,我們考慮了兩個(gè)數(shù)據(jù)集,與其他數(shù)據(jù)集相比,它們具有公開(kāi)可用的注釋和可觀的評(píng)估集:

  • ADE-Bedroom-30是ADE20K數(shù)據(jù)集的一個(gè)子集(Zhou et al.,2018),我們?cè)谄渲刑崛×?0個(gè)最頻繁類別的臥室場(chǎng)景圖像。我們將每個(gè)圖像的小邊調(diào)整為256,然后裁剪它們以獲得256×256個(gè)樣本
  • CelebA-19是CelebMask HQ數(shù)據(jù)集的一個(gè)子集(Lee等人,2020),該數(shù)據(jù)集為19個(gè)面部屬性提供了符號(hào)。所有圖像都調(diào)整為256分辨率

每個(gè)數(shù)據(jù)集的注釋圖像數(shù)量見(jiàn)表1。其他詳細(xì)信息見(jiàn)附錄E
ICLR2022/擴(kuò)散模型/語(yǔ)義分割:基于擴(kuò)散模型的標(biāo)簽高效語(yǔ)義分割Label-efficient semantic segmentation with diffusion models

表1:評(píng)估中使用的每個(gè)數(shù)據(jù)集的注釋圖像數(shù)量

  • 方法

在評(píng)估中,我們將我們的方法(表示為DDPM)與解決少數(shù)鏡頭語(yǔ)義分割設(shè)置的幾種現(xiàn)有方法進(jìn)行了比較。首先,我們描述了生成大量帶注釋的合成圖像以訓(xùn)練分割模型的基線

  • DatasetGAN(Zhang等人,2021)-此方法利用GAN生成的像素級(jí)特征的可區(qū)分性。更詳細(xì)地說(shuō),評(píng)估人員注釋了一些GAN制作的圖像。然后,使用這些圖像的潛碼來(lái)獲得中間生成器激活,這些激活被認(rèn)為是像素級(jí)表示。給定這些表示,分類器被訓(xùn)練為預(yù)測(cè)每個(gè)像素的語(yǔ)義標(biāo)簽。然后,該分類器用于標(biāo)記新聞合成GAN圖像,就其而言,該圖像用作DeepLabV3分段模型的訓(xùn)練集(Chen等人,2017)。對(duì)于每個(gè)數(shù)據(jù)集,我們?cè)黾雍铣蓤D像的數(shù)量,直到驗(yàn)證集的性能不飽和。根據(jù)(Zhang等人,2021),我們還去除了10%預(yù)測(cè)最不確定的合成樣品
  • DatasetDDPM與DatasetGAN基線相似,唯一的區(qū)別是GAN被DDPM替換。我們將此基線用于比較同一場(chǎng)景中基于GAN和基于DDPM的演示。

請(qǐng)注意,與DatasetGAN和DatasetDDPM相比,第3.2節(jié)中描述的分割方法更加簡(jiǎn)單,因?yàn)樗恍枰铣蓴?shù)據(jù)集生成和訓(xùn)練分割模型的輔助步驟
然后,我們考慮一組基線,這些基線允許直接從真實(shí)圖像中提取中間激活,并使用它們作為像素級(jí)表示,與我們的方法類似。與DatasetGAN和DatasetDDPM相比,由于真實(shí)圖像和合成圖像之間不存在領(lǐng)域差距,這些方法可能是有益的。

  • MAE(He等人,2021)——最先進(jìn)的自我監(jiān)督方法之一,其學(xué)習(xí)去噪自動(dòng)編碼器以重建缺失的補(bǔ)丁。我們使用ViT-Large(Dosovitskiy等人,2021)作為主干模型,并將補(bǔ)丁大小減少到8×8,以增加特征地圖的空間維度。我們使用官方代碼2在與DDPM相同的數(shù)據(jù)集上預(yù)處理所有模型。該方法的特征提取在附錄F中描述。

  • SwAV(Caron等人,2020)-一種更新的自我監(jiān)督方法。我們考慮使用兩倍寬的ResNet-50模型進(jìn)行評(píng)估。所有模型都在與DDPM相同的數(shù)據(jù)集上預(yù)訓(xùn)練,也使用官方源代碼。輸入圖像分辨率為256。

  • GAN Inversion采用最先進(jìn)的方法(Tov等人,2021)獲取真實(shí)圖像的潛在代碼。我們將帶注釋的真實(shí)圖像映射到GAN潛在空間,這允許計(jì)算中間生成器激活并將其用作像素級(jí)表示。

  • GAN Encoder-當(dāng)GAN反轉(zhuǎn)努力從LSUN域重建圖像時(shí),我們還考慮了用于GAN反轉(zhuǎn)的預(yù)訓(xùn)練GAN編碼器的激活。

  • VDVAE(Child,2021)-最先進(jìn)的自動(dòng)編碼器模型。從編碼器和解碼器中提取中間激活并連接。雖然LSUN數(shù)據(jù)集上沒(méi)有預(yù)訓(xùn)練的模型,但我們僅在FFHQ-256上的公共可用檢查點(diǎn)4上評(píng)估該模型

  • ALAE(Pidhorskyi等人,2020)采用StyleGANv1生成器,并將編碼器網(wǎng)絡(luò)添加到對(duì)抗訓(xùn)練中。我們從編碼器模型中提取特征。在我們的評(píng)估中,我們?cè)贚SUN臥室和FFHQ-10245上使用了公開(kāi)可用的模型。

  • 生成預(yù)訓(xùn)練模型

在我們的實(shí)驗(yàn)中,我們使用了最先進(jìn)的StyleGAN(Karraset al.,2020)模型作為基于GAN的基線,使用最先進(jìn)的預(yù)處理ADM(Dhari-wal&Nichol,2021)作為基于DDPM的方法。由于沒(méi)有針對(duì)FFHQ-256的預(yù)訓(xùn)練模型,我們使用官方實(shí)施自行訓(xùn)練。對(duì)于ADE-Bedroom-30數(shù)據(jù)集的評(píng)估,我們使用在LSUN Bedroom上預(yù)訓(xùn)練的模型(包括基線)。對(duì)于Celeba-19,我們?cè)u(píng)估了在FFHQ-256上訓(xùn)練的模型。

  • 主要結(jié)果

ICLR2022/擴(kuò)散模型/語(yǔ)義分割:基于擴(kuò)散模型的標(biāo)簽高效語(yǔ)義分割Label-efficient semantic segmentation with diffusion models

圖5:通過(guò)我們的方法在測(cè)試圖像上預(yù)測(cè)的分割掩模的示例,以及背景真相注釋掩模

ICLR2022/擴(kuò)散模型/語(yǔ)義分割:基于擴(kuò)散模型的標(biāo)簽高效語(yǔ)義分割Label-efficient semantic segmentation with diffusion models

表2:平均IoU方面的分割方法比較。(*)在CelebA-19和ADE臥室-30上,我們分別評(píng)估了在FFHQ-256和LSUN臥室上預(yù)處理的模型

表2給出了兩種方法在平均IoU測(cè)量方面的比較。結(jié)果在不同數(shù)據(jù)分割的5次獨(dú)立運(yùn)行中進(jìn)行了平均。我們還在附錄D中報(bào)告了每類IoU。此外,我們?cè)趫D5中提供了使用我們的方法進(jìn)行分割的幾個(gè)定性示例。下面我們重點(diǎn)介紹了幾個(gè)關(guān)鍵觀察結(jié)果:

  • 所提出的基于DDPM表示的方法在大多數(shù)數(shù)據(jù)集上顯著優(yōu)于替代選項(xiàng)。
  • MAE基線是基于DDPM的分割的最強(qiáng)競(jìng)爭(zhēng)對(duì)手,并在FFHQ-34和Cat-15數(shù)據(jù)集上展示了可比較的結(jié)果
  • 與基于DDPM的分割相比,SwAVbaseline表現(xiàn)不佳。我們將這種行為歸因于這樣一個(gè)事實(shí),即該基線是以區(qū)分的方式訓(xùn)練的,并且可以支持細(xì)粒度語(yǔ)義分割所需的細(xì)節(jié)。這一結(jié)果與(Cole等人,2021)中的最新發(fā)現(xiàn)相一致,該發(fā)現(xiàn)表明,最先進(jìn)的對(duì)比方法產(chǎn)生的表征對(duì)于細(xì)粒度問(wèn)題來(lái)說(shuō)是次優(yōu)的
  • DatasetDDPM根據(jù)大多數(shù)基準(zhǔn)測(cè)試執(zhí)行其對(duì)手DatasetGAN。注意,這兩種方法都使用DeepLabV3網(wǎng)絡(luò)。我們將這種優(yōu)勢(shì)歸因于DDPM合成物的更高質(zhì)量,因此,合成數(shù)據(jù)和真實(shí)數(shù)據(jù)之間的領(lǐng)域差距更小
  • 在大多數(shù)數(shù)據(jù)集上,DDPM比DatasetDDPM更好。我們?cè)谙旅娴挠懻摬糠痔峁┝艘粋€(gè)額外的實(shí)驗(yàn)來(lái)研究這一點(diǎn)

總體而言,所提出的基于DDPM的分割優(yōu)于利用交替生成模型的基線以及以自我監(jiān)督方式訓(xùn)練的基線。這一結(jié)果突出了使用最先進(jìn)的DDPM作為強(qiáng)大的無(wú)監(jiān)督表示學(xué)習(xí)者的潛力。

4.1.討論

  • 訓(xùn)練對(duì)真實(shí)數(shù)據(jù)的影響

ICLR2022/擴(kuò)散模型/語(yǔ)義分割:基于擴(kuò)散模型的標(biāo)簽高效語(yǔ)義分割Label-efficient semantic segmentation with diffusion models

表3:在真實(shí)圖像和合成圖像上訓(xùn)練時(shí)基于DDPM的分割性能。在DDPM生成的數(shù)據(jù)上訓(xùn)練時(shí),DDPM表現(xiàn)出與數(shù)據(jù)集DDPM相當(dāng)?shù)男阅?。?dāng)在GAN生成的數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí),DDPM仍然顯著優(yōu)于DatasetGAN,但兩者之間的差距縮小了。

所提出的DDPM方法是在帶注釋的真實(shí)圖像上訓(xùn)練的,而DatasetDDPM和DatasetGAN是在合成圖像上訓(xùn)練,這些圖像通常不太自然、多樣,并且可能缺少特定類的對(duì)象。此外,合成圖像很難進(jìn)行人類注釋,因?yàn)樗鼈兛赡苡幸恍┡で膶?duì)象,很難分配給特定的類。在接下來(lái)的實(shí)驗(yàn)中,我們量化了在真實(shí)或合成數(shù)據(jù)上訓(xùn)練導(dǎo)致的性能下降。具體而言,表3報(bào)告了在真實(shí)、DDPM生成和GAN生成的注釋圖像上訓(xùn)練的DDPM方法的性能。可以看出,在生成模型的保真度仍然相對(duì)較低的領(lǐng)域,例如LSUN Cat,對(duì)真實(shí)圖像進(jìn)行訓(xùn)練非常有益,這表明帶注釋的真實(shí)圖像是更可靠的監(jiān)督來(lái)源。此外,如果在合成圖像上訓(xùn)練DDPM方法,其性能將與DatasetDDPM相當(dāng)。另一方面,當(dāng)對(duì)GAN生成的樣本進(jìn)行訓(xùn)練時(shí),DDPM顯著優(yōu)于DatasetGAN。我們將此歸因于DDPM與GAN相比提供了更具語(yǔ)義價(jià)值的像素表示

  • 采樣效率

ICLR2022/擴(kuò)散模型/語(yǔ)義分割:基于擴(kuò)散模型的標(biāo)簽高效語(yǔ)義分割Label-efficient semantic segmentation with diffusion models

表4:用不同數(shù)量的標(biāo)記訓(xùn)練數(shù)據(jù)評(píng)估所提出的方法。即使使用較少注釋的數(shù)據(jù),DDPM仍優(yōu)于表2中的大多數(shù)基線

在這個(gè)實(shí)驗(yàn)中,我們?cè)u(píng)估了我們的方法在使用無(wú)注釋數(shù)據(jù)時(shí)的性能。我們?yōu)楸?中的四個(gè)數(shù)據(jù)集提供了mIoU。重要的是,DDPM仍然能夠超過(guò)表2中的大多數(shù)基線,使用的監(jiān)督明顯較少

  • 隨機(jī)特征提取的效果

在這里,我們研究了我們的方法是否可以從第3.2節(jié)中描述的隨機(jī)特征提取中受益~N(0,I)采樣一次,并在(2)中使用,以獲得訓(xùn)練和評(píng)估期間的所有時(shí)間步長(zhǎng)。然后,我們將其與以下隨機(jī)選項(xiàng)進(jìn)行比較:
ICLR2022/擴(kuò)散模型/語(yǔ)義分割:基于擴(kuò)散模型的標(biāo)簽高效語(yǔ)義分割Label-efficient semantic segmentation with diffusion models

表5:基于DDPM的方法對(duì)不同特征提取變化的性能。所有考慮的隨機(jī)選項(xiàng)提供了與確定性選項(xiàng)類似的mIoU

首先,在訓(xùn)練和評(píng)估過(guò)程中,針對(duì)不同的時(shí)間步長(zhǎng)t采樣不同的 ? t \epsilon_t ?t?。第二,在每個(gè)訓(xùn)練迭代中對(duì)所有時(shí)間步長(zhǎng)采樣不同的噪聲;在評(píng)估過(guò)程中,該方法還使用了看不見(jiàn)的噪聲樣本
結(jié)果如表5所示??梢钥闯?,性能差異很小。我們將此行為歸因于以下原因:

  • 我們的方法使用反向擴(kuò)散過(guò)程的后期,其中噪聲幅度較低

  • 由于我們利用了UNet模型的深層,噪聲可能不會(huì)顯著影響這些層的激活。

  • 對(duì)損壞的輸入的魯棒性

ICLR2022/擴(kuò)散模型/語(yǔ)義分割:基于擴(kuò)散模型的標(biāo)簽高效語(yǔ)義分割Label-efficient semantic segmentation with diffusion models

圖6:Bedroom-28和Horse-21數(shù)據(jù)集上不同圖像損壞級(jí)別的mIoU退化。DDPM表現(xiàn)出更高的魯棒性,并在所有失真水平下保持其優(yōu)勢(shì)

在本實(shí)驗(yàn)中,我們研究了基于DDPM的表示的魯棒性。首先,我們使用Bedroom-28和Horse-21數(shù)據(jù)集上的DDPM、SwAV和MAE表示來(lái)學(xué)習(xí)干凈圖像上的像素分類器。然后,從(Hendrycks&Dieterich,2019)中采用的18種不同的腐敗類型被應(yīng)用于測(cè)試圖像。每個(gè)腐敗都有五個(gè)嚴(yán)重級(jí)別。在圖6中,我們提供了針對(duì)1、3、5個(gè)嚴(yán)重級(jí)別的所有損壞類型計(jì)算的平均IoU,分別表示為“弱”、“中等”和“強(qiáng)”。
可以觀察到,所提出的基于DDPM的方法顯示出更高的魯棒性,即使對(duì)于嚴(yán)重的圖像失真,也優(yōu)于SwAV和MAE模型

5.結(jié)論

本文證明DDPM可以作為區(qū)分性計(jì)算機(jī)視覺(jué)問(wèn)題的表征學(xué)習(xí)者。與GAN相比,擴(kuò)散模型允許直接計(jì)算真實(shí)圖像的這些表示,并且不需要學(xué)習(xí)將圖像映射到潛在空間的附加編碼器。這種DDPM的優(yōu)勢(shì)和優(yōu)越的生成質(zhì)量在少數(shù)鏡頭語(yǔ)義分割任務(wù)中提供了最先進(jìn)的性能?;贒DPM的分割的顯著限制是需要在手邊的數(shù)據(jù)集上訓(xùn)練高質(zhì)量的擴(kuò)散模型,這對(duì)于像ImageNet或MSCOCO這樣的復(fù)雜領(lǐng)域來(lái)說(shuō)可能具有挑戰(zhàn)性。然而,鑒于DDPM的研究進(jìn)展迅速,我們預(yù)計(jì)它們將在不久的將來(lái)達(dá)到這些里程碑,從而擴(kuò)大相應(yīng)表示的適用范圍。

附錄

A.預(yù)測(cè)性能的演變

ICLR2022/擴(kuò)散模型/語(yǔ)義分割:基于擴(kuò)散模型的標(biāo)簽高效語(yǔ)義分割Label-efficient semantic segmentation with diffusion models

圖7:LSUN Cat和LSUN Bedroom上不同UNet塊和擴(kuò)散步驟的基于DDPM的逐像素表示的預(yù)測(cè)性能演變。區(qū)塊從深到淺依次編號(hào)。

ICLR2022/擴(kuò)散模型/語(yǔ)義分割:基于擴(kuò)散模型的標(biāo)簽高效語(yǔ)義分割Label-efficient semantic segmentation with diffusion models

圖8:FFHQ-256、LSUN Cat和LSUN Bedroom數(shù)據(jù)集上基于DDPM的逐像素表示的預(yù)測(cè)性能的演變,用于具有最?。ㄗ螅┖妥畲螅ㄓ遥┢骄娣e的類

B.DATASETDDPM & DATASETGAN

ICLR2022/擴(kuò)散模型/語(yǔ)義分割:基于擴(kuò)散模型的標(biāo)簽高效語(yǔ)義分割Label-efficient semantic segmentation with diffusion models

表6:數(shù)據(jù)集DDPM和數(shù)據(jù)集GAN的10K性能?訓(xùn)練數(shù)據(jù)集中的50K合成圖像。兩種方法的平均IoU在30K時(shí)飽和?50Kof合成數(shù)據(jù)

C.訓(xùn)練設(shè)置

MLP的集合由10個(gè)獨(dú)立的模型組成。每個(gè)MLP都經(jīng)過(guò)培訓(xùn)~使用Adam優(yōu)化器(Kingma&Ba,2015)進(jìn)行4次預(yù)測(cè),收益率為0.001。批處理大小為64。此設(shè)置用于所有方法和數(shù)據(jù)集

  • MLP架構(gòu)

我們采用了MLP架構(gòu)(Zhang等人,2021)。具體而言,我們使用具有ReLU非線性和批處理歸一化的兩個(gè)隱藏層的MLP。對(duì)于類數(shù)小于30的數(shù)據(jù)集,隱藏層的大小為128和32,對(duì)于其他數(shù)據(jù)集,為256和128
此外,我們?cè)u(píng)估了所提出方法在Bedroom-28和FFHQ-34數(shù)據(jù)集上兩倍寬/更深MLP的性能,沒(méi)有觀察到任何明顯差異,見(jiàn)表7
ICLR2022/擴(kuò)散模型/語(yǔ)義分割:基于擴(kuò)散模型的標(biāo)簽高效語(yǔ)義分割Label-efficient semantic segmentation with diffusion models

表7:針對(duì)兩倍更寬/更深的MLP架構(gòu),提出的方法在集合中的性能。更具表現(xiàn)力的MLP不會(huì)提高性能

D.每一類的IoUs

ICLR2022/擴(kuò)散模型/語(yǔ)義分割:基于擴(kuò)散模型的標(biāo)簽高效語(yǔ)義分割Label-efficient semantic segmentation with diffusion models

E.數(shù)據(jù)集細(xì)節(jié)

E.1.類別名

Bedroom-28: [bed, footboard, headboard, side rail, carpet, ceiling, chandelier, curtain, cushion,floor, table, table top, picture, pillow, lamp column, lamp shade, wall, window, curtain rod, windowframe, chair, picture frame, plinth, door, pouf, wardrobe, plant, table staff]
FFHQ-34: [background, head, cheek, chin, ear, helix, lobule, bottom lid, eyelashes, iris, pupil,sclera, tear duct, top lid, eyebrow, forehead, frown, hair, sideburns, jaw, moustache, inferior lip, oralcommissure, superior lip, teeth, neck, nose, ala of nose, bridge, nose tip, nostril, philtrum, temple,wrinkles]
Cat-15: [background, back, belly, chest, leg, paw, head, ear, eye, mouth, tongue, tail, nose, whiskers,neck]
Horse-21: [background, person, back, barrel, bridle, chest, ear, eye, forelock, head, hoof, leg, mane,muzzle, neck, nostril, tail, thigh, saddle, shoulder, leg protection]
CelebA-19: [background, cloth, earr, eyeg, hair, hat, lbrow, lear, leye, llip, mouth, neck, neckl,nose, rbrow, rear, reye, skin, ulip]
ADE-Bedroom-30: [wall, bed, floor, table, lamp, ceiling, painting, windowpane, pillow, curtain,cushion, door, chair, cabinet, chest, mirror, rug, armchair, book, sconce, plant, wardrobe, clock,light, flower, vase, fan, box, shelf, television]

E.2.類別的統(tǒng)計(jì)數(shù)據(jù)

在圖10中,我們報(bào)告了對(duì)注釋的真實(shí)圖像以及由GAN和DDPM生成的注釋的合成圖像計(jì)算的類的統(tǒng)計(jì)信息。

ICLR2022/擴(kuò)散模型/語(yǔ)義分割:基于擴(kuò)散模型的標(biāo)簽高效語(yǔ)義分割Label-efficient semantic segmentation with diffusion models

F.從MAE中提取表示

為了獲得像素表示,我們將模型應(yīng)用于分辨率為256的完全觀察圖像(maskratio=0),并從最深的12ViT-L塊中提取特征圖。每個(gè)塊的特征圖具有1024×32×32維。與其他方法類似,我們將提取的特征圖上采樣到256×256,并將它們連接起來(lái)。像素表示的總體尺寸為12288
此外,我們研究了其他特征提取策略,并獲得了以下觀察結(jié)果:
1.包括來(lái)自解碼器的激活沒(méi)有提供任何明顯的增益;
2.在自我注意層之后立即提取激活導(dǎo)致稍差的表現(xiàn);
3.從每一秒的編碼器塊中提取激活也提供了稍差的結(jié)果。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-403302.html

到了這里,關(guān)于ICLR2022/擴(kuò)散模型/語(yǔ)義分割:基于擴(kuò)散模型的標(biāo)簽高效語(yǔ)義分割Label-efficient semantic segmentation with diffusion models的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 第一章 SegFormer(語(yǔ)義分割篇)——SegFormer: 簡(jiǎn)單高效的基于Transformer的語(yǔ)義分割設(shè)計(jì)

    第一章 SegFormer(語(yǔ)義分割篇)——SegFormer: 簡(jiǎn)單高效的基于Transformer的語(yǔ)義分割設(shè)計(jì)

    原文:《SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers》 引用:Xie E, Wang W, Yu Z, et al. SegFormer: Simple and efficient design for semantic segmentation with transformers[J]. Advances in Neural Information Processing Systems, 2021, 34: 12077-12090. 原文鏈接: https://proceedings.neurips.cc/paper/2021/file/6

    2024年02月16日
    瀏覽(91)
  • 基于語(yǔ)義分割Ground Truth(GT)轉(zhuǎn)換yolov5圖像分割標(biāo)簽(路面積水檢測(cè)例子)

    基于語(yǔ)義分割Ground Truth(GT)轉(zhuǎn)換yolov5圖像分割標(biāo)簽(路面積水檢測(cè)例子)

    隨著開(kāi)發(fā)者在issues中對(duì) 用yolov5做分割任務(wù)的呼聲高漲,yolov5團(tuán)隊(duì)真的在幫開(kāi)發(fā)者解決問(wèn)題,v6.0版本之后推出了最新的解決方案并配指導(dǎo)教程。 之前就有使用改進(jìn)yolo添加分割頭的方式實(shí)現(xiàn)目標(biāo)檢測(cè)和分割的方法,最新的v7.0版本有了很好的效果,yolov8在分割方面也是重拳出擊

    2024年02月09日
    瀏覽(24)
  • ICCV 2023 | MoCoDAD:一種基于人體骨架的運(yùn)動(dòng)條件擴(kuò)散模型,實(shí)現(xiàn)高效視頻異常檢測(cè)

    ICCV 2023 | MoCoDAD:一種基于人體骨架的運(yùn)動(dòng)條件擴(kuò)散模型,實(shí)現(xiàn)高效視頻異常檢測(cè)

    論文鏈接: https://arxiv.org/abs/2307.07205 視頻異常檢測(cè)(Video Anomaly Detection,VAD)擴(kuò)展自經(jīng)典的異常檢測(cè)任務(wù), 由于異常情況樣本非常少見(jiàn),因此經(jīng)典的異常檢測(cè)通常被定義為一類分類問(wèn)題(One-Class Classification,OCC) 。而對(duì)于VAD而言,屬于異常情況的樣本更是非常罕見(jiàn),因此常

    2024年02月09日
    瀏覽(25)
  • 【語(yǔ)義分割】數(shù)據(jù)增強(qiáng)方法(原圖與標(biāo)簽同時(shí)擴(kuò)增)

    【語(yǔ)義分割】數(shù)據(jù)增強(qiáng)方法(原圖與標(biāo)簽同時(shí)擴(kuò)增)

    ? ?避免過(guò)擬合 ? ?提升模型的魯棒性 ? 提高模型的泛化能力 ? 避免樣本不均衡的問(wèn)題 可分為兩類:在線增強(qiáng)和離線增強(qiáng)。這兩者的區(qū)別在于離線增強(qiáng)是在訓(xùn)練前對(duì)數(shù)據(jù)集進(jìn)行處理,往往能得到多倍的數(shù)據(jù)集,在線增強(qiáng)是在訓(xùn)練時(shí)對(duì)加載數(shù)據(jù)進(jìn)行預(yù)處理,不改變訓(xùn)練數(shù)據(jù)的

    2024年02月03日
    瀏覽(16)
  • 視頻目標(biāo)語(yǔ)義分割自動(dòng)標(biāo)注——從圖像輪廓提取到轉(zhuǎn)成json標(biāo)簽文件

    視頻目標(biāo)語(yǔ)義分割自動(dòng)標(biāo)注——從圖像輪廓提取到轉(zhuǎn)成json標(biāo)簽文件

    語(yǔ)義分割數(shù)據(jù)標(biāo)注是為訓(xùn)練語(yǔ)義分割模型準(zhǔn)備數(shù)據(jù)的過(guò)程。語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域的任務(wù),其中需要為圖像中的每個(gè)像素分配一個(gè)類別標(biāo)簽,以區(qū)分不同的對(duì)象或區(qū)域。標(biāo)注數(shù)據(jù)時(shí),通常需要為每個(gè)對(duì)象或區(qū)域分配一個(gè)唯一的標(biāo)簽,并創(chuàng)建與圖像像素相對(duì)應(yīng)的分割掩碼。

    2024年02月04日
    瀏覽(20)
  • 【Python&語(yǔ)義分割】Segment Anything(SAM)模型全局語(yǔ)義分割代碼+掩膜保存(二)

    【Python&語(yǔ)義分割】Segment Anything(SAM)模型全局語(yǔ)義分割代碼+掩膜保存(二)

    我上篇博文分享了Segment Anything(SAM)模型的基本操作,這篇給大家分享下官方的整張圖片的語(yǔ)義分割代碼(全局),同時(shí)我還修改了一部分支持掩膜和疊加影像的保存。 1.1 概況 ????????Meta AI 公司的 Segment Anything 模型是一項(xiàng)革命性的技術(shù),該模型能夠根據(jù)文本指令或圖像

    2024年02月03日
    瀏覽(24)
  • 【mmSegmentation】解耦語(yǔ)義分割模型,逐部分理解模型的構(gòu)成與作用;規(guī)范開(kāi)發(fā)和測(cè)試標(biāo)準(zhǔn),增加模型的可復(fù)現(xiàn)性;讓語(yǔ)義分割模型落地更穩(wěn)

    語(yǔ)義分割作為計(jì)算機(jī)視覺(jué)中一項(xiàng)基礎(chǔ)任務(wù),同時(shí)在自動(dòng)駕駛/視頻編輯等領(lǐng)域中有重要的應(yīng)用,因此一直受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。在近幾年的會(huì)議中,語(yǔ)義分割的論文層出不窮,但是市面上一直缺乏一款能夠相對(duì)公平比較各種方法的框架。為了方便研究員和工程師們,

    2024年02月08日
    瀏覽(21)
  • 語(yǔ)義分割大模型RSPrompter論文閱讀

    語(yǔ)義分割大模型RSPrompter論文閱讀

    RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation based on Visual Foundation Model RSPrompter 摘要 Abstract—Leveraging vast training data (SA-1B), the foundation Segment Anything Model (SAM) proposed by Meta AI Research exhibits remarkable generalization and zero-shot capabilities. Nonetheless, as a category-agnostic instance segmen

    2024年02月12日
    瀏覽(20)
  • 語(yǔ)義分割大模型SAM論文閱讀(二)

    語(yǔ)義分割大模型SAM論文閱讀(二)

    Segment Anything SAM 我們介紹了分割一切(SA)項(xiàng)目:一個(gè)新的圖像分割任務(wù),模型和數(shù)據(jù)集。在數(shù)據(jù)收集循環(huán)中使用我們的高效模型,我們建立了迄今為止(到目前為止)最大的分割數(shù)據(jù)集,在1100萬(wàn)張?jiān)S可和尊重隱私的圖像上擁有超過(guò)10億個(gè)掩模。 該模型被設(shè)計(jì)和訓(xùn)練為提示 ,因此它

    2024年02月13日
    瀏覽(24)
  • UNet語(yǔ)義分割模型的使用-Pytorch

    UNet語(yǔ)義分割模型的使用-Pytorch

    最近有時(shí)間,跑了一下UNet模型,因?yàn)樽约旱纳疃葘W(xué)習(xí)基礎(chǔ)不扎實(shí),導(dǎo)致用了一些時(shí)間。目前只停留在使用和理解別人模型的基礎(chǔ)上,對(duì)于優(yōu)化模型的相關(guān)方法還有待學(xué)習(xí)。 眾所周知,UNent是進(jìn)行語(yǔ)義分割的知名模型,它的U形結(jié)構(gòu)很多人也都見(jiàn)過(guò),但是如果自己沒(méi)有親自試過(guò)

    2024年02月03日
    瀏覽(26)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包