Ultra-High Resolution Segmentation with Ultra-Rich Context: A Novel Benchmark
摘要
數(shù)據(jù)
隨著人們對超高分辨率(UHR)分割方法的興趣不斷增加和快速發(fā)展,迫切需要一個覆蓋廣泛場景并具有全細(xì)粒度密集注釋的大規(guī)?;鶞?zhǔn)來促進該領(lǐng)域的發(fā)展。為此,引入了URUR數(shù)據(jù)集,即具有超豐富上下文的超高分辨率數(shù)據(jù)集。顧名思義,URUR包含大量分辨率足夠高的圖像(3008張5120×5120大小的圖像)、廣泛的復(fù)雜場景(來自63個城市)、足夠豐富的上下文(100萬個實例,8個類別)和細(xì)粒度注釋(約800億個手動注釋像素),這遠遠優(yōu)于包括DeepGlobe、Inria Aerial、UDD,
模型
- 還提出了WSDNet,這是一種更高效、更有效的UHR分割框架,尤其是在超豐富上下文的情況下,
- 多級離散小波變換(DWT)自然地被集成以釋放計算負(fù)擔(dān),同時保留更多的空間細(xì)節(jié),以及小波平滑損失(WSL)以利用平滑約束重建原始結(jié)構(gòu)化上下文和紋理。
代碼地址
數(shù)據(jù)集
在數(shù)量、上下文豐富度和注釋質(zhì)量方面,所提出的URUR數(shù)據(jù)集遠遠優(yōu)于所有現(xiàn)有的UHR數(shù)據(jù)集,包括DeepGlobe、Inria Aerial、UDD等。在本節(jié)中,我們將說明數(shù)據(jù)集構(gòu)建的過程,并通過各種信息統(tǒng)計對其進行分析,并給出保護隱私的詳細(xì)措施。
Dataset Summary
所提出的URUR數(shù)據(jù)集包含3008張來自63個城市的5012×5012大小的UHR圖像。訓(xùn)練、驗證和測試集分別包括2157張、280張和571張UHR圖像,近似比例為7:1:2。所有圖像都用細(xì)粒度的像素級類別進行了詳盡的手動注釋,包括“建筑”、“農(nóng)田”、“溫室”、“林地”、“荒地”、“水”、“道路”和“其他”8類。
Data Collection and Pre-processing
該數(shù)據(jù)集由幾個高質(zhì)量的衛(wèi)星圖像數(shù)據(jù)源收集,供公眾使用。這產(chǎn)生了來自63個城市的數(shù)據(jù),然后我們根據(jù)以下標(biāo)準(zhǔn)在每個城市手動選擇大約20個場景:
低歧義:所選場景中的對象在外觀上不應(yīng)該有太多明顯的語義歧義。
高度多樣性:具有不同類別、實例、時間和天氣的場景在我們的任務(wù)中應(yīng)該更合適、更有意義。
隱私保護:場景中的任何信息都不應(yīng)泄露任何有關(guān)隱私的信息,如個人、店鋪名稱等。
因此,數(shù)據(jù)集在相機視點、照明和場景類型方面有很大的變化。此外,為了增強數(shù)據(jù)集的多樣性和豐富性,為每個場景設(shè)置并收集了多個粒度視角。結(jié)果,我們總共收集了752張大小為10240×10240的圖像,然后將其劃分為3008張大小為5120×5120的圖像。
數(shù)據(jù)標(biāo)注
與自然圖像相比,注釋UHR圖像總是一項更艱巨的工作,因為要標(biāo)記的對象隨著圖像分辨率的增加而呈二次增長。這就是為什么現(xiàn)有的UHR數(shù)據(jù)集通常利用粗粒度注釋或只注釋一個主要類別。相反,我們打算對所提出的URUR數(shù)據(jù)集中的整個類別采用更細(xì)粒度的注釋。圖1顯示了直觀的比較,有關(guān)數(shù)據(jù)集統(tǒng)計的更多細(xì)節(jié)將在第3.4節(jié)中介紹??梢钥闯?,包括DeepGlobe、Inria Aerial和URUR在內(nèi)的UHR數(shù)據(jù)集顯然比Pascal VOC和COCO等自然數(shù)據(jù)集包含更多的對象和實例,而這些對象的規(guī)模也較小。此外,一個或多個類對經(jīng)常在空間上混合在一起,這給在注釋過程中仔細(xì)區(qū)分它們帶來了很大的麻煩。相比之下,URUR還包含比其他UHR數(shù)據(jù)集更多的對象和更豐富的上下文??傊?,注釋細(xì)粒度超高分辨率圖像的主要挑戰(zhàn)和耗時部分不僅反映在過度超高的圖像分辨率導(dǎo)致的待注釋對象數(shù)量上,還反映在尺度急劇變化的對象之間的超豐富的圖像上下文導(dǎo)致的許多鏈問題上。
為了高效準(zhǔn)確地進行標(biāo)注,首先將每個5120×5120的原始UHR圖像均勻地裁剪成1000×1000的多個補丁。我們讓注釋器分別對這些圖像塊進行注釋,然后對它們的結(jié)果進行相應(yīng)的合并,以獲得相對于原始UHR圖像的最終注釋。通過這種方式,我們確保每個注釋器只關(guān)注較小的圖像補丁,這有助于注釋過程并提高注釋結(jié)果的準(zhǔn)確性。
在裁剪過程中,相鄰的面片具有120×1000像素的重疊區(qū)域,以保證注釋結(jié)果的一致性,避免邊界消失。為了進一步節(jié)省人力并加快整個過程,使用早期手動注釋的圖像來訓(xùn)練ISDNet模型,并用于在剩余圖像上生成分割掩模。作為參考,注釋器在我們開發(fā)的注釋工具的幫助下調(diào)整掩碼。
數(shù)據(jù)統(tǒng)計
表1顯示了所提出的URUR數(shù)據(jù)集與現(xiàn)有的幾個主要UHR數(shù)據(jù)集之間的詳細(xì)統(tǒng)計比較,包括DeepGlobe[4]、Inria Aerial[5]、ISIC[5]、ERM-PAIM[37]、UDD[6]和UA Vid[7]。首先,對于最基本的圖像統(tǒng)計,URUR由3008張大小為5120×5120的圖像組成,在圖像數(shù)量和分辨率方面都優(yōu)于所有其他數(shù)據(jù)集。具體來說,除ISIC和DeepGlobe外,其他所有數(shù)據(jù)集的圖像數(shù)量都在200以下。DeepGlobe包含803張圖像,但分辨率僅為2448×2448(5.9M),甚至沒有達到UHR介質(zhì)的最小閾值(8.3M)(如第1節(jié)所示)。
WSDNet
WSDNet:
由深分支D(下分支)和淺分支S(上分支)組成
在S中,使用拉普拉斯金字塔將輸入圖像分解為兩個子帶,然后將其連接并饋送到淺層網(wǎng)絡(luò)中,以提取全尺寸的空間細(xì)節(jié)
在D中,使用兩級離散小波變換(DWT)對輸入圖像進行下采樣,然后將其輸入到深度網(wǎng)絡(luò)中,以獲取高級類別上下文。
接下來,利用兩級反相離散小波變換(IWT)將原始輸入的尺度為1/32的輸出上采樣到1/8。最后,將這兩個分支與多尺度特征融合,并使用基本交叉熵?fù)p失Lseg、輔助損失Laux以及小波平滑損失(WSL)進行優(yōu)化,以在超分辨率頭的幫助下重建原始輸入。點線內(nèi)的模塊在推理過程中被移除。
小波平滑損失函數(shù):
總損失文章來源:http://www.zghlxwxcb.cn/news/detail-491277.html
實驗結(jié)果
文章來源地址http://www.zghlxwxcb.cn/news/detail-491277.html
到了這里,關(guān)于豐富上下文的超高分辨率分割:一種新的基準(zhǔn)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!