一、前言
2019 年 4 月,在北京舉行的智源學(xué)者計(jì)劃啟動(dòng)暨聯(lián)合實(shí)驗(yàn)室發(fā)布會(huì)上,北京曠視科技有限公司與北京智源人工智能研究院共同發(fā)布了全球最大的目標(biāo)檢測(cè)數(shù)據(jù)集 : Objects365。
該數(shù)據(jù)集總共包含63萬張圖像,覆蓋365個(gè)類別,高達(dá)1000萬框數(shù),具有規(guī)模大、質(zhì)量高、泛化能力強(qiáng)的特點(diǎn),遠(yuǎn)超Pascal VOC、COCO等傳統(tǒng)數(shù)據(jù)集。
關(guān)于Objects365的論文在兩年一度的計(jì)算機(jī)視覺頂會(huì) ICCV 2019 中發(fā)表,同時(shí)在不久前結(jié)束的谷歌目標(biāo)檢測(cè)賽 Open Images Challenge 2019 – Object Detection Track 中排名前三的隊(duì)伍都使用了 Objects365 作為額外數(shù)據(jù)集并取得 mAP 平均提升 2 至 3 個(gè)百分點(diǎn)。
Objects365是一個(gè)廣泛用于目標(biāo)檢測(cè)和場(chǎng)景理解的大規(guī)模圖像數(shù)據(jù)集。該數(shù)據(jù)集旨在提供豐富的視覺場(chǎng)景和多樣的目標(biāo)類別,以促進(jìn)計(jì)算機(jī)視覺研究和算法的發(fā)展。
以下是Objects365數(shù)據(jù)集的主要特點(diǎn)和介紹:
- 視覺場(chǎng)景多樣性:Objects365數(shù)據(jù)集包含了豐富多樣的視覺場(chǎng)景,涵蓋了室內(nèi)和室外、城市和鄉(xiāng)村、自然和人工等多種不同環(huán)境。這使得研究者可以在更廣泛的場(chǎng)景下進(jìn)行目標(biāo)檢測(cè)和場(chǎng)景理解的研究。
- 目標(biāo)類別豐富性:數(shù)據(jù)集中包含了超過365個(gè)不同的目標(biāo)類別,涵蓋了人類、動(dòng)物、交通工具、家具、食物等廣泛的物體類別。這使得研究者可以探索更多種類的目標(biāo)檢測(cè)問題,并進(jìn)行更全面的場(chǎng)景理解研究。
- 大規(guī)模數(shù)據(jù)集:Objects365數(shù)據(jù)集包含了超過200萬個(gè)標(biāo)注的圖像樣本,以及每個(gè)樣本中目標(biāo)的位置和類別標(biāo)簽。這樣的大規(guī)模數(shù)據(jù)集可以支持大規(guī)模訓(xùn)練和深度學(xué)習(xí)算法的發(fā)展。
- 多標(biāo)簽和多實(shí)例標(biāo)注:每個(gè)圖像樣本在標(biāo)注時(shí)可以包含多個(gè)目標(biāo)實(shí)例,并且每個(gè)目標(biāo)實(shí)例可以具有多個(gè)類別標(biāo)簽。這種多標(biāo)簽和多實(shí)例標(biāo)注的方式更貼近真實(shí)世界的情況,并提供了更復(fù)雜的目標(biāo)檢測(cè)和場(chǎng)景理解任務(wù)。
- 挑戰(zhàn)性和變化性:Objects365數(shù)據(jù)集中的圖像具有不同的拍攝條件、視角、光照和遮擋等變化因素。這使得數(shù)據(jù)集更具挑戰(zhàn)性,可以用于評(píng)估和比較不同算法在復(fù)雜場(chǎng)景下的性能表現(xiàn)。
Objects365數(shù)據(jù)集可以用于目標(biāo)檢測(cè)、目標(biāo)跟蹤、場(chǎng)景理解、圖像分割等計(jì)算機(jī)視覺任務(wù)的研究和評(píng)估。它為研究者提供了一個(gè)全面且多樣化的數(shù)據(jù)集,促進(jìn)了計(jì)算機(jī)視覺算法在實(shí)際場(chǎng)景中的應(yīng)用和發(fā)展。
二、數(shù)據(jù)集的規(guī)模
數(shù)據(jù)集包括人、衣物、居室、浴室、廚房、辦公、電器、交通、食物、水果、蔬菜、動(dòng)物、運(yùn)動(dòng)、樂器14個(gè)大類,平均每一類有大約26個(gè)小類。
Objects365與其他數(shù)據(jù)集的比較:
如上圖所示,比起COCO數(shù)據(jù)集,Objects365 具有 5 倍的圖像數(shù)量、4 倍的類別數(shù)量、以及 10 倍以上標(biāo)注框數(shù)量。
在數(shù)量上,唯一規(guī)模超過 Objects365 的 OpenImages 數(shù)據(jù)集具有標(biāo)注精度不高及覆蓋不全等明顯缺點(diǎn) (partially annotated),這對(duì)模型訓(xùn)練會(huì)帶來嚴(yán)重影響。
比起 OpenImages,Objects365 具有每張圖中所有物體都被標(biāo)注的優(yōu)勢(shì),這在 Boxes / img這列 (15.8 vs. 9.8) 得到體現(xiàn):在類別數(shù)少 (365 vs. 500) 的情況下達(dá)到平均每張圖包含 1.6 倍的標(biāo)注框。
三、數(shù)據(jù)集的質(zhì)量
如圖所示,即便只考慮 Objects365 在 COCO 和 VOC 數(shù)據(jù)集中的 80 類和 20 類,在每張圖像平均框數(shù)和類別數(shù)這兩項(xiàng)指標(biāo)上,Objects365 依然優(yōu)于 COCO 和 VOC。
標(biāo)注過程中減少了漏標(biāo),平均標(biāo)注區(qū)域占比也超過 COCO 和 VOC。
物都有精準(zhǔn)的標(biāo)注框。
四、泛化能力
比起上述兩項(xiàng),鑒定一個(gè)數(shù)據(jù)集質(zhì)量很重要的一項(xiàng)指標(biāo)便是其泛化能力。
預(yù)訓(xùn)練數(shù)據(jù)集與 ImageNet 的比較
如圖所示,比起傳統(tǒng)預(yù)訓(xùn)練數(shù)據(jù)集 ImageNet,使用 Objects365 預(yù)訓(xùn)練可達(dá)到在訓(xùn)練時(shí)間縮短至六分之一 (90K 次迭代 vs. 540K 次迭代) 的情況下 mMAP 提升 2.7 個(gè)百分點(diǎn)(檢測(cè)模型使用ResNet50 + FPN 作為 Backbone 的 Faster RCNN)。
另外,在其他計(jì)算機(jī)視覺任務(wù),如行人檢測(cè)、語義/場(chǎng)景分割等,中使用 Objects365 作為預(yù)訓(xùn)練數(shù)據(jù)集都可達(dá)到速度與精度的明顯提升,詳情可參照論文。
五、結(jié)語
隨著近年來計(jì)算機(jī)視覺技術(shù)的飛速發(fā)展,算法對(duì)數(shù)據(jù)的要求也越來越高。不論是目標(biāo)檢測(cè)或語義分割等傳統(tǒng)任務(wù),又或是目標(biāo)關(guān)系等新推出或還未推出的新任務(wù),現(xiàn)有的數(shù)據(jù)集顯然不能滿足需求。文章來源:http://www.zghlxwxcb.cn/news/detail-451704.html
相對(duì)于算法,優(yōu)質(zhì)數(shù)據(jù)集往往能對(duì)模型效果帶來更大的提升,無論是數(shù)據(jù)規(guī)模又或是標(biāo)注質(zhì)量,Objects365 都為計(jì)算機(jī)視覺技術(shù)樹立了新的里程碑。文章來源地址http://www.zghlxwxcb.cn/news/detail-451704.html
到了這里,關(guān)于【計(jì)算機(jī)視覺 | 目標(biāo)檢測(cè)】Objects365 :最新大規(guī)模高質(zhì)量目標(biāo)檢測(cè)數(shù)據(jù)集的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!