數(shù)據(jù)集在計(jì)算機(jī)科學(xué)和數(shù)據(jù)科學(xué)中發(fā)揮著至關(guān)重要的作用。它們用于訓(xùn)練和評(píng)估機(jī)器學(xué)習(xí)模型,研究和開(kāi)發(fā)新算法,改進(jìn)數(shù)據(jù)質(zhì)量,解決實(shí)際問(wèn)題,推動(dòng)科學(xué)研究,支持?jǐn)?shù)據(jù)可視化,以及決策制定。數(shù)據(jù)集提供了豐富的信息,用于理解和應(yīng)用數(shù)據(jù),從而支持各種應(yīng)用領(lǐng)域,包括醫(yī)療、金融、交通、社交媒體等。正確選擇和處理數(shù)據(jù)集是確保數(shù)據(jù)驅(qū)動(dòng)應(yīng)用成功的關(guān)鍵因素,對(duì)于創(chuàng)新和解決復(fù)雜問(wèn)題至關(guān)重要。因此,數(shù)據(jù)集不僅是技術(shù)發(fā)展的基礎(chǔ),也是推動(dòng)科學(xué)進(jìn)步和社會(huì)決策制定的強(qiáng)大工具。
無(wú)論是圖像識(shí)別,自然語(yǔ)言處理,醫(yī)療保健還是任何其他人工智能領(lǐng)域感興趣,這些數(shù)據(jù)集都是非常重要的,所以本文將整理常用且有效的20個(gè)數(shù)據(jù)集。
MNIST:這是用于圖像識(shí)別任務(wù)的經(jīng)典數(shù)據(jù)集,包含從0到9的手寫(xiě)數(shù)字圖像,可以說(shuō)它是圖像識(shí)別的Hello World
CIFAR-10:另一個(gè)流行的圖像識(shí)別數(shù)據(jù)集CIFAR-10包含10種不同類別的對(duì)象,如飛機(jī)、汽車和動(dòng)物。
ImageNet:最大的圖像識(shí)別數(shù)據(jù)集之一,ImageNet包含超過(guò)22,000個(gè)類別的數(shù)百萬(wàn)標(biāo)記圖像。
COCO:這個(gè)數(shù)據(jù)集通常用于對(duì)象檢測(cè)任務(wù),包含超過(guò)30萬(wàn)張圖像和超過(guò)200萬(wàn)個(gè)對(duì)象實(shí)例,標(biāo)記在80個(gè)類別中。
cityscape:用于自動(dòng)駕駛?cè)蝿?wù)的數(shù)據(jù)集,cityscape包含來(lái)自各個(gè)城市的街道場(chǎng)景,并對(duì)汽車、行人和建筑物等對(duì)象進(jìn)行了像素級(jí)注釋。
Pascal VOC:另一個(gè)流行的對(duì)象檢測(cè)數(shù)據(jù)集Pascal VOC包含來(lái)自現(xiàn)實(shí)世界場(chǎng)景的圖像,這些圖像帶有對(duì)象邊界框和對(duì)象類標(biāo)簽。
WikiText:一個(gè)大規(guī)模的語(yǔ)言建模數(shù)據(jù)集,包含來(lái)自維基百科文章的超過(guò)1億個(gè)令牌。如果將Penn Treebank與WikiText-2進(jìn)行比較,后者的規(guī)模和數(shù)量幾乎是前者的兩倍。相比之下,WikiText -103比其他版本大110倍。
Penn Treebank:一個(gè)廣泛用于自然語(yǔ)言處理任務(wù)的數(shù)據(jù)集,Penn Treebank包含來(lái)自華爾街日?qǐng)?bào)的解析文本。
以下是這兩個(gè)數(shù)據(jù)集的比較:
SNLI:斯坦福自然語(yǔ)言推理數(shù)據(jù)集包含570,000個(gè)標(biāo)記為蘊(yùn)涵,矛盾或中立的句子對(duì)。它支持自然語(yǔ)言推理系統(tǒng),也可以稱為RTE(識(shí)別文本蘊(yùn)涵)。
SQuAD:斯坦福問(wèn)答數(shù)據(jù)集包含維基百科文章中提出的問(wèn)題,以及相應(yīng)的答案文本跨度。
MIMIC-III: MIMIC-III是一個(gè)大型電子健康記錄數(shù)據(jù)集,包含來(lái)自40,000多名患者的各種臨床記錄和診斷數(shù)據(jù)。
Fashion-MNIST: MNIST數(shù)據(jù)集的一個(gè)變體,F(xiàn)ashion-MNIST包含服裝項(xiàng)目的圖像,而不是手寫(xiě)數(shù)字。Fashion-MNIST數(shù)據(jù)集包含Zalando的服裝圖像,其中包括60,000個(gè)訓(xùn)練樣本和10,000個(gè)測(cè)試樣本。
CelebA:包含年齡、性別和面部表情等屬性的名人面部數(shù)據(jù)集。該數(shù)據(jù)集幫助各種應(yīng)用程序驗(yàn)證面部識(shí)別作為其安全系統(tǒng)。本數(shù)據(jù)集的原始數(shù)據(jù)由香港的MMLAB發(fā)布。
Kinetics:一個(gè)人類動(dòng)作識(shí)別的數(shù)據(jù)集,Kinetics包含超過(guò)50,000個(gè)視頻剪輯,其中包括人們進(jìn)行各種動(dòng)作,如散步,跑步和跳舞。每個(gè)視頻剪輯的持續(xù)時(shí)間為10秒,突出顯示了600組人類動(dòng)作。
Open Images:一個(gè)用于對(duì)象檢測(cè)任務(wù)的大規(guī)模數(shù)據(jù)集,Open Images包含數(shù)百萬(wàn)張帶有600多個(gè)對(duì)象類別注釋的圖像。
LJSpeech:一個(gè)用于文本到語(yǔ)音合成的數(shù)據(jù)集,LJSpeech包含131000個(gè)單個(gè)說(shuō)話者朗讀報(bào)紙上句子的短音頻記錄。演講者從7本非虛構(gòu)的書(shū)中摘錄了部分內(nèi)容。
librispeech :一個(gè)用于語(yǔ)音識(shí)別任務(wù)的數(shù)據(jù)集,librispeech 包含了超過(guò)1000小時(shí)的錄音,是LibriVox有聲讀物的一部分,帶有相應(yīng)的轉(zhuǎn)錄本。
AudioSet:一個(gè)音頻事件識(shí)別的數(shù)據(jù)集,AudioSet包含了超過(guò)527類聲音的錄音。這些聲音片段的持續(xù)時(shí)間為10秒。它是通過(guò)使用youtube元數(shù)據(jù)和基于研究的內(nèi)容來(lái)組織的。
NSynth:一個(gè)用于樂(lè)器合成的數(shù)據(jù)集,NSynth包含各種樂(lè)器的錄音,具有相應(yīng)的音高和音色信息。它是由1006種樂(lè)器組合而成的一組曲子,共產(chǎn)生305979首優(yōu)美的曲子。
Chess:用于國(guó)際象棋比賽預(yù)測(cè)的數(shù)據(jù)集,包含來(lái)自數(shù)千場(chǎng)比賽的數(shù)據(jù),其中包含玩家評(píng)級(jí)和棋子移動(dòng)序列等信息。
數(shù)據(jù)集在數(shù)據(jù)科學(xué)和人工智能領(lǐng)域中是不可或缺的工具,它們?yōu)槟P偷挠?xùn)練和評(píng)估、問(wèn)題的解決以及科學(xué)研究提供了基礎(chǔ)數(shù)據(jù)。選擇適當(dāng)?shù)臄?shù)據(jù)集并進(jìn)行有效的數(shù)據(jù)處理和分析是確保數(shù)據(jù)驅(qū)動(dòng)應(yīng)用程序成功的重要一步。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-694052.html
https://avoid.overfit.cn/post/8e58a98d26f04a00811257aebdd3e931文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-694052.html
到了這里,關(guān)于20用于深度學(xué)習(xí)訓(xùn)練和研究的數(shù)據(jù)集的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!