摘要: 本貼討論常見的數(shù)據(jù)類型.
1. 基本數(shù)據(jù)元素 (data item) 的類型
基本元素的類型包括: 布爾型、枚舉型、實(shí)型等。
- 布爾型有兩種取值, 如: Yes/No, Pass/Fail.
- 枚舉型有多種取值, 如: 顏色有紅/黃/綠, 形狀有方/圓/梯. 這些值之間一般沒有大小關(guān)系.
- 實(shí)型如: 人的身高, 體重. 簡(jiǎn)便起見整型一般也當(dāng)成實(shí)型, 而不是枚舉型來處理.
2. 常見的數(shù)據(jù)類型
結(jié)構(gòu)化數(shù)據(jù)是指每個(gè)實(shí)例/instance (樣本/sample)用同一組特征/feature (屬性/attribute) 進(jìn)行描述.
例: 每個(gè)就診者的檢測(cè)報(bào)告包括: 性別、年齡、血壓、紅細(xì)胞數(shù)量、血小板數(shù)量共 5 個(gè)特征.
某些機(jī)器學(xué)習(xí)方法 (如決策樹) 處理枚舉型數(shù)據(jù); 有些方法則只處理實(shí)型數(shù)據(jù), 這時(shí)一個(gè)實(shí)例可以表示為一個(gè)向量.
如果數(shù)據(jù)的特征既有枚舉型的, 又有實(shí)型的 (或其它類型), 就可以稱為 異構(gòu)數(shù)據(jù) (heterogeneous data).
知乎: 結(jié)構(gòu)化數(shù)據(jù)
圖像數(shù)據(jù)本身可以用一個(gè)矩陣來表示.
機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺的20大圖像數(shù)據(jù)集
序列數(shù)據(jù)由枚舉型或?qū)嵭徒M成.
它與結(jié)構(gòu)化數(shù)據(jù)的區(qū)別在于: 不可以混用枚舉型與實(shí)型, 長度不是固定的.
例如: 股票價(jià)格數(shù)據(jù), 溫度數(shù)據(jù), 文本數(shù)據(jù) (小說).
知乎: 時(shí)序數(shù)據(jù)
視頻數(shù)據(jù)則是圖像組成的序列數(shù)據(jù).文章來源:http://www.zghlxwxcb.cn/news/detail-456905.html
圖數(shù)據(jù)是指數(shù)據(jù)用結(jié)點(diǎn)和邊表示. 如社交網(wǎng)絡(luò)中, 結(jié)點(diǎn)表示人 (有性別、學(xué)歷等特征), 邊表示人與人之間的關(guān)系 (父女, 朋友等).
知乎: 知識(shí)圖譜文章來源地址http://www.zghlxwxcb.cn/news/detail-456905.html
到了這里,關(guān)于機(jī)器學(xué)習(xí)常識(shí) 2: 數(shù)據(jù)類型的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!