一、大數(shù)據(jù)的4v特征
大數(shù)據(jù)的4v特征主要包含規(guī)模性(Volume)、多樣性(Variety)、高速性(Velocity)、價(jià)值性(Value)
1、規(guī)模性(Volume)
大數(shù)據(jù)中的數(shù)據(jù)計(jì)量單位是PB(1千個(gè)T)、EB(1百萬(wàn)個(gè)T)或ZB(10億個(gè)T)。
2、多樣性(Variety)
多樣性主要體現(xiàn)在數(shù)據(jù)來(lái)源多、數(shù)據(jù)類型多和數(shù)據(jù)之間關(guān)聯(lián)性強(qiáng)這三個(gè)方面。
①數(shù)據(jù)來(lái)源多,互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,帶來(lái)了諸如社交網(wǎng)站、傳感器等多種來(lái)源的數(shù)據(jù)。 而由于數(shù)據(jù)來(lái)源于不同的應(yīng)用系統(tǒng)和不同的設(shè)備,決定了大數(shù)據(jù)形式的多樣性。
②數(shù)據(jù)類型多,并且以非結(jié)構(gòu)化數(shù)據(jù)為主。大數(shù)據(jù)中有70%-85%的數(shù)據(jù)是如圖片、音頻、視頻、網(wǎng)絡(luò)日志、鏈接信息等非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)。
③數(shù)據(jù)之間關(guān)聯(lián)性強(qiáng),頻繁交互,如游客在旅游途中上傳的照片和日志,就與游客的位置、行程等信息有很強(qiáng)的關(guān)聯(lián)性。
3、高速性(Velocity)
大數(shù)據(jù)對(duì)處理數(shù)據(jù)的響應(yīng)速度有更嚴(yán)格的要求。實(shí)時(shí)分析而非批量分析,數(shù)據(jù)輸入、處理與丟棄立刻見(jiàn)效,幾乎無(wú)延遲。數(shù)據(jù)的增長(zhǎng)速度和處理速度是大數(shù)據(jù)高速性的重要體現(xiàn)。
4、價(jià)值性(Value)
大數(shù)據(jù)背后潛藏的價(jià)值巨大。由于大數(shù)據(jù)中有價(jià)值的數(shù)據(jù)所占比例很小,而大數(shù)據(jù)真正的價(jià)值體現(xiàn)在從大量不相關(guān)的各種類型的數(shù)據(jù)中。挖掘出對(duì)未來(lái)趨勢(shì)與模式預(yù)測(cè)分析有價(jià)值的數(shù)據(jù),并通過(guò)機(jī)器學(xué)習(xí)方法、人工智能方法或數(shù)據(jù)挖掘方法深度分析,并運(yùn)用于農(nóng)業(yè)、金融、醫(yī)療等各個(gè)領(lǐng)域,以期創(chuàng)造更大的價(jià)值。 ? ? ?
5、大數(shù)據(jù)應(yīng)用實(shí)例? ?
互聯(lián)網(wǎng)是最早利用大數(shù)據(jù)進(jìn)行精準(zhǔn)營(yíng)銷的行業(yè),通過(guò)大數(shù)據(jù)不僅可以為企業(yè)進(jìn)行精準(zhǔn)銷,還可以快速友好地對(duì)用戶實(shí)施個(gè)性化解決方案。 ? ? ? ? ?
醫(yī)療行業(yè)擁有大量的病例、病理報(bào)告、治愈方案、藥物報(bào)告等。如果這些數(shù)據(jù)可以被整理和應(yīng)用將會(huì)極大地幫助醫(yī)生和病人。
二、數(shù)據(jù)預(yù)處理的主要內(nèi)容
數(shù)據(jù)預(yù)處理主要包含數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約。
1、數(shù)據(jù)清洗:刪除原始數(shù)據(jù)集中無(wú)關(guān)數(shù)據(jù)、重復(fù)數(shù)據(jù)、平滑噪聲數(shù)據(jù),處理缺失值、異常值等。
2、數(shù)據(jù)集成:將多個(gè)數(shù)據(jù)源合并存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中的過(guò)程。在數(shù)據(jù)集成時(shí),來(lái)自多個(gè)數(shù)據(jù)源的現(xiàn)實(shí)世界實(shí)體的表達(dá)形式是不一樣的,有可能不匹配,要考慮實(shí)體識(shí)別問(wèn)題和屬性冗余問(wèn)題,從而將源數(shù)據(jù)在最低層上加以轉(zhuǎn)換、提煉和集成。
3、數(shù)據(jù)變換:?主要是對(duì)數(shù)據(jù)進(jìn)行規(guī)范化處理,將數(shù)據(jù)轉(zhuǎn)換成適當(dāng)?shù)男问?,以適用于挖掘任務(wù)以及算法的需要。
?4、數(shù)據(jù)歸約:在大數(shù)據(jù)集上進(jìn)行復(fù)雜的數(shù)據(jù)分析和挖掘需要很長(zhǎng)時(shí)間。數(shù)據(jù)規(guī)約產(chǎn)生更小但保持原數(shù)據(jù)完整性的新數(shù)據(jù)集。
文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-469675.html
以上簡(jiǎn)要介紹數(shù)據(jù)預(yù)處理中包含的內(nèi)容,僅為自己學(xué)習(xí)需要,僅供參考。?文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-469675.html
到了這里,關(guān)于大數(shù)據(jù)的4v特征、數(shù)據(jù)預(yù)處理的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!