国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

數(shù)據(jù)資源 | 為什么要做數(shù)據(jù)清洗?

這篇具有很好參考價(jià)值的文章主要介紹了數(shù)據(jù)資源 | 為什么要做數(shù)據(jù)清洗?。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

數(shù)據(jù)資源 | 為什么要做數(shù)據(jù)清洗?

查看原文:【數(shù)據(jù)seminar】https://mp.weixin.qq.com/s/oWW3qdMxkzqqdwLUovK39g

Part? 1

在回答這個(gè)問題之前,先講講數(shù)據(jù)的分類。通常我們所用的數(shù)據(jù)中,可以分為兩類,一類是結(jié)構(gòu)化數(shù)據(jù)(Structured Data),另一類是非結(jié)構(gòu)化數(shù)據(jù)(Unstructured Data)。

  • 結(jié)構(gòu)化數(shù)據(jù):信息能夠用數(shù)據(jù)或統(tǒng)一的結(jié)構(gòu)加以表示(通??梢允褂藐P(guān)系型數(shù)據(jù)庫(kù)表示和存儲(chǔ),表現(xiàn)為二維形式的數(shù)據(jù)),稱之為結(jié)構(gòu)化數(shù)據(jù),如存儲(chǔ)在excel里的數(shù)據(jù)。

數(shù)據(jù)資源 | 為什么要做數(shù)據(jù)清洗?

圖源吳恩達(dá)老師deeplearning課程slides

  • 非結(jié)構(gòu)化數(shù)據(jù):信息無法用數(shù)字或統(tǒng)一的結(jié)構(gòu)表示,稱之為非結(jié)構(gòu)化數(shù)據(jù)。包括所有格式的辦公文檔、文本、圖片、圖像和音頻/視頻信息等等。

數(shù)據(jù)資源 | 為什么要做數(shù)據(jù)清洗?

圖源吳恩達(dá)老師deeplearning課程slides

此外,還有介于結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)之間的半結(jié)構(gòu)化數(shù)據(jù)(Semi-Structured Data)。其介于完全結(jié)構(gòu)化數(shù)據(jù)(如關(guān)系型數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)中的數(shù)據(jù))和完全無結(jié)構(gòu)的數(shù)據(jù)(如聲音、圖像文件等)之間的數(shù)據(jù)。通常數(shù)據(jù)具有結(jié)構(gòu),但卻不方便模式化。典型的半結(jié)構(gòu)化數(shù)據(jù)為包括日志文件、XML文檔、JSON文檔、Email等。

Part? 2

廣義上的數(shù)據(jù)清洗是指對(duì)數(shù)據(jù)的全流程操作,具體包括數(shù)據(jù)抓取、提取、收集、篩選、增加、刪除、修改、重組等一系列對(duì)數(shù)據(jù)的操作。

狹義上的數(shù)據(jù)清洗,是指將無效、錯(cuò)誤的數(shù)據(jù)剔除掉,留下干凈的數(shù)據(jù)的過程,涉及到對(duì)原有數(shù)據(jù)的刪除、添加、分解、重組等內(nèi)容。即去除冗余、消除噪音和錯(cuò)誤及不一致的過程。

大數(shù)據(jù)時(shí)代,產(chǎn)生的數(shù)據(jù)多以非結(jié)構(gòu)化數(shù)據(jù)為主,由于非結(jié)構(gòu)化數(shù)據(jù)并不能直接為研究所用,因此多數(shù)情況下,需要將非結(jié)構(gòu)結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù),而在這個(gè)過程中,就存在必要的數(shù)據(jù)清洗,將其轉(zhuǎn)化成符合研究的數(shù)據(jù)格式。一個(gè)典型的案例就是在股票網(wǎng)站的新聞評(píng)論中提取語氣詞用以分析投資者情緒(沈艷、覃飛、陳赟,2020)。

數(shù)據(jù)清洗十分重要,大多數(shù)學(xué)者及學(xué)生都有這樣的經(jīng)歷,在實(shí)證研究中,往往是搜集數(shù)據(jù)和數(shù)據(jù)清洗的過程中會(huì)花費(fèi)大量時(shí)間,在真正寫作的過程中反而花的時(shí)間更少。《紐約時(shí)報(bào)》更是直言數(shù)據(jù)清洗是看門人工作,數(shù)據(jù)科學(xué)家百分之八十的時(shí)間都花費(fèi)在了這些清洗任務(wù)上。

大到整個(gè)信息海洋,小到一份簡(jiǎn)單的財(cái)務(wù)報(bào)表信息,不同的研究領(lǐng)域,不同的研究方法都需要過濾掉無效信息數(shù)據(jù)后,才能利用剩余有效信息進(jìn)行更符合主題的研究。在當(dāng)今信息泛濫的時(shí)代,這種現(xiàn)象更是尤其突出。

數(shù)據(jù)清洗的重要性還體現(xiàn)在它直接影響了最終的研究結(jié)果。沒有前期的數(shù)據(jù)清洗,后續(xù)的分析、建模等步驟將無從下手,即使強(qiáng)行進(jìn)行,得到的結(jié)果也不一定準(zhǔn)確。

Part? 3

既然數(shù)據(jù)清洗如此重要,那么我們到底要對(duì)數(shù)據(jù)進(jìn)行什么操作呢?

下圖相信可以給大家一個(gè)較為清晰的印象。盡管具體的操作步驟在不同的數(shù)據(jù)源上有所差異,但大致思路總體不變,包含了數(shù)據(jù)格式、異常值、缺失值、邏輯關(guān)系等方面的清洗。

數(shù)據(jù)資源 | 為什么要做數(shù)據(jù)清洗?

Part? 4

既然數(shù)據(jù)清洗這么麻煩,所以如果有那種直接統(tǒng)計(jì)好的、格式標(biāo)準(zhǔn)化的數(shù)據(jù),那么對(duì)學(xué)者而言實(shí)在是一個(gè)好消息。這不僅可以讓學(xué)者使用更加規(guī)范的數(shù)據(jù),還能節(jié)約學(xué)者花在數(shù)據(jù)清洗上的時(shí)間使得“好鋼用在刀刃上”,有更多的精力投入科研創(chuàng)作。

此前,由企研數(shù)據(jù)團(tuán)隊(duì)重點(diǎn)打造的CCAD數(shù)據(jù)庫(kù)就為用戶推出了第一批清洗成果,希望能為學(xué)者科研之路掃清數(shù)據(jù)清洗方面的障礙。(傳送門:CCAD | 第一批數(shù)據(jù)清洗成果及代碼正式公開)。

當(dāng)然,這還遠(yuǎn)遠(yuǎn)不夠。行政大數(shù)據(jù)以及從互聯(lián)網(wǎng)抓取的數(shù)據(jù)都充滿了不少臟數(shù)據(jù),若要將其應(yīng)用到科研領(lǐng)域,大量的清洗工作不可避免。

由于大數(shù)據(jù)的清洗工作難度遠(yuǎn)超一般微觀數(shù)據(jù),動(dòng)輒幾千萬甚至上億條的數(shù)據(jù)量對(duì)于普通學(xué)者而言,既耗時(shí)又費(fèi)力還不討好。

于是,我們推出了企研·學(xué)術(shù)大數(shù)據(jù)平臺(tái),希望為科研、智庫(kù)領(lǐng)域的學(xué)者提供一份力所能及的幫助。在數(shù)據(jù)清洗方面,請(qǐng)放心,我們是專業(yè)的!

企研·學(xué)術(shù)大數(shù)據(jù)平臺(tái)由國(guó)家高新技術(shù)企業(yè)、專業(yè)為中國(guó)經(jīng)濟(jì)社會(huì)領(lǐng)域?qū)W術(shù)和智庫(kù)研究提供大數(shù)據(jù)及相關(guān)配套服務(wù)的企研數(shù)據(jù)科技(杭州)有限公司負(fù)責(zé)開發(fā)。該大數(shù)據(jù)平臺(tái)圍繞重點(diǎn)學(xué)科領(lǐng)域或熱點(diǎn)研究專題構(gòu)建微觀數(shù)據(jù)和統(tǒng)計(jì)數(shù)據(jù)、行政數(shù)據(jù)和行業(yè)數(shù)據(jù),以及原始數(shù)據(jù)與構(gòu)建變量相結(jié)合的專題數(shù)據(jù)庫(kù),為從事學(xué)術(shù)和智庫(kù)研究的學(xué)者提供可靠、干凈和持續(xù)更新的專題數(shù)據(jù)產(chǎn)品。

目前,該平臺(tái)主要涵蓋了CCAD、TFID兩大專題數(shù)據(jù)庫(kù)的統(tǒng)計(jì)數(shù)據(jù)以及其他公共數(shù)據(jù)資源,通過簡(jiǎn)單的篩選就可獲得統(tǒng)計(jì)數(shù)據(jù)。

數(shù)據(jù)資源 | 為什么要做數(shù)據(jù)清洗?

截圖自企研學(xué)術(shù)大數(shù)據(jù)平臺(tái)

數(shù)據(jù)資源 | 為什么要做數(shù)據(jù)清洗?

截圖自企研學(xué)術(shù)大數(shù)據(jù)平臺(tái)

由于目前該平臺(tái)還在施工中,更為詳細(xì)的網(wǎng)站信息、操作方法以及試用/購(gòu)買方式請(qǐng)繼續(xù)關(guān)注我們,我們將在后續(xù)為您帶來解讀。

數(shù)據(jù)資源 | 為什么要做數(shù)據(jù)清洗?文章來源地址http://www.zghlxwxcb.cn/news/detail-477404.html

到了這里,關(guān)于數(shù)據(jù)資源 | 為什么要做數(shù)據(jù)清洗?的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包