查看原文:【數(shù)據(jù)seminar】https://mp.weixin.qq.com/s/oWW3qdMxkzqqdwLUovK39g
Part? 1
在回答這個(gè)問題之前,先講講數(shù)據(jù)的分類。通常我們所用的數(shù)據(jù)中,可以分為兩類,一類是結(jié)構(gòu)化數(shù)據(jù)(Structured Data),另一類是非結(jié)構(gòu)化數(shù)據(jù)(Unstructured Data)。
-
結(jié)構(gòu)化數(shù)據(jù):信息能夠用數(shù)據(jù)或統(tǒng)一的結(jié)構(gòu)加以表示(通??梢允褂藐P(guān)系型數(shù)據(jù)庫(kù)表示和存儲(chǔ),表現(xiàn)為二維形式的數(shù)據(jù)),稱之為結(jié)構(gòu)化數(shù)據(jù),如存儲(chǔ)在excel里的數(shù)據(jù)。
圖源吳恩達(dá)老師deeplearning課程slides
-
非結(jié)構(gòu)化數(shù)據(jù):信息無法用數(shù)字或統(tǒng)一的結(jié)構(gòu)表示,稱之為非結(jié)構(gòu)化數(shù)據(jù)。包括所有格式的辦公文檔、文本、圖片、圖像和音頻/視頻信息等等。
圖源吳恩達(dá)老師deeplearning課程slides
此外,還有介于結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)之間的半結(jié)構(gòu)化數(shù)據(jù)(Semi-Structured Data)。其介于完全結(jié)構(gòu)化數(shù)據(jù)(如關(guān)系型數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)中的數(shù)據(jù))和完全無結(jié)構(gòu)的數(shù)據(jù)(如聲音、圖像文件等)之間的數(shù)據(jù)。通常數(shù)據(jù)具有結(jié)構(gòu),但卻不方便模式化。典型的半結(jié)構(gòu)化數(shù)據(jù)為包括日志文件、XML文檔、JSON文檔、Email等。
Part? 2
廣義上的數(shù)據(jù)清洗是指對(duì)數(shù)據(jù)的全流程操作,具體包括數(shù)據(jù)抓取、提取、收集、篩選、增加、刪除、修改、重組等一系列對(duì)數(shù)據(jù)的操作。
狹義上的數(shù)據(jù)清洗,是指將無效、錯(cuò)誤的數(shù)據(jù)剔除掉,留下干凈的數(shù)據(jù)的過程,涉及到對(duì)原有數(shù)據(jù)的刪除、添加、分解、重組等內(nèi)容。即去除冗余、消除噪音和錯(cuò)誤及不一致的過程。
大數(shù)據(jù)時(shí)代,產(chǎn)生的數(shù)據(jù)多以非結(jié)構(gòu)化數(shù)據(jù)為主,由于非結(jié)構(gòu)化數(shù)據(jù)并不能直接為研究所用,因此多數(shù)情況下,需要將非結(jié)構(gòu)結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù),而在這個(gè)過程中,就存在必要的數(shù)據(jù)清洗,將其轉(zhuǎn)化成符合研究的數(shù)據(jù)格式。一個(gè)典型的案例就是在股票網(wǎng)站的新聞評(píng)論中提取語氣詞用以分析投資者情緒(沈艷、覃飛、陳赟,2020)。
數(shù)據(jù)清洗十分重要,大多數(shù)學(xué)者及學(xué)生都有這樣的經(jīng)歷,在實(shí)證研究中,往往是搜集數(shù)據(jù)和數(shù)據(jù)清洗的過程中會(huì)花費(fèi)大量時(shí)間,在真正寫作的過程中反而花的時(shí)間更少。《紐約時(shí)報(bào)》更是直言數(shù)據(jù)清洗是看門人工作,數(shù)據(jù)科學(xué)家百分之八十的時(shí)間都花費(fèi)在了這些清洗任務(wù)上。
大到整個(gè)信息海洋,小到一份簡(jiǎn)單的財(cái)務(wù)報(bào)表信息,不同的研究領(lǐng)域,不同的研究方法都需要過濾掉無效信息數(shù)據(jù)后,才能利用剩余有效信息進(jìn)行更符合主題的研究。在當(dāng)今信息泛濫的時(shí)代,這種現(xiàn)象更是尤其突出。
數(shù)據(jù)清洗的重要性還體現(xiàn)在它直接影響了最終的研究結(jié)果。沒有前期的數(shù)據(jù)清洗,后續(xù)的分析、建模等步驟將無從下手,即使強(qiáng)行進(jìn)行,得到的結(jié)果也不一定準(zhǔn)確。
Part? 3
既然數(shù)據(jù)清洗如此重要,那么我們到底要對(duì)數(shù)據(jù)進(jìn)行什么操作呢?
下圖相信可以給大家一個(gè)較為清晰的印象。盡管具體的操作步驟在不同的數(shù)據(jù)源上有所差異,但大致思路總體不變,包含了數(shù)據(jù)格式、異常值、缺失值、邏輯關(guān)系等方面的清洗。
Part? 4
既然數(shù)據(jù)清洗這么麻煩,所以如果有那種直接統(tǒng)計(jì)好的、格式標(biāo)準(zhǔn)化的數(shù)據(jù),那么對(duì)學(xué)者而言實(shí)在是一個(gè)好消息。這不僅可以讓學(xué)者使用更加規(guī)范的數(shù)據(jù),還能節(jié)約學(xué)者花在數(shù)據(jù)清洗上的時(shí)間使得“好鋼用在刀刃上”,有更多的精力投入科研創(chuàng)作。
此前,由企研數(shù)據(jù)團(tuán)隊(duì)重點(diǎn)打造的CCAD數(shù)據(jù)庫(kù)就為用戶推出了第一批清洗成果,希望能為學(xué)者科研之路掃清數(shù)據(jù)清洗方面的障礙。(傳送門:CCAD | 第一批數(shù)據(jù)清洗成果及代碼正式公開)。
當(dāng)然,這還遠(yuǎn)遠(yuǎn)不夠。行政大數(shù)據(jù)以及從互聯(lián)網(wǎng)抓取的數(shù)據(jù)都充滿了不少臟數(shù)據(jù),若要將其應(yīng)用到科研領(lǐng)域,大量的清洗工作不可避免。
由于大數(shù)據(jù)的清洗工作難度遠(yuǎn)超一般微觀數(shù)據(jù),動(dòng)輒幾千萬甚至上億條的數(shù)據(jù)量對(duì)于普通學(xué)者而言,既耗時(shí)又費(fèi)力還不討好。
于是,我們推出了企研·學(xué)術(shù)大數(shù)據(jù)平臺(tái),希望為科研、智庫(kù)領(lǐng)域的學(xué)者提供一份力所能及的幫助。在數(shù)據(jù)清洗方面,請(qǐng)放心,我們是專業(yè)的!
企研·學(xué)術(shù)大數(shù)據(jù)平臺(tái)由國(guó)家高新技術(shù)企業(yè)、專業(yè)為中國(guó)經(jīng)濟(jì)社會(huì)領(lǐng)域?qū)W術(shù)和智庫(kù)研究提供大數(shù)據(jù)及相關(guān)配套服務(wù)的企研數(shù)據(jù)科技(杭州)有限公司負(fù)責(zé)開發(fā)。該大數(shù)據(jù)平臺(tái)圍繞重點(diǎn)學(xué)科領(lǐng)域或熱點(diǎn)研究專題構(gòu)建微觀數(shù)據(jù)和統(tǒng)計(jì)數(shù)據(jù)、行政數(shù)據(jù)和行業(yè)數(shù)據(jù),以及原始數(shù)據(jù)與構(gòu)建變量相結(jié)合的專題數(shù)據(jù)庫(kù),為從事學(xué)術(shù)和智庫(kù)研究的學(xué)者提供可靠、干凈和持續(xù)更新的專題數(shù)據(jù)產(chǎn)品。
目前,該平臺(tái)主要涵蓋了CCAD、TFID兩大專題數(shù)據(jù)庫(kù)的統(tǒng)計(jì)數(shù)據(jù)以及其他公共數(shù)據(jù)資源,通過簡(jiǎn)單的篩選就可獲得統(tǒng)計(jì)數(shù)據(jù)。
截圖自企研學(xué)術(shù)大數(shù)據(jù)平臺(tái)
截圖自企研學(xué)術(shù)大數(shù)據(jù)平臺(tái)
由于目前該平臺(tái)還在施工中,更為詳細(xì)的網(wǎng)站信息、操作方法以及試用/購(gòu)買方式請(qǐng)繼續(xù)關(guān)注我們,我們將在后續(xù)為您帶來解讀。文章來源:http://www.zghlxwxcb.cn/news/detail-477404.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-477404.html
到了這里,關(guān)于數(shù)據(jù)資源 | 為什么要做數(shù)據(jù)清洗?的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!