一、缺失值處理
缺失值就是由某些原因?qū)е虏糠謹(jǐn)?shù)據(jù)為空,對(duì)于為空的這部分?jǐn)?shù)據(jù)我們一般有兩種處理方式,一種是刪除,即把含有缺失值的數(shù)據(jù)刪除,另一種是填充,即把確實(shí)的那部分?jǐn)?shù)據(jù)用某個(gè)值代替。
1、缺失值查看
對(duì)缺失值進(jìn)行處理,首先要把缺失值找出來,也就是看哪列有缺失值。
(1)Excel實(shí)現(xiàn)
在Excel中我們先選中一列沒有缺失值的數(shù)據(jù),看一下這一列數(shù)據(jù)共有多少個(gè),然后把其他列的計(jì)數(shù)與這一列進(jìn)行對(duì)比,小于這一列數(shù)據(jù)個(gè)數(shù)的就代表數(shù)據(jù)個(gè)數(shù)的就代表有缺失值,差值就是缺失個(gè)數(shù)。
如果想看整個(gè)數(shù)據(jù)表中每列數(shù)據(jù)的缺失情況,則要挨個(gè)選中每一列去判斷該列是否有缺失值。
如果數(shù)據(jù)不是特別多,可利用定位調(diào)教查找,在定位條件對(duì)話框中選擇空值,單擊確定就會(huì)把所有的空值選中。
(2)Python實(shí)現(xiàn)
在Python中直接調(diào)用info()方法就會(huì)返回每一列的缺失情況。
Python中缺失值一般用NaN表示,還可以用isnull()方法來判斷哪個(gè)值是缺失值,如果是缺失值則返回True,如果不是缺失值則返回False。
2、缺失值刪除
缺失值分為兩種,一種是一行中某個(gè)字段是缺失值;另一種是一行中的字段全部為缺失值,即為一個(gè)空白行。
(1)Excel實(shí)現(xiàn)
在Excel中,這兩種缺失值都可以通過在定位條件對(duì)話框中選擇空值找到。
這樣含有缺失值的部分就會(huì)被選中,包括某個(gè)具體的單元格及一整行,然后單擊鼠標(biāo)右鍵在彈出的刪除對(duì)話框中U型安澤刪除鄭航選項(xiàng),并單擊確定按鈕即可實(shí)現(xiàn)整行的刪除。
(2)Python實(shí)現(xiàn)
在Python中,利用dropna()方法,dropna()方法默認(rèn)刪除含有缺失值的行,也就是只要某一行有缺失值就把這一行刪除。
運(yùn)行dropna()方法以后,刪除含有NaN值的行,返回刪除后的數(shù)據(jù)。
如果想刪除空白行,只要給dropna()方法傳入一個(gè)參數(shù)how = "all"即可,這樣就會(huì)只刪除那些全為空值的行,不全為空值的行就不會(huì)被刪除。
3、缺失值填充
(1)Excel實(shí)現(xiàn)
在Excel中,缺失值的填充和缺失值刪除一樣,利用的也是定位條件,先把缺失值找到,然后在第一個(gè)缺失值的單元格中輸入要填充的值,最常用的就是用0填充,輸入以后按Ctrl+enter 組合鍵就可以對(duì)所有缺失值進(jìn)行填充。
除了用0填充、平均值填充、眾數(shù)填充們還有向前填充、向后填充等方式。
(2)Python實(shí)現(xiàn)
在Python中,利用fillna()方法對(duì)數(shù)據(jù)表中華的所有缺失值進(jìn)行填充,在fillna后面的括號(hào)中輸入要填充的值即可。
在Python中也可以按不同列填充,只要在fillna()方法的括號(hào)中指明列明即可。
二、重復(fù)值處理
重復(fù)數(shù)據(jù)就是同樣的記錄有多條,對(duì)于這樣的數(shù)據(jù)我們一般做刪除處理。
1、Excel實(shí)現(xiàn)
在Excel中依次單擊菜單欄中的數(shù)據(jù)>數(shù)據(jù)工具>刪除重復(fù)值,就可以刪除重復(fù)數(shù)據(jù)了。
Excel的刪除重復(fù)值默認(rèn)針對(duì)所有值進(jìn)行重復(fù)值判斷。
2、Python實(shí)現(xiàn)文章來源:http://www.zghlxwxcb.cn/news/detail-500472.html
在Python中利用drop——duplicates()方法,該方法默認(rèn)對(duì)所有值進(jìn)行重復(fù)值判斷,且默認(rèn)保留第一個(gè)(行)值。也可以只針對(duì)某一列或某幾列進(jìn)行重復(fù)值刪除的判斷,只需要在drop_duplicates()方法中指明要判斷的列名即可。
也可以利用多列去重,只需要把多個(gè)列名以列表的形式傳給參數(shù)subset()即可。
還可以自定義刪除重復(fù)項(xiàng)時(shí)保留哪個(gè),默認(rèn)保留第一個(gè),也可以設(shè)置保留最后一個(gè),或者全部不保留。通過傳入?yún)?shù)keep進(jìn)行設(shè)置,參數(shù)keep默認(rèn)值是first,即保留第一個(gè)值,也可以是last,保留最后一個(gè)值,還可以是FALSE,即把重復(fù)值全部刪除。
三、異常值的檢測(cè)與處理
異常值就是相比正常數(shù)據(jù)而言過高或過低的數(shù)據(jù)。
1、異常值檢測(cè)
要處理異常值首先要檢測(cè),也就是發(fā)現(xiàn)異常值,發(fā)現(xiàn)異常值的方式主要有以下三種。
(1)根據(jù)業(yè)務(wù)經(jīng)驗(yàn)劃定不同指標(biāo)的正常范圍,超過該范圍的值算作異常值。
(2)通過繪制箱形圖,把大于(小于)箱形圖上邊緣(下邊緣)的點(diǎn)成為異常值。
(3)如果數(shù)據(jù)服從正態(tài)分布,則可以利用3σ原則:如果一個(gè)數(shù)值與平均值之間的偏差超過3倍標(biāo)準(zhǔn)差,那么我們就認(rèn)為這個(gè)值是異常值。
2、異常值處理
對(duì)于異常值一般有以下幾種處理方式。
(1)最常用的處理方式就是刪除。
(2)把異常值當(dāng)作缺失值來填充。
(3)把異常值當(dāng)作特殊情況,研究異常值出現(xiàn)的原因。
1、Excel實(shí)現(xiàn)
在Excel中,刪除異常值只要通過篩選把異常值對(duì)應(yīng)的行找出來,然后單擊鼠標(biāo)右鍵選擇刪除行即可。
對(duì)異常值進(jìn)行填充,其實(shí)就是對(duì)異常值進(jìn)行替換,同樣通過篩選功能吧異常值先找出來,然后把這些異常值替換成要填充的值即可。
2、Python實(shí)現(xiàn)
在Python中,刪除異常值用到的方法和Excel中的原理類似,Python中是通過過濾的方法對(duì)異常值進(jìn)行刪除。對(duì)異常值進(jìn)行填充,就是對(duì)異常值進(jìn)行替換,利用replace()方法可以對(duì)特定的值進(jìn)行替換。文章來源地址http://www.zghlxwxcb.cn/news/detail-500472.html
到了這里,關(guān)于十七、數(shù)據(jù)預(yù)處理(一)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!