国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<ruby id="r78hw"></ruby>

十七、數(shù)據(jù)預(yù)處理（一）

2年前作者：zikn_92分類：Toy博客閱讀(29)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了十七、數(shù)據(jù)預(yù)處理（一）。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

一、缺失值處理

缺失值就是由某些原因?qū)е虏糠謹(jǐn)?shù)據(jù)為空，對(duì)于為空的這部分?jǐn)?shù)據(jù)我們一般有兩種處理方式，一種是刪除，即把含有缺失值的數(shù)據(jù)刪除，另一種是填充，即把確實(shí)的那部分?jǐn)?shù)據(jù)用某個(gè)值代替。

1、缺失值查看

對(duì)缺失值進(jìn)行處理，首先要把缺失值找出來，也就是看哪列有缺失值。

（1）Excel實(shí)現(xiàn)

在Excel中我們先選中一列沒有缺失值的數(shù)據(jù)，看一下這一列數(shù)據(jù)共有多少個(gè)，然后把其他列的計(jì)數(shù)與這一列進(jìn)行對(duì)比，小于這一列數(shù)據(jù)個(gè)數(shù)的就代表數(shù)據(jù)個(gè)數(shù)的就代表有缺失值，差值就是缺失個(gè)數(shù)。

如果想看整個(gè)數(shù)據(jù)表中每列數(shù)據(jù)的缺失情況，則要挨個(gè)選中每一列去判斷該列是否有缺失值。

如果數(shù)據(jù)不是特別多，可利用定位調(diào)教查找，在定位條件對(duì)話框中選擇空值，單擊確定就會(huì)把所有的空值選中。

（2）Python實(shí)現(xiàn)

在Python中直接調(diào)用info()方法就會(huì)返回每一列的缺失情況。

Python中缺失值一般用NaN表示，還可以用isnull()方法來判斷哪個(gè)值是缺失值，如果是缺失值則返回True，如果不是缺失值則返回False。

2、缺失值刪除

缺失值分為兩種，一種是一行中某個(gè)字段是缺失值；另一種是一行中的字段全部為缺失值，即為一個(gè)空白行。

（1）Excel實(shí)現(xiàn)

在Excel中，這兩種缺失值都可以通過在定位條件對(duì)話框中選擇空值找到。

這樣含有缺失值的部分就會(huì)被選中，包括某個(gè)具體的單元格及一整行，然后單擊鼠標(biāo)右鍵在彈出的刪除對(duì)話框中U型安澤刪除鄭航選項(xiàng)，并單擊確定按鈕即可實(shí)現(xiàn)整行的刪除。

（2）Python實(shí)現(xiàn)

在Python中，利用dropna()方法，dropna()方法默認(rèn)刪除含有缺失值的行，也就是只要某一行有缺失值就把這一行刪除。

運(yùn)行dropna()方法以后，刪除含有NaN值的行，返回刪除后的數(shù)據(jù)。

如果想刪除空白行，只要給dropna()方法傳入一個(gè)參數(shù)how = "all"即可，這樣就會(huì)只刪除那些全為空值的行，不全為空值的行就不會(huì)被刪除。

3、缺失值填充

（1）Excel實(shí)現(xiàn)

在Excel中，缺失值的填充和缺失值刪除一樣，利用的也是定位條件，先把缺失值找到，然后在第一個(gè)缺失值的單元格中輸入要填充的值，最常用的就是用0填充，輸入以后按Ctrl+enter 組合鍵就可以對(duì)所有缺失值進(jìn)行填充。

除了用0填充、平均值填充、眾數(shù)填充們還有向前填充、向后填充等方式。

（2）Python實(shí)現(xiàn)

在Python中，利用fillna()方法對(duì)數(shù)據(jù)表中華的所有缺失值進(jìn)行填充，在fillna后面的括號(hào)中輸入要填充的值即可。

在Python中也可以按不同列填充，只要在fillna()方法的括號(hào)中指明列明即可。

二、重復(fù)值處理

重復(fù)數(shù)據(jù)就是同樣的記錄有多條，對(duì)于這樣的數(shù)據(jù)我們一般做刪除處理。

1、Excel實(shí)現(xiàn)

在Excel中依次單擊菜單欄中的數(shù)據(jù)>數(shù)據(jù)工具>刪除重復(fù)值，就可以刪除重復(fù)數(shù)據(jù)了。

Excel的刪除重復(fù)值默認(rèn)針對(duì)所有值進(jìn)行重復(fù)值判斷。

2、Python實(shí)現(xiàn)

在Python中利用drop——duplicates()方法，該方法默認(rèn)對(duì)所有值進(jìn)行重復(fù)值判斷，且默認(rèn)保留第一個(gè)（行）值。也可以只針對(duì)某一列或某幾列進(jìn)行重復(fù)值刪除的判斷，只需要在drop_duplicates()方法中指明要判斷的列名即可。

也可以利用多列去重，只需要把多個(gè)列名以列表的形式傳給參數(shù)subset()即可。

還可以自定義刪除重復(fù)項(xiàng)時(shí)保留哪個(gè)，默認(rèn)保留第一個(gè)，也可以設(shè)置保留最后一個(gè)，或者全部不保留。通過傳入?yún)?shù)keep進(jìn)行設(shè)置，參數(shù)keep默認(rèn)值是first，即保留第一個(gè)值，也可以是last，保留最后一個(gè)值，還可以是FALSE，即把重復(fù)值全部刪除。

三、異常值的檢測(cè)與處理

異常值就是相比正常數(shù)據(jù)而言過高或過低的數(shù)據(jù)。

1、異常值檢測(cè)

要處理異常值首先要檢測(cè)，也就是發(fā)現(xiàn)異常值，發(fā)現(xiàn)異常值的方式主要有以下三種。

（1）根據(jù)業(yè)務(wù)經(jīng)驗(yàn)劃定不同指標(biāo)的正常范圍，超過該范圍的值算作異常值。

（2）通過繪制箱形圖，把大于（小于）箱形圖上邊緣（下邊緣）的點(diǎn)成為異常值。

（3）如果數(shù)據(jù)服從正態(tài)分布，則可以利用3σ原則：如果一個(gè)數(shù)值與平均值之間的偏差超過3倍標(biāo)準(zhǔn)差，那么我們就認(rèn)為這個(gè)值是異常值。

2、異常值處理

對(duì)于異常值一般有以下幾種處理方式。

（1）最常用的處理方式就是刪除。

（2）把異常值當(dāng)作缺失值來填充。

（3）把異常值當(dāng)作特殊情況，研究異常值出現(xiàn)的原因。

1、Excel實(shí)現(xiàn)

在Excel中，刪除異常值只要通過篩選把異常值對(duì)應(yīng)的行找出來，然后單擊鼠標(biāo)右鍵選擇刪除行即可。

對(duì)異常值進(jìn)行填充，其實(shí)就是對(duì)異常值進(jìn)行替換，同樣通過篩選功能吧異常值先找出來，然后把這些異常值替換成要填充的值即可。

2、Python實(shí)現(xiàn)

在Python中，刪除異常值用到的方法和Excel中的原理類似，Python中是通過過濾的方法對(duì)異常值進(jìn)行刪除。對(duì)異常值進(jìn)行填充，就是對(duì)異常值進(jìn)行替換，利用replace()方法可以對(duì)特定的值進(jìn)行替換。文章來源地址http://www.zghlxwxcb.cn/news/detail-500472.html

到了這里，關(guān)于十七、數(shù)據(jù)預(yù)處理（一）的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

數(shù)據(jù)預(yù)處理matlab matlab數(shù)據(jù)的獲取、預(yù)處理、統(tǒng)計(jì)、可視化、降維
1.1 從Excel中獲取使用readtable() 例1：使用 spreadsheetImportOptions（Name,Value）初步確定導(dǎo)入信息，再用 opts.Name=Value 的格式添加。例2：先初始化 spreadsheetImportOptions 對(duì)象，再用 opts.Name=Value 的格式逐個(gè)添加。例3：將導(dǎo)入信息存到變量里，再使用 spreadsheetImportOptions（Name,Value）
2024年02月15日
瀏覽(55)
大數(shù)據(jù)采集技術(shù)與預(yù)處理學(xué)習(xí)一：大數(shù)據(jù)概念、數(shù)據(jù)預(yù)處理、網(wǎng)絡(luò)數(shù)據(jù)采集
目錄大數(shù)據(jù)概念： 1.數(shù)據(jù)采集過程中會(huì)采集哪些類型的數(shù)據(jù)？ 2.非結(jié)構(gòu)化數(shù)據(jù)采集的特點(diǎn)是什么？ 3.請(qǐng)闡述傳統(tǒng)的數(shù)據(jù)采集與大數(shù)據(jù)采集的區(qū)別？ ???????????????4.大數(shù)據(jù)采集的數(shù)據(jù)源有哪些？針對(duì)不同的數(shù)據(jù)源，我們可以采用哪些不同的方法和工具？數(shù)據(jù)
2024年01月25日
瀏覽(30)
數(shù)據(jù)預(yù)處理之?dāng)?shù)據(jù)規(guī)約
目錄一、前言二、PCA的主要參數(shù)：三、數(shù)據(jù)歸約任務(wù)1 四、數(shù)據(jù)規(guī)約任務(wù)2 PCA(Principal Component Analysis)，即主成分分析方法，是一種使用最廣泛的數(shù)據(jù)降維算法。PCA的主要思想是將n維特征映射到k維上，這k維是全新的正交特征也被稱為主成分，是在原有n維特征的基礎(chǔ)上重新構(gòu)
2024年02月12日
瀏覽(29)
數(shù)據(jù)分析--數(shù)據(jù)預(yù)處理
本文主要是個(gè)人的學(xué)習(xí)筆記總結(jié)，數(shù)據(jù)預(yù)處理的基本思路和方法，包括一些方法的使用示例和參數(shù)解釋，具體的數(shù)據(jù)預(yù)處理案例case詳見其他文章。如有錯(cuò)誤之處還請(qǐng)指正！目錄數(shù)據(jù)的質(zhì)量評(píng)定數(shù)據(jù)處理步驟缺失值的處理標(biāo)記缺失值刪除缺失值填充缺失值重復(fù)值處理異
2024年02月04日
瀏覽(28)
數(shù)據(jù)清洗和預(yù)處理
預(yù)計(jì)更新一、爬蟲技術(shù)概述 1.1 什么是爬蟲技術(shù) 1.2 爬蟲技術(shù)的應(yīng)用領(lǐng)域 1.3 爬蟲技術(shù)的工作原理二、網(wǎng)絡(luò)協(xié)議和HTTP協(xié)議 2.1 網(wǎng)絡(luò)協(xié)議概述 2.2 HTTP協(xié)議介紹 2.3 HTTP請(qǐng)求和響應(yīng) 三、 Python基礎(chǔ) 3.1 Python語言概述 3.2 Python的基本數(shù)據(jù)類型 3.3 Python的流程控制語句 3.4 Python的函數(shù)和模
2024年02月07日
瀏覽(24)
python數(shù)據(jù)預(yù)處理
輸出結(jié)果如下：觀察可知，【銷量】存在一個(gè)缺失值，本例將缺失值所在行進(jìn)行刪除處理輸出結(jié)果如下：輸出結(jié)果如下：觀察可知，箱線圖上下邊緣存在異常值，本例通過四分位法對(duì)異常值進(jìn)行處理，即：超出上邊緣的異常值讓其落在上邊緣，低于下邊緣的異常值讓其落在
2024年02月13日
瀏覽(30)
數(shù)據(jù)預(yù)處理matlab
1.1 從Excel中獲取使用readtable() 例1：使用 spreadsheetImportOptions（Name,Value）初步確定導(dǎo)入信息，再用 opts.Name=Value 的格式添加。例2：先初始化 spreadsheetImportOptions 對(duì)象，再用 opts.Name=Value 的格式逐個(gè)添加。例3：將導(dǎo)入信息存到變量里，再使用 spreadsheetImportOptions（Name,Value）
2024年02月07日
瀏覽(26)
數(shù)據(jù)挖掘（2）數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理的重要性雜亂性：如命名規(guī)則。重復(fù)性：同一客觀事再不完整性：噪聲數(shù)據(jù)：數(shù)據(jù)中存在錯(cuò)誤或異常的現(xiàn)象。數(shù)據(jù)預(yù)處理的常見方法數(shù)據(jù)清洗：去掉數(shù)據(jù)中的噪聲，糾正不一致。數(shù)據(jù)集成：將多個(gè)數(shù)據(jù)源合成一致的數(shù)據(jù)存儲(chǔ) 數(shù)據(jù)變換（轉(zhuǎn)換）：對(duì)數(shù)據(jù)的格式
2024年02月07日
瀏覽(24)
頭歌：數(shù)據(jù)預(yù)處理之?dāng)?shù)據(jù)清洗
本關(guān)任務(wù)：完成泰坦尼克號(hào)遇難數(shù)據(jù)的清洗。 ? 案例背景泰坦尼克號(hào)遭遇的災(zāi)難震驚世界，如何避免災(zāi)難甚至預(yù)測(cè)災(zāi)難呢？要實(shí)現(xiàn)首先要做好泰坦尼克號(hào)的損失數(shù)據(jù)統(tǒng)計(jì)，才能為數(shù)據(jù)分析打下基礎(chǔ)。編程要求根據(jù)提示，你需要完成：缺失值填充離群點(diǎn)檢測(cè)
2024年02月11日
瀏覽(37)
【數(shù)學(xué)建?！繑?shù)據(jù)預(yù)處理
數(shù)學(xué)建模是將實(shí)際問題轉(zhuǎn)化為數(shù)學(xué)模型來解決的過程，而數(shù)據(jù)預(yù)處理是數(shù)學(xué)建模中非常重要的一步。以下是為什么要進(jìn)行數(shù)據(jù)預(yù)處理的幾個(gè)原因：數(shù)據(jù)質(zhì)量：原始數(shù)據(jù)往往存在噪聲、異常值、缺失值等問題，這些問題會(huì)對(duì)建模結(jié)果產(chǎn)生負(fù)面影響。通過數(shù)據(jù)預(yù)處理，可以去除噪
2024年02月09日
瀏覽(26)

<bdo id="mw6dp"><tbody id="mw6dp"></tbody></bdo>