国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

十七、數(shù)據(jù)預(yù)處理(一)

這篇具有很好參考價(jià)值的文章主要介紹了十七、數(shù)據(jù)預(yù)處理(一)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

一、缺失值處理

缺失值就是由某些原因?qū)е虏糠謹(jǐn)?shù)據(jù)為空,對(duì)于為空的這部分?jǐn)?shù)據(jù)我們一般有兩種處理方式,一種是刪除,即把含有缺失值的數(shù)據(jù)刪除,另一種是填充,即把確實(shí)的那部分?jǐn)?shù)據(jù)用某個(gè)值代替。

1、缺失值查看

對(duì)缺失值進(jìn)行處理,首先要把缺失值找出來,也就是看哪列有缺失值。

(1)Excel實(shí)現(xiàn)

在Excel中我們先選中一列沒有缺失值的數(shù)據(jù),看一下這一列數(shù)據(jù)共有多少個(gè),然后把其他列的計(jì)數(shù)與這一列進(jìn)行對(duì)比,小于這一列數(shù)據(jù)個(gè)數(shù)的就代表數(shù)據(jù)個(gè)數(shù)的就代表有缺失值,差值就是缺失個(gè)數(shù)。

如果想看整個(gè)數(shù)據(jù)表中每列數(shù)據(jù)的缺失情況,則要挨個(gè)選中每一列去判斷該列是否有缺失值。

如果數(shù)據(jù)不是特別多,可利用定位調(diào)教查找,在定位條件對(duì)話框中選擇空值,單擊確定就會(huì)把所有的空值選中。

(2)Python實(shí)現(xiàn)

在Python中直接調(diào)用info()方法就會(huì)返回每一列的缺失情況。

Python中缺失值一般用NaN表示,還可以用isnull()方法來判斷哪個(gè)值是缺失值,如果是缺失值則返回True,如果不是缺失值則返回False。

2、缺失值刪除

缺失值分為兩種,一種是一行中某個(gè)字段是缺失值;另一種是一行中的字段全部為缺失值,即為一個(gè)空白行。

(1)Excel實(shí)現(xiàn)

在Excel中,這兩種缺失值都可以通過在定位條件對(duì)話框中選擇空值找到。

這樣含有缺失值的部分就會(huì)被選中,包括某個(gè)具體的單元格及一整行,然后單擊鼠標(biāo)右鍵在彈出的刪除對(duì)話框中U型安澤刪除鄭航選項(xiàng),并單擊確定按鈕即可實(shí)現(xiàn)整行的刪除。

(2)Python實(shí)現(xiàn)

在Python中,利用dropna()方法,dropna()方法默認(rèn)刪除含有缺失值的行,也就是只要某一行有缺失值就把這一行刪除。

運(yùn)行dropna()方法以后,刪除含有NaN值的行,返回刪除后的數(shù)據(jù)。

如果想刪除空白行,只要給dropna()方法傳入一個(gè)參數(shù)how = "all"即可,這樣就會(huì)只刪除那些全為空值的行,不全為空值的行就不會(huì)被刪除。

3、缺失值填充

(1)Excel實(shí)現(xiàn)

在Excel中,缺失值的填充和缺失值刪除一樣,利用的也是定位條件,先把缺失值找到,然后在第一個(gè)缺失值的單元格中輸入要填充的值,最常用的就是用0填充,輸入以后按Ctrl+enter 組合鍵就可以對(duì)所有缺失值進(jìn)行填充。

除了用0填充、平均值填充、眾數(shù)填充們還有向前填充、向后填充等方式。

(2)Python實(shí)現(xiàn)

在Python中,利用fillna()方法對(duì)數(shù)據(jù)表中華的所有缺失值進(jìn)行填充,在fillna后面的括號(hào)中輸入要填充的值即可。

在Python中也可以按不同列填充,只要在fillna()方法的括號(hào)中指明列明即可。

二、重復(fù)值處理

重復(fù)數(shù)據(jù)就是同樣的記錄有多條,對(duì)于這樣的數(shù)據(jù)我們一般做刪除處理。

1、Excel實(shí)現(xiàn)

在Excel中依次單擊菜單欄中的數(shù)據(jù)>數(shù)據(jù)工具>刪除重復(fù)值,就可以刪除重復(fù)數(shù)據(jù)了。

Excel的刪除重復(fù)值默認(rèn)針對(duì)所有值進(jìn)行重復(fù)值判斷。

2、Python實(shí)現(xiàn)

在Python中利用drop——duplicates()方法,該方法默認(rèn)對(duì)所有值進(jìn)行重復(fù)值判斷,且默認(rèn)保留第一個(gè)(行)值。也可以只針對(duì)某一列或某幾列進(jìn)行重復(fù)值刪除的判斷,只需要在drop_duplicates()方法中指明要判斷的列名即可。

也可以利用多列去重,只需要把多個(gè)列名以列表的形式傳給參數(shù)subset()即可。

還可以自定義刪除重復(fù)項(xiàng)時(shí)保留哪個(gè),默認(rèn)保留第一個(gè),也可以設(shè)置保留最后一個(gè),或者全部不保留。通過傳入?yún)?shù)keep進(jìn)行設(shè)置,參數(shù)keep默認(rèn)值是first,即保留第一個(gè)值,也可以是last,保留最后一個(gè)值,還可以是FALSE,即把重復(fù)值全部刪除。

三、異常值的檢測(cè)與處理

異常值就是相比正常數(shù)據(jù)而言過高或過低的數(shù)據(jù)。

1、異常值檢測(cè)

要處理異常值首先要檢測(cè),也就是發(fā)現(xiàn)異常值,發(fā)現(xiàn)異常值的方式主要有以下三種。

(1)根據(jù)業(yè)務(wù)經(jīng)驗(yàn)劃定不同指標(biāo)的正常范圍,超過該范圍的值算作異常值。

(2)通過繪制箱形圖,把大于(小于)箱形圖上邊緣(下邊緣)的點(diǎn)成為異常值。

(3)如果數(shù)據(jù)服從正態(tài)分布,則可以利用3σ原則:如果一個(gè)數(shù)值與平均值之間的偏差超過3倍標(biāo)準(zhǔn)差,那么我們就認(rèn)為這個(gè)值是異常值。

2、異常值處理

對(duì)于異常值一般有以下幾種處理方式。

(1)最常用的處理方式就是刪除。

(2)把異常值當(dāng)作缺失值來填充。

(3)把異常值當(dāng)作特殊情況,研究異常值出現(xiàn)的原因。

1、Excel實(shí)現(xiàn)

在Excel中,刪除異常值只要通過篩選把異常值對(duì)應(yīng)的行找出來,然后單擊鼠標(biāo)右鍵選擇刪除行即可。

對(duì)異常值進(jìn)行填充,其實(shí)就是對(duì)異常值進(jìn)行替換,同樣通過篩選功能吧異常值先找出來,然后把這些異常值替換成要填充的值即可。

2、Python實(shí)現(xiàn)

在Python中,刪除異常值用到的方法和Excel中的原理類似,Python中是通過過濾的方法對(duì)異常值進(jìn)行刪除。對(duì)異常值進(jìn)行填充,就是對(duì)異常值進(jìn)行替換,利用replace()方法可以對(duì)特定的值進(jìn)行替換。文章來源地址http://www.zghlxwxcb.cn/news/detail-500472.html

到了這里,關(guān)于十七、數(shù)據(jù)預(yù)處理(一)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 數(shù)據(jù)預(yù)處理matlab matlab數(shù)據(jù)的獲取、預(yù)處理、統(tǒng)計(jì)、可視化、降維

    1.1 從Excel中獲取 使用readtable() 例1: 使用 spreadsheetImportOptions(Name,Value) 初步確定導(dǎo)入信息, 再用 opts.Name=Value 的格式添加。 例2: 先初始化 spreadsheetImportOptions 對(duì)象, 再用 opts.Name=Value 的格式逐個(gè)添加。 例3: 將導(dǎo)入信息存到變量里, 再使用 spreadsheetImportOptions(Name,Value)

    2024年02月15日
    瀏覽(55)
  • 大數(shù)據(jù)采集技術(shù)與預(yù)處理學(xué)習(xí)一:大數(shù)據(jù)概念、數(shù)據(jù)預(yù)處理、網(wǎng)絡(luò)數(shù)據(jù)采集

    大數(shù)據(jù)采集技術(shù)與預(yù)處理學(xué)習(xí)一:大數(shù)據(jù)概念、數(shù)據(jù)預(yù)處理、網(wǎng)絡(luò)數(shù)據(jù)采集

    目錄 大數(shù)據(jù)概念: 1.數(shù)據(jù)采集過程中會(huì)采集哪些類型的數(shù)據(jù)? 2.非結(jié)構(gòu)化數(shù)據(jù)采集的特點(diǎn)是什么? 3.請(qǐng)闡述傳統(tǒng)的數(shù)據(jù)采集與大數(shù)據(jù)采集的區(qū)別? ???????????????4.大數(shù)據(jù)采集的數(shù)據(jù)源有哪些?針對(duì)不同的數(shù)據(jù)源,我們可以采用哪些不同的方法和工具? 數(shù)據(jù)

    2024年01月25日
    瀏覽(30)
  • 數(shù)據(jù)預(yù)處理之?dāng)?shù)據(jù)規(guī)約

    數(shù)據(jù)預(yù)處理之?dāng)?shù)據(jù)規(guī)約

    目錄 一、前言 二、PCA的主要參數(shù): 三、數(shù)據(jù)歸約任務(wù)1 四、數(shù)據(jù)規(guī)約任務(wù)2 PCA(Principal Component Analysis),即主成分分析方法,是一種使用最廣泛的數(shù)據(jù)降維算法。PCA的主要思想是將n維特征映射到k維上,這k維是全新的正交特征也被稱為主成分,是在原有n維特征的基礎(chǔ)上重新構(gòu)

    2024年02月12日
    瀏覽(29)
  • 數(shù)據(jù)分析--數(shù)據(jù)預(yù)處理

    本文主要是個(gè)人的學(xué)習(xí)筆記總結(jié),數(shù)據(jù)預(yù)處理的基本思路和方法,包括一些方法的使用示例和參數(shù)解釋,具體的數(shù)據(jù)預(yù)處理案例case詳見其他文章。如有錯(cuò)誤之處還請(qǐng)指正! 目錄 數(shù)據(jù)的質(zhì)量評(píng)定 數(shù)據(jù)處理步驟 缺失值的處理 標(biāo)記缺失值 刪除 缺失值 填充 缺失值 重復(fù)值處理 異

    2024年02月04日
    瀏覽(28)
  • 數(shù)據(jù)清洗和預(yù)處理

    預(yù)計(jì)更新 一、 爬蟲技術(shù)概述 1.1 什么是爬蟲技術(shù) 1.2 爬蟲技術(shù)的應(yīng)用領(lǐng)域 1.3 爬蟲技術(shù)的工作原理 二、 網(wǎng)絡(luò)協(xié)議和HTTP協(xié)議 2.1 網(wǎng)絡(luò)協(xié)議概述 2.2 HTTP協(xié)議介紹 2.3 HTTP請(qǐng)求和響應(yīng) 三、 Python基礎(chǔ) 3.1 Python語言概述 3.2 Python的基本數(shù)據(jù)類型 3.3 Python的流程控制語句 3.4 Python的函數(shù)和模

    2024年02月07日
    瀏覽(24)
  • python數(shù)據(jù)預(yù)處理

    python數(shù)據(jù)預(yù)處理

    輸出結(jié)果如下: 觀察可知,【銷量】存在一個(gè)缺失值,本例將缺失值所在行進(jìn)行刪除處理 輸出結(jié)果如下: 輸出結(jié)果如下: 觀察可知,箱線圖上下邊緣存在異常值,本例通過四分位法對(duì)異常值進(jìn)行處理,即:超出上邊緣的異常值讓其落在上邊緣,低于下邊緣的異常值讓其落在

    2024年02月13日
    瀏覽(30)
  • 數(shù)據(jù)預(yù)處理matlab

    1.1 從Excel中獲取 使用readtable() 例1: 使用 spreadsheetImportOptions(Name,Value) 初步確定導(dǎo)入信息, 再用 opts.Name=Value 的格式添加。 例2: 先初始化 spreadsheetImportOptions 對(duì)象, 再用 opts.Name=Value 的格式逐個(gè)添加。 例3: 將導(dǎo)入信息存到變量里, 再使用 spreadsheetImportOptions(Name,Value)

    2024年02月07日
    瀏覽(26)
  • 數(shù)據(jù)挖掘(2)數(shù)據(jù)預(yù)處理

    數(shù)據(jù)挖掘(2)數(shù)據(jù)預(yù)處理

    數(shù)據(jù)預(yù)處理的重要性 雜亂性:如命名規(guī)則。 重復(fù)性:同一客觀事再 不完整性: 噪聲數(shù)據(jù):數(shù)據(jù)中存在錯(cuò)誤或異常的現(xiàn)象。 數(shù)據(jù)預(yù)處理的常見方法 數(shù)據(jù)清洗:去掉數(shù)據(jù)中的噪聲,糾正不一致。 數(shù)據(jù)集成:將多個(gè)數(shù)據(jù)源合成一致的數(shù)據(jù)存儲(chǔ) 數(shù)據(jù)變換(轉(zhuǎn)換):對(duì)數(shù)據(jù)的格式

    2024年02月07日
    瀏覽(24)
  • 頭歌:數(shù)據(jù)預(yù)處理之?dāng)?shù)據(jù)清洗

    本關(guān)任務(wù):完成泰坦尼克號(hào)遇難數(shù)據(jù)的清洗。 ? 案例背景 泰坦尼克號(hào)遭遇的災(zāi)難震驚世界,如何避免災(zāi)難甚至預(yù)測(cè)災(zāi)難呢? 要實(shí)現(xiàn)首先要做好泰坦尼克號(hào)的損失數(shù)據(jù)統(tǒng)計(jì),才能為數(shù)據(jù)分析打下基礎(chǔ)。 編程要求 根據(jù)提示,你需要完成: 缺失值填充 離群點(diǎn)檢測(cè)

    2024年02月11日
    瀏覽(37)
  • 【數(shù)學(xué)建模】數(shù)據(jù)預(yù)處理

    【數(shù)學(xué)建?!繑?shù)據(jù)預(yù)處理

    數(shù)學(xué)建模是將實(shí)際問題轉(zhuǎn)化為數(shù)學(xué)模型來解決的過程,而數(shù)據(jù)預(yù)處理是數(shù)學(xué)建模中非常重要的一步。以下是為什么要進(jìn)行數(shù)據(jù)預(yù)處理的幾個(gè)原因: 數(shù)據(jù)質(zhì)量:原始數(shù)據(jù)往往存在噪聲、異常值、缺失值等問題,這些問題會(huì)對(duì)建模結(jié)果產(chǎn)生負(fù)面影響。通過數(shù)據(jù)預(yù)處理,可以去除噪

    2024年02月09日
    瀏覽(26)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包