国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

頭歌:數(shù)據(jù)預(yù)處理之?dāng)?shù)據(jù)清洗

這篇具有很好參考價(jià)值的文章主要介紹了頭歌:數(shù)據(jù)預(yù)處理之?dāng)?shù)據(jù)清洗。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

本關(guān)任務(wù):完成泰坦尼克號遇難數(shù)據(jù)的清洗。

?

案例背景

泰坦尼克號遭遇的災(zāi)難震驚世界,如何避免災(zāi)難甚至預(yù)測災(zāi)難呢? 要實(shí)現(xiàn)首先要做好泰坦尼克號的損失數(shù)據(jù)統(tǒng)計(jì),才能為數(shù)據(jù)分析打下基礎(chǔ)。

編程要求

根據(jù)提示,你需要完成:文章來源地址http://www.zghlxwxcb.cn/news/detail-509371.html

  • 缺失值填充
  • 離群點(diǎn)檢測
import numpy as np  
import pandas as pd  
#讀取數(shù)據(jù)  
df=pd.read_csv('/data/workspace/myshixun/step1/train.csv')
##### begin #####  
#查看列中是否存在空值  
temp=df.isnull().any()   
print(temp)
#使用SimpleImputer取出缺失值所在列的數(shù)值,sklearn當(dāng)中特征矩陣必須是二維才能傳入 使用reshape(-1,1)升維  
age=df['Age'].values.reshape(-1,1)    
#導(dǎo)入模塊  
from sklearn.impute import SimpleImputer   
#實(shí)例化,均值填充,可改變strategy參數(shù),實(shí)現(xiàn)其他填充方式  
imp_mean=SimpleImputer(missing_values=np.nan,strategy='mean')    
#fit_transform一步完成調(diào)取結(jié)果  
imp_mean=imp_mean.fit_transform(age)   
#填充好的數(shù)據(jù)傳回到 data['Age']列  
df_fillna=df  
df_fillna['Age']=imp_mean  
#檢驗(yàn)是否還有空值,為0即說明空值均已被填充  
print(df_fillna['Age'].isnull().sum())  
##### end #####    
imp_mean=SimpleImputer(missing_values=np.nan,strategy='mean')    
imp_mean=imp_mean.fit_transform(age)       
df_fillna=df  
df_fillna['Age']=imp_mean  
#正太分布離群點(diǎn)檢測  
##### begin #####  
#計(jì)算均值  
u=df['Age'].mean()   
#計(jì)算標(biāo)準(zhǔn)差  
std=df['Age'].std()   
#識別異常值  
error = df[np.abs(df['Age'] - u) > 3 * std ]   
##### end #####  
print(error)  

到了這里,關(guān)于頭歌:數(shù)據(jù)預(yù)處理之?dāng)?shù)據(jù)清洗的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • R語言 | GEO表達(dá)矩陣的數(shù)據(jù)清洗與預(yù)處理

    R語言 | GEO表達(dá)矩陣的數(shù)據(jù)清洗與預(yù)處理

    目錄 1.去除/// 2.去除重復(fù)的基因名 3.表達(dá)矩陣自動(dòng)log2化 4.矯正差異 表達(dá)量矩陣的數(shù)據(jù)清洗應(yīng)該在 注釋完成之后 進(jìn)行,并且下列操作最好按順序進(jìn)行 如下圖的表格所示,同一個(gè)探針I(yè)D對應(yīng)的gene有多個(gè),用///分隔著,而我們想獲得一個(gè)探針I(yè)D只對應(yīng)一個(gè)基因symbol的表格。 表達(dá)

    2024年02月13日
    瀏覽(36)
  • 云計(jì)算與大數(shù)據(jù)分析:如何實(shí)現(xiàn)高效的數(shù)據(jù)清洗與預(yù)處理

    隨著互聯(lián)網(wǎng)的普及和數(shù)據(jù)的快速增長,數(shù)據(jù)分析和處理成為了企業(yè)和組織中的重要組成部分。大數(shù)據(jù)分析是指利用大量數(shù)據(jù)來發(fā)現(xiàn)新的信息和洞察,從而為企業(yè)和組織提供決策支持。云計(jì)算是一種基于互聯(lián)網(wǎng)的計(jì)算資源共享和分配模式,它可以讓企業(yè)和組織更加高效地利用計(jì)

    2024年04月11日
    瀏覽(25)
  • 【數(shù)據(jù)預(yù)處理】基于Kettle的字符串?dāng)?shù)據(jù)清洗、Kettle的字段清洗、Kettle的使用參照表集成數(shù)據(jù)

    【數(shù)據(jù)預(yù)處理】基于Kettle的字符串?dāng)?shù)據(jù)清洗、Kettle的字段清洗、Kettle的使用參照表集成數(shù)據(jù)

    ?? 本文選自專欄:AI領(lǐng)域?qū)?從基礎(chǔ)到實(shí)踐,深入了解算法、案例和最新趨勢。無論你是初學(xué)者還是經(jīng)驗(yàn)豐富的數(shù)據(jù)科學(xué)家,通過案例和項(xiàng)目實(shí)踐,掌握核心概念和實(shí)用技能。每篇案例都包含代碼實(shí)例,詳細(xì)講解供大家學(xué)習(xí)。 ??????本專欄

    2024年02月03日
    瀏覽(31)
  • 利用Python進(jìn)行數(shù)據(jù)清洗與預(yù)處理:Pandas的高級用法【第147篇—Pandas的高級用法】

    利用Python進(jìn)行數(shù)據(jù)清洗與預(yù)處理:Pandas的高級用法【第147篇—Pandas的高級用法】

    前些天發(fā)現(xiàn)了一個(gè)巨牛的人工智能學(xué)習(xí)網(wǎng)站,通俗易懂,風(fēng)趣幽默,忍不住分享一下給大家?!军c(diǎn)擊進(jìn)入巨牛的人工智能學(xué)習(xí)網(wǎng)站】。 在數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域,數(shù)據(jù)清洗和預(yù)處理是至關(guān)重要的步驟。Pandas庫作為Python中最受歡迎的數(shù)據(jù)處理工具之一,提供了強(qiáng)大的功能來處

    2024年04月09日
    瀏覽(35)
  • 【大廠AI課學(xué)習(xí)筆記】【2.2機(jī)器學(xué)習(xí)開發(fā)任務(wù)實(shí)例】(3)數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)預(yù)處理

    【大廠AI課學(xué)習(xí)筆記】【2.2機(jī)器學(xué)習(xí)開發(fā)任務(wù)實(shí)例】(3)數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)預(yù)處理

    項(xiàng)目開始,首先要進(jìn)行數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)預(yù)處理。 數(shù)據(jù)準(zhǔn)備的核心是找到這些數(shù)據(jù),觀察數(shù)據(jù)的問題。 數(shù)據(jù)預(yù)處理就是去掉臟數(shù)據(jù)。 缺失值的處理,格式轉(zhuǎn)換等。 延伸學(xué)習(xí): 在人工智能(AI)的眾多工作流程中,數(shù)據(jù)準(zhǔn)備與預(yù)處理占據(jù)著舉足輕重的地位。這兩個(gè)步驟不僅影響

    2024年02月19日
    瀏覽(29)
  • Apifox使用外部文件完成接口預(yù)處理

    Apifox使用外部文件完成接口預(yù)處理

    pm.executeAsync(filePath, args, options) filePath string 外部程序路徑 args string[] 參數(shù)。調(diào)用 jar 包中的指定方法時(shí),會(huì)使用 JSON.stringify 進(jìn)行轉(zhuǎn)換。除此之外非 string 類型會(huì)進(jìn)行隱式類型轉(zhuǎn)換自動(dòng)轉(zhuǎn)換為 string 類型。 options Object command string 外部程序的執(zhí)行命令,“命令前綴”中的前面部分

    2024年01月23日
    瀏覽(23)
  • 【古詩生成AI實(shí)戰(zhàn)】之三——任務(wù)加載器與預(yù)處理器

    【古詩生成AI實(shí)戰(zhàn)】之三——任務(wù)加載器與預(yù)處理器

    ??本章內(nèi)容屬于 數(shù)據(jù)處理階段 ,將分別介紹任務(wù)加載器 task 和預(yù)處理器 processor 。 ??在深入探討數(shù)據(jù)處理的具體步驟之前,讓我們先了解一下我們將要使用的數(shù)據(jù)集的形式。 ??本項(xiàng)目采用的是七絕數(shù)據(jù)集,總計(jì)83072條古詩,其形式如下: ??實(shí)際上我們只需要古詩的

    2024年02月02日
    瀏覽(38)
  • 計(jì)算機(jī)視覺任務(wù)圖像預(yù)處理之去除圖像中的背景區(qū)域-------使用連通域分析算法(包含完整代碼)

    通過連通域分析算法能夠找到最大的連通域,即圖片的主體部分,然后保存該連通域的最小外接矩陣,即可去除掉無關(guān)的背景區(qū)域 更多圖像預(yù)處理操作工具集包含在這個(gè)github倉庫中

    2024年02月06日
    瀏覽(28)
  • 數(shù)據(jù)采集與預(yù)處理01: 項(xiàng)目1 數(shù)據(jù)采集與預(yù)處理準(zhǔn)備

    數(shù)據(jù)采集與預(yù)處理01: 項(xiàng)目1 數(shù)據(jù)采集與預(yù)處理準(zhǔn)備

    數(shù)據(jù)采集:足夠的數(shù)據(jù)量是企業(yè)大數(shù)據(jù)戰(zhàn)略建設(shè)的基礎(chǔ),因此數(shù)據(jù)采集成為大數(shù)據(jù)分析的前站。數(shù)據(jù)采集是大數(shù)據(jù)價(jià)值挖掘中重要的一環(huán),其后的分析挖掘都建立在數(shù)據(jù)采集的基礎(chǔ)上。大數(shù)據(jù)技術(shù)的意義確實(shí)不在于掌握規(guī)模龐大的數(shù)據(jù)信息,而在于對這些數(shù)據(jù)進(jìn)行智能處理,

    2024年01月25日
    瀏覽(27)
  • 數(shù)據(jù)預(yù)處理matlab matlab數(shù)據(jù)的獲取、預(yù)處理、統(tǒng)計(jì)、可視化、降維

    1.1 從Excel中獲取 使用readtable() 例1: 使用 spreadsheetImportOptions(Name,Value) 初步確定導(dǎo)入信息, 再用 opts.Name=Value 的格式添加。 例2: 先初始化 spreadsheetImportOptions 對象, 再用 opts.Name=Value 的格式逐個(gè)添加。 例3: 將導(dǎo)入信息存到變量里, 再使用 spreadsheetImportOptions(Name,Value)

    2024年02月15日
    瀏覽(55)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包