国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

第五章Pandas數(shù)據(jù)載入與預(yù)處理

這篇具有很好參考價(jià)值的文章主要介紹了第五章Pandas數(shù)據(jù)載入與預(yù)處理。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

1:選擇題

1:利用下面哪個(gè)可視化繪圖可以發(fā)現(xiàn)數(shù)據(jù)的異常點(diǎn)

A.密度圖
B.直方圖
C.盒圖

D.概率圖
知識(shí)點(diǎn)解析:
密度圖:表現(xiàn)與數(shù)據(jù)值對(duì)應(yīng)的邊界或域?qū)ο蟮囊环N理論圖形表示方法
直方圖:直方圖是數(shù)值數(shù)據(jù)分布的精確圖形表示
盒圖:是結(jié)構(gòu)化編程中的一種可視化建模
概率圖:用圖來表示變量概率依賴關(guān)系的理論


2:以下關(guān)于缺失值檢測(cè)的說法中,正確的是
A.null和notnull可以對(duì)缺失值進(jìn)行處理
B.dropna方法既可以刪除觀測(cè)記錄,還可以刪除特征
C.fillna方法中用來替換缺失值的值只能是數(shù)據(jù)框
D.Pandas庫(kù)中的interpolate模塊包含了多種插值方法
**知識(shí)點(diǎn)解析:
處理缺失值的三種方法:isnull(),notnull(),isna()


3:在現(xiàn)實(shí)世界的數(shù)據(jù)中,缺失值是常有的,一般的處理方法有

A.忽略
B.刪除
C.平均值填充
D.最大值填充


2:判斷題

1:Pandas中利用merge函數(shù)合并數(shù)據(jù)表時(shí)默認(rèn)的是內(nèi)連接方式??正確


2:Pandas中的描述性統(tǒng)計(jì)一般會(huì)包括缺失數(shù)據(jù)??錯(cuò)誤


3:語(yǔ)句dataframe.dropna(thresh=len(df)*0.9,axis=1) 表示如果某列的缺失值超過90%則刪除該列??錯(cuò)誤
知識(shí)點(diǎn)解析:
格式:DataFrame.dropna(self, axis=0, how=‘a(chǎn)ny’, thresh=None, subset=None, inplace=False)
用途:刪除缺失的值。
thresh : int,可選需要許多非NA值。
axis : 0或’index’,1或’columns’,默認(rèn)0確定是否刪除包含缺失值的行或列。
0或’index’:刪除包含缺失值的行。 1或“列”:刪除包含缺失值的列。
可得此題應(yīng)為:如果某列的缺失值不到90%則刪除該列


4:利用merge方法合并數(shù)據(jù)時(shí)允許合并的DataFrame之間沒有連接鍵??錯(cuò)誤


5:?jiǎn)∽兞浚―ummy Variables)又稱虛擬變量,是用以反映質(zhì)的屬性的一個(gè)人工變量??正確


6:Pandas中使用isnull().sum()可以統(tǒng)計(jì)缺失值??正確


7:Pandas中的dropna中的thresh=N時(shí)表明要求一行有N個(gè)NaN值時(shí)該數(shù)據(jù)才能保留 ??錯(cuò)誤
8:DataFrame的duplicates方法可以用來刪除重復(fù)數(shù)據(jù) ??錯(cuò)誤
9:網(wǎng)絡(luò)關(guān)聯(lián)關(guān)系在大數(shù)據(jù)中是一種常見的關(guān)系 ??正確

3:填空題

1:Pandas中drop方法中的參數(shù)how取值為 ___時(shí)表示只要某行有缺失值就將改行丟棄??any


2:Pandas中drop方法中的參數(shù)how取值為 ___時(shí)表示某行全部為缺失值就將改行丟棄??all


3:Pandas通過read_json函數(shù)讀取___數(shù)據(jù)??JSON


4:Pandas要讀取Mysql中的數(shù)據(jù),首先要安裝 ___包,然后進(jìn)行數(shù)據(jù)文件讀取??Mysqldb


5:Pandas要讀取SQL sever中的數(shù)據(jù),首先要安裝 ___包,然后進(jìn)行數(shù)據(jù)文件讀取??pymssql


4:簡(jiǎn)答題

1:簡(jiǎn)述Pandas刪除空缺值方法dropna中參數(shù)thresh的使用方法
??dropna中的參數(shù)thresh當(dāng)傳入thresh = N時(shí),表示要求一行至少具有N個(gè)非NaN才能存活


2:簡(jiǎn)述Python中利用數(shù)據(jù)統(tǒng)計(jì)方法檢測(cè)異常值的常用方法及其原理
??方法:a.散點(diǎn)圖方法觀察 b. 箱線圖分析 c. 3σ法則
??原理:標(biāo)準(zhǔn)正態(tài)分布下的曲線為鐘型曲線,期望值μ決定了其位置,其標(biāo)準(zhǔn)差σ決定了分布的幅度。當(dāng)μ = 0,σ = 1時(shí)的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布。因此對(duì)于一組數(shù)據(jù),如果符合正態(tài)分布,則可以通過經(jīng)驗(yàn)法則來檢測(cè)異常值,同圖中可以發(fā)現(xiàn),68.2%的測(cè)量值落在μ值處正負(fù)一個(gè)標(biāo)準(zhǔn)差σ的區(qū)間內(nèi),95.4%的測(cè)量值將落在μ值處正負(fù)兩個(gè)標(biāo)準(zhǔn)差σ的區(qū)間內(nèi),99.7%的值落在μ值處正負(fù)三個(gè)標(biāo)準(zhǔn)差σ的區(qū)間內(nèi)。因此,對(duì)于一組符合正態(tài)分布的數(shù)據(jù),如果某個(gè)值距離μ值超過三個(gè)標(biāo)準(zhǔn)差σ則可以判斷這個(gè)值屬于異常數(shù)據(jù)


3:簡(jiǎn)述數(shù)據(jù)分析中要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化的主要原因
??不同特征之間往往具有不同的量綱,由此造成數(shù)值間的差異很大。因此為了消除特征之間量綱和取值范圍的差異可能會(huì)造成的影響,需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。


4:簡(jiǎn)述Pandas中利用cut方法進(jìn)行數(shù)據(jù)離散化的用法
??將數(shù)據(jù)的值域劃分成具有相同寬度的區(qū)間,區(qū)間個(gè)數(shù)由數(shù)據(jù)本身的特點(diǎn)決定或由用戶指定。Pandas提供了cut函數(shù),可以進(jìn)行連續(xù)型數(shù)據(jù)的等寬離散化。cut函數(shù)的基礎(chǔ)語(yǔ)法格式為:
pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3)
文章來源地址http://www.zghlxwxcb.cn/news/detail-451215.html


到了這里,關(guān)于第五章Pandas數(shù)據(jù)載入與預(yù)處理的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Python數(shù)據(jù)分析之特征處理筆記三——特征預(yù)處理(特征選擇)

    Python數(shù)據(jù)分析之特征處理筆記三——特征預(yù)處理(特征選擇)

    書接上文,進(jìn)行數(shù)據(jù)清洗過程后,我們得到了沒有空值、異常值、錯(cuò)誤值的數(shù)據(jù),但想要用海量的數(shù)據(jù)來建立我們所需要的算法模型,僅僅是數(shù)據(jù)清洗的過程是不夠的,因?yàn)橛械臄?shù)據(jù)類型是數(shù)值,有的是字符,怎樣將不同類型的數(shù)據(jù)聯(lián)系起來?以及在保證最大化信息量的前提

    2024年02月02日
    瀏覽(37)
  • 機(jī)器學(xué)習(xí)基礎(chǔ) 數(shù)據(jù)集、特征工程、特征預(yù)處理、特征選擇 7.27

    無(wú)量綱化 1.標(biāo)準(zhǔn)化 2.歸一化 信息數(shù)據(jù)化 1.特征二值化 2. Ont-hot編碼 3.缺失數(shù)據(jù)補(bǔ)全 1.方差選擇法 2.相關(guān)系數(shù)法

    2024年02月14日
    瀏覽(32)
  • 第五篇【傳奇開心果系列】Python文本和語(yǔ)音相互轉(zhuǎn)換庫(kù)技術(shù)點(diǎn)案例示例:詳細(xì)解讀pyttsx3的`preprocess_text`函數(shù)文本預(yù)處理。

    第五篇【傳奇開心果系列】Python文本和語(yǔ)音相互轉(zhuǎn)換庫(kù)技術(shù)點(diǎn)案例示例:詳細(xì)解讀pyttsx3的`preprocess_text`函數(shù)文本預(yù)處理。

    pyttsx3在文本轉(zhuǎn)換語(yǔ)音之前,首先要開展系列步驟的文本預(yù)處理工作。 這些預(yù)處理步驟可以在使用 pyttsx3 之前應(yīng)用于文本,以提高轉(zhuǎn)換結(jié)果的質(zhì)量和可讀性。預(yù)處理后的文本更干凈、準(zhǔn)確,可以更好地用于語(yǔ)音轉(zhuǎn)換。pyttsx3主要使用 preprocess_text 函數(shù)開展文本預(yù)處理。 下面是一

    2024年02月22日
    瀏覽(25)
  • 數(shù)據(jù)采集與預(yù)處理01: 項(xiàng)目1 數(shù)據(jù)采集與預(yù)處理準(zhǔn)備

    數(shù)據(jù)采集與預(yù)處理01: 項(xiàng)目1 數(shù)據(jù)采集與預(yù)處理準(zhǔn)備

    數(shù)據(jù)采集:足夠的數(shù)據(jù)量是企業(yè)大數(shù)據(jù)戰(zhàn)略建設(shè)的基礎(chǔ),因此數(shù)據(jù)采集成為大數(shù)據(jù)分析的前站。數(shù)據(jù)采集是大數(shù)據(jù)價(jià)值挖掘中重要的一環(huán),其后的分析挖掘都建立在數(shù)據(jù)采集的基礎(chǔ)上。大數(shù)據(jù)技術(shù)的意義確實(shí)不在于掌握規(guī)模龐大的數(shù)據(jù)信息,而在于對(duì)這些數(shù)據(jù)進(jìn)行智能處理,

    2024年01月25日
    瀏覽(29)
  • 數(shù)據(jù)預(yù)處理matlab matlab數(shù)據(jù)的獲取、預(yù)處理、統(tǒng)計(jì)、可視化、降維

    1.1 從Excel中獲取 使用readtable() 例1: 使用 spreadsheetImportOptions(Name,Value) 初步確定導(dǎo)入信息, 再用 opts.Name=Value 的格式添加。 例2: 先初始化 spreadsheetImportOptions 對(duì)象, 再用 opts.Name=Value 的格式逐個(gè)添加。 例3: 將導(dǎo)入信息存到變量里, 再使用 spreadsheetImportOptions(Name,Value)

    2024年02月15日
    瀏覽(55)
  • 大數(shù)據(jù)采集技術(shù)與預(yù)處理學(xué)習(xí)一:大數(shù)據(jù)概念、數(shù)據(jù)預(yù)處理、網(wǎng)絡(luò)數(shù)據(jù)采集

    大數(shù)據(jù)采集技術(shù)與預(yù)處理學(xué)習(xí)一:大數(shù)據(jù)概念、數(shù)據(jù)預(yù)處理、網(wǎng)絡(luò)數(shù)據(jù)采集

    目錄 大數(shù)據(jù)概念: 1.數(shù)據(jù)采集過程中會(huì)采集哪些類型的數(shù)據(jù)? 2.非結(jié)構(gòu)化數(shù)據(jù)采集的特點(diǎn)是什么? 3.請(qǐng)闡述傳統(tǒng)的數(shù)據(jù)采集與大數(shù)據(jù)采集的區(qū)別? ???????????????4.大數(shù)據(jù)采集的數(shù)據(jù)源有哪些?針對(duì)不同的數(shù)據(jù)源,我們可以采用哪些不同的方法和工具? 數(shù)據(jù)

    2024年01月25日
    瀏覽(30)
  • 數(shù)據(jù)預(yù)處理之?dāng)?shù)據(jù)規(guī)約

    數(shù)據(jù)預(yù)處理之?dāng)?shù)據(jù)規(guī)約

    目錄 一、前言 二、PCA的主要參數(shù): 三、數(shù)據(jù)歸約任務(wù)1 四、數(shù)據(jù)規(guī)約任務(wù)2 PCA(Principal Component Analysis),即主成分分析方法,是一種使用最廣泛的數(shù)據(jù)降維算法。PCA的主要思想是將n維特征映射到k維上,這k維是全新的正交特征也被稱為主成分,是在原有n維特征的基礎(chǔ)上重新構(gòu)

    2024年02月12日
    瀏覽(29)
  • 數(shù)據(jù)分析--數(shù)據(jù)預(yù)處理

    本文主要是個(gè)人的學(xué)習(xí)筆記總結(jié),數(shù)據(jù)預(yù)處理的基本思路和方法,包括一些方法的使用示例和參數(shù)解釋,具體的數(shù)據(jù)預(yù)處理案例case詳見其他文章。如有錯(cuò)誤之處還請(qǐng)指正! 目錄 數(shù)據(jù)的質(zhì)量評(píng)定 數(shù)據(jù)處理步驟 缺失值的處理 標(biāo)記缺失值 刪除 缺失值 填充 缺失值 重復(fù)值處理 異

    2024年02月04日
    瀏覽(28)
  • 數(shù)據(jù)清洗和預(yù)處理

    預(yù)計(jì)更新 一、 爬蟲技術(shù)概述 1.1 什么是爬蟲技術(shù) 1.2 爬蟲技術(shù)的應(yīng)用領(lǐng)域 1.3 爬蟲技術(shù)的工作原理 二、 網(wǎng)絡(luò)協(xié)議和HTTP協(xié)議 2.1 網(wǎng)絡(luò)協(xié)議概述 2.2 HTTP協(xié)議介紹 2.3 HTTP請(qǐng)求和響應(yīng) 三、 Python基礎(chǔ) 3.1 Python語(yǔ)言概述 3.2 Python的基本數(shù)據(jù)類型 3.3 Python的流程控制語(yǔ)句 3.4 Python的函數(shù)和模

    2024年02月07日
    瀏覽(24)
  • python數(shù)據(jù)預(yù)處理

    python數(shù)據(jù)預(yù)處理

    輸出結(jié)果如下: 觀察可知,【銷量】存在一個(gè)缺失值,本例將缺失值所在行進(jìn)行刪除處理 輸出結(jié)果如下: 輸出結(jié)果如下: 觀察可知,箱線圖上下邊緣存在異常值,本例通過四分位法對(duì)異常值進(jìn)行處理,即:超出上邊緣的異常值讓其落在上邊緣,低于下邊緣的異常值讓其落在

    2024年02月13日
    瀏覽(30)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包