1:選擇題
1:利用下面哪個(gè)可視化繪圖可以發(fā)現(xiàn)數(shù)據(jù)的異常點(diǎn)
A.密度圖
B.直方圖
C.盒圖
D.概率圖
知識(shí)點(diǎn)解析:
密度圖:表現(xiàn)與數(shù)據(jù)值對(duì)應(yīng)的邊界或域?qū)ο蟮囊环N理論圖形表示方法
直方圖:直方圖是數(shù)值數(shù)據(jù)分布的精確圖形表示
盒圖:是結(jié)構(gòu)化編程中的一種可視化建模
概率圖:用圖來表示變量概率依賴關(guān)系的理論
2:以下關(guān)于缺失值檢測(cè)的說法中,正確的是
A.null和notnull可以對(duì)缺失值進(jìn)行處理
B.dropna方法既可以刪除觀測(cè)記錄,還可以刪除特征
C.fillna方法中用來替換缺失值的值只能是數(shù)據(jù)框
D.Pandas庫(kù)中的interpolate模塊包含了多種插值方法
**知識(shí)點(diǎn)解析:
處理缺失值的三種方法:isnull(),notnull(),isna()
3:在現(xiàn)實(shí)世界的數(shù)據(jù)中,缺失值是常有的,一般的處理方法有
A.忽略
B.刪除
C.平均值填充
D.最大值填充
2:判斷題
1:Pandas中利用merge函數(shù)合并數(shù)據(jù)表時(shí)默認(rèn)的是內(nèi)連接方式??正確
2:Pandas中的描述性統(tǒng)計(jì)一般會(huì)包括缺失數(shù)據(jù)??錯(cuò)誤
3:語(yǔ)句dataframe.dropna(thresh=len(df)*0.9,axis=1) 表示如果某列的缺失值超過90%則刪除該列??錯(cuò)誤
知識(shí)點(diǎn)解析:
格式:DataFrame.dropna(self, axis=0, how=‘a(chǎn)ny’, thresh=None, subset=None, inplace=False)
用途:刪除缺失的值。
thresh : int,可選需要許多非NA值。
axis : 0或’index’,1或’columns’,默認(rèn)0確定是否刪除包含缺失值的行或列。
0或’index’:刪除包含缺失值的行。 1或“列”:刪除包含缺失值的列。
可得此題應(yīng)為:如果某列的缺失值不到90%則刪除該列
4:利用merge方法合并數(shù)據(jù)時(shí)允許合并的DataFrame之間沒有連接鍵??錯(cuò)誤
5:?jiǎn)∽兞浚―ummy Variables)又稱虛擬變量,是用以反映質(zhì)的屬性的一個(gè)人工變量??正確
6:Pandas中使用isnull().sum()可以統(tǒng)計(jì)缺失值??正確
7:Pandas中的dropna中的thresh=N時(shí)表明要求一行有N個(gè)NaN值時(shí)該數(shù)據(jù)才能保留 ??錯(cuò)誤
8:DataFrame的duplicates方法可以用來刪除重復(fù)數(shù)據(jù) ??錯(cuò)誤
9:網(wǎng)絡(luò)關(guān)聯(lián)關(guān)系在大數(shù)據(jù)中是一種常見的關(guān)系 ??正確
3:填空題
1:Pandas中drop方法中的參數(shù)how取值為 ___時(shí)表示只要某行有缺失值就將改行丟棄??any
2:Pandas中drop方法中的參數(shù)how取值為 ___時(shí)表示某行全部為缺失值就將改行丟棄??all
3:Pandas通過read_json函數(shù)讀取___數(shù)據(jù)??JSON
4:Pandas要讀取Mysql中的數(shù)據(jù),首先要安裝 ___包,然后進(jìn)行數(shù)據(jù)文件讀取??Mysqldb
5:Pandas要讀取SQL sever中的數(shù)據(jù),首先要安裝 ___包,然后進(jìn)行數(shù)據(jù)文件讀取??pymssql
4:簡(jiǎn)答題
1:簡(jiǎn)述Pandas刪除空缺值方法dropna中參數(shù)thresh的使用方法
??dropna中的參數(shù)thresh當(dāng)傳入thresh = N時(shí),表示要求一行至少具有N個(gè)非NaN才能存活
2:簡(jiǎn)述Python中利用數(shù)據(jù)統(tǒng)計(jì)方法檢測(cè)異常值的常用方法及其原理
??方法:a.散點(diǎn)圖方法觀察 b. 箱線圖分析 c. 3σ法則
??原理:標(biāo)準(zhǔn)正態(tài)分布下的曲線為鐘型曲線,期望值μ決定了其位置,其標(biāo)準(zhǔn)差σ決定了分布的幅度。當(dāng)μ = 0,σ = 1時(shí)的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布。因此對(duì)于一組數(shù)據(jù),如果符合正態(tài)分布,則可以通過經(jīng)驗(yàn)法則來檢測(cè)異常值,同圖中可以發(fā)現(xiàn),68.2%的測(cè)量值落在μ值處正負(fù)一個(gè)標(biāo)準(zhǔn)差σ的區(qū)間內(nèi),95.4%的測(cè)量值將落在μ值處正負(fù)兩個(gè)標(biāo)準(zhǔn)差σ的區(qū)間內(nèi),99.7%的值落在μ值處正負(fù)三個(gè)標(biāo)準(zhǔn)差σ的區(qū)間內(nèi)。因此,對(duì)于一組符合正態(tài)分布的數(shù)據(jù),如果某個(gè)值距離μ值超過三個(gè)標(biāo)準(zhǔn)差σ則可以判斷這個(gè)值屬于異常數(shù)據(jù)
3:簡(jiǎn)述數(shù)據(jù)分析中要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化的主要原因
??不同特征之間往往具有不同的量綱,由此造成數(shù)值間的差異很大。因此為了消除特征之間量綱和取值范圍的差異可能會(huì)造成的影響,需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。文章來源:http://www.zghlxwxcb.cn/news/detail-451215.html
4:簡(jiǎn)述Pandas中利用cut方法進(jìn)行數(shù)據(jù)離散化的用法
??將數(shù)據(jù)的值域劃分成具有相同寬度的區(qū)間,區(qū)間個(gè)數(shù)由數(shù)據(jù)本身的特點(diǎn)決定或由用戶指定。Pandas提供了cut函數(shù),可以進(jìn)行連續(xù)型數(shù)據(jù)的等寬離散化。cut函數(shù)的基礎(chǔ)語(yǔ)法格式為:
pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3)文章來源地址http://www.zghlxwxcb.cn/news/detail-451215.html
到了這里,關(guān)于第五章Pandas數(shù)據(jù)載入與預(yù)處理的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!