国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

1+x_大數(shù)據(jù)應(yīng)用開發(fā)(python)職業(yè)技能(中級)

這篇具有很好參考價值的文章主要介紹了1+x_大數(shù)據(jù)應(yīng)用開發(fā)(python)職業(yè)技能(中級)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

大數(shù)據(jù)應(yīng)用開發(fā)(python)職業(yè)技能等級證書(中級),1+x證書考題。

題庫就是這些題,博主考試的時候全是下面的原題,總分100等于理論40+實操60,二者相加超過60分即可,建議大家把重點放在實操題上。

文末有百度網(wǎng)盤下載地址,供大家免費下載csv文件。

只要大家把這三套題練會,證書手到擒來,博主隨便背背就90了

1+x_大數(shù)據(jù)應(yīng)用開發(fā)(python)職業(yè)技能(中級),大數(shù)據(jù)開發(fā)學(xué)習(xí),大數(shù)據(jù),python,開發(fā)語言,pandas,sklearn

理論部分

單選題


在Linux系統(tǒng)下安裝ntp服務(wù)的命令正確的是( A )。
A.yum ?install ?ntp
B.yum ?remove ?ntp
C.yum ?update ?ntp
D.yum ?list
在實際生廣環(huán)境中獲取的數(shù)據(jù)可能存在缺失值,為了更好地進行數(shù)據(jù)分析,通常需要對缺失數(shù)據(jù)進行識別和處理,下列關(guān)于DataFrame.dropna()方法說法正確的是( C )。
A.DataFrame.dropna(axis=1,inplace=True):刪除帶有空值的行
B.DataFrame.dropna(axis-0,inplaces=Tnue):刪除帶有空值的列
C.DataFrame.dropna(axis=0,‘how=any’,inplace=True):刪除帶有空值的行
D.DataFrame.dropna(axis=1,‘how=all’,inplace=True):刪除全部為空值的行
下列關(guān)于Selenium庫的方法和作用不對應(yīng)的是( C )。
A.element_to_be_clickable()方法:元素可點擊
B.element_to_be_selecte()方法:元素可選擇,傳入元素對象
C.element_located_to_be_selected()方法:元素可選擇,傳入定位列表
D.invisibility_of_element_located()方法:元素不可見
正確搭建Hadoop集群的步驟是( A )。
①克隆虛擬機
②配置SSH免密碼登錄
③格式化
④修改配置文件
⑤配置時間同步服務(wù)
A.④①②⑤③
B.③②①⑤④
C.⑤①③②④
D.②⑤④①③
若需要構(gòu)建KNN模型,則在sklearn.neighbors模塊中可使用的類是( B ),
A.DecisionTreeClassifier
B.KNeighborsClassifier
C.MLPClassifier
D.KNN
在pandas庫中,下列關(guān)于DataFrame.groupby()方法說法錯誤的是(C)。
A.DataFrame.groupby()方法用于數(shù)據(jù)框分組聚合過程中的分組操作
B.使用DataFrame.groupby()方法分組后的結(jié)果并不能直接查看,而是被存在內(nèi)存中
C.group_keys參數(shù)指是否在運行的情況下對返回數(shù)據(jù)進行降維
D.as_index參數(shù)指聚合后的聚合標簽是否以DataFrames索引形式輸出
下列關(guān)于sklearn庫的預(yù)處理類說法正確的是( B )
A.MinMaxScaler:對特征進行標準差標準化
B.StandardScaler:對特征進行標準差標準化
C.FunctionTransformer:對定量特征進行二值化處理
D.OneHotEncoder:對特征進行自定義函數(shù)變換
在HTTP請求過程中,客戶端與服務(wù)器間的請求與響應(yīng)的具體步驟為( C )。
①發(fā)送HTTP請求
②釋放連接TCP連接
③連接Web服務(wù)器
④服務(wù)器接受請求并返回HTTP響應(yīng)
⑤客戶端解析HTML內(nèi)容
A.③②①④⑤
B.①③④②⑤
C.③①④②⑤
D.①②③④⑤
在HTTP請求中,客戶端向服務(wù)器發(fā)送一個請求報文,報文中的內(nèi)容不包括( D ),
A請求的方法
B.URL
C.請求頭部
D.響應(yīng)頭部
在Matplotlib庫中,設(shè)置圖形的x軸名稱的函數(shù)是( C )。
A.matplotlib.pyplot.ylim()函數(shù)
B.matplotlib.pyplot.xlim()函數(shù)
C.matplotlib.pyplot.xlabel()函數(shù)
D.matplotlib.pyplot.ylabel()函數(shù)
下列代碼的輸出結(jié)果是( D )
result=list(map(lambda x:x*x,[1,2,3,4,5,6,7,8,9]))
print(result)
A.2,6,12,20,30,42,56,72]
B.[362880]
C.[1,2,3,4.5,6,7,8,9]
D.[1,4,9,16,25,36,49,64,81]

在HTML中,下列狀態(tài)碼表示請求成的是( A ),
A.200
B.400
C.403
D.500
在NumPy庫中,下列不屬于數(shù)組的屬性的是( D )。
A.ndim
B.shape
C.size
D.add
通過代碼from skleam import metrics"導(dǎo)入評價指標模塊后,若需要構(gòu)建真實標簽true_labe和模型預(yù)測標簽predicted_label的混淆矩陣,則下列可使用的代碼是( B )。
A.confusion_matrix(predicted_label,true_label)
B.metrics.confusion_matrix(true_label,predicted_label)
C.metrics.confusion_matrix(predicted_label,true_label)
D.confusion_matrix(true_label,predicted_label)
在Windows系統(tǒng)下,將數(shù)據(jù)框(DataFrame)對象text存儲為D盤下的Excel文件,下列代碼正確的是( ? B ).
A.text.to_excel(‘D:\text.xisx’)
B.text.to_excel(‘D:\text.xlsx’)
C.text.to_csv(‘D:\text.xisx’)
D.text.to_csv(‘D:\text.xlsx’)
16.下列不屬于HTTP/1.1協(xié)議請求方法的是( D ?).

A.GET
B.POST
C.DELETE
D.PUSH

關(guān)閉集群的具體步驟為( B ?)。
①stop-dfs.sh
②stop-yaim.sh
③mr-jobhistory-daemon.sh stop historyserver
A.①②③
B.②①③
C.③②①
D.①③②
在通過代碼"from sklearn import tree"導(dǎo)入決策樹模塊,并通過代碼"clf=tree.DecislonTreeClassifler()"構(gòu)造分類器對像后,分類器對象clf在訓(xùn)練時需要調(diào)用的方法是( ?D ),
A.clf.train()
B.clf.learn()
C.clf.predict()
D.clf.fit()
在啞變量處理函數(shù)pandas.get_dummies()函數(shù)中,若要考慮缺失值的存在價值,則需調(diào)整的參數(shù)是( C ?)。
A.prefix
B.prefix_sep
C.dummy_na
D.sparse
Matplotlib庫是Python的常用繪圖庫,下列關(guān)于Matplotlib庫說法錯誤的是( ?D ?)
A.matplotilib.pyplot.xlim():用于限制x軸的顯示范圍
B.matplotlib.pyplot.figure(figsize=(2,2)):用于創(chuàng)建畫布,并設(shè)置畫布的大小為(2,2)
C.matplotlib.pyplot.subplot(231):用于將圖表的整個繪圖區(qū)域分為2行3列的區(qū)域,繪制的圖表位于區(qū)域中的第1行第1列
D.matplotlib.pyplot.plot(x,y,color=‘b’,linewidth=1.0,linestyle=‘_’:用于繪制折線圖,其中參數(shù)"color=b"是將線的顏色設(shè)置為黑色
關(guān)于下列代碼說法錯誤的是( ? D ?)。
import numpy as np
arr=np.array([0,1,2,3,4])
import pandas as pd
ser=pd.Series([0,1,2,3,4])
A.arr和ser雖然是不同的數(shù)據(jù)類型,但是同樣可以進行加法運算
B.arr和ser表達同樣的數(shù)據(jù)內(nèi)容
C.arr和ser都是一維數(shù)據(jù)
D.arr參與運算的執(zhí)行速度明顯比ser快
下列代碼的運行結(jié)果為( B ? )。
import re
var = re.findall(‘.?.?’,’(abc)def)[0]
print(var)
A.()
B.(abc)
C.def
D.(def)
下列關(guān)于BeautifulSoup中對象類型描述錯誤的是( ? B )
A.name屬性可以獲取及修改Tag對像名稱
B.attrs屬性可獲取Tag對象的HTML屬性,返回值為列表形式
C.string方法可獲取Tag對象中的文本字符串內(nèi)容
D.NavigableString對象無法被編輯
若需要構(gòu)建邏輯回歸模型,則在sklearn.linear_model模塊中可使用的類是( ? A )
A.LogisticRegression
B.SVC
C.LinearRegression
D.DecisionTreeClassifier
下列關(guān)于Jupyter Notebook說法錯誤的是( B ? ?)
A.Jupyter Notebook可以直接生成一份交互式文檔
B.Jupyter Notebook不可以安裝Python庫
C.Jupyter Notebook可以導(dǎo)出HTML文件
D.Jupyter Notebook可以分享文件
在pandas庫中,下列關(guān)于缺失值檢測說法正確的是( ?B ?)。
A.DataFrame.isnull()方法可以對缺失值進行處理
B.DataFrame.dropna()方法既可以刪除觀測記錄,也可以刪除特征
C.DataFrame.fillna()方法中用于替換缺失值只能是數(shù)據(jù)框
D.DataFrame.replace()方法能直接對缺失值進行處理
在Matplotlib庫中,下列關(guān)于柱狀圖bar函數(shù)的參數(shù)說法錯誤的是( B ?)。
A.linewidth:表示柱狀圖中每根柱了邊框完度
B.align:表示柱狀圖中每根柱子的高度
C.width:表示柱狀圖中每根柱子的寬度
D.color:表示柱狀圖中每根柱子的顏色
在pandas庫中,下列不屬于DataFrame.drop()方法的參數(shù)是( ?C ?)。
A.labels
B.level
C.dtype
D.inplace
下列關(guān)于pandas.concat()函數(shù)、DataFrame.append()方法、pandas.merge()函數(shù)和DataFrame.join()方法的說法正確的是( ?D ?)
A.pandas.concat()函數(shù)是常用的主鍵合并的函數(shù),能夠?qū)崿F(xiàn)數(shù)據(jù)框之間的內(nèi)連接和外連接
B.DataFrame.append()方法只能用于進行縱向堆疊,適用于所有數(shù)據(jù)框之間的縱向堆疊情況
C.pandas.merge()函數(shù)是常用的主鍵合并的函數(shù),但不能夠?qū)崿F(xiàn)數(shù)據(jù)框之間的左連接和右連接
D.DataFrame.join()方法是常用的主鍵合并方法,但不能夠?qū)崿F(xiàn)數(shù)據(jù)框之間的左連接和右連接
.下列可以實現(xiàn)導(dǎo)入頁面等待相關(guān)庫的代碼是( ?B )。
A.from selenium import webdriver
B.from selenium.webdriver.support.ui import WebDriverWait
C.from selenium.webdriver.common.by import By
D.from selenium.webdriver.support import expected_conditions
若要創(chuàng)建一個3×3的數(shù)組,則下列代碼錯誤的是( ?C ?)。
A.numpy.arange(0,9).reshape(3,3)
B.numpy.eye(3)
C.numpy.random.random([3,3,3])
D.numpy.array([[1,2,3],[4,5,6],[7,8,9]])
下列表示整型轉(zhuǎn)化為布爾型的代碼是( ? D )。
A.print(‘轉(zhuǎn)化結(jié)果為:’,np.f1oat64(42))
B.print(‘轉(zhuǎn)化結(jié)果為:’,np.int8(42.0))
C.print(‘轉(zhuǎn)化結(jié)果為:’,np.int(True))
D.print(‘轉(zhuǎn)化結(jié)果為:’,np.bool(42))

多選題


列關(guān)于Matplotiib庫說法錯誤的是( ?CD ?)
A.matplotlib.pyplot.figure(figsize=(2,2)):用于創(chuàng)建畫布,并設(shè)置畫布的大小為(2,2)
B.matplotlib.pyplot.plot(x,y,color-=‘r’,linewidth=5.O,linestyle=‘-’):用于繪制折線圖,其中l(wèi)inewidth參數(shù)用于設(shè)置線的寬度
C.natplotlib.pyplot.plot(x,y.color=‘b’,linewidth=1.0,linestyle=‘-’):用于繪制折線圖,其中參數(shù)”colar=b”是將線顏色設(shè)置為黑色
D.matplotlib.pyplot..subplot(2,2,1):用于將圖表的整個繪圖區(qū)域分為2行1列的區(qū)域,繪制的圖表位于區(qū)域中的第2行第1列
下列屬于數(shù)據(jù)清洗的操作是( ABCD ?)。
A刪除噪聲數(shù)據(jù)
B.刪除與挖掘主題無關(guān)的數(shù)據(jù)
C.處理缺失值
D.處理異常值
下列屬于HDFS保正可靠性的措施的是( ABCD )。
A.冗余備份:每個文件存儲成一系列數(shù)據(jù)塊(Block),,為了提高容錯率,文件的所有數(shù)據(jù)塊都會有副本
B.副本存放:采用機架感知(Rak-aware)的策略來改進數(shù)據(jù)的可靠性、高可用和網(wǎng)絡(luò)帶寬的利用率
C.心跳檢測:NameNode周期性地從集群中的每一個DataNode接受心跳包和塊報告,若收到心跳包則說明該DataNode工作正常
D.數(shù)據(jù)完整性檢測:HDFS客戶端軟件實現(xiàn)了對HDFS文件內(nèi)容的校驗和檢查
下列屬于Linux集群系統(tǒng)狀態(tài)監(jiān)控指標的是(ABCD ?)。
A.load
B.CPU利用率
C.磁盤剩余空間
D.內(nèi)存使用情況
下列關(guān)于sklear.model_selection模塊中的train_test_split類的參數(shù)說法正確舶的是( ABD ?)
A.test_size:測試集的大小
B.train_size:訓(xùn)練集的大小
C.andom_state:隨機種子編號,默認為1
D.shuffle:是否在拆分前對數(shù)據(jù)進行洗牌
下列屬于克隆CentOS6虛擬機之后需要修改的文件的是( ?ABC )
A./etc/udev/rules.d/70-persistent-net.rules
B./etc/sysconfig/network-scriptd/ifcfg-eth0
C./etc/sysconfig/network
D./etc/sysconfig/network-scriptd/ifcfg
urllib庫是Python內(nèi)置的HTTP請求庫,下列關(guān)于urllib庫說法正確的是( AB )
A.urllib.request:請求模塊
B.urllib.error:異常處理模塊
C.urllib.parse:robots.txt解析模塊
D.urllib.robotparser:URL解析模塊
現(xiàn)有一個DataFrame格式的數(shù)據(jù)集data,“col_name”為data中的一個列名,下列關(guān)于填充缺失值代碼的說去正確的是( ?AD ? )
A.data.fillna(0):用0對缺失值進行填充
B.data[‘ool_name’]fillna(data[‘col_name’].dropna().median(),inplace=True):用均值對缺失值進行填充
C.data[‘col_name’]fillna(method=’pad’):用缺失值的后一個數(shù)據(jù)對缺失值進行填充
D.data[‘col_name’].fillna(data[‘col_name’].dropna().mode()[0],inplace=True):用眾數(shù)缺失值進行填充
下列屬于HDFS針對數(shù)據(jù)流失可題提供的保護措施的是( ?ABC ?)。
A冗余備份
B.副本存放
C.宕機處理
D.固定副本個數(shù)
下列屬于使用Pyecharts庫可繪制的圖表的是( ABCD ? )。
A.日歷圖
B.漏斗圖
C.儀表盤
D.關(guān)系圖
聚焦網(wǎng)絡(luò)爬蟲又被稱作主題網(wǎng)絡(luò)爬蟲,下列屬于聚焦網(wǎng)絡(luò)爬蟲包括的爬行策略的是( ?ABCDABC ?)
A.基于內(nèi)容評價的爬行策略
B.基于鏈接結(jié)構(gòu)評價的爬行策略
C.基于增強學(xué)習(xí)的爬行策略
D.基于語境圖的爬行策略
在pandas庫中的DataFrame.duplicated()方法是針對DataFrame對像進行一個檢查重復(fù)值操作,下列關(guān)于DataFrame.duplicated()方法中的參數(shù)說法正確的是( ? ? ABC )
A.subset:列標簽或標簽序列,可選擇僅考慮某些列來標識重復(fù)項,默認情況下使用所有列
B.keep=‘frst’:將重復(fù)項標記為"True",第一次出現(xiàn)的重復(fù)項除外
C.keep=‘last’:將重復(fù)項標記為"True"”,最后一次出現(xiàn)的重復(fù)項除外
D.kep=False:將所有重復(fù)項標記方"False"
urllib庫是Python內(nèi)置的HTTP請求庫,下列關(guān)于urllib庫說法正確的是(AB )
A.urllib.request:請求模塊
B.urllib.error:異常處理模塊
C.urllib.parse: robots.txt解析模塊
D.urllib.robotparser:URL解析模塊
在Numpy庫中,下列關(guān)于切割2×2的二維數(shù)組arr的代碼及其對應(yīng)作用的說法正確的是( ? ABC )
A.numpy.hsplit(arr,2):實現(xiàn)數(shù)組arr的橫向分割
B.numpy.vsplit(arr,2):實現(xiàn)數(shù)組arr的縱向分割
C.numpy.split(arr,2,axis=1):實現(xiàn)數(shù)組arr的橫向分割
D.numpy.split(arr,2,axis=2):實現(xiàn)數(shù)組arr的縱向分割
下列屬于數(shù)據(jù)的質(zhì)量相關(guān)因素的是( ?ABCE ? )
A數(shù)據(jù)的準確性
B.數(shù)據(jù)的完整性
C.數(shù)據(jù)的一致性
D.數(shù)據(jù)的可解釋性
下列屬于可以聚合數(shù)據(jù)的方法的是( ?ABD ?)。
A.DataFrame.agg()
B.DataFrame.apply()
C.DataFrame.pivot()
D.DataFrame.transform()

判斷題


使用Python網(wǎng)絡(luò)爬蟲技術(shù)可以獲取網(wǎng)頁、圖片和視頻數(shù)據(jù)。(? ? )
在使用pandas.pivot_table()函數(shù)時,若不指定aggfunc參數(shù)使用的聚合函數(shù),則會默認使用numpy.mean()函數(shù)進行聚合運算。( ? ? )
在Python環(huán)境中,Seaborn庫、Matplotlib庫和BeautifulSoup庫均主要用于數(shù)據(jù)可視化分析。( ?? ?)
在NumPy庫中,使用數(shù)組進行簡單統(tǒng)計分折的排序方法有直接排序和間接排序。( ?? ?)
NumPy數(shù)組的水平分割采用vsplit函數(shù),其等價于numpy.split(axis=1).( ? )
水球圖是一種擬物化的圖表,能夠直觀地表現(xiàn)出某個帽標指標的進度或是實際情況.在pyecharts庫中,水球圖可以設(shè)置波浪顏色,但波浪狀態(tài)不可以設(shè)置為動態(tài),只能是靜態(tài)的.( ?? )
在pandas庫中,使用pivot_table函數(shù)創(chuàng)建透視表時,分組鍵index有且只能有一個。(? ? )
在數(shù)據(jù)可視化報告中只需要包含圖形,不需要對圖形進行分析。( ?? ?)
在Linux系統(tǒng)中,為使其它用戶可直接使用“cd”命令進入某目錄,該目錄需預(yù)先設(shè)置其它用戶的讀權(quán)限。( ?? )
離散屬性的值只能是有限個。( ? ?)
K均值聚類是一種基于密度的聚類算法,聚類個數(shù)可由算法自動地確定。( ? )
在MySQL中,擁有最高權(quán)限的超級用戶的用戶名為Administrator。(? ? )
51.數(shù)據(jù)挖據(jù)的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則,從而能更好地完成描述數(shù)據(jù)和預(yù)測數(shù)據(jù)等任務(wù)。( ?? ?)

在使用Requests庫時,若想修改和添加Request庫中的headers對像,則可以使用add_header()方法( ? ?)
53.在Python環(huán)境中,被三引號包圍的一定是字符串( ?? )

54.在train_test_split函數(shù)中,test_size參數(shù)表示測試集的大?。??? ?)

55.Hadoop框架是用Java實現(xiàn)的( ?? )

56.在服務(wù)端HTTP的響應(yīng)狀態(tài)碼中,403表示服務(wù)器無法找到請求頁面。( ? ?)

57.K-Means算法一般采用歐式距離作為樣本間相似性的度量,即認為兩個樣本的距離城近,其相以性就越大( ? ? )

58.Linux操作系統(tǒng)的管理員權(quán)限和普通用戶權(quán)限相同( ? ?)

re.findall()函數(shù)的作用是在字符串中找到同正則表達式所匹配的所有子字符串,并返回一個列表,如果沒有找到匹配的,則返回空列表。( ? ?)
數(shù)據(jù)可視化旨在借助圖形化手段,清晰有效地傳達出繁雜數(shù)據(jù)中的信息。( ?)
如果缺失數(shù)據(jù)太多,可以建立模型,使用插補方式來填充數(shù)據(jù)。( ? ? ?)
在Pandas庫中,預(yù)處理缺失值時可以使用DataFrame.isnull()方法來判斷數(shù)據(jù)框中的元素是否為缺失值.( ? ? ?)
在Pandas庫中DataFrame對象使用duplicated()方法可以刪除數(shù)據(jù)中的重復(fù)項。( ? ? )
Seaborn庫比Matplotlib庫功能更多,可以獨立于Matplotlib庫進行使用( ? ? )
網(wǎng)絡(luò)爬蟲是一個自動下載網(wǎng)頁的計算機程序或者一個自動化腳本。( ? ? ?)
在使用Seaborn庫繪圖時,可以輸入代碼”sns.set_style(‘white’)”將畫布背景設(shè)置為白色.( ? ? ?)
67.在正則表達式語法中,“.”可以匹配任意字符。(? ? )

68.在MySQL中,擁有最高權(quán)限的超級用戶的用戶名為Administrator。( ?? ?)

實操部分

A卷:


因為NumPy數(shù)組在數(shù)值運算方面的效率優(yōu)于Python提供的list,所以靈活掌握NumPy中數(shù)組的創(chuàng)建和基礎(chǔ)的運算是有必要的.請使用NumPy庫,編寫Python代碼完成下列操作!
啟動Jupyter Notebook創(chuàng)建一個Notebook。

#(1)啟動Jupyter Notebook創(chuàng)建一個Notebook。(2分)
# #(2)創(chuàng)建一個數(shù)值從o至1,間隔為e.01的數(shù)組arr1。(2分)
import numpy as np
arr1 = np.arange(0,1.01,0.01)
#(3)創(chuàng)建一個包含101個服從正態(tài)分布的隨機數(shù)的數(shù)組arr2。(注意:數(shù)組arr2為一維數(shù)組)(2分)
arr2 = np.random.randn(101)
#(4)對數(shù)組arr1和數(shù)組arr2進行四則運算。(四則運算包括加、減、乘、除運算)(2分)
print('兩數(shù)組之和為:\n ', arr1 + arr2)
print( '兩數(shù)組之差為:\n ' , arr1 - arr2)
print( '兩數(shù)組之積為: \n ', arr1 *arr2)
print( '兩o數(shù)組之商為:\n ', arr1 / arr2)
#(5)對數(shù)組arr2進行簡單的統(tǒng)計分析。(統(tǒng)計分析包括對數(shù)組進行升序排序、求和、求均值、求標準差和求最小值操作)。
print('排序后數(shù)組為: ', np.sort( arr2))
print('數(shù)組的和為: ', np.sum( arr2))
print('數(shù)組的均值為: ', np.mean( arr2))
print( '數(shù)組的標準差為: ', np.std(arr2))
print('數(shù)組的最小值為: ', np.min( arr2))
#(6)將數(shù)組arr1和數(shù)組arr2存儲為當(dāng)前工作路徑下的一個二進制格式的文件arr.npz。(2分)
np.savez( ' arr.npz' , arr1, arr2)


?

2.請編寫Python代碼,對鳶尾花數(shù)據(jù)完成下列操作:

# (1)讀取數(shù)據(jù)文件iris.csv,儲存為數(shù)據(jù)框iris,并將數(shù)據(jù)框的列名稱從左至右依次改修為"“sepal_length""sepal_width""petal_length""petal_width""class”。(3分)
import pandas as pd
iris = pd .read_csv( 'iris.csv ' , header=None)
iris.columns = [ 'sepal_length', 'sepal_width', 'petal_length' , 'petal_width ', 'class']
#(2)將數(shù)據(jù)框iris中“petal_length”列的第o行至第9行設(shè)置為缺失值。(注意:在Python中,索引為e開始。) (3分)
iris.loc[0: 9, 'petal_length' ] = None
#(3)將數(shù)據(jù)框iris中"petal_length”列的缺失值全部替換為1.0。(3分)
iris[ 'petal_length ' ].fillna(1.0,inplace=True)
#(4)冊刪除數(shù)據(jù)框iris中"class”列。(2分)
del iris[ 'class']
#(5)將數(shù)據(jù)框iris的前3行設(shè)置為缺失值。(2分)
iris.iloc[0: 3,: ] = None
#(6)冊除數(shù)據(jù)框iris中存在缺失值的行。(2分)
iris.dropna(how= 'any ' , inplace=True)
#(7)重新設(shè)置數(shù)據(jù)框iris的行索引。(3分)
iris.reset_index(drop=True,inplace=True)
#(8)將數(shù)據(jù)框iris保存到當(dāng)前工作路徑下并命名為iris_new.csv。(2分)
iris.to_csv( 'iris_new.csv ')

3.葡萄酒是以葡萄為原料釀造的一種果酒。葡萄酒的品種很多,因葡萄的栽培、葡萄酒生產(chǎn)工藝條件的不同,產(chǎn)品風(fēng)格各不相同。Wine數(shù)據(jù)集包含3種不同的葡萄酒的記錄共178條。其中,每個特征對應(yīng)葡萄酒的每種化學(xué)成分,并且都屬于連續(xù)型數(shù)據(jù),誦過對wine數(shù)據(jù)集的數(shù)據(jù)進行聚類,實現(xiàn)葡萄酒的類別劃分.
請依據(jù)wine數(shù)據(jù)集,編寫Python代碼完成下列操作:

#(1)讀取數(shù)據(jù)文件wine.csv,并儲存為數(shù)據(jù)框wine。(1分)
import pandas as pd
wine = pd.read_csv( 'wine.csv ' , encoding='gb18030 ')
# (2)查詢據(jù)框wine中是否存在缺失值。若存在缺失值,則需對其進行處理,反之,則無需處理。(2分)
print(wine.isnull().sum())# 由此可知無空值,無需處理
# (3)在wine數(shù)據(jù)集中,“Class”列為葡萄酒的類別,分別為1、2、3。繪制各類別的數(shù)量占比餅圖。(4分)
wine_class = wine[ 'Class '].value_counts()#各類別數(shù)量
import matplotlib.pyplot as plt
plt.rcParams[ 'font.sans-serif' ] = 'SimHei' # 正常顯示中文
plt.rcParams[ 'axes.unicode_minus '] = False# 正常顯示符號
plt.pie(wine_class,labels=wine_class.index,autopct='%.2f%%')#小數(shù)點個數(shù)
plt.title( '各紅酒類別占比圖')
plt.show()
#(4)將數(shù)據(jù)框wine的數(shù)據(jù)和標簽進行拆分,分別儲存至數(shù)據(jù)框wine_data和數(shù)據(jù)框wine_label。(3分)
wine_data = wine.iloc[ : , 1: 14]#數(shù)據(jù)
wine_label = wine.iloc[ : , 0]#標簽
#(5)將數(shù)據(jù)劃分為訓(xùn)練集和測試集,訓(xùn)練集和測試集樣本數(shù)比例為8:2,并將訓(xùn)練集數(shù)據(jù)、測試集數(shù)據(jù)、訓(xùn)練集標簽和測試集標簽分別儲存至數(shù)據(jù)框wine_train、數(shù)據(jù)框wine_test、數(shù)據(jù)框wine_train_label和數(shù)據(jù)框wine_test_label。(3分)
from sklearn.model_selection import train_test_split
wine_train,wine_test,wine_train_label,wine_test_label = train_test_split\
    (wine_data,wine_label,test_size=6.2,random_state=42)
#(6)構(gòu)建聚類數(shù)目為3的K-Means模型,并命名為kmeans。(4分)
from sklearn.cluster import KMeans# 導(dǎo)入分類器庫
kmeans = KMeans(n_clusters = 3,random_state=123).fit(wine_train)#構(gòu)建并訓(xùn)練模型#(7)對比真實標簽和聚類標簽,求取FMI (FMI為聚類模型的評價指標),并輸出其結(jié)果。(4分)
from sklearn.metrics import fowlkes_mallows_score
score = fowlkes_mallows_score(wine_train_label.tolist(),kmeans.labels_)
print( 'wine數(shù)據(jù)集的類中心為3時,其FMI的評價分值為:%f '%score)
#(8)當(dāng)聚類數(shù)目為2~10類時,確定最優(yōu)聚類數(shù)目。(4分)
for i in range(2,11):
    kmeans = KMeans(n_clusters=i,random_state = 123).fit(wine_train)
    score = fowlkes_mallows_score(wine_train_label,kmeans.labels_)
    print('wine數(shù)據(jù)聚%d類FMI評價分值為:%f' % (i, score))
# 由此可知,最優(yōu)聚類數(shù)目為2

B卷:

4.國際象棋棋盤是個正方形,由橫縱向各8格、顏色一深一淺交錯制排列的64個小方格組成,深色格為黑格,淺色格為白格,棋子就在這些格子中移動。接下來創(chuàng)建一個與國際象棋棋盤相似的8×8矩陣。
?

# (1)啟動Jupyter Notebook創(chuàng)建一個Notebook。
# (2)創(chuàng)健一個8×8的全0數(shù)組,并儲存至數(shù)組arr。
import numpy as np
arr =np.zeros((8,8))
# (3).將數(shù)組arr的奇數(shù)行奇數(shù)列和偶數(shù)行偶數(shù)列的元素設(shè)置為1。
for i in range(8):
    for j in range(8):
        if(i+j)%2 ==0:
            arr[i][j] =1
# (4).將數(shù)組arr轉(zhuǎn)換為矩陣matr1。
matr1 =np.matrix(arr)
# (5).將矩陣matr1轉(zhuǎn)置為矩陣matr2,并判斷矩陣mate1與矩陣matr2是否完全相同。
matr2=matr1.T
print((matr1 ==matr2).all())
# (6)將柜陣matr2存儲為當(dāng)前工作路徑下的一個二進制格式的文件matr2.npy。
np.save('matr2.npy',matr2)

5.招聘數(shù)據(jù)探索與分析。
?

# (1)讀取數(shù)據(jù)文件job_info.csv,并儲存為數(shù)據(jù)框job_info.
import pandas as pd
import re
job_info =pd.read_csv('job_info.csv',encoding='GBK',header=None)
job_info.head()
# (2)將數(shù)據(jù)框job_info的列名稱從左至右依次修改為”公司”“崗位”"工作地點”“工資”“發(fā)布日期”。
job_info.columns=['公司','崗位','工作地點','工資','發(fā)布日期']
job_info.head()
# (3)統(tǒng)計數(shù)據(jù)中需求最多的崗位招聘,并輸出其結(jié)果。
print(job_info['崗位'].value_counts().index[0])
# (4).獲取數(shù)據(jù)中9月3日發(fā)布的招聘信息,并輸出其結(jié)果。
print(job_info[job_info['發(fā)布日期']=='09-03'])
# (5).獲取工作地點在深圳的數(shù)據(jù)分析師招聘信息,并輸出其結(jié)果。
job_info.loc[(job_info['工作地點'].apply(lambda x:'深圳' in x ))&(job_info['崗位']=='數(shù)據(jù)分析師'),:]
# (6)獲取在“工資”列中,以“千/月”或“千/年”或“萬/月”或“萬/年”結(jié)尾的數(shù)據(jù)所在的行的數(shù)據(jù),并儲存至數(shù)據(jù)框ob_info_new。
job_info['工資'].str[-1].value_counts()
job_info['工資'].str[-3].value_counts()
index1=job_info['工資'].str[-1].apply(lambda x:x in ['月','年'])
index2=job_info['工資'].str[-3].apply(lambda x:x in ['千','萬'])
job_info_new =job_info[index1 & index2]
job_info_new.shape
# (7)根據(jù)“工資”列,在數(shù)據(jù)框job_info_new中,新增最低工資和最高工資兩列,列名分別設(shè)置為“最低工資(元/月)”和“最高工資(元/月)”。(
# 注意:這兩列數(shù)據(jù)的單位是“元/月”,例如:若2-2.5萬/月,則最低工資為20000,最高工資為25000.)
def get_max_min_value(x):
        try:
                if x[-3] == '萬':
                        a = [float(i)* 10000 for i in re.findall('\c+\.?\c*',x)]
                elif x[-3]== '千':
                        a = [float(i)* 1000 for i in re.findall('\c+\.?\c*',x)]
                if x[-1] == '年':
                        a = [i/12 for i in a ]
        except:
                pass
        return a
    salary = job_info_new['工資'].apply(get_max_min_value)
job_info_new['最低工資'] = salary.str[0]
job_info_new['最高工資'] = salary.str[1]

6.sklean庫不僅囊括了很多機器學(xué)習(xí)的算法,而但也自帶了許多經(jīng)典的數(shù)據(jù)集,鳶尾花數(shù)據(jù)集就是其中之一。鳶尾花數(shù)據(jù)集包含150個數(shù)據(jù)樣本,分為3類,每類50個數(shù)據(jù),每個數(shù)據(jù)包含4個特征,分別為SepalLength(花萼長度)、SepaIWidth(花萼寬度)、PetalLength(花瓣長度)、PetalWidth(花瓣寬度),通過這4個特征可劃分鳶尾花的美的類別。
請根據(jù)鳶尾花數(shù)據(jù),編寫Python代碼完成下列操作:

# (1)使用sklearn庫加載鳶尾花數(shù)據(jù)和數(shù)據(jù)標簽,將鳶尾花數(shù)據(jù)儲存至數(shù)據(jù)框data,數(shù)據(jù)標簽儲存至數(shù)據(jù)框label。
from sklearn.datasets import load_iris
iris =load_iris()
data =iris['data']
label=iris['target']
# (2)統(tǒng)計數(shù)據(jù)中鳶尾花的類別數(shù),并輸出其結(jié)果。
print(len(set(label)))
# (3)以花萼長度為x軸,花萼寬度為y軸,繪制并展示散點圖。
import matplotlib.pyplot as plt
plt.scatter(data[:,0],data[:,1])
plt.show()
# (4).將加載好的鳶尾花數(shù)據(jù)集劃分成訓(xùn)練集和測試集兩部分,訓(xùn)練集和測試集樣本數(shù)比例為8:2,井將訓(xùn)練集數(shù)據(jù)、測試集數(shù)據(jù)
# .訓(xùn)練集標簽和測試集標簽分別儲存至數(shù)據(jù)框x_train,數(shù)據(jù)框x_test,數(shù)據(jù)框y_train和數(shù)據(jù)框y_tes.
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test =train_test_split(data,label,test_size=0.2)
# (5)對數(shù)據(jù)框x_train和數(shù)據(jù)框x_test進行離差標準化,將標準化后的訓(xùn)練集和測試集數(shù)據(jù)分別儲存至數(shù)據(jù)框scaler_x_train和數(shù)據(jù)
# 框scler_x_test(注意:測試集數(shù)據(jù)需使用和訓(xùn)練集數(shù)據(jù)相同的規(guī)職則進行標準化。)
from sklearn.preprocessing import MinMaxScaler
scaler =MinMaxScaler().fit(x_train)
scaler_x_train =scaler.transform(x_train)
scaler_x_test = scaler.transform(x_test)
# (6).構(gòu)建決策樹分類模型,命名為model,并進行模型訓(xùn)練.
from sklearn.tree import DecisionTreeClassifier
model=DecisionTreeClassifier()
model.fit(scaler_x_train,y_train)
# (7)對構(gòu)建的模型進行性能評估,并輸出其結(jié)果。(性能評估包括計算精確率、召回率和F1值等分類評估指標、)
from sklearn.metrics import classification_report
pre=model.predict(scaler_x_test)
res=classification_report(y_test,pre)
print(res)

C卷:

7.NumPy是用于數(shù)據(jù)科學(xué)計算的庫。請使用NumPy庫,編寫Python代碼求解各坐標點之間的距離。

# (1)啟動Jupyter Notebook創(chuàng)建一個Notebook。
# (2).隨機生成100個二維坐標點,并儲存至數(shù)組arr1。
import numpy as np
x =np.linspace(0,10,100)
y =np.linspace(10,20,100)
arr1 =np.array((x,y)).T
# (3)計算各樣本點之間的歐氏距離,并儲存至數(shù)組arr2。
arr2 =[]
for i in range(len(arr1)):
        for j in range(len(arr1)):
                a = np.sqrt((arr1[i,0] - arr1[j,0]) ** 2 +(arr1[i,1])** 2)
                arr2.append(a)
arr2 =np.array(arr2)
# (4)將數(shù)組arr2的形狀轉(zhuǎn)換為(100,100)。
arr2=arr2.reshape(100,100)
# (5)將數(shù)組arr2存儲為當(dāng)前工作路徑下的一個二進制格式的文件arr2.npy。
np.save('arr2.npy',arr2)

8.用戶用電量數(shù)據(jù)探索與分析。
data數(shù)據(jù)集為用戶用電量數(shù)據(jù),其中包含3個字段,具體特征說明如下:

特征名稱

特征說明

CONS_NO表示用戶編號1-200的200位電力用戶

DATA_DATE表示時間,如2015/1/1表示2015年1月1日

KWE表示用戶電量請根據(jù)用戶用電量數(shù)據(jù),編寫Python代碼完城下列操作:

# (1)讀取數(shù)據(jù)文件data.csv,并儲存為數(shù)據(jù)框data。
import pandas as pd
data = pd.read_csv('data.csv',parse_dates=['DATA_DATE'],encoding='gbk')
# 將數(shù)據(jù)框data轉(zhuǎn)換為行索引為用戶編號、列索引為時間、值為用戶用電量的數(shù)據(jù)透視表data_new。
data_new = pd.pivot_table(data=data,values='KWH',index='CONS_NO',columns='DATA_DATE')
# (3)采用四分位法對透視表data_new中的異常數(shù)據(jù)進行識別并處理。
def clear_(x=None):
        QL=x.quantile(0.25)
        QU=x.quantile(0.75)
        IQR = QU -QL
        x[((x > QU +1.5 * IQR)| (x < QU -1.5 * IQR))] = None
        return x
data_new.apply(clear_,axis=0)
# (4)構(gòu)造持證1:統(tǒng)計每個用戶用電數(shù)據(jù)的基本統(tǒng)計量(基本統(tǒng)計量包括最大值、最小值、均值、中位數(shù)),并將結(jié)果儲存至數(shù)據(jù)框feature1。
feature1 = data_new.agg(['max','min','mean','median'],axis=1)
# (5)構(gòu)造特證2:將每個用戶用電數(shù)據(jù)按日差分后,求取基本統(tǒng)計量(基本統(tǒng)計量包括最大值、最小值、均值.中位數(shù)),將結(jié)果儲存至數(shù)據(jù)框feature2。
feature2 =data_new.diff(axis=1).agg(['max','min','mean','median'],axis=1)
# 構(gòu)造特征3:求每個用戶的5%分位數(shù),并將結(jié)果儲存至數(shù)據(jù)框feature3.
feature3 =data_new.quantile(0.05 ,axis=1)
# (7)構(gòu)造特征4:統(tǒng)計每個用戶的日用電量在其最大值0.9倍以上的次數(shù),并將結(jié)果儲存至數(shù)據(jù)框feature3.
feature4 =data_new.apply(lambda x: sum(x> x.max() *0.9),axis=1)
# 合井特征1、特征2、特征3和特征4,并儲存孕數(shù)據(jù)框feature4。
feature=pd.concat([feature1,feature2,feature3,feature4],axis=0)
# 將數(shù)據(jù)框feature保存到當(dāng)前工作路徑下并命名為feature.csv。
feature.to_csv('feature.csv')

9.泰坦尼克號是英國白星航運公司下轄的一搜奧林匹克級HYPERLINK游輪,1909年在哈蘭德與沃爾夫造船廠動工建造.1911年下水,1912年完工試航
泰坦尼克號是當(dāng)時世界上體積最龐大、內(nèi)部設(shè)施最豪華的客運輪船,有“永l不沉沒”的美譽。然而不幸的是,在它的處女航中,泰坦尼克號便遭厄運。1912年4月14日,泰坦尼克號與一座冰山相撞,造成右舷船艏至船中部破裂,五間水密艙進水.4月15日,泰坦尼克船體斷裂成兩截后沉入大西洋底3700米處。2224名船員及乘客中,1517人喪生。經(jīng)過探究發(fā)現(xiàn),似乎有些人比其他人更有生存的可能。接下來通過其生存與遇難的人的數(shù)據(jù),預(yù)測乘客生還人數(shù)。
數(shù)據(jù)文件為titanic.csv,具體特征說明如下:

特征名稱

特征說明

PassengerId乘客編號Survived是否生還。1為生還,0為未生還Pclass船艙號Sex性別Fare船票價格SibSp兄妹個數(shù)Parch父母子女個數(shù)請根據(jù)數(shù)據(jù),編寫Python代碼完成下列要求:

# (1)讀取數(shù)據(jù)文件titanic.csv,并儲存為數(shù)據(jù)框titanic.
import numpy as np
import pandas as pd
titanic =pd.read_csv('titanic.csv')
# 計算乘客生還人數(shù),并輸出其結(jié)果.
titanic['Survived'].sum()
# 繪制男女乘客比例餅圖,并添加標題”男女乘客比例餅圖”。
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']='SimHei'
plt.rcParams['axes.unicode_minus']=False
sex_=titanic['Sex'].value_counts()
plt.pie(sex_.values,labels=['Male','Female'],autopct='%1.1f%%',startangle=90)
plt.title('男女乘客比例餅圖')
plt.show()
# 繪制船票價格直方圖,并添加x軸標題”船票價格”和y軸標題”頻次”。(注意:需先對”船票價格”進行升序排序)
df =titanic['fare'].sort_values(ascending=False)
plt.figure()
plt.hist(df,bins=(np.arange(0,550,10)))
plt.xlabel('船票價格')
plt.ylabel('頻次')
plt.title('船票價格直方圖')
plt.show()
# (5)在數(shù)據(jù)框titanic中,新增一列為家庭人數(shù),并將列名設(shè)置為familysize"。
titanic['familysize']=titanic.loc[:,'SibSp']+titanic.loc[:,'Parch']+1
# (6)修改數(shù)據(jù)框titanic的”Sex”列,使用數(shù)值”1”和”0”分別代替”Sex”列中的”male”和”female”。
titanic['Sex']=titanic['Sex'].map({'female':0,'male':1}).astype(int)
# (7)根據(jù)“Pclass”、“Sex”和“familysize”這三個特征預(yù)測乘客是否生還。將數(shù)據(jù)集劃分成訓(xùn)練集和測則試集兩部分,訓(xùn)練集和測試集樣本數(shù)比例為8:2
from sklearn.model_selection import train_test_split
x= titanic.loc[:,['Pclass','Sex','familysize']]
y= titanic.loc[:,['Survived']]
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.2,random_state=42)
# 構(gòu)建KNN模型,命名為clf,并進行模型訓(xùn)練。
from sklearn ?import neighbors
clf = neighbors.KNeighborsClassifier(n_neighbors=20)
clf.fit(x_train,y_train)
# 使用測試集數(shù)據(jù)進行模型預(yù)測,并將結(jié)果儲存至數(shù)組pre。
pre =clf.predict(x_test)
# 對構(gòu)建的模型進行性能評估,并輸出其結(jié)果。(性能評估包括計算精確率、召回率和F1值等分類評估指標。)
from sklearn.metrics import classification_report
res = classification_report(y_test,pre)

csv文件下載地址:

1+x_大數(shù)據(jù)應(yīng)用開發(fā)(python)職業(yè)技能(中級),大數(shù)據(jù)開發(fā)學(xué)習(xí),大數(shù)據(jù),python,開發(fā)語言,pandas,sklearn

https://pan.baidu.com/s/1O4pln7Dq8JaDXDv-n-Y0ZQ?pwd=hhh3文章來源地址http://www.zghlxwxcb.cn/news/detail-752165.html

到了這里,關(guān)于1+x_大數(shù)據(jù)應(yīng)用開發(fā)(python)職業(yè)技能(中級)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包