練習6:上機題目
一:實驗?zāi)康呐c要求
1:了解R語言中各種圖形元素的添加方法,并能夠靈活應(yīng)用這些元素。
2:了解R語言中的各種圖形函數(shù),掌握常見圖形的繪制方法。
二:實驗內(nèi)容
1:某銀行在降低貸款拖欠率的數(shù)據(jù) bankloan 的示例數(shù)據(jù)。
2:比較違約與不違約情形不同特征的人群分布。
3:探索不同特征的人群收入與負債的分布情況。口 探索不同特征的人群收入與負債的關(guān)系。
三:實驗方法與步驟
1)數(shù)據(jù)預(yù)處理,調(diào)整數(shù)據(jù)類型,按照年齡、工齡分組。
2)繪制違約與不違約客戶的年齡、教育和工齡的條形圖、Cleveland 點圖。
3)繪制不同年齡、教育和工齡的客戶收入與負債的直方圖、核密度圖、箱線圖、小揭琴圖。
4)繪制不同年齡、教育和工齡下客戶的收入與負債的散點圖。
第1步:讀入數(shù)據(jù)
bankloan <- read.csv(file="bankloan.csv", header=T) bankloan |
第2步:按照年齡分組
(agesort <- cut(bankloan$age,c(0,10,20,30,40,50,60))) |
第3步:按照工齡分組
(worksort <- cut(bankloan$seniority,c(0,5,10,20,30,40), include.lowest = T)) |
第4步:繪制違約與不違約客戶的年齡條形圖
library(ggplot2) ggplot(data=bankloan,aes(x=agesort,fill=agesort))+geom_bar()+facet_wrap(~default) |
第5步:繪制違約與不違約客戶的教育條形圖
ggplot(data=bankloan,aes(x=education,fill=education))+geom_bar()+facet_wrap(~default) |
第6步:繪制違約與不違約客戶的工齡條形圖
ggplot(data=bankloan,aes(x=worksort,fill=worksort))+geom_bar()+facet_wrap(~default) |
第7步:繪制違約與不違約客戶的年齡Cleveland點圖
ggplot(data=bankloan,aes(x=age,y=age))+geom_point()+facet_wrap(~default) |
第8步:繪制違約與不違約客戶的教育Cleveland點圖
ggplot(data=bankloan,aes(x=education,y=education))+geom_point()+facet_wrap(~default) |
第9步:繪制違約與不違約客戶的工齡Cleveland點圖
ggplot(data=bankloan,aes(x=seniority,y=seniority))+geom_point()+facet_wrap(~default) |
?
第10步:繪制不同年齡的客戶收入與負債的直方圖
ggplot(data=bankloan,aes(x=age,group=factor(income)))+geom_histogram() |
第11步:繪制不同教育的客戶收入與負債的直方圖
ggplot(data=bankloan,aes(x=education,group=factor(income)))+geom_histogram() |
第12步:繪制不同工齡的客戶收入與負債的直方圖
ggplot(data=bankloan,aes(x=seniority,group=factor(income)))+geom_histogram() |
第13步:繪制不同年齡的客戶收入與負債的核密度圖
ggplot(data=bankloan,aes(x=income,group=factor(age),colour=factor(age)))+geom_density() ggplot(data=bankloan,aes(x=debt_rate,group=factor(age),colour=factor(age)))+geom_density() |
第14步:繪制不同教育的客戶收入與負債的核密度圖
ggplot(data=bankloan,aes(x=income,group=factor(education),colour=factor(education)))+geom_density() ggplot(data=bankloan,aes(x=debt_rate,group=factor(education),colour=factor(education)))+geom_density() |
第15步:繪制不同工齡的客戶收入與負債的核密度圖
ggplot(data=bankloan,aes(x=income,group=factor(seniority),colour=factor(seniority)))+geom_density() ggplot(data=bankloan,aes(x=debt_rate,group=factor(seniority),colour=factor(seniority)))+geom_density() |
?
第16步:繪制不同年齡的客戶收入與負債的箱線圖
ggplot(bankloan,aes(x=age,y=income))+geom_boxplot() ggplot(bankloan,aes(x=age,y=debt_rate))+geom_boxplot() |
第17步:繪制不同教育的客戶收入與負債的箱線圖
ggplot(bankloan,aes(x=education,y=income))+geom_boxplot() ggplot(bankloan,aes(x=education,y=debt_rate))+geom_boxplot() |
第18步:繪制不同工齡的客戶收入與負債的箱線圖
ggplot(bankloan,aes(x=seniority,y=income))+geom_boxplot() ggplot(bankloan,aes(x=seniority,y=debt_rate))+geom_boxplot() |
第19步:繪制不同年齡的客戶收入與負債的小揭琴圖
ggplot(bankloan,aes(factor(age),income))+geom_violin() ggplot(bankloan,aes(factor(age),debt_rate))+geom_violin() |
第20步:繪制不同教育的客戶收入與負債的小揭琴圖
ggplot(bankloan,aes(factor(education),income))+geom_violin() |
第21步:繪制不同工齡的客戶收入與負債的小揭琴圖
ggplot(bankloan,aes(factor(seniority),income))+geom_violin() ggplot(bankloan,aes(factor(seniority),debt_rate))+geom_violin() |
?
?
第22步:繪制不同年齡下客戶的收入與負債的散點圖。
ggplot(bankloan,aes(income,debt_rate))+geom_point(aes(colour=factor(age))) |
第23步:繪制不同教育下客戶的收入與負債的散點圖。
ggplot(bankloan,aes(income,debt_rate))+geom_point(aes(colour=factor(education))) |
第24步:繪制不同工齡下客戶的收入與負債的散點圖。
ggplot(bankloan,aes(income,debt_rate))+geom_point(aes(colour=factor(seniority))) |
四:思考與實驗總結(jié)
1)如何選擇繪制的圖形類型?
選擇繪制的圖形類型通常取決于數(shù)據(jù)的類型和分析的目的。
柱狀圖(Bar Plot):用于顯示不同類別之間的頻數(shù)或數(shù)量關(guān)系。適用于比較類別變量之間的差異。
折線圖(Line Plot):用于顯示連續(xù)變量隨時間或其他有序變量的變化。適用于顯示趨勢和變化的方向。
散點圖(Scatter Plot):用于顯示兩個連續(xù)變量之間的關(guān)系。適用于發(fā)現(xiàn)變量之間的相關(guān)性和觀察異常值。
箱線圖(Box Plot):用于顯示連續(xù)變量的分布情況,包括中位數(shù)、四分位數(shù)和異常值。適用于比較多個組的分布,并識別異常值。
直方圖(Histogram):用于顯示連續(xù)變量的分布情況。適用于了解數(shù)據(jù)的分布形狀和集中程度。
密度圖(Density Plot):用于顯示連續(xù)變量的分布密度估計。適用于比較兩個或多個分布,并觀察它們之間的重疊程度。
小提琴圖(Violin Plot):結(jié)合了箱線圖和密度圖的特點,展示了數(shù)據(jù)的分布形狀和中位數(shù)。適用于比較多個組的分布,并觀察它們之間的差異。
Cleveland 點圖(Cleveland Dot Plot):用于顯示類別變量和連續(xù)變量之間的關(guān)系。適用于顯示組內(nèi)變量的分布情況和組間的差異。
2)如何向原始圖形添加合適的圖形元素,使圖形簡單明了且更能表達數(shù)據(jù)含義?
添加合適的圖形元素可以幫助圖形更加清晰地傳達數(shù)據(jù)的含義。常見的圖形元素如下:
標題(Title):描述圖形內(nèi)容和目的,使讀者可以快速理解圖形。
坐標軸標簽(Axis Labels):標明 x 軸和 y 軸的含義,提供數(shù)據(jù)的單位或范圍。
圖例(Legend):用于解釋圖形中的顏色或圖案代表的含義,特別適用于多組數(shù)據(jù)的比較。
參考線(Reference Lines):在圖形中添加水平線或垂直線,表示特定數(shù)值或閾值,有助于對比數(shù)據(jù)和發(fā)現(xiàn)模式。
數(shù)據(jù)標簽(Data Labels):在圖形中添加數(shù)據(jù)點的數(shù)值標簽,使得讀者可以直觀地了解數(shù)據(jù)。
注釋(Annotations):添加文字說明或箭頭指向特定數(shù)據(jù)點或趨勢,提供更多背景信息或關(guān)鍵觀察。
圖形形狀(Geometric Shapes):在圖形中添加幾何形狀,如矩形、圓形等,以突出或強調(diào)特定區(qū)域或數(shù)據(jù)。文章來源:http://www.zghlxwxcb.cn/news/detail-854866.html
背景色(Background Color):調(diào)整圖形背景色,使得圖形更具對比度或吸引力。文章來源地址http://www.zghlxwxcb.cn/news/detail-854866.html
到了這里,關(guān)于【數(shù)據(jù)挖掘】練習6:上機題目的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!