前言
本篇文章是介紹對(duì)數(shù)據(jù)的部分圖形可視化的圖型展現(xiàn)。
給直方圖增加正態(tài)曲線的不恰當(dāng)之處
需要注意的是,給直方圖擬合正態(tài)分布曲線并非總是適用,有時(shí)甚至是荒謬的,容易產(chǎn)生誤導(dǎo)。合理的做法是為直方圖擬合一條核密度估計(jì)曲線,它是數(shù)據(jù)實(shí)際分布的一種近似描述。
下面通過一個(gè)實(shí)際例子說明給直方圖擬合正態(tài)分布曲線的荒謬之處:
根據(jù)美國黃石國家公園(Yellowstone National Park)老忠實(shí)間歇噴泉(Old Faithful Geyser)數(shù)據(jù)繪制的直方圖,并在直方圖中分別增加了核密度估計(jì)曲線和正態(tài)分布曲線。
par(mai=c(.8,.8,.1,.1),cex=.8)
hist(faithful$eruptions, probability=TRUE, xlab="噴發(fā)持續(xù)時(shí)間",breaks=20, col="light blue",main="")
rug(faithful$eruptions)
lines(density(faithful$eruptions, bw=.1), type='l', lwd=2, col='red')
points(quantile(faithful$eruptions),c(0,0,0,0,0),lwd=5,col="red2")
points(mean(faithful$eruptions),c(0),lwd=8,col=4)
curve(dnorm(x,mean=mean(faithful$eruptions),sd=sd(faithful$eruptions)),add=T,col="blue",lwd=2,lty=6)
圖顯示有兩個(gè)明顯的峰值,用核密度估計(jì)曲線可清晰地看出噴發(fā)持續(xù)時(shí)間屬于雙峰分布,可見為該直方圖擬合正態(tài)分布曲線的荒之處。
直方圖與條形圖的區(qū)別
條形圖中的每一矩形表示一個(gè)類別,其寬度沒有意義;
直方圖的寬度則表示各組的組距分組數(shù)據(jù)具有連續(xù)性,直方圖的各矩形通常是連續(xù)排列;
而條形圖則是分開排列條形圖主要用于展示類別數(shù)據(jù),而直方圖則主要用于展示數(shù)值數(shù)據(jù)。
核密度圖
核密度估計(jì)(density estimation)是根據(jù)一定的核(kernel)函數(shù)和適當(dāng)?shù)膸挘╞and-width)對(duì)數(shù)據(jù)的分布密度做出的估計(jì)。
核密度圖(kernel density plot)是對(duì)核密度估計(jì)的一種描述,利用該圖可看出數(shù)據(jù)的實(shí)際分布狀況.以例2-3的數(shù)據(jù)為例,繪制6名運(yùn)動(dòng)員射擊成績(jī)核密度估計(jì)曲線。
R代碼和結(jié)果如下所示:
# 用lattice包繪制核密度曲線
load("C:/example/ch2/example2_3_1.RData")
library(lattice)
dp1<-densityplot(~射擊環(huán)數(shù)|運(yùn)動(dòng)員,data=example2_3_1,col="blue",cex=0.4,par.strip.text=list(cex=0.6),sub="(a)柵格圖")
# 用lattice包繪制例2-3的核密度比較曲線
dp2<-densityplot(~射擊環(huán)數(shù),group=運(yùn)動(dòng)員,data=example2_3_1,auto.key=list(columns=1,x=0.01,y=0.95,cex=0.6),cex=0.4,sub="(b)比較圖")
# 組合latiice包的繪圖
plot(dp1,split=c(1,1,2,1))
plot(dp2,split=c(2,1,2,1),newpage=F)
該圖顯示了每名運(yùn)動(dòng)員射擊成績(jī)分布的核密度估計(jì)曲線(圖中的“ o”為擾動(dòng)點(diǎn))。
load("C:/example/ch2/example2_3_1.RData")
attach(example2_3_1)
library(sm)
par(cex=0.8,mai=c(.7,.7,.1,.1))
sm.density.compare(射擊環(huán)數(shù),運(yùn)動(dòng)員,lty=1:6,col=c("black","blue","brown","darkgreen","green","red"),lwd=2)
legend("topleft",legend=levels(運(yùn)動(dòng)員),lty=1:6,,col=c("black","blue","brown","darkgreen","green","red"))
該圖顯示了6名運(yùn)動(dòng)員射擊成績(jī)分布的核密度估計(jì)比較曲線容易看出,6名運(yùn)動(dòng)員射擊成績(jī)均呈現(xiàn)左偏分布。這是因?yàn)樯鋼舡h(huán)數(shù)的中心點(diǎn)是10.99.環(huán)數(shù)的上界已被限定,而下界(0環(huán))則遠(yuǎn)離中心點(diǎn).因此,下界值方向出現(xiàn)遠(yuǎn)離中心點(diǎn)的環(huán)數(shù)的可能性大于上界值方向。此外,從6名運(yùn)動(dòng)員射擊成績(jī)的分布看,除了基思桑德森,其他運(yùn)動(dòng)員射擊成績(jī)的分布中心均很接近最高環(huán)數(shù)(10.99)。
時(shí)間序列圖
load("C:/example/ch2/example2_9.RData")
example2_9<-ts(example2_9,start=2000)
par(mai=c(0.7,0.7,0.1,0.1),cex=0.8,fg=2)
plot(example2_9[,2],lwd=2,ylim=c(2000,30000),xlab="年份",ylab="居民消費(fèi)水平",type="n")
grid(col="gray60")
points(example2_9[,2],type='o',lwd=2,ylim=c(2000,30000),xlab="年份",ylab="居民消費(fèi)水平")
lines(example2_9[,3],type='b',lty=2,lwd=2,col="blue")
legend(x="topleft",legend=c("農(nóng)村居民消費(fèi)水平","城鎮(zhèn)居民消費(fèi)水平"),lty=1:2,col=c(1,4),cex=0.8)
函數(shù)ts(data, start,…)用于創(chuàng)建時(shí)間序列對(duì)象,參數(shù)data為向量、矩陣或數(shù)據(jù)框; start設(shè)定時(shí)間序列的起始時(shí)間。
圖顯示,無論是農(nóng)村居民還是城鎮(zhèn)居民,消費(fèi)水平隨時(shí)間的推移均呈現(xiàn)逐年提高的趨勢(shì),但城鎮(zhèn)居民的消費(fèi)水平各年均高于農(nóng)村居民,而且隨時(shí)間的推移消費(fèi)水平的差距有擴(kuò)大的趨勢(shì)。
洛倫茨曲線
在頻數(shù)分布中,如果將各類別的頻數(shù)逐級(jí)累加,即可得到累積頻數(shù)分布表。根據(jù)累加頻數(shù)分布表可以繪制累加頻數(shù)分布曲線。
洛倫茨曲線(Lorenz curve)是一種特殊的累積頻數(shù)分布曲線,它是20世紀(jì)初由美國統(tǒng)計(jì)學(xué)家洛倫茨(M. E. Lorentz)根據(jù)意大利經(jīng)濟(jì)學(xué)家帕累托(V. Pareto)提出的收入分配公式繪制的描述收入和財(cái)富分配不平等程度的曲線。
圖中彎曲的線就是洛倫茨曲線
如果用橫軸表示人口百分比,縱軸表示相應(yīng)人口獲得的收入百分比,通過洛倫茲曲線,可以直觀地反映一個(gè)國家或地區(qū)收入分配平等或不平等的狀況
如果一定累積百分比的人口獲得相同累積百分比的收入,就是圖中的對(duì)角線,即收入分配絕對(duì)平均線。
如果絕大多數(shù)人口占有很少的收入,而一小部分人口占有絕大部分的收入,則洛倫茨曲線就靠近下橫軸和右縱軸形成彎曲的線。彎曲程度越大,表示收入分配越不公平。
為更準(zhǔn)確的反映收入分配的不平等程度,20世紀(jì)初意大利經(jīng)濟(jì)學(xué)家基尼(C. Gini)根據(jù)洛倫茨曲線給出了衡量收入分配平等程度的指標(biāo),即基尼系數(shù)(Gini coefficient),用公式表示為:
計(jì)算繪制洛倫茨曲線所需的各百分比數(shù)值
load("C:/example/ch2/example2_10.RData")
library(DescTools)
Lc(example2_10$組中值,example2_10$人數(shù))
繪制洛倫茨曲線
par(mai=c(0.7,0.7,0.4,0.1),cex=0.8)
plot(Lc(example2_10$組中值,example2_10$人數(shù)),xlab="人數(shù)比例",ylab="收入比例",col=4,panel.first=grid(10,10,col="gray70"))
練習(xí)
1、(數(shù)據(jù): exercise2_5.RData)exercise2_5.RData數(shù)據(jù)是2005—2014年我國城鎮(zhèn)居民和農(nóng)村居民的居民消費(fèi)價(jià)格指數(shù)(CPI)數(shù)據(jù)。
繪制時(shí)間序列圖,觀察城鎮(zhèn)居民和農(nóng)村居民消費(fèi)價(jià)格指數(shù)的變化特征。
load("C:/ch2/exercise/exercise2_5.RData")
exercise2_5<-ts(exercise2_5,start=2005)#創(chuàng)建時(shí)間序列對(duì)象
plot(exercise2_5[,2],lwd=2,ylim=c(98,110),xlab="年份",ylab="居民消費(fèi)價(jià)格指數(shù)",type="n")
grid(col="gray60")
points(exercise2_5[,2],type='o',lwd=2,ylim=c(98,110),xlab="年份",ylab="居民消費(fèi)價(jià)格指數(shù)")
lines(exercise2_5[,3],type='b',lty=2,lwd=2,col="blue")
legend(x="topleft",legend=c("城鎮(zhèn)居民","農(nóng)村居民"),lty=1:2,col=c(1,4),cex=0.8)
2、(數(shù)據(jù): exercise2_6.RData)假定某地區(qū)不同收入階層的人口數(shù)和不同階層人口的年收入額如數(shù)據(jù) exercise2_6.RData所示。
繪制洛倫茲曲線分析收入分配的不平等程度。文章來源:http://www.zghlxwxcb.cn/news/detail-792263.html
load("C:/ch2/exercise/exercise2_6.RData")
library(DescTools)
Lc(exercise2_6$不同階層人口數(shù)的收入額,exercise2_6$不同收入階層的人口數(shù))#計(jì)算繪制洛倫茨曲線所需的百分比數(shù)值
plot(Lc(exercise2_6$不同階層人口數(shù)的收入額,exercise2_6$不同收入階層的人口數(shù)),xlab="人數(shù)比例",ylab="收入比例",col=4,panel.first=grid(10,10,col="gray70"))
文章來源地址http://www.zghlxwxcb.cn/news/detail-792263.html
到了這里,關(guān)于統(tǒng)計(jì)學(xué)-R語言-3的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!