前言
本篇文章將開始介紹參數(shù)估計(jì)的相關(guān)知識(shí)。
參數(shù)估計(jì)的原理
總體、樣本和統(tǒng)計(jì)量
在調(diào)查居民對(duì)延遲退休態(tài)度的例子中,每個(gè)愛民區(qū)居民的態(tài)度稱為(這個(gè)調(diào)查問(wèn)題中的)個(gè)體(element, individual, unit),而所有愛民區(qū)居民對(duì)這個(gè)問(wèn)題的觀點(diǎn)稱為總體(population)
總體是包含所有要研究的個(gè)體的集合。
由于包含的個(gè)體數(shù)有限,該總體也稱為有限總體(finite population)
如果總體包含的個(gè)體數(shù)是無(wú)限或相對(duì)無(wú)限的,則稱為無(wú)限總體(infinite population)
調(diào)查獲得的部分愛民區(qū)居民的觀點(diǎn)(也就是部分個(gè)體)稱為該總體的一個(gè)樣本(sample),它是從總體中選出的一部分。
總體代表我們所關(guān)心的那部分現(xiàn)實(shí)世界
在大多數(shù)情況下,要么總體的規(guī)模很大,要么很難確定總體的所有成員,因此需要通過(guò)樣本信息來(lái)推斷總體特征
但是,樣本雖然含有總體的信息,但是信息一般比較分散,不能直接用于統(tǒng)計(jì)推斷
為了把分散在樣本中的信息集中起來(lái),我們用樣本的某個(gè)不含總體未知參數(shù)的函數(shù)來(lái)表示,這個(gè)函數(shù)就稱為統(tǒng)計(jì)量(statistics)
因此,統(tǒng)計(jì)量是對(duì)數(shù)據(jù)的壓縮
如果樣本的函數(shù)包含了未知參數(shù),那這個(gè)函數(shù)就不是統(tǒng)計(jì)量,因?yàn)檫€未完成對(duì)數(shù)據(jù)的壓縮。
如果能夠估計(jì)出參數(shù),那么對(duì)總體的具體分布就知道得差不多了。換句話說(shuō),不知道總體的特征參數(shù),但可以通過(guò)計(jì)算樣本統(tǒng)計(jì)量來(lái)估計(jì)總體參數(shù)。
用于估計(jì)參數(shù)的統(tǒng)計(jì)量稱為估計(jì)量(estimator)。若得到一組觀察值,則將其代入估計(jì)量得到的具體數(shù)值, 稱為參數(shù)的估計(jì)值。
今后,將不再?gòu)?qiáng)調(diào)估計(jì)量和估計(jì)值的區(qū)別,在不至于引起混淆的場(chǎng)合統(tǒng)稱為估計(jì)。
點(diǎn)估計(jì)
點(diǎn)估計(jì)(point estimation)是用估計(jì)量 的某個(gè)取值直接作為總體參數(shù)θ的估計(jì)值。比如:用樣本均值 直接作為總體均值μ的估計(jì)值;
用樣本比例p直接作為總體比例的估計(jì)值,等等。
比如:從軟件行業(yè)從業(yè)人員中抽出一個(gè)隨機(jī)樣本,計(jì)算出平均月收入為18000元,用18000元作為該行業(yè)從業(yè)人員月平均收入的一個(gè)估計(jì)值,這就是點(diǎn)估計(jì)。
比如:要估計(jì)一批產(chǎn)品的合格率,根據(jù)樣本計(jì)算的合格率為98%,將98%直接作為這批產(chǎn)品合格率的估計(jì)值,這也是點(diǎn)估計(jì)。
由于點(diǎn)估計(jì)無(wú)法得到估計(jì)的可靠性(因?yàn)橐粋€(gè)點(diǎn)估計(jì)量的可靠性是由其抽樣分布的標(biāo)準(zhǔn)誤來(lái)衡量的),也無(wú)法說(shuō)出點(diǎn)估計(jì)值與總體參數(shù)真實(shí)值接近的程度,因此,我們不能完全依賴一個(gè)點(diǎn)估計(jì),而應(yīng)圍繞點(diǎn)估計(jì)值構(gòu)造出總體參數(shù)的一個(gè)區(qū)間。
區(qū)間估計(jì)
區(qū)間估計(jì)(interval estimate)是在點(diǎn)估計(jì)的基礎(chǔ)上,給出總體參數(shù)估計(jì)的一個(gè)估計(jì)區(qū)間,該區(qū)間由樣本統(tǒng)計(jì)量加減估計(jì)誤差而得到。
根據(jù)樣本統(tǒng)計(jì)量的抽樣分布能夠?qū)颖窘y(tǒng)計(jì)量與總體參數(shù)的接近程度給出一個(gè)概率度量。
比如,某班級(jí)平均分?jǐn)?shù)在75~85之間,置信水平是95% 。
在區(qū)間估計(jì)中,由樣本估計(jì)量構(gòu)造出的總體參數(shù)在一定置信水平下的估計(jì)區(qū)間稱為置信區(qū)間(confidence interval,CI),其中區(qū)間的最小值稱為置信下限,最大值稱為置信上限。
置信區(qū)間中包含總體參數(shù)真值的次數(shù)所占的比例稱為置信水平,也稱為置信度或置信系數(shù)(confidence coefficient)。統(tǒng)計(jì)上,常用的置信水平有90%,95%和99%。有關(guān)置信區(qū)間的概念可用下面的圖來(lái)表示:
對(duì)于固定的樣本量,置信水平越大,包含總體均值的區(qū)間就越多(上下比較)
對(duì)于同樣的置信水平,樣本量n大的, 區(qū)間往往就短些(左右比較)
在每個(gè)圖內(nèi)部的各個(gè)置信區(qū)間的長(zhǎng)短也不一樣,因?yàn)闃颖緲?biāo)準(zhǔn)差因樣本 而異,這也影響了置信區(qū)間的寬度。
樣本量相同時(shí),置信水平越大,置信區(qū)間就越寬。置信水平相同時(shí),樣本量越大,置信區(qū)間就越窄。
使用一個(gè)較大的置信水平會(huì)得到一個(gè)比較寬的置信區(qū)間,而使用一個(gè)較大的樣本則會(huì)得到一個(gè)較準(zhǔn)確(較窄)的區(qū)間。直觀地說(shuō),較寬的區(qū)間會(huì)有更大的可能性包含參數(shù)
但實(shí)際應(yīng)用中,過(guò)寬的區(qū)間往往沒(méi)有實(shí)際意義。
區(qū)間估計(jì)的兩個(gè)端點(diǎn)都是統(tǒng)計(jì)量,因而也都是隨機(jī)變量
“某總體參數(shù)μ的置信度為100 1? ?? %的置信區(qū)間”意味著如果抽取(相同樣本量)的大量樣本,那么,從這些樣本中 得到的以同樣方法(或公式)計(jì)算的大量區(qū)間中會(huì)有大約??? ??比例的區(qū)間包含未知的總體參數(shù)??,而有約??比例的區(qū)間不包含該總體參數(shù)
具體的從一個(gè)樣本中計(jì)算出來(lái)的一個(gè)數(shù)值區(qū)間,比如前面的(75,85),則要么包含真實(shí)比例,要么不包含真實(shí)比例。
由于真實(shí)比例和這個(gè)區(qū)間(75,85)都是確定的數(shù),不包括隨機(jī)性,也沒(méi)有概率可言。因此,“95%置信區(qū)間(75,85)以概率0.95包含真實(shí)比例”的說(shuō)法是正確的還是錯(cuò)誤的?
該種說(shuō)法是錯(cuò)誤的。
評(píng)價(jià)估計(jì)量的標(biāo)準(zhǔn)
用于估計(jì)總體參數(shù)θ的估計(jì)量 可以有很多。
如:可以用樣本均值作為總體均值的估計(jì)量
也可以用樣本中位數(shù)作為總體均值的估計(jì)量,等等。
那么,究竟用哪種估計(jì)量作為總體參數(shù)的估計(jì)呢?什么樣的估計(jì)量才算是一個(gè)好的估計(jì)量呢?這就需要有一定的評(píng)價(jià)標(biāo)準(zhǔn)。統(tǒng)計(jì)學(xué)家給出了評(píng)價(jià)估計(jì)量的一些標(biāo)準(zhǔn),主要有以下幾個(gè)。
無(wú)偏性、有效性、一致性。
無(wú)偏性(unbiasedness)是指估計(jì)量抽樣分布的數(shù)學(xué)期望等于被估計(jì)的總體參數(shù)。設(shè)總體參數(shù)為 ,所選擇的估計(jì)量為
,如果
,則稱
是
的無(wú)偏估計(jì)量。
由統(tǒng)計(jì)量的抽樣分布可知,E( )=μ,E(p)=π,E( )= ,因此 、p、 分別是總體均值μ、總體比例、總體方差的無(wú)偏估計(jì)量。
樣本均值、樣本中位數(shù)和樣本方差的無(wú)偏性模擬
假定從均值為50、方差為100的正態(tài)總體中隨機(jī)抽取10000組樣本量為10的樣本,分別計(jì)算出10000個(gè)樣本均值的均值樣本中位數(shù)的均值和樣本方差的均值
注:函數(shù)vector()用于產(chǎn)生一個(gè)空向量。函數(shù)append(x, values, after = length(x))在向量x中追加數(shù)值,after指定在哪個(gè)數(shù)據(jù)后插入數(shù)值。
x<-vector();m<-vector();v<-vector()
n=10
for(i in 1:10000){
x<-append(x,mean(rnorm(n,50,10)))
m<-append(m,median(rnorm(n,50,10)))
v<-append(v,var(rnorm(n,50,10)))
}
data.frame(mean(x),mean(m),mean(v))
在正態(tài)總體條件下,樣本均值和樣本中位數(shù)都是總體均值的無(wú)偏估計(jì)量,而樣本方差則是總體方差的無(wú)偏估計(jì)量。
有效性
無(wú)偏性對(duì)估計(jì)量而言是很基本的要求,它的直觀意義是沒(méi)有系統(tǒng)誤差。
一個(gè)好的估計(jì)量應(yīng)當(dāng)對(duì)參數(shù)的平均偏差比較小。
第二個(gè)標(biāo)準(zhǔn)就是無(wú)偏估計(jì)量中取方差最小的估計(jì)量,也稱為最有效或者最好的估計(jì)量。換句話說(shuō),這就是當(dāng)樣本變化時(shí),該統(tǒng)計(jì)量變化最小
方差小,說(shuō)明由許多樣本產(chǎn)生的各個(gè)估計(jì)量之間差別較小 。
衡量估計(jì)量好壞的第三個(gè)標(biāo)準(zhǔn)是一致性或相合性 (consistency)
它意味著樣本量越大,估計(jì)量對(duì)總體參數(shù)的估計(jì)就越精確(統(tǒng)計(jì)量收斂于所估總體的參數(shù))
當(dāng)樣本容量越大時(shí),信息越多,當(dāng)然估計(jì)就應(yīng)該越準(zhǔn)確
假定總體是均值為50、方差為100的1000正態(tài)隨機(jī)數(shù),從該總體分別抽取樣本量為10,100,500,900的樣本,并計(jì)算出每個(gè)樣本的均值:
計(jì)算樣本量分別為10、100、500、900時(shí)的樣本均值
N=rnorm(1000,50,10)
mu=mean(N)
xbar10<-mean(sample(N,10,replace=F))
xbar100<-mean(sample(N,100,replace=F))
xbar500<-mean(sample(N,500,replace=F))
xbar900<-mean(sample(N,900,replace=F))
data.frame(總體均值=mu,xbar10,xbar100,xbar500,xbar900)
計(jì)算樣本均值與總體均值mu的差值d
data.frame("d10"=(xbar10-mu),"d100"=(xbar100-mu),"d500"=(xbar500-mu),"d900"=(xbar900-mu))
樣本均值隨著樣本量的增大而越來(lái)越接近總體均值。
總體均值的區(qū)間估計(jì)
一個(gè)總體均值的估計(jì)(大樣本)
一個(gè)總體均值區(qū)間的一般表達(dá)式:
總體均值的置信區(qū)間是由樣本均值加減估計(jì)誤差得到的
估計(jì)誤差由兩部分組成:一是點(diǎn)估計(jì)量的標(biāo)準(zhǔn)誤,它取決于樣本統(tǒng)計(jì)量的抽樣分布。二是估計(jì)時(shí)所要的求置信水平,統(tǒng)計(jì)量分布兩側(cè)面積對(duì)應(yīng)的分位數(shù)值,它取決于事先所要求的可靠程度
總體均值在置信水平下的置信區(qū)間可一般性地表達(dá)為
樣本均值±分位數(shù)×樣本均值的標(biāo)準(zhǔn)誤。
在大樣本(n≥30)情形下,由中心極限定理可知,樣本均值近似服從期望值為μ、方差為 的正態(tài)分布。
使用正態(tài)分布統(tǒng)計(jì)量 z
總體均值 在1-
置信水平下的置信區(qū)間為
是事先確定的一個(gè)概率值,它是總體均值不包括在置信區(qū)間內(nèi)的概率;
(1- )稱為置信水平;
是標(biāo)準(zhǔn)正態(tài)分布兩側(cè)面積各為
/2時(shí)的z值;
是估計(jì)誤差。
可以看出:
置信區(qū)間的上下界是統(tǒng)計(jì)量,因此該區(qū)間是隨機(jī)區(qū)間。
從上面的推導(dǎo)可以看出, 置信度是該隨機(jī)區(qū)間覆蓋真實(shí)均值的概率。
如果根據(jù)一個(gè)樣本的數(shù)據(jù)算出上下界的實(shí)現(xiàn)值,就不是隨機(jī)區(qū)間了,而是一個(gè)固定的數(shù)值區(qū)間。
例題:
一家研究機(jī)構(gòu)隨機(jī)抽取40輛相同排氣量的家用轎車,經(jīng)過(guò)測(cè)試得到每百公里耗油量數(shù)據(jù)(單位:升) 。建立該排氣量轎車平均耗油量的90%的置信區(qū)間
example5_1
注:函數(shù)z.test(x,y=NULL,sigma.x=NULL,sima.y=NULL,conf. level=0.95)用于構(gòu)建基于標(biāo)準(zhǔn)正態(tài)分布的單樣本和雙樣本的置信區(qū)間和假設(shè)檢驗(yàn)。參數(shù)y=NULL用于單樣本; sigma.x和 sigma.y用于指定兩個(gè)總體的標(biāo)準(zhǔn)差,當(dāng)總體標(biāo)準(zhǔn)差未知時(shí)用樣本標(biāo)準(zhǔn)差代替;conf.level用于指定置信水平,默認(rèn)為0.95.
平均耗油量的90%的置信區(qū)間(使用z.test函數(shù))
load("C:/example/ch5/example5_1.RData")
library(BSDA)
z.test(example5_1$耗油量,sigma.x=sd(example5_1$耗油量),conf.level=0.90)
只輸出置信區(qū)間的信息
z.test(example5_1
耗油量
,
s
i
g
m
a
.
x
=
s
d
(
e
x
a
m
p
l
e
5
1
耗油量,sigma.x=sd(example5_1
耗油量,sigma.x=sd(example51?耗油量),conf.level=0.90)$conf.int
一個(gè)總體均值的估計(jì)(小樣本估計(jì))
假定條件(對(duì)總體均值的估計(jì))
總體服從正態(tài)分布
小樣本 (n < 30)
如果正態(tài)總體的σ已知,樣本均值經(jīng)過(guò)標(biāo)準(zhǔn)化后仍然服從標(biāo)準(zhǔn)正態(tài)分布,此時(shí)可使用 建立總體均值的置信區(qū)間
如果正態(tài)總體的σ未知,樣本均值經(jīng)過(guò)標(biāo)準(zhǔn)化后則服從自由度為n-1的t分布,此時(shí)使用 t 分布統(tǒng)計(jì)量
總體均值 在1-
置信水平下的置信區(qū)間為
例題:
(數(shù)據(jù):example5_2.Rdata)從一批袋裝食品中隨機(jī)抽取25袋,測(cè)得每袋重量如下表所示。假定食品重量服從正態(tài)分布,估計(jì)該批食品平均重量的置信區(qū)間,置信水平為95%。
總體服從正態(tài)分布但σ未知,由于是小樣本,樣本均值經(jīng)標(biāo)準(zhǔn)化后服從自由度為n-1的t分布。
注:t.test(x,y=NULL,mu=0, paired=FALSE,var.equal=FALSE)用于單樣本和雙樣本假設(shè)檢驗(yàn)。參數(shù)y=NULL用于單樣本;獨(dú)立樣本時(shí), paired=FALSE;方差不等時(shí),var equal=FALSE。
食品平均重量95%的置信區(qū)間(使用t.test函數(shù))
load("C:/example/ch5/example5_2.RData")
t.test(example5_2,conf.level=0.95)
只輸出置信區(qū)間的信息
t.test(example5_2)$conf.int
練習(xí)
1、假定從均值為0、方差為1的正態(tài)總體中隨機(jī)抽取10000組樣本量為10的樣本,如何來(lái)計(jì)算出10000個(gè)樣本均值的方差和樣本中位數(shù)的方差?從結(jié)果當(dāng)中我們又能得到什么結(jié)論?
x<-vector();m<-vector()
n=10
for(i in 1:10000){
x<-append(x,mean(rnorm(n)))
m<-append(m,median(rnorm(n)))
}
data.frame(var(x),var(m))
2、某快餐店想要估計(jì)每位顧客午餐平均花費(fèi)的金額,在為期3周的時(shí)間里選取49名顧客組成了一個(gè)簡(jiǎn)單隨機(jī)樣本,得到樣本均值為120元,標(biāo)準(zhǔn)差為15元。求總體均值μ的95%的置信區(qū)間。
用公式計(jì)算
q<-qnorm(0.975)
LCI<-120-q*(15/sqrt(49))
UCI<-120+q*(15/sqrt(49))
data.frame(LCI,UCI)
3、利用下面的信息,構(gòu)建總體均值μ的置信區(qū)間。
(1)總體服從正態(tài)分布,已知σ=500,n=15, =8900,置信水平為95%。
用公式計(jì)算文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-804238.html
q<-qnorm(0.975)
LCI<-8900-q*(500/sqrt(15))
UCL<-8900+q*(500/sqrt(15))
data.frame(LCI,UCI)
文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-804238.html
到了這里,關(guān)于統(tǒng)計(jì)學(xué)-R語(yǔ)言-6.1的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!