前言
本篇將繼續(xù)介紹上篇所剩下的內(nèi)容。
總體均值的區(qū)間估計(jì)
兩個(gè)總體均值之差的估計(jì)
設(shè)兩個(gè)總體的均值分別為?1和?2,從兩個(gè)總體中分別抽取樣本量為n1和n2的兩個(gè)隨機(jī)樣本,其樣本均值分別為 和
。估計(jì)兩個(gè)總體均值之差(u1-u2)的點(diǎn)估計(jì)量顯然是兩個(gè)樣本的均值之差(
)。
兩個(gè)總體均值的置信區(qū)間是由兩個(gè)樣本均值之差加減估計(jì)誤差得到的。
兩個(gè)總體均值之差(?1-?2)在置信水平下的置信區(qū)間可一般性地表達(dá)為:
兩個(gè)總體均值之差的估計(jì)(獨(dú)立大樣本的估計(jì))
假定條件
兩個(gè)總體都服從正態(tài)分布,?12、 ?22已知
若不是正態(tài)分布, 可以用正態(tài)分布來近似(n1?30和n2?30)
兩個(gè)樣本是獨(dú)立的隨機(jī)樣本
使用正態(tài)分布統(tǒng)計(jì)量 z
例題:
為研究男女工資的差異,從某行業(yè)中隨機(jī)抽取男女員工各40人,得到的月工資數(shù)據(jù)如下表所示。建立男女平均工資之差的95%的置信區(qū)間。(example5_3)
load("C:/example/ch5/example5_3.RData")
library(BSDA)
z.test(example5_3$男性工資,example5_3$女性工資,sigma.x=sd(example5_3$男性工資),sigma.y=sd(example5_3$女性工資))$conf.int
兩個(gè)總體均值之差的估計(jì)(獨(dú)立小樣本的估計(jì))
假定條件
兩個(gè)總體都服從正態(tài)分布
兩個(gè)總體方差已知(,
)
兩個(gè)獨(dú)立的小樣本(n1<30和n2<30)
兩個(gè)樣本均值之差經(jīng)標(biāo)準(zhǔn)化后服從標(biāo)準(zhǔn)正態(tài)分布,此時(shí)可按下式建立兩個(gè)總體均值之差的置信區(qū)間。
當(dāng)和
未知的時(shí)候,有以下幾種情形:
(1) 兩個(gè)總體方差未知但相等:
需要用兩個(gè)樣本的方差 和
來估計(jì)。這時(shí),需要將兩個(gè)樣本的數(shù)據(jù)合并在一起,得到的合并估計(jì)量
,其計(jì)算公式如下:
這時(shí),兩個(gè)樣本均值之差經(jīng)標(biāo)準(zhǔn)化后服從自由度為(n1+n2-2)的t分布。
例題:
(數(shù)據(jù): example5_4. RData)為估計(jì)兩種方法組裝產(chǎn)品所需時(shí)間的差異,分別對(duì)兩種不同的組裝方法各隨機(jī)安排12個(gè)工人,每個(gè)工人組裝一件產(chǎn)品所需的時(shí)間如下表所示。假定兩種方法組裝產(chǎn)品的時(shí)間服從正態(tài)分布,求以95%的置信水平建立兩種方法組裝產(chǎn)品所需平均時(shí)間差值的置信區(qū)間。
平均時(shí)差95%的置信區(qū)間(使用t.test函數(shù))
假設(shè)方差相等
load("C:/example/ch5/example5_4.RData")
t.test(x=example5_4$方法一,y=example5_4$方法二,var.equal=TRUE)$conf.int
假設(shè)方差不相等
t.test(x=example5_4$方法一,y=example5_4$方法二,var.equal=FALSE)$conf.int
兩個(gè)總體均值之差的估計(jì)(配對(duì)樣本的估計(jì))
在上面的例題中,使用的是兩個(gè)獨(dú)立樣本。但使用獨(dú)立樣本估計(jì)兩個(gè)總體均值之差時(shí)有潛在弊端:比如,在對(duì)每種方法隨機(jī)指派12個(gè)工人時(shí),偶爾可能會(huì)將技術(shù)比較差的12個(gè)工人指派給方法一,而技術(shù)較好的12個(gè)工人指派給方法二。這種不公平的指派可能會(huì)掩蓋兩種方法組裝產(chǎn)品所需時(shí)間的真正差異。
為解決這一問題,可以使用配對(duì)樣本(paired sample),即一個(gè)樣本中的數(shù)據(jù)與另一個(gè)樣本中的數(shù)據(jù)相對(duì)應(yīng),這樣的數(shù)據(jù)通常是對(duì)同一個(gè)體所做的前后兩次測(cè)量。比如,先指定12個(gè)工人用第一種方法組裝產(chǎn)品,然后再讓這12個(gè)工人用第二種方法組裝產(chǎn)品,再比如:比如減肥前后的重量比較,治療前后的癥狀比較,同樣情況下對(duì)兩種材料某種性能的比較等等,這樣得到的兩種方法組裝產(chǎn)品的時(shí)間數(shù)據(jù)就是配對(duì)數(shù)據(jù)。
例題:
(數(shù)據(jù):example5_5. RData)由10名學(xué)生組成一個(gè)隨機(jī)樣本,讓他們分別采用A和B兩套試卷進(jìn)行測(cè)試,結(jié)果如下表所示。假定兩套試卷分?jǐn)?shù)之差服從正態(tài)分布,試建立兩種試卷平均分?jǐn)?shù)之差 的置信區(qū)間。
試卷平均分?jǐn)?shù)差值95%的置信區(qū)間
load("C:/example/ch5/example5_5.RData")
t.test(example5_5$試卷A,example5_5$試卷B,paired=TRUE)
只輸出置信區(qū)間信息
t.test(example5_5$試卷A,example5_5$試卷B,paired=TRUE)$conf.int
例題:
一個(gè)有20人參加的技術(shù)革新試驗(yàn)前后的產(chǎn)量列在下表中,這里,pre和post分別是試驗(yàn)前后的產(chǎn)量(單位:個(gè)),而D=post-pre為相應(yīng)的差 值(單位:個(gè))。
首先看看試驗(yàn)前后的產(chǎn)量的線圖,結(jié)果如下所示:
pre=c(64,125,86,103,111,112,48,71,60,66,100,64,109,75,80)
post=c(92,110,109,125,107,137,69,81,54,85,99,77,100,93,98)
production=cbind(pre,post)#cbind是根據(jù)列進(jìn)行合并,合并的前提是所有數(shù)據(jù)行數(shù)相等,構(gòu)建分塊矩陣
matplot(production,type="o",col=1,pch=c(1,16),ylab="production")#matplot()函數(shù)將兩個(gè)矩陣作為參數(shù)。一個(gè)矩陣的列參照另一個(gè)矩陣的相應(yīng)列來繪制圖形。在繪制同一個(gè)圖時(shí),兩個(gè)矩陣的行數(shù)應(yīng)該一樣。如果行數(shù)不一樣,行數(shù)較少的那個(gè)矩陣用缺失值(NA)來填充。第一個(gè)矩陣的值會(huì)用在橫軸上。如果其中x,y一人失蹤,另一種是作為y和x向量1:n使用。遺漏值(NAS)是允許的。pch點(diǎn)的樣式,1個(gè)字符或整數(shù)的字符串或向量繪圖字符,請(qǐng)參閱points。第一個(gè)字符是繪制的第一個(gè)圖,第二次為第二個(gè)字符,默認(rèn)為數(shù)字(1,0到9),然后是小寫和大寫字母。col,顏色矢量。顏色循環(huán)使用。
legend(8,130,c("技術(shù)革新前的產(chǎn)量","技術(shù)革新后的產(chǎn)量"),pch=c(1,16),lty=1:2)#legend(x, y, legend)在點(diǎn)(x,y)處添加圖例,說明內(nèi)容由legend給定
可以看出,技術(shù)革新前后的產(chǎn)量在 大部分情況下的走勢(shì)相似,這表明一 個(gè)人在技術(shù)革新前后的產(chǎn)量并不是獨(dú)立的。相比于技術(shù)革新前,大部分的工人都在技術(shù)革新后有更高的產(chǎn)量,因此,這個(gè)問題不能用前面對(duì)待兩個(gè)獨(dú)立樣本的方法來求估計(jì)。
可以把同一個(gè)個(gè)體觀察前后的產(chǎn)量相減,對(duì)得到的差使用正態(tài)總體均值的區(qū)間估計(jì)來解決
可以看出,技術(shù)革新前后的產(chǎn)量在 大部分情況下的走勢(shì)相似,這表明一 個(gè)人在技術(shù)革新前后的產(chǎn)量并不是獨(dú)立的。相比于技術(shù)革新前,大部分的工人都在技術(shù)革新后有更高的產(chǎn)量,因此,這個(gè)問題不能用前面對(duì)待兩個(gè)獨(dú)立樣本的方法來求估計(jì)。
可以把同一個(gè)個(gè)體觀察前后的產(chǎn)量相減,對(duì)得到的差使用正態(tài)總體均值的區(qū)間估計(jì)來解決。
mean(post-pre)
[1] 10.8
t.test(post-pre)$conf #或者使用等價(jià)的語t.test(x,y,parired=T)$conf,可以得到同樣的結(jié)果
[1] 3.038022 18.561978
attr(,"conf.level")
[1] 0.95
總體比例的區(qū)間估計(jì)
總體比例的區(qū)間估計(jì)研究一個(gè)總體時(shí),推斷總體比例π使用的統(tǒng)計(jì)量為樣本比例p。研究?jī)蓚€(gè)總體時(shí),所關(guān)注的參數(shù)是兩個(gè)總體的比例之差( ),用于推斷的統(tǒng)計(jì)量則是兩個(gè)樣本的比例之差(
)。
總體比例的區(qū)間估計(jì)(一個(gè)總體比例的估計(jì))
推斷總體比例時(shí),同樣需要考慮樣本量的大小。當(dāng)樣本量非常大時(shí),可采用傳統(tǒng)的估計(jì)方法。對(duì)于小樣本或中等大小的樣本,需要對(duì)樣本量和試驗(yàn)成功的次數(shù)做出修正以改進(jìn)估計(jì)的區(qū)間。
大樣本情形:
例題:
某城市想要進(jìn)行一項(xiàng)交通措施改革,為征求市民對(duì)該項(xiàng)改革措施的意見,在成年人中隨機(jī)調(diào)查了500個(gè)市民,其中325人贊成改革措施。用95%的置信水平估計(jì)該城市成年人口中贊成該項(xiàng)改革的人數(shù)比例的置信區(qū)間。
n<-500;x<-325;p<-x/n
q<-qnorm(0.975)
LCI<-p-q*sqrt(p*(1-p)/n)
UCI<-p+q*sqrt(p*(1-p)/n)
data.frame(LCI,UCI)
任意大小樣本情形:
大樣本的估計(jì)方法至今仍被廣泛使用,但按該方法計(jì)算出來的置信水平為(1- ) 的置信區(qū)間能夠覆蓋總體真實(shí)比例的概率通常小于(1- ),即使大樣本也是如此(除非樣本量非常大),更不可能應(yīng)用于小樣本。因此對(duì)于任意大小的樣本,可以通過修正試驗(yàn)次數(shù)(樣本量)n和樣本比例的值讓置信區(qū)間有所改進(jìn)。
任意大小樣本情形:
例題:
某城市想要進(jìn)行一項(xiàng)交通措施改革,為征求市民對(duì)該項(xiàng)改革措施的意見,在成年人中隨機(jī)調(diào)查了500個(gè)市民,其中325人贊成改革措施。用95%的置信水平估計(jì)該城市成年人口中贊成該項(xiàng)改革的人數(shù)比例的置信區(qū)間。
女性與男性收視率差值的95%置信區(qū)間(大樣本)
n1<-500+4
p1<-(325+2)/n1
q<-qnorm(0.975)
LCI<-p1-q*sqrt(p1*(1-p1)/n1)
UCI<-p1+q*sqrt(p1*(1-p1)/n1)
data.frame(LCI,UCI)
總體比例的區(qū)間估計(jì)(兩個(gè)總體比例之差的估計(jì))
對(duì)兩個(gè)總體比例之差的估計(jì)同樣需要考慮兩個(gè)樣本量的大小。當(dāng)兩個(gè)樣本量都非常大時(shí),可采用傳統(tǒng)的估計(jì)方法。對(duì)于兩個(gè)小樣本或中等大小的樣本,需要對(duì)樣本量和試驗(yàn)成功的次數(shù)做出修正以改進(jìn)估計(jì)的區(qū)間。
假定條件
例題:
在某個(gè)電視節(jié)目的收視率調(diào)查中,女性觀眾隨機(jī)調(diào)查了500人,有225人收看了該節(jié)目;男性觀眾隨機(jī)調(diào)查了400人,有128人收看了該節(jié)目。用95%的置信水平估計(jì)女性與男性收視率差值的置信區(qū)間。
女性與男性收視率差值的95%置信區(qū)間(大樣本)
p1<-225/500;p2<-128/400
q<-qnorm(0.975)
LCI<-p1-p2-q*sqrt(p1*(1-p1)/500+p2*(1-p2)/400)
UCI<-p1-p2+q*sqrt(p1*(1-p1)/500+p2*(1-p2)/400)
data.frame(LCI,UCI)
例題:
某城市想要進(jìn)行一項(xiàng)交通措施改革,為征求市民對(duì)該項(xiàng)改革措施的意見,在成年人中隨機(jī)調(diào)查了500個(gè)市民,其中325人贊成改革措施。用95%的置信水平估計(jì)該城市成年人口中贊成該項(xiàng)改革的人數(shù)比例的置信區(qū)間。
女性與男性收視率差值的95%置信區(qū)間(任意大小樣本)
n1<-500+2;n2<-400+2
p1<-(225+1)/n1;p2<-(128+1)/n2
q<-qnorm(0.975)
LCI<-p1-p2-q*sqrt(p1*(1-p1)/n1+p2*(1-p2)/n2)
UCI<-p1-p2+q*sqrt(p1*(1-p1)/n1+p2*(1-p2)/n2)
data.frame(LCI,UCI)
練習(xí)
1、某大學(xué)為了解學(xué)生每天上網(wǎng)的時(shí)間,在全校學(xué)生中隨機(jī)抽取36人,調(diào)查他們每天上網(wǎng)的時(shí)間,得到的數(shù)據(jù)(單位:小時(shí))如下(exercise5_3.RData)利用函數(shù):
求該校大學(xué)生平均上網(wǎng)時(shí)間的置信區(qū)間,置信水平分別為90%,95%和99%。
load("C:/example/ch5/exercise5_3.RData")
library(BSDA)
z.test(exercise5_3$上網(wǎng)時(shí)間,sigma.x=sd(exercise5_3$上網(wǎng)時(shí)間),conf.level=0.90)
z.test(exercise5_3$上網(wǎng)時(shí)間,sigma.x=sd(exercise5_3$上網(wǎng)時(shí)間),conf.level=0.95)
z.test(exercise5_3$上網(wǎng)時(shí)間,sigma.x=sd(exercise5_3$上網(wǎng)時(shí)間),conf.level=0.99)
2、某小區(qū)共有居民500戶,小區(qū)管理者準(zhǔn)備采取一項(xiàng)新的供水設(shè)施,想了解居民是否贊成。
采取重復(fù)抽樣方法隨機(jī)抽取50戶,其中有32戶贊成,18戶反對(duì)。估計(jì)總體中贊成采用新設(shè)施的戶數(shù)比例的置信區(qū)間,置信水平為95%(利用公式計(jì)算)
n1<-50+4
p1<-(32+2)/n1
q<-qnorm(0.975)
LCI<-p1-q*sqrt(p1*(1-p1)/n1)
UCI<-p1+q*sqrt(p1*(1-p1)/n1)
data.frame(LCI,UCI)
3、顧客到銀行辦理業(yè)務(wù)時(shí)往往需要等待一些時(shí)間,而等待時(shí)間的長(zhǎng)短與許多因素有關(guān),比如,銀行的業(yè)務(wù)員辦理業(yè)務(wù)的速度、顧客等待排隊(duì)的方式等等。為此,某銀行準(zhǔn)備采取兩種排隊(duì)方式進(jìn)行試驗(yàn),第一種排隊(duì)方式是所有顧客都進(jìn)入一個(gè)等待隊(duì)伍,第二種排隊(duì)方式是顧客在三個(gè)業(yè)務(wù)窗口處列隊(duì)三排等待。為比較哪種排隊(duì)方式使顧客等待的時(shí)間更短,銀行各隨機(jī)抽取10名顧客,他們?cè)谵k理業(yè)務(wù)時(shí)所等待的時(shí)間(單位:分鐘)如下(exercise5_5.RData利用函數(shù)):
(1)構(gòu)建第一種排隊(duì)方式等待時(shí)間均值的95%的置信區(qū)間
load("C:/example/ch5/exercise5_5.RData")
t.test(exercise5_5$方式1,paired=FALSE,conf.level=0.95)$conf.int
(2)構(gòu)建兩種方式排隊(duì)時(shí)間均值差值的95%的置信區(qū)間:文章來源:http://www.zghlxwxcb.cn/news/detail-801791.html
t.test(exercise5_5$方式1,y=exercise5_5$方式2,var.equal=TRUE)$conf.int
t.test(exercise5_5$方式1,y=exercise5_5$方式2,var.equal=FALSE)$conf.int
文章來源地址http://www.zghlxwxcb.cn/news/detail-801791.html
到了這里,關(guān)于統(tǒng)計(jì)學(xué)-R語言-6.2的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!