前言
本篇文章將繼續(xù)上篇的進(jìn)行介紹。
大數(shù)定理
大數(shù)定理大數(shù)定理”的另一種表達(dá)方式是“均值定理”,其含義是,隨機(jī)變量X多個(gè)觀察值的均值會(huì)隨著觀察值的增加越發(fā)趨近于總體的期望值,中心極限定理進(jìn)一步告訴我們,均值服從期望為μ 的正態(tài)分布。在各種測(cè)量試驗(yàn)中,我們一般都認(rèn)為,測(cè)量結(jié)果的均值服從正態(tài)分布,根據(jù)總體均值估計(jì)的結(jié)論,正態(tài)分布的期望是應(yīng)與觀察值的均值近似相等。
中心極限定理是與大數(shù)定理并列的重要概率理論,它有幾種不同的表達(dá)方式,核心思想是,大量的獨(dú)立隨機(jī)變量相加,不論各個(gè)隨機(jī)變量的分布是怎樣的,它們的加和必定會(huì)趨向于正態(tài)分布。
大數(shù)定理
在拋硬幣的例子里,有一個(gè)重要的前提條件——硬幣的正面與反面出現(xiàn)的概率各為50%。你覺(jué)得這看起來(lái)一定是對(duì)的嗎?科學(xué)不相信感覺(jué),科學(xué)相信實(shí)驗(yàn)。
下面,請(qǐng)準(zhǔn)備好一枚一角的硬幣(因?yàn)橐唤堑母p),咱們一起來(lái)做拋硬幣的實(shí)驗(yàn)。實(shí)驗(yàn)過(guò)程是:高高拋起硬幣并接住,每拋一次,都把結(jié)果記錄下來(lái),正面的次數(shù)X和反面的次數(shù)Y分別記錄。
拋到10次,結(jié)果是,正面3次,反面7次。
拋到100次時(shí),結(jié)果是,正面43次,反面57次。
拋到200次時(shí),結(jié)果是,正面97次,反面103次。
拋到1000次時(shí),結(jié)果是,正面513次,反面487次。
這個(gè)實(shí)驗(yàn)可以永遠(yuǎn)進(jìn)行下去,實(shí)驗(yàn)的目的不是找到某一次拋擲,使得X和Y剛好相等,實(shí)驗(yàn)的目的是觀察X和Y的變化趨勢(shì)。因此,實(shí)驗(yàn)暫時(shí)只進(jìn)行到1000次。下圖是根據(jù)拋擲過(guò)程繪制出的曲線,曲線代表的是正面所占的比例,即X/(X+Y)隨拋擲次數(shù)的變化。
圖中曲線呈現(xiàn)的特征是,當(dāng)拋擲次數(shù)很少時(shí)正面所占比例的變化幅度很大,并且與0.5的差值比較大,隨著拋擲次數(shù)越來(lái)越多,正面所占的比例的變化幅度越來(lái)越小,而且一直圍繞在0.5的周?chē)?。根?jù)這條曲線,我們甚至可以預(yù)期,1000次之后的曲線還會(huì)在0.5周?chē)腔?,感興趣的同學(xué)可以把實(shí)驗(yàn)繼續(xù)做下去。
大數(shù)定理,指的是隨機(jī)事件發(fā)生的頻率會(huì)隨著隨機(jī)試驗(yàn)次數(shù)的不斷增加趨向于它的概率,簡(jiǎn)單來(lái)說(shuō)就是,試驗(yàn)次數(shù)越多頻率離概率越近,而且越穩(wěn)定。在上面的實(shí)驗(yàn)中,隨機(jī)事件是“拋硬幣出現(xiàn)正面”,頻率是“正面出現(xiàn)所占的比例X/(X+Y)”,隨著拋擲次數(shù)的增加,這個(gè)頻率越發(fā)趨近概率值0.5,大數(shù)定理像一只“看不見(jiàn)的手”,掌控著試驗(yàn)過(guò)程。
空手套利的莊家
我們回到賭場(chǎng),坐回到賭桌前,看一看大數(shù)定理是怎么暗中幫助莊家賺到錢(qián)的。
我們要玩的是賭場(chǎng)里很流行的一個(gè)游戲-----大轉(zhuǎn)盤(pán)。游戲的道具是如下圖所示的大轉(zhuǎn)盤(pán),轉(zhuǎn)盤(pán)上有38個(gè)格子,格子里填寫(xiě)了1~36的數(shù)字和兩個(gè)特殊數(shù)字0、00,玩家的下注方式有很多種比如下注奇數(shù),下注黑色格子的數(shù)字,或者下注某一個(gè)數(shù)字。這里需要特別說(shuō)明的是,0和00這兩個(gè)數(shù)字不包含在任何賭注中,這兩個(gè)數(shù)字是留給莊家的,就是說(shuō),當(dāng)轉(zhuǎn)盤(pán)的指針最終指向0或00時(shí),莊家贏得所有的籌碼。
空手套利的莊家
我們挑選贏的概率最大和最小的兩種賭注。
贏的概率最小的賭注是下注某一個(gè)數(shù)字,當(dāng)玩家下注某一個(gè)數(shù)字時(shí),他贏的概率是1/38,而此時(shí)莊家贏的概率是2/38,很顯然,玩家會(huì)輸給莊家!
贏得概率最大的賭注是下注黑色(或紅色)數(shù)字,當(dāng)玩家下注黑色(或紅色)數(shù)字時(shí),他贏的概率是18/38,這時(shí),莊家贏的概率仍然是2/38,很顯然,玩家會(huì)戰(zhàn)勝莊家!
很顯然,上面的分析是錯(cuò)的!
因?yàn)橥婕液颓f家要贏的是籌碼,可不是概率!概率只是我們分析賭局的工具,玩家們真正關(guān)注的不是概率,而是所贏籌碼的期望。為了計(jì)算所贏籌碼的期望,我們首先要了解賭場(chǎng)里一個(gè)重要的常識(shí)——賠率。
賠率是賭場(chǎng)為每一個(gè)賭注設(shè)置的“賠錢(qián)比例”,比如,在2015—2016賽季英超聯(lián)賽開(kāi)始前,博彩公司為萊斯特城隊(duì)開(kāi)出的奪冠賠率是1:5000,這個(gè)比例的含義是,玩家用1英鎊下注萊斯特城隊(duì)奪冠,如果萊斯特城隊(duì)最終奪冠,博彩公司會(huì)付給玩家5000英鎊(含玩家下注的1英鎊)。同時(shí),阿森納的奪冠賠率是1:3.5,即,下注阿森納奪冠1英鎊的玩家,即使贏了也只能得到3.5英鎊。從這樣的賠率可以看出,在英超聯(lián)賽開(kāi)始之前,博彩公司看好阿森納奪冠,看衰萊斯特城隊(duì)奪冠,這就是賠率的含義。
下表給出了大轉(zhuǎn)盤(pán)中各類(lèi)賭注的賠率,我們利用這些賠率來(lái)計(jì)算玩家和莊家所贏籌碼的期望。
假設(shè)玩家拿一個(gè)籌碼下注某一個(gè)數(shù)字,他贏的概率是1/38,贏了可以得到35個(gè)籌碼,輸?shù)母怕适?7/38,輸了會(huì)輸?shù)暨@一個(gè)籌碼,所以玩家所贏籌碼的期望是:
E(玩家下注某個(gè)數(shù)字時(shí),玩家所贏籌碼)=1/38×35+37/38×(-1)= -1/19= -0.0526
與玩家相對(duì)的,莊家所贏籌碼的期望是:
E(玩家下注某個(gè)數(shù)字時(shí),莊家所贏籌碼)=1/38×(-35)+37/38×(+1)= 1/19=0.0526
用同樣的方法,可以計(jì)算出玩家下注黑色數(shù)字時(shí)玩家和莊家所贏籌碼的期望:
E(玩家下注黑色數(shù)字時(shí),玩家所贏籌碼)=18/38×(+1)+20/38×(-1)= -1/19= -0.0526
E(玩家下注黑色數(shù)字時(shí),莊家所贏籌碼)=18/38(-1)+20/38×(+1)= 1/19=0.0526
事實(shí)上,不論何種賭注,玩家所贏籌碼的期望都是-0.0526,莊家所贏籌碼的期望都是0.0526,同學(xué)們可以選擇其他類(lèi)型的賭注自行驗(yàn)證。
至此,我們終于看清了大轉(zhuǎn)盤(pán)的本來(lái)面目,它是一個(gè)典型的“零和博弈”, 莊家贏的籌碼等于玩家輸?shù)舻幕I碼,平均意義上看,玩家每下注1個(gè)籌碼,就會(huì)輸?shù)?.0526個(gè)籌碼,同時(shí)莊家會(huì)贏得0.0526個(gè)籌碼。0.0526看起來(lái)很微小,這正是莊家想要的效果,玩家就像溫水中的青蛙,沉浸在賭局中,卻不知自己的錢(qián)正在像沙漏中的細(xì)沙一樣,緩緩地流進(jìn)了莊家的錢(qián)袋。
在這個(gè)賭局中,莊家要做到穩(wěn)賺不賠,就要滿足大數(shù)定理實(shí)現(xiàn)的條件:實(shí)驗(yàn)次數(shù)足夠多。因此,莊家會(huì)想方設(shè)法地吸引玩家不停地玩下去,玩家越是沉迷于其中,莊家賺到的籌碼也越多,這就是莊家空手套利的秘密。
中心極限定理和抽樣分布
中心極限定理(central limit theorem,CLT)是概率論最重要的定理之一:
若給定樣本量的所有樣本來(lái)自任意總體,則樣本均值的抽樣分布近似服從正態(tài)分布,且樣本量越大,近似性越強(qiáng)
中心極限定理指出,對(duì)于大容量的隨機(jī)樣本,其樣本均值的抽樣分布形態(tài)近似于一個(gè)正態(tài)概率分布。這是統(tǒng)計(jì)學(xué)中非常有用的結(jié)論之一
我們可以在對(duì)樣本來(lái)源分布形態(tài)一無(wú)所知的情況下,推斷樣本均值的分布。
中心極限定理: 若給定樣本量的所有樣本來(lái)自任意總體,則樣本均值的抽樣分布近似服從正態(tài)分布,且樣本量越大,近似性越強(qiáng)。
根據(jù)中心極限定理可知,樣本均值作為隨機(jī)變量有如下性質(zhì)(注意,這里并沒(méi)有假定X的分布):
(1)如果能夠選擇給定總體的特定容量的所有可能樣本,那么,樣本均值的抽樣分布的均值將恰好等于總體均值,即 ,即使我們不能得到所有樣本,但可以預(yù)計(jì)樣本均值分布的均值會(huì)接近于總體均值。
(2)樣本均值的抽樣分布的離散程度小于總體分布。若總體標(biāo)準(zhǔn)差是σ,則樣本均值x的抽樣分布的標(biāo)準(zhǔn)差為 。當(dāng)樣本量增大時(shí),
值將變小,即x的集中程度變大。
從0~100勻分布的總體和指數(shù)分布的總體中分別抽取樣本量為2,10和30的各5000個(gè)樣本,樣本均值的分布如圖所示。
隨著樣本量的增大,樣本均值的分布逐漸趨于正態(tài)分布,而且分布越來(lái)越集中。
若把σ 換成樣本標(biāo)準(zhǔn)差s, 得到的 就是均值的標(biāo)準(zhǔn)誤(standard error of mean),它是對(duì)
的一個(gè)近似。
為什么樣本均值的波動(dòng)會(huì)比總體的波動(dòng)小呢?這是由于樣本是把N個(gè)數(shù)據(jù)取均值,而這N個(gè)數(shù)據(jù)里總是更可能有大有小,因而平均起來(lái)就會(huì)相互抵消,造成的結(jié)果就是波動(dòng)范圍變小。而且,N越大,這種相互之間的“拉平”作用越明顯,從而波動(dòng)(標(biāo)準(zhǔn)差)就減小得更多。
(3)即使X不是正態(tài)分布變量,在很一般的條件下,當(dāng)樣本量增加時(shí),x的分布趨近于正態(tài)分布 。
如果總體不是正態(tài)分布,當(dāng)n為小樣本(通常n<30)時(shí),樣本均值則不服從正態(tài)分布。
樣本均值的分布與總體分布及樣本量的關(guān)系如圖所示:
從U(0,1)分布對(duì)于三種樣本量n=1, 3, 100分別取1000個(gè)樣本,對(duì)每組樣本算出均值。這樣對(duì)每一種樣本量都有1000個(gè)均值,用這些均值畫(huà)直方圖,見(jiàn)下圖:
a=NULL;for(i in 1:1000)a=c(a,runif(1))#runif(x)產(chǎn)生x個(gè)隨機(jī)數(shù),for循環(huán)1000次,擴(kuò)充a序列,生成1000個(gè)樣本均值
b=NULL;for(i in 1:1000)b=c(b,mean(runif(3)))
c=NULL;for(i in 1:1000)c=c(c,mean(runif(100)))
unif=cbind(a,b,c);par(mfrow=c(1,3))#形成三列樣本,分別對(duì)應(yīng)a,b,c
hist(unif[,1],freq=F,xlab="",main=expression(paste(U(0,1),", n=1")))#對(duì)a樣本列繪制直方圖,freq: 邏輯值,默認(rèn)值為T(mén)RUE , y軸顯示的是每個(gè)區(qū)間內(nèi)的頻數(shù),F(xiàn)ALSE, 代表顯示的是頻率
lines(density(a));rug(a)
hist(unif[,2],freq=F,xlab="",main=expression(paste(U(0,1),", n=3")))
lines(density(b));rug(b)
hist(unif[,3],freq=F,xlab="",main=expression(paste(U(0,1),", n=100")))
lines(density(c));rug(c)
NULL表示空值,表示沒(méi)有內(nèi)容。一般常用在函數(shù)參數(shù)中,表示該參數(shù)沒(méi)有被賦予任何值。也經(jīng)常用在初始化變量,表示變量沒(méi)有任何內(nèi)容,因此它的長(zhǎng)度為0。
c本身在這里是“combine”的首字母,用于合并一系列數(shù)字從而形成向量/數(shù)列。
cbind: 根據(jù)列進(jìn)行合并,即疊加所有列,m列的矩陣與n列的矩陣,cbind()最后變成m+n列,合并前提:cbind(a, c)中矩陣a、c的行數(shù)必需相符。
paste函數(shù)把它的自變量連成一個(gè)字符串,中間用空格分開(kāi),如:
paste("Hello","world")
返回由空格連接的字符串。
[1] “Hello world”
在使用R語(yǔ)言作圖時(shí),有時(shí)需要在圖上標(biāo)注諸如求和、積分、上下標(biāo)等數(shù)學(xué)符號(hào),該操作可以通過(guò)expression函數(shù)完成。expression(…)
括號(hào)中輸入數(shù)學(xué)表達(dá)式,配合plot、text、title、axis等函數(shù)使用,可以將數(shù)學(xué)公式繪制在圖表上。
函數(shù)lines()用于在原圖上添加直線或折線,命令為lines(x,y),其功能相當(dāng)于plot(x,y,type=“1”)
rug(jitter(math)) #軸須圖,在軸旁邊出現(xiàn)一些小線段,jitter是加噪函數(shù)
density(a)原樣本點(diǎn)對(duì)應(yīng)的概率密度估計(jì)值。
圖中的曲線是對(duì)這1000個(gè)均值的密度估計(jì)。
下面小的短線標(biāo)出了這1000個(gè)均值的實(shí)際位置。
可以看出,樣本量越大,均值的直方圖越像正態(tài)變量的直方圖,而且數(shù)據(jù)的分散程度也越小,數(shù)據(jù)越集中。
在實(shí)際的抽樣問(wèn)題中,我們常常希望對(duì)總體進(jìn)行評(píng)價(jià),但往往又缺少總體信息。此時(shí),中心極限定理就能發(fā)揮效力。假定總體均值和總體標(biāo)準(zhǔn)差σ都是未知的,而通常主要對(duì)總體均值感興趣。
假定一個(gè)連續(xù)分布變量X的n個(gè)觀測(cè)值組成一個(gè)樣本,我們可以計(jì)算樣本均值x和樣本標(biāo)準(zhǔn)差s??梢杂脴颖揪祦?lái)估計(jì)μ的值,這種估計(jì)的好壞取決于樣本均值的抽樣分布。我們知道,對(duì)任何形態(tài)的總體分布,如果抽取一個(gè)容量足夠大的樣本,那么均值的抽樣分布服從正態(tài)分布。樣本均值的抽樣分布將服從正態(tài)分布。統(tǒng)計(jì)理論證明,只要樣本量大于30,就有理由相信均值的抽樣分布服從正態(tài)分布。
抽樣分布
可能關(guān)心某個(gè)地區(qū)所有家庭的平均收入是多少,但不可能去調(diào)查每個(gè)家庭的收入,而只能抽取一部分家庭作為樣本,獲得樣本家庭的收入數(shù)據(jù),然后用樣本平均收入去推斷全部家庭的平均收入。當(dāng)然,也可能去推斷所有家庭收入的方差是多少,低收入家庭的比例是多少,這就是抽樣推斷問(wèn)題。那么,做出這種推斷的依據(jù)是什么,這就必須知道用于推斷的樣本統(tǒng)計(jì)量是如何分布的(如樣本均值 、樣本比例p、樣本方差 等)是如何分布的。
我們希望利用樣本,特別是作為樣本函數(shù)的樣本統(tǒng)計(jì)量來(lái)了解總體,對(duì)總體參數(shù)進(jìn)行推斷
這些樣本統(tǒng)計(jì)量包括前面提到過(guò)的樣本均值、樣本中位數(shù)、樣本標(biāo)準(zhǔn)差以及由它們組成的函數(shù)
利用樣本結(jié)果估計(jì)總體參數(shù)會(huì)產(chǎn)生抽樣誤差,那么,如何基于樣本信息對(duì)我們感興趣的目標(biāo)進(jìn)行估計(jì)或預(yù)測(cè)呢?為回答該問(wèn)題,考察樣本統(tǒng)計(jì)量的分布
相同樣本量的樣本統(tǒng)計(jì)量會(huì)隨著樣本的不同而不同
即樣本統(tǒng)計(jì)量作為隨機(jī)樣本的函數(shù),也是隨機(jī)的, 也有自己的分布, 這些分布就稱(chēng)為抽樣分布 (sampling distribution)
參數(shù)(parameter)
描述總體特征的概括性數(shù)字度量
一個(gè)總體的參數(shù):總體均值(?)、標(biāo)準(zhǔn)差(?)、總體比例(?);兩個(gè)總體參數(shù):(?1 -?2)、(?1-?2)、(?1/?2)
總體參數(shù)通常用希臘字母表示
統(tǒng)計(jì)量(statistic)
用來(lái)描述樣本特征的概括性數(shù)字度量,它是根據(jù)樣本數(shù)據(jù)計(jì)算出來(lái)的一些量,是樣本的函數(shù)
一個(gè)總體參數(shù)推斷時(shí)的統(tǒng)計(jì)量:樣本均值(?x)、樣本標(biāo)準(zhǔn)差(s)、樣本比例§等;兩個(gè)總體參數(shù)推斷時(shí)的統(tǒng)計(jì)量: (?x1-?x2)、(p1-p2)、(s1/s2)
樣本統(tǒng)計(jì)量通常用小寫(xiě)英文字母來(lái)表示
樣本均值的分布
設(shè)總體共有N個(gè)元素(個(gè)體),從中抽取樣本量為n的隨機(jī)樣本,在有放回抽樣條件下,共有 個(gè)可能的樣本,在無(wú)放回抽樣條件下,共有 個(gè)可能的樣本。
把所有可能的樣本均值都計(jì)算出來(lái),由這些樣本均值形成的分布就是樣本均值的概率分布,或稱(chēng)樣本均值的抽樣分布。但現(xiàn)實(shí)中不可能將所有的樣本都抽出來(lái),因此,樣本均值的概率分布實(shí)際上是一種理論分布。當(dāng)樣本量較大時(shí),統(tǒng)計(jì)證明它近似服從正態(tài)分布。下面通過(guò)一個(gè)例子說(shuō)明樣本均值的概率分布
例題如下:
(數(shù)據(jù): example4_7. RData)設(shè)一個(gè)總體含有5個(gè)元素,取值分別為:
從該總體中采取重復(fù)抽樣方法抽取樣本量為n=2的所有可能樣本,寫(xiě)出樣本均值x的概率分布
分析: 取每一個(gè)值的概率都相同??傮w的均值和方差分別為:
從該總體中采取重復(fù)抽樣方法抽取樣本量為n=2的隨機(jī)樣本,一共有25個(gè)可能的樣本。
計(jì)算每一個(gè)樣本的均值 ,如圖所示:
樣本均值的均值 ,樣本均值的方差
:
與總體均值μ,總體方差 進(jìn)行比較:
繪制總體分布與樣本均值分布直方圖R代碼以及結(jié)果如下:
load("C:/example/ch4/example4_7.RData")
xx<-c(2,4,6,8,10)
par(mfrow=c(1,2),mai=c(0.8,0.8,0.1,0.1))
barplot(table(xx),xlab="總體分布",ylab="頻率",cex.axis=0.7,cex.lab=0.7,col="pink")
hist(example4_7$樣本均值,breaks=rep(1.5:10.5,by=2),ylab="頻率",xlab="樣本均值的分布",freq =FALSE,col="lightblue",cex.axis=0.7,cex.lab=0.7,main="")
curve(dnorm(x,mean(example4_7$樣本均值),sd(example4_7$樣本均值)),add=T,col="red",lwd=2)
樣本均值的期望值和方差
樣本均值的分布
樣本比例的分布
比例(proportion):總體(或樣本)中具有某種屬性的個(gè)體與全部個(gè)體總數(shù)之比
不同性別的人與全部人數(shù)之比
合格品(或不合格品) 與全部產(chǎn)品總數(shù)之比
總體比例可表示為
樣本比例可表示為
統(tǒng)計(jì)證明:當(dāng)樣本容量很大時(shí),樣本比例的抽樣分布可用正態(tài)分布近似
設(shè)總體比例π=0.2,從該總體中隨機(jī)抽取樣本量為50、100、500、1000的各5000個(gè)樣本。模擬的樣本比例的分布如圖所示:
隨著樣本量的增大,趨于正態(tài)分布,分布越來(lái)越集中
統(tǒng)計(jì)證明:對(duì)于來(lái)自正態(tài)總體的簡(jiǎn)單隨機(jī)樣本,則比值 的抽樣分布服從自由度為 (n -1) 的x2分布,即
樣本方差的分布形狀與 ?2分布類(lèi)似,隨著樣本量增大,逐漸趨于對(duì)稱(chēng)
練習(xí)
1、抽取不同的樣本量模擬以下分布:
(1)正態(tài)分布,來(lái)自正態(tài)總體的樣本
xx<-rnorm(5000,100,10)
x<-sample(xx,100,replace=T)#有放回
hist(x,ylab="頻率",xlab="正太分布樣本",labels=T,col="blue",main="正態(tài)分布樣本")
(2)樣本均值的分布,來(lái)自任意總體的樣本.
c=NULL;for(i in 1:1000)c=c(c,mean(runif(300)))
hist(c,freq=F,xlab="樣本均值的分布",ylab="頻率",col="green",main="樣本均值的分布")
lines(density(c))
rug(c)
(3)樣本比例的分布,來(lái)自任意總體的樣本
d=NULL;for(i in 1:1000)d=c(d,round(length(which(rbinom(300,2,0.5)==1))/300,2))
hist(d,freq=F,xlab="樣本比例的分布",ylab="頻率",col="blue",main="樣本比例的分布")
lines(density(d))
rug(d)
(4)樣本方差的分布,來(lái)自正態(tài)總體的樣本文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-802398.html
e=NULL;for(i in 1:1000)e=c(e,var(rnorm(300,50,10)))
hist(e,freq=F,xlab="樣本方差的分布",ylab="頻率",col="blue",main="樣本方差的分布")
lines(density(e))
rug(e)
文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-802398.html
到了這里,關(guān)于統(tǒng)計(jì)學(xué)-R語(yǔ)言-5.2的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!