国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<fieldset id="qc04q"><kbd id="qc04q"></kbd></fieldset>

統(tǒng)計(jì)學(xué)-R語(yǔ)言-5.2

2年前作者：柔霧分類(lèi)：Toy博客閱讀(20)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了統(tǒng)計(jì)學(xué)-R語(yǔ)言-5.2。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

前言

本篇文章將繼續(xù)上篇的進(jìn)行介紹。

大數(shù)定理

大數(shù)定理大數(shù)定理”的另一種表達(dá)方式是“均值定理”，其含義是，隨機(jī)變量X多個(gè)觀察值的均值會(huì)隨著觀察值的增加越發(fā)趨近于總體的期望值，中心極限定理進(jìn)一步告訴我們，均值服從期望為μ 的正態(tài)分布。在各種測(cè)量試驗(yàn)中，我們一般都認(rèn)為，測(cè)量結(jié)果的均值服從正態(tài)分布，根據(jù)總體均值估計(jì)的結(jié)論，正態(tài)分布的期望是應(yīng)與觀察值的均值近似相等。

中心極限定理是與大數(shù)定理并列的重要概率理論，它有幾種不同的表達(dá)方式，核心思想是，大量的獨(dú)立隨機(jī)變量相加，不論各個(gè)隨機(jī)變量的分布是怎樣的，它們的加和必定會(huì)趨向于正態(tài)分布。

大數(shù)定理
在拋硬幣的例子里，有一個(gè)重要的前提條件——硬幣的正面與反面出現(xiàn)的概率各為50%。你覺(jué)得這看起來(lái)一定是對(duì)的嗎？科學(xué)不相信感覺(jué)，科學(xué)相信實(shí)驗(yàn)。

  下面，請(qǐng)準(zhǔn)備好一枚一角的硬幣（因?yàn)橐唤堑母p），咱們一起來(lái)做拋硬幣的實(shí)驗(yàn)。實(shí)驗(yàn)過(guò)程是：高高拋起硬幣并接住，每拋一次，都把結(jié)果記錄下來(lái)，正面的次數(shù)X和反面的次數(shù)Y分別記錄。

拋到10次，結(jié)果是，正面3次，反面7次。
拋到100次時(shí)，結(jié)果是，正面43次，反面57次。
拋到200次時(shí)，結(jié)果是，正面97次，反面103次。
拋到1000次時(shí)，結(jié)果是，正面513次，反面487次。

這個(gè)實(shí)驗(yàn)可以永遠(yuǎn)進(jìn)行下去，實(shí)驗(yàn)的目的不是找到某一次拋擲，使得X和Y剛好相等，實(shí)驗(yàn)的目的是觀察X和Y的變化趨勢(shì)。因此，實(shí)驗(yàn)暫時(shí)只進(jìn)行到1000次。下圖是根據(jù)拋擲過(guò)程繪制出的曲線，曲線代表的是正面所占的比例，即X/（X+Y）隨拋擲次數(shù)的變化。
統(tǒng)計(jì)學(xué)-R語(yǔ)言-5.2,r語(yǔ)言,開(kāi)發(fā)語(yǔ)言

圖中曲線呈現(xiàn)的特征是，當(dāng)拋擲次數(shù)很少時(shí)正面所占比例的變化幅度很大，并且與0.5的差值比較大，隨著拋擲次數(shù)越來(lái)越多，正面所占的比例的變化幅度越來(lái)越小，而且一直圍繞在0.5的周?chē)?。根?jù)這條曲線，我們甚至可以預(yù)期，1000次之后的曲線還會(huì)在0.5周?chē)腔?，感興趣的同學(xué)可以把實(shí)驗(yàn)繼續(xù)做下去。
大數(shù)定理，指的是隨機(jī)事件發(fā)生的頻率會(huì)隨著隨機(jī)試驗(yàn)次數(shù)的不斷增加趨向于它的概率，簡(jiǎn)單來(lái)說(shuō)就是，試驗(yàn)次數(shù)越多頻率離概率越近，而且越穩(wěn)定。在上面的實(shí)驗(yàn)中，隨機(jī)事件是“拋硬幣出現(xiàn)正面”，頻率是“正面出現(xiàn)所占的比例X/（X+Y）”，隨著拋擲次數(shù)的增加，這個(gè)頻率越發(fā)趨近概率值0.5，大數(shù)定理像一只“看不見(jiàn)的手”，掌控著試驗(yàn)過(guò)程。

空手套利的莊家
我們回到賭場(chǎng)，坐回到賭桌前，看一看大數(shù)定理是怎么暗中幫助莊家賺到錢(qián)的。
我們要玩的是賭場(chǎng)里很流行的一個(gè)游戲-----大轉(zhuǎn)盤(pán)。游戲的道具是如下圖所示的大轉(zhuǎn)盤(pán)，轉(zhuǎn)盤(pán)上有38個(gè)格子，格子里填寫(xiě)了1~36的數(shù)字和兩個(gè)特殊數(shù)字0、00，玩家的下注方式有很多種比如下注奇數(shù)，下注黑色格子的數(shù)字，或者下注某一個(gè)數(shù)字。這里需要特別說(shuō)明的是，0和00這兩個(gè)數(shù)字不包含在任何賭注中，這兩個(gè)數(shù)字是留給莊家的，就是說(shuō)，當(dāng)轉(zhuǎn)盤(pán)的指針最終指向0或00時(shí)，莊家贏得所有的籌碼。
統(tǒng)計(jì)學(xué)-R語(yǔ)言-5.2,r語(yǔ)言,開(kāi)發(fā)語(yǔ)言
空手套利的莊家
我們挑選贏的概率最大和最小的兩種賭注。
贏的概率最小的賭注是下注某一個(gè)數(shù)字，當(dāng)玩家下注某一個(gè)數(shù)字時(shí)，他贏的概率是1/38，而此時(shí)莊家贏的概率是2/38，很顯然，玩家會(huì)輸給莊家！
贏得概率最大的賭注是下注黑色（或紅色）數(shù)字，當(dāng)玩家下注黑色（或紅色）數(shù)字時(shí)，他贏的概率是18/38，這時(shí)，莊家贏的概率仍然是2/38，很顯然，玩家會(huì)戰(zhàn)勝莊家！
很顯然，上面的分析是錯(cuò)的！
因?yàn)橥婕液颓f家要贏的是籌碼，可不是概率！概率只是我們分析賭局的工具，玩家們真正關(guān)注的不是概率，而是所贏籌碼的期望。為了計(jì)算所贏籌碼的期望，我們首先要了解賭場(chǎng)里一個(gè)重要的常識(shí)——賠率。

賠率是賭場(chǎng)為每一個(gè)賭注設(shè)置的“賠錢(qián)比例”，比如，在2015—2016賽季英超聯(lián)賽開(kāi)始前，博彩公司為萊斯特城隊(duì)開(kāi)出的奪冠賠率是1：5000，這個(gè)比例的含義是，玩家用1英鎊下注萊斯特城隊(duì)奪冠，如果萊斯特城隊(duì)最終奪冠，博彩公司會(huì)付給玩家5000英鎊（含玩家下注的1英鎊）。同時(shí)，阿森納的奪冠賠率是1：3.5，即，下注阿森納奪冠1英鎊的玩家，即使贏了也只能得到3.5英鎊。從這樣的賠率可以看出，在英超聯(lián)賽開(kāi)始之前，博彩公司看好阿森納奪冠，看衰萊斯特城隊(duì)奪冠，這就是賠率的含義。

下表給出了大轉(zhuǎn)盤(pán)中各類(lèi)賭注的賠率，我們利用這些賠率來(lái)計(jì)算玩家和莊家所贏籌碼的期望。

統(tǒng)計(jì)學(xué)-R語(yǔ)言-5.2,r語(yǔ)言,開(kāi)發(fā)語(yǔ)言

統(tǒng)計(jì)學(xué)-R語(yǔ)言-5.2,r語(yǔ)言,開(kāi)發(fā)語(yǔ)言
假設(shè)玩家拿一個(gè)籌碼下注某一個(gè)數(shù)字，他贏的概率是1/38，贏了可以得到35個(gè)籌碼，輸?shù)母怕适?7/38，輸了會(huì)輸?shù)暨@一個(gè)籌碼，所以玩家所贏籌碼的期望是：
E（玩家下注某個(gè)數(shù)字時(shí)，玩家所贏籌碼）=1/38×35+37/38×（-1）= -1/19= -0.0526
與玩家相對(duì)的，莊家所贏籌碼的期望是：
E（玩家下注某個(gè)數(shù)字時(shí)，莊家所贏籌碼）=1/38×（-35）+37/38×(+1)= 1/19=0.0526
用同樣的方法，可以計(jì)算出玩家下注黑色數(shù)字時(shí)玩家和莊家所贏籌碼的期望：
E（玩家下注黑色數(shù)字時(shí)，玩家所贏籌碼）=18/38×(+1)+20/38×（-1）= -1/19= -0.0526
E（玩家下注黑色數(shù)字時(shí)，莊家所贏籌碼）=18/38（-1）+20/38×（+1）= 1/19=0.0526

事實(shí)上，不論何種賭注，玩家所贏籌碼的期望都是-0.0526，莊家所贏籌碼的期望都是0.0526，同學(xué)們可以選擇其他類(lèi)型的賭注自行驗(yàn)證。
至此，我們終于看清了大轉(zhuǎn)盤(pán)的本來(lái)面目，它是一個(gè)典型的“零和博弈”，莊家贏的籌碼等于玩家輸?shù)舻幕I碼，平均意義上看，玩家每下注1個(gè)籌碼，就會(huì)輸?shù)?.0526個(gè)籌碼，同時(shí)莊家會(huì)贏得0.0526個(gè)籌碼。0.0526看起來(lái)很微小，這正是莊家想要的效果，玩家就像溫水中的青蛙，沉浸在賭局中，卻不知自己的錢(qián)正在像沙漏中的細(xì)沙一樣，緩緩地流進(jìn)了莊家的錢(qián)袋。
在這個(gè)賭局中，莊家要做到穩(wěn)賺不賠，就要滿足大數(shù)定理實(shí)現(xiàn)的條件：實(shí)驗(yàn)次數(shù)足夠多。因此，莊家會(huì)想方設(shè)法地吸引玩家不停地玩下去，玩家越是沉迷于其中，莊家賺到的籌碼也越多，這就是莊家空手套利的秘密。

中心極限定理和抽樣分布

中心極限定理(central limit theorem,CLT)是概率論最重要的定理之一:
若給定樣本量的所有樣本來(lái)自任意總體，則樣本均值的抽樣分布近似服從正態(tài)分布，且樣本量越大，近似性越強(qiáng)
中心極限定理指出，對(duì)于大容量的隨機(jī)樣本，其樣本均值的抽樣分布形態(tài)近似于一個(gè)正態(tài)概率分布。這是統(tǒng)計(jì)學(xué)中非常有用的結(jié)論之一
我們可以在對(duì)樣本來(lái)源分布形態(tài)一無(wú)所知的情況下，推斷樣本均值的分布。

中心極限定理: 若給定樣本量的所有樣本來(lái)自任意總體，則樣本均值的抽樣分布近似服從正態(tài)分布，且樣本量越大，近似性越強(qiáng)。
統(tǒng)計(jì)學(xué)-R語(yǔ)言-5.2,r語(yǔ)言,開(kāi)發(fā)語(yǔ)言
根據(jù)中心極限定理可知，樣本均值作為隨機(jī)變量有如下性質(zhì)(注意，這里并沒(méi)有假定X的分布):
(1)如果能夠選擇給定總體的特定容量的所有可能樣本,那么,樣本均值的抽樣分布的均值將恰好等于總體均值,即 ,即使我們不能得到所有樣本,但可以預(yù)計(jì)樣本均值分布的均值會(huì)接近于總體均值。
(2)樣本均值的抽樣分布的離散程度小于總體分布。若總體標(biāo)準(zhǔn)差是σ,則樣本均值x的抽樣分布的標(biāo)準(zhǔn)差為統(tǒng)計(jì)學(xué)-R語(yǔ)言-5.2,r語(yǔ)言,開(kāi)發(fā)語(yǔ)言。當(dāng)樣本量增大時(shí), 值將變小,即x的集中程度變大。

從0~100勻分布的總體和指數(shù)分布的總體中分別抽取樣本量為2，10和30的各5000個(gè)樣本，樣本均值的分布如圖所示。
隨著樣本量的增大，樣本均值的分布逐漸趨于正態(tài)分布，而且分布越來(lái)越集中。
統(tǒng)計(jì)學(xué)-R語(yǔ)言-5.2,r語(yǔ)言,開(kāi)發(fā)語(yǔ)言

若把σ 換成樣本標(biāo)準(zhǔn)差s, 得到的統(tǒng)計(jì)學(xué)-R語(yǔ)言-5.2,r語(yǔ)言,開(kāi)發(fā)語(yǔ)言就是均值的標(biāo)準(zhǔn)誤(standard error of mean),它是對(duì) 的一個(gè)近似。
為什么樣本均值的波動(dòng)會(huì)比總體的波動(dòng)小呢？這是由于樣本是把N個(gè)數(shù)據(jù)取均值，而這N個(gè)數(shù)據(jù)里總是更可能有大有小，因而平均起來(lái)就會(huì)相互抵消，造成的結(jié)果就是波動(dòng)范圍變小。而且，N越大，這種相互之間的“拉平”作用越明顯，從而波動(dòng)（標(biāo)準(zhǔn)差）就減小得更多。
(3)即使X不是正態(tài)分布變量,在很一般的條件下,當(dāng)樣本量增加時(shí),x的分布趨近于正態(tài)分布統(tǒng)計(jì)學(xué)-R語(yǔ)言-5.2,r語(yǔ)言,開(kāi)發(fā)語(yǔ)言。

如果總體不是正態(tài)分布，當(dāng)n為小樣本（通常n<30）時(shí)，樣本均值則不服從正態(tài)分布。
樣本均值的分布與總體分布及樣本量的關(guān)系如圖所示：
統(tǒng)計(jì)學(xué)-R語(yǔ)言-5.2,r語(yǔ)言,開(kāi)發(fā)語(yǔ)言
從U(0,1)分布對(duì)于三種樣本量n=1, 3, 100分別取1000個(gè)樣本,對(duì)每組樣本算出均值。這樣對(duì)每一種樣本量都有1000個(gè)均值，用這些均值畫(huà)直方圖，見(jiàn)下圖：

a=NULL;for(i in 1:1000)a=c(a,runif(1))#runif(x)產(chǎn)生x個(gè)隨機(jī)數(shù)，for循環(huán)1000次，擴(kuò)充a序列，生成1000個(gè)樣本均值
b=NULL;for(i in 1:1000)b=c(b,mean(runif(3)))
c=NULL;for(i in 1:1000)c=c(c,mean(runif(100)))
unif=cbind(a,b,c);par(mfrow=c(1,3))#形成三列樣本，分別對(duì)應(yīng)a,b,c
hist(unif[,1],freq=F,xlab="",main=expression(paste(U(0,1),", n=1")))#對(duì)a樣本列繪制直方圖，freq: 邏輯值，默認(rèn)值為T(mén)RUE , y軸顯示的是每個(gè)區(qū)間內(nèi)的頻數(shù)，F(xiàn)ALSE, 代表顯示的是頻率
lines(density(a));rug(a)

hist(unif[,2],freq=F,xlab="",main=expression(paste(U(0,1),", n=3")))
lines(density(b));rug(b)
hist(unif[,3],freq=F,xlab="",main=expression(paste(U(0,1),", n=100")))
lines(density(c));rug(c)

統(tǒng)計(jì)學(xué)-R語(yǔ)言-5.2,r語(yǔ)言,開(kāi)發(fā)語(yǔ)言
NULL表示空值，表示沒(méi)有內(nèi)容。一般常用在函數(shù)參數(shù)中，表示該參數(shù)沒(méi)有被賦予任何值。也經(jīng)常用在初始化變量，表示變量沒(méi)有任何內(nèi)容，因此它的長(zhǎng)度為0。
c本身在這里是“combine”的首字母，用于合并一系列數(shù)字從而形成向量/數(shù)列。
cbind：根據(jù)列進(jìn)行合并，即疊加所有列，m列的矩陣與n列的矩陣,cbind()最后變成m+n列，合并前提：cbind(a, c)中矩陣a、c的行數(shù)必需相符。
paste函數(shù)把它的自變量連成一個(gè)字符串，中間用空格分開(kāi)，如：

paste("Hello","world")

返回由空格連接的字符串。
[1] “Hello world”

在使用R語(yǔ)言作圖時(shí)，有時(shí)需要在圖上標(biāo)注諸如求和、積分、上下標(biāo)等數(shù)學(xué)符號(hào)，該操作可以通過(guò)expression函數(shù)完成。expression(…)
括號(hào)中輸入數(shù)學(xué)表達(dá)式，配合plot、text、title、axis等函數(shù)使用，可以將數(shù)學(xué)公式繪制在圖表上。
函數(shù)lines()用于在原圖上添加直線或折線，命令為lines(x,y),其功能相當(dāng)于plot(x,y,type=“1”)
rug(jitter(math)) #軸須圖，在軸旁邊出現(xiàn)一些小線段，jitter是加噪函數(shù)
density(a)原樣本點(diǎn)對(duì)應(yīng)的概率密度估計(jì)值。
統(tǒng)計(jì)學(xué)-R語(yǔ)言-5.2,r語(yǔ)言,開(kāi)發(fā)語(yǔ)言
圖中的曲線是對(duì)這1000個(gè)均值的密度估計(jì)。
下面小的短線標(biāo)出了這1000個(gè)均值的實(shí)際位置。
可以看出，樣本量越大，均值的直方圖越像正態(tài)變量的直方圖，而且數(shù)據(jù)的分散程度也越小,數(shù)據(jù)越集中。
統(tǒng)計(jì)學(xué)-R語(yǔ)言-5.2,r語(yǔ)言,開(kāi)發(fā)語(yǔ)言
在實(shí)際的抽樣問(wèn)題中，我們常常希望對(duì)總體進(jìn)行評(píng)價(jià)，但往往又缺少總體信息。此時(shí)，中心極限定理就能發(fā)揮效力。假定總體均值和總體標(biāo)準(zhǔn)差σ都是未知的，而通常主要對(duì)總體均值感興趣。
假定一個(gè)連續(xù)分布變量X的n個(gè)觀測(cè)值組成一個(gè)樣本，我們可以計(jì)算樣本均值x和樣本標(biāo)準(zhǔn)差s?？梢杂脴颖揪祦?lái)估計(jì)μ的值，這種估計(jì)的好壞取決于樣本均值的抽樣分布。我們知道，對(duì)任何形態(tài)的總體分布，如果抽取一個(gè)容量足夠大的樣本，那么均值的抽樣分布服從正態(tài)分布。樣本均值的抽樣分布將服從正態(tài)分布。統(tǒng)計(jì)理論證明，只要樣本量大于30，就有理由相信均值的抽樣分布服從正態(tài)分布。

抽樣分布

可能關(guān)心某個(gè)地區(qū)所有家庭的平均收入是多少，但不可能去調(diào)查每個(gè)家庭的收入，而只能抽取一部分家庭作為樣本，獲得樣本家庭的收入數(shù)據(jù)，然后用樣本平均收入去推斷全部家庭的平均收入。當(dāng)然，也可能去推斷所有家庭收入的方差是多少，低收入家庭的比例是多少，這就是抽樣推斷問(wèn)題。那么，做出這種推斷的依據(jù)是什么，這就必須知道用于推斷的樣本統(tǒng)計(jì)量是如何分布的（如樣本均值、樣本比例p、樣本方差等）是如何分布的。

我們希望利用樣本,特別是作為樣本函數(shù)的樣本統(tǒng)計(jì)量來(lái)了解總體,對(duì)總體參數(shù)進(jìn)行推斷
這些樣本統(tǒng)計(jì)量包括前面提到過(guò)的樣本均值、樣本中位數(shù)、樣本標(biāo)準(zhǔn)差以及由它們組成的函數(shù)
利用樣本結(jié)果估計(jì)總體參數(shù)會(huì)產(chǎn)生抽樣誤差,那么,如何基于樣本信息對(duì)我們感興趣的目標(biāo)進(jìn)行估計(jì)或預(yù)測(cè)呢?為回答該問(wèn)題,考察樣本統(tǒng)計(jì)量的分布

相同樣本量的樣本統(tǒng)計(jì)量會(huì)隨著樣本的不同而不同
即樣本統(tǒng)計(jì)量作為隨機(jī)樣本的函數(shù),也是隨機(jī)的, 也有自己的分布, 這些分布就稱(chēng)為抽樣分布 (sampling distribution)

參數(shù)(parameter)
描述總體特征的概括性數(shù)字度量
一個(gè)總體的參數(shù)：總體均值(?)、標(biāo)準(zhǔn)差(?)、總體比例(?)；兩個(gè)總體參數(shù)：(?1 -?2)、(?1-?2)、(?1/?2)
總體參數(shù)通常用希臘字母表示
統(tǒng)計(jì)量(statistic)
用來(lái)描述樣本特征的概括性數(shù)字度量，它是根據(jù)樣本數(shù)據(jù)計(jì)算出來(lái)的一些量，是樣本的函數(shù)
一個(gè)總體參數(shù)推斷時(shí)的統(tǒng)計(jì)量：樣本均值(?x)、樣本標(biāo)準(zhǔn)差(s)、樣本比例§等；兩個(gè)總體參數(shù)推斷時(shí)的統(tǒng)計(jì)量： (?x1-?x2)、(p1-p2)、(s1/s2)
樣本統(tǒng)計(jì)量通常用小寫(xiě)英文字母來(lái)表示

樣本均值的分布

設(shè)總體共有N個(gè)元素（個(gè)體），從中抽取樣本量為n的隨機(jī)樣本，在有放回抽樣條件下，共有個(gè)可能的樣本，在無(wú)放回抽樣條件下，共有個(gè)可能的樣本。
把所有可能的樣本均值都計(jì)算出來(lái)，由這些樣本均值形成的分布就是樣本均值的概率分布，或稱(chēng)樣本均值的抽樣分布。但現(xiàn)實(shí)中不可能將所有的樣本都抽出來(lái)，因此，樣本均值的概率分布實(shí)際上是一種理論分布。當(dāng)樣本量較大時(shí)，統(tǒng)計(jì)證明它近似服從正態(tài)分布。下面通過(guò)一個(gè)例子說(shuō)明樣本均值的概率分布

例題如下：
（數(shù)據(jù)： example4_7. RData）設(shè)一個(gè)總體含有5個(gè)元素，取值分別為：
從該總體中采取重復(fù)抽樣方法抽取樣本量為n=2的所有可能樣本，寫(xiě)出樣本均值x的概率分布
統(tǒng)計(jì)學(xué)-R語(yǔ)言-5.2,r語(yǔ)言,開(kāi)發(fā)語(yǔ)言
分析：取每一個(gè)值的概率都相同?？傮w的均值和方差分別為：

從該總體中采取重復(fù)抽樣方法抽取樣本量為n=2的隨機(jī)樣本，一共有25個(gè)可能的樣本。
計(jì)算每一個(gè)樣本的均值，如圖所示：
樣本均值的均值統(tǒng)計(jì)學(xué)-R語(yǔ)言-5.2,r語(yǔ)言,開(kāi)發(fā)語(yǔ)言，樣本均值的方差：

與總體均值μ，總體方差進(jìn)行比較：
統(tǒng)計(jì)學(xué)-R語(yǔ)言-5.2,r語(yǔ)言,開(kāi)發(fā)語(yǔ)言
繪制總體分布與樣本均值分布直方圖R代碼以及結(jié)果如下：

load("C:/example/ch4/example4_7.RData")
xx<-c(2,4,6,8,10)
par(mfrow=c(1,2),mai=c(0.8,0.8,0.1,0.1))
barplot(table(xx),xlab="總體分布",ylab="頻率",cex.axis=0.7,cex.lab=0.7,col="pink")
hist(example4_7$樣本均值,breaks=rep(1.5:10.5,by=2),ylab="頻率",xlab="樣本均值的分布",freq =FALSE,col="lightblue",cex.axis=0.7,cex.lab=0.7,main="")
curve(dnorm(x,mean(example4_7$樣本均值),sd(example4_7$樣本均值)),add=T,col="red",lwd=2)

統(tǒng)計(jì)學(xué)-R語(yǔ)言-5.2,r語(yǔ)言,開(kāi)發(fā)語(yǔ)言
樣本均值的期望值和方差

樣本均值的分布

樣本比例的分布

比例(proportion)：總體(或樣本)中具有某種屬性的個(gè)體與全部個(gè)體總數(shù)之比
不同性別的人與全部人數(shù)之比
合格品(或不合格品) 與全部產(chǎn)品總數(shù)之比
總體比例可表示為
統(tǒng)計(jì)學(xué)-R語(yǔ)言-5.2,r語(yǔ)言,開(kāi)發(fā)語(yǔ)言

樣本比例可表示為
統(tǒng)計(jì)學(xué)-R語(yǔ)言-5.2,r語(yǔ)言,開(kāi)發(fā)語(yǔ)言
統(tǒng)計(jì)證明：當(dāng)樣本容量很大時(shí)，樣本比例的抽樣分布可用正態(tài)分布近似

設(shè)總體比例π=0.2，從該總體中隨機(jī)抽取樣本量為50、100、500、1000的各5000個(gè)樣本。模擬的樣本比例的分布如圖所示：
隨著樣本量的增大，趨于正態(tài)分布，分布越來(lái)越集中

統(tǒng)計(jì)學(xué)-R語(yǔ)言-5.2,r語(yǔ)言,開(kāi)發(fā)語(yǔ)言

統(tǒng)計(jì)證明：對(duì)于來(lái)自正態(tài)總體的簡(jiǎn)單隨機(jī)樣本，則比值統(tǒng)計(jì)學(xué)-R語(yǔ)言-5.2,r語(yǔ)言,開(kāi)發(fā)語(yǔ)言的抽樣分布服從自由度為 (n -1) 的x2分布，即

樣本方差的分布形狀與 ?2分布類(lèi)似，隨著樣本量增大，逐漸趨于對(duì)稱(chēng)

練習(xí)

1、抽取不同的樣本量模擬以下分布：
（1）正態(tài)分布，來(lái)自正態(tài)總體的樣本

xx<-rnorm(5000,100,10)
x<-sample(xx,100,replace=T)#有放回
hist(x,ylab="頻率",xlab="正太分布樣本",labels=T,col="blue",main="正態(tài)分布樣本")

統(tǒng)計(jì)學(xué)-R語(yǔ)言-5.2,r語(yǔ)言,開(kāi)發(fā)語(yǔ)言

（2）樣本均值的分布，來(lái)自任意總體的樣本.

c=NULL;for(i in 1:1000)c=c(c,mean(runif(300)))
hist(c,freq=F,xlab="樣本均值的分布",ylab="頻率",col="green",main="樣本均值的分布")
lines(density(c))
rug(c)

統(tǒng)計(jì)學(xué)-R語(yǔ)言-5.2,r語(yǔ)言,開(kāi)發(fā)語(yǔ)言

（3）樣本比例的分布，來(lái)自任意總體的樣本

d=NULL;for(i in 1:1000)d=c(d,round(length(which(rbinom(300,2,0.5)==1))/300,2))
hist(d,freq=F,xlab="樣本比例的分布",ylab="頻率",col="blue",main="樣本比例的分布")
lines(density(d))
rug(d)

統(tǒng)計(jì)學(xué)-R語(yǔ)言-5.2,r語(yǔ)言,開(kāi)發(fā)語(yǔ)言

（4）樣本方差的分布，來(lái)自正態(tài)總體的樣本

e=NULL;for(i in 1:1000)e=c(e,var(rnorm(300,50,10)))
hist(e,freq=F,xlab="樣本方差的分布",ylab="頻率",col="blue",main="樣本方差的分布")
lines(density(e))
rug(e)

統(tǒng)計(jì)學(xué)-R語(yǔ)言-5.2,r語(yǔ)言,開(kāi)發(fā)語(yǔ)言文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-802398.html

到了這里，關(guān)于統(tǒng)計(jì)學(xué)-R語(yǔ)言-5.2的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

統(tǒng)計(jì)學(xué)-R語(yǔ)言-2.2
本篇文章是將上篇得軟件安裝完，對(duì)其部分功能進(jìn)行介紹。在我們?nèi)粘＞毩?xí)時(shí)會(huì)有.RData文件導(dǎo)入，并對(duì)其進(jìn)行分析，下面是兩種方導(dǎo)入.RData文件。直接找到自己下載的.RData文件，雙擊進(jìn)行打開(kāi)即可。上面得工具欄中找到文件。在里面找到打開(kāi)程序腳本，找到你所保存的.R
2024年02月02日
瀏覽(28)
統(tǒng)計(jì)學(xué)-R語(yǔ)言-6.4
本片是對(duì)以上三個(gè)介紹的篇章的題進(jìn)行介紹。 1、利用下面的信息，構(gòu)建總體均值μ的置信區(qū)間：總體均值的區(qū)間估計(jì)(大樣本的估計(jì)) 利用下面的信息，構(gòu)建總體均值μ的置信區(qū)間： (1)總體不服從正態(tài)分布，已知，n=35， =8900，s=510，置信水平為95% (2)總體不服從正態(tài)分布，未
2024年01月20日
瀏覽(21)
統(tǒng)計(jì)學(xué)-R語(yǔ)言-4.4
上一篇文章介紹的是單變量數(shù)據(jù)，本篇將介紹雙變量數(shù)據(jù)。描述分類(lèi)數(shù)據(jù)對(duì)分類(lèi)數(shù)據(jù)的描述方法：二維表、復(fù)式條形圖。描述分類(lèi)型數(shù)據(jù)對(duì)數(shù)值型數(shù)據(jù)的描述方法：箱線圖。描述數(shù)值型數(shù)據(jù)對(duì)數(shù)值型數(shù)據(jù)的描述方法：散點(diǎn)圖、相關(guān)系數(shù)。二維表（two-dimensional table）是兩個(gè)變
2024年01月19日
瀏覽(30)
統(tǒng)計(jì)學(xué)-R語(yǔ)言-4.1
安裝完R軟件之后就可以對(duì)其進(jìn)行代碼的編寫(xiě)了。如果對(duì)數(shù)據(jù)分析有些特殊需要，已有的R包或函數(shù)不能滿足，可以在R中編寫(xiě)自己的函數(shù)。函數(shù)的定義格式如下所示：該式中， functionname是函數(shù)名稱(chēng)； function指明該對(duì)象為函數(shù)類(lèi)型；a1，a2，為函數(shù)中涉及的參數(shù)； expression是函數(shù)
2024年01月16日
瀏覽(24)
統(tǒng)計(jì)學(xué)-R語(yǔ)言-4.5
本篇文章將繼續(xù)對(duì)數(shù)據(jù)的類(lèi)型做介紹，本片也是最后一個(gè)介紹數(shù)據(jù)的。掌握描述多變量數(shù)據(jù)的分析方法：多維列聯(lián)表、復(fù)式條形圖、并列箱線圖、點(diǎn)帶圖、多變量散點(diǎn)圖（重疊散點(diǎn)圖和矩陣式散點(diǎn)圖）。除了一維表、二維表，在實(shí)際中更多的是多維表，也就是多個(gè)變量交叉
2024年02月01日
瀏覽(15)
統(tǒng)計(jì)學(xué)-R語(yǔ)言-2.1
上篇文章介紹了統(tǒng)計(jì)學(xué)-R語(yǔ)言的介紹，本篇文章介紹如何安裝R軟件。可以登錄官網(wǎng)，https://www.r-project.org/，點(diǎn)擊此處跳轉(zhuǎn)。點(diǎn)進(jìn)去下滑找到China,之后找任意一個(gè)鏈接地址進(jìn)行下載即可。我點(diǎn)的是第二個(gè)，進(jìn)入后在紅框中選擇自己對(duì)應(yīng)得版本進(jìn)行下載。第一次安裝點(diǎn)擊紅框處
2024年02月02日
瀏覽(18)
統(tǒng)計(jì)學(xué)-R語(yǔ)言-6.2
本篇將繼續(xù)介紹上篇所剩下的內(nèi)容。設(shè)兩個(gè)總體的均值分別為?1和?2，從兩個(gè)總體中分別抽取樣本量為n1和n2的兩個(gè)隨機(jī)樣本，其樣本均值分別為和。估計(jì)兩個(gè)總體均值之差（u1-u2）的點(diǎn)估計(jì)量顯然是兩個(gè)樣本的均值之差（）。兩個(gè)總體均值的置信區(qū)間是由兩個(gè)樣本均值之
2024年01月18日
瀏覽(33)
統(tǒng)計(jì)學(xué)-R語(yǔ)言-7.2
本篇將繼續(xù)上篇文章進(jìn)行介紹。小樣本的檢驗(yàn) 假定條件小樣本(n30) 總體服從正太分布檢驗(yàn)統(tǒng)計(jì)量的選擇與總體方差是否已知有關(guān) 已知樣本，均值經(jīng)標(biāo)準(zhǔn)化后服從標(biāo)準(zhǔn)正態(tài)分布：單樣本t檢驗(yàn)的效應(yīng)量通常使用 Cohen的d統(tǒng)計(jì)量來(lái)度量，計(jì)算公式為：該效應(yīng)量表示樣本均值與假
2024年01月21日
瀏覽(21)
統(tǒng)計(jì)學(xué)-R語(yǔ)言-6.1
本篇文章將開(kāi)始介紹參數(shù)估計(jì)的相關(guān)知識(shí)。在調(diào)查居民對(duì)延遲退休態(tài)度的例子中，每個(gè)愛(ài)民區(qū)居民的態(tài)度稱(chēng)為(這個(gè)調(diào)查問(wèn)題中的)個(gè)體(element, individual, unit)，而所有愛(ài)民區(qū)居民對(duì)這個(gè)問(wèn)題的觀點(diǎn)稱(chēng)為總體(population) 總體是包含所有要研究的個(gè)體的集合。由于包含的個(gè)體數(shù)有限
2024年01月19日
瀏覽(31)
統(tǒng)計(jì)學(xué)-R語(yǔ)言-4.7
本篇文章將介紹數(shù)據(jù)的描述統(tǒng)計(jì)量。平均數(shù)也稱(chēng)為均值，常用的統(tǒng)計(jì)量之一消除了觀測(cè)值的隨機(jī)波動(dòng) 易受極端值的影響根據(jù)總體數(shù)據(jù)計(jì)算的，稱(chēng)為總體平均數(shù)，記為?；根據(jù)樣本數(shù)據(jù)計(jì)算的，稱(chēng)為樣本平均數(shù)，記為。設(shè)一組數(shù)據(jù)為：x1 ，x2 ，… ，xn (總體數(shù)據(jù)xN) 。計(jì)算
2024年01月16日
瀏覽(19)

<button id="yg44s"><noscript id="yg44s"></noscript></button>