1 正態(tài)分布與Z檢驗
1.1 理論
Z檢驗的目的是為了驗證:已知一個總體服從均值,方差的正態(tài)分布,現(xiàn)在有一些樣本,這些樣本所代表的總體的均值是否為。
則構(gòu)建一個統(tǒng)計量Z,
(1)
式中,為樣本均值,為總體均值,為總體方差,n為樣本數(shù)量。
若零假設(null hypothesis)成立,即:樣本所代表的總體的均值為,則Z服從N(0, 1)。換一種說法就是統(tǒng)計量Z落在下圖所示的標準正態(tài)分布概率密度函數(shù)的大概率區(qū)間,也就是白色區(qū)域所對應的橫軸范圍。
?若Z落在陰影范圍所對應的橫軸區(qū)域,則假設不成立,陰影范圍的選取與給定的顯著性水平有關。
1.2 應用
工廠老板宣稱生產(chǎn)的零件符合正態(tài)分布,質(zhì)檢部門抽檢了100個樣本,那么這些樣本所代表的全部零件的均值,是否跟老板所說的正態(tài)分布均值一致。這個問題就可以通過Z檢驗驗證,計算樣本均值,將樣本均值和樣本數(shù)量代入式(1),看Z值落在橫軸的什么區(qū)域,白色區(qū)域檢驗合格,黑色區(qū)域檢驗不合格。
2 卡方分布和卡方檢驗
2.1 自由度的概念
在講卡方分布前,先要理解樣本的自由度。舉例說明:一個列表中有10個數(shù)字,我告訴你,這10個數(shù)字你可以隨便寫,那么這個列表中10個數(shù)字都是“自由的”,有10個自由度。如果我告訴你,這個列表的平均值是5,那么你前9個值你可以隨便寫,第10個數(shù)是固定的,因為必須滿足我給定的平均值,這樣一來,這個列表的自由度就是9了。
上面是一維的情況,如果推廣到二維,看下面這個例子。
化妝 | 不化妝 | 總數(shù) | |
男 | 100 | ||
女 | 100 | ||
總數(shù) | 90 | 110 |
你調(diào)查了男生、女生各100人的化妝情況,上面四個空著的格子里,你只能隨便寫一個,剩下的三個必須根據(jù)總數(shù)來計算,所以這個例子中,四個空著的格子是4個樣本,但是只有一個樣本是“自由”的,所以自由度為1。自由度的計算公式:(行數(shù) - 1)*(列數(shù) - 1)
?更加詳細的自由度解釋,參見這邊文章:用可視化思維解讀統(tǒng)計自由度 - 簡書
2.2 卡方分布
卡方分布定義如下
?2.3 卡方檢驗
卡方檢驗的目的是為了驗證。兩個事物之間是否有關系,還是拿自由度那里提到的男女化妝比例的例子來講。現(xiàn)在想研究男女性別和是否化妝,這兩件事是否相關。
假定不相關(這個就是零假設),也就是說,化妝和不化妝的人群中,男女所占的比例是相同的。在零假設中,樣本的標準值就是下面這樣:
化妝 | 不化妝 | 總數(shù) | |
男 | 45 | 55 | 100 |
女 | 45 | 55 | 100 |
總數(shù) | 90 | 110 |
?隨機抽樣的樣本結(jié)果如下
化妝 | 不化妝 | 總數(shù) | |
男 | X1 | X2 | 100 |
女 | X3 | X4 | 100 |
總數(shù) | 90 | 110 |
?X1、X2、X3、X4為4個抽樣樣本,其數(shù)值分別為5、95、85、15。
構(gòu)建如下式所示的一個統(tǒng)計量:
? (2)
式中, 表示第i個樣本, 表示第i個樣本所對應的零假設值,k為樣本數(shù)量
如果零假設成立,這個統(tǒng)計量服從自由度為n的卡方分布,化妝問題中,自由度為1,即自由度為1的卡方分布。
把樣本數(shù)據(jù)代入式(2),發(fā)現(xiàn)其值落在了卡方分布的概率密度函數(shù)的小概率區(qū)間(與Z檢驗的原理類似),所以拒絕原假設。
2.4 卡方檢驗與卡方分布的關系
有讀者看到這里會有疑問,為什么式(2)所構(gòu)建的統(tǒng)計量服從卡方分布?
因為 服從正態(tài)分布,也服從正態(tài)分布(正態(tài)分布的樣本減去常數(shù)再除一個常數(shù)還服從正態(tài)分布),所以那個統(tǒng)計量就服從卡方分布啦,就是卡方分布的定義嘛!
這里再說明一個問題,為什么 是服從正態(tài)分布的?
原假設中男性化妝和不化妝啊的概率為50%,那么100個男性中化妝的男性數(shù)量就滿足正態(tài)分布了,就像扔硬幣的正反面,下面的python代碼直觀給出了圖像
import random
import matplotlib.pyplot as plt
import pandas as pd
plt.rcParams['font.sans-serif'] = ['SimHei'] # 防止中文標簽亂碼,還有通過導入字體文件的方法
plt.rcParams['axes.unicode_minus'] = False
def toss():
# 1正面朝上
return random.randint(0, 1)
def toss_100_times():
# 擲100次硬幣正面朝上的次數(shù)
times = 0
for i in range(100):
times += toss()
return times
if __name__ == "__main__":
result = []
for i in range(1000):
result.append(toss_100_times())
count = pd.value_counts(result)
count = pd.DataFrame(count)
count = count.sort_index(ascending=True)
labels = list(count.index)
data = list(count.iloc[:, 0])
plt.bar(range(len(data)), data)
plt.xticks(range(len(data)), labels)
plt.xlabel("100次投擲中正面朝上的硬幣數(shù)")
plt.ylabel("頻次")
plt.show()
print("done")
?
3 t分布和t檢驗
3.1 t分布
?3.2 t檢驗
t檢驗一方面可以理解為Z檢驗的擴展。Z檢驗中,要求總體方差已知,但是現(xiàn)實中往往未知。這種情況下,通過樣本方差,來構(gòu)造符合t分布的統(tǒng)計量,如式(3)所示,進行t檢驗。
式中,為樣本均值,為總體均值,s為樣本方差,n為樣本數(shù)量。
為什么這個統(tǒng)計量符合t分布的定義?
? 詳細的證明參見t分布是干什么用,t分布與t檢驗有什么不同,t檢驗到底在檢驗什么東西? - 知乎
?t檢驗還有配對t檢驗、兩樣本t檢驗,這里不詳述了。
4 F分布與F檢驗
4.1 F分布
文章來源:http://www.zghlxwxcb.cn/news/detail-453677.html
4.2 F檢驗
文章來源地址http://www.zghlxwxcb.cn/news/detail-453677.html
到了這里,關于結(jié)合實例,直觀理解正態(tài)分布、卡方分布、t分布、F分布和對應的Z檢驗、卡方檢驗、t檢驗、F檢驗的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!