前言
1. 不同檢驗方法最小樣本量的確認
由統(tǒng)計量反推得到
2. 檢驗方法
- 方差齊性檢驗(F檢驗):兩個獨立樣本的方差差異檢驗,反映了平均值的代表性。方差齊次檢驗前提要近似正態(tài)分布。
- 正態(tài)性檢驗:是否符合正態(tài)分布
- 似然比檢驗:比較樣本不同似然函數(shù),檢驗其分布
參數(shù)檢驗基于共同的兩個假設(shè):正態(tài)性假定,方差齊性假定
一、方差齊性檢驗
方差齊性指不同組間的總體方差是一樣的。而方差分析的前提是要組間的總體方差保持一致。先想想方差分析是做什么呢?方差分析是用來比較多組之間均值是否存在顯著差異。那如果方差不一致,也就意味著值的波動程度是不一樣的,如果此時均值之間存在顯著差異,不能夠說明一定是不同組間處理帶來的,有可能是大方差帶來大的波動;如果方差一樣,也就意味著值的波動程度是一樣的,在相同波動程度下,直接去比較均值,如果均值之間存在顯著差異,那么可以認為是不同組間處理帶來的。
1.1 方差比
兩組方差的比,用較大一組的方差除較小一組的方差,最后得到一個F值,然后根據(jù)F值的大小來判斷兩組之間的方差是否相等。F值越大,則認為兩組方差越不相等。
1.2 Hartley檢驗
Hartley檢驗與方差比的思想比較類似,差別在于Hartley檢驗用于多組方差的檢驗,用多組中最大的方差除最小的方差,得到一個F值,然后通過F值的判斷來對方差齊性進行判斷。
1.3 Levene檢驗
Levene檢驗是將每個值先轉(zhuǎn)換為為該值與其組內(nèi)均值的偏離程度,然后再用轉(zhuǎn)換后的偏離程度去做方差分析,即組間方差/組內(nèi)方差, F檢驗。
1.4 BF法
Levene檢驗最開始計算組內(nèi)均值的時候只是用了組內(nèi)平均數(shù),?BF法添加了中位數(shù)和截取均值的方法
1.5 Bartlett檢驗
Bartlett檢驗的核心思想是通過求取不同組之間的卡方統(tǒng)計量,然后根據(jù)卡方統(tǒng)計量的值來判斷組間方差是否相等。該方法極度依賴于數(shù)據(jù)是正態(tài)分布,如果數(shù)據(jù)非正態(tài)分布,則的出來的結(jié)果偏差很大。
二、似然比檢驗
似然比檢驗的原假設(shè)H0是:θ=θ0,備擇假設(shè)H1:θ=θ1,其中θ0是θ1的子集。
似然比表示θ取不同值對應(yīng)的似然函數(shù)的比值。如果λ很大,說明參數(shù)θ=θ1時對應(yīng)的似然性要比θ=θ0時對應(yīng)的似然性大。此時,更傾向于拒絕H0假設(shè);反之,若此值較小,說明參數(shù)θ=θ0時對應(yīng)的似然性要比θ=θ1時對應(yīng)的似然性大,更傾向于接受H0假設(shè)。
那λ到底大于多少算大,小于多少算小呢?這個時候就需要有個臨界值λ0,如果λ>λ0,那么就拒絕H0假設(shè)。
接下來的問題就是求取λ0,要臨界值λ0,必須知道當H0成立時λ的分布,當n足夠大時,λ是服從卡方分布的,知道分布,然后再根據(jù)顯著性水平α就可以計算出臨界值了。
?
三、異常值檢驗
1. Q檢驗
Q檢驗又稱舍棄商法,主要是用來對可疑值(異常值)進行取舍判斷的。
Q檢驗的核心思想其實和t檢驗的核心思想是一致的,都是用來檢驗不同的觀測值之間是否有顯著差異,即是否來自于同一總體,如果差異不顯著,則說明是來自于同一總體,否則就不是。
- step1:將所有觀測數(shù)據(jù)按照從小到大的順序進行排列
- step2:求最大值與最小值之間的差值,稱為極差
- step3:計算想刪除值與其相鄰值之間差值的絕對值
- step4:用step3算出來的值除step2算出的值,該值就是q統(tǒng)計量
- step5:根據(jù)觀測值個數(shù)以及置信水平,查q值表
- step6:比較q統(tǒng)計量與q值表中查出的結(jié)果,如果q統(tǒng)計量小于q值表查出來的結(jié)果,則不應(yīng)該刪除,否則就可以刪除
Q檢驗除了被用在要不要剔除異常值以外,還主要用在多重比較中,比如有多個組別,需要判斷各個組別兩兩之間的差異程度時也會用到?;蛘邥r間序列的白噪聲檢驗
多重比較法的一種:LSD(最小顯著差異方法,least significant difference)
具體步驟:
1.提出假設(shè):H0:兩組之間無差異;H1:兩組之間有差異。
2.計算檢驗統(tǒng)計量:兩組均值之差的絕對值。
3.計算LSD,公式為:
tα/2為t分布的臨界值,通過查t分布表得到,其自由度為n-k,n為樣本總數(shù),k為因素中不同水平的水平個數(shù);MSE為組內(nèi)方差;ni和nj分別為第i個樣本和j個樣本的樣本量。
4.根據(jù)顯著性水平α做作出決策,如果均值之差的絕對值大于LSD,則拒絕H0,否則不拒絕H0。
2. Grubbs' Test
Grubbs檢驗用于檢測單變量數(shù)據(jù)集中的單個異常值,該單變量數(shù)據(jù)集遵循近似正態(tài)分布。
如果懷疑可能存在多個異常值,建議使用Tietjen-Moore檢驗或廣義極端學生化偏差檢驗而不是Grubbs檢驗。(Grubbs必須反復執(zhí)行以篩選多個離群值)
Grubbs檢驗也稱為最大標準殘差檢驗。實際上,Grubbs' Test可理解為檢驗最大值、最小值偏離均值的程度是否為異常。
H0:數(shù)據(jù)集中沒有異常值
H1:數(shù)據(jù)集中只有一個異常值
四、正態(tài)性檢驗
對于正態(tài)性檢驗,建議首先利用直方圖或核密度估計得到樣本數(shù)據(jù)的分布圖,若分布嚴重偏態(tài)或尖峰,可認為其不是來自于正態(tài)分布;若根據(jù)直方圖或核密估計分布不容易做出判斷,再利用各檢驗方法對其檢驗。
SPSS 規(guī)定:當樣本含量 3≤n≤5000 時,結(jié)果以 Shapiro—Wilk(W 檢驗) 為準,當樣本含量 n>5000 結(jié)果以 Kolmogorm —Smimov(D 檢驗,修正后的KS檢驗,即Lillie檢驗,見2.2.3) 為準。
SAS 規(guī)定:當樣本含量 n≤2000 時,結(jié)果以 Shapim—Wilk(W 檢驗) 為準,當樣本含量 n>2000 時,結(jié)果以 Kolmogorov—Smimov(D 檢驗,修正后的KS檢驗) 為準。
1. 描述統(tǒng)計方法
- Q-Q圖:x軸為分位數(shù),y軸為分位數(shù)對應(yīng)的樣本值
- P-P圖:QQ圖y軸是具體的分位數(shù)對應(yīng)的樣本值,而P-P圖是累計概率
- 直方圖
- 莖葉圖
#QQ圖
from scipy import stats
stats.probplot(x, dist="norm", plot=plt)
#R語言 -QQ圖
library(car)
qqnorm(x)
2.?統(tǒng)計檢驗方法
2.1 SW檢驗
S就是偏度(Skewness),W就是峰度(Kurtosis)
偏度用來描述數(shù)據(jù)分布的對稱性,正態(tài)分布的偏度為0。計算數(shù)據(jù)樣本的偏度,當偏度<0時,稱為負偏,數(shù)據(jù)出現(xiàn)左側(cè)長尾;當偏度>0時,稱為正偏,數(shù)據(jù)出現(xiàn)右側(cè)長尾;當偏度為0時,表示數(shù)據(jù)相對均勻的分布在平均值兩側(cè),不一定是絕對的對稱分布,此時要與正態(tài)分布偏度為0的情況進行區(qū)分。當偏度絕對值過大時,長尾的一側(cè)出現(xiàn)極端值的可能性較高。
峰度用來描述數(shù)據(jù)分布陡峭或是平滑的情況。正態(tài)分布的峰度為3,峰度越大,代表分布越陡峭,尾部越厚;峰度越小,分布越平滑。很多情況下,為方便計算,將峰度值-3,因此正態(tài)分布的峰度變?yōu)?,方便比較。在方差相同的情況下,峰度越大,存在極端值的可能性越高。
s = pd.Series(data)
print(s.skew()) #偏度計算
print(s.kurt()) #峰度計算
2.2 Kolmogorov-Smirnor檢驗(KS檢驗)
KS檢驗是基于樣本累積分布函數(shù)來進行判斷的。可以用于判斷某個樣本集是否符合某個已知分布,也可以用于檢驗兩個樣本之間的顯著性差異。
如果是判斷某個樣本是否符合某個已知分布,比如正態(tài)分布,則需要先計算出標準正態(tài)分布的累計分布函數(shù),然后在計算樣本集的累計分布函數(shù)。兩個函數(shù)之間在不同的取值處會有不同的差值。我們只需要找出來差值最大的那個點D。然后基于樣本集的樣本數(shù)和顯著性水平找到差值邊界值(類似于t檢驗的邊界值)。判斷邊界值和D的關(guān)系,如果D小于邊界值,則可以認為樣本的分布符合已知分布,否則不可以。
Dn?=max(累計頻率?理論分布)
D值越小越接近正態(tài)分布
#Python
from scipy import stats
stats.kstest(x, 'norm', (x.mean(), x.std()))
#R
ks.test(x, "pnorm",mean(x),sd(x))
#x為要檢驗的樣本數(shù)據(jù),其函數(shù)默認修改的精確公式、雙邊檢驗。
#需要大樣本近似命令中加exact = F;
#單邊我們可以用alternative = "less"或alternative= "greater"選擇。
2.3 Anderson-Darling檢驗(AD檢驗)
AD檢驗是在KS基礎(chǔ)上進行改造的,KS檢驗只考慮了兩個分布之間差值最大的那個點,但是這容易受異常值的影響。AD檢驗考慮了分布上每個點處的差值。
2.4 Shapiro-Wilk檢驗(W檢驗)
W檢驗(Shapiro-Wilk的簡稱)是基于兩個分布的相關(guān)性來進行判斷,會得出一個類似于皮爾遜相關(guān)系數(shù)的值。值越大接近1,說明兩個分布越相關(guān),越符合某個分布。

原假設(shè)正態(tài)性, 當p值小于某個顯著性水平,則認為不是正態(tài)分布
#python
from scipy import stats
stats.shapiro(x)
#R
shapiro.test(x)
2.5 Jarque-Bera (JB)檢驗(時間序列中常用)
JB檢驗線性回歸模型的殘差是否符合正態(tài)分布。
原假設(shè)H0:模型殘差e服從正態(tài)分布
Prob(JB)<0.05:顯著=>拒絕原假設(shè)H0=>模型殘差e不服從正態(tài)分布
Prob(JB)>0.05:不顯著=>不能拒絕原假設(shè)H0=>模型殘差e服從正態(tài)分布
import scipy.stats as ss
ss.jarque_bera(y)
五、一致性檢驗
1. Kappa一致性檢驗
檢驗條件:行和列均反應(yīng)同一事物某一屬性的相同水平
檢驗?zāi)康模簷z驗兩種角度對同一事物的判斷是否一致
Kappa一致性檢驗樣本為兩變量多分類,Kendall’s W 檢驗樣本為多列有序變量
from sklearn.metrics import cohen_kappa_score
2. Kendall’s W 檢驗
檢驗?zāi)康模簷z驗3個及以上角度對同一事物判斷是否一致
檢驗條件:
- 1)觀察者不少于3人,判定結(jié)果是連續(xù)變量或有序分類變量。
- 2)不同觀測者判定的對象相同;
- 3)觀察者之間相互獨立。
W系數(shù):Kendall cofficient of concordance
代碼例子:
教師評級 | 一 | 二 | 三 | 四 | 五 | 六 |
---|---|---|---|---|---|---|
A | 3 | 1 | 2 | 5 | 4 | 6 |
B | 2 | 1 | 3 | 4 | 5 | 6 |
C | 3 | 2 | 1 | 5 | 4 | 6 |
D | 4 | 1 | 2 | 6 | 3 | 5 |
E | 3 | 1 | 2 | 6 | 4 | 5 |
F | 4 | 2 | 1 | 5 | 3 | 6 |
import numpy as np
from collections import Counter
def getT(A):
T = []
for a in A:
C = Counter(a)
E = list(C.keys())
F = list(C.values())
G = np.arange(0, len(E))
u = 0
for b in G:
if(F[b] > 1):
u += (F[b]**3 - F[b])
T.append(u)
return np.array(T)
A = np.array([[3, 1, 2, 5, 4, 6],
[2, 1, 3, 4, 5, 6],
[3, 2, 1, 5, 4, 6],
[4, 1, 2, 6, 3, 5],
[3, 1, 2, 6, 4, 5],
[4, 2, 1, 5, 3, 6]]);
k = len(A)
n = len(A[0])
R = A.sum(axis=0)
S = np.square(R).sum() - np.square(R.sum()) / n
T = getT(A)
W = 12 * S / (np.square(k) * (n**3 - n) - k * T.sum())
print(W)
六、相關(guān)性檢驗
1.?KMO(Kaiser-Meyer-Olkin)?檢驗
比較變量間簡單相關(guān)系數(shù)和偏相關(guān)系數(shù)的指標。如果原始數(shù)據(jù)中確實存在公共因子,則各變量之間的偏相關(guān)系數(shù)應(yīng)該很小,這時,KMO的值接近于1,因此,原數(shù)據(jù)適用于因子分析
2. Bartlett 球度檢驗
H0:相關(guān)系數(shù)矩陣是單位矩陣(變量不相關(guān))
H1:相關(guān)系數(shù)矩陣不是單位矩陣(變量相關(guān))
巴特利特球度檢驗的統(tǒng)計量是根據(jù)相關(guān)系數(shù)矩陣的行列式得到的,如果顯著性水平小于給定的α,那么應(yīng)該拒絕零假設(shè),即原始變量之間存在相關(guān)性,適合于做主成份分析;相反,不宜于做主成分分析。
3. Kendall Ranking Correlation(肯德爾Ranking相關(guān)系數(shù))
from scipy.stats import kendalltau
七、獨立性檢驗
1. 皮爾遜卡方檢驗 Pearson's chi-squared test
廣泛應(yīng)用于分類變量(categorical data)的獨立性檢驗中,也可用于分類變量的比較檢驗中。這兩種檢驗都需要用到R×C列聯(lián)表(R×C contingency table),其中R表示行(Row),C表示列(Column)。本文只討論行列變量都是無序變量的情形,最簡單的情形是行與列都是二分類無序變量,這樣的數(shù)據(jù)也稱為四格表資料。
一文詳解卡方檢驗 - 知乎
八. 參數(shù)檢驗
- 單樣本t檢驗
- 兩樣本t檢驗 (方差齊性使用levene檢驗)
- 配對樣本t檢驗
- 方差分析(Anasis Of Variance, ANOVA)
九. 非參數(shù)檢驗
- Mann-Whitney U Test (曼惠特尼U檢驗)
- Wilcoxon Signed-Rank Test
- Kruskal-Wallis H Test (K-W檢驗)
- Friedman Test (弗里德曼檢驗)
- Kolmogorv-Smirnov Test (K-S檢驗)
十. 時間序列平穩(wěn)性檢驗
- Augmented Dickey-Fuller Unit Root Test (單位根檢驗)
- Kwiatkowski-Phillips-Schmidt-Shin Test
十一. 時空交互檢驗
Knox時空交互模型:Knox法是一種全局時空聚集探測方法[30]。它首先人為設(shè)定空間閾值s和時間閾值t,將所有事件點兩兩配對,并計算空間距離sij和時間距離tij。當sij≤s時,認為事件點空間鄰近;當tij≤t時,認為事件點時間鄰近。根據(jù)事件是否時空鄰近,對不同類別的事件對數(shù)進行計數(shù),其中時空鄰近事件對數(shù)即為Knox指數(shù),假設(shè)檢驗采用χ2檢驗。
基于時空密度的聚類方法:時空掃描統(tǒng)計需要預先假定數(shù)據(jù)的概率分布模型,且結(jié)果受掃描窗口的影響較大,不能詳細描述時空簇的位置和形狀信息[38]。為了克服這些問題,近年來,越來越多基于時空密度的聚類方法被提出。時空密度聚類是空間密度聚類在時空域上的擴展,采用密度作為實體間相似性的度量標準,將時空簇看作一系列被低密度區(qū)域(噪聲)分割的高密度連通區(qū)域[39],其中最常用的方法是ST-DBSCAN。
ST-DBSCAN法由DBSCAN增加時間維度擴展而來,其假設(shè)i和j為直接密度可達的兩個核心點,如果兩個核心點的鄰域的非空間屬性平均距離小于閾值,則對這兩個鄰域進行聚類[40]。ST-DBSCAN不需要預先假設(shè)數(shù)據(jù)的分布模型,且可以檢測任意形狀的聚集簇。目前該法多應(yīng)用于道路交通領(lǐng)域,在疾病聚集方面的應(yīng)用尚處于起步階段。Guo等[41]采用ST-DBSCAN對2005-2011年中國狂犬病病例進行分析,共檢測到480個聚類。該法存在的不足是需要設(shè)定空間、時間、非空間距離閾值和密度閾值,DBSCAN對用戶定義的參數(shù)很敏感,因此如何選取合適的參數(shù)十分關(guān)鍵。很多研究對此提出解決對策,如基于窗口最近鄰法[42]、自適應(yīng)法[43]等確定閾值。基于時空密度的聚類方法是目前研究的熱點,新方法不斷提出,如時空不規(guī)則聚類法[44]、時空有序點識別聚類結(jié)構(gòu)[45]、Bregman Block共聚類算法[46]等。
疾病時空聚集分析的研究與進展
Knox時空交互檢驗空間閾值確定方法
References
https://blog.csdn.net/junhongzhang/category_11501188.html
最小樣本量n的選擇 - 知乎
正態(tài)性檢驗方法匯總_米竹的博客-CSDN博客_正態(tài)性檢驗文章來源:http://www.zghlxwxcb.cn/news/detail-751569.html
Python代碼
基于Python的19種假設(shè)檢驗實現(xiàn) - 知乎文章來源地址http://www.zghlxwxcb.cn/news/detail-751569.html
到了這里,關(guān)于【統(tǒng)計】假設(shè)檢驗方法的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!