1. 簡介
??統(tǒng)計學中最核心的概念之一是:標準差及其與其他統(tǒng)計量(如方差和均值)之間的關(guān)系,本文將對標準差這一概念提供直觀的視覺解釋,在文章的最后我們將會介紹協(xié)方差的概念。
2. 概念介紹
均值
??均值: 均值就是將所有的數(shù)據(jù)相加求平均,求得一個樣本數(shù)據(jù)的中間值。
- 定義: 給定一個包含n個樣本的集合 X={X1, …Xn},均值就是這個集合中所有元素和的平均值。
方差
??方差是在概率論和統(tǒng)計方差衡量隨機變量或一組數(shù)據(jù)時離散程度的度量,換句話說如果想知道一組數(shù)據(jù)之間的分散程度的話就可以使用“方差”來表示了。
- 定義:在統(tǒng)計描述中,方差用來計算每一個變量(觀察值)與總體均數(shù)之間的差異。為避免出現(xiàn)離均差總和為零,離均差平方和受樣本含量的影響,統(tǒng)計學采用平均離均差平方和來描述變量的變異程度。
標準差
??又叫均方差,是離均差平方的算術(shù)平均數(shù)的平方根,用σ表示。標準差是”方差”的算術(shù)平方根。標準差能反映一個數(shù)據(jù)集的離散程度。平均數(shù)相同的兩組數(shù)據(jù),標準差未必相同。
3. 概念描述
??舉例而言,假設你收集了一些學生分數(shù)(出于簡潔性考慮,我們假設這些分數(shù)是總體)。
??
??我們首先在簡單的散點圖中繪制這些數(shù)字:
??
??繪制完成后,計算差異的第一步是找出這些數(shù)字的中心,即平均值,這也就是前面所說的均值的概念。
??
??視覺上,我們可以繪制一條線來表示平均分數(shù)。
??
??接下來我們要計算每個點和平均值之間的距離,并對得到的數(shù)值求平方。記住,我們的目標是計算數(shù)字之間的差異,以及數(shù)字與平均值之間的差異。我們可以用數(shù)學或視圖的方式完成該操作:
??
??從上圖中我們可以看到,「求平方」只不過是畫了一個方框而已。這里有兩點需要注意:我們無法計算所有差異的總和。因為一些差異是正值,一些是負值,求和會使正負抵消得到 0。為此,我們對差異取平方(稍后我會解釋為什么取平方而不是其他運算,如取絕對值)?,F(xiàn)在,我們來計算差異平方的總和(即平方和):
??
??通過計算平方和,我們高效計算出這些分數(shù)的總變異(即差異)。理解變異(variability)與差異(difference)之間的關(guān)系是理解多個統(tǒng)計估計和推斷檢驗的關(guān)鍵。上圖中平方和 67.5 表示,如果我們將所有方框堆在一個巨大的正方形中,則大正方形的面積等于 67.5 points^2,points 指分數(shù)的單位。任意測量集的總變異都是正方形的面積。
??現(xiàn)在我們得到了總變異(即大正方形的面積),但我們真正想要的是平均變異(mean variability)。要想求得平均變異,我們只需要用總面積除以方框的數(shù)量:
??
??
??出于實用目的考慮,你或許想除以 N?1,而不是 N,這樣你就可以嘗試基于一個樣本而不是總體來估計平均變異。但是,這里假設我們已經(jīng)具備總體。重點在于,你想計算所有小方框的均方值。這就是方差,即平均變異,或者差異平方的平均值。
??我們?yōu)槭裁床挥梅讲顏肀硎痉謹?shù)的差異呢?唯一的問題是,我們無法對比方差和原始分數(shù),因為方差是「平方」值,即它是面積而非長度。其單位是 points^2,與原始分數(shù)的單位 points 不同。那么如何甩掉平方呢?開平方根?。?br> ??
??最后,我們終于得到了標準差:變異的平方根,即 2.91points。這就是標準差的核心理念。本文對標準差概念的基礎直觀解釋可以幫助大家更容易地理解,為什么在處理 z 分數(shù)(z-score)、正態(tài)分布、標準誤差和方差分析時要使用標準差的單位。
絕對值的問題
??你可能會疑惑,為什么對差異求平方而不是取絕對值呢。沒有什么能夠真正阻止你使用差異的平均絕對值。平均絕對值給所有差異提供的是相同的權(quán)重,而差異平方為距離平均值較遠的數(shù)字提供更多權(quán)重。這或許是你想要的。但是,大部分數(shù)學理論利用差異平方(其原因不在本文討論范圍內(nèi),如可微分)。不過,我會用一個容易理解的反例來回答這個問題。假設有兩個均值相同的分數(shù)集合:x_1 和 x_2:
??
??從這些數(shù)字中,你可以輕松觀察到 x_1 的變異和數(shù)值分散性比 x_2 低。我們來計算兩個集合差異的平均絕對值(二者的平均值都為 6):
??
??哦,結(jié)果并不好!兩個集合的變異值相同,盡管我們能夠看到 x_1 的數(shù)字差異要比 x_2 低?,F(xiàn)在,我們使用差異平方計算,得到:
??
??在差異平方的作用下,我們得到了想要的結(jié)果:當數(shù)字越分散時,標準差越大。
協(xié)方差
??前面的方差、標準差描述的是一維數(shù)據(jù)集合的離散程度,但世界上的現(xiàn)象普遍是多維度數(shù)據(jù)描述的。那么很自然就會想知道現(xiàn)象和數(shù)據(jù)的相關(guān)程度,以及各維度數(shù)據(jù)間的相關(guān)程度。比如,一個產(chǎn)品賣的好不好可能有很多因素構(gòu)成,比如產(chǎn)品質(zhì)量、價格等。那么是否質(zhì)量和價格之間有相關(guān)性呢?這個問題就可以用協(xié)方差來解決。協(xié)方差的計算公式被定義為:
??
??期望值分別為 E(X) 和 E(Y) 的兩個變量X和Y的協(xié)方差為:
Cov(X,Y)=E[(X?E(X))(Y?E(Y))]
=E(XY)?2E(X)E(Y)+E(X)E(Y)
=E(XY)?E(X)E(Y)
??協(xié)方差表示的是兩個變量的總體的誤差,這與只表示一個變量誤差的方差不同。如果兩個變量的變化趨勢一致,也就是說如果其中一個大于自身的期望值,另外一個也大于自身的期望值,那么兩個變量之間的協(xié)方差就是正值。 如果兩個變量的變化趨勢相反,即其中一個大于自身的期望值,另外一個卻小于自身的期望值,那么兩個變量之間的協(xié)方差就是負值。
如果X 與Y 是統(tǒng)計獨立的,那么二者之間的協(xié)方差就是0,則:文章來源:http://www.zghlxwxcb.cn/news/detail-722822.html
E(XY)=E(X)E(Y)
參考資料:
《https://www.jiqizhixin.com/articles/2020-01-25-2》文章來源地址http://www.zghlxwxcb.cn/news/detail-722822.html
到了這里,關(guān)于數(shù)學基礎--均值、方差、標準差、協(xié)方差的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!