系統(tǒng)(層次)聚類解決了K-均值聚類的一個(gè)最大的問題:聚類的個(gè)數(shù)需要自己給定。
一、系統(tǒng)聚類的定義
系統(tǒng)聚類的合并算法通過計(jì)算兩類數(shù)據(jù)點(diǎn)間的距離,對(duì)最為接近的兩類數(shù)據(jù)點(diǎn)進(jìn)行組合,并反復(fù)迭代這一過程,直到將所有數(shù)據(jù) 點(diǎn)合成一類,并生成聚類譜系圖。我們可以根據(jù)這個(gè)圖來確定聚類的個(gè)數(shù)。
二、具體步驟介紹:
系統(tǒng)(層次)聚類的算法流程:
-
將每個(gè)對(duì)象看作一類,計(jì)算兩兩之間的最小距離;
-
將距離最小的兩個(gè)類合并成一個(gè)新類;
-
重新計(jì)算新類與所有類之間的距離;
-
重復(fù)二三兩步,直到所有類最后合并成一類;
-
結(jié)束。
【舉例說明】
對(duì)上面這一組數(shù)據(jù)進(jìn)行聚類分析:
橫坐標(biāo)為學(xué)生的物理成績,縱坐標(biāo)為學(xué)生的數(shù)學(xué)成績,可以繪制成一個(gè)二維坐標(biāo)圖。
首先要計(jì)算每一個(gè)樣本點(diǎn)之間的距離??茨莾蓚€(gè)點(diǎn)之間的距離最小,可以算作一個(gè)聚類。
比如最右上角的兩個(gè)點(diǎn)距離最小,則把他們歸為一個(gè)聚類。
以此類推,當(dāng)所有樣本都已經(jīng)被歸為聚類之后再計(jì)算各個(gè)聚類之間的距離。距離近的再次歸為一個(gè)聚類。直到只剩下一個(gè)聚類為止。
上面描述了兩種距離:一個(gè)是樣本與樣本之間的距離,一種是聚類之間的距離。這兩種距離都有多種定義方式,我們?cè)趯?shí)際運(yùn)用時(shí)可以是具體情況而定。
三、樣本與樣本之間的距離
四、類與類之間的常用距離:
1.最短距離法
2.最長距離法:
3、組間平均連接法:
4.組內(nèi)平均連接法:
5.重心法:
五、舉例說明:
根據(jù)五個(gè)學(xué)生的六門課的成績,對(duì)這五個(gè)學(xué)生進(jìn)行分類
1.寫出樣品間的距離矩陣(以歐氏距離為例)
橫著的分別是:G1,G2,G3,G4,G5.
所以這個(gè)矩陣?yán)锏拿恳粋€(gè)數(shù)字表示Gi與Gj的距離。由于與自己的距離是0,所以斜著的一列是0。
在最初每一個(gè)樣本就可以視作一個(gè)類。
2.將每一個(gè)樣品看做是一個(gè)類,觀察D(G1,G5)=15.8最小,故將G1與G5合為一類,名為G6。計(jì)算新類與其余各類之間的距離,得到新的距離矩陣D1。(這里以最短距離法為例)
3.觀察D(G2,G4)=15.9最小,故將G2和G4聚為一類,記為G7。計(jì)算新類與其余各類之間的距離,得到新的距離矩陣D2。(這里以最短距離法為例)
4.觀察D(G6,G7)=18.2最小,故將G和G7聚為一類,記為G8。計(jì)算新類與其余各類之間的距離,得到新的距離矩陣D3。(這里以最短距離法為例)
5.最后將G8與G3聚為一類,記為G9。
聚類的系譜圖:
六、系統(tǒng)聚類分析需要注意的問題:
- 對(duì)于一個(gè)實(shí)際問題要根據(jù)分類的目的來選取指標(biāo),指標(biāo)選取的不同分類結(jié)果一般也不同。
- 樣品間距離定義方式的不同,聚類結(jié)果一般也不同。
- 聚類方法的不同,聚類結(jié)果一般也不同(尤其是樣品特別多的時(shí)候)。最好能通過各種方法找出其中的共性。
- 要注意指標(biāo)的量綱,量綱差別太大會(huì)導(dǎo)致聚類結(jié)果不合理。
- 聚類分析的結(jié)果可能不令人滿意,因?yàn)槲覀兯龅氖且粋€(gè)數(shù)學(xué)的處理,對(duì)于結(jié)果我們要找到一個(gè)合理的解釋
七、系統(tǒng)聚類法的spss實(shí)現(xiàn):
仍然是上一節(jié)所用的數(shù)據(jù):
選擇系統(tǒng)聚類:
”繪制“選項(xiàng)中勾選”樹狀圖“可以生成聚類分析之后的譜系圖:
”方法“欄中就是可以自由選擇剛剛介紹的那幾種距離的表示方式:
一般選擇默認(rèn)的方式就可以。
如果各個(gè)變量的單位不統(tǒng)一,則可以選擇左下方的標(biāo)準(zhǔn)化,選擇”Z得分“標(biāo)準(zhǔn)化。由于我們這組數(shù)據(jù)單位是統(tǒng)一的,所以不用進(jìn)行這一步。
點(diǎn)擊確認(rèn)之后會(huì)得出具體的結(jié)果:
以下是聚類譜系圖:
根據(jù)此圖我們可以發(fā)現(xiàn),在逐步迭代過程中,31個(gè)省份構(gòu)成更少的聚類,逐步循環(huán),最后變?yōu)橐粋€(gè)。
我們可以根據(jù)這張圖選擇更易于解釋的聚類個(gè)數(shù)。
下圖的”系數(shù)“一欄表示的是肘部法則中的聚合系數(shù)。
到這里還是需要我們自己選擇聚類的個(gè)數(shù),只不過不像K-均值算法那樣再數(shù)據(jù)分析之前就必須得給出聚類個(gè)數(shù)了。那么有沒有一種法則可以幫助我i們確定到底應(yīng)該分為幾個(gè)聚類呢?
八、肘部法則確定聚類數(shù)目
肘部法則(Elbow Method):通過圖形大致的估計(jì)出最優(yōu)的聚類數(shù)量。
畸變成都就是衡量各個(gè)點(diǎn)到聚類的中心的距離的一個(gè)標(biāo)準(zhǔn)。這個(gè)距離越大,則畸變程度越大。我們可以想到,當(dāng)聚類數(shù)目無限多,趨于樣本個(gè)數(shù)時(shí),這時(shí)每一個(gè)樣本就是一個(gè)單獨(dú)的聚類,也就是每一個(gè)聚類中只有一個(gè)樣本。那么畸變程度就是0了。而當(dāng)聚類數(shù)目極小時(shí),畸變程度又會(huì)很大。所以畸變程度是一個(gè)隨著聚類數(shù)目的增大而減小的這么一個(gè)指標(biāo)。所有類的畸變程度定義為聚合系數(shù)。所以當(dāng)我們把每一個(gè)聚合系數(shù)算出來,然后作圖時(shí),發(fā)現(xiàn)聚合系數(shù)突然變化緩慢的那個(gè)點(diǎn)處,就是比較理想的聚類個(gè)數(shù)所在位置。
如何繪制肘部法則的圖呢?
找到上表中的聚合系數(shù),復(fù)制到exel表格中。然后降序排列。
之后點(diǎn)擊“插入圖表”中的散點(diǎn)圖:
改變標(biāo)度之后可以得到這樣一張圖:
根據(jù)此圖,我們可以確定選擇3或者5作為聚類數(shù)目(至于原因,可以根據(jù)此圖以及數(shù)據(jù)在論文中做更詳細(xì)的說明)。
【解釋舉例如下】
根據(jù)圖來進(jìn)行解釋:
- 根據(jù)聚合系數(shù)折線圖可知,當(dāng)類別數(shù)為5時(shí), 折線的下降趨勢(shì)趨緩,故可將類別數(shù)設(shè)定為5.
- 從圖中可以看出, K值從1到5時(shí),畸變程 度變化最大。超過5以后,畸變程度變化顯著 降低。因此肘部就是 K=5,故可將類別數(shù)設(shè)定
為5.(當(dāng)然,K=3也可以解釋)
那么確定了聚類數(shù)目之后我們?nèi)绾萎嫵鲋庇^的分類圖像呢?
九、作圖
注意:只要當(dāng)指標(biāo)個(gè)數(shù)為2或者3的時(shí)候才能畫圖,實(shí)際上本例中指標(biāo)個(gè)數(shù)有8個(gè),是不可能做出這樣的圖的。
所以我們就以本例的兩列及三列指標(biāo)為例作圖:
先將聚類個(gè)數(shù)設(shè)置為3,得到聚類分類:
可以看到此時(shí)每一個(gè)省份后面已經(jīng)出現(xiàn)聚類的分類了:
我們選擇“食品”和“衣著“兩列數(shù)據(jù)進(jìn)行畫圖:
選中“食品”和“衣著“兩列數(shù)據(jù)后點(diǎn)擊圖形構(gòu)建程序。
如果只有二維的數(shù)據(jù)則選擇第一行的第二種圖像,如果有三維數(shù)據(jù)則選擇第一行的第四個(gè)圖像。
選中后將其拖到中間區(qū)域。
分別將“食品”和“衣著“拖動(dòng)至橫坐標(biāo)和縱坐標(biāo)。
將”案例的類別號(hào)“拖動(dòng)至右上角”顏色設(shè)置“區(qū)域,以表示根據(jù)不同的聚類類別,會(huì)繪制不同顏色的點(diǎn)。
然后點(diǎn)擊”組/點(diǎn) ID“,勾選”指定ID標(biāo)簽“,將”省份“拖動(dòng)至
上方的”點(diǎn)ID“區(qū)域。,這樣就會(huì)在每個(gè)點(diǎn)旁邊標(biāo)注出點(diǎn)對(duì)應(yīng)的省份。
最終我們得到這樣的一張圖:
我們可以根據(jù)自己的喜好再改變其顏色和呈現(xiàn)形式。但具體的信息已經(jīng)表現(xiàn)得很好了。
同樣的可以畫出三維數(shù)據(jù)分析圖:文章來源:http://www.zghlxwxcb.cn/news/detail-661448.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-661448.html
到了這里,關(guān)于【數(shù)學(xué)建模筆記】【第十講(2)】聚類模型之:系統(tǒng)(層次)聚類及spss實(shí)現(xiàn)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!