国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【數(shù)學(xué)建模筆記】【第十講(2)】聚類模型之:系統(tǒng)(層次)聚類及spss實(shí)現(xiàn)

這篇具有很好參考價(jià)值的文章主要介紹了【數(shù)學(xué)建模筆記】【第十講(2)】聚類模型之:系統(tǒng)(層次)聚類及spss實(shí)現(xiàn)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

系統(tǒng)(層次)聚類解決了K-均值聚類的一個(gè)最大的問題:聚類的個(gè)數(shù)需要自己給定。

一、系統(tǒng)聚類的定義

系統(tǒng)聚類的合并算法通過計(jì)算兩類數(shù)據(jù)點(diǎn)間的距離,對(duì)最為接近的兩類數(shù)據(jù)點(diǎn)進(jìn)行組合,并反復(fù)迭代這一過程,直到將所有數(shù)據(jù) 點(diǎn)合成一類,并生成聚類譜系圖。我們可以根據(jù)這個(gè)圖來確定聚類的個(gè)數(shù)。
spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法

二、具體步驟介紹:

spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法

系統(tǒng)(層次)聚類的算法流程:

  1. 將每個(gè)對(duì)象看作一類,計(jì)算兩兩之間的最小距離;

  2. 將距離最小的兩個(gè)類合并成一個(gè)新類;

  3. 重新計(jì)算新類與所有類之間的距離;

  4. 重復(fù)二三兩步,直到所有類最后合并成一類;

  5. 結(jié)束。

【舉例說明】
spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法
對(duì)上面這一組數(shù)據(jù)進(jìn)行聚類分析:
spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法
橫坐標(biāo)為學(xué)生的物理成績,縱坐標(biāo)為學(xué)生的數(shù)學(xué)成績,可以繪制成一個(gè)二維坐標(biāo)圖。
首先要計(jì)算每一個(gè)樣本點(diǎn)之間的距離??茨莾蓚€(gè)點(diǎn)之間的距離最小,可以算作一個(gè)聚類。
比如最右上角的兩個(gè)點(diǎn)距離最小,則把他們歸為一個(gè)聚類。
以此類推,當(dāng)所有樣本都已經(jīng)被歸為聚類之后再計(jì)算各個(gè)聚類之間的距離。距離近的再次歸為一個(gè)聚類。直到只剩下一個(gè)聚類為止。

上面描述了兩種距離:一個(gè)是樣本與樣本之間的距離,一種是聚類之間的距離。這兩種距離都有多種定義方式,我們?cè)趯?shí)際運(yùn)用時(shí)可以是具體情況而定。

三、樣本與樣本之間的距離

spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法
spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法
spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法
spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法

四、類與類之間的常用距離:

spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法

1.最短距離法

spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法

2.最長距離法:

spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法
3、組間平均連接法:
spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法

4.組內(nèi)平均連接法:

spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法

5.重心法:

spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法

五、舉例說明:

根據(jù)五個(gè)學(xué)生的六門課的成績,對(duì)這五個(gè)學(xué)生進(jìn)行分類
spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法

1.寫出樣品間的距離矩陣(以歐氏距離為例)

spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法
橫著的分別是:G1,G2,G3,G4,G5.
所以這個(gè)矩陣?yán)锏拿恳粋€(gè)數(shù)字表示Gi與Gj的距離。由于與自己的距離是0,所以斜著的一列是0。
在最初每一個(gè)樣本就可以視作一個(gè)類。

2.將每一個(gè)樣品看做是一個(gè)類,觀察D(G1,G5)=15.8最小,故將G1與G5合為一類,名為G6。計(jì)算新類與其余各類之間的距離,得到新的距離矩陣D1。(這里以最短距離法為例)

spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法
spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法

3.觀察D(G2,G4)=15.9最小,故將G2和G4聚為一類,記為G7。計(jì)算新類與其余各類之間的距離,得到新的距離矩陣D2。(這里以最短距離法為例)

spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法
spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法

4.觀察D(G6,G7)=18.2最小,故將G和G7聚為一類,記為G8。計(jì)算新類與其余各類之間的距離,得到新的距離矩陣D3。(這里以最短距離法為例)

spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法

5.最后將G8與G3聚為一類,記為G9。

聚類的系譜圖:
spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法

六、系統(tǒng)聚類分析需要注意的問題:

  1. 對(duì)于一個(gè)實(shí)際問題要根據(jù)分類的目的來選取指標(biāo),指標(biāo)選取的不同分類結(jié)果一般也不同。
  2. 樣品間距離定義方式的不同,聚類結(jié)果一般也不同。
  3. 聚類方法的不同,聚類結(jié)果一般也不同(尤其是樣品特別多的時(shí)候)。最好能通過各種方法找出其中的共性。
  4. 要注意指標(biāo)的量綱,量綱差別太大會(huì)導(dǎo)致聚類結(jié)果不合理。
  5. 聚類分析的結(jié)果可能不令人滿意,因?yàn)槲覀兯龅氖且粋€(gè)數(shù)學(xué)的處理,對(duì)于結(jié)果我們要找到一個(gè)合理的解釋

七、系統(tǒng)聚類法的spss實(shí)現(xiàn):

仍然是上一節(jié)所用的數(shù)據(jù):
spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法
選擇系統(tǒng)聚類:
spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法
”繪制“選項(xiàng)中勾選”樹狀圖“可以生成聚類分析之后的譜系圖:
spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法
”方法“欄中就是可以自由選擇剛剛介紹的那幾種距離的表示方式:
一般選擇默認(rèn)的方式就可以。
如果各個(gè)變量的單位不統(tǒng)一,則可以選擇左下方的標(biāo)準(zhǔn)化,選擇”Z得分“標(biāo)準(zhǔn)化。由于我們這組數(shù)據(jù)單位是統(tǒng)一的,所以不用進(jìn)行這一步。
spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法
點(diǎn)擊確認(rèn)之后會(huì)得出具體的結(jié)果:
以下是聚類譜系圖:
spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法
根據(jù)此圖我們可以發(fā)現(xiàn),在逐步迭代過程中,31個(gè)省份構(gòu)成更少的聚類,逐步循環(huán),最后變?yōu)橐粋€(gè)。
我們可以根據(jù)這張圖選擇更易于解釋的聚類個(gè)數(shù)。
下圖的”系數(shù)“一欄表示的是肘部法則中的聚合系數(shù)。
spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法

到這里還是需要我們自己選擇聚類的個(gè)數(shù),只不過不像K-均值算法那樣再數(shù)據(jù)分析之前就必須得給出聚類個(gè)數(shù)了。那么有沒有一種法則可以幫助我i們確定到底應(yīng)該分為幾個(gè)聚類呢?

八、肘部法則確定聚類數(shù)目

肘部法則(Elbow Method):通過圖形大致的估計(jì)出最優(yōu)的聚類數(shù)量。
spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法
畸變成都就是衡量各個(gè)點(diǎn)到聚類的中心的距離的一個(gè)標(biāo)準(zhǔn)。這個(gè)距離越大,則畸變程度越大。我們可以想到,當(dāng)聚類數(shù)目無限多,趨于樣本個(gè)數(shù)時(shí),這時(shí)每一個(gè)樣本就是一個(gè)單獨(dú)的聚類,也就是每一個(gè)聚類中只有一個(gè)樣本。那么畸變程度就是0了。而當(dāng)聚類數(shù)目極小時(shí),畸變程度又會(huì)很大。所以畸變程度是一個(gè)隨著聚類數(shù)目的增大而減小的這么一個(gè)指標(biāo)。所有類的畸變程度定義為聚合系數(shù)。所以當(dāng)我們把每一個(gè)聚合系數(shù)算出來,然后作圖時(shí),發(fā)現(xiàn)聚合系數(shù)突然變化緩慢的那個(gè)點(diǎn)處,就是比較理想的聚類個(gè)數(shù)所在位置。
spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法
如何繪制肘部法則的圖呢?
找到上表中的聚合系數(shù),復(fù)制到exel表格中。然后降序排列。
spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法
之后點(diǎn)擊“插入圖表”中的散點(diǎn)圖:
spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法
改變標(biāo)度之后可以得到這樣一張圖:
spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法
根據(jù)此圖,我們可以確定選擇3或者5作為聚類數(shù)目(至于原因,可以根據(jù)此圖以及數(shù)據(jù)在論文中做更詳細(xì)的說明)。
【解釋舉例如下】
根據(jù)圖來進(jìn)行解釋:

  • 根據(jù)聚合系數(shù)折線圖可知,當(dāng)類別數(shù)為5時(shí), 折線的下降趨勢(shì)趨緩,故可將類別數(shù)設(shè)定為5.
  • 從圖中可以看出, K值從1到5時(shí),畸變程 度變化最大。超過5以后,畸變程度變化顯著 降低。因此肘部就是 K=5,故可將類別數(shù)設(shè)定
    為5.(當(dāng)然,K=3也可以解釋)

那么確定了聚類數(shù)目之后我們?nèi)绾萎嫵鲋庇^的分類圖像呢?

九、作圖

注意:只要當(dāng)指標(biāo)個(gè)數(shù)為2或者3的時(shí)候才能畫圖,實(shí)際上本例中指標(biāo)個(gè)數(shù)有8個(gè),是不可能做出這樣的圖的。
所以我們就以本例的兩列及三列指標(biāo)為例作圖:
先將聚類個(gè)數(shù)設(shè)置為3,得到聚類分類:
spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法
可以看到此時(shí)每一個(gè)省份后面已經(jīng)出現(xiàn)聚類的分類了:
spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法
我們選擇“食品”和“衣著“兩列數(shù)據(jù)進(jìn)行畫圖:
選中“食品”和“衣著“兩列數(shù)據(jù)后點(diǎn)擊圖形構(gòu)建程序。
spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法
如果只有二維的數(shù)據(jù)則選擇第一行的第二種圖像,如果有三維數(shù)據(jù)則選擇第一行的第四個(gè)圖像。
選中后將其拖到中間區(qū)域。
分別將“食品”和“衣著“拖動(dòng)至橫坐標(biāo)和縱坐標(biāo)。
將”案例的類別號(hào)“拖動(dòng)至右上角”顏色設(shè)置“區(qū)域,以表示根據(jù)不同的聚類類別,會(huì)繪制不同顏色的點(diǎn)。
spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法

然后點(diǎn)擊”組/點(diǎn) ID“,勾選”指定ID標(biāo)簽“,將”省份“拖動(dòng)至
上方的”點(diǎn)ID“區(qū)域。,這樣就會(huì)在每個(gè)點(diǎn)旁邊標(biāo)注出點(diǎn)對(duì)應(yīng)的省份。
spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法

最終我們得到這樣的一張圖:
spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法
我們可以根據(jù)自己的喜好再改變其顏色和呈現(xiàn)形式。但具體的信息已經(jīng)表現(xiàn)得很好了。

同樣的可以畫出三維數(shù)據(jù)分析圖:

spss層次聚類,數(shù)學(xué)建模筆記,聚類,算法,大數(shù)據(jù),分類算法文章來源地址http://www.zghlxwxcb.cn/news/detail-661448.html

到了這里,關(guān)于【數(shù)學(xué)建模筆記】【第十講(2)】聚類模型之:系統(tǒng)(層次)聚類及spss實(shí)現(xiàn)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 2023第十五屆電工杯數(shù)學(xué)建模AB題思路模型

    (賽題出來以后第一時(shí)間在CSDN分享) https://blog.csdn.net/dc_sinor “中國電機(jī)工程學(xué)會(huì)杯”全國大學(xué)生電工數(shù)學(xué)建模競(jìng)賽已成功舉辦十四屆,累計(jì)參賽高校千余所,參賽學(xué)生近10萬人,是目前國內(nèi)最具影響力、顯著提高學(xué)生創(chuàng)新意識(shí)和綜合素質(zhì)的大學(xué)生競(jìng)賽項(xiàng)目之一。“中國電機(jī)

    2024年02月11日
    瀏覽(27)
  • 數(shù)學(xué)建模筆記(四):初等模型

    數(shù)學(xué)建模筆記(四):初等模型

    研究對(duì)象的機(jī)理比較簡單,一般用靜態(tài)、線性、確定性模型就能達(dá)到建模目的時(shí),我們基本上可以用初等數(shù)學(xué)的方法來構(gòu)造和求解模型。 如果對(duì)于某個(gè)實(shí)際問題,采用初等方法和高級(jí)方法建立的兩個(gè)模型的應(yīng)用效果相差無幾時(shí),,初等方法更受歡迎。 (1)熱量傳播只有傳導(dǎo)

    2024年02月08日
    瀏覽(24)
  • 數(shù)學(xué)建模筆記(十二):概率模型

    數(shù)學(xué)建模筆記(十二):概率模型

    從掛鉤考慮 m個(gè)掛鉤,n位工人 s:一周期內(nèi)運(yùn)走的產(chǎn)品數(shù) n:所有工人在周期時(shí)間內(nèi)生產(chǎn)總數(shù) D:傳送帶效率 p:每只掛鉤非空概率 q:每只掛鉤為空概率,p+q=1 r:掛鉤沒有被某位工人觸到的概率 D = s n = m p n = m ( 1 ? q ) n = m ( 1 ? ( r n ) ) n = m ( 1 ? ( 1 ? 1 m ) n ) n D=frac{s}{n}=

    2024年02月11日
    瀏覽(18)
  • 數(shù)學(xué)建模筆記(七):綜合評(píng)價(jià)模型

    數(shù)學(xué)建模筆記(七):綜合評(píng)價(jià)模型

    代表性,也就是這一指標(biāo)的區(qū)分度,最具代表性就是對(duì)觀測(cè)記錄最具區(qū)分度 強(qiáng)調(diào)通行能力前后的變化 (一)指標(biāo)一致化處理 (二)指標(biāo)無量綱化處理 (三)定性指標(biāo)量化 主觀評(píng)價(jià)要量化,無法避免主觀因素 f ( 3 ) f(3) f ( 3 ) 使用了兩次,其實(shí)有四個(gè)式子,才解出了四個(gè)量

    2024年02月05日
    瀏覽(25)
  • 【數(shù)學(xué)建模】傳染病模型筆記

    【數(shù)學(xué)建?!總魅静∧P凸P記

    傳染病的基本數(shù)學(xué)模型,研究傳染病的傳播速度、空間范圍、傳播途徑、動(dòng)力學(xué)機(jī)理等問題,以指導(dǎo)對(duì)傳染病的有效地預(yù)防和控制。常見的傳染病模型按照傳染病類型分為 SI、SIR、SIRS、SEIR 模型等,按照傳播機(jī)理又分為基于常微分方程、偏微分方程、網(wǎng)絡(luò)動(dòng)力學(xué)的不同類型。

    2024年04月10日
    瀏覽(33)
  • 聚類分析數(shù)學(xué)建模

    什么是聚類分析 聚類是一個(gè)將數(shù)據(jù)集分為若干組(class)或類(cluster)的過程,并使得同一個(gè)組內(nèi)的數(shù)據(jù)對(duì)象具有較高的相似度;而不同組中的數(shù)據(jù)對(duì)象是不相似的。 相似或不相似是基于數(shù)據(jù)描述屬性的取值來確定的,通常利用各數(shù)據(jù)對(duì)象間的距離來進(jìn)行表示。 聚類分析尤

    2024年02月07日
    瀏覽(18)
  • 數(shù)學(xué)建模之“聚類分析”原理詳解

    數(shù)學(xué)建模之“聚類分析”原理詳解

    1、聚類分析(又稱群分析)是 研究樣品(或指標(biāo))分類問題 的一種多元統(tǒng)計(jì)法。 2、主要方法:系統(tǒng)聚類法、有序樣品聚類法、動(dòng)態(tài)聚類法、模糊聚類法、圖論聚類法、聚類預(yù)報(bào)法等。這里主要介紹系統(tǒng)聚類法。根據(jù)事物本身的 特性研究個(gè)體分類 的方法, 原則是同一類中

    2024年02月12日
    瀏覽(28)
  • 數(shù)學(xué)建?!垲?matlab、spss)K均值 Q型聚類 R型聚類

    數(shù)學(xué)建?!垲?matlab、spss)K均值 Q型聚類 R型聚類

    聚類三種方法: 【說明】 1、三種方式輸入矩陣行為個(gè)案,列為變量 量綱不同需要預(yù)處理,一般使用zscore() zscore()標(biāo)準(zhǔn)化為對(duì)每一列操作減去均值除以標(biāo)準(zhǔn)差 2、k均值需要自己確定k取值。Q、R型聚類需要運(yùn)行完以后再確定選擇 matlab實(shí)現(xiàn) SPSS實(shí)現(xiàn)(默認(rèn)使用kmeans++) 數(shù)據(jù)預(yù)處理

    2024年02月12日
    瀏覽(26)
  • 數(shù)學(xué)建模--K-means聚類的Python實(shí)現(xiàn)

    數(shù)學(xué)建模--K-means聚類的Python實(shí)現(xiàn)

    目錄 1.算法流程簡介 2.1.K-mean算法核心代碼 2.2.K-mean算法效果展示 3.1.肘部法算法核心代碼? 3.2.肘部法算法效果展示? ?

    2024年02月09日
    瀏覽(19)
  • 【數(shù)學(xué)建?!俊秾?shí)戰(zhàn)數(shù)學(xué)建模:例題與講解》第十四講-模擬退火、遺傳算法(含Matlab代碼)

    【數(shù)學(xué)建?!俊秾?shí)戰(zhàn)數(shù)學(xué)建模:例題與講解》第十四講-模擬退火、遺傳算法(含Matlab代碼)

    本系列側(cè)重于例題實(shí)戰(zhàn)與講解,希望能夠在例題中理解相應(yīng)技巧。文章開頭相關(guān)基礎(chǔ)知識(shí)只是進(jìn)行簡單回顧,讀者可以搭配課本或其他博客了解相應(yīng)章節(jié),然后進(jìn)入本文正文例題實(shí)戰(zhàn),效果更佳。 如果這篇文章對(duì)你有幫助,歡迎點(diǎn)贊與收藏~ 現(xiàn)代優(yōu)化算法,自20世紀(jì)80年代初開

    2024年02月04日
    瀏覽(27)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包