国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

數(shù)學建?!揪垲惸P汀?/h1>

這篇具有很好參考價值的文章主要介紹了數(shù)學建?!揪垲惸P汀俊OM麑Υ蠹矣兴鶐椭?。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

一、聚類模型簡介

“物以類聚, 人以群分”,所謂的聚類,就是將樣本劃分為由類似的對象組成的多個類的過程。聚類后,我們可以更加準確的在每個類中單獨使用統(tǒng)計模型進行估計、分析或預測,也可以探究不同類之間的相關性和主要差異。

聚類和分類的區(qū)別:分類是已知類別的,聚類未知。

注:聚類模型一般有三種算法,K-means++法、系統(tǒng)層次法和DBSCAN法。

二、適用賽題

只有一對數(shù)據(jù),要求將數(shù)據(jù)分為幾類,類數(shù)不定。如有全國34個省的關于消費水平的幾個指標,現(xiàn)要求將34個省分為幾類分析。

三、模型流程

聚類模型,數(shù)學建模,聚類,算法

四、流程解析

1.K-means++聚類算法

K-means++算法是由K-means算法改進而來,對于K-means算法

優(yōu)點

  • 算法簡單、快速
  • 對處理大數(shù)據(jù)集,該算法是相對高效率的

缺點

  • 要求用戶必須事先給出要生成的簇的數(shù)目K
  • 對初值敏感
  • 對于孤立點數(shù)據(jù)敏感

而K-means++算法可解決后兩個缺點。

①確定參數(shù)

聚類個數(shù)也就是簇的個數(shù),也就是像分為多少個類。

迭代次數(shù)是指數(shù)據(jù)每經(jīng)過一次迭代,都會有不同的數(shù)據(jù)進入不同的類,直到達到最大迭代次數(shù),一般10次后,每次迭代后類中的數(shù)據(jù)就不會改變了。

②初始化聚類中心

這里就是優(yōu)化的地方。K-means算法在初始化的時候,只是隨機地選擇K個數(shù)據(jù)對象作為初始的聚類中心。而K-means++算法選擇初始聚類中心的基本原則是:初始的聚類中心之間的相互距離要盡可能的遠。

具體流程如下

  1. 隨機選取一個樣本作為第一個聚類中心
  2. 計算每個樣本與當前已有聚類中心的最短距離(即與最近一個聚類中心的距離),這個值越大,表示被選取作為聚類中心的概率較大。最后,用輪盤法(依據(jù)概率大小來進行抽選)選出下一個聚類中心
  3. 重復步驟二,直到選出K個聚類中心。選出初始點后,就繼續(xù)使用標準的K-means算法了
③分配和更新

分配數(shù)據(jù)對象是指計算其余的各個數(shù)據(jù)對象到這K個初始聚類中心的距離,把數(shù)據(jù)對象劃歸到距離它最近的那個中心所處在的簇類中變成一個新類。

更新聚類中心是指重新計算出新類的中心,新的中心就是所有數(shù)據(jù)對象的重心。

下面是K-means算法的演示圖

聚類模型,數(shù)學建模,聚類,算法

④輸出結果

當完成迭代次數(shù)后,得到結果。

⑤補充

聚類的個數(shù)K值怎么定?

答:分幾類主要取決于個人的經(jīng)驗與感覺,通常的做法是多嘗試幾個K值,看分成幾類的結果更好解釋,更符合分析目的等。

數(shù)據(jù)的量綱不一致怎么辦?

答:如果數(shù)據(jù)的量綱不一樣,那么算距離時就沒有意義。例如:如果X1單位是米,X2單位是噸,用距離公式計算就會出現(xiàn)“米的平方”加上“噸的平方”再開平方,最后算出的東西沒有數(shù)學意義,這就有問題了。這就需要標準化。

這里還是推薦使用SPSS軟件進行操作。

2.系統(tǒng)層次聚類

系統(tǒng)聚類的合并算法通過計算兩類數(shù)據(jù)點間的距離,對最為接近的兩類數(shù)據(jù)點進行組合,并反復迭代這一過程,直到將所有數(shù)據(jù)點合成一類,并生成聚類譜系圖。

①計算距離

這里根據(jù)問題看是求誰的距離,一般是樣品之間距離,也有可能是求指標之間的距離。數(shù)據(jù)的一般格式如下圖

聚類模型,數(shù)學建模,聚類,算法

樣品與樣品之間的常用距離(樣品i與樣品j)

聚類模型,數(shù)學建模,聚類,算法

指標與指標之間的常用“距離”(指標i與指標j)

聚類模型,數(shù)學建模,聚類,算法

最開始的時候,將每個數(shù)據(jù)對象看作一類,計算兩兩之間的最小距離。后面是計算類與類之間的兩兩最小距離。

類與類之間的常用距離

  • 由一個樣品組成的類是最基本的類,如果每一類都由一個樣品組成,那么樣品間的距離就是類間距離
  • 如果某一類包含不止一個樣品,那么就要確定類間距離,類間距離是基于樣品間距離定義的,大致有如下幾種定義方式:

聚類模型,數(shù)學建模,聚類,算法

  • 最短距離法(Nearest Neighbor):

聚類模型,數(shù)學建模,聚類,算法

  • 組間平均連接法(Between-group Linkage):

聚類模型,數(shù)學建模,聚類,算法

  • 組內平均連接法(Within-group Linkage):

聚類模型,數(shù)學建模,聚類,算法

  • 重心法(Centroid clustering):

聚類模型,數(shù)學建模,聚類,算法

②合成新類

將距離最小的兩個類合并成一個新類。

③迭代完成

重復計算距離、合成新類,直到最后只剩下一類也就是所有類合并成一類。

④聚類譜系圖

下面就是一個聚類譜系圖

聚類模型,數(shù)學建模,聚類,算法

要分成幾類只需要畫豎線即可,有幾個交點就有幾個類,如下圖

聚類模型,數(shù)學建模,聚類,算法

按照1分類就有兩類,按照2分類就有三類。

⑤補充

那劃成多少類才是最合適的?

肘部法則(Elbow Method):通過圖形大致的估計出最優(yōu)的聚類數(shù)量。

首先介紹

聚類模型,數(shù)學建模,聚類,算法

然后得到如下圖

聚類模型,數(shù)學建模,聚類,算法

在下降趨勢趨緩的時候選擇,上圖就選擇K = 5。

這里還是推薦使用SPSS軟件進行操作。

3.DBSCAN法

DBSCAN(Density-based spatial clustering of applicationswith noise)是Martin Ester,Hans- PeterKriegel等人于1996年提出的一種基于密度的聚類方法,聚類前不需要預先指定聚類的個數(shù),生成的簇的個數(shù)不定(和數(shù)據(jù)有關)。該算法利用基于密度的聚類的概念,即要求聚類空間中的一定區(qū)域內所包含對象(點或其他空間對象)的數(shù)目不小于某一給定閾值。該方法能在具有噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的簇,可將密度足夠大的相鄰區(qū)域連接,能有效處理異常數(shù)據(jù)。

①確定參數(shù)

需要設置的參數(shù)

  • 半徑:Eps
  • 點數(shù):MinPts

DBSCAN算法將數(shù)據(jù)點分為三類

  • 核心點:在半徑Eps內含有不少于MinPts數(shù)目的點
  • 邊界點:在半徑Eps內點的數(shù)量小于MinPts,但是落在核心點的鄰域內
  • 噪音點:既不是核心點也不是邊界點的點

舉個例子

聚類模型,數(shù)學建模,聚類,算法

在這幅圖里,MinPts = 4,點A和其他紅色點是核心點,因為它們的Eps-鄰域(圖中紅色圓圈)里包含最少4個點(包括自己),由于它們之間相互相可達,它們形成了一-個聚類。點B和點C不是核心點,但它們可由A經(jīng)其他核心點可達,所以也和A屬于同一個聚類。點N是局外點,它既不是核心點,又不由其他點可達。

②調用函數(shù)

MATLAB在2019a版本中正式加入了自己的dbscan函數(shù),內置函數(shù)的運行效率更高。具體使用方法可以查閱MATLAB官網(wǎng)。

③補充

DBSCAN法優(yōu)缺點

優(yōu)點

  • 基于密度定義,能處理任意形狀和大小的簇
  • 可在聚類的同時發(fā)現(xiàn)異常點
  • 與K-means比較起來,不需要輸入要劃分的聚類個數(shù)

缺點

  • 對輸入?yún)?shù)Eps和Minpts敏感,確定參數(shù)困難
  • 由于DBSCAN算法中,變量Eps和Minpts是全局唯一的,當聚類的密度不均勻時,聚類距離相差很大時,聚類質量差
  • 當數(shù)據(jù)量大時,計算密度單元的計算復雜度大

建議文章來源地址http://www.zghlxwxcb.cn/news/detail-849722.html

  • 只有兩個指標,且你做出散點圖后發(fā)現(xiàn)數(shù)據(jù)表現(xiàn)得很“DBSCAN",這時候你再用DBSCAN進行聚類
  • 其他情況下,全部使用系統(tǒng)聚類吧。K-means++也可以用,不過用了的話論文上可寫的東西比較少

到了這里,關于數(shù)學建?!揪垲惸P汀康奈恼戮徒榻B完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 聚類分析數(shù)學建模

    什么是聚類分析 聚類是一個將數(shù)據(jù)集分為若干組(class)或類(cluster)的過程,并使得同一個組內的數(shù)據(jù)對象具有較高的相似度;而不同組中的數(shù)據(jù)對象是不相似的。 相似或不相似是基于數(shù)據(jù)描述屬性的取值來確定的,通常利用各數(shù)據(jù)對象間的距離來進行表示。 聚類分析尤

    2024年02月07日
    瀏覽(18)
  • 數(shù)學建模的三大模型和十大常用算法

    預測模型 神經(jīng)網(wǎng)絡預測、灰色預測、擬合插值預測(線性回歸)、時間序列預測、馬爾科夫鏈預測、微分方程預測、Logistic模型等等。 應用領域:人口預測、水資源污染增長預測、病毒蔓延預測、競賽獲勝概率預測、月收入預測、銷量預測、經(jīng)濟發(fā)展情況預測等在工業(yè)、農業(yè)、

    2024年02月04日
    瀏覽(32)
  • 數(shù)學建模軟件及算法模型典型問題匯總

    一、 軟件篇 編程 、MATLAB(物理建模)、python(數(shù)據(jù)分析)、R、其他(SPSS、Stata、Origin) 這里其實還有一個 Lingo 軟件,不過我不推薦,有更好的替代方案,就是 Yalmip 工具箱+OPTI 工具箱+gurobi 求解器,Yalmip 是基于 matlab 的求解規(guī)劃問題的高級建模語言,OPTI 提供眾多 開源的規(guī)

    2024年04月17日
    瀏覽(20)
  • 數(shù)學建模之“聚類分析”原理詳解

    數(shù)學建模之“聚類分析”原理詳解

    1、聚類分析(又稱群分析)是 研究樣品(或指標)分類問題 的一種多元統(tǒng)計法。 2、主要方法:系統(tǒng)聚類法、有序樣品聚類法、動態(tài)聚類法、模糊聚類法、圖論聚類法、聚類預報法等。這里主要介紹系統(tǒng)聚類法。根據(jù)事物本身的 特性研究個體分類 的方法, 原則是同一類中

    2024年02月12日
    瀏覽(28)
  • 【Python數(shù)學建模常用算法代碼——蒙特卡洛模型】

    蒙特卡洛方法的理論支撐其實是概率論或統(tǒng)計學中的大數(shù)定律?;驹砗唵蚊枋鍪窍却罅磕M,然后計算一個事件發(fā)生的次數(shù),再通過這個發(fā)生次數(shù)除以總模擬次數(shù),得到想要的結果。下面我們以三個經(jīng)典的小實驗來學習下蒙特卡洛算法思想。 實驗原理 在正方形內部有一

    2024年02月02日
    瀏覽(25)
  • 數(shù)學建模—聚類(matlab、spss)K均值 Q型聚類 R型聚類

    數(shù)學建模—聚類(matlab、spss)K均值 Q型聚類 R型聚類

    聚類三種方法: 【說明】 1、三種方式輸入矩陣行為個案,列為變量 量綱不同需要預處理,一般使用zscore() zscore()標準化為對每一列操作減去均值除以標準差 2、k均值需要自己確定k取值。Q、R型聚類需要運行完以后再確定選擇 matlab實現(xiàn) SPSS實現(xiàn)(默認使用kmeans++) 數(shù)據(jù)預處理

    2024年02月12日
    瀏覽(26)
  • 數(shù)學建模--K-means聚類的Python實現(xiàn)

    數(shù)學建模--K-means聚類的Python實現(xiàn)

    目錄 1.算法流程簡介 2.1.K-mean算法核心代碼 2.2.K-mean算法效果展示 3.1.肘部法算法核心代碼? 3.2.肘部法算法效果展示? ?

    2024年02月09日
    瀏覽(19)
  • 數(shù)學建模--時間序列預測模型的七種經(jīng)典算法的Python實現(xiàn)

    數(shù)學建模--時間序列預測模型的七種經(jīng)典算法的Python實現(xiàn)

    目錄 1.開篇版權提示 2.時間序列介紹? 3.項目數(shù)據(jù)處理 4.項目數(shù)據(jù)劃分+可視化 5.時間預測序列經(jīng)典算法1:樸素法 6.時間預測序列經(jīng)典算法2:?簡單平均法 7.時間預測序列經(jīng)典算法3:移動平均法 8.時間預測序列經(jīng)典算法4:簡單指數(shù)法? 9.時間預測序列經(jīng)典算法5:Holt線性趨勢法

    2024年02月10日
    瀏覽(25)
  • 數(shù)學建模算法與應用:預測模型(3)案例: SARS 疫情對經(jīng)濟指標影響

    數(shù)學建模算法與應用:預測模型(3)案例: SARS 疫情對經(jīng)濟指標影響

    目錄 ????????問題描述: 一、建模思路? 二、對模型進行分析預測? ? ? ? ? 2.1、對模型進行假設 三、建立灰色預測模型GM(1,1)? ? ? ? ? ?3.1、模型的求解(i)商品零售額 ? ? ? ? ?3.2、用MATLAB程序,實現(xiàn)(i)商品零售額 ? ? ? ? ?3.3、輸出結果 ? ? ? ? ?3.4、模

    2024年02月07日
    瀏覽(24)
  • 【數(shù)學建模美賽 | 國賽必學模型算法精講】層次分析法——模型原理及Matlab+Python雙語言代碼演示

    【數(shù)學建模美賽 | 國賽必學模型算法精講】層次分析法——模型原理及Matlab+Python雙語言代碼演示

    層次分析法 是 評價決策類 中一個比較常用的方法,很多留意美賽賽題的小伙伴們就會發(fā)現(xiàn),在美賽EF類題目的歷年O獎論文中,層次分析法出現(xiàn)的概率是非常高的。層次分析法呢一般是針對評價決策類的題目,讓我們評價或選擇一個可能更好、更優(yōu)的政策及方案,那這樣呢,

    2024年01月25日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包