目錄
聚類分析是什么
一、 定義和數(shù)據(jù)類型
聚類應(yīng)用
聚類分析方法的性能指標(biāo)
聚類分析中常用數(shù)據(jù)結(jié)構(gòu)有數(shù)據(jù)矩陣和相異度矩陣
聚類分析方法分類
二、K-means聚類算法
劃分聚類方法對(duì)數(shù)據(jù)集進(jìn)行聚類時(shí)包含三個(gè)要點(diǎn)
K-Means算法流程:
K-means聚類算法的特點(diǎn)
三、k-medoids算法
基本思想
K-medoids算法特點(diǎn)
四、送書活動(dòng)
五、抽獎(jiǎng)規(guī)則
聚類分析是什么
?聚類分析是一種尋找數(shù)據(jù)之間內(nèi)在結(jié)構(gòu)的技術(shù),將數(shù)據(jù)對(duì)象的集合分組為由類似的對(duì)象組成的多個(gè)類的分析過程。聚類把全體數(shù)據(jù)實(shí)例組織成一些相似組,而這些相似組被稱作簇。處于相同簇中的數(shù)據(jù)實(shí)例彼此相同,處于不同簇中的實(shí)例彼此不同。聚類技術(shù)通常又被稱為無監(jiān)督學(xué)習(xí),與監(jiān)督學(xué)習(xí)不同的是,在簇中那些表示數(shù)據(jù)類別的分類或者分組信息是沒有的。
一、 定義和數(shù)據(jù)類型
聚類應(yīng)用
- 市場(chǎng)營銷: 幫助營銷人員幫他們發(fā)現(xiàn)顧客中獨(dú)特的群組,然后利用他們的知識(shí)發(fā)展目標(biāo)營銷項(xiàng)目
- 土地利用: 在土地觀測(cè)數(shù)據(jù)庫中發(fā)現(xiàn)相似的區(qū)域
- 保險(xiǎn): 識(shí)別平均索賠額度較高的機(jī)動(dòng)車輛保險(xiǎn)客戶群組
- 城市規(guī)劃: 通過房屋的類型、價(jià)值、地理位置識(shí)別相近的住房
- 地震研究: 沿著大陸斷層聚類地震的震中
聚類分析方法的性能指標(biāo)
- 可擴(kuò)展性
- 自適應(yīng)性
- 魯棒性
- 可解釋性?
聚類分析中常用數(shù)據(jù)結(jié)構(gòu)有數(shù)據(jù)矩陣和相異度矩陣
?
聚類分析方法分類
基于劃分、基于分層、基于密度、基于網(wǎng)絡(luò)、基于模型
二、K-means聚類算法
劃分聚類方法對(duì)數(shù)據(jù)集進(jìn)行聚類時(shí)包含三個(gè)要點(diǎn)
選定某種距離作為數(shù)據(jù)樣本間的相似性度量
選擇評(píng)價(jià)聚類性能的準(zhǔn)則函數(shù)
選擇某個(gè)初始分類,之后用迭代的方法得到聚類結(jié)果,使得評(píng)價(jià)聚類的準(zhǔn)則函數(shù)取得最優(yōu)值
標(biāo)準(zhǔn)測(cè)試函數(shù):
?均值:
K-Means算法流程:
輸入:包含n個(gè)對(duì)象的數(shù)據(jù)集聚類個(gè)數(shù)k,最小誤差e
輸出:滿足方差最小標(biāo)準(zhǔn)的k個(gè)聚類
①從n個(gè)數(shù)據(jù)對(duì)象中隨機(jī)選出k個(gè)對(duì)象作為初始聚類的中心
②將每個(gè)類簇中的平均值作為度量基準(zhǔn),重新分配數(shù)據(jù)庫中的
數(shù)據(jù)對(duì)象
③計(jì)算每個(gè)類簇的平均值,更新平均值
④循環(huán)(2)(3),直到每個(gè)類簇不在發(fā)生變化或者平均誤差小于e
K-means聚類算法的特點(diǎn)
優(yōu)點(diǎn)
簡(jiǎn)單、快速
算法嘗試找出使平方誤差函數(shù)值最小的k個(gè)劃分據(jù)集
對(duì)處理大數(shù)據(jù)集,該算法是相對(duì)可伸縮的和高效率的
缺點(diǎn)
不適合于發(fā)現(xiàn)非凸面形狀的簇,或者大小差別很大的簇
要求用戶必須事先給出要生成的簇的數(shù)目K
對(duì)于“噪聲”和孤立點(diǎn)數(shù)據(jù)敏感
對(duì)初值敏感
三、k-medoids算法
基本思想
k-medoids算法是一種聚類算法,與k-means算法相似,但它選擇的中心點(diǎn)是簇中實(shí)際的數(shù)據(jù)點(diǎn),而不是像k-means那樣選擇簇中心點(diǎn)的均值。
其基本思想是,給定一個(gè)數(shù)據(jù)集和聚類數(shù)k,隨機(jī)選擇k個(gè)點(diǎn)作為初始中心點(diǎn),然后迭代以下兩個(gè)步驟直到收斂:
1. 對(duì)于每個(gè)數(shù)據(jù)點(diǎn),計(jì)算其與各中心點(diǎn)的距離,并將其劃分到距離最近的簇中。
2. 對(duì)于每個(gè)簇,選擇一個(gè)代表點(diǎn)(即中心點(diǎn))來替換原來的中心點(diǎn),使得代表點(diǎn)到簇中其他點(diǎn)的距離之和最小。
這個(gè)過程是一種優(yōu)化過程,每次迭代會(huì)使得簇內(nèi)的樣本距離代表點(diǎn)更近,而簇間的距離更遠(yuǎn),最終達(dá)到收斂。
與k-means算法不同,k-medoids算法不是適用于高維數(shù)據(jù)集,因?yàn)樵诟呔S空間中,歐幾里得距離的性質(zhì)會(huì)失效,需要使用更加復(fù)雜的距離度量方式。
K-medoids算法特點(diǎn)
優(yōu)點(diǎn):
1. 魯棒性強(qiáng):K-medoids算法采用一組代表性點(diǎn)(medoids)代表聚類簇,因此在數(shù)據(jù)噪聲較大或者存在離群點(diǎn)的情況下,比k-means更加魯棒。
2. 可解釋性好:由于medoids是實(shí)際存在于數(shù)據(jù)集中的點(diǎn),所以聚類結(jié)果更容易被理解和解釋。
3. 適用于非凸數(shù)據(jù)集:相比k-means算法只適用于凸數(shù)據(jù)集,K-medoids算法可以處理非凸數(shù)據(jù)集的聚類問題。
缺點(diǎn):
1. 運(yùn)算速度慢:由于K-medoids算法需要計(jì)算每個(gè)點(diǎn)到medoid的距離,因此計(jì)算復(fù)雜度較高,時(shí)間復(fù)雜度為O(K*N^2),其中K為聚類簇?cái)?shù),N為數(shù)據(jù)點(diǎn)數(shù)。
2. 對(duì)初始值敏感:K-medoids算法的聚類結(jié)果取決于初始medoid的選擇,因此需要多次隨機(jī)初始化來獲得更好的聚類結(jié)果。
3. 不適用于大數(shù)據(jù)分析:由于計(jì)算復(fù)雜度較高,K-medoids算法不適合處理大數(shù)據(jù)集。
四、送書活動(dòng)
?618,清華社 IT BOOK 多得圖書活動(dòng)開始啦!活動(dòng)時(shí)間為 2023 年 6 月 7 日至 6 月 18 日,清華
社為您精選多款高分好書,涵蓋了 C++、Java、Python、前端、后端、數(shù)據(jù)庫、算法與機(jī)器學(xué)習(xí)等多
個(gè) IT 開發(fā)領(lǐng)域,適合不同層次的讀者。全場(chǎng) 5 折,掃碼領(lǐng)券更有優(yōu)惠哦!快來京東點(diǎn)擊鏈接 IT BOOK
多得(或掃描京東二維碼)查看詳情吧!
詳情了解:《Python從入門到精通(微課精編版)(軟件開發(fā)視頻大講堂)》(前沿科技)【摘要 書評(píng) 試讀】- 京東圖書
五、抽獎(jiǎng)規(guī)則
?? 活動(dòng)時(shí)間: 截止到2023-06-18 12: 00
?? 參與方式: 點(diǎn)贊、收藏本文章,并評(píng)論
?? 抽獎(jiǎng)時(shí)間: 2023.06.18
?? 公布時(shí)間: 2023.06.20
?? 通知方式: 私信和動(dòng)態(tài)通知(一共50本書)
獲獎(jiǎng)名單:
i阿極
不是笨小孩i.文章來源:http://www.zghlxwxcb.cn/news/detail-484210.html
Ja_小浩文章來源地址http://www.zghlxwxcb.cn/news/detail-484210.html
到了這里,關(guān)于聚類分析(文末送書)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!