【機器學(xué)習(xí)入門與實踐】入門必看系列,含數(shù)據(jù)挖掘項目實戰(zhàn):模型融合、特征優(yōu)化、特征降維、探索性分析等,實戰(zhàn)帶你掌握機器學(xué)習(xí)數(shù)據(jù)挖掘
專欄詳細(xì)介紹:【機器學(xué)習(xí)入門與實踐】合集入門必看系列,含數(shù)據(jù)挖掘項目實戰(zhàn):數(shù)據(jù)融合、特征優(yōu)化、特征降維、探索性分析等,實戰(zhàn)帶你掌握機器學(xué)習(xí)數(shù)據(jù)挖掘。
本專欄主要方便入門同學(xué)快速掌握相關(guān)知識。聲明:部分項目為網(wǎng)絡(luò)經(jīng)典項目方便大家快速學(xué)習(xí),后續(xù)會不斷增添實戰(zhàn)環(huán)節(jié)(比賽、論文、現(xiàn)實應(yīng)用等)
專欄訂閱:數(shù)據(jù)挖掘-機器學(xué)習(xí)專欄
主要講解了數(shù)據(jù)探索性分析:查看變量間相關(guān)性以及找出關(guān)鍵變量;數(shù)據(jù)特征工程對數(shù)據(jù)精進(jìn):異常值處理、歸一化處理以及特征降維;在進(jìn)行歸回模型訓(xùn)練涉及主流ML模型:決策樹、隨機森林,lightgbm等。同時重丶講解模型驗證、特征優(yōu)化、模型融合等。
數(shù)據(jù)挖掘18大算法實現(xiàn)以及其他相關(guān)經(jīng)典DM算法:決策分類,聚類,鏈接挖掘,關(guān)聯(lián)挖掘,模式挖掘、圖算法,搜索算法等
碼源鏈接見文末 or 文章頂部
1.十八大DM算法目錄
包名 | 目錄名 | 算法名 |
---|---|---|
AssociationAnalysis | DataMining_Apriori | Apriori-關(guān)聯(lián)規(guī)則挖掘算法 |
AssociationAnalysis | DataMining_FPTree | FPTree-頻繁模式樹算法 |
BaggingAndBoosting | DataMining_AdaBoost | AdaBoost-裝袋提升算法 |
Classification | DataMining_CART | CART-分類回歸樹算法 |
Classification | DataMining_ID3 | ID3-決策樹分類算法 |
Classification | DataMining_KNN | KNN-k最近鄰算法工具類 |
Classification | DataMining_NaiveBayes | NaiveBayes-樸素貝葉斯算法 |
Clustering | DataMining_BIRCH | BIRCH-層次聚類算法 |
Clustering | DataMining_KMeans | KMeans-K均值算法 |
GraphMining | DataMining_GSpan | GSpan-頻繁子圖挖掘算法 |
IntegratedMining | DataMining_CBA | CBA-基于關(guān)聯(lián)規(guī)則的分類算法 |
LinkMining | DataMining_HITS | HITS-鏈接分析算法 |
LinkMining | DataMining_PageRank | PageRank-網(wǎng)頁重要性/排名算法 |
RoughSets | DataMining_RoughSets | RoughSets-粗糙集屬性約簡算法 |
SequentialPatterns | DataMining_GSP | GSP-序列模式分析算法 |
SequentialPatterns | DataMining_PrefixSpan | PrefixSpan-序列模式分析算法 |
StatisticalLearning | DataMining_EM | EM-期望最大化算法 |
StatisticalLearning | DataMining_SVM | SVM-支持向量機算法 |
2.其他經(jīng)典DM算法
包名 | 目錄名 | 算法名 |
---|---|---|
Others | DataMining_ACO | ACO-蟻群算法 |
Others | DataMining_BayesNetwork | BayesNetwork-貝葉斯網(wǎng)絡(luò)算法 |
Others | DataMining_CABDDCC | CABDDCC-基于連通圖的分裂聚類算法 |
Others | DataMining_Chameleon | Chameleon-兩階段合并聚類算法 |
Others | DataMining_DBSCAN | DBSCAN-基于密度的聚類算法 |
Others | DataMining_GA | GA-遺傳算法 |
Others | DataMining_GA_Maze | GA_Maze-遺傳算法在走迷宮游戲中的應(yīng)用算法 |
Others | DataMining_KDTree | KDTree-k維空間關(guān)鍵數(shù)據(jù)檢索算法工具類 |
Others | DataMining_MSApriori | MSApriori-基于多支持度的Apriori算法 |
Others | DataMining_RandomForest | RandomForest-隨機森林算法 |
Others | DataMining_TAN | TAN-樹型樸素貝葉斯算法 |
Others | DataMining_Viterbi | Viterbi-維特比算法 |
3.十八大經(jīng)典DM算法詳解
18大數(shù)據(jù)挖掘的經(jīng)典算法以及代碼實現(xiàn),涉及到了決策分類,聚類,鏈接挖掘,關(guān)聯(lián)挖掘,模式挖掘等等方面,后面都是相應(yīng)算法的博文鏈接,希望能夠幫助大家學(xué)。
目前追加了其他的一些經(jīng)典的DM算法,在others的包中涉及聚類,分類,圖算法,搜索算等等,沒有具體分類。
-
C4.5
C4.5算法與ID3算法一樣,都是數(shù)學(xué)分類算法,C4.5算法是ID3算法的一個改進(jìn)。ID3算法采用信息增益進(jìn)行決策判斷,而C4.5采用的是增益率。詳細(xì)介紹鏈接
-
CART
CART算法的全稱是分類回歸樹算法,他是一個二元分類,采用的是類似于熵的基尼指數(shù)作為分類決策,形成決策樹后之后還要進(jìn)行剪枝,我自己在實現(xiàn)整個算法的時候采用的是代價復(fù)雜度算法,詳細(xì)介紹鏈接
-
KNN
K最近鄰算法。給定一些已經(jīng)訓(xùn)練好的數(shù)據(jù),輸入一個新的測試數(shù)據(jù)點,計算包含于此測試數(shù)據(jù)點的最近的點的分類情況,哪個分類的類型占多數(shù),則此測試點的分類與此相同,所以在這里,有的時候可以復(fù)制不同的分類點不同的權(quán)重。近的點的權(quán)重大點,遠(yuǎn)的點自然就小點。詳細(xì)介紹鏈接
-
Naive Bayes
樸素貝葉斯算法。樸素貝葉斯算法是貝葉斯算法里面一種比較簡單的分類算法,用到了一個比較重要的貝葉斯定理,用一句簡單的話概括就是條件概率的相互轉(zhuǎn)換推導(dǎo)。詳細(xì)介紹鏈接
-
SVM
支持向量機算法。支持向量機算法是一種對線性和非線性數(shù)據(jù)進(jìn)行分類的方法,非線性數(shù)據(jù)進(jìn)行分類的時候可以通過核函數(shù)轉(zhuǎn)為線性的情況再處理。其中的一個關(guān)鍵的步驟是搜索最大邊緣超平面。詳細(xì)介紹鏈接
-
EM
期望最大化算法。期望最大化算法,可以拆分為2個算法,1個E-Step期望化步驟,和1個M-Step最大化步驟。他是一種算法框架,在每次計算結(jié)果之后,逼近統(tǒng)計模型參數(shù)的最大似然或最大后驗估計。詳細(xì)介紹鏈接
-
Apriori
Apriori算法是關(guān)聯(lián)規(guī)則挖掘算法,通過連接和剪枝運算挖掘出頻繁項集,然后根據(jù)頻繁項集得到關(guān)聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則的導(dǎo)出需要滿足最小置信度的要求。詳細(xì)介紹鏈接
-
FP-Tree
頻繁模式樹算法。這個算法也有被稱為FP-growth算法,這個算法克服了Apriori算法的產(chǎn)生過多侯選集的缺點,通過遞歸的產(chǎn)生頻度模式樹,然后對樹進(jìn)行挖掘,后面的過程與Apriori算法一致。詳細(xì)介紹鏈接
-
PageRank
網(wǎng)頁重要性/排名算法。PageRank算法最早產(chǎn)生于Google,核心思想是通過網(wǎng)頁的入鏈數(shù)作為一個網(wǎng)頁好快的判定標(biāo)準(zhǔn),如果1個網(wǎng)頁內(nèi)部包含了多個指向外部的鏈接,則PR值將會被均分,PageRank算法也會遭到LinkSpan攻擊。詳細(xì)介紹鏈接
-
HITS
HITS算法是另外一個鏈接算法,部分原理與PageRank算法是比較相似的,HITS算法引入了權(quán)威值和中心值的概念,HITS算法是受用戶查詢條件影響的,他一般用于小規(guī)模的數(shù)據(jù)鏈接分析,也更容易遭受到攻擊。詳細(xì)介紹鏈接
-
K-Means
K-Means算法是聚類算法,k在在這里指的是分類的類型數(shù),所以在開始設(shè)定的時候非常關(guān)鍵,算法的原理是首先假定k個分類點,然后根據(jù)歐式距離計算分類,然后去同分類的均值作為新的聚簇中心,循環(huán)操作直到收斂。詳細(xì)介紹鏈接
-
BIRCH
BIRCH算法利用構(gòu)建CF聚類特征樹作為算法的核心,通過樹的形式,BIRCH算法掃描數(shù)據(jù)庫,在內(nèi)存中建立一棵初始的CF-樹,可以看做數(shù)據(jù)的多層壓縮。詳細(xì)介紹鏈接
-
AdaBoost
AdaBoost算法是一種提升算法,通過對數(shù)據(jù)的多次訓(xùn)練得到多個互補的分類器,然后組合多個分類器,構(gòu)成一個更加準(zhǔn)確的分類器。詳細(xì)介紹鏈接
-
GSP
GSP算法是序列模式挖掘算法。GSP算法也是Apriori類算法,在算法的過程中也會進(jìn)行連接和剪枝操作,不過在剪枝判斷的時候還加上了一些時間上的約束等條件。詳細(xì)介紹鏈接
-
PreFixSpan
PreFixSpan算法是另一個序列模式挖掘算法,在算法的過程中不會產(chǎn)生候選集,給定初始前綴模式,不斷的通過后綴模式中的元素轉(zhuǎn)到前綴模式中,而不斷的遞歸挖掘下去。詳細(xì)介紹鏈接
-
CBA
基于關(guān)聯(lián)規(guī)則分類算法。CBA算法是一種集成挖掘算法,因為他是建立在關(guān)聯(lián)規(guī)則挖掘算法之上的,在已有的關(guān)聯(lián)規(guī)則理論前提下,做分類判斷,只是在算法的開始時對數(shù)據(jù)做處理,變成類似于事務(wù)的形式。詳細(xì)介紹鏈接
-
RoughSets
粗糙集算法。粗糙集理論是一個比較新穎的數(shù)據(jù)挖掘思想。這里使用的是用粗糙集進(jìn)行屬性約簡的算法,通過上下近似集的判斷刪除無效的屬性,進(jìn)行規(guī)制的輸出。詳細(xì)介紹鏈接
-
GSpan
gSpan算法屬于圖挖掘算法領(lǐng)域。,主要用于頻繁子圖的挖掘,相較于其他的圖算法,子圖挖掘算法是他們的一個前提或基礎(chǔ)算法。gSpan算法用到了DFS編碼,和Edge五元組,最右路徑子圖擴展等概念,算法比較的抽象和復(fù)雜。詳細(xì)介紹鏈接
4.Others目錄下的算法詳解:
-
GA
遺傳算法。遺傳算法運用了生物進(jìn)化理論的知識來尋找問題最優(yōu)解的算法,算法的遺傳進(jìn)化過程分選擇,交叉和變異操作,其中選擇操是非常關(guān)鍵的步驟,把更適應(yīng)的基于組遺傳給下一代。詳細(xì)介紹鏈接
-
DbScan
基于空間密度聚類算法。dbScan作為一種特殊聚類算法,彌補了其他算法的一些不足,基于空間密,實現(xiàn)聚類效果,可以發(fā)現(xiàn)任意形狀的聚簇。詳細(xì)介紹鏈接
-
GA_Maze
遺傳算法在走迷宮游戲中的應(yīng)用。將走迷宮中的搜索出口路徑的問題轉(zhuǎn)化為遺傳算法中的問題通過構(gòu)造針對此特定問題的適值函數(shù),基因移動方向的定位,巧的進(jìn)行問題的求解。詳細(xì)介紹鏈接
-
CABDDCC
基于連通圖的分裂聚類算法。也是屬于層次聚類算法主要分為2個階段,第一階段構(gòu)造連通圖。第二個階段是分裂連通圖,最終形成聚類結(jié)果。詳細(xì)介紹鏈接
-
Chameleon
兩階段聚類算法。與CABDDCC算法相反,最后是通過對小簇集合的合并,形成最終的結(jié)果,在第一階段主要是通過K近鄰的思想形成小規(guī)模的連通圖,第二階段通過RI(相對互連性)和RC(相對近似性)來選一個最佳的簇進(jìn)行合并。詳細(xì)介紹鏈接
-
RandomForest
隨機森林算法。算法思想是決策樹+boosting.決策樹采用的是CART分類回歸數(shù),通過組合各個決策樹的弱分類器,構(gòu)成一個最終的強分類器,在構(gòu)造決策樹的時候采取隨機數(shù)量的樣本數(shù)和隨機的部分屬性進(jìn)行子決策樹的構(gòu)建,避免了過分?jǐn)M合的現(xiàn)象發(fā)生。詳細(xì)介紹鏈接
-
KDTree
K-Dimension Tree。多維空間劃分樹,數(shù)據(jù)在多維空間進(jìn)行劃分與查找。主要用于關(guān)鍵信息的搜索,類似于在空間中的二分搜索,大大提高了搜索效率,在尋找目標(biāo)元素時,使用了DFS深度優(yōu)先的方式和回溯進(jìn)行最近點的尋找。詳細(xì)介紹鏈接
-
MS-Apriori
基于多支持度的Apriori算法。是Apriori算法的升級算法,彌補了原先Apriori算法的不足,還增加了支持度差別限制以及支持度計數(shù)統(tǒng)計方面的優(yōu)化,無須再次重新掃描整個數(shù)據(jù)集,產(chǎn)生關(guān)聯(lián)規(guī)則的時候可以根據(jù)子集的關(guān)系避免一些置信度的計算。詳細(xì)介紹鏈接
-
ACO
蟻群算法。蟻群算法又稱為螞蟻算法。同GA遺傳算法類似,也是運用了大自然規(guī)律的算法,用于在圖中尋找最優(yōu)路徑的概率型算法。靈感來源于螞蟻在尋找食物時會散播信息素的發(fā)現(xiàn)路徑行為。詳細(xì)介紹鏈接
-
BayesNetwork
貝葉斯網(wǎng)絡(luò)算法。彌補了樸素貝葉斯算法中必須要事件獨立性的缺點,利用了貝葉斯網(wǎng)絡(luò)的DAG有向無環(huán)圖,允許各個事件保留一定的依賴關(guān)系,網(wǎng)絡(luò)結(jié)構(gòu)中的每個節(jié)點代表一種屬性,邊代表相應(yīng)的條件概率值,通過計算從而能得到精準(zhǔn)的分類效果。詳細(xì)介紹鏈接
-
TAN
樹型樸素貝葉斯算法。此算法又被稱為加強版樸素貝葉斯算法。在滿足原有樸素貝葉斯條件的基礎(chǔ)上,他允許部條件屬性直接的關(guān)聯(lián)性。形成樹型的結(jié)構(gòu)。詳細(xì)介紹鏈接
-
Viterbi
維特比算法。給定一個隱馬爾科夫模型以及一個觀察序列,求出潛在的狀態(tài)序列信息,每個潛在狀態(tài)信息又會受到前一個狀態(tài)信息的影響。
5.算法使用方法
在每個算法中給出了3大類型,主算法程序,調(diào)用程序,輸入數(shù)據(jù),調(diào)用方法如下:
- 將需要數(shù)據(jù)的測試數(shù)據(jù)轉(zhuǎn)化成與給定的輸入格式相同
- 然后以Client類的測試程序調(diào)用方式進(jìn)行使用。
- 也可以自行修改算法程序,來適用于自己的使用場景
碼源鏈接見文末 or 文章頂部
如果無法下載,過幾天在來試試,應(yīng)該在審核中
下載鏈接:文章來源:http://www.zghlxwxcb.cn/news/detail-703594.html
https://download.csdn.net/download/sinat_39620217/87990416文章來源地址http://www.zghlxwxcb.cn/news/detail-703594.html
到了這里,關(guān)于數(shù)據(jù)挖掘18大算法實現(xiàn)以及其他相關(guān)經(jīng)典DM算法:決策分類,聚類,鏈接挖掘,關(guān)聯(lián)挖掘,模式挖掘、圖算法,搜索算法等的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!