??????????博主:發(fā)量不足
????本期更新內(nèi)容:Spark MLlib分類????
????下篇文章預告:Hadoop全分布部署??????
簡介:耐心,自信來源于你強大的思想和知識基礎!!
?文章來源地址http://www.zghlxwxcb.cn/news/detail-785694.html
目錄
一、線性支持向量機
二、邏輯回歸
?
?
MLB支持多種分類分新方法。如一元分類、多元分類
分析方法 |
相關算法 |
二元分類 |
線性支持向量機、邏輯回歸、決策樹、隨機森林、梯度提升樹、樸素貝葉斯 |
多元分類 |
邏輯回歸、決策樹、隨機森林樸素貝葉斯 |
本文章主要介紹Spark MLlib的兩種線性分類方法:線性支持向量機(SVM)和邏輯回歸。
一、線性支持向量機
線性支持向量機在機器學習領域中是一種常見的判別方法,是一一個有監(jiān)督學習模型,通常用來進行模式識別,分類以及回歸分析。
通過找到支持向量從而獲得分類平面的方法,稱為支持向量機??梢苑浅3晒Φ靥幚砘貧w(時間序列分析)和模式識別(分類問題、判別分析)等諸多問題,并可推廣到預測和綜合評價等領域,因此可應用于理科、工科和管理等多種學科。
MLlib中對支持向量機算法有較好的支持,用來解決一般線性回歸和邏輯回歸不好處理的數(shù)據(jù)分類內(nèi)容,結果驗證其準確性較好。
1.導入線性支持向量機所需包
?
2.導入二元分類評估類
?
3.MLUtils提供了一些輔助方法,用于加載,保存和預處理MLLib中使用的數(shù)據(jù)
?
4.加載Spark官方提供數(shù)據(jù)集
?
5.將數(shù)據(jù)的60%分為訓練數(shù)據(jù),40%分為測試數(shù)據(jù)
?
?
?
?
?
6.設置迭代次數(shù)
?
7.執(zhí)行算法來構建模型
?
8.用測試數(shù)據(jù)評估模型
?
9.獲取評估指標
?
10.計算二元分類的PR和ROC曲線下的面積
?
11.保存并加載模型
?
?
?
二、邏輯回歸
邏輯回歸又稱為邏輯回歸分析,它是一個概率模型的分類算法,常用于數(shù)據(jù)挖掘、疾病自動診斷以及經(jīng)濟預測等領域。
邏輯回歸和線性回歸類似,但它不屬于回歸分析家族,差異主要是在于變量不同,因此其解法和生成曲線也不盡相同。邏輯回歸也是無監(jiān)督學習的一個重要算法,特別是用在二分分類中。
邏輯回歸實際上就是對已有數(shù)據(jù)進行分析從而判斷其結果可能是多少,它可以通過數(shù)學公式來表達。MLlib中MulticlassMetrics類是對數(shù)據(jù)進行分類的類,其中包括各種方法。
1.導人邏輯回歸所需包
?
2.導入分類評估器
?
?
?
?
?
3.加載spark官方提供數(shù)據(jù)集
?
4.將數(shù)據(jù)的60%分為訓練數(shù)據(jù),40%分為測試數(shù)據(jù)
?
?
?
?
?
5.運行訓練算法來構建模型
?
6.用測試數(shù)據(jù)評估模型
?
7.獲取評估指標
?
8.保存并加載模型
?
文章來源:http://www.zghlxwxcb.cn/news/detail-785694.html
?
到了這里,關于[機器學習、Spark]Spark MLlib分類的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!