国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

大數(shù)據(jù)課程K12——Spark的MLlib概述

這篇具有很好參考價值的文章主要介紹了大數(shù)據(jù)課程K12——Spark的MLlib概述。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

文章作者郵箱:yugongshiye@sina.cn? ? ? ? ? ? ? 地址:廣東惠州

?▲ 本章節(jié)目的

? 了解Spark的MLlib概念;

??掌握Spark的MLlib基本數(shù)據(jù)模型;

??掌握Spark的MLlib統(tǒng)計量基礎;

一、Spark MLlib介紹

1.?概述

MLlib是Apache Spark的可迭代機器學習庫。

2. 易于使用

適用于Java、Scala、Python和R語言。

MLlib適用于Spark的API,并與Python中的NumPy(從Spark 0.9開始)和R庫(從Spark 1.5開始)互操作。 您可以使用任何Hadoop數(shù)據(jù)源(例如HDFS,HBase或本地文件),從而輕松插入Hadoop工作流程。

案例:

// 通過Python調用MLib

data = spark.read.format("libsvm").load("hdfs://...")

model =?KMeans(k=10).fit(data)

3. 執(zhí)行高效

高質量的算法,比 MapReduce 快100倍。

Spark擅長迭代計算,使MLlib能夠快速運行。 同時,我們關注算法性能:MLlib包含利用迭代的高質量算法,并且可以產生比MapReduce上有時使用的一次通過近似更好的結果。Hadoop 和 Spark的數(shù)據(jù)模型,如下圖所示。

大數(shù)據(jù)課程K12——Spark的MLlib概述,大數(shù)據(jù),spark,mllib

?4. 易于部署

Spark運行在Hadoop,Apache Mesos,Kubernetes,standalone或云端,針對不同的數(shù)據(jù)源。

您可以使用其獨立群集模式,EC2,Hadoop YARN,Mesos或Kubernetes運行Spark。 訪問HDFS,Apache Cassandra,Apache HBase,Apache Hive和數(shù)百個其他數(shù)據(jù)源中的數(shù)據(jù)。

5. 算法

MLlib包含許多算法和實用程序。

ML算法包括:

1.?分類:邏輯回歸,樸素貝葉斯,......。

2.?回歸:廣義線性回歸,生存回歸,......。

3.?決策樹,隨機森林和梯度提升樹。

4.?建議:交替最小二乘法(ALS)。

5.?聚類:K均值,高斯混合(GMM),......。

6.?主題建模:潛在Dirichlet分配(LDA)。

7.?頻繁項目集,關聯(lián)規(guī)則和順序模式挖掘。

ML工作流程工具包括:

1. 特征轉換:標準化,規(guī)范化,散列,......。

2. ML Pipeline construction。

3.?模型評估和超級參數(shù)調整。

4.?ML持久性:保存和加載模型和Pipelines。

其他工具包括:

分布式線性代數(shù):SVD,PCA,......。

統(tǒng)計:匯總統(tǒng)計,假設檢驗,......。

6. 總結

MLlib是一個構建在Spark上的、專門針對大數(shù)據(jù)處理的并發(fā)式高速機器學習庫,其特點是采用較為先進的迭代式、內存存儲的分析計算,使得數(shù)據(jù)的計算處理速度大大高于普通的數(shù)據(jù)處理引擎。

MLlib機器學習庫還在不停地更新中,Apache的相關研究人員仍在不停地為其中添加更多的機器學習算法。目前MLlib中已經(jīng)有通用的學習算法和工具類,包括統(tǒng)計、分類、回歸、聚類、降維等。

MLlib采用Scala語言編寫,Scala語言是運行在JVM上的一種函數(shù)式編程語言,特點就是可移植性強,“一次編寫,到處運行”是其最重要的特點。借助于RDD數(shù)據(jù)統(tǒng)一輸入格式,讓用戶可以在不同的IDE上編寫數(shù)據(jù)處理程序,通過本地化測試后可以在略微修改運行參數(shù)后直接在集群上運行。對結果的獲取更為可視化和直觀,不會因為運行系統(tǒng)底層的不同而造成結果的差異與改變。

二、MLlib基本數(shù)據(jù)模型

1. 概述

RDD是MLlib專用的數(shù)據(jù)格式,它參考了Scala函數(shù)式編程思想,并大膽引入統(tǒng)計分析概念,將存儲數(shù)據(jù)轉化成向量和矩陣的形式進行存儲和計算,這樣將數(shù)據(jù)定量化表示,能更準確地整理和分析結果。

多種數(shù)據(jù)類型

MLlib先天就支持較多的數(shù)據(jù)格式,從最基本的Spark數(shù)據(jù)集RDD到部署在集群中的向量和矩陣。同樣,MLlib還支持部署在本地計算機中的本地化格式。

下表給出了MLlib支持的數(shù)據(jù)類型。

類型名稱

釋義

Local vector

本地向量集。主要向Spark提供一組可進行操作的數(shù)據(jù)集合

Labeled point

向量標簽。讓用戶能夠分類不同的數(shù)據(jù)集合

Local matrix

本地矩陣。將數(shù)據(jù)結合以矩陣形式存儲在本地計算機中

Distributed matrix

分布式矩陣。將矩陣集合以矩陣形式存儲在分布式計算機中

以上就是MLlib支持的數(shù)據(jù)類型,其中分布式矩陣根據(jù)不同的作用和應用場景,又分為四種不同的類型。

2.?本地向量

MLlib使用的本地化存儲類型是向量,這里的向量主要由兩類構成:稀疏型數(shù)據(jù)集(spares)和密集型數(shù)據(jù)集(dense)。例如一個向量數(shù)據(jù)(9,5,2,7),按密集型數(shù)據(jù)格式可以被設定成(9,5,2,7)進行存儲,數(shù)據(jù)集被作為一個集合的形式整體存儲。而對于稀疏型數(shù)據(jù),可以按向量的大小存儲為(4,?Array(0,1,2,3),?Array(9,5,2,7))。

案例一:

import org.apache.spark.{SparkConf,SparkContext}

def main(args:Array[String]):Unit={

//--建立密集型向量

//--dense可以將其理解為MLlib專用的一種集合形式,它與Array類似

val vd=Vectors.dense(2,0,6)//

println(vd)

//①參:size。spare方法是將給定的數(shù)據(jù)Array數(shù)據(jù)(9,5,2,7)分解成指定的size個部分進行處理,本例中是7個

//③參:輸入數(shù)據(jù)。本例中是Array(9,5,2,7)

//②參:輸入數(shù)據(jù)對應的下標,要求遞增,并且最大值要小于等于size

val vs=Vectors.sparse(7,Array(0,1,3,6),Array(9,5,2,7))

println(vs(6))

}文章來源地址http://www.zghlxwxcb.cn/news/detail-679003.html

}

到了這里,關于大數(shù)據(jù)課程K12——Spark的MLlib概述的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • Spark MLlib ----- ALS算法

    Spark MLlib ----- ALS算法

    在談ALS(Alternating Least Squares)之前首先來談談LS,即最小二乘法。LS算法是ALS的基礎,是一種數(shù)優(yōu)化技術,也是一種常用的機器學習算法,他通過最小化誤差平方和尋找數(shù)據(jù)的最佳匹配,利用最小二乘法尋找最優(yōu)的未知數(shù)據(jù),保證求的數(shù)據(jù)與已知的數(shù)據(jù)誤差最小。LS也被用于擬

    2024年02月02日
    瀏覽(30)
  • Spark編程實驗六:Spark機器學習庫MLlib編程

    Spark編程實驗六:Spark機器學習庫MLlib編程

    目錄 一、目的與要求 二、實驗內容 三、實驗步驟 1、數(shù)據(jù)導入 2、進行主成分分析(PCA) 3、訓練分類模型并預測居民收入? 4、超參數(shù)調優(yōu) 四、結果分析與實驗體會 1、通過實驗掌握基本的MLLib編程方法; 2、掌握用MLLib解決一些常見的數(shù)據(jù)分析問題,包括數(shù)據(jù)導入、成分分析

    2024年02月20日
    瀏覽(22)
  • Spark MLlib與深度學習:構建新型計算機視覺應用

    作者:禪與計算機程序設計藝術 隨著大數(shù)據(jù)、云計算和移動互聯(lián)網(wǎng)的普及,人工智能(AI)正在成為繼“機器學習”之后又一個重要方向。作為一個專門研究人類智能的科學領域,人工智能主要包括機器學習、深度學習、模式識別等多個分支領域。而近年來隨著數(shù)據(jù)處理和存

    2024年02月12日
    瀏覽(23)
  • Java語言在Spark3.2.4集群中使用Spark MLlib庫完成XGboost算法

    XGBoost是一種基于決策樹的集成學習算法,它在處理結構化數(shù)據(jù)方面表現(xiàn)優(yōu)異。相比其他算法,XGBoost能夠處理大量特征和樣本,并且支持通過正則化控制模型的復雜度。XGBoost也可以自動進行特征選擇并對缺失值進行處理。 1、導入相關庫 2、加載數(shù)據(jù) 3、準備特征向量 4、劃分

    2023年04月12日
    瀏覽(15)
  • Spark MLlib機器學習庫(一)決策樹和隨機森林案例詳解

    Spark MLlib機器學習庫(一)決策樹和隨機森林案例詳解

    數(shù)據(jù)集的下載地址: https://www.kaggle.com/datasets/uciml/forest-cover-type-dataset 該數(shù)據(jù)集記錄了美國科羅拉多州不同地塊的森林植被類型,每個樣本包含了描述每塊土地的若干特征,包括海拔、坡度、到水源的距離、遮陽情況和土壤類型,并且給出了地塊對應的已知森林植被類型。 很

    2024年02月12日
    瀏覽(64)
  • Spark-機器學習(1)什么是機器學習與MLlib算法庫的認識

    Spark-機器學習(1)什么是機器學習與MLlib算法庫的認識

    從這一系列開始,我會帶著大家一起了解我們的機器學習,了解我們spark機器學習中的MLIib算法庫,知道它大概的模型,熟悉并認識它。同時,本篇文章為個人spark免費專欄的系列文章,有興趣的可以收藏關注一下,謝謝。同時,希望我的文章能幫助到每一個正在學習的你們。

    2024年04月16日
    瀏覽(26)
  • Java語言在Spark3.2.4集群中使用Spark MLlib庫完成樸素貝葉斯分類器

    Java語言在Spark3.2.4集群中使用Spark MLlib庫完成樸素貝葉斯分類器

    貝葉斯定理是關于隨機事件A和B的條件概率,生活中,我們可能很容易知道P(A|B),但是我需要求解P(B|A),學習了貝葉斯定理,就可以解決這類問題,計算公式如下: ? ? P(A)是A的先驗概率 P(B)是B的先驗概率 P(A|B)是A的后驗概率(已經(jīng)知道B發(fā)生過了) P(B|A)是

    2023年04月12日
    瀏覽(19)
  • Spark MLlib快速入門(1)邏輯回歸、Kmeans、決策樹、Pipeline、交叉驗證

    Spark MLlib快速入門(1)邏輯回歸、Kmeans、決策樹、Pipeline、交叉驗證

    除了scikit-learn外,在spark中也提供了機器學習庫,即Spark MLlib。 在Spark MLlib機器學習庫提供兩套算法實現(xiàn)的API:基于RDD API和基于 DataFrame API 。今天,主要介紹下 DataFrame API 的使用,不涉及算法的原理。 主要提供的算法如下: 分類 邏輯回歸、貝葉斯支持向量機 聚類 K-均值 推薦

    2024年02月16日
    瀏覽(19)
  • 【IDEA + Spark 3.4.1 + sbt 1.9.3 + Spark MLlib 構建鳶尾花決策樹分類預測模型】

    【IDEA + Spark 3.4.1 + sbt 1.9.3 + Spark MLlib 構建鳶尾花決策樹分類預測模型】

    通過IDEA + Spark 3.4.1 + sbt 1.9.3 + Spark MLlib 構建鳶尾花決策樹分類預測模型,這是一個分類模型案例,通過該案例,可以快速了解Spark MLlib分類預測模型的使用方法。

    2024年02月14日
    瀏覽(26)
  • 【基于IDEA + Spark 3.4.1 + sbt 1.9.3 + Spark MLlib 構建邏輯回歸鳶尾花分類預測模型】

    【基于IDEA + Spark 3.4.1 + sbt 1.9.3 + Spark MLlib 構建邏輯回歸鳶尾花分類預測模型】

    基于IDEA + Spark 3.4.1 + sbt 1.9.3 + Spark MLlib 構建邏輯回歸鳶尾花分類預測模型,這是一個分類模型案例,通過該案例,可以快速了解Spark MLlib分類預測模型的使用方法。 運行結果如下:

    2024年02月14日
    瀏覽(23)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包