国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

[機器學習、Spark]Spark機器學習庫MLlib的概述與數(shù)據(jù)類型

這篇具有很好參考價值的文章主要介紹了[機器學習、Spark]Spark機器學習庫MLlib的概述與數(shù)據(jù)類型。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

??????????博主:發(fā)量不足

????本期更新內(nèi)容:Spark機器學習庫MLlib的概述與數(shù)據(jù)類型

????下篇文章預告:Spark MLlib基本統(tǒng)計

????簡介:分享的是一個當代疫情在校封校的大學生學習筆記

目錄

Spark機器學習庫MLlib的概述

一.MLib的簡介

二.Spark機器學習工作流程

數(shù)據(jù)類型

一.本地向量

二.標注點

三.本地矩陣


?文章來源地址http://www.zghlxwxcb.cn/news/detail-406818.html

MLlib是Spark提供的可擴展的機器學習庫,其特點是采用較為先進的迭代式、內(nèi)存存儲的分析計算,使得數(shù)據(jù)的計算處理速度大大高于普通的數(shù)據(jù)處理引擎。

[機器學習、Spark]Spark機器學習庫MLlib的概述與數(shù)據(jù)類型

Spark機器學習庫MLlib的概述

一.MLib的簡介

[機器學習、Spark]Spark機器學習庫MLlib的概述與數(shù)據(jù)類型

?

二.Spark機器學習工作流程

[機器學習、Spark]Spark機器學習庫MLlib的概述與數(shù)據(jù)類型

[機器學習、Spark]Spark機器學習庫MLlib的概述與數(shù)據(jù)類型

?[機器學習、Spark]Spark機器學習庫MLlib的概述與數(shù)據(jù)類型

?

數(shù)據(jù)類型

MLlib的主要數(shù)據(jù)類型包括本地向量、標注點、本地矩陣。

本地向量和本地矩陣是提供公共接口的簡單數(shù)據(jù)模型,Breeze和Jblas提供了底層的線性代數(shù)運算。

在監(jiān)督學習中用標注點類型表示訓練樣本。

?

一.本地向量

本地向量分為密集向量(Dense)和稀疏向量(Sparse),密集向量是由Double類型的數(shù)組支持,而稀疏向量是由兩個并列的數(shù)組支持。

?

啟動Spark集群服務(hadoop用戶下spark路徑):sbin/start-all.sh

啟動Spark-Shell:bin/spark-shell --master local[2]

[機器學習、Spark]Spark機器學習庫MLlib的概述與數(shù)據(jù)類型

?

導包

import org.apache.spark.mllib.linalg.{Vector,Vectors}

[機器學習、Spark]Spark機器學習庫MLlib的概述與數(shù)據(jù)類型

?

創(chuàng)建一個密集本地向量

val dv:Vector=Vectors.dense(1.0,0.0,3.0)

[機器學習、Spark]Spark機器學習庫MLlib的概述與數(shù)據(jù)類型

?

創(chuàng)建一個稀疏本地向量

val sv1:Vector=Vectors.sparse(3,Array(0,2),Array(1.0,3.0))

[機器學習、Spark]Spark機器學習庫MLlib的概述與數(shù)據(jù)類型

?

通過指定非零項目,創(chuàng)建稀疏本地向量

val sv22:Vector = Vectors.sparse(3,Seq((0,1.0),(2,3.0)))

[機器學習、Spark]Spark機器學習庫MLlib的概述與數(shù)據(jù)類型

?

?

二.標注點

標簽點(Labeled Point)是一個本地向量,也分稀疏或者稠密,并且是一個帶有標簽的本地向量。

在 MLlib 中,標簽點常用于監(jiān)督學習類算法。標簽(Label)是用 Double 類型存放的,因此標簽點可以用于回歸或者分類算法中。如果是二維分類,標簽則必須是 0 或 1 之間的一種。而如果是多個維度的分類,標簽應當是從 0 開始的數(shù)字,代表各個分類的索引。

?

導包

import org.apache.spark.mllib.linalg.Vectors

import org.apache.spark.mllib.regression.LabeledPoint

[機器學習、Spark]Spark機器學習庫MLlib的概述與數(shù)據(jù)類型

創(chuàng)建帶有正標簽和密集向量的標注點pos和帶有負標簽和稀疏向量的標注點neg

val pos = LabeledPoint(1.0,Vectors.dense(1.0,0.0,3.0))

val neg = LabeledPoint(0.0,Vectors.sparse(3,Array(0,2),Array(1.0,3.0)))

[機器學習、Spark]Spark機器學習庫MLlib的概述與數(shù)據(jù)類型

?

三.本地矩陣

導包

import org.apache.spark.mllib.linalg.{Matrix,Matrices}

[機器學習、Spark]Spark機器學習庫MLlib的概述與數(shù)據(jù)類型

?

創(chuàng)建一個3行2列的密集矩陣

val dm:Matrix = Matrices.dense(3,2,Array(1.0,3.0,5.0,2.0,4.0,6.0))

[機器學習、Spark]Spark機器學習庫MLlib的概述與數(shù)據(jù)類型

?

創(chuàng)建一個3行2列的稀疏矩陣

val sm:Matrix = Matrices.sparse(3,2,Array(0,1,3),Array(0,2,1),Array(9,6,8))

[機器學習、Spark]Spark機器學習庫MLlib的概述與數(shù)據(jù)類型

?

?

到了這里,關于[機器學習、Spark]Spark機器學習庫MLlib的概述與數(shù)據(jù)類型的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內(nèi)容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • Spark編程實驗六:Spark機器學習庫MLlib編程

    Spark編程實驗六:Spark機器學習庫MLlib編程

    目錄 一、目的與要求 二、實驗內(nèi)容 三、實驗步驟 1、數(shù)據(jù)導入 2、進行主成分分析(PCA) 3、訓練分類模型并預測居民收入? 4、超參數(shù)調(diào)優(yōu) 四、結果分析與實驗體會 1、通過實驗掌握基本的MLLib編程方法; 2、掌握用MLLib解決一些常見的數(shù)據(jù)分析問題,包括數(shù)據(jù)導入、成分分析

    2024年02月20日
    瀏覽(22)
  • Spark-機器學習(1)什么是機器學習與MLlib算法庫的認識

    Spark-機器學習(1)什么是機器學習與MLlib算法庫的認識

    從這一系列開始,我會帶著大家一起了解我們的機器學習,了解我們spark機器學習中的MLIib算法庫,知道它大概的模型,熟悉并認識它。同時,本篇文章為個人spark免費專欄的系列文章,有興趣的可以收藏關注一下,謝謝。同時,希望我的文章能幫助到每一個正在學習的你們。

    2024年04月16日
    瀏覽(26)
  • Spark MLlib機器學習庫(一)決策樹和隨機森林案例詳解

    Spark MLlib機器學習庫(一)決策樹和隨機森林案例詳解

    數(shù)據(jù)集的下載地址: https://www.kaggle.com/datasets/uciml/forest-cover-type-dataset 該數(shù)據(jù)集記錄了美國科羅拉多州不同地塊的森林植被類型,每個樣本包含了描述每塊土地的若干特征,包括海拔、坡度、到水源的距離、遮陽情況和土壤類型,并且給出了地塊對應的已知森林植被類型。 很

    2024年02月12日
    瀏覽(64)
  • Spark MLlib與深度學習:構建新型計算機視覺應用

    作者:禪與計算機程序設計藝術 隨著大數(shù)據(jù)、云計算和移動互聯(lián)網(wǎng)的普及,人工智能(AI)正在成為繼“機器學習”之后又一個重要方向。作為一個專門研究人類智能的科學領域,人工智能主要包括機器學習、深度學習、模式識別等多個分支領域。而近年來隨著數(shù)據(jù)處理和存

    2024年02月12日
    瀏覽(23)
  • 軍用大數(shù)據(jù) - Spark機器學習

    軍用大數(shù)據(jù) - Spark機器學習

    本關任務:使用 pyspark ml 的LogisticRegression分類器完成 Iris 分類任務。 1:觀察數(shù)據(jù)集 我們本次使用的數(shù)據(jù)集是sklearn自帶的數(shù)據(jù)集Iris。 接下來,我們來了解下Iris數(shù)據(jù)集的數(shù)據(jù)吧! 示例代碼: 打印結果: 簡單來說明下數(shù)據(jù)集,我們第一個打印輸出的結果集是Iris的特征,第二

    2024年02月05日
    瀏覽(37)
  • Spark MLlib ----- ALS算法

    Spark MLlib ----- ALS算法

    在談ALS(Alternating Least Squares)之前首先來談談LS,即最小二乘法。LS算法是ALS的基礎,是一種數(shù)優(yōu)化技術,也是一種常用的機器學習算法,他通過最小化誤差平方和尋找數(shù)據(jù)的最佳匹配,利用最小二乘法尋找最優(yōu)的未知數(shù)據(jù),保證求的數(shù)據(jù)與已知的數(shù)據(jù)誤差最小。LS也被用于擬

    2024年02月02日
    瀏覽(30)
  • 大數(shù)據(jù)筆記--Spark機器學習(第一篇)

    大數(shù)據(jù)筆記--Spark機器學習(第一篇)

    目錄 一、數(shù)據(jù)挖掘與機器學習 1、概念 2、人工智能 3、數(shù)據(jù)挖掘體系 二、機器學習 1、什么是機器學習 2、機器學習的應用 3、實現(xiàn)機器學習算法的工具與技術框架 三、Spark MLlib介紹 1、簡介 2、MLlib基本數(shù)據(jù)類型 Ⅰ、概述 Ⅱ、本地向量 Ⅲ、向量標簽的使用 Ⅳ、本地矩陣 Ⅴ、

    2024年02月07日
    瀏覽(23)
  • 機器學習常識 2: 數(shù)據(jù)類型

    摘要 : 本貼討論常見的數(shù)據(jù)類型. 基本元素的類型包括: 布爾型、枚舉型、實型等。 布爾型有兩種取值, 如: Yes/No, Pass/Fail. 枚舉型有多種取值, 如: 顏色有紅/黃/綠, 形狀有方/圓/梯. 這些值之間一般沒有大小關系. 實型如: 人的身高, 體重. 簡便起見整型一般也當成實型, 而不是枚

    2024年02月06日
    瀏覽(17)
  • Azure - 機器學習:使用 Apache Spark 進行交互式數(shù)據(jù)整理

    Azure - 機器學習:使用 Apache Spark 進行交互式數(shù)據(jù)整理

    關注TechLead,分享AI全維度知識。作者擁有10+年互聯(lián)網(wǎng)服務架構、AI產(chǎn)品研發(fā)經(jīng)驗、團隊管理經(jīng)驗,同濟本復旦碩,復旦機器人智能實驗室成員,阿里云認證的資深架構師,項目管理專業(yè)人士,上億營收AI產(chǎn)品研發(fā)負責人。 數(shù)據(jù)整理已經(jīng)成為機器學習項目中最重要的步驟之一。

    2024年02月08日
    瀏覽(29)
  • 數(shù)據(jù)采集 通過Apache Spark和Amazon SageMaker構建機器學習管道;

    作者:禪與計算機程序設計藝術 隨著人們生活水平的提高,收集、整理、分析和處理海量數(shù)據(jù)已成為當今社會所需的工具。而在云計算時代,數(shù)據(jù)的價值及其價值的獲取越來越重要。近年來,Apache Spark和Amazon SageMaker的結合讓數(shù)據(jù)收集變得更加簡單、高效、可靠,基于這些框

    2024年02月04日
    瀏覽(24)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包