国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述

這篇具有很好參考價(jià)值的文章主要介紹了【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

第一章 說明

整個(gè)Spark 框架分為如下7個(gè)部分,總的來說分為Spark 基礎(chǔ)環(huán)境、Spark 離線分析和Spark實(shí)時(shí)分析三個(gè)大的方面,如下圖所示:
【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述
第一方面、Spark 基礎(chǔ)環(huán)境
主要講述Spark框架安裝部署及開發(fā)運(yùn)行,如何在本地模式和集群模式運(yùn)行,使用spark-shell及IDEA開發(fā)應(yīng)用程序,測試及打包提交運(yùn)行集群。
第二方面、Spark 離線分析

  • Spark 核心基礎(chǔ):SparkCore模塊,主要講解Spark框架核心數(shù)據(jù)結(jié)構(gòu)RDD及重要函數(shù)使
    用,如何鏈?zhǔn)骄幊烫幚矸治鰯?shù)據(jù);
  • Spark 交互式分析:SparkSQL模塊,針對(duì)結(jié)構(gòu)化數(shù)據(jù)處理分析,將數(shù)據(jù)封裝在DataFrame和Dataset,調(diào)用API或者使用SQL分析數(shù)據(jù);
  • 離線綜合案例:以DMP廣告點(diǎn)擊業(yè)務(wù)數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行ETL解析和廣告相關(guān)指標(biāo)報(bào)表統(tǒng)計(jì),集成Oozie和Hue調(diào)度執(zhí)行應(yīng)用,以及使用Livy使用Rest方式提交應(yīng)用;
    第三方面、Spark 實(shí)時(shí)分析
  • Spark 流式分析:SparkStreaming模塊,針對(duì)流式數(shù)據(jù),采用微批處理Batch方式實(shí)時(shí)處理數(shù)據(jù)數(shù)據(jù),可以無狀態(tài)、有狀態(tài)及窗口操作分析;
  • Spark 新型流式分析:StructuredStreaming模塊,結(jié)構(gòu)化流式處理框架,可以認(rèn)為是使用SparkSQL編程方式處理流式的數(shù)據(jù),更加靈活方便;
  • 實(shí)時(shí)綜合案例:以仿雙十一實(shí)時(shí)訂單大屏為例,模擬實(shí)時(shí)產(chǎn)生訂單數(shù)據(jù)發(fā)送Kafka,實(shí)時(shí)消費(fèi)統(tǒng)計(jì)訂單指標(biāo),保存結(jié)果至內(nèi)存數(shù)據(jù)庫Redis,以供前端大屏展示;將消費(fèi)Kafka數(shù)據(jù)偏移量存儲(chǔ)Zookeeper中,考慮實(shí)時(shí)應(yīng)用的停止升級(jí)及測試環(huán)境的壓力測試和性能優(yōu)化。

第二章 Spark 框架概述

Spark 是加州大學(xué)伯克利分校AMP實(shí)驗(yàn)室(Algorithms Machines and People Lab)開發(fā)的通用大數(shù)據(jù)出來框架。Spark生態(tài)棧也稱為BDAS,是伯克利AMP實(shí)驗(yàn)室所開發(fā)的,力圖在算法(Algorithms)、機(jī)器(Machines)和人(Person)三種之間通過大規(guī)模集成來展現(xiàn)大數(shù)據(jù)應(yīng)用的一個(gè)開源平臺(tái)。AMP實(shí)驗(yàn)室運(yùn)用大數(shù)據(jù)、云計(jì)算等各種資源以及各種靈活的技術(shù)方案,對(duì)海量數(shù)據(jù)進(jìn)行分析并轉(zhuǎn)化為有用的信息,讓人們更好地了解世界。

Spark的發(fā)展歷史,經(jīng)歷過幾大重要階段,如下圖所示:
【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述
Spark 是一種快速、通用、可擴(kuò)展的大數(shù)據(jù)分析引擎,2009 年誕生于加州大學(xué)伯克利分校
AMPLab,2010 年開源, 2013年6月成為Apache孵化項(xiàng)目,2014年2月成為 Apache 頂級(jí)項(xiàng)目,用 Scala進(jìn)行編寫項(xiàng)目框架。

2.1 Spark 是什么

定義:Apache Spark是用于大規(guī)模數(shù)據(jù)(large-scala data)處理的統(tǒng)一(unified)分析引擎。

官方網(wǎng)址:http://spark.apache.org/、https://databricks.com/spark/about

【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述
官方定義:
【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述

Spark 最早源于一篇論文 Resilient Distributed Datasets: A Fault-Tolerant Abstraction for
In-Memory Cluster Computing,該論文是由加州大學(xué)柏克萊分校的 Matei Zaharia 等人發(fā)表的論文中提出了一種彈性分布式數(shù)據(jù)集(即 RDD)的概念,原文開頭對(duì)其的解釋是:
【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述
翻譯過來就是:RDD 是一種分布式內(nèi)存抽象,其使得程序員能夠在大規(guī)模集群中做內(nèi)存運(yùn)算,并且有一定的容錯(cuò)方式。而這也是整個(gè) Spark 的核心數(shù)據(jù)結(jié)構(gòu),Spark 整個(gè)平
臺(tái)都圍繞著RDD進(jìn)行。
【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述

2.2 Spark 四大特點(diǎn)

Spark 使用Scala語言進(jìn)行實(shí)現(xiàn),它是一種面向?qū)?、函?shù)式編程語言,能夠像操作本地集合一樣輕松的操作分布式數(shù)據(jù)集。Spark具有運(yùn)行速度快、易用性好、通用性強(qiáng)和隨處運(yùn)行等特點(diǎn)。
【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述
速度快
由于Apache Spark支持內(nèi)存計(jì)算,并且通過DAG(有向無環(huán)圖)執(zhí)行引擎支持無環(huán)數(shù)據(jù)流,所以官方宣稱其在內(nèi)存中的運(yùn)算速度要比Hadoop的MapReduce快100倍,在硬盤中要快10倍。
【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述

Spark處理數(shù)據(jù)與MapReduce處理數(shù)據(jù)相比,有如下兩個(gè)不同點(diǎn):

  • 其一、Spark處理數(shù)據(jù)時(shí),可以將中間處理結(jié)果數(shù)據(jù)存儲(chǔ)到內(nèi)存中;
    【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述

  • 其二、Spark Job調(diào)度以DAG方式,并且每個(gè)任務(wù)Task執(zhí)行以線程(Thread)方式,并不是像MapReduce以進(jìn)程(Process)方式執(zhí)行。

【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述
2014 年的如此Benchmark測試中,Spark 秒殺Hadoop,在使用十分之一計(jì)算資源的情況下,相同數(shù)據(jù)的排序上,Spark 比Map Reduce快3倍!
【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述
易于使用
Spark 的版本已經(jīng)更新到 Spark 2.4.5(截止日期2020.05.01),支持了包括 Java、Scala、
Python 、R和SQL語言在內(nèi)的多種語言。

通用性強(qiáng)
在 Spark 的基礎(chǔ)上,Spark 還提供了包括Spark SQL、Spark Streaming、MLib 及GraphX在
內(nèi)的多個(gè)工具庫,我們可以在一個(gè)應(yīng)用中無縫地使用這些工具庫。其中,Spark SQL 提供了結(jié)構(gòu)化的數(shù)據(jù)處理方式,Spark Streaming 主要針對(duì)流式處理任務(wù)(也是本書的重點(diǎn)),MLlib提供了很多有用的機(jī)器學(xué)習(xí)算法庫,GraphX提供圖形和圖形并行化計(jì)算。
【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述
運(yùn)行方式
Spark 支持多種運(yùn)行方式,包括在 Hadoop 和 Mesos 上,也支持 Standalone的獨(dú)立運(yùn)行模
式,同時(shí)也可以運(yùn)行在云Kubernetes(Spark 2.3開始支持)上。
對(duì)于數(shù)據(jù)源而言,Spark 支持從HDFS、HBase、Cassandra 及 Kafka 等多種途徑獲取數(shù)據(jù)。
【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述

2.3 Spark 框架模塊

整個(gè)Spark 框架模塊包含:Spark Coke、 Spark SQL、 Spark Streaming、 Spark GraphX、Spark MLlib,而后四項(xiàng)的能力都是建立在核心引擎之上 。
【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述
Spark Core
實(shí)現(xiàn)了 Spark 的基本功能,包含RDD、任務(wù)調(diào)度、內(nèi)存管理、錯(cuò)誤恢復(fù)、與存儲(chǔ)系統(tǒng)交互等模塊。數(shù)據(jù)結(jié)構(gòu):RDD

Spark SQL
Spark 用來操作結(jié)構(gòu)化數(shù)據(jù)的程序包。通過 Spark SQL,我們可以使用 SQL操作數(shù)據(jù)。數(shù)據(jù)結(jié)構(gòu):Dataset/DataFrame = RDD + Schema
官網(wǎng):http://spark.apache.org/sql/

Spark Streaming
Spark 提供的對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行流式計(jì)算的組件。提供了用來操作數(shù)據(jù)流的 API。 數(shù)據(jù)結(jié)構(gòu):DStream = Seq[RDD]
官網(wǎng):http://spark.apache.org/streaming/

Spark MLlib
提供常見的機(jī)器學(xué)習(xí)(ML)功能的程序庫。包括分類、回歸、聚類、協(xié)同過濾等,還提供了模型評(píng)估、數(shù)據(jù)導(dǎo)入等額外的支持功能。 數(shù)據(jù)結(jié)構(gòu):RDD或者DataFrame
官網(wǎng):http://spark.apache.org/mllib/

Spark GraphX
Spark中用于圖計(jì)算的API,性能良好,擁有豐富的功能和運(yùn)算符,能在海量數(shù)據(jù)上自如地運(yùn)行復(fù)雜的圖算法。數(shù)據(jù)結(jié)構(gòu):RDD或者DataFrame
官網(wǎng):http://spark.apache.org/graphx/
在Full Stack 理想的指引下,Spark 中的Spark SQL 、SparkStreaming 、MLLib 、GraphX 幾大子框架和庫之間可以無縫地共享數(shù)據(jù)和操作,這不僅打造了Spark 在當(dāng)今大數(shù)據(jù)計(jì)算領(lǐng)域其他計(jì)算框架都無可匹敵的優(yōu)勢(shì),而且使得Spark 正在加速成為大數(shù)據(jù)處理中心首選通用計(jì)算平臺(tái)。

Structured Streaming
Structured Streaming結(jié)構(gòu)化流處理模塊針對(duì),流式結(jié)構(gòu)化數(shù)據(jù)封裝到DataFrame中進(jìn)行分析。
【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述
Structured Streaming是建立在SparkSQL引擎之上的可伸縮和高容錯(cuò)的流式處理引擎,可以像操作靜態(tài)數(shù)據(jù)的批量計(jì)算一樣來執(zhí)行流式計(jì)算。當(dāng)流式數(shù)據(jù)不斷的到達(dá)的過程中Spark SQL的引擎會(huì)連續(xù)不斷的執(zhí)行計(jì)算并更新最終結(jié)果。簡而言之,Structured Streaming提供了快速、可伸縮、可容錯(cuò)、端到端精確的流處理。
官網(wǎng):http://spark.apache.org/docs/2.4.5/structured-streaming-programming-guide.html

2.4 Spark 運(yùn)行模式

Spark 框架編寫的應(yīng)用程序可以運(yùn)行在本地模式(Local Mode)、集群模式(Cluster Mode)和云服務(wù)(Cloud),方便開發(fā)測試和生產(chǎn)部署。
【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述
第一、本地模式:Local Mode
將Spark 應(yīng)用程序中任務(wù)Task運(yùn)行在一個(gè)本地JVM Process進(jìn)程中,通常開發(fā)測試使用。
【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述
第二、集群模式:Cluster Mode
將Spark應(yīng)用程序運(yùn)行在集群上,比如Hadoop YARN集群,Spark 自身集群Standalone及Apache Mesos集群,網(wǎng)址:http://spark.apache.org/docs/2.4.3/

  • Hadoop YARN集群模式(生產(chǎn)環(huán)境使用):運(yùn)行在 yarn 集群之上,由 yarn 負(fù)責(zé)資源管理,Spark 負(fù)責(zé)任務(wù)調(diào)度和計(jì)算,好處:計(jì)算資源按需伸縮,集群利用率高,共享底層存儲(chǔ),避免數(shù)據(jù)跨集群遷移。
  • Spark Standalone集群模式(開發(fā)測試及生成環(huán)境使用):類似Hadoop YARN架構(gòu),典型的Mater/Slaves模式,使用Zookeeper搭建高可用,避免Master是有單點(diǎn)故障的。
  • Apache Mesos集群模式(國內(nèi)使用較少):運(yùn)行在 mesos 資源管理器框架之上,由mesos 負(fù)責(zé)資源管理,Spark 負(fù)責(zé)任務(wù)調(diào)度和計(jì)算

第三、云服務(wù):Kubernetes 模式
中小公司未來會(huì)更多的使用云服務(wù),Spark 2.3開始支持將Spark 開發(fā)應(yīng)用運(yùn)行到K8s上。
【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述文章來源地址http://www.zghlxwxcb.cn/news/detail-500883.html

到了這里,關(guān)于【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 分布式計(jì)算框架:Spark、Dask、Ray

    分布式計(jì)算框架:Spark、Dask、Ray

    目錄 什么是分布式計(jì)算 分布式計(jì)算哪家強(qiáng):Spark、Dask、Ray 2 選擇正確的框架 2.1 Spark 2.2 Dask 2.3 Ray 分布式計(jì)算是一種計(jì)算方法,和集中式計(jì)算是相對(duì)的。 隨著計(jì)算技術(shù)的發(fā)展, 有些應(yīng)用需要非常巨大的計(jì)算能力才能完成,如果采用集中式計(jì)算,需要耗費(fèi)相當(dāng)長的時(shí)間來完成

    2024年02月06日
    瀏覽(25)
  • 云計(jì)算與大數(shù)據(jù)第16章 分布式內(nèi)存計(jì)算平臺(tái)Spark習(xí)題

    1、Spark是Hadoop生態(tài)(? B? )組件的替代方案。 A. Hadoop? ???B. MapReduce ???????C. Yarn ????????????D.HDFS 2、以下(? D? )不是Spark的主要組件。 A. Driver?? ???B. SparkContext ??????C. ClusterManager D. ResourceManager 3、Spark中的Executor是(? A? )。 A.執(zhí)行器????? B.主節(jié)

    2024年02月14日
    瀏覽(449)
  • 大數(shù)據(jù)開源框架環(huán)境搭建(七)——Spark完全分布式集群的安裝部署

    大數(shù)據(jù)開源框架環(huán)境搭建(七)——Spark完全分布式集群的安裝部署

    前言:七八九用于Spark的編程實(shí)驗(yàn) 大數(shù)據(jù)開源框架之基于Spark的氣象數(shù)據(jù)處理與分析_木子一個(gè)Lee的博客-CSDN博客_spark輿情分析 目錄 實(shí)驗(yàn)環(huán)境: 實(shí)驗(yàn)步驟: 一、解壓 二、配置環(huán)境變量:? 三、修改配置文件? 1.修改spark-env.sh配置文件: 2.修改配置文件slaves: 3.分發(fā)配置文件:

    2024年02月11日
    瀏覽(93)
  • Spark單機(jī)偽分布式環(huán)境搭建、完全分布式環(huán)境搭建、Spark-on-yarn模式搭建

    Spark單機(jī)偽分布式環(huán)境搭建、完全分布式環(huán)境搭建、Spark-on-yarn模式搭建

    搭建Spark需要先配置好scala環(huán)境。三種Spark環(huán)境搭建互不關(guān)聯(lián),都是從零開始搭建。 如果將文章中的配置文件修改內(nèi)容復(fù)制粘貼的話,所有配置文件添加的內(nèi)容后面的注釋記得刪除,可能會(huì)報(bào)錯(cuò)。保險(xiǎn)一點(diǎn)刪除最好。 上傳安裝包解壓并重命名 rz上傳 如果沒有安裝rz可以使用命

    2024年02月06日
    瀏覽(105)
  • 分布式計(jì)算MapReduce | Spark實(shí)驗(yàn)

    分布式計(jì)算MapReduce | Spark實(shí)驗(yàn)

    題目1 輸入文件為學(xué)生成績信息,包含了必修課與選修課成績,格式如下: 班級(jí)1, 姓名1, 科目1, 必修, 成績1 br (注: br 為換行符) 班級(jí)2, 姓名2, 科目1, 必修, 成績2 br 班級(jí)1, 姓名1, 科目2, 選修, 成績3 br ………., ………, ………, ………, ……… br 編寫兩個(gè)Hadoop平臺(tái)上的MapRed

    2024年02月08日
    瀏覽(90)
  • Hadoop(偽分布式)+Spark(local模式)搭建Hadoop和Spark組合環(huán)境

    Hadoop(偽分布式)+Spark(local模式)搭建Hadoop和Spark組合環(huán)境

    環(huán)境 使用 Ubuntu 14.04 64位 作為系統(tǒng)環(huán)境(Ubuntu 12.04,Ubuntu16.04 也行,32位、64位均可),請(qǐng)自行安裝系統(tǒng)。 Hadoop版本 : Hadoop 2.7.4 創(chuàng)建hadoop用戶 如果你安裝 Ubuntu 的時(shí)候不是用的 \\\"hadoop\\\" 用戶,那么需要增加一個(gè)名為 hadoop 的用戶。 首先按 ctrl+alt+t 打開終端窗口,輸入如下命令創(chuàng)

    2023年04月08日
    瀏覽(38)
  • spark 基于物理機(jī)centos7環(huán)境搭建分布式集群

    非生產(chǎn)環(huán)境,就使用一個(gè)新一點(diǎn)的版本,提前先踩踩坑,版本的選型真是一個(gè)頭疼的問題,先看一下apache的官網(wǎng)的測試圖: 偽分布式看這里: 配置之前:若是用偽分布式時(shí),在本機(jī)必須生成key-gen 與ssh-copy-id到本機(jī),且hosts中必須加入127.0.0.1 ?本機(jī)名并關(guān)閉防火墻這幾步才可

    2024年02月03日
    瀏覽(26)
  • 【Centos8_配置單節(jié)點(diǎn)偽分布式Spark環(huán)境】

    【Centos8_配置單節(jié)點(diǎn)偽分布式Spark環(huán)境】

    安裝centos8 jdk 部署偽分布式spark環(huán)境 下載jdk linux版本 下載鏈接: jdk-8u381-linux-x64.tar.gz 將該文件上傳到Centos8 主機(jī) 部署配置jdk(java8) 詳細(xì)的Hadoop偽分布式配置 這里不是重點(diǎn),如果感興趣,請(qǐng)參照文后參考鏈接 上傳spark到centos8 解壓spark到指定目錄 配置spark偽分布式環(huán)境 開啟

    2024年02月10日
    瀏覽(55)
  • 分布式服務(wù)框架_Zookeeper--管理分布式環(huán)境中的數(shù)據(jù)

    安裝和配置詳解 本文介紹的 Zookeeper 是以 3.2.2 這個(gè)穩(wěn)定版本為基礎(chǔ),最新的版本可以通過官網(wǎng) ? http://hadoop.apache.org/zookeeper/ 來獲取, Zookeeper 的安裝非常簡單,下面將從單機(jī)模式和集群模式兩個(gè)方面介紹 Zookeeper 的安裝和配置。 單機(jī)模式

    2024年02月12日
    瀏覽(23)
  • 如何使用Spark/Flink等分布式計(jì)算引擎做網(wǎng)絡(luò)入侵檢測

    如何使用Spark/Flink等分布式計(jì)算引擎做網(wǎng)絡(luò)入侵檢測

    ?申明: 未經(jīng)許可,禁止以任何形式轉(zhuǎn)載,若要引用,請(qǐng)標(biāo)注鏈接地址。 全文共計(jì)3077字,閱讀大概需要3分鐘 ??更多學(xué)習(xí)內(nèi)容, 歡迎??關(guān)注??【文末】我的個(gè)人微信公眾號(hào):不懂開發(fā)的程序猿 個(gè)人網(wǎng)站:https://jerry-jy.co/ 本篇博客是我在做 基于Spark/Flink大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)入

    2024年02月11日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包