国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述

2年前作者：csdnGuoYuying分類：Toy博客閱讀(91)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

第一章說明

整個(gè)Spark 框架分為如下7個(gè)部分，總的來說分為Spark 基礎(chǔ)環(huán)境、Spark 離線分析和Spark實(shí)時(shí)分析三個(gè)大的方面，如下圖所示：
【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述
第一方面、Spark 基礎(chǔ)環(huán)境
主要講述Spark框架安裝部署及開發(fā)運(yùn)行，如何在本地模式和集群模式運(yùn)行，使用spark-shell及IDEA開發(fā)應(yīng)用程序，測試及打包提交運(yùn)行集群。
第二方面、Spark 離線分析

Spark 核心基礎(chǔ)：SparkCore模塊，主要講解Spark框架核心數(shù)據(jù)結(jié)構(gòu)RDD及重要函數(shù)使
用，如何鏈?zhǔn)骄幊烫幚矸治鰯?shù)據(jù)；
Spark 交互式分析：SparkSQL模塊，針對(duì)結(jié)構(gòu)化數(shù)據(jù)處理分析，將數(shù)據(jù)封裝在DataFrame和Dataset，調(diào)用API或者使用SQL分析數(shù)據(jù)；
離線綜合案例：以DMP廣告點(diǎn)擊業(yè)務(wù)數(shù)據(jù)，對(duì)數(shù)據(jù)進(jìn)行ETL解析和廣告相關(guān)指標(biāo)報(bào)表統(tǒng)計(jì)，集成Oozie和Hue調(diào)度執(zhí)行應(yīng)用，以及使用Livy使用Rest方式提交應(yīng)用；
第三方面、Spark 實(shí)時(shí)分析
Spark 流式分析：SparkStreaming模塊，針對(duì)流式數(shù)據(jù)，采用微批處理Batch方式實(shí)時(shí)處理數(shù)據(jù)數(shù)據(jù)，可以無狀態(tài)、有狀態(tài)及窗口操作分析；
Spark 新型流式分析：StructuredStreaming模塊，結(jié)構(gòu)化流式處理框架，可以認(rèn)為是使用SparkSQL編程方式處理流式的數(shù)據(jù)，更加靈活方便；
實(shí)時(shí)綜合案例：以仿雙十一實(shí)時(shí)訂單大屏為例，模擬實(shí)時(shí)產(chǎn)生訂單數(shù)據(jù)發(fā)送Kafka，實(shí)時(shí)消費(fèi)統(tǒng)計(jì)訂單指標(biāo)，保存結(jié)果至內(nèi)存數(shù)據(jù)庫Redis，以供前端大屏展示；將消費(fèi)Kafka數(shù)據(jù)偏移量存儲(chǔ)Zookeeper中，考慮實(shí)時(shí)應(yīng)用的停止升級(jí)及測試環(huán)境的壓力測試和性能優(yōu)化。

第二章 Spark 框架概述

Spark 是加州大學(xué)伯克利分校AMP實(shí)驗(yàn)室（Algorithms Machines and People Lab）開發(fā)的通用大數(shù)據(jù)出來框架。Spark生態(tài)棧也稱為BDAS，是伯克利AMP實(shí)驗(yàn)室所開發(fā)的，力圖在算法（Algorithms）、機(jī)器（Machines）和人（Person）三種之間通過大規(guī)模集成來展現(xiàn)大數(shù)據(jù)應(yīng)用的一個(gè)開源平臺(tái)。AMP實(shí)驗(yàn)室運(yùn)用大數(shù)據(jù)、云計(jì)算等各種資源以及各種靈活的技術(shù)方案，對(duì)海量數(shù)據(jù)進(jìn)行分析并轉(zhuǎn)化為有用的信息，讓人們更好地了解世界。

Spark的發(fā)展歷史，經(jīng)歷過幾大重要階段，如下圖所示：
【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述
Spark 是一種快速、通用、可擴(kuò)展的大數(shù)據(jù)分析引擎，2009 年誕生于加州大學(xué)伯克利分校
AMPLab，2010 年開源， 2013年6月成為Apache孵化項(xiàng)目，2014年2月成為 Apache 頂級(jí)項(xiàng)目，用 Scala進(jìn)行編寫項(xiàng)目框架。

2.1 Spark 是什么

定義：Apache Spark是用于大規(guī)模數(shù)據(jù)（large-scala data）處理的統(tǒng)一（unified）分析引擎。

官方網(wǎng)址：http://spark.apache.org/、https://databricks.com/spark/about

【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述
官方定義：

Spark 最早源于一篇論文 Resilient Distributed Datasets: A Fault-Tolerant Abstraction for
In-Memory Cluster Computing，該論文是由加州大學(xué)柏克萊分校的 Matei Zaharia 等人發(fā)表的論文中提出了一種彈性分布式數(shù)據(jù)集（即 RDD）的概念，原文開頭對(duì)其的解釋是：
【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述
翻譯過來就是：RDD 是一種分布式內(nèi)存抽象，其使得程序員能夠在大規(guī)模集群中做內(nèi)存運(yùn)算，并且有一定的容錯(cuò)方式。而這也是整個(gè) Spark 的核心數(shù)據(jù)結(jié)構(gòu)，Spark 整個(gè)平
臺(tái)都圍繞著RDD進(jìn)行。
【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述

2.2 Spark 四大特點(diǎn)

Spark 使用Scala語言進(jìn)行實(shí)現(xiàn)，它是一種面向?qū)?、函?shù)式編程語言，能夠像操作本地集合一樣輕松的操作分布式數(shù)據(jù)集。Spark具有運(yùn)行速度快、易用性好、通用性強(qiáng)和隨處運(yùn)行等特點(diǎn)。
【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述
速度快
由于Apache Spark支持內(nèi)存計(jì)算，并且通過DAG（有向無環(huán)圖）執(zhí)行引擎支持無環(huán)數(shù)據(jù)流，所以官方宣稱其在內(nèi)存中的運(yùn)算速度要比Hadoop的MapReduce快100倍，在硬盤中要快10倍。
【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述

Spark處理數(shù)據(jù)與MapReduce處理數(shù)據(jù)相比，有如下兩個(gè)不同點(diǎn)：

其一、Spark處理數(shù)據(jù)時(shí)，可以將中間處理結(jié)果數(shù)據(jù)存儲(chǔ)到內(nèi)存中；
其二、Spark Job調(diào)度以DAG方式，并且每個(gè)任務(wù)Task執(zhí)行以線程（Thread）方式，并不是像MapReduce以進(jìn)程（Process）方式執(zhí)行。

【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述
2014 年的如此Benchmark測試中，Spark 秒殺Hadoop，在使用十分之一計(jì)算資源的情況下，相同數(shù)據(jù)的排序上，Spark 比Map Reduce快3倍！
【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述
易于使用
Spark 的版本已經(jīng)更新到 Spark 2.4.5（截止日期2020.05.01），支持了包括 Java、Scala、
Python 、R和SQL語言在內(nèi)的多種語言。

通用性強(qiáng)
在 Spark 的基礎(chǔ)上，Spark 還提供了包括Spark SQL、Spark Streaming、MLib 及GraphX在
內(nèi)的多個(gè)工具庫，我們可以在一個(gè)應(yīng)用中無縫地使用這些工具庫。其中，Spark SQL 提供了結(jié)構(gòu)化的數(shù)據(jù)處理方式，Spark Streaming 主要針對(duì)流式處理任務(wù)（也是本書的重點(diǎn)），MLlib提供了很多有用的機(jī)器學(xué)習(xí)算法庫，GraphX提供圖形和圖形并行化計(jì)算。
【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述
運(yùn)行方式
Spark 支持多種運(yùn)行方式，包括在 Hadoop 和 Mesos 上，也支持 Standalone的獨(dú)立運(yùn)行模
式，同時(shí)也可以運(yùn)行在云Kubernetes（Spark 2.3開始支持）上。
對(duì)于數(shù)據(jù)源而言，Spark 支持從HDFS、HBase、Cassandra 及 Kafka 等多種途徑獲取數(shù)據(jù)。
【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述

2.3 Spark 框架模塊

整個(gè)Spark 框架模塊包含：Spark Coke、 Spark SQL、 Spark Streaming、 Spark GraphX、Spark MLlib，而后四項(xiàng)的能力都是建立在核心引擎之上。
【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述
Spark Core
實(shí)現(xiàn)了 Spark 的基本功能，包含RDD、任務(wù)調(diào)度、內(nèi)存管理、錯(cuò)誤恢復(fù)、與存儲(chǔ)系統(tǒng)交互等模塊。數(shù)據(jù)結(jié)構(gòu)：RDD

Spark SQL
Spark 用來操作結(jié)構(gòu)化數(shù)據(jù)的程序包。通過 Spark SQL，我們可以使用 SQL操作數(shù)據(jù)。數(shù)據(jù)結(jié)構(gòu)：Dataset/DataFrame = RDD + Schema
官網(wǎng)：http://spark.apache.org/sql/

Spark Streaming
Spark 提供的對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行流式計(jì)算的組件。提供了用來操作數(shù)據(jù)流的 API。數(shù)據(jù)結(jié)構(gòu)：DStream = Seq[RDD]
官網(wǎng)：http://spark.apache.org/streaming/

Spark MLlib
提供常見的機(jī)器學(xué)習(xí)(ML)功能的程序庫。包括分類、回歸、聚類、協(xié)同過濾等，還提供了模型評(píng)估、數(shù)據(jù)導(dǎo)入等額外的支持功能。數(shù)據(jù)結(jié)構(gòu)：RDD或者DataFrame
官網(wǎng)：http://spark.apache.org/mllib/

Spark GraphX
Spark中用于圖計(jì)算的API，性能良好，擁有豐富的功能和運(yùn)算符，能在海量數(shù)據(jù)上自如地運(yùn)行復(fù)雜的圖算法。數(shù)據(jù)結(jié)構(gòu)：RDD或者DataFrame
官網(wǎng)：http://spark.apache.org/graphx/
在Full Stack 理想的指引下，Spark 中的Spark SQL 、SparkStreaming 、MLLib 、GraphX 幾大子框架和庫之間可以無縫地共享數(shù)據(jù)和操作，這不僅打造了Spark 在當(dāng)今大數(shù)據(jù)計(jì)算領(lǐng)域其他計(jì)算框架都無可匹敵的優(yōu)勢(shì)，而且使得Spark 正在加速成為大數(shù)據(jù)處理中心首選通用計(jì)算平臺(tái)。

Structured Streaming
Structured Streaming結(jié)構(gòu)化流處理模塊針對(duì)，流式結(jié)構(gòu)化數(shù)據(jù)封裝到DataFrame中進(jìn)行分析。
【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述
Structured Streaming是建立在SparkSQL引擎之上的可伸縮和高容錯(cuò)的流式處理引擎，可以像操作靜態(tài)數(shù)據(jù)的批量計(jì)算一樣來執(zhí)行流式計(jì)算。當(dāng)流式數(shù)據(jù)不斷的到達(dá)的過程中Spark SQL的引擎會(huì)連續(xù)不斷的執(zhí)行計(jì)算并更新最終結(jié)果。簡而言之，Structured Streaming提供了快速、可伸縮、可容錯(cuò)、端到端精確的流處理。
官網(wǎng)：http://spark.apache.org/docs/2.4.5/structured-streaming-programming-guide.html

2.4 Spark 運(yùn)行模式

Spark 框架編寫的應(yīng)用程序可以運(yùn)行在本地模式（Local Mode）、集群模式（Cluster Mode）和云服務(wù)（Cloud），方便開發(fā)測試和生產(chǎn)部署。
【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述
第一、本地模式：Local Mode
將Spark 應(yīng)用程序中任務(wù)Task運(yùn)行在一個(gè)本地JVM Process進(jìn)程中，通常開發(fā)測試使用。

第二、集群模式：Cluster Mode
將Spark應(yīng)用程序運(yùn)行在集群上，比如Hadoop YARN集群，Spark 自身集群Standalone及Apache Mesos集群，網(wǎng)址：http://spark.apache.org/docs/2.4.3/

Hadoop YARN集群模式（生產(chǎn)環(huán)境使用）：運(yùn)行在 yarn 集群之上，由 yarn 負(fù)責(zé)資源管理，Spark 負(fù)責(zé)任務(wù)調(diào)度和計(jì)算，好處：計(jì)算資源按需伸縮，集群利用率高，共享底層存儲(chǔ)，避免數(shù)據(jù)跨集群遷移。
Spark Standalone集群模式（開發(fā)測試及生成環(huán)境使用）：類似Hadoop YARN架構(gòu)，典型的Mater/Slaves模式，使用Zookeeper搭建高可用，避免Master是有單點(diǎn)故障的。
Apache Mesos集群模式（國內(nèi)使用較少）：運(yùn)行在 mesos 資源管理器框架之上，由mesos 負(fù)責(zé)資源管理，Spark 負(fù)責(zé)任務(wù)調(diào)度和計(jì)算

第三、云服務(wù)：Kubernetes 模式
中小公司未來會(huì)更多的使用云服務(wù)，Spark 2.3開始支持將Spark 開發(fā)應(yīng)用運(yùn)行到K8s上。
【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述文章來源地址http://www.zghlxwxcb.cn/news/detail-500883.html

到了這里，關(guān)于【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

分布式計(jì)算框架：Spark、Dask、Ray
目錄什么是分布式計(jì)算分布式計(jì)算哪家強(qiáng)：Spark、Dask、Ray 2 選擇正確的框架 2.1 Spark 2.2 Dask 2.3 Ray 分布式計(jì)算是一種計(jì)算方法，和集中式計(jì)算是相對(duì)的。隨著計(jì)算技術(shù)的發(fā)展，有些應(yīng)用需要非常巨大的計(jì)算能力才能完成，如果采用集中式計(jì)算，需要耗費(fèi)相當(dāng)長的時(shí)間來完成
2024年02月06日
瀏覽(25)
云計(jì)算與大數(shù)據(jù)第16章分布式內(nèi)存計(jì)算平臺(tái)Spark習(xí)題
1、Spark是Hadoop生態(tài)（? B? ）組件的替代方案。 A. Hadoop? ???B. MapReduce ???????C. Yarn ????????????D．HDFS 2、以下（? D? ）不是Spark的主要組件。 A. Driver?? ???B. SparkContext ??????C. ClusterManager D. ResourceManager 3、Spark中的Executor是（? A? ）。 A．執(zhí)行器????? B．主節(jié)
2024年02月14日
瀏覽(449)
大數(shù)據(jù)開源框架環(huán)境搭建(七)——Spark完全分布式集群的安裝部署
前言：七八九用于Spark的編程實(shí)驗(yàn) 大數(shù)據(jù)開源框架之基于Spark的氣象數(shù)據(jù)處理與分析_木子一個(gè)Lee的博客-CSDN博客_spark輿情分析目錄實(shí)驗(yàn)環(huán)境：實(shí)驗(yàn)步驟：一、解壓二、配置環(huán)境變量：? 三、修改配置文件? 1.修改spark-env.sh配置文件： 2.修改配置文件slaves: 3.分發(fā)配置文件：
2024年02月11日
瀏覽(93)
Spark單機(jī)偽分布式環(huán)境搭建、完全分布式環(huán)境搭建、Spark-on-yarn模式搭建
搭建Spark需要先配置好scala環(huán)境。三種Spark環(huán)境搭建互不關(guān)聯(lián)，都是從零開始搭建。如果將文章中的配置文件修改內(nèi)容復(fù)制粘貼的話，所有配置文件添加的內(nèi)容后面的注釋記得刪除，可能會(huì)報(bào)錯(cuò)。保險(xiǎn)一點(diǎn)刪除最好。上傳安裝包解壓并重命名 rz上傳如果沒有安裝rz可以使用命
2024年02月06日
瀏覽(105)
分布式計(jì)算MapReduce | Spark實(shí)驗(yàn)
題目1 輸入文件為學(xué)生成績信息，包含了必修課與選修課成績，格式如下：班級(jí)1, 姓名1, 科目1, 必修, 成績1 br （注： br 為換行符）班級(jí)2, 姓名2, 科目1, 必修, 成績2 br 班級(jí)1, 姓名1, 科目2, 選修, 成績3 br ………., ………, ………, ………, ……… br 編寫兩個(gè)Hadoop平臺(tái)上的MapRed
2024年02月08日
瀏覽(90)
Hadoop（偽分布式）+Spark（local模式）搭建Hadoop和Spark組合環(huán)境
環(huán)境使用 Ubuntu 14.04 64位作為系統(tǒng)環(huán)境（Ubuntu 12.04，Ubuntu16.04 也行，32位、64位均可），請(qǐng)自行安裝系統(tǒng)。 Hadoop版本 : Hadoop 2.7.4 創(chuàng)建hadoop用戶如果你安裝 Ubuntu 的時(shí)候不是用的 \\\"hadoop\\\" 用戶，那么需要增加一個(gè)名為 hadoop 的用戶。首先按 ctrl+alt+t 打開終端窗口，輸入如下命令創(chuàng)
2023年04月08日
瀏覽(38)
spark 基于物理機(jī)centos7環(huán)境搭建分布式集群
非生產(chǎn)環(huán)境，就使用一個(gè)新一點(diǎn)的版本，提前先踩踩坑，版本的選型真是一個(gè)頭疼的問題，先看一下apache的官網(wǎng)的測試圖：偽分布式看這里：配置之前：若是用偽分布式時(shí)，在本機(jī)必須生成key-gen 與ssh-copy-id到本機(jī)，且hosts中必須加入127.0.0.1 ?本機(jī)名并關(guān)閉防火墻這幾步才可
2024年02月03日
瀏覽(26)
【Centos8_配置單節(jié)點(diǎn)偽分布式Spark環(huán)境】
安裝centos8 jdk 部署偽分布式spark環(huán)境下載jdk linux版本下載鏈接： jdk-8u381-linux-x64.tar.gz 將該文件上傳到Centos8 主機(jī) 部署配置jdk（java8）詳細(xì)的Hadoop偽分布式配置這里不是重點(diǎn)，如果感興趣，請(qǐng)參照文后參考鏈接上傳spark到centos8 解壓spark到指定目錄配置spark偽分布式環(huán)境開啟
2024年02月10日
瀏覽(55)
分布式服務(wù)框架_Zookeeper--管理分布式環(huán)境中的數(shù)據(jù)
安裝和配置詳解本文介紹的 Zookeeper 是以 3.2.2 這個(gè)穩(wěn)定版本為基礎(chǔ)，最新的版本可以通過官網(wǎng) ? http://hadoop.apache.org/zookeeper/ 來獲取， Zookeeper 的安裝非常簡單，下面將從單機(jī)模式和集群模式兩個(gè)方面介紹 Zookeeper 的安裝和配置。單機(jī)模式
2024年02月12日
瀏覽(23)
如何使用Spark/Flink等分布式計(jì)算引擎做網(wǎng)絡(luò)入侵檢測
?申明：未經(jīng)許可，禁止以任何形式轉(zhuǎn)載，若要引用，請(qǐng)標(biāo)注鏈接地址。全文共計(jì)3077字，閱讀大概需要3分鐘 ??更多學(xué)習(xí)內(nèi)容，歡迎??關(guān)注??【文末】我的個(gè)人微信公眾號(hào)：不懂開發(fā)的程序猿個(gè)人網(wǎng)站：https://jerry-jy.co/ 本篇博客是我在做基于Spark/Flink大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)入
2024年02月11日
瀏覽(21)