国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【大數(shù)據(jù)技術(shù)Hadoop+Spark】Spark架構(gòu)、原理、優(yōu)勢(shì)、生態(tài)系統(tǒng)等講解(圖文解釋)

這篇具有很好參考價(jià)值的文章主要介紹了【大數(shù)據(jù)技術(shù)Hadoop+Spark】Spark架構(gòu)、原理、優(yōu)勢(shì)、生態(tài)系統(tǒng)等講解(圖文解釋)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

一、Spark概述

Spark最初由美國(guó)加州伯克利大學(xué)(UCBerkeley)的AMP(Algorithms, Machines and People)實(shí)驗(yàn)室于2009年開發(fā),是基于內(nèi)存計(jì)算的大數(shù)據(jù)并行計(jì)算框架,可用于構(gòu)建大型的、低延遲的數(shù)據(jù)分析應(yīng)用程序。Spark在誕生之初屬于研究性項(xiàng)目,其諸多核心理念均源自學(xué)術(shù)研究論文。2013年,Spark加入Apache孵化器項(xiàng)目后,開始獲得迅猛的發(fā)展,如今已成為Apache軟件基金會(huì)最重要的三大分布式計(jì)算系統(tǒng)開源項(xiàng)目之一(即Hadoop、Spark、Storm)

二、Spark的特點(diǎn)

Spark計(jì)算框架在處理數(shù)據(jù)時(shí),所有的中間數(shù)據(jù)都保存在內(nèi)存中,從而減少磁盤讀寫操作,提高框架計(jì)算效率。同時(shí)Spark還兼容HDFS、Hive,可以很好地與Hadoop系統(tǒng)融合,從而彌補(bǔ)MapReduce高延遲的性能缺點(diǎn)。所以說,Spark是一個(gè)更加快速、高效的大數(shù)據(jù)計(jì)算平臺(tái)。

特點(diǎn)可以概括為以下四點(diǎn)

1:運(yùn)行速度快

2:容易使用

3:通用性

4:運(yùn)行模式多樣

Spark支持使用Scala Java Python和R語(yǔ)言編程,由于Spark采用Scala語(yǔ)言進(jìn)行開發(fā),因此建議采用Scala語(yǔ)言進(jìn)行Spark應(yīng)用程序的編寫,采用Scala語(yǔ)言編寫Spark應(yīng)用程序,可以獲得最好的性能,和其他語(yǔ)言相比,Scala主要有以下三個(gè)方面的優(yōu)勢(shì)

1:Java代碼比較繁瑣

2:Python語(yǔ)言并發(fā)性能不好

3:Scala兼容Java?

三、Spark生態(tài)系統(tǒng)

Spark在2013年加入Apache孵化器項(xiàng)目,之后獲得迅猛的發(fā)展,并于2014年正式成為Apache軟件基金會(huì)的頂級(jí)項(xiàng)目。Spark生態(tài)系統(tǒng)已經(jīng)發(fā)展成為一個(gè)可應(yīng)用于大規(guī)模數(shù)據(jù)處理的統(tǒng)一分析引擎,它是基于內(nèi)存計(jì)算的大數(shù)據(jù)并行計(jì)算框架,適用于各種各樣的分布式平臺(tái)的系統(tǒng)。在Spark生態(tài)圈中包含了Spark SQL、Spark Streaming、GraphX、MLlib等組件。

hadoop spark,大數(shù)據(jù)技術(shù)Hadoop+Spark,大數(shù)據(jù),spark,hadoop,分布式,架構(gòu)

Spark Core:Spark核心組件,實(shí)現(xiàn)了Spark的基本功能,包含任務(wù)調(diào)度、內(nèi)存管理、錯(cuò)誤恢復(fù)、與存儲(chǔ)系統(tǒng)交互等模塊。Spark Core中還包含對(duì)彈性分布式數(shù)據(jù)集的API定義。

Spark SQL:用來操作結(jié)構(gòu)化數(shù)據(jù)的核心組件,通過Spark SQL可直接查詢Hive、HBase等多種外部數(shù)據(jù)源中的數(shù)據(jù)。Spark SQL的重要特點(diǎn)是能夠統(tǒng)一處理關(guān)系表和RDD。

Spark Streaming:Spark提供的流式計(jì)算框架,支持高吞吐量、可容錯(cuò)處理的實(shí)時(shí)流式數(shù)據(jù)處理,其核心原理是將流數(shù)據(jù)分解成一系列短小的批處理作業(yè)。

MLlib:Spark提供的關(guān)于機(jī)器學(xué)習(xí)功能的算法程序庫(kù),包括分類、回歸、聚類、協(xié)同過濾算法等,還提供了模型評(píng)估、數(shù)據(jù)導(dǎo)入等額外的功能。

GraphX:Spark提供的分布式圖處理框架,擁有對(duì)圖計(jì)算和圖挖掘算法的API接口及豐富的功能和運(yùn)算符,便于對(duì)分布式圖處理的需求,能在海量數(shù)據(jù)上運(yùn)行復(fù)雜的圖算法。

獨(dú)立調(diào)度器、Yarn、Mesos:集群管理器,負(fù)責(zé)Spark框架高效地在一個(gè)到數(shù)千個(gè)節(jié)點(diǎn)之間進(jìn)行伸縮計(jì)算的資源管理。

四、Spark與Hadoop對(duì)比

1:編程方式

Hadoop的MapReduce計(jì)算數(shù)據(jù)時(shí),要轉(zhuǎn)化為Map和Reduce兩個(gè)過程,從而難以描述復(fù)雜的數(shù)據(jù)處理過程;而Spark的計(jì)算模型不局限于Map和Reduce操作,還提供了多種數(shù)據(jù)集的操作類型,編程模型比MapReduce更加靈活。

2:數(shù)據(jù)存儲(chǔ)

Hadoop的MapReduce進(jìn)行計(jì)算時(shí),每次產(chǎn)生的中間結(jié)果都存儲(chǔ)在本地磁盤中;而Spark在計(jì)算時(shí)產(chǎn)生的中間結(jié)果存儲(chǔ)在內(nèi)存中。

3:數(shù)據(jù)處理

Hadoop在每次執(zhí)行數(shù)據(jù)處理時(shí),都要從磁盤中加載數(shù)據(jù),導(dǎo)致磁盤IO開銷較大;而Spark在執(zhí)行數(shù)據(jù)處理時(shí),要將數(shù)據(jù)加載到內(nèi)存中,直接在內(nèi)存中加載中間結(jié)果數(shù)據(jù)集,減少了磁盤的IO開銷。

4:數(shù)據(jù)容錯(cuò)

MapReduce計(jì)算的中間結(jié)果數(shù)據(jù),保存在磁盤中,Hadoop底層實(shí)現(xiàn)了備份機(jī)制,從而保證了數(shù)據(jù)容錯(cuò);Spark RDD實(shí)現(xiàn)了基于Lineage的容錯(cuò)機(jī)制和設(shè)置檢查點(diǎn)方式的容錯(cuò)機(jī)制,彌補(bǔ)數(shù)據(jù)在內(nèi)存處理時(shí),因斷電導(dǎo)致數(shù)據(jù)丟失的問題。

五、Spark的部署方式

hadoop spark,大數(shù)據(jù)技術(shù)Hadoop+Spark,大數(shù)據(jù),spark,hadoop,分布式,架構(gòu)

?1:Standalone模式

Standalone模式被稱為集群?jiǎn)螜C(jī)模式。

該模式下,Spark集群架構(gòu)為主從模式,即一臺(tái)Master節(jié)點(diǎn)與多臺(tái)Slave節(jié)點(diǎn),Slave節(jié)點(diǎn)啟動(dòng)的進(jìn)程名稱為Worker,存在單點(diǎn)故障的問題。

2:Mesos模式

Mesos模式被稱為Spark on Mesos模式。

Mesos是一款資源調(diào)度管理系統(tǒng),為Spark提供服務(wù),由于Spark與Mesos存在密切的關(guān)系,因此在設(shè)計(jì)Spark框架時(shí)充分考慮到對(duì)Mesos的集成。

3:Yarn模式

Yarn模式被稱為Spark on Yarn模式,即把Spark作為一個(gè)客戶端,將作業(yè)提交給Yarn服務(wù)。

由于在生產(chǎn)環(huán)境中,很多時(shí)候都要與Hadoop使用同一個(gè)集群,因此采用Yarn來管理資源調(diào)度,可以提高資源利用率。

六、Spark運(yùn)行架構(gòu)與原理

Spark運(yùn)行架構(gòu)主要由SparkContext、Cluster Manager和Worker組成,其中Cluster Manager負(fù)責(zé)整個(gè)集群的統(tǒng)一資源管理,Worker節(jié)點(diǎn)中的Executor是應(yīng)用執(zhí)行的主要進(jìn)程,內(nèi)部含有多個(gè)Task線程以及內(nèi)存空間,

hadoop spark,大數(shù)據(jù)技術(shù)Hadoop+Spark,大數(shù)據(jù),spark,hadoop,分布式,架構(gòu)

七、Spark運(yùn)行基本流程

Spark應(yīng)用在集群上作為獨(dú)立的進(jìn)程組來運(yùn)行,具體運(yùn)行流程如下所示。

hadoop spark,大數(shù)據(jù)技術(shù)Hadoop+Spark,大數(shù)據(jù),spark,hadoop,分布式,架構(gòu)

?1)當(dāng)一個(gè)Spark應(yīng)用被提交時(shí),根據(jù)提交參數(shù)創(chuàng)建Driver進(jìn)程,為應(yīng)用構(gòu)建起基本的運(yùn)行環(huán)境,即由Driver創(chuàng)建一個(gè)SparkContext進(jìn)行資源的申請(qǐng)、任務(wù)的分配和監(jiān)控。

2)SparkContext根據(jù)RDD的依賴關(guān)系構(gòu)建DAG圖,DAG圖提交給DAGScheduler解析成Stage,然后把一個(gè)個(gè)TaskSet提交給底層調(diào)度器Task Scheduler處理。

3)資源管理器Cluster Manager為Executor分配資源,并啟動(dòng)Executor進(jìn)程

4)Executor向SparkContext申請(qǐng)Task,TaskScheduler將Task發(fā)放給Executor運(yùn)行并提供應(yīng)用程序代碼。

5)Task在Executor上運(yùn)行把執(zhí)行結(jié)果反饋給TaskScheduler,然后反饋給DAGScheduler,運(yùn)行完畢后寫入數(shù)據(jù)并釋放所有資源。

創(chuàng)作不易 覺得有幫助請(qǐng)點(diǎn)贊關(guān)注收藏~~~文章來源地址http://www.zghlxwxcb.cn/news/detail-794717.html

到了這里,關(guān)于【大數(shù)據(jù)技術(shù)Hadoop+Spark】Spark架構(gòu)、原理、優(yōu)勢(shì)、生態(tài)系統(tǒng)等講解(圖文解釋)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 處理大數(shù)據(jù)的基礎(chǔ)架構(gòu),OLTP和OLAP的區(qū)別,數(shù)據(jù)庫(kù)與Hadoop、Spark、Hive和Flink大數(shù)據(jù)技術(shù)

    處理大數(shù)據(jù)的基礎(chǔ)架構(gòu),OLTP和OLAP的區(qū)別,數(shù)據(jù)庫(kù)與Hadoop、Spark、Hive和Flink大數(shù)據(jù)技術(shù)

    2022找工作是學(xué)歷、能力和運(yùn)氣的超強(qiáng)結(jié)合體,遇到寒冬,大廠不招人,可能很多算法學(xué)生都得去找開發(fā),測(cè)開 測(cè)開的話,你就得學(xué)數(shù)據(jù)庫(kù),sql,oracle,尤其sql要學(xué),當(dāng)然,像很多金融企業(yè)、安全機(jī)構(gòu)啥的,他們必須要用oracle數(shù)據(jù)庫(kù) 這oracle比sql安全,強(qiáng)大多了,所以你需要學(xué)

    2024年02月08日
    瀏覽(33)
  • 大數(shù)據(jù)hadoop生態(tài)技術(shù)簡(jiǎn)介

    大數(shù)據(jù)hadoop生態(tài)技術(shù)簡(jiǎn)介

    Hadoop 生態(tài)是指圍繞 Hadoop 大數(shù)據(jù)處理平臺(tái)形成的一系列開源軟件和工具,用于支持大規(guī)模數(shù)據(jù)處理、存儲(chǔ)、管理、分析和可視化等應(yīng)用場(chǎng)景。暫時(shí)將其核心技術(shù)分為9類:? 數(shù)據(jù)采集技術(shù)框架:?Flume、Logstash、FileBeat;Sqoop和Datax; Cannal和Maxwell 數(shù)據(jù)存儲(chǔ)技術(shù)框架:? HDFS、HBas

    2024年02月09日
    瀏覽(18)
  • 【云計(jì)算與大數(shù)據(jù)技術(shù)】大數(shù)據(jù)系統(tǒng)總體架構(gòu)概述(Hadoop+MapReduce )

    【云計(jì)算與大數(shù)據(jù)技術(shù)】大數(shù)據(jù)系統(tǒng)總體架構(gòu)概述(Hadoop+MapReduce )

    企業(yè)級(jí)大數(shù)據(jù)應(yīng)用框架需要滿足業(yè)務(wù)的需求,一是要求能夠滿足基于數(shù)據(jù)容量大,數(shù)據(jù)類型多,數(shù)據(jù)流通快的大數(shù)據(jù)基本處理需求,能夠支持大數(shù)據(jù)的采集,存儲(chǔ),處理和分析,二是要能夠滿足企業(yè)級(jí)應(yīng)用在可用性,可靠性,可擴(kuò)展性,容錯(cuò)性,安全性和隱私性等方面的基本

    2024年02月09日
    瀏覽(27)
  • 大數(shù)據(jù)技術(shù)原理與應(yīng)用 實(shí)驗(yàn)6 Spark數(shù)據(jù)處理系統(tǒng)的搭建

    大數(shù)據(jù)技術(shù)原理與應(yīng)用 實(shí)驗(yàn)6 Spark數(shù)據(jù)處理系統(tǒng)的搭建

    熟悉常用的Spark操作。 1.熟悉Spark Shell的使用; 2.熟悉常用的Spark RDD API、Spark SQL API和Spark DataFrames API。 操作系統(tǒng):Linux Spark版本: 1.6 Hadoop版本: 3.3.0 JDK版本:1.8 使用Spark shell完成如下習(xí)題: a)讀取Spark安裝目錄下的文件README.md(/usr/local/spark/README.md); b)統(tǒng)計(jì)包含“Spark”的單詞

    2024年02月09日
    瀏覽(29)
  • 【Docker】Docker的優(yōu)勢(shì)、與虛擬機(jī)技術(shù)的區(qū)別、三個(gè)重要概念和架構(gòu)及工作原理詳細(xì)講解

    【Docker】Docker的優(yōu)勢(shì)、與虛擬機(jī)技術(shù)的區(qū)別、三個(gè)重要概念和架構(gòu)及工作原理詳細(xì)講解

    前言 Docker 是一個(gè) 開源的應(yīng)用容器引擎 ,讓開發(fā)者可以打包他們的應(yīng)用以及依賴包到一個(gè)可移植的容器中,然后發(fā)布到任何流行的 Linux或Windows 操作系統(tǒng)的機(jī)器上,也可以實(shí)現(xiàn)虛擬化,容器是完全使用沙箱機(jī)制,相互之間不會(huì)有任何接口。 作者簡(jiǎn)介: 辭七七,目前大一,正在學(xué)習(xí)

    2024年02月15日
    瀏覽(22)
  • 大數(shù)據(jù)導(dǎo)論——Hadoop生態(tài)系統(tǒng)

    大數(shù)據(jù)導(dǎo)論——Hadoop生態(tài)系統(tǒng)

    Hadoop是Apache軟件基金會(huì)旗下一個(gè)開源分布式計(jì)算平臺(tái),為用戶提供底層細(xì)節(jié)透明的基礎(chǔ)框架。 經(jīng)過多年的發(fā)展,Hadoop生態(tài)系統(tǒng)不斷完善和成熟,目前已經(jīng)包含了多個(gè)子項(xiàng)目,除了核心的HDFS和MapReduce以外,Hadoop生態(tài)系統(tǒng)還包括ZooKeeper,HBase,Hive,Pig,Mahout,Sqoop,Flume,Ambari等。 它實(shí)現(xiàn)

    2024年02月03日
    瀏覽(22)
  • 【Docker】Docker的優(yōu)勢(shì)、與虛擬機(jī)技術(shù)的區(qū)別、三個(gè)重要概念和架構(gòu)及工作原理的詳細(xì)講解

    【Docker】Docker的優(yōu)勢(shì)、與虛擬機(jī)技術(shù)的區(qū)別、三個(gè)重要概念和架構(gòu)及工作原理的詳細(xì)講解

    前言 Docker 是一個(gè) 開源的應(yīng)用容器引擎 ,讓開發(fā)者可以打包他們的應(yīng)用以及依賴包到一個(gè)可移植的容器中,然后發(fā)布到任何流行的 Linux或Windows 操作系統(tǒng)的機(jī)器上,也可以實(shí)現(xiàn)虛擬化,容器是完全使用沙箱機(jī)制,相互之間不會(huì)有任何接口。 ??作者簡(jiǎn)介: 熱愛跑步的恒川 ,致力于

    2024年02月09日
    瀏覽(27)
  • 一文搞懂什么是Hadoop?Hadoop的前世今生,Hadoop的優(yōu)點(diǎn)有哪些?Hadoop面試考查重點(diǎn),大數(shù)據(jù)技術(shù)生態(tài)體系

    一文搞懂什么是Hadoop?Hadoop的前世今生,Hadoop的優(yōu)點(diǎn)有哪些?Hadoop面試考查重點(diǎn),大數(shù)據(jù)技術(shù)生態(tài)體系

    目錄 1.1 Hadoop 是什么 ?1.2 Hadoop 發(fā)展歷史 1.3 Hadoop 三大發(fā)行版本? 1.4 Hadoop優(yōu)勢(shì)(4高)? 1.5 Hadoop 組成(面試重點(diǎn))? 1.5.1 HDFS 架構(gòu)概述 ? 1.5.2 YARN 架構(gòu)概述 ? 1.5.3 MapReduce 架構(gòu)概述 ? 1.5.4 HDFS、YARN、MapReduce 三者關(guān)系 ? 1.6 大數(shù)據(jù)技術(shù)生態(tài)體系? 1.7 推薦系統(tǒng)框架圖 ? (1 ) Had

    2024年02月01日
    瀏覽(24)
  • 【大數(shù)據(jù)】圖解 Hadoop 生態(tài)系統(tǒng)及其組件

    【大數(shù)據(jù)】圖解 Hadoop 生態(tài)系統(tǒng)及其組件

    在了解 Hadoop 生態(tài)系統(tǒng)及其組件之前,我們首先了解一下 Hadoop 的三大組件,即 HDFS、MapReduce、YARN,它們共同構(gòu)成了 Hadoop 分布式計(jì)算框架的 核心 。 HDFS ( Hadoop Distributed File System ):HDFS 是 Hadoop 的 分布式文件系統(tǒng) ,它是將大規(guī)模數(shù)據(jù)分散存儲(chǔ)在多個(gè)節(jié)點(diǎn)上的基礎(chǔ)。HDFS 主要

    2024年02月11日
    瀏覽(58)
  • Hadoop生態(tài)系統(tǒng)中的大數(shù)據(jù)基礎(chǔ)知識(shí)教程

    作者:禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) “Hadoop”是一個(gè)開源的分布式計(jì)算框架,基于云計(jì)算平臺(tái)構(gòu)建,提供海量數(shù)據(jù)的存儲(chǔ)、分析處理和計(jì)算能力,廣泛應(yīng)用于金融、電信、互聯(lián)網(wǎng)、移動(dòng)通信等領(lǐng)域。Hadoop生態(tài)系統(tǒng)中存在大量的工程師和科學(xué)家,但這些人的水平參差不齊,各有所長(zhǎng)

    2024年02月09日
    瀏覽(23)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包