国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Spark大數(shù)據(jù)分析與實戰(zhàn)筆記(第二章 Spark基礎-03)

這篇具有很好參考價值的文章主要介紹了Spark大數(shù)據(jù)分析與實戰(zhàn)筆記(第二章 Spark基礎-03)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

每日一句正能量

又回到了原點,就從現(xiàn)在開始我的新生活吧。

章節(jié)概要

章節(jié)概要:Spark運行架構與原理

I. 引言
A. 概述Spark
B. Spark的特點和優(yōu)勢

II. Spark運行架構概述
A. Spark集群模式
B. Spark運行模式
C. Spark執(zhí)行引擎:Spark Core
D. Spark計算模塊:RDD
E. Spark數(shù)據(jù)抽象模塊:DataFrame和Dataset
F. Spark資源管理器:Cluster Manager
G. Spark任務調(diào)度器:DAG調(diào)度器

III. Spark運行原理
A. Spark的分布式計算模型
B. Spark的任務劃分與調(diào)度
C. Spark的數(shù)據(jù)分區(qū)與數(shù)據(jù)本地性
D. Spark的內(nèi)存管理與數(shù)據(jù)持久化
E. Spark的容錯機制與數(shù)據(jù)可靠性保障

IV. Spark運行架構實例分析
A. Spark Standalone模式運行架構
1. 架構概述
2. 運行流程分析
3. 執(zhí)行資源管理控制
B. Spark on YARN模式運行架構
1. 架構概述
2. 運行流程分析
3. YARN資源管理控制
C. Spark on Mesos模式運行架構
1. 架構概述
2. 運行流程分析
3. Mesos資源管理控制

V. 總結和展望
A. 對Spark運行架構和原理的總結
B. 對Spark未來發(fā)展的展望

在本章節(jié)中,我們將首先介紹Spark的運行架構和原理的基本概念和要點。接著,我們將深入探討Spark的運行原理、數(shù)據(jù)抽象模塊、資源管理器和任務調(diào)度器等關鍵組件的工作原理和實現(xiàn)方式。然后,我們將通過實際的運行架構實例分析,來具體了解Spark在不同的集群模式下的運行架構和工作流程。最后,我們將對Spark的運行架構和原理進行總結,并展望其未來發(fā)展的方向和趨勢。本章節(jié)的內(nèi)容將幫助讀者全面了解Spark的運行架構和原理,從而更好地應用和優(yōu)化Spark程序。

2.3 Spark運行架構與原理

2.3.1 基本概念

在學習Spark運行架構與工作原理之前,首先需要了解幾個重要的概念和術語。

  • Application(應用)
    Spark上運行的應用。Application中包含一個驅(qū)動器進程和集群上的多個執(zhí)行器進程。
  • Driver Program(驅(qū)動器)
    運行main()方法并創(chuàng)建SparkContext的進程。
  • Cluster Manager(集群管理器)
    用于在集群上申請資源的外部服務(如:獨立部署的集群管理器、Mesos或者Yarn)。
  • Worker Node(工作節(jié)點)
    集群上運行應用程序代碼的任意一個節(jié)點。
  • Executor(執(zhí)行器)
    在集群工作節(jié)點上為某個應用啟動的工作進程,該進程負責運行計算任務,并為應用程序存儲數(shù)據(jù)。
  • Task(任務)
    運行main()方法并創(chuàng)建SparkContext的進程。
  • Job(作業(yè))
    一個并行計算作業(yè),由一組任務組成,并由Spark的行動算子(如:save、collect)觸發(fā)啟動。
  • Stage(階段)
    每個Job可劃分為更小的Task集合,每組任務被稱為Stage

Spark大數(shù)據(jù)分析與實戰(zhàn)筆記(第二章 Spark基礎-03),# Spark大數(shù)據(jù)分析與實戰(zhàn),spark,架構,原理

2.3.2 Spark集群運行架構

Spark運行架構主要由SparkContext、Cluster Manager和Worker組成,其中Cluster Manager負責整個集群的統(tǒng)一資源管理,Worker節(jié)點中的Executor是應用執(zhí)行的主要進程,內(nèi)部含有多個Task線程以及內(nèi)存空間,下面通過下圖深入了解Spark運行基本流程。
Spark大數(shù)據(jù)分析與實戰(zhàn)筆記(第二章 Spark基礎-03),# Spark大數(shù)據(jù)分析與實戰(zhàn),spark,架構,原理
Spark應用在集群.上運行時,包括了多個獨立的進程,這些進程之間通過驅(qū)動程序(Driver Program)中的SparkContext對象進行協(xié)調(diào),SparkContext對象能夠 與多種集群資源管理器(Cluster Manager)通信,一旦與集群資源管理器連接,Spark會為該應用在各個集群節(jié)點上申請執(zhí)行器(Executor) ,用于執(zhí)行計算任務和存儲數(shù)據(jù)。

每個Spark應用程序都有其對應的多個執(zhí)行器進程。執(zhí)行器進程在整個應用程序生命周期內(nèi),都保持運行狀態(tài),并以多線程方式執(zhí)行任務。

驅(qū)動器程序在整個生命周期內(nèi)必須監(jiān)聽并接受其對應的各個執(zhí)行器的連接請求,因此驅(qū)動器程序必須能夠被所有Worker節(jié)點訪問到。

因為集群上的任務是由驅(qū)動器來調(diào)度的,所以驅(qū)動器應該放在離集群Worker節(jié)點比較近的機器上。

2.3.3 Spark運行基本流程

通過上一小節(jié)了解到,Spark運行架構主要由SparkContext、 Cluster Manager和Worker組成,其中Cluster Manager負責整個集群的統(tǒng)一資源管理,Worker節(jié) 點中的Executor是應用執(zhí)行的主要進程,內(nèi)部含有多個Task線程以及內(nèi)存空間。Spark應用在集群上作為獨立的進程組來運行,具體運行流程如下所示。
Spark大數(shù)據(jù)分析與實戰(zhàn)筆記(第二章 Spark基礎-03),# Spark大數(shù)據(jù)分析與實戰(zhàn),spark,架構,原理

  1. 當一個Spark應用被提交時, 根據(jù)提交參數(shù)在相應位置創(chuàng)建Driver進程,Driver進程根據(jù)配置 參數(shù)信息初始化SparkContext對象,即Spark運行環(huán)境, 由SparkContext負責和Cluster Manager的通信以及資源的申請、任務的分配和監(jiān)控等。SparkContext啟動后, 創(chuàng)建DAG Scheduler (將DAG圖分解成Stage)和Task Scheduler (提交和監(jiān)控Task)兩個調(diào)度模塊。

  2. Driver進程根據(jù)配置參數(shù)向Cluster Manager申請資源(主要是用來執(zhí)行的Executor),Cluster Manager接收到應用(Application) 的注冊請求后,會使用自己的資源調(diào)度算法,在Spark集群的Worker節(jié)點 上,通知Worker為應用啟動多個Executor。

  3. Executor創(chuàng)建后, 會向Cluster Manager進行資源及狀態(tài)的反饋,便于Cluster Manager對Executor進行狀態(tài)監(jiān)控,如果監(jiān)控到Executor失敗,則會立刻重新創(chuàng)建。

  4. Executor會向SparkContext反向注冊申請Task。

  5. Task Scheduler將Task發(fā)送給Worker進程中的Executor運行并提供應用程序代碼。

  6. 當程序執(zhí)行完畢后寫入數(shù)據(jù),Driver向Cluster Manager注銷申請的資源。

總結

Spark是一種分布式計算框架,提供了高效的數(shù)據(jù)處理能力和強大的計算功能。它的運行架構和原理可以總結如下:

  1. Master-Worker架構:Spark的運行架構是基于Master-Worker模式的。在一個Spark集群中,有一個稱為Spark Master的節(jié)點負責協(xié)調(diào)和管理整個集群,同時有多個稱為Spark Worker的節(jié)點負責執(zhí)行具體的計算任務。

  2. 彈性分布式數(shù)據(jù)集(RDD):Spark的核心概念是彈性分布式數(shù)據(jù)集(RDD)。RDD是一種可并行計算的數(shù)據(jù)結構,它可以在集群中的多個節(jié)點之間分布式地存儲和處理數(shù)據(jù)。RDD具有容錯性和可恢復性的特點,可以在節(jié)點失敗時自動進行數(shù)據(jù)恢復。

  3. DAG執(zhí)行引擎:Spark使用DAG(Directed Acyclic Graph)執(zhí)行引擎來執(zhí)行并行計算任務。通過將計算任務表示為一系列有向無環(huán)圖,Spark可以將計算任務分解為多個階段(Stage),并在多個節(jié)點上并行執(zhí)行這些階段。

  4. 內(nèi)存計算:與其他分布式計算框架相比,Spark具有更高的性能,部分原因是因為它使用了內(nèi)存計算。Spark可以將數(shù)據(jù)存儲在內(nèi)存中,從而避免了頻繁的磁盤讀寫操作,大大提高了計算速度。

  5. Transformations和Actions:Spark提供了豐富的Transformations和Actions操作,用于對RDD進行轉(zhuǎn)換和操作。Transformations操作會生成一個新的RDD,而Actions操作會觸發(fā)計算并返回結果。這種惰性計算的方式可以提高Spark的效率,只有在需要時才會真正執(zhí)行計算。

總的來說,Spark的運行架構和原理結合了Master-Worker模式、RDD、DAG執(zhí)行引擎和內(nèi)存計算等關鍵技術,實現(xiàn)了高效的分布式計算。通過靈活的數(shù)據(jù)處理能力和強大的計算功能,Spark成為了大數(shù)據(jù)處理的重要工具之一。

轉(zhuǎn)載自:https://blog.csdn.net/u014727709/article/details/132168348
歡迎 ??點贊?評論?收藏,歡迎指正文章來源地址http://www.zghlxwxcb.cn/news/detail-779718.html

到了這里,關于Spark大數(shù)據(jù)分析與實戰(zhàn)筆記(第二章 Spark基礎-03)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • NanoEdge AI Studio 教程 第二章--異常數(shù)據(jù)分析

    NanoEdge AI Studio 教程 第二章--異常數(shù)據(jù)分析

    OK,好久不見,各位,最近挺忙,歡迎回來。 讓我們開始第二章節(jié),異常判斷。 目錄 一 Nano Edge AI Studio 簡單概述 二 異常判斷 1.工程選擇 2.進行工程設置 2.1 MCU選擇 2.2 數(shù)據(jù)設定 3.輸入數(shù)據(jù) 4.模型訓練 5.驗證 6.生成模型 7.布置模型 NanoEdge AI Studio主要可以實現(xiàn)的功能主要分為四

    2024年04月17日
    瀏覽(24)
  • 從零開始學數(shù)據(jù)分析之——《線性代數(shù)》第二章 矩陣

    從零開始學數(shù)據(jù)分析之——《線性代數(shù)》第二章 矩陣

    元素全為實數(shù)的矩陣稱為實矩陣 ?元素全為負數(shù)的矩陣稱為復矩陣 只有一行(列)的矩陣稱為行(列)矩陣 元素全為零的矩陣稱為零矩陣 行數(shù)和列數(shù)都等于n的矩陣稱為n階矩陣或n階方陣 主對角線元素全為1,其余元素全為0的矩陣稱為單位矩陣,記作E或I 兩個矩陣行數(shù)和列數(shù)

    2023年04月23日
    瀏覽(24)
  • Spark大數(shù)據(jù)分析與實戰(zhàn)筆記(第三章 Spark RDD 彈性分布式數(shù)據(jù)集-02)

    Spark大數(shù)據(jù)分析與實戰(zhàn)筆記(第三章 Spark RDD 彈性分布式數(shù)據(jù)集-02)

    人生很長,不必慌張。你未長大,我要擔當。 傳統(tǒng)的MapReduce雖然具有自動容錯、平衡負載和可拓展性的優(yōu)點,但是其最大缺點是采用非循環(huán)式的數(shù)據(jù)流模型,使得在迭代計算式要進行大量的磁盤IO操作。Spark中的RDD可以很好的解決這一缺點。 RDD是Spark提供的最重要的抽象概念

    2024年02月22日
    瀏覽(372)
  • Spark大數(shù)據(jù)分析與實戰(zhàn)筆記(第一章 Scala語言基礎-3)

    Spark大數(shù)據(jù)分析與實戰(zhàn)筆記(第一章 Scala語言基礎-3)

    對于每一門編程語言來說,數(shù)組(Array)都是重要的數(shù)據(jù)結構之一,主要用來存儲數(shù)據(jù)類型相同的元素。Scala中的數(shù)組分為定長數(shù)組和變長數(shù)組,定義定長數(shù)組,需要使用new,而定義變長數(shù)組時,則需要導包 import scala.collection.mutable.ArrayBuffer 。 數(shù)組(Array)主要用來存儲

    2024年02月10日
    瀏覽(84)
  • Spark大數(shù)據(jù)分析與實戰(zhàn)筆記(第一章 Scala語言基礎-1)

    Spark大數(shù)據(jù)分析與實戰(zhàn)筆記(第一章 Scala語言基礎-1)

    Spark是專為大規(guī)模數(shù)據(jù)處理而設計的快速通用的計算引擎,它是由Scala語言開發(fā)實現(xiàn)的,關于大數(shù)據(jù)技術,本身就是計算數(shù)據(jù),而Scala既有面向?qū)ο蠼M織項目工程的能力,又具備計算數(shù)據(jù)的功能,同時Spark和Scala的緊密集成,本書將采用Scala語言開發(fā)Spark程序,所以學好Scala將有助

    2024年02月11日
    瀏覽(102)
  • Spark大數(shù)據(jù)分析與實戰(zhàn)筆記(第一章 Scala語言基礎-2)

    Spark大數(shù)據(jù)分析與實戰(zhàn)筆記(第一章 Scala語言基礎-2)

    Spark是專為大規(guī)模數(shù)據(jù)處理而設計的快速通用的計算引擎,它是由Scala語言開發(fā)實現(xiàn)的,關于大數(shù)據(jù)技術,本身就是計算數(shù)據(jù),而Scala既有面向?qū)ο蠼M織項目工程的能力,又具備計算數(shù)據(jù)的功能,同時Spark和Scala的緊密集成,本書將采用Scala語言開發(fā)Spark程序,所以學好Scala將有助

    2024年02月11日
    瀏覽(91)
  • Spark大數(shù)據(jù)分析與實戰(zhàn)課后答案

    一、填空題 1、Scala語言的特性包含 面向?qū)ο缶幊?、函數(shù)式編程的、 靜態(tài)類型的 、可擴展的、 可以交互操作的 。 2、在Scala數(shù)據(jù)類型層級結構的底部有兩個數(shù)據(jù)類型,分別是 Nothing 和 Null 。 3、在Scala中,聲明變量的有 var 聲明變量和 val 聲明常量。 4、在Scala中,獲取

    2024年01月17日
    瀏覽(95)
  • 企業(yè)Spark案例--酒店數(shù)據(jù)分析實戰(zhàn)提交

    第1關:數(shù)據(jù)清洗--過濾字段長度不足的且將出生日期轉(zhuǎn): package?com.yy ? import?org.apache.spark.rdd.RDD import?org.apache.spark.sql.{DataFrame,?Dataset,?SparkSession} object?edu{ ????/**********Begin**********/ ????//?此處可填寫相關代碼 ????case?class?Person(id:String,Name:String,CtfTp:String,CtfId:String,G

    2024年02月09日
    瀏覽(110)
  • Spark大數(shù)據(jù)分析與實戰(zhàn)課后習題參考答案

    項目一: 一、選擇題 DCCDAD 二、簡答題 1、Hadoop MapReduce要求每個步驟間的數(shù)據(jù)序列化到磁盤,所以I/O成本很高,導致交互分析和迭代算法開銷很大;Spark 提供了內(nèi)存計算,把中間結果放到內(nèi)存中,帶來了更高的迭代運算效率。通過支持有向無環(huán)圖(DAG)的分布式并行計算的編

    2024年02月11日
    瀏覽(23)
  • 大數(shù)據(jù)實戰(zhàn)(hadoop+spark+python):淘寶電商數(shù)據(jù)分析

    大數(shù)據(jù)實戰(zhàn)(hadoop+spark+python):淘寶電商數(shù)據(jù)分析

    虛擬機:Ubuntu 20.04.6 LTS docker容器 hadoop-3.3.4 spark-3.3.2-bin-hadoop3 python,pyspark, pandas,matplotlib mysql,mysql-connector-j-8.0.32.jar(下載不需要積分什么的) 淘寶用戶數(shù)據(jù) 以上的技術積累需要自行完成 創(chuàng)建容器(##ubuntu的代碼塊,在ubuntu中運行,無特殊說明的在docker中運行) 更新軟件

    2024年02月11日
    瀏覽(30)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包