国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

這篇具有很好參考價(jià)值的文章主要介紹了Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

大家好,我是北山啦,好久不見,Nice to meet you,本文將記錄學(xué)習(xí)Hadoop生態(tài)圈相關(guān)知識(shí)。

大數(shù)據(jù)時(shí)代

大數(shù)據(jù)是指無法在一定時(shí)間范圍內(nèi)通過常用軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)
Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

大數(shù)據(jù)時(shí)代的特征5V

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

應(yīng)用場景,包括電商領(lǐng)域中的推薦以及金融方面中的個(gè)人信用評估,交通領(lǐng)域中擁堵預(yù)測,導(dǎo)航最優(yōu)規(guī)劃等等,https://beishan.blog.csdn.net/

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|YarnHadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
大數(shù)據(jù)場景下:海量數(shù)據(jù)如何存儲(chǔ)以及海量數(shù)據(jù)如何計(jì)算?

這里涉及到分布式、集群的概念

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
海量數(shù)據(jù)如何存儲(chǔ)以及海量數(shù)據(jù)如何計(jì)算

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

Hadoop

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

Hadoop概述

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

官網(wǎng):https://hadoop.apache.org/

俠義上Hadoop指的是Apache軟件基金會(huì)的一款開源軟件

允許用戶使用簡單的編程模型實(shí)現(xiàn)跨機(jī)器集群對海量數(shù)據(jù)進(jìn)行分布式計(jì)算處理

Hadoop核心組件
HDFS:分布式文件存儲(chǔ)系統(tǒng),解決海量數(shù)據(jù)存儲(chǔ)
YARN:集群資源管理和任務(wù)調(diào)度框架,解決資源任務(wù)調(diào)度
MapReduce:分布式計(jì)算框架,解決海量計(jì)算
Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

廣義上Hadoop指的是圍繞Hadoop打造的大數(shù)據(jù)生態(tài)圈

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

Hadoop特性優(yōu)點(diǎn)

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

Hadoop國內(nèi)外應(yīng)用

Hadoop最先應(yīng)用于國內(nèi)外的互聯(lián)網(wǎng)公司,外國的例如:Yahoo、Facebook、IBM。國內(nèi)的例如:BAT以及華為

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
Hadoop的成功在于它的通用性以及簡單

精確區(qū)分做說什么和怎么做,做什么屬于業(yè)務(wù)問題,怎么做屬于技術(shù)問題,用戶負(fù)責(zé)業(yè)務(wù),Hadoop負(fù)責(zé)技術(shù)

Hadoop發(fā)行版本

分為開源社區(qū)版以及商業(yè)發(fā)行版
Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
開源社區(qū)版本:https://hadoop.apache.org/
商業(yè)發(fā)行版本:https://www.cloudera.com/products/open-source/apache-hadoop.html
Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

截至目前,Hadoop以及發(fā)展到了3.x版本,Hadoop1.0時(shí),包括HDFS(分布式文件存儲(chǔ))和MapReduce(資源管理和分布式數(shù)據(jù)處理),到2.0,將MapReduce(分布式數(shù)據(jù)處理)進(jìn)行拆分,引入新的組件YARN(集群資源管理、任務(wù)調(diào)度)

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
Hadoop3.0架構(gòu)組件和Hadoop2.0類似,3.0著重于性能優(yōu)化

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

Hadoop集群整體概述

  • Hadoop集群包括兩個(gè)集群:HDFS集群、YARN集群
  • 兩個(gè)集群在邏輯上分離通常物理上在一起
  • 兩個(gè)集群都是標(biāo)準(zhǔn)的主從架構(gòu)集群

MapReduce是計(jì)算框架、代碼層面的組件 沒有集群之說

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

兩個(gè)集群在邏輯上分離通常物理上在一起,可以從下圖中理解
Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
HDFS集群由一主(NN即NameNode)三從(DN即DataNode)+一個(gè)秘書(SNN即Secondary NameNode)構(gòu)成

YARN集群由RM即Resource Manager和NM即Node Manager構(gòu)成

Hadoop集群 = HDFS集群 + YARN集群

  • 邏輯上分離,指他們之間互相沒有依賴
  • 物理上一起,指進(jìn)程部署在同一臺(tái)機(jī)器上

HDFS分布式文件系統(tǒng)

文件系統(tǒng)是一種存儲(chǔ)和組織數(shù)據(jù)的方法,實(shí)現(xiàn)了數(shù)據(jù)的存儲(chǔ)、分級組織、訪問和獲取等操作,使得用戶對訪問和查找變得容易,文件系統(tǒng)使用樹形目錄邏輯抽象代替了硬盤等物理設(shè)備使用數(shù)據(jù)塊的概念,用戶不需要關(guān)系數(shù)據(jù)底層存在硬盤哪里,只需記得這個(gè)文件所屬的目錄和文件名即可

傳統(tǒng)常見的文件系統(tǒng)

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
海量數(shù)據(jù)存儲(chǔ)遇到的困難:

  • 傳統(tǒng)存儲(chǔ)硬件通用性差,設(shè)備投資加上后期維修、升級擴(kuò)容的成本非常高
  • 傳統(tǒng)存儲(chǔ)方式意味著:存儲(chǔ)時(shí)存儲(chǔ),計(jì)算是計(jì)算,當(dāng)需要處理數(shù)據(jù)的時(shí)候把數(shù)據(jù)移動(dòng)過來
  • 性能低,單節(jié)點(diǎn)I/O性能瓶頸無法逾越,難以支持海量數(shù)據(jù)的高并發(fā)高吞吐
  • 可擴(kuò)展性差

數(shù)據(jù)和元數(shù)據(jù)

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

HDFS核心屬性
  • 分布式存儲(chǔ)
  • 元數(shù)據(jù)記錄
  • 分塊存儲(chǔ)
  • 副本機(jī)制

分布式存儲(chǔ)

數(shù)據(jù)量大,單機(jī)存儲(chǔ)遇到瓶頸,分布式存儲(chǔ)通過橫向擴(kuò)展來解決數(shù)據(jù)存儲(chǔ)問題
Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

元數(shù)據(jù)記錄

針對文件分布在不同機(jī)器上不利于尋找,元數(shù)據(jù)記錄下文件機(jī)器存儲(chǔ)位置信息,快速定位文件位置
Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

分塊存儲(chǔ)

文件過大導(dǎo)致單機(jī)存放不下,上傳下載效率低。通過文件分塊存儲(chǔ)在不同機(jī)器,針對塊并行操作提高效率

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

副本機(jī)制

不同機(jī)器設(shè)置備份,冗余存儲(chǔ),保障數(shù)據(jù)安全
Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
總結(jié)如下:
Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

HDFS簡介

  • HDFS(Hadoop Distributed File System),Hadoop分布式文件系統(tǒng),是Apache Hadoop的核心組件之一,作為大數(shù)據(jù)生態(tài)圈最底層的分布式存儲(chǔ)服務(wù)而存在,也可以說大數(shù)據(jù)首要解決的我呢提就是海量數(shù)據(jù)的存儲(chǔ)問題
    Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
    Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

HDFS shell操作

HDFS Shell包含了各種的類Shell的命令,可以直接與Hadoop分布式文件系統(tǒng)以及其他文件系統(tǒng)進(jìn)行交互,常用命令如下:
這里搬運(yùn)的CSDN氣質(zhì)&末雨的總結(jié),感謝感謝

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

Map Reduce

hadoop主鍵之MapReduce

分而治之思想、設(shè)計(jì)構(gòu)思、官方示例、執(zhí)行流程

分而治之

MapReduce的核心思想是:分而治之
Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
將原問題拆分位若干個(gè)子問題,并對子問題進(jìn)行求解,最后進(jìn)行合并,得到原問題的解。

將原問題拆分位若干個(gè)小問題之后,可以并行處理,同時(shí)來計(jì)算。當(dāng)然,如果無法拆分或者拆分后小問題之間存在著依賴關(guān)系,那就不能用分而治之的思想。

  1. 能不能拆分
  2. 是否存在依賴
    Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

舉例:要數(shù)停車場中的所有停放車的總數(shù)量

Map:你數(shù)一列,我數(shù)一列…這就是Map階段,人越多,能過夠同時(shí)數(shù)車的人就越多,速度就越快。

Reudece:數(shù)完之后,聚在一起,把所有人的統(tǒng)計(jì)數(shù)加在一起,這就是Reduce合并匯總階段

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

理解MapReduce思想

  • MapReduce的思想很好理解,關(guān)鍵在于如何基于這個(gè)思想設(shè)計(jì)出一款分布式計(jì)算程序
  • 后續(xù)講解Hadoop團(tuán)隊(duì)針對MapReduce的設(shè)計(jì)構(gòu)思
  1. 如何針對大數(shù)據(jù)處理場景

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

  1. 構(gòu)建抽象編程模型

MapReduce借鑒了函數(shù)式語言中的思想,再用MapReduce兩個(gè)函數(shù)提供了高層的并行編程抽象模型。

Map:對一組數(shù)據(jù)元素進(jìn)行某種重復(fù)式的處理

Reduce:對Map的中間結(jié)果進(jìn)行某種進(jìn)一步的結(jié)果整理

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
MapReduce中定義了如下的Map和Reduce兩個(gè)抽象的編程接口,由用戶編程實(shí)現(xiàn):
Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
通過以上兩個(gè)編程接口,大家可以看出MapReduce處理的數(shù)據(jù)類型是<key,value>鍵值對

  1. 統(tǒng)一架構(gòu)、隱藏底層細(xì)節(jié)

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

分布式計(jì)算概念

  • 分布式計(jì)算是一種計(jì)算方法,和集中式計(jì)算是相對的
  • 隨著計(jì)算機(jī)技術(shù)的發(fā)展,有些應(yīng)用需要非常巨大的計(jì)算能力才能完成,如果采用集中式計(jì)算,需要耗費(fèi)相當(dāng)長的時(shí)間來完成
  • 分布式計(jì)算將改應(yīng)用分解成許多小的部分,分配給墮胎計(jì)算機(jī)進(jìn)行處理,這樣可以節(jié)約整體計(jì)算時(shí)間,大大提高計(jì)算效率
    Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

MapReduce介紹

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

  1. Hadoop MapReduce是一個(gè)分布式計(jì)算框架,用于輕松編寫分布式應(yīng)用程序,這些應(yīng)用程序以可靠,容錯(cuò)的方式并行處理大型硬件集群(數(shù)千個(gè)節(jié)點(diǎn))上的大量數(shù)據(jù)(多TB數(shù)據(jù)集)
  2. Map Reduce是一種面向海量數(shù)據(jù)處理的一種指導(dǎo)思想,也是一種用于大規(guī)模數(shù)據(jù)進(jìn)行分布式計(jì)算的編程模型

MapReduce產(chǎn)生背景

由Google于2004年的論文中《MapReduce:Simplified Data Processing on Large Cluster》中提出
Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

MapReduce特點(diǎn)

易于編程:MapReduce提供了用于二次開發(fā)的接口,簡單地實(shí)現(xiàn)一些接口,就可以完成一個(gè)分布式程序,任務(wù)計(jì)算交給計(jì)算框架去處理,將分布式程序部署到hadoop集群上運(yùn)行,集群節(jié)點(diǎn)可以擴(kuò)展到成百上千

良好的擴(kuò)展性:當(dāng)計(jì)算機(jī)資源不能得到滿足的時(shí)候,可以通過增加機(jī)器來擴(kuò)展計(jì)算能力,基于MapReduce的分布式計(jì)算的特點(diǎn)可以隨節(jié)點(diǎn)數(shù)目增長保持近乎于線性的增長,這也是MapReduce處理海量數(shù)據(jù)的關(guān)鍵,通過將計(jì)算節(jié)點(diǎn)增至幾百或幾千就可以很容易地處理數(shù)TB甚至數(shù)PB的離線數(shù)據(jù)

高容錯(cuò)性:Hadoop集群式分布式搭建和部署的,任何一個(gè)機(jī)器節(jié)點(diǎn)宕機(jī)了,它可以把上面的計(jì)算任務(wù)轉(zhuǎn)移到另一個(gè)節(jié)點(diǎn)上運(yùn)行,不影響整個(gè)作業(yè)任務(wù)的完成,過程完全是Hadoop內(nèi)部完成的

適合海量數(shù)據(jù)的離線處理:可以處理GB、TB和PB級別的數(shù)據(jù)量

MapReduce局限性

MapReduce雖然有很多優(yōu)勢,也有相對的局限性,局限性不代表不能做,而是在某些場景下實(shí)現(xiàn)效果比較差,不適合MapReduce來處

實(shí)時(shí)計(jì)算性能差:MapReduce主要應(yīng)用于離線作業(yè),無法做到秒級的數(shù)據(jù)相應(yīng)

不能進(jìn)行流式計(jì)算:流式計(jì)算特點(diǎn)是數(shù)據(jù)源源不斷地計(jì)算,并且數(shù)據(jù)是動(dòng)態(tài)的,而MapReduce作為一個(gè)離線計(jì)算框架,主要是針對靜態(tài)數(shù)據(jù)集的,數(shù)據(jù)是不能動(dòng)態(tài)變化的

MapReduce實(shí)例進(jìn)程

一個(gè)完整的MapReduce程序在分布式運(yùn)行時(shí)有三類

  • MRAppMaster:負(fù)責(zé)整個(gè)MR程序的過程調(diào)度以及狀態(tài)協(xié)調(diào)
  • MapTask:負(fù)責(zé)map姐u單的整個(gè)數(shù)據(jù)處理流程
  • ReduceTask:負(fù)責(zé)reduce階段的整個(gè)數(shù)據(jù)處理流程

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

MapReduce階段組成

  • 一個(gè)MapReduce編程模型中只包含一個(gè)Map階段和Reduce階段,或者只有Map階段
  • 不能有諸多個(gè)map階段,多個(gè)reduce階段的出現(xiàn)
  • 如果用戶的業(yè)務(wù)邏輯非常復(fù)雜,那就只能多個(gè)MapReduce程序串行運(yùn)行
    Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

MapReduce數(shù)據(jù)類型

  • 在整個(gè)MapReduce程序中,數(shù)據(jù)都是以kv鍵值對的形式流轉(zhuǎn)的
  • 在實(shí)際編程解決各種業(yè)務(wù)問題中,需要考慮每個(gè)階段的輸入輸出kv是什么
  • MapReduce內(nèi)置了很多默認(rèn)屬性,比如排序,分組等,都和數(shù)據(jù)的k相關(guān),所以說kv的類型數(shù)據(jù)確定是極其重要的
    Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

MapReduce官方示例

概述:
Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
實(shí)例說明:
Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

計(jì)算圓周率Π的值

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

WordCount詞頻統(tǒng)計(jì)

  • WordCount算是大數(shù)據(jù)計(jì)算領(lǐng)域經(jīng)典的入門案例,相當(dāng)于hello world
  • 通過WordCount,可以感受背后MapReduce的執(zhí)行流程和默認(rèn)的行為機(jī)制

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

WordCount編程實(shí)現(xiàn)思路

  • map階段核心:把輸入的數(shù)據(jù)進(jìn)行切割,全部標(biāo)記,因此輸出就是<單詞,1>

  • shuffle階段核心:經(jīng)過MR程序內(nèi)部自帶默認(rèn)的排序分組等功能,把key相同的單詞會(huì)作為一組數(shù)據(jù)構(gòu)成新的kv對

  • reduce階段核心:處理shuffle完成的一組數(shù)據(jù),該組數(shù)據(jù)就是該代詞所有的鍵值對,對所有的1進(jìn)行累計(jì)求和,就是單詞的總數(shù)

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
Word程序提交
Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

Map階段執(zhí)行流程

依托WordCount程序
Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
MapReduce整體執(zhí)行流程圖

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
Map階段執(zhí)行過程
Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

Reduce階段執(zhí)行流程

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
Reduce階段執(zhí)行過程
Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

Shuffle機(jī)制

  • Shuffle的本意是洗牌的意思,把一組有規(guī)則地?cái)?shù)據(jù)盡量打亂成無規(guī)則的數(shù)據(jù)
  • 在MR中,Shuffle更像是洗牌的逆過程,指的是將map端的無規(guī)則輸出按指定的規(guī)則‘打亂’成具有一定規(guī)則的數(shù)據(jù),以便reduce端接收處理
  • 一般吧從Map產(chǎn)生輸出開始到Reduce得到數(shù)據(jù)作為輸入之前的操作稱作shuffle
    Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

Map端的shuffle

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

Reduce端的shuffle

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

shuffle機(jī)制弊端

  • Shuffle是MapReduce程序的核心和精髓
  • Shuffle也是MapReduce被詬病最多的地方,MapReduce相比較于Spark、Flink計(jì)算引擎慢的原因,根Shuffle機(jī)制有很大的關(guān)系
  • Shuffle中頻繁涉及數(shù)據(jù)在內(nèi)存,磁盤之間的多次往復(fù)

YARN

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

介紹、架構(gòu)組件、程序提交交互流程、調(diào)度器

YARN介紹

  • Apache Hadoop Yarn(Yet Another Resource Negotiatot,另一種資源協(xié)調(diào)者)是一種新的Hadoop資源管理器
  • YARN是一個(gè)通用資源管理系統(tǒng)調(diào)度平臺(tái),可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度
  • 它的引入為集群在利用率、資源同意管理和數(shù)據(jù)共享等方面帶來了巨大好處

YANR是一個(gè)通用資源管理系統(tǒng)調(diào)度平臺(tái)

YARN功能說明

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

YARN概述

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

YARN架構(gòu)、組件

YARN官方架構(gòu)圖
Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

程序提交YARN交互流程

  1. MR作業(yè)提交,Client → RM
  2. 資源的申請 MrAppMaster → RM
  3. MR作業(yè)狀態(tài)匯報(bào) Container(Map|Reduce task) → Container(MrAppMaster)
  4. 節(jié)點(diǎn)的狀態(tài)匯報(bào) NM→ RM

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

YARN資源調(diào)度器Scheduler

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

如何理解資源調(diào)度

  • 在理想的情況下,應(yīng)用程序提出的請求將以及得到Y(jié)ARN的批準(zhǔn),但在實(shí)際中,資源是有限的,并且在繁忙的集群中,應(yīng)用程序通常將需要等待其后寫請求得到滿足。YARN調(diào)度程序的工作是根據(jù)一些定義的策略為應(yīng)用程序分配資源
  • 在YARN中,負(fù)責(zé)給應(yīng)用分配資源的就是Scheduler,他是ResourceManager的核心組件之一,Scheduler完全專用于調(diào)度作業(yè),他無法跟蹤應(yīng)用程序的狀態(tài)
  • 一般而言,調(diào)度是一個(gè)難題,并且沒有一個(gè)最佳的策略,為此,YARN提供了多種調(diào)度器和配置的策略供選擇

調(diào)度器策略

根據(jù)需求,選擇合適的調(diào)度器

  • FIFO Schedule
  • Capacity Schedule
  • Fair Schedule
    Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
  1. FIFO Scheduler
    Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
  2. Capacity Schedule
    Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
    Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

  1. Fair Schedule
    Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
    Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn
    Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn

https://beishan.blog.csdn.net/,我是北山啦,歡迎評論交流文章來源地址http://www.zghlxwxcb.cn/news/detail-418717.html

到了這里,關(guān)于Hadoop 生態(tài)圈及核心組件簡介Hadoop|MapRedece|Yarn的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 基于Hadoop生態(tài)的相關(guān)框架與組件的搭建

    基于Hadoop生態(tài)的相關(guān)框架與組件的搭建

    目錄 一、前言 安裝包 二、linux配置 1、配置網(wǎng)絡(luò)參數(shù) 2、永久關(guān)閉防火墻 3、添加IP地址配置映射表 4、SSH免密登錄設(shè)置 5、配置時(shí)間同步 三、準(zhǔn)備工作 四、jdk安裝 五、Zookeeper集群部署 1、Zookeeper集群啟動(dòng)腳本編寫 ?六、Hadoop高可用集群部署 1、安裝配置 ?2、修改配置文件 (

    2023年04月19日
    瀏覽(15)
  • Hadoop核心組件及組件介紹

    Hadoop核心組件及組件介紹

    1、Hadoop通用組件 -? Hadoop Common 包含了其他hadoop模塊要用到的庫文件和工具 2、分布式文件系統(tǒng) - Hadoop Distributed File System (HDFS) 運(yùn)行于通用硬件上的分布式文件系統(tǒng),高吞吐,高可靠 3、資源管理組件 - Hadoop YARN 于2012年引入的組件,用于管理集群中的計(jì)算資源并在這些資源上

    2024年02月05日
    瀏覽(23)
  • 分布式計(jì)算框架Hadoop核心組件

    分布式計(jì)算框架Hadoop核心組件

    Hadoop作為成熟的分布式計(jì)算框架在大數(shù)據(jù)生態(tài)領(lǐng)域已經(jīng)使用多年,本文簡要介紹Hadoop的核心組件MapReduce、YARN和HDFS,以加深了解。 1、Hadoop基本介紹 Hadoop是分布式計(jì)算框架,主要解決海量數(shù)據(jù)的存儲(chǔ)和計(jì)算問題。Hadoop主要組件包括分布式文件系統(tǒng)HDFS、分布式離線并行計(jì)算框架

    2024年02月06日
    瀏覽(23)
  • Hadoop學(xué)習(xí)筆記(HDP)-Part.02 核心組件原理

    Hadoop學(xué)習(xí)筆記(HDP)-Part.02 核心組件原理

    目錄 Part.01 關(guān)于HDP Part.02 核心組件原理 Part.03 資源規(guī)劃 Part.04 基礎(chǔ)環(huán)境配置 Part.05 Yum源配置 Part.06 安裝OracleJDK Part.07 安裝MySQL Part.08 部署Ambari集群 Part.09 安裝OpenLDAP Part.10 創(chuàng)建集群 Part.11 安裝Kerberos Part.12 安裝HDFS Part.13 安裝Ranger Part.14 安裝YARN+MR Part.15 安裝HIVE Part.16 安裝HBase

    2024年02月04日
    瀏覽(15)
  • Hadoop的第二個(gè)核心組件:MapReduce框架第四節(jié)

    Hadoop的第二個(gè)核心組件:MapReduce框架第四節(jié)

    MapReduce可以對海量數(shù)據(jù)進(jìn)行計(jì)算,但是有些情況下,計(jì)算的結(jié)果可能來自于多個(gè)文件,每個(gè)文件的數(shù)據(jù)格式是不一致,但是多個(gè)文件存在某種關(guān)聯(lián)關(guān)系,類似于MySQL中外鍵關(guān)系,如果想計(jì)算這樣的結(jié)果,MR程序也是支持的。這種計(jì)算我們稱之為join計(jì)算。 MR的join根據(jù)join數(shù)據(jù)的位

    2024年02月09日
    瀏覽(24)
  • Hadoop的第二個(gè)核心組件:MapReduce框架第三節(jié)

    Hadoop的第二個(gè)核心組件:MapReduce框架第三節(jié)

    InputFormat階段 :兩個(gè)作用 負(fù)責(zé)對輸入的數(shù)據(jù)進(jìn)行切片,切片的數(shù)據(jù)和Mapper階段的MapTask的數(shù)量是相對應(yīng)的。 負(fù)責(zé)MapTask讀取切片數(shù)據(jù)時(shí),如何將切片的數(shù)據(jù)轉(zhuǎn)換成為Key-value類型的數(shù)據(jù),包括key-value的數(shù)據(jù)類型的定義。 Mapper階段 作用處理每一個(gè)切片數(shù)據(jù)的計(jì)算邏輯。 map方法的執(zhí)

    2024年02月09日
    瀏覽(24)
  • Hadoop的第二個(gè)核心組件:MapReduce框架第二節(jié)

    Hadoop的第二個(gè)核心組件:MapReduce框架第二節(jié)

    1、客戶端在執(zhí)行MR程序時(shí),客戶端先根據(jù)設(shè)置的InputFormat實(shí)現(xiàn)類去對輸入的數(shù)據(jù)文件進(jìn)行切片(getSplits),如果沒有設(shè)置InputFormat實(shí)現(xiàn)類,MR程序會(huì)使用默認(rèn)的實(shí)現(xiàn)類(TextInputFormat–FileInputFormat的子類)進(jìn)行切片規(guī)劃,生成一個(gè)切片規(guī)劃文件 2、客戶端的切片規(guī)劃文件生成以后

    2024年02月09日
    瀏覽(29)
  • Hadoop的第二個(gè)核心組件:MapReduce框架第一節(jié)

    Hadoop的第二個(gè)核心組件:MapReduce框架第一節(jié)

    Hadoop解決了大數(shù)據(jù)面臨的兩個(gè)核心問題:海量數(shù)據(jù)的存儲(chǔ)問題、海量數(shù)據(jù)的計(jì)算問題 其中MapReduce就是專門設(shè)計(jì)用來解決海量數(shù)據(jù)計(jì)算問題的,同時(shí)MapReduce和HDFS不一樣的地方在于,雖然兩者均為分布式組件,但是HDFS是一個(gè)完善的軟件,我們只需要使用即可,不需要去進(jìn)行任何

    2024年02月09日
    瀏覽(22)
  • Kubernetes(K8s)的核心組件簡介

    Kubernetes(簡稱 K8s)是一個(gè)開源的,用于自動(dòng)化部署、擴(kuò)展和管理容器化應(yīng)用程序的平臺(tái)。在這篇文章中,我們將深入研究 Kubernetes 的核心組件及其功能。 一、Master 組件 1. API Server:Kubernetes 的主要管理組件。所有的管理任務(wù)都是通過 API Server 進(jìn)行的。它是 Kubernetes 的前端,

    2024年02月15日
    瀏覽(22)
  • Spring MVC簡介及核心組件和調(diào)用流程理解

    Spring MVC簡介及核心組件和調(diào)用流程理解

    Spring Web MVC是基于Servlet API構(gòu)建的原始Web框架,從一開始就包含在Spring Framework中。正式名稱“Spring Web MVC”來自其源模塊的名稱( spring-webmvc ),但它通常被稱為“Spring MVC”。 在控制層框架歷經(jīng)Strust、WebWork、Strust2等諸多產(chǎn)品的歷代更迭之后,目前業(yè)界普遍選擇了SpringMVC作為

    2024年03月16日
    瀏覽(47)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包