国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

大數(shù)據(jù)計算引擎 EasyMR 如何簡單高效管理 Yarn 資源隊列

這篇具有很好參考價值的文章主要介紹了大數(shù)據(jù)計算引擎 EasyMR 如何簡單高效管理 Yarn 資源隊列。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

設(shè)想一下,作為一個開發(fā)人員,你現(xiàn)在所在的公司有一套線上的 Hadoop 集群。A部門經(jīng)常做一些定時的 BI 報表,B部門則經(jīng)常使用軟件做一些臨時需求。那么他們肯定會遇到同時提交任務(wù)的場景,這個時候到底應(yīng)該如何分配資源滿足這兩個任務(wù)呢?是先執(zhí)行A的任務(wù),再執(zhí)行B的任務(wù),還是同時跑兩個?

如果你存在上述的困惑,可以多了解一些 Yarn 的資源調(diào)度器。

Yarn 的三種調(diào)度器

從 Hadoop2 開始,官方把資源管理單獨(dú)剝離出來,主要是為了考慮后期作為一個公共的資源管理平臺,任何滿足規(guī)則的計算引擎都可以在它上面執(zhí)行。Yarn 作為一款 Hadoop 集群的資源共享,不僅可以跑 MapReduce,還可以跑 Spark,F(xiàn)link。

在 Yarn 框架中,調(diào)度器是一塊很重要的內(nèi)容。有了合適的調(diào)度規(guī)則,就可以保證多個應(yīng)用在同一時間有條不紊的工作。

最原始的調(diào)度規(guī)則就是 FIFO,即按照用戶提交任務(wù)的時間來決定哪個任務(wù)先執(zhí)行,但是這樣很可能一個大任務(wù)獨(dú)占資源,其他的資源需要不斷的等待,也可能一堆小任務(wù)占用資源,大任務(wù)一直無法得到適當(dāng)?shù)馁Y源,造成饑餓。所以 FIFO 雖然很簡單,但是并不能滿足我們的需求。

如下圖所示,在 Yarn 中有三種調(diào)度器可以選擇:FIFO Scheduler,Capacity Scheduler,F(xiàn)air Scheduler。

大數(shù)據(jù)計算引擎 EasyMR 如何簡單高效管理 Yarn 資源隊列

FIFO Scheduler

把應(yīng)用按提交的順序排成一個先進(jìn)先出隊列,在進(jìn)行資源分配的時候,先給隊列中最頭部的應(yīng)用進(jìn)行分配資源,等到最頭部的應(yīng)用需求滿足后再給下一個分配,以此類推。

FIFO Scheduler 是最簡單也是最容易理解的調(diào)度器,它不需要任何配置,但不適用于共享集群中。大的應(yīng)用可能會占用所有集群資源,從而導(dǎo)致其它應(yīng)用被阻塞。

Capacity 調(diào)度器

允許多租戶安全的共享集群資源,提供的核心理念就是 Queues(隊列),它支持多個隊列,每個隊列可配置一定的資源量,以確保在其他 queues 允許使用空閑資源之前,資源可以在一個組織的 sub-queues 之間共享,且每個隊列采用 FIFO 調(diào)度策略。為了在共享資源上,提供更多的控制和預(yù)見性,applications 在容量限制之下,可以及時的分配資源。

Fair 調(diào)度器

在 Fair 調(diào)度器中,我們不需要預(yù)先占用一定的系統(tǒng)資源,F(xiàn)air 調(diào)度器會為所有運(yùn)行的 job 動態(tài)的調(diào)整系統(tǒng)資源。當(dāng)?shù)谝粋€大 job 提交時,只有這一個 job 在運(yùn)行,此時它獲得了所有集群資源;當(dāng)?shù)诙€小任務(wù)提交后,F(xiàn)air 調(diào)度器會分配一半資源給這個小任務(wù),讓這兩個任務(wù)公平的共享集群資源。

需要注意的是,從第二個任務(wù)提交到獲得資源會有一定的延遲,因為它需要等待第一個任務(wù)釋放占用的 Container。小任務(wù)執(zhí)行完成之后也會釋放自己占用的資源,大任務(wù)又獲得了全部的系統(tǒng)資源。最終的效果就是 Fair 調(diào)度器既得到了高的資源利用率又能保證小任務(wù)及時完成。

EasyMR 如何管理 Yarn 資源隊列

最原始的調(diào)度規(guī)則就是 FIFO,即按照用戶提交任務(wù)的時間來決定哪個任務(wù)先執(zhí)行,但是這樣可能會導(dǎo)致一個大任務(wù)獨(dú)占資源,其他的資源需要不斷的等待,也可能導(dǎo)致一堆小任務(wù)占用資源,大任務(wù)一直無法得到適當(dāng)?shù)馁Y源,造成饑餓。

所以 FIFO 雖然很簡單,但是并不能滿足我們的需求。最常使用的是容量調(diào)度策略,但是運(yùn)維人員在配置容量隊列時,需要考慮隊列資源利用率,隊列的狀態(tài),修改完成后,亦無法校驗配置是否正確。

EasyMR 出于簡單高效原則,開放了資源隊列管理功能。

以容量調(diào)度為例,為大家簡單演示 EasyMR 中隊列的使用。假設(shè)公司有個大數(shù)據(jù)部門,該部門下有個做數(shù)據(jù)同步的小組,隊列樹形圖如下:

root 
├── bigdata
    |---dataSync

要創(chuàng)建這樣層次的隊列,首先需要在父級別下面創(chuàng)建 bigdata 隊列,然后在 bigdata 下面劃分一個子隊列 dataSync,下文進(jìn)行詳細(xì)介紹。

創(chuàng)建隊列

首先創(chuàng)建父隊列 bigdata,設(shè)置最小容量20%,最大容量50%。

大數(shù)據(jù)計算引擎 EasyMR 如何簡單高效管理 Yarn 資源隊列

在父隊列中添加 bigdata 隊列名稱。

 <property>
   <!-- root隊列中有哪些子隊列-->
   <name>yarn.scheduler.capacity.root.queues</name>
   <value>default,bigdata</value>
   <description></description>
 </property>

設(shè)置 bigdata 的容量調(diào)度配置。

   <property>
     <!-- bigdata隊列占用的容量百分比-->
     <name>yarn.scheduler.capacity.root.bigdata.capacity</name>
     <value>20</value>
     <description></description>
   </property>
   <property>
     <!-- root隊列中bigdata隊列占用的容量百分比的最大值-->
     <name>yarn.scheduler.capacity.root.bigdata.maximum-capacity</name>
     <value>50</value>
     <description></description>
   </property>
   <property>
     <!-- queue容量的倍數(shù),用來設(shè)置一個user可以獲取更多的資源。默認(rèn)值為1-->
     <name>yarn.scheduler.capacity.root.bigdata.user-limit-factor</name>
     <value>1</value>
     <description></description>
   </property>
   <property>
     <!--設(shè)置bigdata隊列的狀態(tài)-->
     <name>yarn.scheduler.capacity.root.bigdata.state</name>
     <value>RUNNING</value>
     <description></description>
   </property>

創(chuàng)建子隊列

在 bigdata 父隊列下面,選擇創(chuàng)建子隊列,設(shè)置最小容量10%,最大容量30%。

大數(shù)據(jù)計算引擎 EasyMR 如何簡單高效管理 Yarn 資源隊列

在 bigdata 隊列中添加 dataSync 隊列名。

   <property>
     <!-- bigdata隊列中有哪些子隊列-->
     <name>yarn.scheduler.capacity.root.bigdata.queues</name>
     <value>dataSync</value>
     <description></description>
   </property>

設(shè)置 dataSync 隊列的容量調(diào)度配置。

   <property>
     <!-- bigdata隊列dataSync子隊列的容量百分比-->
     <name>yarn.scheduler.capacity.root.bigdata.dataSync.capacity</name>
     <value>10</value>
     <description></description>
   </property>
   <property>
     <!-- bigdata隊列中bigdata隊列占用的容量百分比的最大值-->
     <name>yarn.scheduler.capacity.root.bigdata.dataSync.maximum-capacity</name>
     <value>30</value>
     <description></description>
   </property>
   <property>
     <!-- queue容量的倍數(shù),用來設(shè)置一個user可以獲取更多的資源。默認(rèn)值為1-->
     <name>yarn.scheduler.capacity.root.bigdata.dataSync.user-limit-factor</name>
     <value>1</value>
     <description></description>
   </property>
   <property>
     <!--設(shè)置子隊列dataSync隊列的狀態(tài)-->
     <name>yarn.scheduler.capacity.root.bigdata.dataSync.state</name>
     <value>RUNNING</value>
     <description></description>
   </property>

查看隊列

創(chuàng)建完成后,可以在 EasyMR 資源隊列查看隊列詳情。

大數(shù)據(jù)計算引擎 EasyMR 如何簡單高效管理 Yarn 資源隊列

在 EasyMR 創(chuàng)建完成后,也可以在 yarn web 管理頁面查看隊列創(chuàng)建詳情。

大數(shù)據(jù)計算引擎 EasyMR 如何簡單高效管理 Yarn 資源隊列

至此,Yarn 的一個簡單容量調(diào)度就創(chuàng)建完成了。

《數(shù)棧產(chǎn)品白皮書》:https://www.dtstack.com/resources/1004?src=szsm

《數(shù)據(jù)治理行業(yè)實(shí)踐白皮書》下載地址:https://www.dtstack.com/resources/1001?src=szsm

想了解或咨詢更多有關(guān)袋鼠云大數(shù)據(jù)產(chǎn)品、行業(yè)解決方案、客戶案例的朋友,瀏覽袋鼠云官網(wǎng):https://www.dtstack.com/?src=szbky

同時,歡迎對大數(shù)據(jù)開源項目有興趣的同學(xué)加入「袋鼠云開源框架釘釘技術(shù)qun」,交流最新開源技術(shù)信息,qun號碼:30537511,項目地址:https://github.com/DTStack文章來源地址http://www.zghlxwxcb.cn/news/detail-687307.html

到了這里,關(guān)于大數(shù)據(jù)計算引擎 EasyMR 如何簡單高效管理 Yarn 資源隊列的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • EasyMR6.2 全面解讀:四大功能深度優(yōu)化,解鎖全新大數(shù)據(jù)處理和計算體驗

    EasyMR6.2 全面解讀:四大功能深度優(yōu)化,解鎖全新大數(shù)據(jù)處理和計算體驗

    在剛剛過去的2024春季發(fā)布會上,袋鼠云帶來了數(shù)棧產(chǎn)品V6.2版本的全新發(fā)布。其中,EasyMR 作為數(shù)棧V6.2中的一項關(guān)鍵能力,代表了袋鼠云對大數(shù)據(jù)生態(tài)的深入理解和持續(xù)創(chuàng)新。 EasyMR(后文統(tǒng)稱EMR)是袋鼠云基于 Hadoop、Hive、Spark、Flink、HBase 等開源組件,構(gòu)建的彈性計算引擎,

    2024年04月22日
    瀏覽(21)
  • 通過 Lucene.Net 支持的 .NET 索引和搜索引擎的高效使用與探索:Examine 的簡單索引與搜索數(shù)據(jù)應(yīng)用以及其可擴(kuò)展性分析

    在當(dāng)前的技術(shù)環(huán)境中,搜索和索引數(shù)據(jù)變得越來越重要,尤其是在處理大量數(shù)據(jù)時。這就使得我們需要一種能夠快速、精確、高效地索引和搜索數(shù)據(jù)的工具。在本文中,我們將深入探討一種用于 .NET 的索引和搜索引擎——Examine,這是一個封裝了 Lucene.Net 的庫,它能使我們更方

    2024年02月16日
    瀏覽(28)
  • 云計算與大數(shù)據(jù)平臺:實(shí)現(xiàn)高效的數(shù)據(jù)驅(qū)動的供應(yīng)鏈管理

    在當(dāng)今的數(shù)字時代,數(shù)據(jù)已經(jīng)成為企業(yè)競爭力的重要組成部分。供應(yīng)鏈管理是企業(yè)運(yùn)營中不可或缺的環(huán)節(jié),其中數(shù)據(jù)驅(qū)動的供應(yīng)鏈管理尤其重要。云計算與大數(shù)據(jù)平臺在這個過程中發(fā)揮著關(guān)鍵作用,幫助企業(yè)實(shí)現(xiàn)高效的供應(yīng)鏈管理。本文將從背景、核心概念、核心算法原理、

    2024年04月28日
    瀏覽(23)
  • Airflow大揭秘:如何讓大數(shù)據(jù)任務(wù)調(diào)度變得簡單高效?

    Airflow大揭秘:如何讓大數(shù)據(jù)任務(wù)調(diào)度變得簡單高效?

    介紹:Airflow是一個開源的、用于創(chuàng)建、調(diào)度和監(jiān)控數(shù)據(jù)管道的工作流平臺。這個平臺使用Python編寫,并通過有向無環(huán)圖(Directed Acyclic Graph, DAG)來管理任務(wù)流程,使得用戶不需要知道業(yè)務(wù)數(shù)據(jù)的具體內(nèi)容,只需設(shè)置任務(wù)之間的依賴關(guān)系,即可實(shí)現(xiàn)任務(wù)的自動調(diào)度。 在具體應(yīng)

    2024年01月20日
    瀏覽(34)
  • 【表達(dá)式引擎】簡單高效的輕量級Java表達(dá)式引擎:Aviator

    【表達(dá)式引擎】簡單高效的輕量級Java表達(dá)式引擎:Aviator

    Aviator 是一個高性能、、輕量級的表達(dá)式引擎,支持表達(dá)式動態(tài)求值。其設(shè)計目標(biāo)為輕量級和高性能,相比于 Groovy 和 JRuby 的笨重, Aviator 就顯得更加的小巧。與其他的輕量級表達(dá)式引擎不同,其他的輕量級表達(dá)式引擎基本都是通過解釋代碼的方式來運(yùn)行,而 Aviator 則是直接

    2024年02月09日
    瀏覽(98)
  • 人工智能與云計算:如何實(shí)現(xiàn)醫(yī)療數(shù)據(jù)的高效共享

    作者:禪與計算機(jī)程序設(shè)計藝術(shù) 隨著醫(yī)療數(shù)據(jù)量的增加、消費(fèi)需求的提升、以及國際化的趨勢加劇,數(shù)據(jù)共享成為醫(yī)療行業(yè)的一個重要方向。傳統(tǒng)的數(shù)據(jù)共享模式主要依靠中心化共享平臺(例如EHR)或聯(lián)邦性數(shù)據(jù)共享框架(例如HL7),但在復(fù)雜多樣的醫(yī)療信息環(huán)境中難以實(shí)現(xiàn)

    2024年02月15日
    瀏覽(23)
  • 云計算與大數(shù)據(jù)分析:如何實(shí)現(xiàn)高效的數(shù)據(jù)清洗與預(yù)處理

    隨著互聯(lián)網(wǎng)的普及和數(shù)據(jù)的快速增長,數(shù)據(jù)分析和處理成為了企業(yè)和組織中的重要組成部分。大數(shù)據(jù)分析是指利用大量數(shù)據(jù)來發(fā)現(xiàn)新的信息和洞察,從而為企業(yè)和組織提供決策支持。云計算是一種基于互聯(lián)網(wǎng)的計算資源共享和分配模式,它可以讓企業(yè)和組織更加高效地利用計

    2024年04月11日
    瀏覽(25)
  • CSR格式如何更新? GES圖計算引擎HyG揭秘之?dāng)?shù)據(jù)更新

    摘要: HyG圖計算引擎采用CSR格式來存儲圖的拓?fù)湫畔?,CSR格式可以將稀疏矩陣的存儲空間壓縮,進(jìn)而大大降低圖的存儲開銷,同時具備訪問效率高、格式易轉(zhuǎn)化等優(yōu)點(diǎn)。 本文分享自華為云社區(qū)《CSR格式如何更新? GES圖計算引擎HyG揭秘之?dāng)?shù)據(jù)更新》,作者: π 。 HyG圖計算引

    2024年02月09日
    瀏覽(16)
  • 流式計算中的多線程處理:如何使用Kafka實(shí)現(xiàn)高效的實(shí)時數(shù)據(jù)處理

    作者:禪與計算機(jī)程序設(shè)計藝術(shù) Apache Kafka 是 Apache Software Foundation 下的一個開源項目,是一個分布式的、高吞吐量的、可擴(kuò)展的消息系統(tǒng)。它最初由 LinkedIn 開發(fā)并于 2011 年發(fā)布。與其他一些類似產(chǎn)品相比,Kafka 有著更強(qiáng)大的功能和活躍的社區(qū)支持。因此,越來越多的人開始使

    2024年02月12日
    瀏覽(20)
  • 如何讓智能搜索引擎更靈活、更高效?

    如何讓智能搜索引擎更靈活、更高效?

    隨著互聯(lián)網(wǎng)的發(fā)展和普及,搜索引擎已經(jīng)成為人們獲取信息、解決問題的主要工具之一。 然而,傳統(tǒng)的搜索引擎在面對大數(shù)據(jù)時,往往存在著搜索效率低下、搜索結(jié)果精準(zhǔn)度不夠等問題。 為了解決這些問題,越來越多的企業(yè)開始采用智能搜索技術(shù),提升搜索效率和搜索結(jié)果

    2024年02月12日
    瀏覽(29)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包