国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Hadoop基礎(chǔ)學(xué)習(xí)---2、Hadoop概述

這篇具有很好參考價(jià)值的文章主要介紹了Hadoop基礎(chǔ)學(xué)習(xí)---2、Hadoop概述。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

1、Hadoop概述

1.1 Hadoop是什么?

1、Hadoop是一個(gè)又Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。
2、主要解決海量數(shù)據(jù)的存儲(chǔ)和海量數(shù)據(jù)的分析計(jì)算。
3、廣義上來說,Hadoop通常是指一個(gè)更廣泛的概念——Hadoop生態(tài)圈。
Hadoop基礎(chǔ)學(xué)習(xí)---2、Hadoop概述

1.2 Hadoop 優(yōu)勢(shì)(4高)

1、高可靠性:Hadoop底層維護(hù)多個(gè)數(shù)據(jù)副本,所有即使Hadoop某個(gè)計(jì)算元素或存儲(chǔ)出現(xiàn)故障,也不會(huì)導(dǎo)致數(shù)據(jù)的丟失。
2、高擴(kuò)展性:在集群間分配任務(wù)數(shù)據(jù),可方便擴(kuò)展數(shù)以千計(jì)的節(jié)點(diǎn)
3、高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任務(wù)處理速度。
4、高容錯(cuò)性:能夠自動(dòng)將失敗的任務(wù)重新分配。

1.3 Hadoop組成

Hadoop基礎(chǔ)學(xué)習(xí)---2、Hadoop概述
在Hadoop2.x時(shí)代,增加了Yarn。Yarn只負(fù)責(zé)資源的調(diào)度,MapReduce只負(fù)責(zé)運(yùn)算。Hadoop3.x在組成上沒有變化。

1.3.1 HDFS架構(gòu)概述

Hadoop Distributed File System 簡稱HDFS,是一個(gè)分布式文件系統(tǒng)。
1、NameNode(nn):存儲(chǔ)文件的元數(shù)據(jù),如文件名,文件目錄結(jié)構(gòu),文件屬性(生成時(shí)間,副本數(shù),文件權(quán)限),以及每個(gè)文件的塊列表和塊所在的DataNode等。
2、DataNode(dn):在本地文件系統(tǒng)存儲(chǔ)文件塊數(shù)據(jù)塊,以及塊數(shù)據(jù)的校驗(yàn)和。
3、Secondary NameNode(2nn):每隔一段時(shí)間對(duì)NameNode元數(shù)據(jù)備份

1.3.2 Yarn架構(gòu)概述

Yet Another Resource Negotiator簡稱Yarn。另一種資源協(xié)調(diào)者,是Hadoop的資源管理器。

1、ResourceManager(RM):整個(gè)集群資源(內(nèi)存、CPU等)的老大。
2、NodeManager(NM):當(dāng)個(gè)節(jié)點(diǎn)服務(wù)器資源的老大
3、ApplicationMaster(AM):單個(gè)任務(wù)運(yùn)行的老大
4、Container:容器,相當(dāng)于一臺(tái)獨(dú)立的服務(wù)器,里面封裝了任務(wù)運(yùn)行所需要的資源(CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)等)。
Hadoop基礎(chǔ)學(xué)習(xí)---2、Hadoop概述
說明:
1、客戶端可以有多個(gè)。
2、集群上可以運(yùn)行多個(gè)ApplicationMaster。
3、每個(gè)NodeManager上可以有多個(gè)Container。

1.3.3 MapReduce架構(gòu)概述

MapReduce將計(jì)算過程分為兩個(gè)階段:Map和Reduce
1、Map階段并行處理輸入數(shù)據(jù)
2、Reduce階段對(duì)Map結(jié)果進(jìn)行匯總
Hadoop基礎(chǔ)學(xué)習(xí)---2、Hadoop概述

1.3.4 HDFS、YARN、MapReduce三者關(guān)系

Hadoop基礎(chǔ)學(xué)習(xí)---2、Hadoop概述

1.4 大數(shù)據(jù)技術(shù)生態(tài)體系

Hadoop基礎(chǔ)學(xué)習(xí)---2、Hadoop概述
1、Sqoop::Sqoop 是一款開源的工具,主要用于在 Hadoop、Hive 與傳統(tǒng)的數(shù)據(jù)庫(MySQL)間進(jìn)行數(shù)據(jù)的傳遞,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(例如 :MySQL,Oracle 等)中的數(shù)據(jù)導(dǎo)進(jìn)到 Hadoop 的 HDFS 中,也可以將 HDFS 的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫中。
2、Flume:Flume 是一個(gè)高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),F(xiàn)lume 支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù)。
3、Kafka:Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)。
4、Spark:Spark是當(dāng)前最流行的開源大數(shù)據(jù)內(nèi)存計(jì)算框架??梢曰贖adoop上存儲(chǔ)的大數(shù)據(jù)進(jìn)行計(jì)算。
5、Flink:Flink是當(dāng)前最流行的開源大數(shù)據(jù)內(nèi)存計(jì)算框架。用于實(shí)時(shí)計(jì)算的場景較多。
6、Oozie:Oozie是一個(gè)管理Hadoop作業(yè)(job)的工作流程調(diào)度管理系統(tǒng)。
7、Hbase:HBase是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫。HBase不同于一般的關(guān)系數(shù)據(jù)庫,它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫。
8、Hive:Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供簡單的SQL查詢功能,可以將SQL語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。其優(yōu)點(diǎn)是學(xué)習(xí)成本低,可以通過類SQL語句快速實(shí)現(xiàn)簡單的MapReduce統(tǒng)計(jì),不必開發(fā)專門的MapReduce應(yīng)用,十分適合數(shù)據(jù)倉庫的統(tǒng)計(jì)分析。
9、Zookeeper:它是一個(gè)針對(duì)大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),提供的功能包括:配置維護(hù)、名字服務(wù)、分布式同步、組服務(wù)等。

1.5 推薦系統(tǒng)架構(gòu)圖

Hadoop基礎(chǔ)學(xué)習(xí)---2、Hadoop概述文章來源地址http://www.zghlxwxcb.cn/news/detail-451745.html

到了這里,關(guān)于Hadoop基礎(chǔ)學(xué)習(xí)---2、Hadoop概述的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 機(jī)器學(xué)習(xí)基礎(chǔ)之《概述》

    機(jī)器學(xué)習(xí)基礎(chǔ)之《概述》

    一、機(jī)器學(xué)習(xí)與人工智能、深度學(xué)習(xí) 1、機(jī)器學(xué)習(xí)是人工智能的一個(gè)實(shí)現(xiàn)途徑 2、深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)方法發(fā)展而來 二、統(tǒng)計(jì)學(xué)習(xí)和機(jī)器學(xué)習(xí) 實(shí)際機(jī)器學(xué)習(xí)在上世紀(jì)80年代已經(jīng)出現(xiàn),搞統(tǒng)計(jì)的 機(jī)器學(xué)習(xí)中有一個(gè)方法,叫人工神經(jīng)網(wǎng)絡(luò),發(fā)展成深度學(xué)習(xí) 三、機(jī)器學(xué)習(xí)、深

    2024年02月12日
    瀏覽(15)
  • HarmonyOS鴻蒙學(xué)習(xí)基礎(chǔ)篇 - 基本語法概述

    HarmonyOS鴻蒙學(xué)習(xí)基礎(chǔ)篇 - 基本語法概述

    書接上文?HarmonyOS鴻蒙學(xué)習(xí)基礎(chǔ)篇 - 運(yùn)行第一個(gè)程序 Hello World 基本語法概述 打開 entrysrcmainetspagesindex.ets 代碼如下 代碼詳細(xì)解釋如下: 在以上示例中,ArkTS的基本組成如下所示。? 裝飾器: 用于裝飾類、結(jié)構(gòu)、方法以及變量,并賦予其特殊的含義。如上述示例中@Entry、@Comp

    2024年01月24日
    瀏覽(16)
  • hadoop 學(xué)習(xí):mapreduce 入門案例一:WordCount 統(tǒng)計(jì)一個(gè)文本中單詞的個(gè)數(shù)

    hadoop 學(xué)習(xí):mapreduce 入門案例一:WordCount 統(tǒng)計(jì)一個(gè)文本中單詞的個(gè)數(shù)

    這個(gè)案例的需求很簡單 現(xiàn)在這里有一個(gè)文本wordcount.txt,內(nèi)容如下 現(xiàn)要求你使用 mapreduce 框架統(tǒng)計(jì)每個(gè)單詞的出現(xiàn)個(gè)數(shù)? 這樣一個(gè)案例雖然簡單但可以讓新學(xué)習(xí)大數(shù)據(jù)的同學(xué)熟悉 mapreduce 框架 (1)創(chuàng)建一個(gè) maven 工程,maven 工程框架可以選擇quickstart (2)在properties中添加 had

    2024年02月11日
    瀏覽(19)
  • Docker學(xué)習(xí)筆記(一):入門篇,Docker概述、基本組成等,對(duì)Docker有一個(gè)初步的認(rèn)識(shí)

    Docker學(xué)習(xí)筆記(一):入門篇,Docker概述、基本組成等,對(duì)Docker有一個(gè)初步的認(rèn)識(shí)

    記錄時(shí)間 [2024-4-5] 在先前的文章中,筆者進(jìn)行了 Windows 系統(tǒng)下 YOLOv8 模型的簡單測試,并由此引發(fā)思考:是否能嘗試將此模型運(yùn)行在 Linux 中呢?又或者,運(yùn)行在 Docker 中。關(guān)于 Docker 的學(xué)習(xí)就這么展開了。 本文便是有關(guān) Docker 入門的開篇之作,進(jìn)行 Docker 概述,期待讀者能夠

    2024年04月11日
    瀏覽(23)
  • Hadoop(一)Hadoop概述

    Hadoop(一)Hadoop概述

    1.Hadoop基本結(jié)構(gòu) Hadoop是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),主要解決海量數(shù)據(jù)的存儲(chǔ)和海量數(shù)據(jù)的分析計(jì)算問題。 Hadoop組成: Hadoop Common(輔助工具) : The common utilities that support the other Hadoop modules. Hadoop Distributed File System (數(shù)據(jù)存儲(chǔ)) : A distributed file system that provides high-throughput acc

    2023年04月08日
    瀏覽(15)
  • Hadoop 1.0 到 Hadoop 3.0版本功能概述

    2003-2004年,Google公布了部分GFS和MapReduce思想的細(xì)節(jié),受此啟發(fā)的Doug Cutting等人用2年的業(yè)余時(shí)間實(shí)現(xiàn)了DFS和MapReduce機(jī)制,使Nutch性能飆升。然后Yahoo招安Doug Gutting及其項(xiàng)目。 2005年,Hadoop作為Lucene的子項(xiàng)目Nutch的一部分正式引入Apache基金會(huì)。 2006年2月被分離出來,成為一套完整獨(dú)

    2023年04月23日
    瀏覽(18)
  • 1.2 Hadoop概述

    1.2 Hadoop概述

    ) 1.2.1 回歸問題 通過前一篇帖子的介紹,特別是問題思考部分的說明,我們大致能夠感受到為何需要新的技術(shù)體系來解決大數(shù)據(jù)問題,接下來咱們繼續(xù)梳理細(xì)節(jié)。 step_0 傳統(tǒng)方案既貴又搞不定大數(shù)據(jù)問題。 (1)傳統(tǒng)數(shù)據(jù)的處理模式:用戶+集中式系統(tǒng)+關(guān)系型數(shù)據(jù)庫 優(yōu)點(diǎn)是架構(gòu)

    2024年01月23日
    瀏覽(14)
  • Hadoop概述

    Hadoop概述

    hadoop是一個(gè)由Apache基金會(huì)所開發(fā)的 分布式系統(tǒng)基礎(chǔ)框架 其主要解決,海量 數(shù)據(jù)的存儲(chǔ)和海量數(shù)據(jù)的的分析計(jì)算 問題 廣義上,Hadoop通常是指一個(gè)更加廣泛的概念—— Hadoop生態(tài)圈 Hadoop創(chuàng)始人Doug Cutting, 為了實(shí)現(xiàn)與Google類似的全文搜索功能,他在Lucene框架基礎(chǔ)上進(jìn)行優(yōu)化升級(jí)

    2024年02月01日
    瀏覽(31)
  • 【Hadoop】- MapReduce概述[5]

    【Hadoop】- MapReduce概述[5]

    目錄 前言 一、分布式計(jì)算框架 - MapReduce 二、MapReduce執(zhí)行原理 MapReduce是一種 分布式計(jì)算框架 ,由Google開發(fā)。它的設(shè)計(jì)目標(biāo)是將大規(guī)模數(shù)據(jù)集的處理和生成任務(wù)分布到一個(gè)由廉價(jià)計(jì)算機(jī)組成的集群中。 在MapReduce模型中,輸入數(shù)據(jù)被分割成若干小塊,并在集群中的多個(gè)節(jié)點(diǎn)上并

    2024年04月25日
    瀏覽(23)
  • Hadoop之MapReduce概述

    Hadoop之MapReduce概述

    MapReduce定義 MapReduce是一個(gè)分布式運(yùn)算程序的編程框架,是用戶開發(fā)“基于Hadoop的數(shù)據(jù)分析應(yīng)用”的核心框架。 MapReduce核心功能是將用戶編寫的業(yè)務(wù)邏輯代碼和自帶默認(rèn)組件整合成一個(gè)完整的分布式運(yùn)算程序,并發(fā)運(yùn)行在一個(gè)Hadoop集群上。 MapReduce優(yōu)缺點(diǎn) 優(yōu)點(diǎn) 1)MapReduce易于編

    2024年02月08日
    瀏覽(27)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包