国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Hadoop概述

1年前作者：H-YONG-8分類：Toy博客閱讀(31)違法舉報

這篇具有很好參考價值的文章主要介紹了Hadoop概述。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

Hadoop概述

Hadoop是什么

hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)框架
其主要解決，海量數(shù)據(jù)的存儲和海量數(shù)據(jù)的的分析計算問題
廣義上，Hadoop通常是指一個更加廣泛的概念——Hadoop生態(tài)圈

Hadoop的發(fā)展歷史

Hadoop創(chuàng)始人Doug Cutting，為了實現(xiàn)與Google類似的全文搜索功能，他在Lucene框架基礎(chǔ)上進行優(yōu)化升級，查詢引擎和索引引擎。

](https://gitee.com/ilusymon//images4md/raw/master/Nefelibata/image-20210621161540936.png)

2001年年底Lucene成為Apache基金會的一個子項目。
對于海量數(shù)據(jù)的場景，Lucene框架面對與Google同樣的困難，存儲海量數(shù)據(jù)困難，檢索海量速度慢。
學習和模仿Google解決這些問題的辦法：微型版Nutch。
可以說Google是Hadoop的思想之源（Google在大數(shù)據(jù)方面的三篇論文）

GFS --->HDFS

Map-Reduce --->MR

BigTable --->HBase

2003-2004年，Google公開了部分GFS和MapReduce思想的細節(jié)，以此為基礎(chǔ)Doug Cutting等人用了2年業(yè)余時間實現(xiàn)了DFS和MapReduce機制，使Nutch性能飆升。
2005 年Hadoop 作為 Lucene的子項目 Nutch的一部分正式引入Apache基金會。
2006 年 3 月份，Map-Reduce和Nutch Distributed File System （NDFS）分別被納入到 Hadoop 項目中，Hadoop就此正式誕生，標志著大數(shù)據(jù)時代來臨。 9）名字來源于Doug Cutting兒子的玩具大象

Hadoop三大發(fā)行版本（了解）

三大發(fā)行版本：Apache、Cloudera、Hortonworks
Apache 版本最原始（最基礎(chǔ)）的版本，對于入門學習最好。2006
Cloudera 內(nèi)部集成了很多大數(shù)據(jù)框架，對應產(chǎn)品 CDH。2008
Hortonworks 文檔較好，對應產(chǎn)品 HDP。2011
Hortonworks 現(xiàn)在已經(jīng)被 Cloudera 公司收購，推出新的品牌 CDP。
1. Apache Hadoop Hadoop
  
  官網(wǎng)地址：http://hadoop.apache.org
  
  下載地址：https://hadoop.apache.org/releases.html
2. Cloudera Hadoop
  
  官網(wǎng)地址：https://www.cloudera.com/downloads/cdh
  
  下載地址：https://docs.cloudera.com/documentation/enterprise/6/releasenotes/topics/rg_cdh_6_download.html
  - 2008 年成立的 Cloudera 是最早將 Hadoop 商用的公司，為合作伙伴提供 Hadoop 的商用解決方案，主要是包括支持、咨詢服務、培訓。
  - 2009 年 Hadoop 的創(chuàng)始人 Doug Cutting 也加盟 Cloudera 公司。Cloudera 產(chǎn)品主要為 CDH，Cloudera Manager，Cloudera Support
  - CDH 是 Cloudera 的 Hadoop 發(fā)行版，完全開源，比 Apache Hadoop 在兼容性，安全性，穩(wěn)定性上有所增強。Cloudera 的標價為每年每個節(jié)點 10000 美元。
  - Cloudera Manager 是集群的軟件分發(fā)及管理監(jiān)控平臺，可以在幾個小時內(nèi)部署好一個 Hadoop 集群，并對集群的節(jié)點及服務進行實時監(jiān)控。
3. Hortonworks Hadoop
  
  官網(wǎng)地址：https://hortonworks.com/products/data-center/hdp/ 下載地址：https://hortonworks.com/downloads/#data-platform
  - 2011 年成立的 Hortonworks 是雅虎與硅谷風投公司 Benchmark Capital 合資組建。
  - 公司成立之初就吸納了大約 25 名至 30 名專門研究 Hadoop 的雅虎工程師，上述工程師均在 2005 年開始協(xié)助雅虎開發(fā) Hadoop，貢獻了 Hadoop80%的代碼。
  - Hortonworks 的主打產(chǎn)品是 Hortonworks Data Platform（HDP），也同樣是 100% 開源的產(chǎn)品，HDP 除常見的項目外還包括了 Ambari，一款開源的安裝和管理系統(tǒng)。
  - 2018 年 Hortonworks 目前已經(jīng)被 Cloudera 公司收購

Hadoop優(yōu)勢（4高）

高可靠性：Hadoop底層維護多個數(shù)據(jù)副本，所以即使Hadoop某個計算元素或存儲出現(xiàn)故障，也不會導致數(shù)據(jù)的丟失。
高擴展性：在集群間分配任務數(shù)據(jù)，可方便的擴展數(shù)以千計的節(jié)點
高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任務處理的速度
高容錯性：能夠自動將失敗的任務重新分配

Hadoop組成（面試重點）

在Hadoop1.x時代，Hadoop中的MapReduce同時處理業(yè)務邏輯運算和資源的調(diào)度，耦合性較大。
在Hadoop2.x時代，增加了Yarn。Yarn只負責資源的調(diào)度。
在Hadoop3.x時代在組成上沒有變化。

HDFS架構(gòu)概述

Hadoop Distributed File System，簡稱HDFS，是一個分布式文件系統(tǒng)。
NameNode（nn）：存儲文件的元數(shù)據(jù)，如文件名，文件目錄結(jié)構(gòu)，文件屬性（生成時間、副本數(shù)、文件權(quán)限），以及每個文件的塊列表和塊所在的DataNode等。
DataNode(dn)：在本地文件系統(tǒng)存儲文件塊數(shù)據(jù)，以及塊數(shù)據(jù)的校驗和。
Secondary NameNode(2nn)：每隔一段時間對NameNode元數(shù)據(jù)備份。

YARN架構(gòu)概述

Yet Another Resource Negotiator簡稱YARN，另一種資源協(xié)調(diào)者，是Hadoop的資源管理器。
ResourceManager（RM）：整個集群資源（內(nèi)存、CPU等）的管理者
NodeManager（NM）：單個節(jié)點服務器資源管理者
ApplicatMasters（AM）：單個任務運行的管理者
Container：容器，相當于一臺獨立的服務器，里面封裝了任務運行所需的資源（內(nèi)存、CPU、磁盤、網(wǎng)絡等）
說明：
1. 客戶端可以有多個
2. 集群上可以運行多個ApplicatMaster
3. 每個NodeManager上可以有多個Container

MapReduce架構(gòu)概述

MapReduce 將計算過程分為兩個階段：Map 和 Reduce
Map階段并行處理輸入數(shù)據(jù)
Reduce階段對Map結(jié)果進行匯總

HDFS、YARN、MapReduce 三者關(guān)系

Hadoop概述

大數(shù)據(jù)技術(shù)生態(tài)體系

Hadoop概述

圖中涉及的技術(shù)名詞解釋如下：

Sqoop：Sqoop 是一款開源的工具，主要用于在 Hadoop、Hive 與傳統(tǒng)的數(shù)據(jù)庫（MySQL）間進行數(shù)據(jù)的傳遞，可以將一個關(guān)系型數(shù)據(jù)庫（例如：MySQL，Oracle 等）中的數(shù)據(jù)導進到 Hadoop 的 HDFS 中，也可以將 HDFS 的數(shù)據(jù)導進到關(guān)系型數(shù)據(jù)庫中。
Flume：Flume 是一個高可用的，高可靠的，分布式的海量日志采集、聚合和傳輸?shù)南?統(tǒng)，F(xiàn)lume 支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方，用于收集數(shù)據(jù)；
Kafka：Kafka 是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)；
Spark：Spark 是當前最流行的開源大數(shù)據(jù)內(nèi)存計算框架。可以基于 Hadoop 上存儲的大數(shù)據(jù)進行計算。
Flink：Flink 是當前最流行的開源大數(shù)據(jù)內(nèi)存計算框架。用于實時計算的場景較多。
Oozie：Oozie 是一個管理 Hadoop 作業(yè)（job）的工作流程調(diào)度管理系統(tǒng)。
Hbase：HBase 是一個分布式的、面向列的開源數(shù)據(jù)庫。HBase 不同于一般的關(guān)系數(shù)據(jù) 庫，它是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫。
Hive：Hive 是基于 Hadoop 的一個數(shù)據(jù)倉庫工具，可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表，并提供簡單的 SQL 查詢功能，可以將 SQL 語句轉(zhuǎn)換為 MapReduce 任務進行運行。其優(yōu)點是學習成本低，可以通過類 SQL 語句快速實現(xiàn)簡單的 MapReduce 統(tǒng)計，不必開發(fā)專門的 MapReduce 應用，十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。
ZooKeeper：它是一個針對大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng)，提供的功能包括：配置維護、名字服務、分布式同步、組服務等。

推薦系統(tǒng)框架圖

文章來源地址http://www.zghlxwxcb.cn/news/detail-427805.html

?

到了這里，關(guān)于Hadoop概述的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權(quán)，不承擔相關(guān)法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務器費用

Hadoop學習指南：探索大數(shù)據(jù)時代的重要組成——Hadoop概述
在當今大數(shù)據(jù)時代，處理海量數(shù)據(jù)成為了一項關(guān)鍵任務。Hadoop作為一種開源的分布式計算框架，為大規(guī)模數(shù)據(jù)處理和存儲提供了強大的解決方案。本文將介紹Hadoop的組成和其在大數(shù)據(jù)處理中的重要作用，讓我們一同踏上學習Hadoop的旅程。 1）Hadoop是一個由Apache基金會所開發(fā)的
2024年02月14日
瀏覽(47)
1.2 Hadoop概述
) 1.2.1 回歸問題通過前一篇帖子的介紹，特別是問題思考部分的說明，我們大致能夠感受到為何需要新的技術(shù)體系來解決大數(shù)據(jù)問題，接下來咱們繼續(xù)梳理細節(jié)。 step_0 傳統(tǒng)方案既貴又搞不定大數(shù)據(jù)問題。（1）傳統(tǒng)數(shù)據(jù)的處理模式：用戶+集中式系統(tǒng)+關(guān)系型數(shù)據(jù)庫優(yōu)點是架構(gòu)
2024年01月23日
瀏覽(14)
Hadoop概述
hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)框架其主要解決，海量數(shù)據(jù)的存儲和海量數(shù)據(jù)的的分析計算問題廣義上，Hadoop通常是指一個更加廣泛的概念—— Hadoop生態(tài)圈 Hadoop創(chuàng)始人Doug Cutting，為了實現(xiàn)與Google類似的全文搜索功能，他在Lucene框架基礎(chǔ)上進行優(yōu)化升級
2024年02月01日
瀏覽(31)
【Hadoop】- MapReduce概述[5]
目錄前言一、分布式計算框架 - MapReduce 二、MapReduce執(zhí)行原理 MapReduce是一種分布式計算框架，由Google開發(fā)。它的設計目標是將大規(guī)模數(shù)據(jù)集的處理和生成任務分布到一個由廉價計算機組成的集群中。在MapReduce模型中，輸入數(shù)據(jù)被分割成若干小塊，并在集群中的多個節(jié)點上并
2024年04月25日
瀏覽(23)
Hadoop之MapReduce概述
MapReduce定義 MapReduce是一個分布式運算程序的編程框架，是用戶開發(fā)“基于Hadoop的數(shù)據(jù)分析應用”的核心框架。 MapReduce核心功能是將用戶編寫的業(yè)務邏輯代碼和自帶默認組件整合成一個完整的分布式運算程序，并發(fā)運行在一個Hadoop集群上。 MapReduce優(yōu)缺點優(yōu)點 1）MapReduce易于編
2024年02月08日
瀏覽(27)
Hadoop入門概述
Hadoop 是一個開源的分布式計算框架，主要用于處理和存儲大規(guī)模數(shù)據(jù)集。以下是學習Hadoop時需要掌握的一些關(guān)鍵概念和技術(shù)要點： Hadoop 概述 Hadoop是什么： Hadoop是一個基于Java編寫的開源軟件庫，用于在商用硬件集群上分布式處理和存儲海量數(shù)據(jù)。它提供了一個高容錯性、
2024年02月03日
瀏覽(15)
初識Hadoop-概述與關(guān)鍵技術(shù)
?????? 高速發(fā)展的信息時代，新一輪科技革命和變革正在加速推進，技術(shù)創(chuàng)新日益成為重塑經(jīng)濟發(fā)展模式和促進經(jīng)濟增長的重要驅(qū)動力量，而 “大數(shù)據(jù)” 無疑是核心推動力。 ????? 那么，什么是 “大數(shù)據(jù)” 呢？如果從字面意思來看，大數(shù)據(jù)指的是巨量數(shù)據(jù) 。那么可能
2024年01月23日
瀏覽(15)
hadoop解決文件上傳問題（DataStreamer Exceptionorg.apache.hadoop.ipc.RemoteException）
完成Hadoop環(huán)境搭建后，使用Hadoop shell命令時---上傳本地文件到HDFS的目錄下，出現(xiàn)如下報錯： ???????? 通過查資料，應該是我多次執(zhí)行NameNode格式化導致的（因為多次格式化namenode會造成namenode和datanode 的 clusterID不一致！每次格式化時，namenode會更新clusterID，但是datanode只會
2023年04月24日
瀏覽(12)
大數(shù)據(jù)課程D2——hadoop的概述
文章作者郵箱：yugongshiye@sina.cn? ? ? ? ? ? ? 地址：廣東惠州 ??了解hadoop的定義和特點； ??掌握hadoop的基礎(chǔ)結(jié)構(gòu)； ? 掌握hadoop的常見命令； ? 了解hadoop的執(zhí)行流程； 1. HDFS(Hadoop Distributed File System - Hadoop分布式文件系統(tǒng))是Hadoop提供的一套用于進行分布式存儲的機制。
2024年02月15日
瀏覽(17)
Hadoop datanode啟動異常 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode
現(xiàn)象線上收到hadoop集群datanode掉線告警。排查 1、確認datanode狀態(tài) 發(fā)現(xiàn)未存在datanode進程。 2、嘗試單獨啟動datanode，發(fā)現(xiàn)還是不行，錯誤日志信息如下： $ hadoop-daemon.sh start datanode 2022-11-25 15:58:43,267 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool (Datanod
2023年04月08日
瀏覽(22)