Hadoop概述
Hadoop是什么
-
hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)框架
-
其主要解決,海量數(shù)據(jù)的存儲和海量數(shù)據(jù)的的分析計算問題
-
廣義上,Hadoop通常是指一個更加廣泛的概念——Hadoop生態(tài)圈
Hadoop的發(fā)展歷史
-
Hadoop創(chuàng)始人Doug Cutting,為了實現(xiàn)與Google類似的全文搜索功能,他在Lucene框架基礎(chǔ)上進行優(yōu)化升級,查詢引擎和索引引擎。
](https://gitee.com/ilusymon//images4md/raw/master/Nefelibata/image-20210621161540936.png)
-
2001年年底Lucene成為Apache基金會的一個子項目。
-
對于海量數(shù)據(jù)的場景,Lucene框 架面 對與Google同樣的困難,存儲海量數(shù)據(jù)困難,檢索海量速度慢。
-
學習和模仿Google解決這些問題的辦法 :微型版Nutch。
-
可以說Google是Hadoop的思想之源(Google在大數(shù)據(jù)方面的三篇論文)
GFS --->HDFS
Map-Reduce --->MR
BigTable --->HBase
-
2003-2004年,Google公開了部分GFS和MapReduce思想的細節(jié),以此為基礎(chǔ)Doug Cutting等人用 了2年業(yè)余時間實現(xiàn)了DFS和MapReduce機制,使Nutch性能飆升。
-
2005 年Hadoop 作為 Lucene的子項目 Nutch的一部分正式引入Apache基金會。
-
2006 年 3 月份,Map-Reduce和Nutch Distributed File System (NDFS)分別被納入到 Hadoop 項目 中,Hadoop就此正式誕生,標志著大數(shù)據(jù)時代來臨。 9)名字來源于Doug Cutting兒子的玩具大象
Hadoop三大發(fā)行版本(了解)
-
三大發(fā)行版本:Apache、Cloudera、Hortonworks
-
Apache 版本最原始(最基礎(chǔ))的版本,對于入門學習最好。2006
-
Cloudera 內(nèi)部集成了很多大數(shù)據(jù)框架,對應產(chǎn)品 CDH。2008
-
Hortonworks 文檔較好,對應產(chǎn)品 HDP。2011
-
Hortonworks 現(xiàn)在已經(jīng)被 Cloudera 公司收購,推出新的品牌 CDP。
-
Apache Hadoop Hadoop
官網(wǎng)地址:http://hadoop.apache.org
下載地址:https://hadoop.apache.org/releases.html
-
Cloudera Hadoop
官網(wǎng)地址:https://www.cloudera.com/downloads/cdh
下載地址:https://docs.cloudera.com/documentation/enterprise/6/releasenotes/topics/rg_cdh_6_download.html
-
2008 年成立的 Cloudera 是最早將 Hadoop 商用的公司,為合作伙伴提供 Hadoop 的商用解決方案,主要是包括支持、咨詢服務、培訓。
-
2009 年 Hadoop 的創(chuàng)始人 Doug Cutting 也加盟 Cloudera 公司。Cloudera 產(chǎn)品主 要為 CDH,Cloudera Manager,Cloudera Support
-
CDH 是 Cloudera 的 Hadoop 發(fā)行版,完全開源,比 Apache Hadoop 在兼容性,安 全性,穩(wěn)定性上有所增強。Cloudera 的標價為每年每個節(jié)點 10000 美元。
-
Cloudera Manager 是集群的軟件分發(fā)及管理監(jiān)控平臺,可以在幾個小時內(nèi)部署好 一個 Hadoop 集群,并對集群的節(jié)點及服務進行實時監(jiān)控。
-
-
Hortonworks Hadoop
官網(wǎng)地址:https://hortonworks.com/products/data-center/hdp/ 下載地址:https://hortonworks.com/downloads/#data-platform
-
2011 年成立的 Hortonworks 是雅虎與硅谷風投公司 Benchmark Capital 合資組建。
-
公司成立之初就吸納了大約 25 名至 30 名專門研究 Hadoop 的雅虎工程師,上述 工程師均在 2005 年開始協(xié)助雅虎開發(fā) Hadoop,貢獻了 Hadoop80%的代碼。
-
Hortonworks 的主打產(chǎn)品是 Hortonworks Data Platform(HDP),也同樣是 100% 開源的產(chǎn)品,HDP 除常見的項目外還包括了 Ambari,一款開源的安裝和管理系統(tǒng)。
-
2018 年 Hortonworks 目前已經(jīng)被 Cloudera 公司收購
-
-
Hadoop優(yōu)勢(4高)
-
高可靠性:Hadoop底層維護多個數(shù)據(jù)副本,所以即使Hadoop某個計算元 素或存儲出現(xiàn)故障,也不會導致數(shù)據(jù)的丟失。
-
高擴展性:在集群間分配任務數(shù)據(jù),可方便的擴展數(shù)以千計的節(jié)點
-
高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任務處理的速度
-
高容錯性:能夠自動將失敗的任務重新分配
Hadoop組成(面試重點)
-
在Hadoop1.x時代,Hadoop中的MapReduce同時處理業(yè)務邏輯運算和資源的調(diào)度,耦合性較大。
-
在Hadoop2.x時代,增加了Yarn。Yarn只負責資源的調(diào)度。
-
在Hadoop3.x時代在組成上沒有變化。
HDFS架構(gòu)概述
-
Hadoop Distributed File System,簡稱HDFS,是一個分布式文件系統(tǒng)。
-
NameNode(nn):存儲文件的元數(shù)據(jù),如文件名,文件目錄結(jié)構(gòu),文件屬性(生成時間、副本數(shù)、 文件權(quán)限),以及每個文件的塊列表和塊所在的DataNode等。
-
DataNode(dn):在本地文件系統(tǒng)存儲文件塊數(shù)據(jù),以及塊數(shù)據(jù)的校驗和。
-
Secondary NameNode(2nn):每隔一段時間對NameNode元數(shù)據(jù)備份。
YARN架構(gòu)概述
-
Yet Another Resource Negotiator簡稱YARN,另一種資源協(xié)調(diào)者,是Hadoop的資源管理器。
-
ResourceManager(RM):整個集群資源(內(nèi)存、CPU等)的管理者
-
NodeManager(NM):單個節(jié)點服務器資源管理者
-
ApplicatMasters(AM):單個任務運行的管理者
-
Container:容器,相當于一臺獨立的服務器,里面封裝了任務運行所需的資源(內(nèi)存、CPU、磁盤、網(wǎng)絡等)
-
說明:
-
客戶端可以有多個
-
集群上可以運行多個ApplicatMaster
-
每個NodeManager上可以有多個Container
-
MapReduce架構(gòu)概述
-
MapReduce 將計算過程分為兩個階段:Map 和 Reduce
-
Map階段并行處理輸入數(shù)據(jù)
-
Reduce階段對Map結(jié)果進行匯總
HDFS、YARN、MapReduce 三者關(guān)系
大數(shù)據(jù)技術(shù)生態(tài)體系
圖中涉及的技術(shù)名詞解釋如下:
-
Sqoop:Sqoop 是一款開源的工具,主要用于在 Hadoop、Hive 與傳統(tǒng)的數(shù)據(jù)庫 (MySQL)間進行數(shù)據(jù)的傳遞,可以將一個關(guān)系型數(shù)據(jù)庫(例如 :MySQL,Oracle 等) 中的數(shù)據(jù)導進到 Hadoop 的 HDFS 中,也可以將 HDFS 的數(shù)據(jù)導進到關(guān)系型數(shù)據(jù)庫中。
-
Flume:Flume 是一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南?統(tǒng),F(xiàn)lume 支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);
-
Kafka:Kafka 是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng);
-
Spark:Spark 是當前最流行的開源大數(shù)據(jù)內(nèi)存計算框架。可以基于 Hadoop 上存儲的大 數(shù)據(jù)進行計算。
-
Flink:Flink 是當前最流行的開源大數(shù)據(jù)內(nèi)存計算框架。用于實時計算的場景較多。
-
Oozie:Oozie 是一個管理 Hadoop 作業(yè)(job)的工作流程調(diào)度管理系統(tǒng)。
-
Hbase:HBase 是一個分布式的、面向列的開源數(shù)據(jù)庫。HBase 不同于一般的關(guān)系數(shù)據(jù) 庫,它是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫。
-
Hive:Hive 是基于 Hadoop 的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張 數(shù)據(jù)庫表,并提供簡單的 SQL 查詢功能,可以將 SQL 語句轉(zhuǎn)換為 MapReduce 任務進行運 行。其優(yōu)點是學習成本低,可以通過類 SQL 語句快速實現(xiàn)簡單的 MapReduce 統(tǒng)計,不必 開發(fā)專門的 MapReduce 應用,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。
-
ZooKeeper:它是一個針對大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),提供的功能包括:配置維 護、名字服務、分布式同步、組服務等。文章來源:http://www.zghlxwxcb.cn/news/detail-427805.html
推薦系統(tǒng)框架圖
文章來源地址http://www.zghlxwxcb.cn/news/detail-427805.html
?
到了這里,關(guān)于Hadoop概述的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!