国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Hadoop概述

這篇具有很好參考價值的文章主要介紹了Hadoop概述。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

Hadoop概述

Hadoop是什么

  • hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)框架

  • 其主要解決,海量數(shù)據(jù)的存儲和海量數(shù)據(jù)的的分析計算問題

  • 廣義上,Hadoop通常是指一個更加廣泛的概念——Hadoop生態(tài)圈

Hadoop的發(fā)展歷史

  • Hadoop創(chuàng)始人Doug Cutting,為了實現(xiàn)與Google類似的全文搜索功能,他在Lucene框架基礎(chǔ)上進行優(yōu)化升級,查詢引擎和索引引擎。

](https://gitee.com/ilusymon//images4md/raw/master/Nefelibata/image-20210621161540936.png)

  • 2001年年底Lucene成為Apache基金會的一個子項目。

  • 對于海量數(shù)據(jù)的場景,Lucene框 架面 對與Google同樣的困難,存儲海量數(shù)據(jù)困難,檢索海量速度慢。

  • 學習和模仿Google解決這些問題的辦法 :微型版Nutch。

  • 可以說Google是Hadoop的思想之源(Google在大數(shù)據(jù)方面的三篇論文)

GFS --->HDFS

Map-Reduce --->MR

BigTable --->HBase

  • 2003-2004年,Google公開了部分GFS和MapReduce思想的細節(jié),以此為基礎(chǔ)Doug Cutting等人用 了2年業(yè)余時間實現(xiàn)了DFS和MapReduce機制,使Nutch性能飆升。

  • 2005 年Hadoop 作為 Lucene的子項目 Nutch的一部分正式引入Apache基金會。

  • 2006 年 3 月份,Map-Reduce和Nutch Distributed File System (NDFS)分別被納入到 Hadoop 項目 中,Hadoop就此正式誕生,標志著大數(shù)據(jù)時代來臨。 9)名字來源于Doug Cutting兒子的玩具大象

Hadoop三大發(fā)行版本(了解)

  • 三大發(fā)行版本:Apache、Cloudera、Hortonworks

  • Apache 版本最原始(最基礎(chǔ))的版本,對于入門學習最好。2006

  • Cloudera 內(nèi)部集成了很多大數(shù)據(jù)框架,對應產(chǎn)品 CDH。2008

  • Hortonworks 文檔較好,對應產(chǎn)品 HDP。2011

  • Hortonworks 現(xiàn)在已經(jīng)被 Cloudera 公司收購,推出新的品牌 CDP。

    1. Apache Hadoop Hadoop

      官網(wǎng)地址:http://hadoop.apache.org

      下載地址:https://hadoop.apache.org/releases.html

    2. Cloudera Hadoop

      官網(wǎng)地址:https://www.cloudera.com/downloads/cdh

      下載地址:https://docs.cloudera.com/documentation/enterprise/6/releasenotes/topics/rg_cdh_6_download.html

      • 2008 年成立的 Cloudera 是最早將 Hadoop 商用的公司,為合作伙伴提供 Hadoop 的商用解決方案,主要是包括支持、咨詢服務、培訓。

      • 2009 年 Hadoop 的創(chuàng)始人 Doug Cutting 也加盟 Cloudera 公司。Cloudera 產(chǎn)品主 要為 CDH,Cloudera Manager,Cloudera Support

      • CDH 是 Cloudera 的 Hadoop 發(fā)行版,完全開源,比 Apache Hadoop 在兼容性,安 全性,穩(wěn)定性上有所增強。Cloudera 的標價為每年每個節(jié)點 10000 美元。

      • Cloudera Manager 是集群的軟件分發(fā)及管理監(jiān)控平臺,可以在幾個小時內(nèi)部署好 一個 Hadoop 集群,并對集群的節(jié)點及服務進行實時監(jiān)控。

    3. Hortonworks Hadoop

      官網(wǎng)地址:https://hortonworks.com/products/data-center/hdp/ 下載地址:https://hortonworks.com/downloads/#data-platform

      • 2011 年成立的 Hortonworks 是雅虎與硅谷風投公司 Benchmark Capital 合資組建。

      • 公司成立之初就吸納了大約 25 名至 30 名專門研究 Hadoop 的雅虎工程師,上述 工程師均在 2005 年開始協(xié)助雅虎開發(fā) Hadoop,貢獻了 Hadoop80%的代碼。

      • Hortonworks 的主打產(chǎn)品是 Hortonworks Data Platform(HDP),也同樣是 100% 開源的產(chǎn)品,HDP 除常見的項目外還包括了 Ambari,一款開源的安裝和管理系統(tǒng)。

      • 2018 年 Hortonworks 目前已經(jīng)被 Cloudera 公司收購

Hadoop優(yōu)勢(4高)

  • 高可靠性:Hadoop底層維護多個數(shù)據(jù)副本,所以即使Hadoop某個計算元 素或存儲出現(xiàn)故障,也不會導致數(shù)據(jù)的丟失。

  • 高擴展性:在集群間分配任務數(shù)據(jù),可方便的擴展數(shù)以千計的節(jié)點

  • 高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任務處理的速度

  • 高容錯性:能夠自動將失敗的任務重新分配

Hadoop組成(面試重點)

  • 在Hadoop1.x時代,Hadoop中的MapReduce同時處理業(yè)務邏輯運算和資源的調(diào)度,耦合性較大。

  • 在Hadoop2.x時代,增加了Yarn。Yarn只負責資源的調(diào)度。

  • 在Hadoop3.x時代在組成上沒有變化。

    image-20230407213613184

HDFS架構(gòu)概述

  • Hadoop Distributed File System,簡稱HDFS,是一個分布式文件系統(tǒng)。

    Hadoop概述

  • NameNode(nn):存儲文件的元數(shù)據(jù),如文件名,文件目錄結(jié)構(gòu),文件屬性(生成時間、副本數(shù)、 文件權(quán)限),以及每個文件的塊列表和塊所在的DataNode等。

  • DataNode(dn):在本地文件系統(tǒng)存儲文件塊數(shù)據(jù),以及塊數(shù)據(jù)的校驗和。

  • Secondary NameNode(2nn):每隔一段時間對NameNode元數(shù)據(jù)備份。

YARN架構(gòu)概述

  • Yet Another Resource Negotiator簡稱YARN,另一種資源協(xié)調(diào)者,是Hadoop的資源管理器

    image-20230407213904111

  • ResourceManager(RM):整個集群資源(內(nèi)存、CPU等)的管理者

  • NodeManager(NM):單個節(jié)點服務器資源管理者

  • ApplicatMasters(AM):單個任務運行的管理者

  • Container:容器,相當于一臺獨立的服務器,里面封裝了任務運行所需的資源(內(nèi)存、CPU、磁盤、網(wǎng)絡等)

  • 說明:

    1. 客戶端可以有多個

    2. 集群上可以運行多個ApplicatMaster

    3. 每個NodeManager上可以有多個Container

MapReduce架構(gòu)概述

  • MapReduce 將計算過程分為兩個階段:Map 和 Reduce

  • Map階段并行處理輸入數(shù)據(jù)

  • Reduce階段對Map結(jié)果進行匯總

    Hadoop概述

HDFS、YARN、MapReduce 三者關(guān)系

Hadoop概述

大數(shù)據(jù)技術(shù)生態(tài)體系

Hadoop概述

圖中涉及的技術(shù)名詞解釋如下:

  • Sqoop:Sqoop 是一款開源的工具,主要用于在 Hadoop、Hive 與傳統(tǒng)的數(shù)據(jù)庫 (MySQL)間進行數(shù)據(jù)的傳遞,可以將一個關(guān)系型數(shù)據(jù)庫(例如 :MySQL,Oracle 等) 中的數(shù)據(jù)導進到 Hadoop 的 HDFS 中,也可以將 HDFS 的數(shù)據(jù)導進到關(guān)系型數(shù)據(jù)庫中。

  • Flume:Flume 是一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南?統(tǒng),F(xiàn)lume 支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);

  • Kafka:Kafka 是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng);

  • Spark:Spark 是當前最流行的開源大數(shù)據(jù)內(nèi)存計算框架。可以基于 Hadoop 上存儲的大 數(shù)據(jù)進行計算。

  • Flink:Flink 是當前最流行的開源大數(shù)據(jù)內(nèi)存計算框架。用于實時計算的場景較多。

  • Oozie:Oozie 是一個管理 Hadoop 作業(yè)(job)的工作流程調(diào)度管理系統(tǒng)。

  • Hbase:HBase 是一個分布式的、面向列的開源數(shù)據(jù)庫。HBase 不同于一般的關(guān)系數(shù)據(jù) 庫,它是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫。

  • Hive:Hive 是基于 Hadoop 的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張 數(shù)據(jù)庫表,并提供簡單的 SQL 查詢功能,可以將 SQL 語句轉(zhuǎn)換為 MapReduce 任務進行運 行。其優(yōu)點是學習成本低,可以通過類 SQL 語句快速實現(xiàn)簡單的 MapReduce 統(tǒng)計,不必 開發(fā)專門的 MapReduce 應用,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。

  • ZooKeeper:它是一個針對大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),提供的功能包括:配置維 護、名字服務、分布式同步、組服務等。

推薦系統(tǒng)框架圖

image-20230407215508604文章來源地址http://www.zghlxwxcb.cn/news/detail-427805.html

?

到了這里,關(guān)于Hadoop概述的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務器費用

相關(guān)文章

  • Hadoop學習指南:探索大數(shù)據(jù)時代的重要組成——Hadoop概述

    Hadoop學習指南:探索大數(shù)據(jù)時代的重要組成——Hadoop概述

    在當今大數(shù)據(jù)時代,處理海量數(shù)據(jù)成為了一項關(guān)鍵任務。Hadoop作為一種開源的分布式計算框架,為大規(guī)模數(shù)據(jù)處理和存儲提供了強大的解決方案。本文將介紹Hadoop的組成和其在大數(shù)據(jù)處理中的重要作用,讓我們一同踏上學習Hadoop的旅程。 1)Hadoop是一個由Apache基金會所開發(fā)的

    2024年02月14日
    瀏覽(47)
  • 1.2 Hadoop概述

    1.2 Hadoop概述

    ) 1.2.1 回歸問題 通過前一篇帖子的介紹,特別是問題思考部分的說明,我們大致能夠感受到為何需要新的技術(shù)體系來解決大數(shù)據(jù)問題,接下來咱們繼續(xù)梳理細節(jié)。 step_0 傳統(tǒng)方案既貴又搞不定大數(shù)據(jù)問題。 (1)傳統(tǒng)數(shù)據(jù)的處理模式:用戶+集中式系統(tǒng)+關(guān)系型數(shù)據(jù)庫 優(yōu)點是架構(gòu)

    2024年01月23日
    瀏覽(14)
  • Hadoop概述

    Hadoop概述

    hadoop是一個由Apache基金會所開發(fā)的 分布式系統(tǒng)基礎(chǔ)框架 其主要解決,海量 數(shù)據(jù)的存儲和海量數(shù)據(jù)的的分析計算 問題 廣義上,Hadoop通常是指一個更加廣泛的概念—— Hadoop生態(tài)圈 Hadoop創(chuàng)始人Doug Cutting, 為了實現(xiàn)與Google類似的全文搜索功能,他在Lucene框架基礎(chǔ)上進行優(yōu)化升級

    2024年02月01日
    瀏覽(31)
  • 【Hadoop】- MapReduce概述[5]

    【Hadoop】- MapReduce概述[5]

    目錄 前言 一、分布式計算框架 - MapReduce 二、MapReduce執(zhí)行原理 MapReduce是一種 分布式計算框架 ,由Google開發(fā)。它的設計目標是將大規(guī)模數(shù)據(jù)集的處理和生成任務分布到一個由廉價計算機組成的集群中。 在MapReduce模型中,輸入數(shù)據(jù)被分割成若干小塊,并在集群中的多個節(jié)點上并

    2024年04月25日
    瀏覽(23)
  • Hadoop之MapReduce概述

    Hadoop之MapReduce概述

    MapReduce定義 MapReduce是一個分布式運算程序的編程框架,是用戶開發(fā)“基于Hadoop的數(shù)據(jù)分析應用”的核心框架。 MapReduce核心功能是將用戶編寫的業(yè)務邏輯代碼和自帶默認組件整合成一個完整的分布式運算程序,并發(fā)運行在一個Hadoop集群上。 MapReduce優(yōu)缺點 優(yōu)點 1)MapReduce易于編

    2024年02月08日
    瀏覽(27)
  • Hadoop入門概述

    Hadoop 是一個開源的分布式計算框架,主要用于處理和存儲大規(guī)模數(shù)據(jù)集。以下是學習Hadoop時需要掌握的一些關(guān)鍵概念和技術(shù)要點: Hadoop 概述 Hadoop是什么 : Hadoop是一個基于Java編寫的開源軟件庫,用于在商用硬件集群上分布式處理和存儲海量數(shù)據(jù)。 它提供了一個高容錯性、

    2024年02月03日
    瀏覽(15)
  • 初識Hadoop-概述與關(guān)鍵技術(shù)

    初識Hadoop-概述與關(guān)鍵技術(shù)

    ?????? 高速發(fā)展的信息時代,新一輪科技革命和變革正在加速推進,技術(shù)創(chuàng)新日益成為重塑經(jīng)濟發(fā)展模式和促進經(jīng)濟增長的重要驅(qū)動力量,而 “大數(shù)據(jù)” 無疑是核心推動力。 ????? 那么,什么是 “大數(shù)據(jù)” 呢?如果從字面意思來看,大數(shù)據(jù)指的是 巨量數(shù)據(jù) 。那么可能

    2024年01月23日
    瀏覽(15)
  • hadoop解決文件上傳問題(DataStreamer Exceptionorg.apache.hadoop.ipc.RemoteException)

    hadoop解決文件上傳問題(DataStreamer Exceptionorg.apache.hadoop.ipc.RemoteException)

    完成Hadoop環(huán)境搭建后,使用Hadoop shell命令時---上傳本地文件到HDFS的目錄下,出現(xiàn)如下報錯: ???????? 通過查資料,應該是我多次執(zhí)行NameNode格式化導致的(因為多次格式化namenode會造成namenode和datanode 的 clusterID不一致 !每次格式化時,namenode會更新clusterID,但是datanode只會

    2023年04月24日
    瀏覽(12)
  • 大數(shù)據(jù)課程D2——hadoop的概述

    大數(shù)據(jù)課程D2——hadoop的概述

    文章作者郵箱:yugongshiye@sina.cn? ? ? ? ? ? ? 地址:廣東惠州 ??了解hadoop的定義和特點; ??掌握hadoop的基礎(chǔ)結(jié)構(gòu); ? 掌握hadoop的常見命令; ? 了解hadoop的執(zhí)行流程; 1. HDFS(Hadoop Distributed File System - Hadoop分布式文件系統(tǒng))是Hadoop提供的一套用于進行分布式存儲的機制。

    2024年02月15日
    瀏覽(17)
  • Hadoop datanode啟動異常 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode

    現(xiàn)象 線上收到hadoop集群datanode掉線告警。 排查 1、確認datanode狀態(tài) 發(fā)現(xiàn)未存在datanode進程。 2、嘗試單獨啟動datanode,發(fā)現(xiàn)還是不行,錯誤日志信息如下: $ hadoop-daemon.sh start datanode 2022-11-25 15:58:43,267 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool (Datanod

    2023年04月08日
    瀏覽(22)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包