国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

分布式計算平臺 Hadoop 簡介

這篇具有很好參考價值的文章主要介紹了分布式計算平臺 Hadoop 簡介。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

Hadoop簡介

Hadoop是一種分析和處理大數(shù)據(jù)的軟件平臺,是一個用Java語言實現(xiàn)的Apache的開源軟件框架,在大量計算機(jī)組成的集群中實現(xiàn)了對海量數(shù)據(jù)的分布式計算。其主要采用MapReduce分布式計算框架,包括根據(jù)GFS原理開發(fā)的分布式文件系統(tǒng)HDFS、根據(jù)BigTable原理開發(fā)的數(shù)據(jù)存儲系統(tǒng)HBase以及資源管理系統(tǒng)YARN。

分布式計算平臺 Hadoop 簡介,Hadoop學(xué)習(xí),分布式,hadoop,大數(shù)據(jù)

Hadoop MapReduce原理

MapReduce最早由Google于2004年在一篇名為《MapReduce: Simplified Data Processing on Large Clusters》的論文中提出,把分布式數(shù)據(jù)處理的過程拆分為Map和Reduce兩個操作函數(shù),隨后被Apache Hadoop參考并提供開源版本。

MapReduce將復(fù)雜的、運行于大規(guī)模集群上的并行計算過程高度抽象到了兩個函數(shù):Map和Reduce,并極大地方便了分布式編程工作,其主要包含以下過程:

  1. Map(映射):對一些獨立元素組成的列表的每一個元素進(jìn)行制定的操作,可以高度并行。
  2. Shuffle(重組):對Map輸出的數(shù)據(jù)會經(jīng)過分區(qū)、排序、分組等動作進(jìn)行重組,使得key相同的分在同一個分區(qū),同一個分區(qū)被同一個reduce處理。
  3. Reduce(歸約):歸約過程,把若干組映射結(jié)果進(jìn)行匯總并輸出。

用戶編寫的程序分成三個部分:Mapper, Reducer, Driver(提交運行程序的客戶端驅(qū)動)。需要注意的是,整個MapReduce程序中,數(shù)據(jù)都是以<key,value>鍵值對的形式流轉(zhuǎn)的。

分布式計算平臺 Hadoop 簡介,Hadoop學(xué)習(xí),分布式,hadoop,大數(shù)據(jù)

Hadoop HDFS原理

HDFS最初是模仿GFS開發(fā)的開源系統(tǒng),適合存儲大文件并提供高吞吐量的順序讀/寫訪問。其整體架構(gòu)如圖所示,其由NameNode, DataNode, Secondary NameNode以及客戶端構(gòu)成。分布式計算平臺 Hadoop 簡介,Hadoop學(xué)習(xí),分布式,hadoop,大數(shù)據(jù)

NameNode負(fù)責(zé)管理整個分布式文件系統(tǒng)的元數(shù)據(jù),包括文件目錄樹結(jié)構(gòu)、文件到數(shù)據(jù)塊Block的映射關(guān)系、Block副本及其存儲位置等各種管理數(shù)據(jù)。其磁盤保存兩個元數(shù)據(jù)管理文件fsimage和editlog:

  1. fsimage是內(nèi)存命名空間元數(shù)據(jù)在外存的鏡像文件;
  2. editlog是各種元數(shù)據(jù)操作的write-ahead-log文件。

Secondary NameNode提供檢查點功能服務(wù),職責(zé)是定期從NameNode拉取fsimage和editlog文件進(jìn)行合并,形成新的fsimage文件并傳回給NameNode;

DataNode負(fù)責(zé)數(shù)據(jù)塊的實際存儲和讀/寫工作,為保證數(shù)據(jù)可用性,每個Block以多備份的形式存儲。

同時,NameNode與DataNode通過短時間間隔的心跳來傳遞管理信息和數(shù)據(jù)信息,從而實現(xiàn)DataNode的狀態(tài)監(jiān)控。如果某個DataNode發(fā)生故障,NameNode會將其負(fù)責(zé)的Block在其他DataNode機(jī)器增加相應(yīng)備份以維護(hù)數(shù)據(jù)可用性。

Hadoop的優(yōu)點與局限性

Hadoop 是一個基礎(chǔ)框架,具有低成本、高可靠、高擴(kuò)展、高有效、高容錯等特性,能夠進(jìn)行海量數(shù)據(jù)的離線處理。

Hadoop允許用簡單的編程模型在計算機(jī)集群上對大型數(shù)據(jù)集進(jìn)行分布式處理。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,輕松地在 Hadoop 上開發(fā)和運行處理海量數(shù)據(jù)的應(yīng)用程序。

同時其計算能力可以隨節(jié)點數(shù)目增長保持近似于線性的增長,它的設(shè)計規(guī)模從單一服務(wù)器到數(shù)千臺機(jī)器,每個服務(wù)器都能提供本地計算和存儲功能,框架本身提供的是計算機(jī)集群高可用的服務(wù),不依靠硬件來提供高可用性。

但MapReduce主要應(yīng)用于離線作業(yè),無法作到秒級或者是亞秒級得數(shù)據(jù)響應(yīng)。且主要是針對靜態(tài)數(shù)據(jù)集,不能進(jìn)行流式計算。文章來源地址http://www.zghlxwxcb.cn/news/detail-789517.html

到了這里,關(guān)于分布式計算平臺 Hadoop 簡介的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • hadoop分布式計算組件

    hadoop分布式計算組件

    ·計算:對數(shù)據(jù)進(jìn)行處理,使用統(tǒng)計分析等手段得到需要的結(jié)果 ·分布式計算:多臺服務(wù)器協(xié)同工作,共同完成一個計算任務(wù) 分布式計算常見的2種工作模式 分散-匯總(MapReduce就是這種模式) 中心調(diào)度-步驟執(zhí)行(大數(shù)據(jù)體系的Spark、Flink等是這種模式) MapReduce是“分散-匯總”模

    2024年04月11日
    瀏覽(22)
  • 【云平臺技術(shù)】Hadoop全分布式安裝與配置

    【云平臺技術(shù)】Hadoop全分布式安裝與配置

    目錄 一、虛擬機(jī)安裝? 1、創(chuàng)建虛擬機(jī) 2、虛擬機(jī)啟動初始化 二、 虛擬機(jī)克隆 三、Linux系統(tǒng)的網(wǎng)絡(luò)配置 1、準(zhǔn)備工作 2、 主機(jī)名和IP映射 2.1 配置主機(jī)名 2.2 配置IP映射? ?3、網(wǎng)絡(luò)參數(shù)配置 四、SSH服務(wù)配置? 1、生成密鑰文件 2、將本機(jī)公鑰文件復(fù)制到其他虛擬機(jī)上? 五、JDK安裝

    2024年02月08日
    瀏覽(24)
  • 分布式計算框架Hadoop核心組件

    分布式計算框架Hadoop核心組件

    Hadoop作為成熟的分布式計算框架在大數(shù)據(jù)生態(tài)領(lǐng)域已經(jīng)使用多年,本文簡要介紹Hadoop的核心組件MapReduce、YARN和HDFS,以加深了解。 1、Hadoop基本介紹 Hadoop是分布式計算框架,主要解決海量數(shù)據(jù)的存儲和計算問題。Hadoop主要組件包括分布式文件系統(tǒng)HDFS、分布式離線并行計算框架

    2024年02月06日
    瀏覽(23)
  • 分布式計算 第五章 大數(shù)據(jù)多機(jī)計算:Hadoop

    分布式計算 第五章 大數(shù)據(jù)多機(jī)計算:Hadoop

    5.2.1 從硬件思考大數(shù)據(jù) 從硬件角度看,一臺或是幾臺機(jī)器似乎難以勝任大數(shù)據(jù)的存儲和計算工作。 ? 大量機(jī)器的集群構(gòu)成數(shù)據(jù)中心 ? 使用高速互聯(lián)網(wǎng)絡(luò)對大量機(jī)器進(jìn)行連接以確保數(shù)據(jù)傳遞 ? 綜合考量數(shù)據(jù)中心的散熱問題、能耗問題,以及各方面成本 ? 集群中硬件發(fā)生故

    2024年02月05日
    瀏覽(24)
  • 【云計算】Hadoop2.x完全分布式集群(入門)

    【云計算】Hadoop2.x完全分布式集群(入門)

    【虛擬機(jī)】VMware Workstation 16 Pro 【鏡像】CentOS-7-x86_64-DVD-1804.iso 【java】jdk-8u281-linux-x64.rpm 【Hadoop】hadoop-2.7.1.tar.gz 【SSH遠(yuǎn)程】SecureCRTPortable.exe 【上傳下載】SecureFXPortable.exe 配網(wǎng)卡ens33 重啟網(wǎng)絡(luò) 私鑰、公鑰 克隆、改名、改IP 三臺機(jī)都要做:?? 生成密鑰 密鑰發(fā)送 登錄測試 had

    2024年04月12日
    瀏覽(26)
  • 大數(shù)據(jù)學(xué)習(xí)02-Hadoop分布式集群部署

    大數(shù)據(jù)學(xué)習(xí)02-Hadoop分布式集群部署

    操作系統(tǒng):centos7 軟件環(huán)境:jdk8、hadoop-2.8.5 1.下載VMware,建議支持正版 2.安裝到Widows目錄下任意位置即可,安裝目錄自定義。打開VMware,界面如下: 3.創(chuàng)建虛擬機(jī) 創(chuàng)建虛擬機(jī)—選擇自定義 這一步按照默認(rèn)的配置就好 選擇系統(tǒng),安裝程序光盤映像文件iso,這里需要下載cenos鏡像

    2024年02月16日
    瀏覽(22)
  • 【大數(shù)據(jù)】Hadoop-3.3.4完全分布式安裝(包含VMware16和Ubuntu22的下載安裝及配置)、搭建、配置教程,以及Hadoop基礎(chǔ)簡介

    【大數(shù)據(jù)】Hadoop-3.3.4完全分布式安裝(包含VMware16和Ubuntu22的下載安裝及配置)、搭建、配置教程,以及Hadoop基礎(chǔ)簡介

    注:本篇文章主要涉及到: HDFS (分布式文件系統(tǒng))、 YARN (資源管理和調(diào)度框架)、以及 MapReduce (離線計算)。 以下就是本篇文章所采用的的架構(gòu) 。 (1)HDFS架構(gòu)簡述 HDFS架構(gòu)圖 注:上述的master、slave1、slave2均是主機(jī)名(結(jié)點名),可以和本篇文章不一致,但下面所有涉

    2023年04月17日
    瀏覽(21)
  • Hadoop分布式計算與資源調(diào)度:打開專業(yè)江湖的魔幻之門

    Hadoop分布式計算與資源調(diào)度:打開專業(yè)江湖的魔幻之門

    本博客的內(nèi)容基于我個人學(xué)習(xí)黑馬程序員課程的學(xué)習(xí)筆記整理而成。我特此聲明,所有版權(quán)屬于黑馬程序員或相關(guān)權(quán)利人所有。本博客的目的僅為個人學(xué)習(xí)和交流之用,并非商業(yè)用途。 我在整理學(xué)習(xí)筆記的過程中盡力確保準(zhǔn)確性,但無法保證內(nèi)容的完整性和時效性。本博客的

    2024年02月11日
    瀏覽(29)
  • Hadoop學(xué)習(xí)1:概述、單體搭建、偽分布式搭建

    Hadoop學(xué)習(xí)1:概述、單體搭建、偽分布式搭建

    Hadoop: 分布式系統(tǒng)基礎(chǔ)架構(gòu) ? 解決問題: 海量數(shù)據(jù)存儲、海量數(shù)據(jù)的分析計算 ? 官網(wǎng): https://hadoop.apache.org/ ? HDFS(Hadoop Distributed File System): 分布式文件系統(tǒng),用于存儲數(shù)據(jù) ? Hadoop的默認(rèn)配置【core-site.xml】: https://hadoop.apache.org/docs/r3.3.6/hadoop-project-dist/hadoop-common/c

    2024年03月15日
    瀏覽(20)
  • 分布式計算中的大數(shù)據(jù)處理:Hadoop與Spark的性能優(yōu)化

    大數(shù)據(jù)處理是現(xiàn)代計算機(jī)科學(xué)的一個重要領(lǐng)域,它涉及到處理海量數(shù)據(jù)的技術(shù)和方法。隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)的規(guī)模不斷增長,傳統(tǒng)的計算方法已經(jīng)無法滿足需求。因此,分布式計算技術(shù)逐漸成為了主流。 Hadoop和Spark是目前最為流行的分布式計算框架之一,它們都提供了高

    2024年01月23日
    瀏覽(93)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包