国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Hadoop分布式文件系統(tǒng)-HDFS

這篇具有很好參考價(jià)值的文章主要介紹了Hadoop分布式文件系統(tǒng)-HDFS。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

1.介紹

HDFS?(Hadoop?Distributed?File?System)是?Hadoop?下的分布式文件系統(tǒng),具有高容錯、高吞吐量等特性,可以部署在低成本的硬件上。

2.HDFS?設(shè)計(jì)原理

Hadoop分布式文件系統(tǒng)-HDFS,Hadoop,hadoop,hdfs,大數(shù)據(jù)

2.1?HDFS?架構(gòu)

HDFS?遵循主/從架構(gòu),由單個(gè)?NameNode(NN)?和多個(gè)?DataNode(DN)?組成:

-?NameNode?:?負(fù)責(zé)執(zhí)行有關(guān)?`?文件系統(tǒng)命名空間?`?的操作,例如打開,關(guān)閉、重命名文件和目錄等。它同時(shí)還負(fù)責(zé)集群元數(shù)據(jù)的存儲,記錄著文件中各個(gè)數(shù)據(jù)塊的位置信息。

-?DataNode:負(fù)責(zé)提供來自文件系統(tǒng)客戶端的讀寫請求,執(zhí)行塊的創(chuàng)建,刪除等操作。

2.2?文件系統(tǒng)命名空間

HDFS?的?`?文件系統(tǒng)命名空間?`?的層次結(jié)構(gòu)與大多數(shù)文件系統(tǒng)類似?(如?Linux),?支持目錄和文件的創(chuàng)建、移動、刪除和重命名等操作,支持配置用戶和訪問權(quán)限,但不支持硬鏈接和軟連接。`NameNode`?負(fù)責(zé)維護(hù)文件系統(tǒng)名稱空間,記錄對名稱空間或其屬性的任何更改。

2.3?數(shù)據(jù)復(fù)制

由于?Hadoop?被設(shè)計(jì)運(yùn)行在廉價(jià)的機(jī)器上,這意味著硬件是不可靠的,為了保證容錯性,HDFS?提供了數(shù)據(jù)復(fù)制機(jī)制。HDFS?將每一個(gè)文件存儲為一系列塊,每個(gè)塊由多個(gè)副本來保證容錯,塊的大小和復(fù)制因子可以自行配置(默認(rèn)情況下,塊大小是?128M,默認(rèn)復(fù)制因子是?3)。

Hadoop分布式文件系統(tǒng)-HDFS,Hadoop,hadoop,hdfs,大數(shù)據(jù)

2.4?數(shù)據(jù)復(fù)制的實(shí)現(xiàn)原理

大型的?HDFS?實(shí)例在通常分布在多個(gè)機(jī)架的多臺服務(wù)器上,不同機(jī)架上的兩臺服務(wù)器之間通過交換機(jī)進(jìn)行通訊。在大多數(shù)情況下,同一機(jī)架中的服務(wù)器間的網(wǎng)絡(luò)帶寬大于不同機(jī)架中的服務(wù)器之間的帶寬。因此?HDFS?采用機(jī)架感知副本放置策略,對于常見情況,當(dāng)復(fù)制因子為?3?時(shí),HDFS?的放置策略是:

在寫入程序位于?`datanode`?上時(shí),就優(yōu)先將寫入文件的一個(gè)副本放置在該?`datanode`?上,否則放在隨機(jī)?`datanode`?上。之后在另一個(gè)遠(yuǎn)程機(jī)架上的任意一個(gè)節(jié)點(diǎn)上放置另一個(gè)副本,并在該機(jī)架上的另一個(gè)節(jié)點(diǎn)上放置最后一個(gè)副本。此策略可以減少機(jī)架間的寫入流量,從而提高寫入性能。

Hadoop分布式文件系統(tǒng)-HDFS,Hadoop,hadoop,hdfs,大數(shù)據(jù)

如果復(fù)制因子大于?3,則隨機(jī)確定第?4?個(gè)和之后副本的放置位置,同時(shí)保持每個(gè)機(jī)架的副本數(shù)量低于上限,上限值通常為?`(復(fù)制系數(shù)?-?1)/機(jī)架數(shù)量?+?2`,需要注意的是不允許同一個(gè)?`dataNode`?上具有同一個(gè)塊的多個(gè)副本。

2.5??副本的選擇

為了最大限度地減少帶寬消耗和讀取延遲,HDFS?在執(zhí)行讀取請求時(shí),優(yōu)先讀取距離讀取器最近的副本。如果在與讀取器節(jié)點(diǎn)相同的機(jī)架上存在副本,則優(yōu)先選擇該副本。如果?HDFS?群集跨越多個(gè)數(shù)據(jù)中心,則優(yōu)先選擇本地?cái)?shù)據(jù)中心上的副本。

2.6?架構(gòu)的穩(wěn)定性

1.?心跳機(jī)制和重新復(fù)制

每個(gè)?DataNode?定期向?NameNode?發(fā)送心跳消息,如果超過指定時(shí)間沒有收到心跳消息,則將?DataNode?標(biāo)記為死亡。NameNode?不會將任何新的?IO?請求轉(zhuǎn)發(fā)給標(biāo)記為死亡的?DataNode,也不會再使用這些?DataNode?上的數(shù)據(jù)。?由于數(shù)據(jù)不再可用,可能會導(dǎo)致某些塊的復(fù)制因子小于其指定值,NameNode?會跟蹤這些塊,并在必要的時(shí)候進(jìn)行重新復(fù)制。

2.?數(shù)據(jù)的完整性

由于存儲設(shè)備故障等原因,存儲在?DataNode?上的數(shù)據(jù)塊也會發(fā)生損壞。為了避免讀取到已經(jīng)損壞的數(shù)據(jù)而導(dǎo)致錯誤,HDFS?提供了數(shù)據(jù)完整性校驗(yàn)機(jī)制來保證數(shù)據(jù)的完整性,具體操作如下:

當(dāng)客戶端創(chuàng)建?HDFS?文件時(shí),它會計(jì)算文件的每個(gè)塊的?`?校驗(yàn)和?`,并將?`?校驗(yàn)和?`?存儲在同一?HDFS?命名空間下的單獨(dú)的隱藏文件中。當(dāng)客戶端檢索文件內(nèi)容時(shí),它會驗(yàn)證從每個(gè)?DataNode?接收的數(shù)據(jù)是否與存儲在關(guān)聯(lián)校驗(yàn)和文件中的?`?校驗(yàn)和?`?匹配。如果匹配失敗,則證明數(shù)據(jù)已經(jīng)損壞,此時(shí)客戶端會選擇從其他?DataNode?獲取該塊的其他可用副本。

3.元數(shù)據(jù)的磁盤故障

`FsImage`?和?`EditLog`?是?HDFS?的核心數(shù)據(jù),這些數(shù)據(jù)的意外丟失可能會導(dǎo)致整個(gè)?HDFS?服務(wù)不可用。為了避免這個(gè)問題,可以配置?NameNode?使其支持?`FsImage`?和?`EditLog`?多副本同步,這樣?`FsImage`?或?`EditLog`?的任何改變都會引起每個(gè)副本?`FsImage`?和?`EditLog`?的同步更新。

4.支持快照

快照支持在特定時(shí)刻存儲數(shù)據(jù)副本,在數(shù)據(jù)意外損壞時(shí),可以通過回滾操作恢復(fù)到健康的數(shù)據(jù)狀態(tài)。

3.HDFS?的特點(diǎn)

3.1?高容錯

由于?HDFS?采用數(shù)據(jù)的多副本方案,所以部分硬件的損壞不會導(dǎo)致全部數(shù)據(jù)的丟失。

3.2?高吞吐量

HDFS?設(shè)計(jì)的重點(diǎn)是支持高吞吐量的數(shù)據(jù)訪問,而不是低延遲的數(shù)據(jù)訪問。

3.3??大文件支持

HDFS?適合于大文件的存儲,文檔的大小應(yīng)該是是?GB?到?TB?級別的。

3.4?簡單一致性模型

HDFS?更適合于一次寫入多次讀取?(write-once-read-many)?的訪問模型。支持將內(nèi)容追加到文件末尾,但不支持?jǐn)?shù)據(jù)的隨機(jī)訪問,不能從文件任意位置新增數(shù)據(jù)。

3.5?跨平臺移植性

HDFS?具有良好的跨平臺移植性,這使得其他大數(shù)據(jù)計(jì)算框架都將其作為數(shù)據(jù)持久化存儲的首選方案。文章來源地址http://www.zghlxwxcb.cn/news/detail-724442.html

到了這里,關(guān)于Hadoop分布式文件系統(tǒng)-HDFS的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Hadoop的分布式文件存儲系統(tǒng)HDFS組件的使用

    Hadoop的分布式文件存儲系統(tǒng)HDFS組件的使用

    存儲整個(gè)HDFS集群的元數(shù)據(jù)(metaData) —— 整個(gè)集群中存儲的目錄和文件的索引 管理整個(gè)HDFS集群 接收客戶端的請求 負(fù)責(zé)節(jié)點(diǎn)的故障轉(zhuǎn)移 存儲數(shù)據(jù),是以block塊的形式進(jìn)行數(shù)據(jù)的存放。 默認(rèn)情況下block塊的大小是128M。 blocksize大小的計(jì)算公式: 尋址時(shí)間:下載文件時(shí)找到文件

    2024年02月09日
    瀏覽(97)
  • Hadoop HDFS分布式文件系統(tǒng)(介紹以及基礎(chǔ)操作命令)

    Hadoop HDFS分布式文件系統(tǒng)(介紹以及基礎(chǔ)操作命令)

    目錄 一、為什么需要分布式存儲? 二、分布式的基礎(chǔ)架構(gòu)分析 ?三、HDFS基礎(chǔ)架構(gòu) 1.HDFS簡介 四、HDFS集群啟停命令 1.一鍵啟停腳本 2.單進(jìn)程啟停 五、HDFS基本操作命令 1.創(chuàng)建文件夾 ?2.查看指定目錄下內(nèi)容? 3.上傳文件到HDFS指定目錄下 ?4.查看HDFS文件內(nèi)容 5.下載HDFS文件 ?6.拷貝

    2024年02月05日
    瀏覽(167)
  • Hadoop大數(shù)據(jù)從入門到實(shí)戰(zhàn)(二)分布式文件系統(tǒng)HDFS

    Hadoop大數(shù)據(jù)從入門到實(shí)戰(zhàn)(二)分布式文件系統(tǒng)HDFS

    頭歌實(shí)踐教學(xué)平臺 教學(xué)課堂 大數(shù)據(jù)從入門到實(shí)戰(zhàn) - 第2章 分布式文件系統(tǒng)HDFS 任務(wù)描述 本關(guān)任務(wù):使用 Hadoop 命令來操作分布式文件系統(tǒng)。 編程要求 在右側(cè)命令行中啟動 Hadoop ,進(jìn)行如下操作。 在 HDFS 中創(chuàng)建 /usr/output/ 文件夾; 在本地創(chuàng)建 hello.txt 文件并添加內(nèi)容:“ HDFS的

    2024年02月12日
    瀏覽(18)
  • 分布式文件系統(tǒng)HDFS

    分布式文件系統(tǒng)HDFS

    分布式文件系統(tǒng) 把文件分布存儲到多個(gè)計(jì)算機(jī)節(jié)點(diǎn) 上,通過網(wǎng)絡(luò)實(shí)現(xiàn)文件在多臺主機(jī)上進(jìn)行分布式存儲的文件系統(tǒng)。 分布式文件系統(tǒng)有兩大模式: Remote Access Model: 非本地文件不會復(fù)制到本地,所以對非本地文件的讀取和修改,利用RPC進(jìn)行。 Upload/ Download Model:所有非本地文

    2024年02月09日
    瀏覽(20)
  • 2. 分布式文件系統(tǒng) HDFS

    2. 分布式文件系統(tǒng) HDFS

    問題一:如果一個(gè)文件中有 10 個(gè)數(shù)值,一行一個(gè),并且都可以用 int 來度量?,F(xiàn)在求 10 個(gè)數(shù)值的和 思路: 逐行讀取文件的內(nèi)容 把讀取到的內(nèi)容轉(zhuǎn)換成 int 類型 把轉(zhuǎn)換后的數(shù)據(jù)進(jìn)行相加 輸出最后的一個(gè)累加和 問題二:10000 個(gè)文件,每個(gè)文件 2T,文件里的內(nèi)容依然是每行一個(gè)

    2024年02月08日
    瀏覽(22)
  • 大數(shù)據(jù)——HDFS(分布式文件系統(tǒng))

    大數(shù)據(jù)——HDFS(分布式文件系統(tǒng))

    Hadoop的兩大核心組件 HDFS ( Hadoop Distributed Filesystem ):是一個(gè)易于擴(kuò)展的 分布式文件系統(tǒng) ,運(yùn)行在 成百上千 臺 低成本 的 機(jī)器 上。 HDFS 具有 高度容錯能力 ,旨在部署在低成本機(jī)器上。 HDFS 主要用于對 海量文件信息 進(jìn)行 存儲 和 管理 ,也就是解決大數(shù)據(jù)文件(如 TB 乃至

    2023年04月17日
    瀏覽(28)
  • 頭歌 分布式文件系統(tǒng)HDFS 答案

    頭歌 分布式文件系統(tǒng)HDFS 答案

    第1關(guān):HDFS的基本操作 在右側(cè)命令行中啟動 Hadoop ,進(jìn)行如下操作。 在 HDFS 中創(chuàng)建 /usr/output/ 文件夾; 在本地創(chuàng)建 hello.txt 文件并添加內(nèi)容:“ HDFS的塊比磁盤的塊大,其目的是為了最小化尋址開銷。 ”; 將 hello.txt 上傳至 HDFS 的 /usr/output/ 目錄下; 刪除 HDFS 的 /user/hadoop 目錄

    2023年04月27日
    瀏覽(22)
  • 【頭歌實(shí)訓(xùn)】分布式文件系統(tǒng) HDFS

    【頭歌實(shí)訓(xùn)】分布式文件系統(tǒng) HDFS

    本關(guān)任務(wù):使用 Hadoop 命令來操作分布式文件系統(tǒng)。 為了完成本關(guān)任務(wù)你需要了解的知識有:1. HDFS 的設(shè)計(jì),2. HDFS 常用命令。 HDFS的設(shè)計(jì) 分布式文件系統(tǒng) 客戶:幫我保存一下這幾天的數(shù)據(jù)。 程序猿:好嘞,有多大呢? 客戶: 1T 。 程序猿:好沒問題,買個(gè)硬盤就搞定了。

    2024年04月15日
    瀏覽(27)
  • 分布式文件系統(tǒng)HDFS之利用Java API與HDFS進(jìn)行交互

    分布式文件系統(tǒng)HDFS之利用Java API與HDFS進(jìn)行交互

    文章目錄 一、環(huán)境要求 二、在Ubuntu中安裝Eclipse 三、在Eclipse創(chuàng)建項(xiàng)目 四、為項(xiàng)目添加需要用到的JAR包 五、編寫Java應(yīng)用程序代碼? 總結(jié) Hadoop不同的文件系統(tǒng)之間通過調(diào)用Java API進(jìn)行交互,利用Java API進(jìn)行交互,需要利用軟件Eclipse編寫Java程序。 已經(jīng)配置好網(wǎng)絡(luò)的Ubuntu系統(tǒng)的虛

    2023年04月21日
    瀏覽(22)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包