国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Hadoop分布式文件系統(tǒng)-HDFS

2年前作者：shangjg3分類：Toy博客閱讀(27)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了Hadoop分布式文件系統(tǒng)-HDFS。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

1.介紹

HDFS?（Hadoop?Distributed?File?System）是?Hadoop?下的分布式文件系統(tǒng)，具有高容錯、高吞吐量等特性，可以部署在低成本的硬件上。

2.HDFS?設(shè)計(jì)原理

Hadoop分布式文件系統(tǒng)-HDFS,Hadoop,hadoop,hdfs,大數(shù)據(jù)

2.1?HDFS?架構(gòu)

HDFS?遵循主/從架構(gòu)，由單個(gè)?NameNode(NN)?和多個(gè)?DataNode(DN)?組成：

-?NameNode?:?負(fù)責(zé)執(zhí)行有關(guān)?`?文件系統(tǒng)命名空間?`?的操作，例如打開，關(guān)閉、重命名文件和目錄等。它同時(shí)還負(fù)責(zé)集群元數(shù)據(jù)的存儲，記錄著文件中各個(gè)數(shù)據(jù)塊的位置信息。

-?DataNode：負(fù)責(zé)提供來自文件系統(tǒng)客戶端的讀寫請求，執(zhí)行塊的創(chuàng)建，刪除等操作。

2.2?文件系統(tǒng)命名空間

HDFS?的?`?文件系統(tǒng)命名空間?`?的層次結(jié)構(gòu)與大多數(shù)文件系統(tǒng)類似?(如?Linux)，?支持目錄和文件的創(chuàng)建、移動、刪除和重命名等操作，支持配置用戶和訪問權(quán)限，但不支持硬鏈接和軟連接。`NameNode`?負(fù)責(zé)維護(hù)文件系統(tǒng)名稱空間，記錄對名稱空間或其屬性的任何更改。

2.3?數(shù)據(jù)復(fù)制

由于?Hadoop?被設(shè)計(jì)運(yùn)行在廉價(jià)的機(jī)器上，這意味著硬件是不可靠的，為了保證容錯性，HDFS?提供了數(shù)據(jù)復(fù)制機(jī)制。HDFS?將每一個(gè)文件存儲為一系列塊，每個(gè)塊由多個(gè)副本來保證容錯，塊的大小和復(fù)制因子可以自行配置（默認(rèn)情況下，塊大小是?128M，默認(rèn)復(fù)制因子是?3）。

Hadoop分布式文件系統(tǒng)-HDFS,Hadoop,hadoop,hdfs,大數(shù)據(jù)

2.4?數(shù)據(jù)復(fù)制的實(shí)現(xiàn)原理

大型的?HDFS?實(shí)例在通常分布在多個(gè)機(jī)架的多臺服務(wù)器上，不同機(jī)架上的兩臺服務(wù)器之間通過交換機(jī)進(jìn)行通訊。在大多數(shù)情況下，同一機(jī)架中的服務(wù)器間的網(wǎng)絡(luò)帶寬大于不同機(jī)架中的服務(wù)器之間的帶寬。因此?HDFS?采用機(jī)架感知副本放置策略，對于常見情況，當(dāng)復(fù)制因子為?3?時(shí)，HDFS?的放置策略是：

在寫入程序位于?`datanode`?上時(shí)，就優(yōu)先將寫入文件的一個(gè)副本放置在該?`datanode`?上，否則放在隨機(jī)?`datanode`?上。之后在另一個(gè)遠(yuǎn)程機(jī)架上的任意一個(gè)節(jié)點(diǎn)上放置另一個(gè)副本，并在該機(jī)架上的另一個(gè)節(jié)點(diǎn)上放置最后一個(gè)副本。此策略可以減少機(jī)架間的寫入流量，從而提高寫入性能。

Hadoop分布式文件系統(tǒng)-HDFS,Hadoop,hadoop,hdfs,大數(shù)據(jù)

如果復(fù)制因子大于?3，則隨機(jī)確定第?4?個(gè)和之后副本的放置位置，同時(shí)保持每個(gè)機(jī)架的副本數(shù)量低于上限，上限值通常為?`（復(fù)制系數(shù)?-?1）/機(jī)架數(shù)量?+?2`，需要注意的是不允許同一個(gè)?`dataNode`?上具有同一個(gè)塊的多個(gè)副本。

2.5??副本的選擇

為了最大限度地減少帶寬消耗和讀取延遲，HDFS?在執(zhí)行讀取請求時(shí)，優(yōu)先讀取距離讀取器最近的副本。如果在與讀取器節(jié)點(diǎn)相同的機(jī)架上存在副本，則優(yōu)先選擇該副本。如果?HDFS?群集跨越多個(gè)數(shù)據(jù)中心，則優(yōu)先選擇本地?cái)?shù)據(jù)中心上的副本。

2.6?架構(gòu)的穩(wěn)定性

1.?心跳機(jī)制和重新復(fù)制

每個(gè)?DataNode?定期向?NameNode?發(fā)送心跳消息，如果超過指定時(shí)間沒有收到心跳消息，則將?DataNode?標(biāo)記為死亡。NameNode?不會將任何新的?IO?請求轉(zhuǎn)發(fā)給標(biāo)記為死亡的?DataNode，也不會再使用這些?DataNode?上的數(shù)據(jù)。?由于數(shù)據(jù)不再可用，可能會導(dǎo)致某些塊的復(fù)制因子小于其指定值，NameNode?會跟蹤這些塊，并在必要的時(shí)候進(jìn)行重新復(fù)制。

2.?數(shù)據(jù)的完整性

由于存儲設(shè)備故障等原因，存儲在?DataNode?上的數(shù)據(jù)塊也會發(fā)生損壞。為了避免讀取到已經(jīng)損壞的數(shù)據(jù)而導(dǎo)致錯誤，HDFS?提供了數(shù)據(jù)完整性校驗(yàn)機(jī)制來保證數(shù)據(jù)的完整性，具體操作如下：

當(dāng)客戶端創(chuàng)建?HDFS?文件時(shí)，它會計(jì)算文件的每個(gè)塊的?`?校驗(yàn)和?`，并將?`?校驗(yàn)和?`?存儲在同一?HDFS?命名空間下的單獨(dú)的隱藏文件中。當(dāng)客戶端檢索文件內(nèi)容時(shí)，它會驗(yàn)證從每個(gè)?DataNode?接收的數(shù)據(jù)是否與存儲在關(guān)聯(lián)校驗(yàn)和文件中的?`?校驗(yàn)和?`?匹配。如果匹配失敗，則證明數(shù)據(jù)已經(jīng)損壞，此時(shí)客戶端會選擇從其他?DataNode?獲取該塊的其他可用副本。

3.元數(shù)據(jù)的磁盤故障

`FsImage`?和?`EditLog`?是?HDFS?的核心數(shù)據(jù)，這些數(shù)據(jù)的意外丟失可能會導(dǎo)致整個(gè)?HDFS?服務(wù)不可用。為了避免這個(gè)問題，可以配置?NameNode?使其支持?`FsImage`?和?`EditLog`?多副本同步，這樣?`FsImage`?或?`EditLog`?的任何改變都會引起每個(gè)副本?`FsImage`?和?`EditLog`?的同步更新。

4.支持快照

快照支持在特定時(shí)刻存儲數(shù)據(jù)副本，在數(shù)據(jù)意外損壞時(shí)，可以通過回滾操作恢復(fù)到健康的數(shù)據(jù)狀態(tài)。

3.HDFS?的特點(diǎn)

3.1?高容錯

由于?HDFS?采用數(shù)據(jù)的多副本方案，所以部分硬件的損壞不會導(dǎo)致全部數(shù)據(jù)的丟失。

3.2?高吞吐量

HDFS?設(shè)計(jì)的重點(diǎn)是支持高吞吐量的數(shù)據(jù)訪問，而不是低延遲的數(shù)據(jù)訪問。

3.3??大文件支持

HDFS?適合于大文件的存儲，文檔的大小應(yīng)該是是?GB?到?TB?級別的。

3.4?簡單一致性模型

HDFS?更適合于一次寫入多次讀取?(write-once-read-many)?的訪問模型。支持將內(nèi)容追加到文件末尾，但不支持?jǐn)?shù)據(jù)的隨機(jī)訪問，不能從文件任意位置新增數(shù)據(jù)。

3.5?跨平臺移植性

HDFS?具有良好的跨平臺移植性，這使得其他大數(shù)據(jù)計(jì)算框架都將其作為數(shù)據(jù)持久化存儲的首選方案。文章來源地址http://www.zghlxwxcb.cn/news/detail-724442.html

到了這里，關(guān)于Hadoop分布式文件系統(tǒng)-HDFS的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

Hadoop的分布式文件存儲系統(tǒng)HDFS組件的使用
存儲整個(gè)HDFS集群的元數(shù)據(jù)（metaData） —— 整個(gè)集群中存儲的目錄和文件的索引管理整個(gè)HDFS集群接收客戶端的請求負(fù)責(zé)節(jié)點(diǎn)的故障轉(zhuǎn)移存儲數(shù)據(jù)，是以block塊的形式進(jìn)行數(shù)據(jù)的存放。默認(rèn)情況下block塊的大小是128M。 blocksize大小的計(jì)算公式：尋址時(shí)間：下載文件時(shí)找到文件
2024年02月09日
瀏覽(97)
Hadoop HDFS分布式文件系統(tǒng)（介紹以及基礎(chǔ)操作命令）
目錄一、為什么需要分布式存儲？二、分布式的基礎(chǔ)架構(gòu)分析 ?三、HDFS基礎(chǔ)架構(gòu) 1.HDFS簡介四、HDFS集群啟停命令 1.一鍵啟停腳本 2.單進(jìn)程啟停五、HDFS基本操作命令 1.創(chuàng)建文件夾 ?2.查看指定目錄下內(nèi)容? 3.上傳文件到HDFS指定目錄下 ?4.查看HDFS文件內(nèi)容 5.下載HDFS文件 ?6.拷貝
2024年02月05日
瀏覽(167)
Hadoop大數(shù)據(jù)從入門到實(shí)戰(zhàn)（二）分布式文件系統(tǒng)HDFS
頭歌實(shí)踐教學(xué)平臺教學(xué)課堂大數(shù)據(jù)從入門到實(shí)戰(zhàn) - 第2章分布式文件系統(tǒng)HDFS 任務(wù)描述本關(guān)任務(wù)：使用 Hadoop 命令來操作分布式文件系統(tǒng)。編程要求在右側(cè)命令行中啟動 Hadoop ，進(jìn)行如下操作。在 HDFS 中創(chuàng)建 /usr/output/ 文件夾；在本地創(chuàng)建 hello.txt 文件并添加內(nèi)容：“ HDFS的
2024年02月12日
瀏覽(18)
分布式文件系統(tǒng)HDFS
分布式文件系統(tǒng) 把文件分布存儲到多個(gè)計(jì)算機(jī)節(jié)點(diǎn) 上，通過網(wǎng)絡(luò)實(shí)現(xiàn)文件在多臺主機(jī)上進(jìn)行分布式存儲的文件系統(tǒng)。分布式文件系統(tǒng)有兩大模式： Remote Access Model: 非本地文件不會復(fù)制到本地，所以對非本地文件的讀取和修改，利用RPC進(jìn)行。 Upload/ Download Model：所有非本地文
2024年02月09日
瀏覽(20)
2. 分布式文件系統(tǒng) HDFS
問題一：如果一個(gè)文件中有 10 個(gè)數(shù)值，一行一個(gè)，并且都可以用 int 來度量?，F(xiàn)在求 10 個(gè)數(shù)值的和思路：逐行讀取文件的內(nèi)容把讀取到的內(nèi)容轉(zhuǎn)換成 int 類型把轉(zhuǎn)換后的數(shù)據(jù)進(jìn)行相加輸出最后的一個(gè)累加和問題二：10000 個(gè)文件，每個(gè)文件 2T，文件里的內(nèi)容依然是每行一個(gè)
2024年02月08日
瀏覽(22)
大數(shù)據(jù)——HDFS(分布式文件系統(tǒng)）
Hadoop的兩大核心組件 HDFS （ Hadoop Distributed Filesystem ）：是一個(gè)易于擴(kuò)展的分布式文件系統(tǒng) ，運(yùn)行在成百上千臺低成本的機(jī)器上。 HDFS 具有高度容錯能力，旨在部署在低成本機(jī)器上。 HDFS 主要用于對海量文件信息進(jìn)行存儲和管理，也就是解決大數(shù)據(jù)文件（如 TB 乃至
2023年04月17日
瀏覽(28)
頭歌分布式文件系統(tǒng)HDFS 答案
第1關(guān)：HDFS的基本操作在右側(cè)命令行中啟動 Hadoop ，進(jìn)行如下操作。在 HDFS 中創(chuàng)建 /usr/output/ 文件夾；在本地創(chuàng)建 hello.txt 文件并添加內(nèi)容：“ HDFS的塊比磁盤的塊大，其目的是為了最小化尋址開銷。 ”；將 hello.txt 上傳至 HDFS 的 /usr/output/ 目錄下；刪除 HDFS 的 /user/hadoop 目錄
2023年04月27日
瀏覽(22)
【頭歌實(shí)訓(xùn)】分布式文件系統(tǒng) HDFS
本關(guān)任務(wù)：使用 Hadoop 命令來操作分布式文件系統(tǒng)。為了完成本關(guān)任務(wù)你需要了解的知識有：1. HDFS 的設(shè)計(jì)，2. HDFS 常用命令。 HDFS的設(shè)計(jì) 分布式文件系統(tǒng) 客戶：幫我保存一下這幾天的數(shù)據(jù)。程序猿：好嘞，有多大呢？客戶： 1T 。程序猿：好沒問題，買個(gè)硬盤就搞定了。
2024年04月15日
瀏覽(27)
【大數(shù)據(jù)之路2】分布式文件系統(tǒng) HDFS
2023年06月10日
瀏覽(25)
分布式文件系統(tǒng)HDFS之利用Java API與HDFS進(jìn)行交互
文章目錄一、環(huán)境要求二、在Ubuntu中安裝Eclipse 三、在Eclipse創(chuàng)建項(xiàng)目四、為項(xiàng)目添加需要用到的JAR包五、編寫Java應(yīng)用程序代碼? 總結(jié) Hadoop不同的文件系統(tǒng)之間通過調(diào)用Java API進(jìn)行交互，利用Java API進(jìn)行交互，需要利用軟件Eclipse編寫Java程序。已經(jīng)配置好網(wǎng)絡(luò)的Ubuntu系統(tǒng)的虛
2023年04月21日
瀏覽(22)