国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Hadoop - HDFS文件系統(tǒng)

這篇具有很好參考價(jià)值的文章主要介紹了Hadoop - HDFS文件系統(tǒng)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

目錄

HDFS文件系統(tǒng)?

1、文件系統(tǒng)定義

2、大數(shù)據(jù)時(shí)代,面對(duì)海量數(shù)據(jù),傳統(tǒng)的文件存儲(chǔ)系統(tǒng)會(huì)面臨哪些挑戰(zhàn)?

3、分布式存儲(chǔ)系統(tǒng)的核心屬性及功能含義

一、分布式存儲(chǔ)的優(yōu)點(diǎn)

二、元數(shù)據(jù)記錄的功能

三、分塊存儲(chǔ)好處

四、副本機(jī)制的作用

4、HDFS簡(jiǎn)介

HDFS適用場(chǎng)景

5、HDFS主從架構(gòu)

分塊存儲(chǔ)

副本機(jī)制

元數(shù)據(jù)管理

數(shù)據(jù)塊存儲(chǔ)

6、HDFS shell操作

常用操作:

7、HDFS工作流程與機(jī)制

主角色:NameNode

namenode職責(zé):

從角色:datanode

datanode職責(zé)

8、HDFS讀寫(xiě)數(shù)據(jù)的過(guò)程??????

核心概念--Pipeline管道

核心概念--ACK應(yīng)答響應(yīng)

默認(rèn)3個(gè)副本存儲(chǔ)策略:

寫(xiě)操作的整個(gè)過(guò)程:

讀操作的整個(gè)過(guò)程:


HDFS文件系統(tǒng)?

1、文件系統(tǒng)定義

文件系統(tǒng)是一種存儲(chǔ)和組織數(shù)據(jù)的方法,實(shí)現(xiàn)了數(shù)據(jù)的存儲(chǔ),分離組織,訪問(wèn)和獲取等操作,使得用戶對(duì)文件訪問(wèn)和查找變得容易。

文件系統(tǒng)使用樹(shù)形目錄的抽象邏輯概念代替了硬盤(pán)等物理設(shè)備使用數(shù)據(jù)塊的概念,用戶不必關(guān)心數(shù)據(jù)底層存在硬盤(pán)哪里,只需要記住這個(gè)文件的所屬目錄和文件名即可。

文件系統(tǒng)通常使用硬盤(pán)和光盤(pán)這樣的存儲(chǔ)設(shè)備,并維護(hù)文件在設(shè)備中的物理位置。

?? ?所謂傳統(tǒng)常見(jiàn)的文件系統(tǒng)更多指的的單機(jī)的文件系統(tǒng),也就是底層不會(huì)橫跨多臺(tái)機(jī)器實(shí)現(xiàn)。比如windows操作系統(tǒng)
上的文件系統(tǒng)、Linux上的文件系統(tǒng)、FTP文件系統(tǒng)等等。
?? ?這些文件系統(tǒng)的共同特征包括:
?? ??? ?1. 帶有抽象的目錄樹(shù)結(jié)構(gòu),樹(shù)都是從/根目錄開(kāi)始往下蔓延;
?? ??? ?2. 樹(shù)中節(jié)點(diǎn)分為兩類:目錄和文件;
?? ??? ?3. 從根目錄開(kāi)始,節(jié)點(diǎn)路徑具有唯一性。?

##########################################################?

2、大數(shù)據(jù)時(shí)代,面對(duì)海量數(shù)據(jù),傳統(tǒng)的文件存儲(chǔ)系統(tǒng)會(huì)面臨哪些挑戰(zhàn)?

成本高:

??? ??? ?傳統(tǒng)存儲(chǔ)硬件通用性差,設(shè)備投資加上后期維護(hù),升級(jí)擴(kuò)容的成本非常高

如何支撐高效率的計(jì)算分析:

??? ??? ?傳統(tǒng)的存儲(chǔ)方式意味著數(shù)據(jù):存儲(chǔ)是存儲(chǔ),計(jì)算是計(jì)算,當(dāng)需要處理數(shù)據(jù)的時(shí)候把數(shù)據(jù)移動(dòng)過(guò)來(lái),

??? ??? ?程序和數(shù)據(jù)存儲(chǔ)是屬于不同的技術(shù)廠商實(shí)現(xiàn),無(wú)法有機(jī)統(tǒng)一整合在一起。

性能差:

??? ??? ?單節(jié)點(diǎn)I/O性能瓶頸無(wú)法逾越,難以支撐海量數(shù)據(jù)的高并發(fā)吞吐場(chǎng)景。

可擴(kuò)展性差:

??? ??? ?無(wú)法實(shí)現(xiàn)快速部署和彈性擴(kuò)展,動(dòng)態(tài)擴(kuò)容,縮容成本高,技術(shù)實(shí)現(xiàn)難度大。

##########################################################??

3、分布式存儲(chǔ)系統(tǒng)的核心屬性及功能含義

分布式存儲(chǔ)系統(tǒng)核心屬性

? 分布式存儲(chǔ)

? 元數(shù)據(jù)記錄

? 分塊存儲(chǔ)

? 副本機(jī)制

##########################################################??

一、分布式存儲(chǔ)的優(yōu)點(diǎn)

問(wèn)題:數(shù)據(jù)量大,單機(jī)存儲(chǔ)遇到瓶頸

解決:

??? ??? ?單機(jī)縱向擴(kuò)展:磁盤(pán)不夠加磁盤(pán),有上限瓶頸限制

??? ??? ?多機(jī)橫向擴(kuò)展:機(jī)器不夠加機(jī)器,理論上無(wú)限擴(kuò)展

##########################################################??

二、元數(shù)據(jù)記錄的功能

問(wèn)題:

??? ??? ?文件分布在不同機(jī)器上不利于尋找

解決:

??? ??? ?元數(shù)據(jù)記錄下文件及其存儲(chǔ)位置信息,快速定位文件位置

?Hadoop - HDFS文件系統(tǒng)

##########################################################??

?

三、分塊存儲(chǔ)好處

問(wèn)題:

??? ??? ?文件過(guò)大導(dǎo)致單機(jī)存不下,上傳下載效率低

解決:

??? ??? ?文件分塊存儲(chǔ)在不同機(jī)器,針對(duì)塊并行操作提高效率

?##########################################################?

四、副本機(jī)制的作用

問(wèn)題:

??? ??? ?硬件故障難以避免,數(shù)據(jù)易丟失

解決:

??? ??? ?不同機(jī)器設(shè)置備份,冗余存儲(chǔ),保障數(shù)據(jù)安全

?##########################################################?

4、HDFS簡(jiǎn)介

HDFS(Hadoop Distributed File System),意為:Hadoop分布式文件系統(tǒng)。

是Apache Hadoop核心組件之一,作為大數(shù)據(jù)生態(tài)圈最底層的分布式存儲(chǔ)服務(wù)而存在,也可以說(shuō)大數(shù)據(jù)首先要解決的問(wèn)題就是海量數(shù)據(jù)的存儲(chǔ)問(wèn)題。

?Hadoop - HDFS文件系統(tǒng)

HDFS主要是解決大數(shù)據(jù)如何存儲(chǔ)問(wèn)題的,分布式意味著HDFS是橫跨多臺(tái)計(jì)算機(jī)上的存儲(chǔ)系統(tǒng)

HDFS是一種能夠在普通硬件上運(yùn)行的分布式文件系統(tǒng),它是高度容錯(cuò)的,適應(yīng)于具有大數(shù)據(jù)集的應(yīng)用程序,它非常適于存儲(chǔ)大型數(shù)據(jù)(例如TB和PB)。

HDFS使用多臺(tái)計(jì)算機(jī)存儲(chǔ)文件,并且提供同一的訪問(wèn)接口,像是訪問(wèn)一個(gè)普通文件系統(tǒng)一樣使用分布式文件系統(tǒng)。

?Hadoop - HDFS文件系統(tǒng)

HDFS適用場(chǎng)景

Hadoop - HDFS文件系統(tǒng)

##########################################################??

5、HDFS主從架構(gòu)

HDFS集群是標(biāo)準(zhǔn)的master/slave主從架構(gòu)集群

一般一個(gè)HDFS集群是有一個(gè)Namenode和一定數(shù)目的Datanode組成

Namenode是HDSF主節(jié)點(diǎn),Datanode是HDFS從節(jié)點(diǎn),兩種角色各司其職,共同協(xié)調(diào)完成分布式的文件存儲(chǔ)服務(wù)

官方架構(gòu)圖中是一主五從模式,其中五個(gè)從角色位于兩個(gè)機(jī)架(RACK)的不同服務(wù)器上面。

?Hadoop - HDFS文件系統(tǒng)

分塊存儲(chǔ)

HDFS中的文件在物理上是分塊存儲(chǔ)的,默認(rèn)大小是128M,不足128M則本身就是一塊

塊的大小可以通過(guò)配置參數(shù)來(lái)規(guī)定,參數(shù)位于hdfs-default.xml中:dfs.blocksize

副本機(jī)制

文件的所有block都會(huì)有副本,副本系數(shù)可以在文件創(chuàng)建的時(shí)候指定,也可以在之后通過(guò)命令改變

副本數(shù)由參數(shù)dfs.replication控制,默認(rèn)值是3,也就是會(huì)額外再?gòu)?fù)制2份,連同本身總共3份副本

元數(shù)據(jù)管理

在HDFS中,Namenode管理的元數(shù)據(jù)具有兩種類型。

文件自身屬性信息

??? ??? ?文件名稱,權(quán)限,修改時(shí)間,文件大小,復(fù)制因子,數(shù)據(jù)塊大小。

文件塊位置映射信息

??? ??? ?記錄文件塊和Datanode之間的映射信息,即哪個(gè)塊位于哪個(gè)節(jié)點(diǎn)上。

數(shù)據(jù)塊存儲(chǔ)

文件的各個(gè)block的具體存儲(chǔ)管理由DataNode節(jié)點(diǎn)管理

每一個(gè)block都可以在多個(gè)DataNode上存儲(chǔ)

##########################################################??

6、HDFS shell操作

介紹:

??? ??? ?命令行界面,是指用戶通過(guò)鍵盤(pán)輸入指令,計(jì)算機(jī)接收到指令后,予以執(zhí)行一種人際交互方式

??? ??? ?Hadoop提供了文件系統(tǒng)的shell命令行客戶端:hadoop fs [options]

[hadoop@node1 mapreduce]$ hadoop fs
Usage: hadoop fs [generic options]
	[-appendToFile <localsrc> ... <dst>]
	[-cat [-ignoreCrc] <src> ...]
	[-checksum [-v] <src> ...]
	[-chgrp [-R] GROUP PATH...]
	[-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...]
	[-chown [-R] [OWNER][:[GROUP]] PATH...]
	[-copyFromLocal [-f] [-p] [-l] [-d] [-t <thread count>] <localsrc> ... <dst>]
	[-copyToLocal [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
	[-count [-q] [-h] [-v] [-t [<storage type>]] [-u] [-x] [-e] <path> ...]
	[-cp [-f] [-p | -p[topax]] [-d] <src> ... <dst>]
	[-createSnapshot <snapshotDir> [<snapshotName>]]
	[-deleteSnapshot <snapshotDir> <snapshotName>]
	[-df [-h] [<path> ...]]
	[-du [-s] [-h] [-v] [-x] <path> ...]
	[-expunge [-immediate] [-fs <path>]]
[hadoop@node1 local]$ hadoop fs -ls /
[hadoop@node1 local]$ hadoop fs -mkdir /test
[hadoop@node1 local]$ hadoop fs -ls /
Found 1 items
drwxr-xr-x   - hadoop supergroup          0 2023-03-28 14:03 /test
HDFS Shell CLI 支持多種文件系統(tǒng),包括本地文件系統(tǒng)(file:///),分布式文件系統(tǒng)(hdfs://)

?		具體操作的是什么文件系統(tǒng)取決于命令中文件路徑URL中的前綴協(xié)議。

?		如果沒(méi)有指定前綴,則將會(huì)讀取環(huán)境變量中的fs.defaultFS屬性,以該屬性值作為默認(rèn)文件系統(tǒng)。
		hadoop dfs 只能操作HDFS文件系統(tǒng)(包括與Local FS間的操作),不過(guò)已經(jīng)Deprecated;
		hdfs dfs 只能操作HDFS文件系統(tǒng)相關(guān)(包括與Local FS間的操作),常用;
		hadoop fs 可操作任意文件系統(tǒng),不僅僅是hdfs文件系統(tǒng),使用范圍更廣;
		目前版本來(lái)看,官方最終推薦使用的是hadoop fs。當(dāng)然hdfs dfs在市面上的使用也比較多。

常用操作:

hadoop fs -mkdir [-p] <path> ... 
	path 為待創(chuàng)建的目錄
	-p選項(xiàng)的行為與Unix mkdir -p非常相似,它會(huì)沿著路徑創(chuàng)建父目錄
hadoop fs -ls [-h] [-R] [<path> ...] 
	path 指定目錄路徑
	-h 人性化顯示文件size
	-R 遞歸查看指定目錄及其子目錄
hadoop fs -put [-f] [-p] <localsrc> ... <dst>
	-f 覆蓋目標(biāo)文件(已存在下)
	-p 保留訪問(wèn)和修改時(shí)間,所有權(quán)和權(quán)限。
	localsrc 本地文件系統(tǒng)(客戶端所在機(jī)器)
	dst 目標(biāo)文件系統(tǒng)(HDFS)
hadoop fs -cat <src> ... 
	讀取指定文件全部?jī)?nèi)容,顯示在標(biāo)準(zhǔn)輸出控制臺(tái)。
	注意:對(duì)于大文件內(nèi)容讀取,慎重。
hadoop fs -get [-f] [-p] <src> ... <localdst>
	下載文件到本地文件系統(tǒng)指定目錄,localdst必須是目錄
	-f 覆蓋目標(biāo)文件(已存在下)
	-p 保留訪問(wèn)和修改時(shí)間,所有權(quán)和權(quán)限。
hadoop fs -cp [-f] <src> ... <dst> 
	-f 覆蓋目標(biāo)文件(已存在下)
hadoop fs -mv <src> ... <dst>
	移動(dòng)文件到指定文件夾下
	可以使用該命令移動(dòng)數(shù)據(jù),重命名文件的名稱

##########################################################??

7、HDFS工作流程與機(jī)制

主角色:NameNode

NameNode是Hadoop分布式文件系統(tǒng)的核心,架構(gòu)中的主角色

NameNode維護(hù)和管理文件系統(tǒng)元數(shù)據(jù),包括名稱空間目錄樹(shù)結(jié)構(gòu),文件和塊的位置信息,訪問(wèn)權(quán)限等信息

基于此,NameNode成為了訪問(wèn)HDFS的唯一入口

NameNode內(nèi)部通過(guò)內(nèi)存和磁盤(pán)文件兩種方式管理元數(shù)據(jù)。

其中磁盤(pán)上的元數(shù)據(jù)文件包括Fsimage內(nèi)存元數(shù)據(jù)鏡像文件和edits log(Journal)編輯日志。

namenode職責(zé):

NameNode僅存儲(chǔ)HDFS的元數(shù)據(jù):文件系統(tǒng)中的所有文件的目錄樹(shù),并跟蹤整個(gè)集群中的文件,不存儲(chǔ)實(shí)際數(shù)據(jù)

NameNode知道HDFS中任何給定文件的塊列表及其位置,使用此信息NameNode知道如何從塊中構(gòu)建文件

NameNode不持久化存儲(chǔ)每個(gè)文件中各個(gè)塊所在的datanode的位置信息,這些信息會(huì)在系統(tǒng)啟動(dòng)時(shí)從DataNode重建

NameNode是Hadoop集群中的單點(diǎn)故障

NameNode所在及其通常會(huì)配置由大量?jī)?nèi)存(RAM)

從角色:datanode

DataNode是Hadoop HDFS中的從角色,負(fù)責(zé)具體的數(shù)據(jù)塊存儲(chǔ)

DataNode的數(shù)量決定了HDFS集群的整體數(shù)據(jù)存儲(chǔ)能力,通過(guò)和NameNode配合維護(hù)這數(shù)據(jù)塊

datanode職責(zé)

DataNode負(fù)責(zé)最終數(shù)據(jù)塊block的存儲(chǔ),是集群的從角色,也稱為Slave

DataNode啟動(dòng)時(shí),會(huì)將自己注冊(cè)到NameNode并匯報(bào)自己負(fù)責(zé)持有的塊列表

當(dāng)某個(gè)DataNode關(guān)閉時(shí)不會(huì)影響數(shù)據(jù)的可用性,NameNode將安排由其他DataNode管理的塊進(jìn)行副本復(fù)制

DataNode所在機(jī)器通常配置有大量的硬盤(pán)空間,因?yàn)閷?shí)際數(shù)據(jù)存儲(chǔ)在DataNode中。

主角色輔助角色:secondarynamenode

SecondaryNameNode充當(dāng)著NameNode的輔助節(jié)點(diǎn),但不能替代NameNode

主要是幫助主角色進(jìn)行元數(shù)據(jù)文件的合并動(dòng)作,可以理解為主角色的秘書(shū)?

Hadoop - HDFS文件系統(tǒng)

##########################################################?

8、HDFS讀寫(xiě)數(shù)據(jù)的過(guò)程??????

核心概念--Pipeline管道

Pipeline,中文翻譯為管道,這是HDFS在上傳文件寫(xiě)數(shù)據(jù)過(guò)程中采用的一種數(shù)據(jù)傳輸方式

客戶端將數(shù)據(jù)塊寫(xiě)入第一個(gè)數(shù)據(jù)節(jié)點(diǎn),第一個(gè)數(shù)據(jù)節(jié)點(diǎn)保存數(shù)據(jù)之后再講塊復(fù)制到第二個(gè)數(shù)據(jù)節(jié)點(diǎn),后者保存后再將其復(fù)制到第三個(gè)數(shù)據(jù)節(jié)點(diǎn)

Hadoop - HDFS文件系統(tǒng)

為什么datanode之間采用pipeline線性傳輸,而不是一次給三個(gè)datanode拓?fù)涫絺鬏斈兀?/strong>

因?yàn)閿?shù)據(jù)以管道的方式,順序的沿著一個(gè)方向傳輸,這樣能夠充分利用每個(gè)機(jī)器的帶寬,避免網(wǎng)絡(luò)瓶頸和高延遲時(shí)的連接,最小化推送所有數(shù)據(jù)的延時(shí)

在線性推送模式下,每臺(tái)機(jī)器的所有出口寬帶都用于最快的速度傳輸數(shù)據(jù),而不是在多個(gè)接受者之間分配寬帶

核心概念--ACK應(yīng)答響應(yīng)

ACK(Acknowledgs character)即是確認(rèn)字符,在數(shù)據(jù)通信中,接收方發(fā)送給發(fā)送方的一種傳輸控制字符,表示發(fā)來(lái)的數(shù)據(jù)已經(jīng)確認(rèn)接收無(wú)誤

在HDFS pipeline管道傳輸數(shù)據(jù)的過(guò)程中,傳輸?shù)姆捶较驎?huì)進(jìn)行ACK校驗(yàn),確保數(shù)據(jù)傳輸安全

默認(rèn)3個(gè)副本存儲(chǔ)策略:

第一塊副本:優(yōu)先客戶端本地,否則隨機(jī)。

第二塊副本:不同于第一塊副本的不同機(jī)架。

第三塊副本:第二塊副本相同機(jī)架不同機(jī)器。

Hadoop - HDFS文件系統(tǒng)

寫(xiě)操作的整個(gè)過(guò)程:

1、HDFS客戶端創(chuàng)建對(duì)象實(shí)例DistributedFileSystem, 該對(duì)象中封裝了與HDFS文件系統(tǒng)操作的相關(guān)方法。

2、調(diào)用DistributedFileSystem對(duì)象的create()方法,通過(guò)RPC請(qǐng)求NameNode創(chuàng)建文件。
NameNode執(zhí)行各種檢查判斷:目標(biāo)文件是否存在、父目錄是否存在、客戶端是否具有創(chuàng)建該文件的權(quán)限。檢查通過(guò)
,NameNode就會(huì)為本次請(qǐng)求記下一條記錄,返回FSDataOutputStream輸出流對(duì)象給客戶端用于寫(xiě)數(shù)據(jù)。

3、客戶端通過(guò)FSDataOutputStream輸出流開(kāi)始寫(xiě)入數(shù)據(jù)。

4、客戶端寫(xiě)入數(shù)據(jù)時(shí),將數(shù)據(jù)分成一個(gè)個(gè)數(shù)據(jù)包(packet 默認(rèn)64k), 內(nèi)部組件DataStreamer請(qǐng)求NameNode挑
選出適合存儲(chǔ)數(shù)據(jù)副本的一組DataNode地址,默認(rèn)是3副本存儲(chǔ)。
DataStreamer將數(shù)據(jù)包流式傳輸?shù)絧ipeline的第一個(gè)DataNode,該DataNode存儲(chǔ)數(shù)據(jù)包并將它發(fā)送到pipeline的第
二個(gè)DataNode。同樣,第二個(gè)DataNode存儲(chǔ)數(shù)據(jù)包并且發(fā)送給第三個(gè)(也是最后一個(gè))DataNode。

5、傳輸?shù)姆捶较蛏?,?huì)通過(guò)ACK機(jī)制校驗(yàn)數(shù)據(jù)包傳輸是否成功;

6、客戶端完成數(shù)據(jù)寫(xiě)入后,在FSDataOutputStream輸出流上調(diào)用close()方法關(guān)閉。

7、DistributedFileSystem聯(lián)系NameNode告知其文件寫(xiě)入完成,等待NameNode確認(rèn)。
因?yàn)閚amenode已經(jīng)知道文件由哪些塊組成(DataStream請(qǐng)求分配數(shù)據(jù)塊),因此僅需等待最小復(fù)制塊即可成功返回
最小復(fù)制是由參數(shù)dfs.namenode.replication.min指定,默認(rèn)是1.

Hadoop - HDFS文件系統(tǒng)

##########################################################??

讀操作的整個(gè)過(guò)程:

讀操作的整個(gè)過(guò)程:

1、HDFS客戶端創(chuàng)建對(duì)象實(shí)例DistributedFileSystem, 調(diào)用該對(duì)象的open()方法來(lái)打開(kāi)希望讀取的文件。

2、DistributedFileSystem使用RPC調(diào)用namenode來(lái)確定**文件中前幾個(gè)塊的塊位置(分批次讀?。┬畔?*。

對(duì)于每個(gè)塊,namenode返回具有該塊所有副本的datanode位置地址列表,并且該地址列表是排序好的,與客戶端的網(wǎng)絡(luò)拓?fù)渚嚯x近的排序靠前。

3、DistributedFileSystem將FSDataInputStream輸入流返回到客戶端以供其讀取數(shù)據(jù)。

4、客戶端在FSDataInputStream輸入流上調(diào)用read()方法。然后,已存儲(chǔ)DataNode地址的InputStream連接到文件

中第一個(gè)塊的最近的DataNode。數(shù)據(jù)從DataNode流回客戶端,結(jié)果客戶端可以在流上重復(fù)調(diào)用read()。

5、當(dāng)該塊結(jié)束時(shí),F(xiàn)SDataInputStream將關(guān)閉與DataNode的連接,然后尋找下一個(gè)block塊的最佳datanode位置。這些操作對(duì)用戶來(lái)說(shuō)是透明的。所以用戶感覺(jué)起來(lái)它一直在讀取一個(gè)連續(xù)的流。

客戶端從流中讀取數(shù)據(jù)時(shí),也會(huì)根據(jù)需要詢問(wèn)NameNode來(lái)檢索下一批數(shù)據(jù)塊的DataNode位置信息。

6、一旦客戶端完成讀取,就對(duì)FSDataInputStream調(diào)用close()方法。

Hadoop - HDFS文件系統(tǒng)文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-400493.html

到了這里,關(guān)于Hadoop - HDFS文件系統(tǒng)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Hadoop:HDFS--分布式文件存儲(chǔ)系統(tǒng)

    Hadoop:HDFS--分布式文件存儲(chǔ)系統(tǒng)

    目錄 ? HDFS的基礎(chǔ)架構(gòu) VMware虛擬機(jī)部署HDFS集群 HDFS集群?jiǎn)⑼C?HDFS Shell操作 hadoop 命令體系: 創(chuàng)建文件夾 -mkdir ?查看目錄內(nèi)容 -ls ?上傳文件到hdfs -put 查看HDFS文件內(nèi)容 -cat 下載HDFS文件 -get 復(fù)制HDFS文件 -cp 追加數(shù)據(jù)到HDFS文件中 -appendToFile HDFS文件移動(dòng) -mv ?刪除HDFS文件 -rm ?

    2024年02月09日
    瀏覽(92)
  • HDFS的基本操作(創(chuàng)建目錄或文件、查看目錄或文件、上傳和拷貝文件到HDFS上、追加數(shù)據(jù)到HDFS上、從HDFS上下載文件到Linux本地、合并HDFS文件)

    主要涉及HDFS shell操作命令,包括創(chuàng)建目錄或文件、查看目錄或文件、上傳和拷貝文件到HDFS上、追加數(shù)據(jù)到HDFS上、從HDFS上下載文件到Linux本地、合并HDFS上多個(gè)文件并下載、刪除HDFS上的文件、查看各種命令的用法等。

    2024年02月08日
    瀏覽(22)
  • Hadoop入門(mén)學(xué)習(xí)筆記——三、使用HDFS文件系統(tǒng)

    Hadoop入門(mén)學(xué)習(xí)筆記——三、使用HDFS文件系統(tǒng)

    視頻課程地址:https://www.bilibili.com/video/BV1WY4y197g7 課程資料鏈接:https://pan.baidu.com/s/15KpnWeKpvExpKmOC8xjmtQ?pwd=5ay8 Hadoop入門(mén)學(xué)習(xí)筆記(匯總) 3.1.1. HDFS文件系統(tǒng)基本信息 HDFS和Linux系統(tǒng)一樣,均是以 / 作為根目錄的組織形式; 如何區(qū)分HDFS和Linux文件系統(tǒng): Linux文件系統(tǒng)以 file:// 作為

    2024年01月16日
    瀏覽(31)
  • HDFS Hadoop分布式文件存儲(chǔ)系統(tǒng)整體概述

    HDFS Hadoop分布式文件存儲(chǔ)系統(tǒng)整體概述

    整體概述舉例: 包括機(jī)架 rack1、rack2 包括5個(gè)Datanode,一個(gè)Namenode( 主角色 )帶領(lǐng)5個(gè)Datanode( 從角色 ),每一個(gè)rack中包含不同的block模塊文件為 分塊存儲(chǔ)模式 。塊與塊之間通過(guò)replication進(jìn)行 副本備份 ,進(jìn)行冗余存儲(chǔ),Namenode對(duì)存儲(chǔ)的 元數(shù)據(jù)進(jìn)行記錄 。該架構(gòu)可以概括為一個(gè) 抽象

    2024年02月16日
    瀏覽(89)
  • Hadoop3教程(三):HDFS文件系統(tǒng)常用命令一覽

    hdfs命令的完整形式: 其中subcommand有三種形式: admin commands client commands:如本節(jié)重點(diǎn)要講的dfs daemon commands dfs(文件系統(tǒng)命令),這個(gè)是HDFS里,日常使用 最為頻繁的一種命令 ,用來(lái)在HDFS的文件系統(tǒng)上運(yùn)行各種文件系統(tǒng)命令,如查看文件、刪除文件等。 基本語(yǔ)法: 這倆基本

    2024年02月06日
    瀏覽(111)
  • hadoop-hdfs分布式文件系統(tǒng)理論(一)

    hadoop-hdfs分布式文件系統(tǒng)理論(一)

    可以更好的支持分布式計(jì)算。 hadoop distribute file system是一個(gè)分布式 文件系統(tǒng),操作的是文件,增、刪都是以文件為單位。 文件線性按字節(jié)切割成塊(block),具有offset,id offset是指block的偏移量,比如block大小是10,offset可以是0,10,20,30。。。 id是block的名稱,比如block1,block

    2024年02月11日
    瀏覽(41)
  • 使用Hadoop 的 Java API 操縱 HDFS 文件系統(tǒng)

    使用Hadoop 的 Java API 操縱 HDFS 文件系統(tǒng)

    使用 Java 操作 HDFS 文件系統(tǒng)可以使用其對(duì)應(yīng)的Java API,即對(duì)應(yīng)三個(gè) jar 依賴包: hadoop-common.jar (該文件在 hadoop-2.10.1.tar.gz 壓縮包中的 sharehadoopcommon 目錄下) hadoop-hdfs.jar (該文件在 hadoop-2.10.1.tar.gz 壓縮包中的 sharehadoophdfs 目錄下) hadoop-client.jar (該文件在 hadoop-2.10.1.tar.gz 壓縮包

    2023年04月25日
    瀏覽(27)
  • Hadoop的分布式文件存儲(chǔ)系統(tǒng)HDFS組件的使用

    Hadoop的分布式文件存儲(chǔ)系統(tǒng)HDFS組件的使用

    存儲(chǔ)整個(gè)HDFS集群的元數(shù)據(jù)(metaData) —— 整個(gè)集群中存儲(chǔ)的目錄和文件的索引 管理整個(gè)HDFS集群 接收客戶端的請(qǐng)求 負(fù)責(zé)節(jié)點(diǎn)的故障轉(zhuǎn)移 存儲(chǔ)數(shù)據(jù),是以block塊的形式進(jìn)行數(shù)據(jù)的存放。 默認(rèn)情況下block塊的大小是128M。 blocksize大小的計(jì)算公式: 尋址時(shí)間:下載文件時(shí)找到文件

    2024年02月09日
    瀏覽(97)
  • Hadoop HDFS分布式文件系統(tǒng)(介紹以及基礎(chǔ)操作命令)

    Hadoop HDFS分布式文件系統(tǒng)(介紹以及基礎(chǔ)操作命令)

    目錄 一、為什么需要分布式存儲(chǔ)? 二、分布式的基礎(chǔ)架構(gòu)分析 ?三、HDFS基礎(chǔ)架構(gòu) 1.HDFS簡(jiǎn)介 四、HDFS集群?jiǎn)⑼C?1.一鍵啟停腳本 2.單進(jìn)程啟停 五、HDFS基本操作命令 1.創(chuàng)建文件夾 ?2.查看指定目錄下內(nèi)容? 3.上傳文件到HDFS指定目錄下 ?4.查看HDFS文件內(nèi)容 5.下載HDFS文件 ?6.拷貝

    2024年02月05日
    瀏覽(167)
  • 大數(shù)據(jù) - Hadoop系列《五》- HDFS文件塊大小及小文件問(wèn)題

    大數(shù)據(jù) - Hadoop系列《五》- HDFS文件塊大小及小文件問(wèn)題

    系列文章: 大數(shù)據(jù)- Hadoop入門(mén)-CSDN博客 大數(shù)據(jù) - Hadoop系列《二》- Hadoop組成-CSDN博客 大數(shù)據(jù) - Hadoop系列《三》- HDFS(分布式文件系統(tǒng))概述_大量小文件的存儲(chǔ)使用什么分布式文件系統(tǒng)-CSDN博客 大數(shù)據(jù) - Hadoop系列《三》- MapReduce(分布式計(jì)算引擎)概述-CSDN博客 大數(shù)據(jù) - Hadoop系

    2024年04月24日
    瀏覽(23)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包