国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Hadoop3教程(三十一):(生產(chǎn)調(diào)優(yōu)篇)異構(gòu)存儲

這篇具有很好參考價(jià)值的文章主要介紹了Hadoop3教程(三十一):(生產(chǎn)調(diào)優(yōu)篇)異構(gòu)存儲。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

(157)異構(gòu)存儲概述

概述

異構(gòu)存儲,也叫做冷熱數(shù)據(jù)分離。其中,經(jīng)常使用的數(shù)據(jù)被叫做是熱數(shù)據(jù),不經(jīng)常使用的數(shù)據(jù)被叫做冷數(shù)據(jù)。

把冷熱數(shù)據(jù),分別存儲在不同的存儲介質(zhì)里,從而達(dá)到對每個(gè)介質(zhì)的利用率最高,從而實(shí)現(xiàn)整體最佳性能,或者說性價(jià)比更高(比如說高性能硬盤放經(jīng)常使用的數(shù)據(jù))。

簡單的說,就是這么一個(gè)問題:經(jīng)常使用的數(shù)據(jù)、不經(jīng)常使用的數(shù)據(jù),是分別放在固態(tài)硬盤里更好,還是放在機(jī)械硬盤里更好,亦或者是放在內(nèi)存里更好?

一般來講,集群里會(huì)有這么幾種存儲類型:

  • RAM_DISK:內(nèi)存鏡像文件系統(tǒng);
  • SSD:SSD固態(tài)硬盤;
  • DISK:普通磁盤。在HDFS中,如果沒有主動(dòng)聲明,那么數(shù)據(jù)目錄存儲類型默認(rèn)都是DISK;
  • ARCHIVE:沒有特指哪種存儲介質(zhì),主要是指計(jì)算能力弱而存儲密度比較高的存儲介質(zhì),用來解決數(shù)據(jù)量的容量擴(kuò)增問題,一般用于歸檔;

關(guān)于存儲策略:

Hadoop3教程(三十一):(生產(chǎn)調(diào)優(yōu)篇)異構(gòu)存儲,大數(shù)據(jù)技術(shù),大數(shù)據(jù),hadoop

注意, 默認(rèn)存儲策略是HOT策略 ,即所有副本都保存在磁盤里。

訪問速度最快的是Lazy_persist策略,一個(gè)副本保存在內(nèi)存中,其它副本保存在磁盤中。

異構(gòu)存儲的shell操作

(1)查看當(dāng)前有哪些存儲策略可以用

[atguigu@hadoop102 hadoop-3.1.3]$ hdfs storagepolicies -listPolicies

(2)為指定路徑(數(shù)據(jù)存儲目錄)設(shè)置指定的存儲策略

hdfs storagepolicies -setStoragePolicy -path xxx -policy xxx

(3)獲取指定路徑(數(shù)據(jù)存儲目錄或文件)的存儲策略

hdfs storagepolicies -getStoragePolicy -path xxx

(4)取消存儲策略;執(zhí)行改命令之后該目錄或者文件,以其上級的目錄為準(zhǔn),如果是根目錄,那么就是HOT

hdfs storagepolicies -unsetStoragePolicy -path xxx

(5)查看某個(gè)路徑下的文件塊的分布

bin/hdfs fsck <path> -files -blocks -locations

(6)查看集群節(jié)點(diǎn)

hadoop dfsadmin -report

可以看到,跟糾刪碼一樣,異構(gòu)存儲針對的對象,也是某一個(gè)路徑。

(158)異構(gòu)存儲案例實(shí)操

這塊在教程里比較長,都是實(shí)驗(yàn)各種存儲策略的代碼,所以只挑選個(gè)人感興趣的地方做簡單記錄,就不批量復(fù)制了,僅做了解即可。

關(guān)于集群如何識別自己的存儲介質(zhì)的類型?

是無法自動(dòng)辨別的,需要在節(jié)點(diǎn)的hdfs-site.xml中手動(dòng)指定,一個(gè)路徑如果你指定了是SSD的話,那集群就認(rèn)為它就是SSD。

舉例,我要給一個(gè)節(jié)點(diǎn),配置上SSD目錄和RAM_DISK目錄,就可以打開該節(jié)點(diǎn)上的hdfs-site.xml,添加或修改如下信息:

<property>
	<name>dfs.replication</name>
	<value>2</value>
</property>
<property>
	<name>dfs.storage.policy.enabled</name>
	<value>true</value>
</property>
<property>
	<name>dfs.datanode.data.dir</name> 
	<value>[SSD]file:///opt/module/hadoop-3.1.3/hdfsdata/ssd,[RAM_DISK]file:///opt/module/hadoop-3.1.3/hdfsdata/ram_disk</value>
</property>

上面代碼里,第一個(gè)property是設(shè)置副本數(shù)量為2,第二個(gè)property是設(shè)置異構(gòu)存儲策略為打開狀態(tài),最后一個(gè)property則是將兩個(gè)路徑分別指定成SSD目錄和RAM_DISK目錄。

教程里一共列舉了5個(gè)節(jié)點(diǎn),分別修改它們的hdfs-site.xml,做不同的存儲類型分配,如下:

節(jié)點(diǎn) 存儲類型分配
hadoop102 RAM_DISK,SSD
hadoop103 SSD,DISK
hadoop104 DISK,RAM_DISK
hadoop105 ARCHIVE
hadoop106 ARCHIVE

我們在HDFS上創(chuàng)建一個(gè)新目錄,然后上傳一個(gè)新文件到目錄里:

hadoop fs -mkdir /hdfsdata
hadoop fs -put /opt/module/hadoop-3.1.3/NOTICE.txt /hdfsdata

新建的目錄默認(rèn)是HOT存儲策略,即所有副本都存儲在DISK上,我們可以驗(yàn)證一下,即使用下面命令,查看上傳的文件塊分布:

[atguigu@hadoop102 hadoop-3.1.3]$ hdfs fsck /hdfsdata -files -blocks -locations

[DatanodeInfoWithStorage[192.168.10.104:9866,DS-0b133854-7f9e-48df-939b-5ca6482c5afb,DISK], DatanodeInfoWithStorage[192.168.10.103:9866,DS-ca1bd3b9-d9a5-4101-9f92-3da5f1baa28b,DISK]]

其實(shí)執(zhí)行命令之后,打印出來的信息有很多,我們只展示了一小部分,從輸出上可以看到,一個(gè)副本存儲在了104的DISK目錄下,另一個(gè)副本存儲在了103的DISK目錄下。

接下來,我們嘗試將這個(gè)目錄的存儲策略修改為WARM策略,即一個(gè)副本在DISK上,其他副本在ARCHIVE上。

(1)首先,修改這個(gè)目錄的存儲策略修改為WARM策略

[atguigu@hadoop102 hadoop-3.1.3]$ hdfs storagepolicies -setStoragePolicy -path /hdfsdata -policy WARM

(2)再次查看文件塊分布,我們可以看到文件塊依然放在原處。

[atguigu@hadoop102 hadoop-3.1.3]$ hdfs fsck /hdfsdata -files -blocks -locations

(3)我們需要讓他HDFS按照存儲策略自行移動(dòng)文件塊

[atguigu@hadoop102 hadoop-3.1.3]$ hdfs mover /hdfsdata

(4)再次查看文件塊分布,

[atguigu@hadoop102 hadoop-3.1.3]$ hdfs fsck /hdfsdata -files -blocks -locations

[DatanodeInfoWithStorage[192.168.10.105:9866,DS-d46d08e1-80c6-4fca-b0a2-4a3dd7ec7459,ARCHIVE], DatanodeInfoWithStorage[192.168.10.103:9866,DS-ca1bd3b9-d9a5-4101-9f92-3da5f1baa28b,DISK]]

可以看到,執(zhí)行了hdfs mover /hdfsdata之后,在103的DISK目錄里的那個(gè)副本沒有變化,另一個(gè)副本移動(dòng)到了105上的ARCHIVE目錄里。

接下來,教程里按照上面的流程,依次測試了其他幾種策略,基本流程和命令都是一樣的,所以這里就不展示了。

唯一需要注意的,是LAZY_PERSIST策略,理論上執(zhí)行了策略之后,會(huì)達(dá)到一個(gè)副本在RAM_DISK,即內(nèi)存中,另一個(gè)副本在DISK中的效果。但實(shí)際中并不是。有兩個(gè)原因:

一是在Hadoop的配置文件里,有一個(gè)dfs.datanode.max.locked.memory,它控制了你往內(nèi)存里存儲副本數(shù)據(jù)的大小,這個(gè)參數(shù)默認(rèn)是0,即不能往內(nèi)存里存數(shù)據(jù)。

二是如果你用的是linux虛擬機(jī)的話,虛擬機(jī)也會(huì)限制你往內(nèi)存中放數(shù)據(jù)的大小。

基于這兩個(gè)原因,實(shí)際中的LAZY_PERSIST策略并不會(huì)生效。從而導(dǎo)致所有副本都被放進(jìn)了DISK目錄里。

如果實(shí)在想往內(nèi)存里放副本,可以嘗試將dfs.datanode.max.locked.memory修改為文件塊大?。J(rèn)128M)的倍數(shù),但是生產(chǎn)中是不推薦的。畢竟放在內(nèi)存里容易宕機(jī)丟失,后果還是蠻嚴(yán)重的。文章來源地址http://www.zghlxwxcb.cn/news/detail-720426.html

參考文獻(xiàn)

  1. 【尚硅谷大數(shù)據(jù)Hadoop教程,hadoop3.x搭建到集群調(diào)優(yōu),百萬播放】

到了這里,關(guān)于Hadoop3教程(三十一):(生產(chǎn)調(diào)優(yōu)篇)異構(gòu)存儲的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Hadoop3教程(十一):MapReduce的詳細(xì)工作流程

    Hadoop3教程(十一):MapReduce的詳細(xì)工作流程

    本小節(jié)將展示一下整個(gè)MapReduce的全工作流程。 首先是Map階段: 首先,我們有一個(gè)待處理文本文件的集合; 客戶端開始切片規(guī)劃; 客戶端提交各種信息(如切片規(guī)劃文件、代碼文件及其他配置數(shù)據(jù))到y(tǒng)arn; yarn接收信息,計(jì)算所需的MapTask數(shù)量(按照切片數(shù)); MapTask啟動(dòng),讀

    2024年02月07日
    瀏覽(22)
  • 【hadoop3.x】一 搭建集群調(diào)優(yōu)

    【hadoop3.x】一 搭建集群調(diào)優(yōu)

    https://blog.csdn.net/fen_dou_shao_nian/article/details/120945221 2.1 模板虛擬機(jī)環(huán)境準(zhǔn)備 0)安裝模板虛擬機(jī),IP 地址 192.168.10.100、主機(jī)名稱 hadoop100、內(nèi)存 4G、硬盤 50G 1)hadoop100 虛擬機(jī)配置要求如下(本文 Linux 系統(tǒng)全部以 CentOS-7.5-x86-1804 為例) (1)使用 yum 安裝需要虛擬機(jī)可以正常上網(wǎng),

    2024年02月07日
    瀏覽(25)
  • 大數(shù)據(jù)技術(shù)之Hadoop(生產(chǎn)調(diào)優(yōu)手冊)

    大數(shù)據(jù)技術(shù)之Hadoop(生產(chǎn)調(diào)優(yōu)手冊) 1)NameNode內(nèi)存計(jì)算 每個(gè)文件塊大概占用150byte,一臺服務(wù)器128G內(nèi)存為例,能存儲多少文件塊呢? 2)Hadoop2.x系列,配置NameNode內(nèi)存 NameNode內(nèi)存默認(rèn)2000m,如果服務(wù)器內(nèi)存4G,NameNode內(nèi)存可以配置3g。在hadoop-env.sh文件中配置如下。 HADOOP_NAMENODE

    2024年02月09日
    瀏覽(20)
  • 【生產(chǎn)級實(shí)踐】Docker部署配置Hadoop3.x + HBase2.x實(shí)現(xiàn)真正分布式集群環(huán)境

    【生產(chǎn)級實(shí)踐】Docker部署配置Hadoop3.x + HBase2.x實(shí)現(xiàn)真正分布式集群環(huán)境

    網(wǎng)上找了很多資料,但能夠?qū)崿F(xiàn)Docker安裝Hadoop3.X和Hbase2.X真正分布式集群的教程很零散,坑很多, 把經(jīng)驗(yàn)做了整理, 避免趟坑。 1、機(jī)器環(huán)境 這里采用三臺機(jī)器來部署分布式集群環(huán)境: 192.168.1.101 hadoop1 (docker管理節(jié)點(diǎn)) 192.168.1.102 hadoop2 192.168.1.103 hadoop3 2、下載Docker Hadoop的

    2024年02月02日
    瀏覽(25)
  • 【大數(shù)據(jù)之Hadoop】二十八、生產(chǎn)調(diào)優(yōu)-HDFS集群擴(kuò)容及縮容

    【大數(shù)據(jù)之Hadoop】二十八、生產(chǎn)調(diào)優(yōu)-HDFS集群擴(kuò)容及縮容

    ??增加或縮減服務(wù)器,注意不允許白名單和黑名單同時(shí)出現(xiàn)同一個(gè)主機(jī)。 ??原有數(shù)據(jù)節(jié)點(diǎn)不能滿足數(shù)據(jù)存儲需求時(shí),需要在原有集群的基礎(chǔ)上動(dòng)態(tài)增加節(jié)點(diǎn),即動(dòng)態(tài)增加服務(wù)器,增加服務(wù)器的同時(shí)不需要重啟集群。 ??hadoop完全分布式集群設(shè)置了3個(gè)datanode節(jié)點(diǎn),當(dāng)白名

    2024年02月03日
    瀏覽(18)
  • 第三部分:Spark調(diào)優(yōu)篇

    第三部分:Spark調(diào)優(yōu)篇

    第一部分:Spark基礎(chǔ)篇_奔跑者-輝的博客-CSDN博客 第一部分:Spark基礎(chǔ)篇_奔跑者-輝的博客-CSDN博客 第三部分:Spark調(diào)優(yōu)篇_奔跑者-輝的博客-CSDN博客 目錄 1 常規(guī)性能調(diào)優(yōu) 常規(guī)性能調(diào)優(yōu)一:? 最優(yōu)資源配置 常規(guī)性能調(diào)優(yōu)二:? RDD調(diào)優(yōu) 常規(guī)性能調(diào)優(yōu)三:并行度調(diào)節(jié) 常規(guī)性能調(diào)優(yōu)四

    2024年02月16日
    瀏覽(21)
  • 【大數(shù)據(jù)基礎(chǔ)】Hadoop3.1.3安裝教程

    【大數(shù)據(jù)基礎(chǔ)】Hadoop3.1.3安裝教程

    來源: https://dblab.xmu.edu.cn/blog/2441/ 前言:重裝解決一切bug!事實(shí)上,問題中的絕大部分衍生問題都可以通過重裝解決。 創(chuàng)建Hadoop用戶 首先按 ctrl+alt+t 打開終端窗口,輸入如下命令創(chuàng)建新用戶 : 接著使用如下命令設(shè)置密碼,可簡單設(shè)置為 hadoop,按提示輸入兩次密碼: 可為

    2024年02月09日
    瀏覽(56)
  • Hadoop3教程(十四):MapReduce中的排序

    排序是MR中最重要的操作之一,也是面試中可能被問到的重點(diǎn)。 MapTask和ReduceTask中都會(huì)對數(shù)據(jù)按照KEY來排序,主要是為了效率,排完序之后,相同key值的數(shù)據(jù)會(huì)被放在一起,更方便下一步(如Reducer())的匯總處理。 默認(rèn)排序是按照 字典順序 (字母由小到大,或者是數(shù)字由小

    2024年02月07日
    瀏覽(28)
  • Hadoop(01) Hadoop3.3.6安裝教程,單機(jī)/偽分布式配置

    Hadoop(01) Hadoop3.3.6安裝教程,單機(jī)/偽分布式配置

    在安裝 Hadoop 3.3.6 前,需要滿足以下前置條件: Java Development Kit (JDK):Hadoop 是用 Java 編寫的,因此需要安裝并配置適當(dāng)版本的 JDK。Hadoop 3.3.6 建議使用 JDK 8 或更高版本。確保正確安裝 JDK,并設(shè)置 JAVA_HOME 環(huán)境變量。 SSH:Hadoop 集群中的節(jié)點(diǎn)需要通過 SSH 進(jìn)行通信和管理。確保在

    2024年02月06日
    瀏覽(22)
  • Hadoop3教程(二):HDFS的定義及概述

    隨著實(shí)際生產(chǎn)環(huán)境中的數(shù)據(jù)越來越大,在一臺服務(wù)器上無法存儲下所有的數(shù)據(jù),那么就要把數(shù)據(jù)分散到多臺服務(wù)器的磁盤里存放。但是像這樣做跨服務(wù)器的數(shù)據(jù)管理和維護(hù)是很難的,所以就迫切需要一種方式,來協(xié)調(diào)管理多臺機(jī)器上的文件,這就是分布式文件管理系統(tǒng)。 HD

    2024年02月07日
    瀏覽(20)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包