国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<track id="xkf4h"><b id="xkf4h"></b></track>

<table id="xkf4h"></table>

Hadoop3教程（三十一）：（生產(chǎn)調(diào)優(yōu)篇）異構(gòu)存儲

2年前作者：經(jīng)年藏殊分類：Toy博客閱讀(22)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了Hadoop3教程（三十一）：（生產(chǎn)調(diào)優(yōu)篇）異構(gòu)存儲。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

（157）異構(gòu)存儲概述

概述

異構(gòu)存儲，也叫做冷熱數(shù)據(jù)分離。其中，經(jīng)常使用的數(shù)據(jù)被叫做是熱數(shù)據(jù)，不經(jīng)常使用的數(shù)據(jù)被叫做冷數(shù)據(jù)。

把冷熱數(shù)據(jù)，分別存儲在不同的存儲介質(zhì)里，從而達(dá)到對每個(gè)介質(zhì)的利用率最高，從而實(shí)現(xiàn)整體最佳性能，或者說性價(jià)比更高（比如說高性能硬盤放經(jīng)常使用的數(shù)據(jù)）。

簡單的說，就是這么一個(gè)問題：經(jīng)常使用的數(shù)據(jù)、不經(jīng)常使用的數(shù)據(jù)，是分別放在固態(tài)硬盤里更好，還是放在機(jī)械硬盤里更好，亦或者是放在內(nèi)存里更好？

一般來講，集群里會(huì)有這么幾種存儲類型：

RAM_DISK：內(nèi)存鏡像文件系統(tǒng)；
SSD：SSD固態(tài)硬盤；
DISK：普通磁盤。在HDFS中，如果沒有主動(dòng)聲明，那么數(shù)據(jù)目錄存儲類型默認(rèn)都是DISK；
ARCHIVE：沒有特指哪種存儲介質(zhì)，主要是指計(jì)算能力弱而存儲密度比較高的存儲介質(zhì)，用來解決數(shù)據(jù)量的容量擴(kuò)增問題，一般用于歸檔；

關(guān)于存儲策略：

Hadoop3教程（三十一）：（生產(chǎn)調(diào)優(yōu)篇）異構(gòu)存儲,大數(shù)據(jù)技術(shù),大數(shù)據(jù),hadoop

注意， 默認(rèn)存儲策略是HOT策略 ，即所有副本都保存在磁盤里。

訪問速度最快的是Lazy_persist策略，一個(gè)副本保存在內(nèi)存中，其它副本保存在磁盤中。

異構(gòu)存儲的shell操作

（1）查看當(dāng)前有哪些存儲策略可以用

[atguigu@hadoop102 hadoop-3.1.3]$ hdfs storagepolicies -listPolicies

（2）為指定路徑（數(shù)據(jù)存儲目錄）設(shè)置指定的存儲策略

hdfs storagepolicies -setStoragePolicy -path xxx -policy xxx

（3）獲取指定路徑（數(shù)據(jù)存儲目錄或文件）的存儲策略

hdfs storagepolicies -getStoragePolicy -path xxx

（4）取消存儲策略；執(zhí)行改命令之后該目錄或者文件，以其上級的目錄為準(zhǔn)，如果是根目錄，那么就是HOT

hdfs storagepolicies -unsetStoragePolicy -path xxx

（5）查看某個(gè)路徑下的文件塊的分布

bin/hdfs fsck <path> -files -blocks -locations

（6）查看集群節(jié)點(diǎn)

hadoop dfsadmin -report

可以看到，跟糾刪碼一樣，異構(gòu)存儲針對的對象，也是某一個(gè)路徑。

（158）異構(gòu)存儲案例實(shí)操

這塊在教程里比較長，都是實(shí)驗(yàn)各種存儲策略的代碼，所以只挑選個(gè)人感興趣的地方做簡單記錄，就不批量復(fù)制了，僅做了解即可。

關(guān)于集群如何識別自己的存儲介質(zhì)的類型？

是無法自動(dòng)辨別的，需要在節(jié)點(diǎn)的hdfs-site.xml中手動(dòng)指定，一個(gè)路徑如果你指定了是SSD的話，那集群就認(rèn)為它就是SSD。

舉例，我要給一個(gè)節(jié)點(diǎn)，配置上SSD目錄和RAM_DISK目錄，就可以打開該節(jié)點(diǎn)上的hdfs-site.xml，添加或修改如下信息：

<property>
	<name>dfs.replication</name>
	<value>2</value>
</property>
<property>
	<name>dfs.storage.policy.enabled</name>
	<value>true</value>
</property>
<property>
	<name>dfs.datanode.data.dir</name> 
	<value>[SSD]file:///opt/module/hadoop-3.1.3/hdfsdata/ssd,[RAM_DISK]file:///opt/module/hadoop-3.1.3/hdfsdata/ram_disk</value>
</property>

上面代碼里，第一個(gè)property是設(shè)置副本數(shù)量為2，第二個(gè)property是設(shè)置異構(gòu)存儲策略為打開狀態(tài)，最后一個(gè)property則是將兩個(gè)路徑分別指定成SSD目錄和RAM_DISK目錄。

教程里一共列舉了5個(gè)節(jié)點(diǎn)，分別修改它們的hdfs-site.xml，做不同的存儲類型分配，如下：

節(jié)點(diǎn)	存儲類型分配
hadoop102	RAM_DISK，SSD
hadoop103	SSD，DISK
hadoop104	DISK，RAM_DISK
hadoop105	ARCHIVE
hadoop106	ARCHIVE

我們在HDFS上創(chuàng)建一個(gè)新目錄，然后上傳一個(gè)新文件到目錄里：

hadoop fs -mkdir /hdfsdata
hadoop fs -put /opt/module/hadoop-3.1.3/NOTICE.txt /hdfsdata

新建的目錄默認(rèn)是HOT存儲策略，即所有副本都存儲在DISK上，我們可以驗(yàn)證一下，即使用下面命令，查看上傳的文件塊分布：

[atguigu@hadoop102 hadoop-3.1.3]$ hdfs fsck /hdfsdata -files -blocks -locations

[DatanodeInfoWithStorage[192.168.10.104:9866,DS-0b133854-7f9e-48df-939b-5ca6482c5afb,DISK], DatanodeInfoWithStorage[192.168.10.103:9866,DS-ca1bd3b9-d9a5-4101-9f92-3da5f1baa28b,DISK]]

其實(shí)執(zhí)行命令之后，打印出來的信息有很多，我們只展示了一小部分，從輸出上可以看到，一個(gè)副本存儲在了104的DISK目錄下，另一個(gè)副本存儲在了103的DISK目錄下。

接下來，我們嘗試將這個(gè)目錄的存儲策略修改為WARM策略，即一個(gè)副本在DISK上，其他副本在ARCHIVE上。

（1）首先，修改這個(gè)目錄的存儲策略修改為WARM策略

[atguigu@hadoop102 hadoop-3.1.3]$ hdfs storagepolicies -setStoragePolicy -path /hdfsdata -policy WARM

（2）再次查看文件塊分布，我們可以看到文件塊依然放在原處。

[atguigu@hadoop102 hadoop-3.1.3]$ hdfs fsck /hdfsdata -files -blocks -locations

（3）我們需要讓他HDFS按照存儲策略自行移動(dòng)文件塊

[atguigu@hadoop102 hadoop-3.1.3]$ hdfs mover /hdfsdata

（4）再次查看文件塊分布，

[atguigu@hadoop102 hadoop-3.1.3]$ hdfs fsck /hdfsdata -files -blocks -locations

[DatanodeInfoWithStorage[192.168.10.105:9866,DS-d46d08e1-80c6-4fca-b0a2-4a3dd7ec7459,ARCHIVE], DatanodeInfoWithStorage[192.168.10.103:9866,DS-ca1bd3b9-d9a5-4101-9f92-3da5f1baa28b,DISK]]

可以看到，執(zhí)行了hdfs mover /hdfsdata之后，在103的DISK目錄里的那個(gè)副本沒有變化，另一個(gè)副本移動(dòng)到了105上的ARCHIVE目錄里。

接下來，教程里按照上面的流程，依次測試了其他幾種策略，基本流程和命令都是一樣的，所以這里就不展示了。

唯一需要注意的，是LAZY_PERSIST策略，理論上執(zhí)行了策略之后，會(huì)達(dá)到一個(gè)副本在RAM_DISK，即內(nèi)存中，另一個(gè)副本在DISK中的效果。但實(shí)際中并不是。有兩個(gè)原因：

一是在Hadoop的配置文件里，有一個(gè)dfs.datanode.max.locked.memory，它控制了你往內(nèi)存里存儲副本數(shù)據(jù)的大小，這個(gè)參數(shù)默認(rèn)是0，即不能往內(nèi)存里存數(shù)據(jù)。

二是如果你用的是linux虛擬機(jī)的話，虛擬機(jī)也會(huì)限制你往內(nèi)存中放數(shù)據(jù)的大小。

基于這兩個(gè)原因，實(shí)際中的LAZY_PERSIST策略并不會(huì)生效。從而導(dǎo)致所有副本都被放進(jìn)了DISK目錄里。

如果實(shí)在想往內(nèi)存里放副本，可以嘗試將dfs.datanode.max.locked.memory修改為文件塊大?。J(rèn)128M）的倍數(shù)，但是生產(chǎn)中是不推薦的。畢竟放在內(nèi)存里容易宕機(jī)丟失，后果還是蠻嚴(yán)重的。文章來源地址http://www.zghlxwxcb.cn/news/detail-720426.html

參考文獻(xiàn)

【尚硅谷大數(shù)據(jù)Hadoop教程，hadoop3.x搭建到集群調(diào)優(yōu)，百萬播放】

到了這里，關(guān)于Hadoop3教程（三十一）：（生產(chǎn)調(diào)優(yōu)篇）異構(gòu)存儲的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

Hadoop3教程（十一）：MapReduce的詳細(xì)工作流程
本小節(jié)將展示一下整個(gè)MapReduce的全工作流程。首先是Map階段：首先，我們有一個(gè)待處理文本文件的集合；客戶端開始切片規(guī)劃；客戶端提交各種信息（如切片規(guī)劃文件、代碼文件及其他配置數(shù)據(jù)）到y(tǒng)arn； yarn接收信息，計(jì)算所需的MapTask數(shù)量（按照切片數(shù)）； MapTask啟動(dòng)，讀
2024年02月07日
瀏覽(22)
【hadoop3.x】一搭建集群調(diào)優(yōu)
https://blog.csdn.net/fen_dou_shao_nian/article/details/120945221 2.1 模板虛擬機(jī)環(huán)境準(zhǔn)備 0）安裝模板虛擬機(jī)，IP 地址 192.168.10.100、主機(jī)名稱 hadoop100、內(nèi)存 4G、硬盤 50G 1）hadoop100 虛擬機(jī)配置要求如下（本文 Linux 系統(tǒng)全部以 CentOS-7.5-x86-1804 為例）（1）使用 yum 安裝需要虛擬機(jī)可以正常上網(wǎng)，
2024年02月07日
瀏覽(25)
大數(shù)據(jù)技術(shù)之Hadoop（生產(chǎn)調(diào)優(yōu)手冊）
大數(shù)據(jù)技術(shù)之Hadoop（生產(chǎn)調(diào)優(yōu)手冊） 1）NameNode內(nèi)存計(jì)算每個(gè)文件塊大概占用150byte，一臺服務(wù)器128G內(nèi)存為例，能存儲多少文件塊呢？ 2）Hadoop2.x系列，配置NameNode內(nèi)存 NameNode內(nèi)存默認(rèn)2000m，如果服務(wù)器內(nèi)存4G，NameNode內(nèi)存可以配置3g。在hadoop-env.sh文件中配置如下。 HADOOP_NAMENODE
2024年02月09日
瀏覽(20)
【生產(chǎn)級實(shí)踐】Docker部署配置Hadoop3.x + HBase2.x實(shí)現(xiàn)真正分布式集群環(huán)境
網(wǎng)上找了很多資料，但能夠?qū)崿F(xiàn)Docker安裝Hadoop3.X和Hbase2.X真正分布式集群的教程很零散，坑很多，把經(jīng)驗(yàn)做了整理，避免趟坑。 1、機(jī)器環(huán)境這里采用三臺機(jī)器來部署分布式集群環(huán)境： 192.168.1.101 hadoop1 （docker管理節(jié)點(diǎn)） 192.168.1.102 hadoop2 192.168.1.103 hadoop3 2、下載Docker Hadoop的
2024年02月02日
瀏覽(25)
【大數(shù)據(jù)之Hadoop】二十八、生產(chǎn)調(diào)優(yōu)-HDFS集群擴(kuò)容及縮容
??增加或縮減服務(wù)器，注意不允許白名單和黑名單同時(shí)出現(xiàn)同一個(gè)主機(jī)。 ??原有數(shù)據(jù)節(jié)點(diǎn)不能滿足數(shù)據(jù)存儲需求時(shí)，需要在原有集群的基礎(chǔ)上動(dòng)態(tài)增加節(jié)點(diǎn)，即動(dòng)態(tài)增加服務(wù)器，增加服務(wù)器的同時(shí)不需要重啟集群。 ??hadoop完全分布式集群設(shè)置了3個(gè)datanode節(jié)點(diǎn)，當(dāng)白名
2024年02月03日
瀏覽(18)
第三部分：Spark調(diào)優(yōu)篇
第一部分：Spark基礎(chǔ)篇_奔跑者-輝的博客-CSDN博客第一部分：Spark基礎(chǔ)篇_奔跑者-輝的博客-CSDN博客第三部分：Spark調(diào)優(yōu)篇_奔跑者-輝的博客-CSDN博客目錄 1 常規(guī)性能調(diào)優(yōu) 常規(guī)性能調(diào)優(yōu)一:? 最優(yōu)資源配置常規(guī)性能調(diào)優(yōu)二:? RDD調(diào)優(yōu) 常規(guī)性能調(diào)優(yōu)三：并行度調(diào)節(jié) 常規(guī)性能調(diào)優(yōu)四
2024年02月16日
瀏覽(21)
【大數(shù)據(jù)基礎(chǔ)】Hadoop3.1.3安裝教程
來源： https://dblab.xmu.edu.cn/blog/2441/ 前言：重裝解決一切bug！事實(shí)上，問題中的絕大部分衍生問題都可以通過重裝解決。創(chuàng)建Hadoop用戶首先按 ctrl+alt+t 打開終端窗口，輸入如下命令創(chuàng)建新用戶 : 接著使用如下命令設(shè)置密碼，可簡單設(shè)置為 hadoop，按提示輸入兩次密碼：可為
2024年02月09日
瀏覽(56)
Hadoop3教程（十四）：MapReduce中的排序
排序是MR中最重要的操作之一，也是面試中可能被問到的重點(diǎn)。 MapTask和ReduceTask中都會(huì)對數(shù)據(jù)按照KEY來排序，主要是為了效率，排完序之后，相同key值的數(shù)據(jù)會(huì)被放在一起，更方便下一步（如Reducer()）的匯總處理。默認(rèn)排序是按照字典順序（字母由小到大，或者是數(shù)字由小
2024年02月07日
瀏覽(28)
Hadoop(01) Hadoop3.3.6安裝教程，單機(jī)/偽分布式配置
在安裝 Hadoop 3.3.6 前，需要滿足以下前置條件： Java Development Kit (JDK)：Hadoop 是用 Java 編寫的，因此需要安裝并配置適當(dāng)版本的 JDK。Hadoop 3.3.6 建議使用 JDK 8 或更高版本。確保正確安裝 JDK，并設(shè)置 JAVA_HOME 環(huán)境變量。 SSH：Hadoop 集群中的節(jié)點(diǎn)需要通過 SSH 進(jìn)行通信和管理。確保在
2024年02月06日
瀏覽(22)
Hadoop3教程（二）：HDFS的定義及概述
隨著實(shí)際生產(chǎn)環(huán)境中的數(shù)據(jù)越來越大，在一臺服務(wù)器上無法存儲下所有的數(shù)據(jù)，那么就要把數(shù)據(jù)分散到多臺服務(wù)器的磁盤里存放。但是像這樣做跨服務(wù)器的數(shù)據(jù)管理和維護(hù)是很難的，所以就迫切需要一種方式，來協(xié)調(diào)管理多臺機(jī)器上的文件，這就是分布式文件管理系統(tǒng)。 HD
2024年02月07日
瀏覽(20)

<i id="xv71w"><nobr id="xv71w"><dfn id="xv71w"></dfn></nobr></i>