国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

HDFS中數(shù)據(jù)遷移的使用場景和考量因素

2年前作者：fiveym分類：Toy博客閱讀(28)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了HDFS中數(shù)據(jù)遷移的使用場景和考量因素。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

數(shù)據(jù)遷移使用場景

冷熱集群數(shù)據(jù)同步、分類存儲(chǔ)
集群數(shù)據(jù)整體搬遷
- 當(dāng)公司業(yè)務(wù)迅速的發(fā)展，導(dǎo)致的當(dāng)前的服務(wù)器數(shù)量資源出現(xiàn)臨時(shí)緊張的時(shí)候，為了更高效的利用資源，會(huì)將A機(jī)房數(shù)據(jù)整體遷移到B機(jī)房的，原因可能是B機(jī)房機(jī)器多，而且B機(jī)房本身開銷較A機(jī)房低些等
數(shù)據(jù)的準(zhǔn)實(shí)時(shí)同步
- 數(shù)據(jù)準(zhǔn)實(shí)時(shí)同步的media在于數(shù)據(jù)的雙倍份可用，比如某天A集群突然宣告不允許再使用了，此時(shí)可以將線上使用集群直接切向B的同步集群，因?yàn)锽集群實(shí)時(shí)同步A集群數(shù)據(jù)，擁有完全一致的真實(shí)數(shù)據(jù)和元數(shù)據(jù)信息，所以對(duì)于業(yè)務(wù)方使用而言是不會(huì)收到任何影響的。

數(shù)據(jù)遷移要素考量

Bandwidth-帶寬
- 帶寬用的多了，會(huì)影響到線上業(yè)務(wù)的任務(wù)運(yùn)行，帶寬用的少了又會(huì)導(dǎo)致數(shù)據(jù)同步滿的問題。
performance-性能
- 是采用簡單的單機(jī)程序？還是多線程的性能更佳的分布式程序？
data-increment-增量同步
- 當(dāng)TB,PB級(jí)別的數(shù)據(jù)需要同步的時(shí)候，如果每次以全量的方式去同步數(shù)據(jù)，結(jié)果一定是非常糟糕。如果僅針對(duì)變化的增量數(shù)據(jù)進(jìn)行同步將會(huì)是不錯(cuò)的選擇。可以陪著HDFS快照等技術(shù)實(shí)現(xiàn)增量數(shù)據(jù)同步。
syncable-數(shù)據(jù)遷移的同步性
- 數(shù)據(jù)遷移的過程中需要保證周期內(nèi)數(shù)據(jù)是一定能夠同步完的，不能差距太大。比如A集群7天內(nèi)的增量數(shù)據(jù)，我只要花半天就可以完全同步到B集群，然后我有可以等到下周再次進(jìn)行同步，最可怕的事情在于A集群的7天內(nèi)的數(shù)據(jù)，我的程序花了7天還同步不完，然后下一個(gè)周期又來了，這樣就無法做到準(zhǔn)實(shí)時(shí)的一致性，其實(shí)7天還是一個(gè)比較大的時(shí)間，最好是能達(dá)到按天同步。

HDFS分布式拷貝工具-DistCp

DistCp是Hadoop中的一種工具，在hadoop-tools工程下，作為獨(dú)立子工程存在。
定位用于數(shù)據(jù)遷移，定期在集群之間和集群內(nèi)部備份數(shù)據(jù)
在備份過程中，每次運(yùn)行distcp都成為一個(gè)備份周期。盡管性能相對(duì)較慢，但他的普及程度已經(jīng)越來越高
distcp底層使用MapReduce在集群之間或并行在同一集群內(nèi)復(fù)制文件。執(zhí)行復(fù)制的MapReduce只有mapper階段

distcp的優(yōu)勢性能

帶寬限流
- distcp可以通過命令參數(shù)bandwidth來為程序進(jìn)行帶寬限流
增量數(shù)據(jù)同步
- 在distcp中可以通過updata，append和diff這三個(gè)參數(shù)實(shí)現(xiàn)增量同步
- updata 只拷貝不存在的文件或者目錄
- append 最佳目標(biāo)路徑下已存在的文件
- diff 通過快照的diff對(duì)比信息來同步源端路徑與目標(biāo)路徑
  updata解決了新增文件、目錄的同步。append解決已存在的增量更新同步。diff解決刪除或重命名類型文件的同步
高效的性能：分布式特性
- distcp底層使用MapReduce執(zhí)行數(shù)據(jù)同步，MapReduce本身是一類分布式程序

命令

HDFS中數(shù)據(jù)遷移的使用場景和考量因素,# hdfs,hdfs,hadoop,大數(shù)據(jù)

其中source_path，target_path需要帶上地址前綴以區(qū)分不同的集群

hadoop distcp hdfs://src_cluster:8020/user/data hdfs://dest_cluster:8020/user/data_backup

這個(gè)命令告訴distcp工具將hdfs://src_cluster:8020/user/data目錄下的數(shù)據(jù)復(fù)制到hdfs://dest_cluster:8020/user/data_backup目錄下。文章來源地址http://www.zghlxwxcb.cn/news/detail-671455.html

到了這里，關(guān)于HDFS中數(shù)據(jù)遷移的使用場景和考量因素的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

大數(shù)據(jù)技術(shù)之Hadoop（HDFS）
1）HDFS產(chǎn)生背景隨著數(shù)據(jù)量越來越大，在一個(gè)操作系統(tǒng)存不下所有的數(shù)據(jù)，那么就分配到更多的操作系統(tǒng)管理的磁盤中，但是不方便管理和維護(hù)，迫切需要一種系統(tǒng)來管理多臺(tái)機(jī)器上的文件，這就是分布式文件管理系統(tǒng) 。HDFS只是分布式文件管理系統(tǒng)中的一種。 2）HDFS定義
2024年02月04日
瀏覽(22)
大數(shù)據(jù)開發(fā)之Hadoop（HDFS）
1、HDFS產(chǎn)生背景隨著數(shù)據(jù)量越來越大，在一個(gè)操作系統(tǒng)存不下所有的數(shù)據(jù)，那么就分配到更多的操作系統(tǒng)管理的磁盤中，但是不方便管理和維護(hù)，迫切需要一種系統(tǒng)來管理多臺(tái)機(jī)器上的文件，這就是分布式文件管理系統(tǒng)。HDFS只是分布式文件管理系統(tǒng)中的一種。 2、HDFS定義 H
2024年01月20日
瀏覽(25)
HDFS 跨集群數(shù)據(jù)同步（hive,hadoop）
兩個(gè)不同的HDFS 集群數(shù)據(jù)遷移( A集群的數(shù)據(jù) - B 集群) 采用的是 SHELL 腳本 ?按表進(jìn)行; 日期分區(qū)進(jìn)行; #!/bin/bash ##################### #創(chuàng)建人:DZH #創(chuàng)建日期: 2020-04 #內(nèi)容：數(shù)據(jù)遷移 ##################### ##################################### [ \\\"$#\\\" -ne 0 ] FILE=$1 path=$(cd `dirname $0`; pwd) ############## 獲取執(zhí)
2024年04月27日
瀏覽(104)
大數(shù)據(jù)技術(shù)之Hadoop（HDFS）——超詳細(xì)
1.1 HDFS產(chǎn)出背景及定義 1）HDFS產(chǎn)生背景先給大家介紹一下什么叫HDFS，我們生活在信息爆炸的時(shí)代，隨著數(shù)據(jù)量越來越大，在一個(gè)操作系統(tǒng)存不下所有的數(shù)據(jù)，那么就分配到更多的操作系統(tǒng)管理的磁盤中，但是不方便管理和維護(hù)，迫切需要一種系統(tǒng)來管理多臺(tái)機(jī)器上的文件，這
2024年02月03日
瀏覽(28)
0201hdfs集群部署-hadoop-大數(shù)據(jù)學(xué)習(xí)
下面我們配置下單namenode節(jié)點(diǎn)hadoop集群，使用vmware虛擬機(jī)環(huán)境搭建。vmware虛擬機(jī)的配置，在下面鏈接2有，或者自行查閱文檔。hadoop安裝包可到官網(wǎng)下載，當(dāng)前相關(guān)軟件環(huán)境如下：軟件版本說明 hadoop 3.3.4 jar包 vmware 15.5 虛擬機(jī) centos 7.6 服務(wù)器操作系統(tǒng) xshell 6 遠(yuǎn)程連接 jdk 1.8
2024年02月11日
瀏覽(49)
Hadoop理論及實(shí)踐-HDFS讀寫數(shù)據(jù)流程（參考Hadoop官網(wǎng)）
主節(jié)點(diǎn)和副本節(jié)點(diǎn)通常指的是Hadoop分布式文件系統(tǒng)（HDFS）中的NameNode和DataNode。 NameNode（主節(jié)點(diǎn)）：NameNode是Hadoop集群中的一個(gè)核心組件，它負(fù)責(zé)管理文件系統(tǒng)的命名空間和元數(shù)據(jù)。它記錄了文件的目錄結(jié)構(gòu)、文件的塊分配信息以及每個(gè)文件塊所在的DataNode等關(guān)鍵信息。NameNo
2024年02月14日
瀏覽(19)
hadoop之hdfs生產(chǎn)數(shù)據(jù)塊損壞修復(fù)方法
1、手動(dòng)修復(fù) 檢查數(shù)據(jù)塊丟失情況 hdfs fsck / 修復(fù)指定路徑的hdfs文件，嘗試多次 hdfs debug recoverLease -path 文件位置 -retries 重復(fù)次數(shù) 刪除所有損壞的塊的數(shù)據(jù)文件 hdfs fsck / -delete 2、自動(dòng)修復(fù) hdfs會(huì)自動(dòng)修復(fù)損壞的數(shù)據(jù)塊，當(dāng)數(shù)據(jù)塊損壞后， DN節(jié)點(diǎn)執(zhí)行directoryscan(datanode進(jìn)行內(nèi)村和
2023年04月11日
瀏覽(27)
Hadoop HDFS：海量數(shù)據(jù)的存儲(chǔ)解決方案
在大數(shù)據(jù)時(shí)代，數(shù)據(jù)的存儲(chǔ)與處理成為了業(yè)界面臨的一大挑戰(zhàn)。Hadoop的分布式文件系統(tǒng)（Hadoop Distributed File System，簡稱HDFS）作為一個(gè)高可靠性、高擴(kuò)展性的文件系統(tǒng)，提供了處理海量數(shù)據(jù)的有效解決方案。本文將深入探討HDFS的設(shè)計(jì)原理、架構(gòu)組成、核心功能以及實(shí)際應(yīng)用場
2024年04月23日
瀏覽(28)
大數(shù)據(jù)：Hadoop HDFS，基礎(chǔ)架構(gòu)，去中心化，中心化模式，HDFS基礎(chǔ)架構(gòu)，虛擬機(jī)和云服務(wù)器部署HDFS
2022找工作是學(xué)歷、能力和運(yùn)氣的超強(qiáng)結(jié)合體，遇到寒冬，大廠不招人，可能很多算法學(xué)生都得去找開發(fā)，測開測開的話，你就得學(xué)數(shù)據(jù)庫，sql，oracle，尤其sql要學(xué)，當(dāng)然，像很多金融企業(yè)、安全機(jī)構(gòu)啥的，他們必須要用oracle數(shù)據(jù)庫這oracle比sql安全，強(qiáng)大多了，所以你需要學(xué)
2024年02月17日
瀏覽(102)
Hadoop入門學(xué)習(xí)筆記——三、使用HDFS文件系統(tǒng)
視頻課程地址：https://www.bilibili.com/video/BV1WY4y197g7 課程資料鏈接：https://pan.baidu.com/s/15KpnWeKpvExpKmOC8xjmtQ?pwd=5ay8 Hadoop入門學(xué)習(xí)筆記（匯總） 3.1.1. HDFS文件系統(tǒng)基本信息 HDFS和Linux系統(tǒng)一樣，均是以 / 作為根目錄的組織形式；如何區(qū)分HDFS和Linux文件系統(tǒng)： Linux文件系統(tǒng)以 file:// 作為
2024年01月16日
瀏覽(31)