国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

HDFS中數(shù)據(jù)遷移的使用場景和考量因素

這篇具有很好參考價(jià)值的文章主要介紹了HDFS中數(shù)據(jù)遷移的使用場景和考量因素。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

數(shù)據(jù)遷移使用場景

  • 冷熱集群數(shù)據(jù)同步、分類存儲(chǔ)
  • 集群數(shù)據(jù)整體搬遷
    • 當(dāng)公司業(yè)務(wù)迅速的發(fā)展,導(dǎo)致的當(dāng)前的服務(wù)器數(shù)量資源出現(xiàn)臨時(shí)緊張的時(shí)候,為了更高效的利用資源,會(huì)將A機(jī)房數(shù)據(jù)整體遷移到B機(jī)房的,原因可能是B機(jī)房機(jī)器多,而且B機(jī)房本身開銷較A機(jī)房低些等
  • 數(shù)據(jù)的準(zhǔn)實(shí)時(shí)同步
    • 數(shù)據(jù)準(zhǔn)實(shí)時(shí)同步的media在于數(shù)據(jù)的雙倍份可用,比如某天A集群突然宣告不允許再使用了,此時(shí)可以將線上使用集群直接切向B的同步集群,因?yàn)锽集群實(shí)時(shí)同步A集群數(shù)據(jù),擁有完全一致的真實(shí)數(shù)據(jù)和元數(shù)據(jù)信息,所以對(duì)于業(yè)務(wù)方使用而言是不會(huì)收到任何影響的。

數(shù)據(jù)遷移要素考量

  • Bandwidth-帶寬
    • 帶寬用的多了,會(huì)影響到線上業(yè)務(wù)的任務(wù)運(yùn)行,帶寬用的少了又會(huì)導(dǎo)致數(shù)據(jù)同步滿的問題。
  • performance-性能
    • 是采用簡單的單機(jī)程序?還是多線程的性能更佳的分布式程序?
  • data-increment-增量同步
    • 當(dāng)TB,PB級(jí)別的數(shù)據(jù)需要同步的時(shí)候,如果每次以全量的方式去同步數(shù)據(jù),結(jié)果一定是非常糟糕。如果僅針對(duì)變化的增量數(shù)據(jù)進(jìn)行同步將會(huì)是不錯(cuò)的選擇。可以陪著HDFS快照等技術(shù)實(shí)現(xiàn)增量數(shù)據(jù)同步。
  • syncable-數(shù)據(jù)遷移的同步性
    • 數(shù)據(jù)遷移的過程中需要保證周期內(nèi)數(shù)據(jù)是一定能夠同步完的,不能差距太大。比如A集群7天內(nèi)的增量數(shù)據(jù),我只要花半天就可以完全同步到B集群,然后我有可以等到下周再次進(jìn)行同步,最可怕的事情在于A集群的7天內(nèi)的數(shù)據(jù),我的程序花了7天還同步不完,然后下一個(gè)周期又來了,這樣就無法做到準(zhǔn)實(shí)時(shí)的一致性,其實(shí)7天還是一個(gè)比較大的時(shí)間,最好是能達(dá)到按天同步。

HDFS分布式拷貝工具-DistCp

  • DistCp是Hadoop中的一種工具,在hadoop-tools工程下,作為獨(dú)立子工程存在。
  • 定位用于數(shù)據(jù)遷移,定期在集群之間和集群內(nèi)部備份數(shù)據(jù)
  • 在備份過程中,每次運(yùn)行distcp都成為一個(gè)備份周期。盡管性能相對(duì)較慢,但他的普及程度已經(jīng)越來越高
  • distcp底層使用MapReduce在集群之間或并行在同一集群內(nèi)復(fù)制文件。執(zhí)行復(fù)制的MapReduce只有mapper階段
    HDFS中數(shù)據(jù)遷移的使用場景和考量因素,# hdfs,hdfs,hadoop,大數(shù)據(jù)

distcp的優(yōu)勢性能

  • 帶寬限流
    • distcp可以通過命令參數(shù)bandwidth來為程序進(jìn)行帶寬限流
  • 增量數(shù)據(jù)同步
    • 在distcp中可以通過updata,append和diff這三個(gè)參數(shù)實(shí)現(xiàn)增量同步
    • updata 只拷貝不存在的文件或者目錄
    • append 最佳目標(biāo)路徑下已存在的文件
    • diff 通過快照的diff對(duì)比信息來同步源端路徑與目標(biāo)路徑
      updata解決了新增文件、目錄的同步。append解決已存在的增量更新同步。diff解決刪除或重命名類型文件的同步
  • 高效的性能:分布式特性
    • distcp底層使用MapReduce執(zhí)行數(shù)據(jù)同步,MapReduce本身是一類分布式程序

命令

HDFS中數(shù)據(jù)遷移的使用場景和考量因素,# hdfs,hdfs,hadoop,大數(shù)據(jù)

  • 其中source_path,target_path需要帶上地址前綴以區(qū)分不同的集群
hadoop distcp hdfs://src_cluster:8020/user/data hdfs://dest_cluster:8020/user/data_backup

這個(gè)命令告訴distcp工具將hdfs://src_cluster:8020/user/data目錄下的數(shù)據(jù)復(fù)制到hdfs://dest_cluster:8020/user/data_backup目錄下。文章來源地址http://www.zghlxwxcb.cn/news/detail-671455.html

到了這里,關(guān)于HDFS中數(shù)據(jù)遷移的使用場景和考量因素的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 大數(shù)據(jù)技術(shù)之Hadoop(HDFS)

    大數(shù)據(jù)技術(shù)之Hadoop(HDFS)

    1)HDFS產(chǎn)生背景 隨著數(shù)據(jù)量越來越大,在一個(gè)操作系統(tǒng)存不下所有的數(shù)據(jù),那么就分配到更多的操作系統(tǒng)管理的磁盤中,但是不方便管理和維護(hù),迫切需要一種系統(tǒng)來管理多臺(tái)機(jī)器上的文件,這就是 分布式文件管理系統(tǒng) 。HDFS只是分布式文件管理系統(tǒng)中的一種。 2)HDFS定義

    2024年02月04日
    瀏覽(22)
  • 大數(shù)據(jù)開發(fā)之Hadoop(HDFS)

    大數(shù)據(jù)開發(fā)之Hadoop(HDFS)

    1、HDFS產(chǎn)生背景 隨著數(shù)據(jù)量越來越大,在一個(gè)操作系統(tǒng)存不下所有的數(shù)據(jù),那么就分配到更多的操作系統(tǒng)管理的磁盤中,但是不方便管理和維護(hù),迫切需要一種系統(tǒng)來管理多臺(tái)機(jī)器上的文件,這就是分布式文件管理系統(tǒng)。HDFS只是分布式文件管理系統(tǒng)中的一種。 2、HDFS定義 H

    2024年01月20日
    瀏覽(25)
  • HDFS 跨集群數(shù)據(jù)同步(hive,hadoop)

    兩個(gè)不同的HDFS 集群數(shù)據(jù)遷移( A集群的數(shù)據(jù) - B 集群) 采用的是 SHELL 腳本 ?按表進(jìn)行; 日期分區(qū)進(jìn)行; #!/bin/bash ##################### #創(chuàng)建人:DZH #創(chuàng)建日期: 2020-04 #內(nèi)容: 數(shù)據(jù)遷移 ##################### ##################################### [ \\\"$#\\\" -ne 0 ] FILE=$1 path=$(cd `dirname $0`; pwd) ############## 獲取執(zhí)

    2024年04月27日
    瀏覽(104)
  • 大數(shù)據(jù)技術(shù)之Hadoop(HDFS)——超詳細(xì)

    大數(shù)據(jù)技術(shù)之Hadoop(HDFS)——超詳細(xì)

    1.1 HDFS產(chǎn)出背景及定義 1)HDFS產(chǎn)生背景 先給大家介紹一下什么叫HDFS,我們生活在信息爆炸的時(shí)代,隨著數(shù)據(jù)量越來越大,在一個(gè)操作系統(tǒng)存不下所有的數(shù)據(jù),那么就分配到更多的操作系統(tǒng)管理的磁盤中,但是不方便管理和維護(hù),迫切需要一種系統(tǒng)來管理多臺(tái)機(jī)器上的文件,這

    2024年02月03日
    瀏覽(28)
  • 0201hdfs集群部署-hadoop-大數(shù)據(jù)學(xué)習(xí)

    0201hdfs集群部署-hadoop-大數(shù)據(jù)學(xué)習(xí)

    下面我們配置下單namenode節(jié)點(diǎn)hadoop集群,使用vmware虛擬機(jī)環(huán)境搭建。vmware虛擬機(jī)的配置,在下面鏈接2有,或者自行查閱文檔。hadoop安裝包可到官網(wǎng)下載,當(dāng)前相關(guān)軟件環(huán)境如下: 軟件 版本 說明 hadoop 3.3.4 jar包 vmware 15.5 虛擬機(jī) centos 7.6 服務(wù)器操作系統(tǒng) xshell 6 遠(yuǎn)程連接 jdk 1.8

    2024年02月11日
    瀏覽(49)
  • Hadoop理論及實(shí)踐-HDFS讀寫數(shù)據(jù)流程(參考Hadoop官網(wǎng))

    Hadoop理論及實(shí)踐-HDFS讀寫數(shù)據(jù)流程(參考Hadoop官網(wǎng))

    主節(jié)點(diǎn)和副本節(jié)點(diǎn)通常指的是Hadoop分布式文件系統(tǒng)(HDFS)中的NameNode和DataNode。 NameNode(主節(jié)點(diǎn)):NameNode是Hadoop集群中的一個(gè)核心組件,它負(fù)責(zé)管理文件系統(tǒng)的命名空間和元數(shù)據(jù)。它記錄了文件的目錄結(jié)構(gòu)、文件的塊分配信息以及每個(gè)文件塊所在的DataNode等關(guān)鍵信息。NameNo

    2024年02月14日
    瀏覽(19)
  • hadoop之hdfs生產(chǎn)數(shù)據(jù)塊損壞修復(fù)方法

    1、手動(dòng)修復(fù) 檢查數(shù)據(jù)塊丟失情況 hdfs fsck / 修復(fù)指定路徑的hdfs文件,嘗試多次 hdfs debug recoverLease -path 文件位置 -retries 重復(fù)次數(shù) 刪除所有損壞的塊的數(shù)據(jù)文件 hdfs fsck / -delete 2、自動(dòng)修復(fù) hdfs會(huì)自動(dòng)修復(fù)損壞的數(shù)據(jù)塊,當(dāng)數(shù)據(jù)塊損壞后, DN節(jié)點(diǎn)執(zhí)行directoryscan(datanode進(jìn)行內(nèi)村和

    2023年04月11日
    瀏覽(27)
  • Hadoop HDFS:海量數(shù)據(jù)的存儲(chǔ)解決方案

    在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的存儲(chǔ)與處理成為了業(yè)界面臨的一大挑戰(zhàn)。Hadoop的分布式文件系統(tǒng)(Hadoop Distributed File System,簡稱HDFS)作為一個(gè)高可靠性、高擴(kuò)展性的文件系統(tǒng),提供了處理海量數(shù)據(jù)的有效解決方案。本文將深入探討HDFS的設(shè)計(jì)原理、架構(gòu)組成、核心功能以及實(shí)際應(yīng)用場

    2024年04月23日
    瀏覽(28)
  • 大數(shù)據(jù):Hadoop HDFS,基礎(chǔ)架構(gòu),去中心化,中心化模式,HDFS基礎(chǔ)架構(gòu),虛擬機(jī)和云服務(wù)器部署HDFS

    大數(shù)據(jù):Hadoop HDFS,基礎(chǔ)架構(gòu),去中心化,中心化模式,HDFS基礎(chǔ)架構(gòu),虛擬機(jī)和云服務(wù)器部署HDFS

    2022找工作是學(xué)歷、能力和運(yùn)氣的超強(qiáng)結(jié)合體,遇到寒冬,大廠不招人,可能很多算法學(xué)生都得去找開發(fā),測開 測開的話,你就得學(xué)數(shù)據(jù)庫,sql,oracle,尤其sql要學(xué),當(dāng)然,像很多金融企業(yè)、安全機(jī)構(gòu)啥的,他們必須要用oracle數(shù)據(jù)庫 這oracle比sql安全,強(qiáng)大多了,所以你需要學(xué)

    2024年02月17日
    瀏覽(102)
  • Hadoop入門學(xué)習(xí)筆記——三、使用HDFS文件系統(tǒng)

    Hadoop入門學(xué)習(xí)筆記——三、使用HDFS文件系統(tǒng)

    視頻課程地址:https://www.bilibili.com/video/BV1WY4y197g7 課程資料鏈接:https://pan.baidu.com/s/15KpnWeKpvExpKmOC8xjmtQ?pwd=5ay8 Hadoop入門學(xué)習(xí)筆記(匯總) 3.1.1. HDFS文件系統(tǒng)基本信息 HDFS和Linux系統(tǒng)一樣,均是以 / 作為根目錄的組織形式; 如何區(qū)分HDFS和Linux文件系統(tǒng): Linux文件系統(tǒng)以 file:// 作為

    2024年01月16日
    瀏覽(31)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包