国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

大數(shù)據(jù) - Hadoop系列《五》- HDFS文件塊大小及小文件問題

這篇具有很好參考價值的文章主要介紹了大數(shù)據(jù) - Hadoop系列《五》- HDFS文件塊大小及小文件問題。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

系列文章:

大數(shù)據(jù)- Hadoop入門-CSDN博客

大數(shù)據(jù) - Hadoop系列《二》- Hadoop組成-CSDN博客

大數(shù)據(jù) - Hadoop系列《三》- HDFS(分布式文件系統(tǒng))概述_大量小文件的存儲使用什么分布式文件系統(tǒng)-CSDN博客

大數(shù)據(jù) - Hadoop系列《三》- MapReduce(分布式計算引擎)概述-CSDN博客

大數(shù)據(jù) - Hadoop系列《四》- MapReduce(分布式計算引擎)的核心思想-CSDN博客

目錄

5.1 HDFS文件塊大小(面試題)

問題:能不能將塊設(shè)置的小一些?

問題:不能過小,那能不能過大?

5.2 小文件問題

2. 小文件過多會造成的問題

3. 小文件的解決辦法

??3.1?使用Hadoop Archive(HAR)將小文件進行歸檔

??3.2 使用SequenceFile合并小文件

??3.3 使用CombineFileInputFormat合并小文件:


5.1 HDFS文件塊大小(面試題)

HDFS中的文件在物理上是分塊存儲(Block), 塊的大小可以通過配置參數(shù)(dfs blocksize)來規(guī)定,默認大小在Hadoop2x/3x版本中是128M,1x版本中是64M.

hdfs小文件問題,hadoop,大數(shù)據(jù),hadoop,hdfs

問題:能不能將塊設(shè)置的小一些?

理論上是可以的,但是如果設(shè)置的塊大小過小,會占用大量的namenode的元數(shù)據(jù)空間,而且在讀寫操作時,加大了尋址時間,所以不建議設(shè)置的過小

問題:不能過小,那能不能過大?

不建議,因為設(shè)置的過大,傳輸時間會遠遠大于尋址時間,增加了網(wǎng)絡(luò)資源的消耗,而且如果在讀寫的過程中出現(xiàn)故障,恢復(fù)起來也很麻煩,所以不建議

總結(jié):HDFS塊的大小設(shè)置主要取決于磁盤傳輸速率。

5.2 小文件問題

hdfs小文件問題,hadoop,大數(shù)據(jù),hadoop,hdfs

1. 小文件是指文件大小明顯小于hdfs上塊大小的文件

2. 小文件過多會造成的問題

  1. HDFS上每個文件都要在NameNode上面創(chuàng)建對應(yīng)的元數(shù)據(jù),這個元數(shù)據(jù)的大小約為150byte,這樣當(dāng)小文件比較多的時候,就會產(chǎn)生很多的元數(shù)據(jù)文件,一方面會大量占用NameNode的內(nèi)存空間,另一方面就是元數(shù)據(jù)文件過多,使得尋址索引速度變慢。

  2. 小文件過多,在進行MR計算時,需要啟動過多的MapTask,每個MapTask處理的數(shù)據(jù)量很小,導(dǎo)致MapTask的處理時間比啟動時間還小,白白消耗資源。

3. 小文件的解決辦法

??解決小文件問題的本質(zhì)就是將小文件進行合并,可以通過以下幾種方式解決小文件問題:hdfs小文件問題,hadoop,大數(shù)據(jù),hadoop,hdfs

注意:和HAR不同的是,這種方式還支持壓縮,可以減少減少存儲空間的占用。但SequenceFile文件不能追加寫入,也不能修改, 適用于一次性寫入大量小文件的操作。

??3.1?使用Hadoop Archive(HAR)將小文件進行歸檔

????????使用Hadoop自帶的HAR將小文件進行歸檔,將多個小文件打包成一個HAR文件,這樣NameNode中的元數(shù)據(jù)也就存儲一份。在減少namenode內(nèi)存使用的同時,仍然可以對文件進行透明的訪問。

??3.2 使用SequenceFile合并小文件

可以使用SequenceFile格式將大批的小文件合并成一個大文件,再使用MapReduce程序進行操作,從而提高系統(tǒng)性能。

??3.3 使用CombineFileInputFormat合并小文件:

在MR讀取數(shù)據(jù)時將多個小文件合并成一個文件進行處理,只開啟一個MapTask,提高了任務(wù)的執(zhí)行效率。

?文章來源地址http://www.zghlxwxcb.cn/news/detail-856882.html

到了這里,關(guān)于大數(shù)據(jù) - Hadoop系列《五》- HDFS文件塊大小及小文件問題的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • Hadoop上傳文件到hdfs中

    hadoop常見指令: hdfs dfs -copyFromLocal /local/data /hdfs/data :將本地文件上傳到 hdfs 上(原路徑只能是一個文件) hdfs dfs -put /tmp/ /hdfs/ :和 copyFromLocal 區(qū)別是,put 原路徑可以是文件夾等 hadoop fs -ls / :查看根目錄文件 hadoop fs -ls /tmp/data :查看/tmp/data目錄 hadoop fs -cat /tmp/a.txt :查看

    2023年04月15日
    瀏覽(19)
  • hadoop調(diào)用HDFS java api實現(xiàn)在HDFS上創(chuàng)建文件夾

    hadoop調(diào)用HDFS java api實現(xiàn)在HDFS上創(chuàng)建文件夾

    目錄 一、前期準備 1、Hadoop集群已配置完畢 2、Linux系統(tǒng)安裝jdk 3、安裝并破解IntelliJ?IDEA 二、通過JAVA API操縱HDFS 1.在IDEA中創(chuàng)建項目 ?2.在hdfs項目的src-main-java路徑下創(chuàng)建一個包,然后在包下創(chuàng)建一個java類實現(xiàn)hdfs的文件操作 ?3.java類的代碼 4.對JAVA程序傳入?yún)?shù)后運行程序 ?5

    2024年02月08日
    瀏覽(92)
  • Hadoop HDFS(分布式文件系統(tǒng))

    Hadoop HDFS(分布式文件系統(tǒng))

    一、Hadoop HDFS(分布式文件系統(tǒng)) 為什么要分布式存儲數(shù)據(jù) 假設(shè)一個文件有100tb,我們就把文件劃分為多個部分,放入到多個服務(wù)器 靠數(shù)量取勝,多臺服務(wù)器組合,才能Hold住 數(shù)據(jù)量太大,單機存儲能力有上限,需要靠數(shù)量來解決問題 數(shù)量的提升帶來的是網(wǎng)絡(luò)傳輸,磁盤讀寫,

    2024年02月06日
    瀏覽(26)
  • Hadoop分布式文件系統(tǒng)-HDFS

    Hadoop分布式文件系統(tǒng)-HDFS

    HDFS?(Hadoop?Distributed?File?System)是?Hadoop?下的分布式文件系統(tǒng),具有高容錯、高吞吐量等特性,可以部署在低成本的硬件上。 HDFS?遵循主/從架構(gòu),由單個?NameNode(NN)?和多個?DataNode(DN)?組成: -?NameNode?:?負責(zé)執(zhí)行有關(guān)?`?文件系統(tǒng)命名空間?`?的操作,例如打開,關(guān)閉、

    2024年02月07日
    瀏覽(28)
  • Hadoop:HDFS--分布式文件存儲系統(tǒng)

    Hadoop:HDFS--分布式文件存儲系統(tǒng)

    目錄 ? HDFS的基礎(chǔ)架構(gòu) VMware虛擬機部署HDFS集群 HDFS集群啟停命令 HDFS Shell操作 hadoop 命令體系: 創(chuàng)建文件夾 -mkdir ?查看目錄內(nèi)容 -ls ?上傳文件到hdfs -put 查看HDFS文件內(nèi)容 -cat 下載HDFS文件 -get 復(fù)制HDFS文件 -cp 追加數(shù)據(jù)到HDFS文件中 -appendToFile HDFS文件移動 -mv ?刪除HDFS文件 -rm ?

    2024年02月09日
    瀏覽(92)
  • Hadoop中命令檢查hdfs的文件是否存在

    在Hadoop中,可以使用以下命令檢查HDFS文件是否存在: hadoop fs -test -e 其中,是要檢查的HDFS文件的路徑。 如果文件存在,命令返回0;如果文件不存在,命令返回非0值。 以下是一個示例: 示例中,使用hadoop fs -test -e命令檢查/user/hadoop/myfile.txt文件是否存在。接著,通過檢查命

    2024年02月14日
    瀏覽(88)
  • Hadoop入門學(xué)習(xí)筆記——三、使用HDFS文件系統(tǒng)

    Hadoop入門學(xué)習(xí)筆記——三、使用HDFS文件系統(tǒng)

    視頻課程地址:https://www.bilibili.com/video/BV1WY4y197g7 課程資料鏈接:https://pan.baidu.com/s/15KpnWeKpvExpKmOC8xjmtQ?pwd=5ay8 Hadoop入門學(xué)習(xí)筆記(匯總) 3.1.1. HDFS文件系統(tǒng)基本信息 HDFS和Linux系統(tǒng)一樣,均是以 / 作為根目錄的組織形式; 如何區(qū)分HDFS和Linux文件系統(tǒng): Linux文件系統(tǒng)以 file:// 作為

    2024年01月16日
    瀏覽(31)
  • hadoop(學(xué)習(xí)筆記) 4----怎么把文件放到hdfs上?

    hadoop(學(xué)習(xí)筆記) 4----怎么把文件放到hdfs上?

    怎么把文件放到hdfs上? 首先就是需要將hdfs相關(guān)程序啟動起來----namenode和datanode namendoe-相當(dāng)于目錄,不進行文件信息的存儲 datanode-真正數(shù)據(jù)存放的位置 但namenode的默認存放位置在tmp文件下,tmp又是臨時文件,隨時可能被系統(tǒng)清除,我們存放在hdfs上的數(shù)據(jù)并不安全,所以我們需要修改

    2024年02月04日
    瀏覽(18)
  • HDFS Hadoop分布式文件存儲系統(tǒng)整體概述

    HDFS Hadoop分布式文件存儲系統(tǒng)整體概述

    整體概述舉例: 包括機架 rack1、rack2 包括5個Datanode,一個Namenode( 主角色 )帶領(lǐng)5個Datanode( 從角色 ),每一個rack中包含不同的block模塊文件為 分塊存儲模式 。塊與塊之間通過replication進行 副本備份 ,進行冗余存儲,Namenode對存儲的 元數(shù)據(jù)進行記錄 。該架構(gòu)可以概括為一個 抽象

    2024年02月16日
    瀏覽(89)
  • Hadoop3教程(三):HDFS文件系統(tǒng)常用命令一覽

    hdfs命令的完整形式: 其中subcommand有三種形式: admin commands client commands:如本節(jié)重點要講的dfs daemon commands dfs(文件系統(tǒng)命令),這個是HDFS里,日常使用 最為頻繁的一種命令 ,用來在HDFS的文件系統(tǒng)上運行各種文件系統(tǒng)命令,如查看文件、刪除文件等。 基本語法: 這倆基本

    2024年02月06日
    瀏覽(111)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包