国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

大數(shù)據(jù) - Hadoop系列《五》- HDFS文件塊大小及小文件問題

1年前作者：王哪跑nn分類：Toy博客閱讀(23)違法舉報

這篇具有很好參考價值的文章主要介紹了大數(shù)據(jù) - Hadoop系列《五》- HDFS文件塊大小及小文件問題。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

系列文章：

大數(shù)據(jù)- Hadoop入門-CSDN博客

大數(shù)據(jù) - Hadoop系列《二》- Hadoop組成-CSDN博客

大數(shù)據(jù) - Hadoop系列《三》- HDFS（分布式文件系統(tǒng)）概述_大量小文件的存儲使用什么分布式文件系統(tǒng)-CSDN博客

大數(shù)據(jù) - Hadoop系列《三》- MapReduce（分布式計算引擎）概述-CSDN博客

大數(shù)據(jù) - Hadoop系列《四》- MapReduce（分布式計算引擎）的核心思想-CSDN博客

5.1 HDFS文件塊大小(面試題）

問題:能不能將塊設(shè)置的小一些?

問題:不能過小,那能不能過大?

5.2 小文件問題

2. 小文件過多會造成的問題

3. 小文件的解決辦法

??3.1?使用Hadoop Archive（HAR）將小文件進行歸檔

??3.2 使用SequenceFile合并小文件

??3.3 使用CombineFileInputFormat合并小文件：

5.1 HDFS文件塊大小(面試題）

HDFS中的文件在物理上是分塊存儲（Block), 塊的大小可以通過配置參數(shù)（dfs blocksize)來規(guī)定，默認大小在Hadoop2x/3x版本中是128M,1x版本中是64M.

hdfs小文件問題,hadoop,大數(shù)據(jù),hadoop,hdfs

問題:能不能將塊設(shè)置的小一些?

理論上是可以的,但是如果設(shè)置的塊大小過小,會占用大量的namenode的元數(shù)據(jù)空間,而且在讀寫操作時,加大了尋址時間,所以不建議設(shè)置的過小

問題:不能過小,那能不能過大?

不建議,因為設(shè)置的過大,傳輸時間會遠遠大于尋址時間,增加了網(wǎng)絡(luò)資源的消耗,而且如果在讀寫的過程中出現(xiàn)故障,恢復(fù)起來也很麻煩,所以不建議

總結(jié)：HDFS塊的大小設(shè)置主要取決于磁盤傳輸速率。

5.2 小文件問題

hdfs小文件問題,hadoop,大數(shù)據(jù),hadoop,hdfs

1. 小文件是指文件大小明顯小于hdfs上塊大小的文件

2. 小文件過多會造成的問題

HDFS上每個文件都要在NameNode上面創(chuàng)建對應(yīng)的元數(shù)據(jù)，這個元數(shù)據(jù)的大小約為150byte,這樣當(dāng)小文件比較多的時候，就會產(chǎn)生很多的元數(shù)據(jù)文件，一方面會大量占用NameNode的內(nèi)存空間，另一方面就是元數(shù)據(jù)文件過多，使得尋址索引速度變慢。
小文件過多，在進行MR計算時，需要啟動過多的MapTask,每個MapTask處理的數(shù)據(jù)量很小，導(dǎo)致MapTask的處理時間比啟動時間還小，白白消耗資源。

3. 小文件的解決辦法

??解決小文件問題的本質(zhì)就是將小文件進行合并，可以通過以下幾種方式解決小文件問題： hdfs小文件問題,hadoop,大數(shù)據(jù),hadoop,hdfs

注意：和HAR不同的是，這種方式還支持壓縮，可以減少減少存儲空間的占用。但SequenceFile文件不能追加寫入，也不能修改， 適用于一次性寫入大量小文件的操作。

??3.1?使用Hadoop Archive（HAR）將小文件進行歸檔

????????使用Hadoop自帶的HAR將小文件進行歸檔，將多個小文件打包成一個HAR文件，這樣NameNode中的元數(shù)據(jù)也就存儲一份。在減少namenode內(nèi)存使用的同時，仍然可以對文件進行透明的訪問。

??3.2 使用SequenceFile合并小文件

可以使用SequenceFile格式將大批的小文件合并成一個大文件，再使用MapReduce程序進行操作，從而提高系統(tǒng)性能。

??3.3 使用CombineFileInputFormat合并小文件：

在MR讀取數(shù)據(jù)時將多個小文件合并成一個文件進行處理，只開啟一個MapTask，提高了任務(wù)的執(zhí)行效率。

?文章來源地址http://www.zghlxwxcb.cn/news/detail-856882.html

到了這里，關(guān)于大數(shù)據(jù) - Hadoop系列《五》- HDFS文件塊大小及小文件問題的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

Hadoop上傳文件到hdfs中
hadoop常見指令： hdfs dfs -copyFromLocal /local/data /hdfs/data ：將本地文件上傳到 hdfs 上（原路徑只能是一個文件） hdfs dfs -put /tmp/ /hdfs/ ：和 copyFromLocal 區(qū)別是，put 原路徑可以是文件夾等 hadoop fs -ls / ：查看根目錄文件 hadoop fs -ls /tmp/data ：查看/tmp/data目錄 hadoop fs -cat /tmp/a.txt ：查看
2023年04月15日
瀏覽(19)
hadoop調(diào)用HDFS java api實現(xiàn)在HDFS上創(chuàng)建文件夾
目錄一、前期準備 1、Hadoop集群已配置完畢 2、Linux系統(tǒng)安裝jdk 3、安裝并破解IntelliJ?IDEA 二、通過JAVA API操縱HDFS 1.在IDEA中創(chuàng)建項目 ?2.在hdfs項目的src-main-java路徑下創(chuàng)建一個包，然后在包下創(chuàng)建一個java類實現(xiàn)hdfs的文件操作 ?3.java類的代碼 4.對JAVA程序傳入?yún)?shù)后運行程序 ?5
2024年02月08日
瀏覽(92)
Hadoop HDFS(分布式文件系統(tǒng))
一、Hadoop HDFS(分布式文件系統(tǒng)) 為什么要分布式存儲數(shù)據(jù) 假設(shè)一個文件有100tb，我們就把文件劃分為多個部分，放入到多個服務(wù)器靠數(shù)量取勝，多臺服務(wù)器組合，才能Hold住數(shù)據(jù)量太大，單機存儲能力有上限，需要靠數(shù)量來解決問題數(shù)量的提升帶來的是網(wǎng)絡(luò)傳輸，磁盤讀寫，
2024年02月06日
瀏覽(26)
Hadoop分布式文件系統(tǒng)-HDFS
HDFS?（Hadoop?Distributed?File?System）是?Hadoop?下的分布式文件系統(tǒng)，具有高容錯、高吞吐量等特性，可以部署在低成本的硬件上。 HDFS?遵循主/從架構(gòu)，由單個?NameNode(NN)?和多個?DataNode(DN)?組成： -?NameNode?:?負責(zé)執(zhí)行有關(guān)?`?文件系統(tǒng)命名空間?`?的操作，例如打開，關(guān)閉、
2024年02月07日
瀏覽(28)
Hadoop：HDFS--分布式文件存儲系統(tǒng)
目錄 ? HDFS的基礎(chǔ)架構(gòu) VMware虛擬機部署HDFS集群 HDFS集群啟停命令 HDFS Shell操作 hadoop 命令體系：創(chuàng)建文件夾 -mkdir ?查看目錄內(nèi)容 -ls ?上傳文件到hdfs -put 查看HDFS文件內(nèi)容 -cat 下載HDFS文件 -get 復(fù)制HDFS文件 -cp 追加數(shù)據(jù)到HDFS文件中 -appendToFile HDFS文件移動 -mv ?刪除HDFS文件 -rm ?
2024年02月09日
瀏覽(92)
Hadoop中命令檢查hdfs的文件是否存在
在Hadoop中，可以使用以下命令檢查HDFS文件是否存在： hadoop fs -test -e 其中，是要檢查的HDFS文件的路徑。如果文件存在，命令返回0；如果文件不存在，命令返回非0值。以下是一個示例：示例中，使用hadoop fs -test -e命令檢查/user/hadoop/myfile.txt文件是否存在。接著，通過檢查命
2024年02月14日
瀏覽(88)
Hadoop入門學(xué)習(xí)筆記——三、使用HDFS文件系統(tǒng)
視頻課程地址：https://www.bilibili.com/video/BV1WY4y197g7 課程資料鏈接：https://pan.baidu.com/s/15KpnWeKpvExpKmOC8xjmtQ?pwd=5ay8 Hadoop入門學(xué)習(xí)筆記（匯總） 3.1.1. HDFS文件系統(tǒng)基本信息 HDFS和Linux系統(tǒng)一樣，均是以 / 作為根目錄的組織形式；如何區(qū)分HDFS和Linux文件系統(tǒng)： Linux文件系統(tǒng)以 file:// 作為
2024年01月16日
瀏覽(31)
hadoop(學(xué)習(xí)筆記) 4----怎么把文件放到hdfs上?
怎么把文件放到hdfs上? 首先就是需要將hdfs相關(guān)程序啟動起來----namenode和datanode namendoe-相當(dāng)于目錄,不進行文件信息的存儲 datanode-真正數(shù)據(jù)存放的位置但namenode的默認存放位置在tmp文件下,tmp又是臨時文件,隨時可能被系統(tǒng)清除,我們存放在hdfs上的數(shù)據(jù)并不安全,所以我們需要修改
2024年02月04日
瀏覽(18)
HDFS Hadoop分布式文件存儲系統(tǒng)整體概述
整體概述舉例：包括機架 rack1、rack2 包括5個Datanode,一個Namenode( 主角色 )帶領(lǐng)5個Datanode( 從角色 )，每一個rack中包含不同的block模塊文件為分塊存儲模式。塊與塊之間通過replication進行副本備份，進行冗余存儲，Namenode對存儲的元數(shù)據(jù)進行記錄。該架構(gòu)可以概括為一個抽象
2024年02月16日
瀏覽(89)
Hadoop3教程（三）：HDFS文件系統(tǒng)常用命令一覽
hdfs命令的完整形式：其中subcommand有三種形式： admin commands client commands：如本節(jié)重點要講的dfs daemon commands dfs（文件系統(tǒng)命令），這個是HDFS里，日常使用最為頻繁的一種命令，用來在HDFS的文件系統(tǒng)上運行各種文件系統(tǒng)命令，如查看文件、刪除文件等。基本語法：這倆基本
2024年02月06日
瀏覽(111)