国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<thead id="dozm9"><legend id="dozm9"></legend></thead>

<p id="dozm9"></p>

<menu id="dozm9"></menu>

<i id="dozm9"></i>

HIVE基礎(chǔ)-文件存儲格式

2年前作者：小猿天地分類：Toy博客閱讀(21)違法舉報

這篇具有很好參考價值的文章主要介紹了HIVE基礎(chǔ)-文件存儲格式。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

Hive的文件存儲格式

文件主要存儲格式有四種：textfile、sequencefile、orc、parquet

在Hive建表的時候可以指定文件存儲格式，具體可見：HIVE操作語句–DDL篇

CREATE TABLE table_name(
	······
)
SORTED AS file_format

file_format代表文件格式；

常用的文件格式：textfile(文本)、sequencefile(二進制序列文件)、rcfile(列式存儲)

前提：行式存儲以及列式存儲

行式存儲

行存儲中的數(shù)據(jù)是按照數(shù)據(jù)行為基礎(chǔ)邏輯單元進行存儲，一行中的數(shù)據(jù)在存儲介質(zhì)中以連續(xù)的形式存在。行存儲時將表格看作一個一個的記錄，優(yōu)勢是更新塊，數(shù)據(jù)集中數(shù)據(jù)都是單條記錄，適合事務(wù)。

列式存儲

列存儲的數(shù)據(jù)時按照列為基礎(chǔ)邏輯存儲單元進行存儲，一列中的數(shù)據(jù)在存儲介質(zhì)中以連續(xù)存儲形式存在。列存儲將表中數(shù)據(jù)一列一列的存儲在一起，優(yōu)勢是便于查找，以及進行聚合運算。

texfile 和 sequencefile 是行式存儲

orc 和 parquet 是列式存儲

一、TextFile 格式

默認文件存儲格式，數(shù)據(jù)不做壓縮，磁盤開銷大，數(shù)據(jù)解析開銷大?？山Y(jié)合 Gzip、Bzip2 使用，進行數(shù)據(jù)的壓縮，但是使用Gzip的時候，數(shù)據(jù)不能進行切分。

二、Orc 格式

每個Orc文件是由1個或者多個stripe組成，每個stripe一般為HDFS的塊大小，每個stripe包含多條記錄，記錄按照列進行獨立存儲。每個stripe由三部分組成，分別是 Index Data, Row Data, Stripe Footer。

HIVE基礎(chǔ)-文件存儲格式

Index Data：一個輕量級的索引，默認每隔1W行做一個索引，記錄某行的各字段在Row Data中的offset；

Row Data：存儲的是具體的數(shù)據(jù)，先取數(shù)據(jù)中部分行，將行按列進行存儲。并對每個列進行了編碼，分成多個Stream存儲；

Stripe Footer：存儲的是各個Stream的類型，長度等信息。

在文件存儲的時候，每個文件都有一個File Footer，記錄著每個Stripe的行數(shù)，以及每個行的數(shù)據(jù)類型；每個數(shù)據(jù)文件存儲的尾部有一個Post Script，記錄了數(shù)據(jù)文件的壓縮類型，以及File Footer的長度信息。

讀取文件時，先從文件尾部讀取Post Script，解析到File Footer的長度，再讀File Footer，解析到每個Stripe信息，獲取到每個Stream的信息，隨后通過Stream，以及Index進行讀取數(shù)據(jù)。

三、Parquet 格式

文件是以二進制方法存儲，不能直接讀取文件，文件中包括該文件的數(shù)據(jù)以及元數(shù)據(jù)。

HIVE基礎(chǔ)-文件存儲格式

Row Group：行組，每一個行組包含一定的行數(shù)，并且在一個HDFS文件中最少存儲一個行組；

Column Chunk：列塊，在一個行組中每一列保存在一個列塊中，行組中的所有塊連續(xù)存儲在行組文件中。一個列塊中的值都是相同類型，不同的列塊可以使用不同的算法進行壓縮；

Page：頁，每一個列塊劃分為多個頁，一個頁是最小的編碼單位，在同一個列塊的不同頁，可能使用不同的編碼方式。

一個Parquet文件可以存儲多個行組，文件的首位都是該文件的 Magic Code，用于校驗該文件是否是一個Parquet文件，F(xiàn)ooter length 記錄了文件的元數(shù)據(jù)的大小，通過該值和文件的長度可以計算出元數(shù)據(jù)的偏移量，文件的元數(shù)據(jù)中包括每一個行組的元數(shù)據(jù)信息和該文件存儲數(shù)據(jù)的Schema信息。除了文件中的每一個行組的元數(shù)據(jù)，每一頁的開始都會存儲該頁的元數(shù)據(jù)。

column chunk a meta data中保存著該列塊元數(shù)據(jù)，包括字段類型，數(shù)據(jù)個數(shù)，起始位置偏移量等。

在文件中，包括三種類型的頁：數(shù)據(jù)頁、字典頁和索引頁。

數(shù)據(jù)頁用于存儲當(dāng)前行組中該列的值；字典頁存儲該列值的編碼字典，每一個列塊中最多包含一個字典頁；索引頁用來存儲當(dāng)前行組下該列的索引，但在Parquet中不支持索引頁。文章來源地址http://www.zghlxwxcb.cn/news/detail-514380.html

到了這里，關(guān)于HIVE基礎(chǔ)-文件存儲格式的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

關(guān)于Hive中的存儲格式及壓縮格式詳解
最近面試，遇到了關(guān)于Hive的數(shù)據(jù)存儲格式的問題，回答不盡人意，抽時間總結(jié)多看看關(guān)于Hive存儲格式和壓縮格式的內(nèi)容。 Hive底層數(shù)據(jù)是以HDFS文件的形式存儲在Hadoop中的，選擇一個合適的文件存儲格式及壓縮方式，也是 Hive 優(yōu)化的一個重點。不同的文件存儲格式及壓縮格式
2024年02月04日
瀏覽(15)
hive存儲壓縮格式對比說明
文本壓縮（Text Compression）：壓縮算法：Gzip、Snappy、LZO等。特點：壓縮率高，但讀寫性能相對較低。適合非常大的文本文件。適用場景：需要節(jié)省存儲空間，但同時需要保持數(shù)據(jù)的可讀性。序列化文件格式（SequenceFile）：壓縮算法：Gzip、Snappy、LZO等。特點：支持壓縮，可
2024年02月12日
瀏覽(26)
Hive ---- 文件格式和壓縮
為了支持多種壓縮/解壓縮算法，Hadoop引入了編碼/解碼器，如下表所示： Hadoop查看支持壓縮的方式hadoop checknative。 Hadoop在driver端設(shè)置壓縮。壓縮性能的比較：為Hive表中的數(shù)據(jù)選擇一個合適的文件格式，對提高查詢性能的提高是十分有益的。Hive表數(shù)據(jù)的存儲格式，可以選擇
2024年02月16日
瀏覽(23)
hive之文件格式與壓縮
? 為Hive表中的數(shù)據(jù)選擇一個合適的文件格式，對提高查詢性能的提高是十分有益的。Hive表數(shù)據(jù)的存儲格式，可以選擇text?file、orc、parquet、sequence file等。文本文件就是txt文件，我們默認的文件類型就是txt文件 ORC介紹： ? ORC（Optimized Row Columnar）file?format是Hive 0.11版里引入的
2024年02月16日
瀏覽(25)
大數(shù)據(jù)學(xué)習(xí)(5)-hive文件格式
大數(shù)據(jù)學(xué)習(xí) ??系列專欄： ??哲學(xué)語錄: 承認自己的無知，乃是開啟智慧的大門 ??如果覺得博主的文章還不錯的話，請點贊??+收藏??+留言??支持一下博主哦?? 在Hive中，常見的文件存儲格式包括TestFile、SequenceFile、RcFile、ORC、Parquet和AVRO。默認的文件存儲格式是TestFile，
2024年02月07日
瀏覽(17)
Hive數(shù)據(jù)存儲格式有哪些？TextFile、SequenceFile、RCFile、ORCFile、Parquet有什么區(qū)別？為什么絕大多數(shù)都使用ORCFile、Parquet格式？
Hive 的數(shù)據(jù)存儲，是 Hive 操作數(shù)據(jù)的基礎(chǔ)。選擇一個合適的底層數(shù)據(jù)存儲文件格式，即使在不改變當(dāng)前 Hive SQL 的情況下，性能也能得到數(shù)量級的提升。這種優(yōu)化方式對 MySQL 等關(guān)系型數(shù)據(jù)庫有些類似，選擇不同的數(shù)據(jù)存儲引擎，代表著不同的數(shù)據(jù)組織方式，對于數(shù)據(jù)庫的表現(xiàn)
2024年02月02日
瀏覽(29)
(10)Hive的相關(guān)概念——文件格式和數(shù)據(jù)壓縮
目錄一、文件格式 1.1?列式存儲和行式存儲 1.1.1 行存儲的特點 1.1.2 列存儲的特點 1.2?TextFile 1.3?SequenceFile 1.4??Parquet 1.5?ORC 二、數(shù)據(jù)壓縮? 2.1?數(shù)據(jù)壓縮-概述 ?2.1.1 壓縮的優(yōu)點 ?2.1.2 壓縮的缺點 2.2?Hive中壓縮配置 2.2.1?開啟Map輸出階段壓縮（MR 引擎） 2.2.2?開啟Reduce輸出階
2024年02月22日
瀏覽(21)
一百三十三、Hive——Hive外部表加載含有JSON格式字段的CSV文件數(shù)據(jù)
在Hive的ODS層建外部表，然后加載HDFS中的CSV文件數(shù)據(jù) 注意：CSV文件中含有未解析的JSON格式的字段數(shù)據(jù)，并且JSON字段中還有逗號 JSON數(shù)據(jù)的字段track_data只顯示一部分數(shù)據(jù)，因為JSON格式數(shù)據(jù)里面也含有逗號 [{\\\"id\\\":\\\"14\\\",\\\"length\\\":5.0,\\\"height\\\":3.0,\\\"posX\\\":63.0,\\\"posY\\\":37.0,\\\"acs\\\":99.0,\\\"angle\\\":83.0,\\\"alti
2024年02月16日
瀏覽(22)
2、hive相關(guān)概念詳解--架構(gòu)、讀寫文件機制、數(shù)據(jù)存儲
1、apache-hive-3.1.2簡介及部署（三種部署方式-內(nèi)嵌模式、本地模式和遠程模式）及驗證詳解 2、hive相關(guān)概念詳解–架構(gòu)、讀寫文件機制、數(shù)據(jù)存儲 3、hive的使用示例詳解-建表、數(shù)據(jù)類型詳解、內(nèi)部外部表、分區(qū)表、分桶表 4、hive的使用示例詳解-事務(wù)表、視圖、物化視圖、DDL
2024年02月09日
瀏覽(29)
Python小白入門：文件、異常處理和json格式存儲數(shù)據(jù)
所用資料代碼中所用到的文件可以從下面的網(wǎng)站進行下載： https://www.ituring.com.cn/book/2784 open函數(shù) 打開一個文件。接收參數(shù)為需要打開的文件名。Python會在當(dāng)前執(zhí)行的文件所在目錄下查找指定文件，因此需要把pi_digits.txt文件放在執(zhí)行文件的同目錄下。 open函數(shù)返回一個表示
2024年02月13日
瀏覽(20)

<thead id="ag9us"></thead>

<u id="ag9us"><samp id="ag9us"></samp></u>