国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

HIVE基礎(chǔ)-文件存儲格式

這篇具有很好參考價值的文章主要介紹了HIVE基礎(chǔ)-文件存儲格式。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

Hive的文件存儲格式

文件主要存儲格式有四種:textfile、sequencefile、orc、parquet

在Hive建表的時候可以指定文件存儲格式,具體可見:HIVE操作語句–DDL篇

CREATE TABLE table_name(
	······
)
SORTED AS file_format

file_format代表文件格式;

常用的文件格式:textfile(文本)、sequencefile(二進制序列文件)、rcfile(列式存儲)

前提:行式存儲以及列式存儲
行式存儲

行存儲中的數(shù)據(jù)是按照數(shù)據(jù)行為基礎(chǔ)邏輯單元進行存儲,一行中的數(shù)據(jù)在存儲介質(zhì)中以連續(xù)的形式存在。行存儲時將表格看作一個一個的記錄,優(yōu)勢是更新塊,數(shù)據(jù)集中數(shù)據(jù)都是單條記錄,適合事務(wù)。

列式存儲

列存儲的數(shù)據(jù)時按照列為基礎(chǔ)邏輯存儲單元進行存儲,一列中的數(shù)據(jù)在存儲介質(zhì)中以連續(xù)存儲形式存在。列存儲將表中數(shù)據(jù)一列一列的存儲在一起,優(yōu)勢是便于查找,以及進行聚合運算。

texfile 和 sequencefile 是行式存儲

orc 和 parquet 是列式存儲

一、TextFile 格式

默認文件存儲格式,數(shù)據(jù)不做壓縮,磁盤開銷大,數(shù)據(jù)解析開銷大??山Y(jié)合 Gzip、Bzip2 使用,進行數(shù)據(jù)的壓縮,但是使用Gzip的時候,數(shù)據(jù)不能進行切分。

二、Orc 格式

每個Orc文件是由1個或者多個stripe組成,每個stripe一般為HDFS的塊大小,每個stripe包含多條記錄,記錄按照列進行獨立存儲。每個stripe由三部分組成,分別是 Index Data, Row Data, Stripe Footer。

HIVE基礎(chǔ)-文件存儲格式

Index Data:一個輕量級的索引,默認每隔1W行做一個索引,記錄某行的各字段在Row Data中的offset;

Row Data:存儲的是具體的數(shù)據(jù),先取數(shù)據(jù)中部分行,將行按列進行存儲。并對每個列進行了編碼,分成多個Stream存儲;

Stripe Footer:存儲的是各個Stream的類型,長度等信息。

在文件存儲的時候,每個文件都有一個File Footer,記錄著每個Stripe的行數(shù),以及每個行的數(shù)據(jù)類型;每個數(shù)據(jù)文件存儲的尾部有一個Post Script,記錄了數(shù)據(jù)文件的壓縮類型,以及File Footer的長度信息。

讀取文件時,先從文件尾部讀取Post Script,解析到File Footer的長度,再讀File Footer,解析到每個Stripe信息,獲取到每個Stream的信息,隨后通過Stream,以及Index進行讀取數(shù)據(jù)。

三、Parquet 格式

文件是以二進制方法存儲,不能直接讀取文件,文件中包括該文件的數(shù)據(jù)以及元數(shù)據(jù)。

HIVE基礎(chǔ)-文件存儲格式

Row Group:行組,每一個行組包含一定的行數(shù),并且在一個HDFS文件中最少存儲一個行組;

Column Chunk:列塊,在一個行組中每一列保存在一個列塊中,行組中的所有塊連續(xù)存儲在行組文件中。一個列塊中的值都是相同類型,不同的列塊可以使用不同的算法進行壓縮;

Page:頁,每一個列塊劃分為多個頁,一個頁是最小的編碼單位,在同一個列塊的不同頁,可能使用不同的編碼方式。

一個Parquet文件可以存儲多個行組,文件的首位都是該文件的 Magic Code,用于校驗該文件是否是一個Parquet文件,F(xiàn)ooter length 記錄了文件的元數(shù)據(jù)的大小,通過該值和文件的長度可以計算出元數(shù)據(jù)的偏移量,文件的元數(shù)據(jù)中包括每一個行組的元數(shù)據(jù)信息和該文件存儲數(shù)據(jù)的Schema信息。除了文件中的每一個行組的元數(shù)據(jù),每一頁的開始都會存儲該頁的元數(shù)據(jù)。

column chunk a meta data中保存著該列塊元數(shù)據(jù),包括字段類型,數(shù)據(jù)個數(shù),起始位置偏移量等。

在文件中,包括三種類型的頁:數(shù)據(jù)頁、字典頁和索引頁。

數(shù)據(jù)頁用于存儲當(dāng)前行組中該列的值;字典頁存儲該列值的編碼字典,每一個列塊中最多包含一個字典頁;索引頁用來存儲當(dāng)前行組下該列的索引,但在Parquet中不支持索引頁。文章來源地址http://www.zghlxwxcb.cn/news/detail-514380.html

到了這里,關(guān)于HIVE基礎(chǔ)-文件存儲格式的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 關(guān)于Hive中的存儲格式及壓縮格式詳解

    關(guān)于Hive中的存儲格式及壓縮格式詳解

    最近面試,遇到了關(guān)于Hive的數(shù)據(jù)存儲格式的問題,回答不盡人意,抽時間總結(jié)多看看關(guān)于Hive存儲格式和壓縮格式的內(nèi)容。 Hive底層數(shù)據(jù)是以HDFS文件的形式存儲在Hadoop中的,選擇一個合適的文件存儲格式及壓縮方式,也是 Hive 優(yōu)化的一個重點。不同的文件存儲格式及壓縮格式

    2024年02月04日
    瀏覽(15)
  • hive存儲壓縮格式對比說明

    文本壓縮(Text Compression): 壓縮算法:Gzip、Snappy、LZO等。 特點:壓縮率高,但讀寫性能相對較低。適合非常大的文本文件。 適用場景:需要節(jié)省存儲空間,但同時需要保持數(shù)據(jù)的可讀性。 序列化文件格式(SequenceFile): 壓縮算法:Gzip、Snappy、LZO等。 特點:支持壓縮,可

    2024年02月12日
    瀏覽(26)
  • Hive ---- 文件格式和壓縮

    Hive ---- 文件格式和壓縮

    為了支持多種壓縮/解壓縮算法,Hadoop引入了編碼/解碼器,如下表所示: Hadoop查看支持壓縮的方式hadoop checknative。 Hadoop在driver端設(shè)置壓縮。 壓縮性能的比較: 為Hive表中的數(shù)據(jù)選擇一個合適的文件格式,對提高查詢性能的提高是十分有益的。Hive表數(shù)據(jù)的存儲格式,可以選擇

    2024年02月16日
    瀏覽(23)
  • hive之文件格式與壓縮

    hive之文件格式與壓縮

    ? 為Hive表中的數(shù)據(jù)選擇一個合適的文件格式,對提高查詢性能的提高是十分有益的。Hive表數(shù)據(jù)的存儲格式,可以選擇text?file、orc、parquet、sequence file等。 文本文件就是txt文件,我們默認的文件類型就是txt文件 ORC介紹: ? ORC(Optimized Row Columnar)file?format是Hive 0.11版里引入的

    2024年02月16日
    瀏覽(25)
  • 大數(shù)據(jù)學(xué)習(xí)(5)-hive文件格式

    大數(shù)據(jù)學(xué)習(xí) ??系列專欄: ??哲學(xué)語錄: 承認自己的無知,乃是開啟智慧的大門 ??如果覺得博主的文章還不錯的話,請點贊??+收藏??+留言??支持一下博主哦?? 在Hive中,常見的文件存儲格式包括TestFile、SequenceFile、RcFile、ORC、Parquet和AVRO。默認的文件存儲格式是TestFile,

    2024年02月07日
    瀏覽(17)
  • Hive數(shù)據(jù)存儲格式有哪些?TextFile、SequenceFile、RCFile、ORCFile、Parquet有什么區(qū)別?為什么絕大多數(shù)都使用ORCFile、Parquet格式?

    Hive數(shù)據(jù)存儲格式有哪些?TextFile、SequenceFile、RCFile、ORCFile、Parquet有什么區(qū)別?為什么絕大多數(shù)都使用ORCFile、Parquet格式?

    Hive 的數(shù)據(jù)存儲,是 Hive 操作數(shù)據(jù)的基礎(chǔ)。 選擇一個合適的底層數(shù)據(jù)存儲文件格式,即使在不改變當(dāng)前 Hive SQL 的情況下,性能也能得到數(shù)量級的提升 。 這種優(yōu)化方式對 MySQL 等關(guān)系型數(shù)據(jù)庫有些類似,選擇不同的數(shù)據(jù)存儲引擎,代表著不同的數(shù)據(jù)組織方式,對于數(shù)據(jù)庫的表現(xiàn)

    2024年02月02日
    瀏覽(29)
  • (10)Hive的相關(guān)概念——文件格式和數(shù)據(jù)壓縮

    (10)Hive的相關(guān)概念——文件格式和數(shù)據(jù)壓縮

    目錄 一、文件格式 1.1?列式存儲和行式存儲 1.1.1 行存儲的特點 1.1.2 列存儲的特點 1.2?TextFile 1.3?SequenceFile 1.4??Parquet 1.5?ORC 二、數(shù)據(jù)壓縮? 2.1?數(shù)據(jù)壓縮-概述 ?2.1.1 壓縮的優(yōu)點 ?2.1.2 壓縮的缺點 2.2?Hive中壓縮配置 2.2.1?開啟Map輸出階段壓縮(MR 引擎) 2.2.2?開啟Reduce輸出階

    2024年02月22日
    瀏覽(21)
  • 一百三十三、Hive——Hive外部表加載含有JSON格式字段的CSV文件數(shù)據(jù)

    一百三十三、Hive——Hive外部表加載含有JSON格式字段的CSV文件數(shù)據(jù)

    在Hive的ODS層建外部表,然后加載HDFS中的CSV文件數(shù)據(jù) 注意 :CSV文件中含有未解析的JSON格式的字段數(shù)據(jù),并且JSON字段中還有逗號 JSON數(shù)據(jù)的字段track_data只顯示一部分數(shù)據(jù),因為JSON格式數(shù)據(jù)里面也含有逗號 [{\\\"id\\\":\\\"14\\\",\\\"length\\\":5.0,\\\"height\\\":3.0,\\\"posX\\\":63.0,\\\"posY\\\":37.0,\\\"acs\\\":99.0,\\\"angle\\\":83.0,\\\"alti

    2024年02月16日
    瀏覽(22)
  • 2、hive相關(guān)概念詳解--架構(gòu)、讀寫文件機制、數(shù)據(jù)存儲

    2、hive相關(guān)概念詳解--架構(gòu)、讀寫文件機制、數(shù)據(jù)存儲

    1、apache-hive-3.1.2簡介及部署(三種部署方式-內(nèi)嵌模式、本地模式和遠程模式)及驗證詳解 2、hive相關(guān)概念詳解–架構(gòu)、讀寫文件機制、數(shù)據(jù)存儲 3、hive的使用示例詳解-建表、數(shù)據(jù)類型詳解、內(nèi)部外部表、分區(qū)表、分桶表 4、hive的使用示例詳解-事務(wù)表、視圖、物化視圖、DDL

    2024年02月09日
    瀏覽(29)
  • Python小白入門:文件、異常處理和json格式存儲數(shù)據(jù)

    Python小白入門:文件、異常處理和json格式存儲數(shù)據(jù)

    所用資料 代碼中所用到的文件可以從下面的網(wǎng)站進行下載: https://www.ituring.com.cn/book/2784 open函數(shù) 打開 一個文件。 接收參數(shù)為需要打開的文件名 。Python會在 當(dāng)前執(zhí)行的文件所在目錄下 查找指定文件,因此需要把pi_digits.txt文件放在執(zhí)行文件的同目錄下。 open函數(shù)返回一個表示

    2024年02月13日
    瀏覽(20)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包