国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

HIVE表數(shù)據(jù)快速構(gòu)造(分區(qū)表、orc、text)

這篇具有很好參考價(jià)值的文章主要介紹了HIVE表數(shù)據(jù)快速構(gòu)造(分區(qū)表、orc、text)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

引言
當(dāng)需要在hive數(shù)倉(cāng)中去創(chuàng)建測(cè)試表并構(gòu)造測(cè)試數(shù)據(jù)時(shí),通常需要在安裝了hive客戶(hù)端的服務(wù)器環(huán)境下,通過(guò)執(zhí)行命令的方式建表。通過(guò)在HDFS上上傳和加載數(shù)據(jù)文件的方式來(lái)加載數(shù)據(jù)到hive表中。其中操作算不得多復(fù)雜,但比較依賴(lài)對(duì)環(huán)境和命令的熟悉,并且操作不夠可視化。這里介紹另一種更外快捷的可視化操作方法。
關(guān)鍵思路
操作依賴(lài)HDFS和HUE,hadoop集群中需要部署安裝這部分服務(wù)。
hive創(chuàng)建orc表,hive,hadoop,大數(shù)據(jù)

通過(guò)HUE來(lái)執(zhí)行hivesql,達(dá)到建表和查詢(xún)結(jié)果數(shù)據(jù)的目的。
通過(guò)HDFS的可視化文件管理功能,達(dá)到上傳數(shù)據(jù)文件實(shí)現(xiàn)hive數(shù)據(jù)存儲(chǔ)映射。

你好! 這是你第一次使用 Markdown編輯器 所展示的歡迎頁(yè)。如果你想學(xué)習(xí)如何使用Markdown編輯器, 可以仔細(xì)閱讀這篇文章,了解一下Markdown的基本語(yǔ)法知識(shí)。
詳細(xì)操作

Step_1 使用HUE創(chuàng)建hive外部表
通過(guò)集群中HUE入口進(jìn)入hue
hive創(chuàng)建orc表,hive,hadoop,大數(shù)據(jù)
hive創(chuàng)建orc表,hive,hadoop,大數(shù)據(jù)
hive創(chuàng)建orc表,hive,hadoop,大數(shù)據(jù)
執(zhí)行hivesql創(chuàng)建測(cè)試數(shù)據(jù)庫(kù)、數(shù)據(jù)表。創(chuàng)建完成后刷新頁(yè)面可以看到新建的庫(kù)和表。
hive創(chuàng)建orc表,hive,hadoop,大數(shù)據(jù)

示例腳本如下
– 創(chuàng)建一個(gè)新的db 用于測(cè)試
create database qywu_testdb;

– 選中這個(gè)測(cè)試db
use qywu_testdb;

– 創(chuàng)建測(cè)試表 注意需要保存為外部表 ,數(shù)據(jù)文件格式為T(mén)EXTFILE并且指定location位置
CREATE EXTERNAL TABLE qywu_testdb1
(
name STRING,
age STRING,
gpa STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ‘\t’
STORED AS TEXTFILE
LOCATION ‘/user/bigshan/qywu_testdb1’;

這里需要注意
? 創(chuàng)建外部表并且LOCATION 指定源數(shù)據(jù)存儲(chǔ)的路徑,不指定的話(huà) hive 會(huì)在 /user/hive/warehouse 下以外部表的表名創(chuàng)建目錄并將數(shù)據(jù)存儲(chǔ)在這里。
? 創(chuàng)建外部表的好處是導(dǎo)入數(shù)據(jù)到外部表,只需導(dǎo)入數(shù)據(jù)到建表語(yǔ)句中 LOCATION 參數(shù)指定的 HDFS 目錄下即可
? 保存數(shù)據(jù)文件指定為T(mén)EXTFILE格式,方便數(shù)據(jù)文件構(gòu)造,若指定表需存儲(chǔ)為其他格式如ORC,可通過(guò)先創(chuàng)建TEXTFILE表,再用insert導(dǎo)入到其他ORC格式的表中。

Step_2 從HDFS的namenode ui 進(jìn)行數(shù)據(jù)文件的上傳
hive創(chuàng)建orc表,hive,hadoop,大數(shù)據(jù)
hive創(chuàng)建orc表,hive,hadoop,大數(shù)據(jù)
在hdfs的目錄系統(tǒng)中找到STPE_1中建表對(duì)應(yīng)的LOCATION路徑
hive創(chuàng)建orc表,hive,hadoop,大數(shù)據(jù)
可以看到建表完成后,自動(dòng)創(chuàng)建了qywu_testdb1這個(gè)目錄,并且目錄下暫時(shí)不存在任務(wù)數(shù)據(jù)。
Step_3 生成對(duì)應(yīng)測(cè)試表結(jié)構(gòu)的數(shù)據(jù)文件,并通過(guò)頁(yè)面上傳到對(duì)應(yīng)表的LOCATION位置下
參考建表的數(shù)據(jù)結(jié)構(gòu)
CREATE EXTERNAL TABLE qywu_testdb1
(
name STRING,
age STRING,
gpa STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ‘\t’
STORED AS TEXTFILE
LOCATION ‘/user/bigshan/qywu_testdb1’;
測(cè)試表有三個(gè)字段,并且以’/t‘作為字段分隔符,未指定行分隔符,默認(rèn)以‘\n’為行分隔符。構(gòu)造一萬(wàn)條符合存格式的測(cè)試文件。
hive創(chuàng)建orc表,hive,hadoop,大數(shù)據(jù)
上傳該數(shù)據(jù)文件到HDFS上,路徑對(duì)應(yīng)表的LOCATION位置
hive創(chuàng)建orc表,hive,hadoop,大數(shù)據(jù)
上傳完成可以在LOCATION目錄下看到該數(shù)據(jù)文件
hive創(chuàng)建orc表,hive,hadoop,大數(shù)據(jù)
現(xiàn)在可以去HUE中查詢(xún)?cè)摫頂?shù)據(jù)是否成功加載
hive創(chuàng)建orc表,hive,hadoop,大數(shù)據(jù)
hive創(chuàng)建orc表,hive,hadoop,大數(shù)據(jù)
至此完成測(cè)試數(shù)據(jù)構(gòu)造。
注意:
? 數(shù)據(jù)文件編碼建議為UTF-8,否則可能中文亂碼
? Hive表數(shù)據(jù)在hdfs目錄下,可以同時(shí)存在多個(gè)數(shù)據(jù)文件,這意味著需要增加表內(nèi)數(shù)據(jù)時(shí),可以通過(guò)復(fù)制上傳多個(gè)數(shù)據(jù)文件的方式,快速實(shí)現(xiàn)表數(shù)據(jù)增加

補(bǔ)充說(shuō)明-構(gòu)造日期分區(qū)表和表數(shù)據(jù)
實(shí)際數(shù)據(jù)治理場(chǎng)景下,治理后的數(shù)據(jù)模型,經(jīng)常是日期分區(qū)表,下面簡(jiǎn)單介紹下構(gòu)造分區(qū)表數(shù)據(jù)。
首先創(chuàng)建分區(qū)表,指定dt為分區(qū)字段
– 創(chuàng)建分區(qū)表
CREATE EXTERNAL TABLE qywu_testdb_fq
(
name STRING,
age STRING,
gpa STRING
)partitioned by (dt string) --指定分區(qū)字段
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ‘\t’
STORED AS TEXTFILE
LOCATION ‘/user/bigshan/qywu_testddb_fq_datadir’;
hive創(chuàng)建orc表,hive,hadoop,大數(shù)據(jù)
執(zhí)行hivesql增加一個(gè)分區(qū)。
– 增加分區(qū)字段
alter table qywu_testdb_fq add partition(dt=“20221226”);

查看HDFS目錄,查看是否創(chuàng)建分區(qū)成功
hive創(chuàng)建orc表,hive,hadoop,大數(shù)據(jù)
可以看到這里創(chuàng)建分區(qū)成功,已分區(qū)字段值新建了一個(gè)hdfs路徑,接下來(lái)構(gòu)造數(shù)據(jù)并上傳即可完成日期分區(qū)表的數(shù)據(jù)構(gòu)造文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-563406.html

到了這里,關(guān)于HIVE表數(shù)據(jù)快速構(gòu)造(分區(qū)表、orc、text)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Hive數(shù)據(jù)加載方式(load、insert;普通表、分區(qū)表)

    介紹 Hive 數(shù)據(jù)加載方式(insert、load) 基礎(chǔ)語(yǔ)法: load data [local] inpath \\\'/opt/module/datas/student.txt\\\' [overwrite] into table student[partition ] 參數(shù)說(shuō)明: 1 load data: 表示加載數(shù)據(jù) 2 local: 表示從本地加載數(shù)據(jù)到 hive 表;否則從 HDFS 加載數(shù)據(jù)到 hive 表 3 inpath: 表示加載數(shù)據(jù)的路徑 相對(duì)路徑,例如

    2024年02月03日
    瀏覽(17)
  • 大數(shù)據(jù)開(kāi)發(fā)之Hive(查詢(xún)、分區(qū)表和分桶表、函數(shù))

    大數(shù)據(jù)開(kāi)發(fā)之Hive(查詢(xún)、分區(qū)表和分桶表、函數(shù))

    1、查詢(xún)語(yǔ)句語(yǔ)法 2、書(shū)寫(xiě)次序和執(zhí)行次序 順序 書(shū)寫(xiě)次序 書(shū)寫(xiě)次序說(shuō)明 執(zhí)行次序 執(zhí)行次序說(shuō)明 1 select 查詢(xún) from 先執(zhí)行表與表直接的關(guān)系 2 from 先執(zhí)行表與表直接的關(guān)系 on 先執(zhí)行表與表直接的關(guān)系 3 join on 先執(zhí)行表與表直接的關(guān)系 join 先執(zhí)行表與表直接的關(guān)系 4 where 先執(zhí)行表

    2024年01月17日
    瀏覽(21)
  • hive分區(qū)表 靜態(tài)分區(qū)和動(dòng)態(tài)分區(qū)

    現(xiàn)有數(shù)據(jù)文件 data_file 如下: 2023-08-01,Product A,100.0 2023-08-05,Product B,150.0 2023-08-10,Product A,200.0 需要手動(dòng)指定分區(qū) 現(xiàn)有源數(shù)據(jù)表如下: CREATE TABLE sales_source ( ? ? sale_date STRING, ? ? product STRING, ? ? amount DOUBLE ); INSERT INTO sales_source VALUES ? ? (\\\'2023-08-01\\\', \\\'Product A\\\', 100.0), ? ? (\\\'2023-08-

    2024年02月10日
    瀏覽(28)
  • Hive分區(qū)表實(shí)戰(zhàn) - 多分區(qū)字段

    Hive分區(qū)表實(shí)戰(zhàn) - 多分區(qū)字段

    本實(shí)戰(zhàn)教程通過(guò)一系列Hive SQL操作,演示了如何在大數(shù)據(jù)環(huán)境下創(chuàng)建具有省市分區(qū)的大學(xué)表,并從本地文件系統(tǒng)加載不同地區(qū)的學(xué)校數(shù)據(jù)到對(duì)應(yīng)分區(qū)。首先,創(chuàng)建名為 school 的數(shù)據(jù)庫(kù)并切換至該數(shù)據(jù)庫(kù);接著,在數(shù)據(jù)庫(kù)中定義一個(gè)名為 university 的分區(qū)表,其結(jié)構(gòu)包括ID和名稱(chēng)兩

    2024年01月15日
    瀏覽(24)
  • HIVE創(chuàng)建分區(qū)表

    HIVE創(chuàng)建分區(qū)表

    partitioned by ( c2 string ) # 創(chuàng)建分區(qū) c1跟c2都是字段,但是創(chuàng)建的時(shí)候不能寫(xiě)在t2里面,只能寫(xiě)在分區(qū)里面(同時(shí)select查詢(xún)的時(shí)候,c2的字段也要寫(xiě)在最后面) 要加載數(shù)據(jù)到分區(qū)表,只需在原來(lái)的加載數(shù)據(jù)的語(yǔ)句上增加partition,同時(shí)指定分區(qū)的字段值即可。 注意:當(dāng)你退出

    2024年02月15日
    瀏覽(22)
  • Hive分區(qū)表修改(增刪)列

    環(huán)境:CDH6.3.0,Hive 2.1.1-cdh6.3.0 基礎(chǔ)數(shù)據(jù)分區(qū)表test1,包含a,b,c,d共4列加分區(qū)列p_day,向其中插入兩行數(shù)據(jù) 表中數(shù)據(jù)及parquet文件信息如下: test2表直接使用test1表的文件: 修復(fù)分區(qū)并查詢(xún)數(shù)據(jù) 刪除test2表的a列,看起來(lái)只有通過(guò)replace columns實(shí)現(xiàn),但是運(yùn)行報(bào)錯(cuò),根據(jù)官方文檔,只

    2023年04月26日
    瀏覽(23)
  • Hive 分區(qū)表和分桶表

    在《Hive 建表語(yǔ)句解析》文章中,建表的時(shí)候我們可以使用 PARTITIONED BY 子句和 CLUSTERED BY 子句來(lái)創(chuàng)建分區(qū)表和分桶表,為什么要?jiǎng)?chuàng)建分區(qū)表和分桶表呢?分區(qū)表和分桶表有什么區(qū)別呢? 1. 為什么分區(qū) 在Hive 查詢(xún)中一般會(huì)掃描整個(gè)表內(nèi)容,會(huì)消耗很多時(shí)間做沒(méi)必要的工作。有時(shí)

    2023年04月23日
    瀏覽(46)
  • Hive ---- 分區(qū)表和分桶表

    Hive ---- 分區(qū)表和分桶表

    Hive中的分區(qū)就是把一張大表的數(shù)據(jù)按照業(yè)務(wù)需要分散的存儲(chǔ)到多個(gè)目錄,每個(gè)目錄就稱(chēng)為該表的一個(gè)分區(qū)。在查詢(xún)時(shí)通過(guò)where子句中的表達(dá)式選擇查詢(xún)所需要的分區(qū),這樣的查詢(xún)效率會(huì)提高很多。 1. 創(chuàng)建分區(qū)表 2. 分區(qū)表讀寫(xiě)數(shù)據(jù) 1)寫(xiě)數(shù)據(jù) (1)load 數(shù)據(jù)準(zhǔn)備 在/opt/module/hiv

    2024年02月10日
    瀏覽(56)
  • Hive 分區(qū)表新增字段 cascade

    在以前上線(xiàn)的分區(qū)表中新加一個(gè)字段,并且要求添加到指定的位置列。 加 cascade 操作 創(chuàng)建測(cè)試表 插入測(cè)試數(shù)據(jù) 查看現(xiàn)有數(shù)據(jù) 官網(wǎng)添加列的語(yǔ)法 注意: Hive 1.1.0 中有 CASCADE|RESTRICT 子句。 ALTER TABLE ADD|REPLACE COLUMNS CASCADE 命令修改表元數(shù)據(jù)的列,并將相同的更改級(jí)聯(lián)到所有分區(qū)

    2024年02月11日
    瀏覽(22)
  • 二次開(kāi)發(fā)DataX以支持HIVE分區(qū)表

    二次開(kāi)發(fā)DataX以支持HIVE分區(qū)表

    ????????最近在一個(gè)大數(shù)據(jù)的項(xiàng)目開(kāi)發(fā)中使用到了數(shù)據(jù)同步工具DataX,但在使用過(guò)程中發(fā)現(xiàn)了DataX對(duì)HIve分區(qū)表的支持不太友好。 ????????具體體現(xiàn)在將數(shù)據(jù)庫(kù)中的數(shù)據(jù)同步到HIVE分區(qū)表時(shí),寫(xiě)入目錄為HIVE表分區(qū)為dt=XXXX,如果不提前創(chuàng)建該分區(qū),會(huì)報(bào)目錄不存在的錯(cuò)誤,如

    2024年02月16日
    瀏覽(24)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包