国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

hive 全量表、增量表、快照表、切片表和拉鏈表

這篇具有很好參考價(jià)值的文章主要介紹了hive 全量表、增量表、快照表、切片表和拉鏈表。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

全量表:記錄每天的所有的最新?tīng)顟B(tài)的數(shù)據(jù),
增量表:記錄每天的新增數(shù)據(jù),增量數(shù)據(jù)是上次導(dǎo)出之后的新數(shù)據(jù)。
快照表:按日分區(qū),記錄截止數(shù)據(jù)日期的全量數(shù)據(jù)
切片表:切片表根據(jù)基礎(chǔ)表,往往只反映某一個(gè)維度的相應(yīng)數(shù)據(jù)。其表結(jié)構(gòu)與基礎(chǔ)表結(jié)構(gòu)相同,但數(shù)據(jù)往往只有某一維度,或者某一個(gè)事實(shí)條件的數(shù)據(jù)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?拉鏈表:記錄每條信息的生命周期,當(dāng)一條記錄的生命周期結(jié)束,就會(huì)重新開(kāi)始一條新的記錄,并把當(dāng)前日期放入生效開(kāi)始日期。如果當(dāng)前信息至今有效,則在生效結(jié)束日期中填入一個(gè)極大值(如9999-99-99) ,一般在數(shù)倉(cāng)中通過(guò)增加start_date,end_date兩列來(lái)表示。

拉鏈表適合于數(shù)據(jù)會(huì)發(fā)生變化,但是大部分是不變的。

使用拉鏈表的方式:通過(guò)生效開(kāi)始日期<= 某個(gè)日期 生效結(jié)束日期>=某個(gè)日期,能夠得到某個(gè)時(shí)間點(diǎn)的數(shù)據(jù)全量切片。

拉鏈表的形成過(guò)程,比如下圖

hive 全量表、增量表、快照表、切片表和拉鏈表,數(shù)倉(cāng),hive,hive,hadoop,數(shù)據(jù)倉(cāng)庫(kù)

?

如何制作拉鏈表?
1)新建和初始化拉鏈表dwd_order_info_his(首次獨(dú)立執(zhí)行)

drop table if exists dwd_order_info_his;
create external table dwd_order_info_his(
? ? `id` string COMMENT '訂單編號(hào)',
? ? `total_amount` decimal(10,2) COMMENT '訂單金額',
? ? `order_status` string COMMENT '訂單狀態(tài)',
? ? `user_id` string COMMENT '用戶(hù)id' ,
? ? `payment_way` string COMMENT '支付方式',
? ? `out_trade_no` string COMMENT '支付流水號(hào)',
? ? `create_time` string COMMENT '創(chuàng)建時(shí)間',
? ? `operate_time` string COMMENT '操作時(shí)間',
? ? `start_date` ?string COMMENT '有效開(kāi)始日期',
? ? `end_date` ?string COMMENT '有效結(jié)束日期'
) COMMENT '訂單拉鏈表'
stored as parquet
location '/warehouse/gmall/dwd/dwd_order_info_his/'
tblproperties ("parquet.compression"="snappy");
?
insert overwrite table dwd_order_info_his
select
? ? id,
? ? total_amount,
? ? order_status,
? ? user_id,
? ? payment_way,
? ? out_trade_no,
? ? create_time,
? ? operate_time,
? ? '2019-01-01',
? ? '9999-99-99'
from ods_order_info oi
where oi.dt='2019-01-01';


2)獲取當(dāng)日變動(dòng)數(shù)據(jù):包括新增和修改(每日?qǐng)?zhí)行)

//當(dāng)天的訂單變化表dwd_order_info數(shù)據(jù)獲?。?/p>

INSERT overwrite TABLE dwd_order_info PARTITION (day = '2019-01-02')
SELECT orderid,status
FROM orders
WHERE (createtime = '2019-01-02' ?and modifiedtime = '2019-01-02') OR modifiedtime = '2019-01-02';


3)合并變動(dòng)數(shù)據(jù)和舊拉鏈表數(shù)據(jù)(有更新的信息需要修改生效結(jié)束日期,無(wú)更新的信息生效結(jié)束日期不變)之后插入到臨時(shí)表中
比如下圖:

hive 全量表、增量表、快照表、切片表和拉鏈表,數(shù)倉(cāng),hive,hive,hadoop,數(shù)據(jù)倉(cāng)庫(kù)
4)用臨時(shí)表覆蓋舊拉鏈表?

insert overwrite table dwd_order_info_his?
select * from dwd_order_info_his_tmp;


?文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-639704.html

到了這里,關(guān)于hive 全量表、增量表、快照表、切片表和拉鏈表的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀(guān)點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 離線(xiàn)數(shù)據(jù)倉(cāng)庫(kù)-關(guān)于增量和全量

    離線(xiàn)數(shù)據(jù)倉(cāng)庫(kù)-關(guān)于增量和全量

    應(yīng)用系統(tǒng)所產(chǎn)生的業(yè)務(wù)數(shù)據(jù)是數(shù)據(jù)倉(cāng)庫(kù)的重要數(shù)據(jù)來(lái)源,我們需要每日定時(shí)從業(yè)務(wù)數(shù)據(jù)庫(kù)中抽取數(shù)據(jù),傳輸?shù)綌?shù)據(jù)倉(cāng)庫(kù)中,之后再對(duì)數(shù)據(jù)進(jìn)行分析統(tǒng)計(jì)。 為了方便上層指標(biāo)的統(tǒng)計(jì),數(shù)據(jù)的同步策略有 全量同步 和 增量同步 。 同步方式是針對(duì)對(duì)應(yīng)的表而言的! 為什么要做數(shù)據(jù)

    2024年01月17日
    瀏覽(38)
  • Debeizum 增量快照

    Debeizum 增量快照

    ?在Debeizum1.6版本發(fā)布之后,成功推出了Incremental Snapshot(增量快照)的功能,同時(shí)取代了原有的實(shí)驗(yàn)性的Parallel Snapshot(并行快照)。在本篇博客中,我將介紹全新快照方式的原理,以及深入研究其實(shí)現(xiàn)細(xì)節(jié)。 ? 在以往的Debezium的中,我們需要借助其提供的Snapshot機(jī)制來(lái)獲取數(shù)

    2024年02月14日
    瀏覽(17)
  • Elasticsearch:增量快照如何工作?

    Elasticsearch:增量快照如何工作?

    作者:Lutf ur Rehman Elastic 提供許多由講師指導(dǎo)的面對(duì)面和虛擬現(xiàn)場(chǎng)培訓(xùn)以及點(diǎn)播培訓(xùn)。 我們的旗艦課程是 Elasticsearch 工程師、Kibana 數(shù)據(jù)分析和 Elastic 可觀(guān)測(cè)性工程師。 所有這些課程都會(huì)獲得認(rèn)證。如果你想更多了解這些認(rèn)證方面的知識(shí),請(qǐng)閱讀文章 “Elastic:如何成為一名

    2024年02月11日
    瀏覽(20)
  • doris - 數(shù)倉(cāng) 拉鏈表 按天全量打?qū)挶硇阅軆?yōu)化

    doris - 數(shù)倉(cāng) 拉鏈表 按天全量打?qū)挶硇阅軆?yōu)化

    1、 業(yè)務(wù)歷史數(shù)據(jù)可以變更 2、拉鏈表按天打?qū)?3、拉鏈表模型分區(qū)字段設(shè)計(jì)不合理,通用的過(guò)濾字段沒(méi)有作為分區(qū)分桶字段 4、拉鏈表表數(shù)據(jù)量略大、模型數(shù)據(jù)分區(qū)不合理和服務(wù)器資源限制,計(jì)算任務(wù)執(zhí)行超時(shí)【3-4年,用戶(hù)數(shù):132W】 5、基于拉鏈表打?qū)捄蟮奶毂硇修D(zhuǎn)列【 最多

    2024年02月14日
    瀏覽(66)
  • 如何選擇離線(xiàn)數(shù)據(jù)集成方案 - 全量&增量

    如何選擇離線(xiàn)數(shù)據(jù)集成方案 - 全量&增量

    1 前言 我在上一篇中介紹了實(shí)時(shí)集成與離線(xiàn)集成該怎么選擇,接著介紹一下離線(xiàn)集成中的增量與全量的選擇問(wèn)題。 要設(shè)計(jì)方案,我們先分析一下數(shù)據(jù)產(chǎn)生的方式。我們把音視頻流這種非結(jié)構(gòu)化的數(shù)據(jù)集成從這里排除出去,因?yàn)檫@種音視頻流一般都是專(zhuān)業(yè)的廠(chǎng)商和系統(tǒng)來(lái)處理。

    2024年02月02日
    瀏覽(20)
  • 全量、增量數(shù)據(jù)在HBase遷移的多種技巧實(shí)踐

    全量、增量數(shù)據(jù)在HBase遷移的多種技巧實(shí)踐

    作者經(jīng)歷了多次基于HBase實(shí)現(xiàn)全量與增量數(shù)據(jù)的遷移測(cè)試,總結(jié)了在使用HBase進(jìn)行數(shù)據(jù)遷移的多種實(shí)踐,本文針對(duì)全量與增量數(shù)據(jù)遷移的場(chǎng)景不同,提供了1+2的技巧分享。 1.背景 在HBase使用過(guò)程中,使用的HBase集群經(jīng)常會(huì)因?yàn)槟承┰蛐枰獢?shù)據(jù)遷移。大多數(shù)情況下,可以用離線(xiàn)

    2024年02月06日
    瀏覽(19)
  • Android中的全量更新、增量更新以及熱更新

    Android中的全量更新、增量更新以及熱更新

    在客戶(hù)端開(kāi)發(fā)過(guò)程中,我們可能會(huì)遇到這樣一種需求:點(diǎn)擊某個(gè)按鈕彈出一個(gè)彈窗,提示我們可以更新到apk的某個(gè)版本,或者我們可以通過(guò)服務(wù)端接口進(jìn)行強(qiáng)制更新。在這種需求中,我們是不需要通過(guò)應(yīng)用商店來(lái)更新我們的apk的,而是直接在apk內(nèi)部進(jìn)行版本更新。這次我們就

    2024年02月12日
    瀏覽(22)
  • Redis主從架構(gòu)、數(shù)據(jù)同步原理、全量同步、增量同步

    Redis主從架構(gòu)、數(shù)據(jù)同步原理、全量同步、增量同步

    大家好,我是哪吒。 2023年再不會(huì)Redis,就要被淘汰了 圖解Redis,談?wù)凴edis的持久化,RDB快照與AOF日志 Redis單線(xiàn)程還是多線(xiàn)程?IO多路復(fù)用原理 Redis集群的最大槽數(shù)為什么是16384個(gè)? Redis緩存穿透、擊穿、雪崩到底是個(gè)啥?7張圖告訴你 Redis分布式鎖的實(shí)現(xiàn)方式 Redis分布式緩存、

    2024年02月07日
    瀏覽(25)
  • Oracle通過(guò)函數(shù)調(diào)用dblink同步表數(shù)據(jù)方案(全量/增量)

    Oracle通過(guò)函數(shù)調(diào)用dblink同步表數(shù)據(jù)方案(全量/增量)

    創(chuàng)建對(duì)應(yīng)的包,以方便觸發(fā)調(diào)用 觸發(fā)同步任務(wù): SELECT yjb.pkg_scene_job.F_SYNC_DRUG_STOCK() AS a FROM dual WHERE 1=0; 沒(méi)有結(jié)果行時(shí)是不會(huì)觸發(fā)的,以下方式可觸發(fā): SELECT yjb.pkg_scene_job.F_SYNC_DRUG_STOCK() AS a FROM dual; PS:一定是使用(調(diào)用)到 觸發(fā)函數(shù)yjb.pkg_scene_job.F_SYNC_DRUG_STOCK(),才可完成觸

    2024年02月16日
    瀏覽(29)
  • 【大數(shù)據(jù)精講】全量同步與CDC增量同步方案對(duì)比

    【大數(shù)據(jù)精講】全量同步與CDC增量同步方案對(duì)比

    目錄 背景 名詞解釋 問(wèn)題與挑戰(zhàn) FlinkCDC DataX 工作原理 調(diào)度流程 五、DataX 3.0六大核心優(yōu)勢(shì) 性能優(yōu)化 CDC ? ? ? ?CDC又稱(chēng)變更數(shù)據(jù)捕獲(Change Data Capture),開(kāi)啟cdc的源表在插入INSERT、更新UPDATE和刪除DELETE活動(dòng)時(shí)會(huì)插入數(shù)據(jù)到日志表中。CDC通過(guò)捕獲進(jìn)程將變更數(shù)據(jù)捕獲到變更表中

    2024年01月24日
    瀏覽(19)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包