国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

漫談數(shù)據(jù)倉庫之拉鏈表(原理、設(shè)計以及在Hive中的實(shí)現(xiàn)

這篇具有很好參考價值的文章主要介紹了漫談數(shù)據(jù)倉庫之拉鏈表(原理、設(shè)計以及在Hive中的實(shí)現(xiàn)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

漫談數(shù)據(jù)倉庫之拉鏈表(原理、設(shè)計以及在Hive中的實(shí)現(xiàn)

本文將會談一談在數(shù)據(jù)倉庫中拉鏈表相關(guān)的內(nèi)容,包括它的原理、設(shè)計、以及在我們大數(shù)據(jù)場景下的實(shí)現(xiàn)方式。

全文由下面幾個部分組成:

  1. 先分享一下拉鏈表的用途、什么是拉鏈表。
  2. 通過一些小的使用場景來對拉鏈表做近一步的闡釋,以及拉鏈表和常用的切片表的區(qū)別。
  3. 舉一個具體的應(yīng)用場景,來設(shè)計并實(shí)現(xiàn)一份拉鏈表,最后并通過一些例子說明如何使用我們設(shè)計的這張表(因?yàn)楝F(xiàn)在Hive的大規(guī)模使用,我們會以Hive場景下的設(shè)計為例)。
  4. 分析一下拉鏈表的優(yōu)缺點(diǎn),并對前面的提到的一些內(nèi)容進(jìn)行補(bǔ)充說明,比如說拉鏈表和流水表的區(qū)別。

0x01 什么是拉鏈表

拉鏈表是針對數(shù)據(jù)倉庫設(shè)計中表存儲數(shù)據(jù)的方式而定義的,顧名思義,所謂拉鏈,就是記錄歷史。記錄一個事物從開始,一直到當(dāng)前狀態(tài)的所有變化的信息。

我們先看一個示例,這就是一張拉鏈表,存儲的是用戶的最基本信息以及每條記錄的生命周期。我們可以使用這張表拿到最新的當(dāng)天的最新數(shù)據(jù)以及之前的歷史數(shù)據(jù)。

拉鏈表,hive,數(shù)據(jù)倉庫,大數(shù)據(jù)

我們暫且不對這張表做細(xì)致的講解,后文會專門來闡述怎么來設(shè)計、實(shí)現(xiàn)和使用它。

拉鏈表的使用場景

在數(shù)據(jù)倉庫的數(shù)據(jù)模型設(shè)計過程中,經(jīng)常會遇到下面這種表的設(shè)計:

  1. 有一些表的數(shù)據(jù)量很大,比如一張用戶表,大約10億條記錄,50個字段,這種表,即使使用ORC壓縮,單張表的存儲也會超過100G,在HDFS使用雙備份或者三備份的話就更大一些。
  2. 表中的部分字段會被update更新操作,如用戶聯(lián)系方式,產(chǎn)品的描述信息,訂單的狀態(tài)等等。
  3. 需要查看某一個時間點(diǎn)或者時間段的歷史快照信息,比如,查看某一個訂單在歷史某一個時間點(diǎn)的狀態(tài)。
  4. 表中的記錄變化的比例和頻率不是很大,比如,總共有10億的用戶,每天新增和發(fā)生變化的有200萬左右,變化的比例占的很小。

那么對于這種表我該如何設(shè)計呢?下面有幾種方案可選:

  1. 方案一:每天只留最新的一份,比如我們每天用Sqoop抽取最新的一份全量數(shù)據(jù)到Hive中。
  2. 方案二:每天保留一份全量的切片數(shù)據(jù)。
  3. 方案三:使用拉鏈表。

為什么使用拉鏈表

現(xiàn)在我們對前面提到的三種進(jìn)行逐個的分析。

方案一

這種方案就不用多說了,實(shí)現(xiàn)起來很簡單,每天drop掉前一天的數(shù)據(jù),重新抽一份最新的。

優(yōu)點(diǎn)很明顯,節(jié)省空間,一些普通的使用也很方便,不用在選擇表的時候加一個時間分區(qū)什么的。

缺點(diǎn)同樣明顯,沒有歷史數(shù)據(jù),要想翻舊賬只能通過其它方式,比如從流水表里面抽。

方案二

每天一份全量的切片是一種比較穩(wěn)妥的方案,而且歷史數(shù)據(jù)也在。

缺點(diǎn)就是存儲空間占用量太大太大了,如果對這邊表每天都保留一份全量,那么每次全量中會保存很多不變的信息,對存儲是極大的浪費(fèi),這點(diǎn)我感觸還是很深的……

當(dāng)然我們也可以做一些取舍,比如只保留近一個月的數(shù)據(jù)?但是,需求是無恥的,數(shù)據(jù)的生命周期不是我們能完全左右的。

拉鏈表

拉鏈表在使用上基本兼顧了我們的需求。

首先它在空間上做了一個取舍,雖說不像方案一那樣占用量那么小,但是它每日的增量可能只有方案二的千分之一甚至是萬分之一。

其實(shí)它能滿足方案二所能滿足的需求,既能獲取最新的數(shù)據(jù),也能添加篩選條件也獲取歷史的數(shù)據(jù)。

所以我們還是很有必要來使用拉鏈表的。

0x02 拉鏈表的設(shè)計和實(shí)現(xiàn)

如何設(shè)計一張拉鏈表

下面我們來舉個栗子詳細(xì)看一下拉鏈表。

我們先看一下在Mysql關(guān)系型數(shù)據(jù)庫里的user表中信息變化。

在2017-01-01這一天表中的數(shù)據(jù)是:

拉鏈表,hive,數(shù)據(jù)倉庫,大數(shù)據(jù)

在2017-01-02這一天表中的數(shù)據(jù)是, 用戶002和004資料進(jìn)行了修改,005是新增用戶:

拉鏈表,hive,數(shù)據(jù)倉庫,大數(shù)據(jù)

在2017-01-03這一天表中的數(shù)據(jù)是, 用戶004和005資料進(jìn)行了修改,006是新增用戶:

拉鏈表,hive,數(shù)據(jù)倉庫,大數(shù)據(jù)

如果在數(shù)據(jù)倉庫中設(shè)計成歷史拉鏈表保存該表,則會有下面這樣一張表,這是最新一天(即2017-01-03)的數(shù)據(jù):

拉鏈表,hive,數(shù)據(jù)倉庫,大數(shù)據(jù)

說明

  • t_start_date表示該條記錄的生命周期開始時間,t_end_date表示該條記錄的生命周期結(jié)束時間。
  • t_end_date = ‘9999-12-31’表示該條記錄目前處于有效狀態(tài)。
  • 如果查詢當(dāng)前所有有效的記錄,則select * from user where t_end_date = ‘9999-12-31’。
  • 如果查詢2017-01-02的歷史快照,則select from user where t_start_date <= ‘2017-01-02’ and t_end_date >= ‘2017-01-02’。(*where條件篩選當(dāng)前有效數(shù)據(jù),開始日期小于等于當(dāng)前日期并且結(jié)束日期大于等于當(dāng)前日期,則為有效*)

在Hive中實(shí)現(xiàn)拉鏈表

在現(xiàn)在的大數(shù)據(jù)場景下,大部分的公司都會選擇以Hdfs和Hive為主的數(shù)據(jù)倉庫架構(gòu)。目前的Hdfs版本來講,其文件系統(tǒng)中的文件是不能做改變的,也就是說Hive的表只能進(jìn)行刪除和添加操作,而不能進(jìn)行update?;谶@個前提,我們來實(shí)現(xiàn)拉鏈表。

還是以上面的用戶表為例,我們要實(shí)現(xiàn)用戶的拉鏈表。在實(shí)現(xiàn)它之前,我們需要先確定一下我們有哪些數(shù)據(jù)源可以用。

  1. 我們需要一張ODS層的用戶全量表。至少需要用它來初始化。
  2. 每日的用戶更新表。

而且我們要確定拉鏈表的時間粒度,比如說拉鏈表每天只取一個狀態(tài),也就是說如果一天有3個狀態(tài)變更,我們只取最后一個狀態(tài),這種天粒度的表其實(shí)已經(jīng)能解決大部分的問題了。

另外,補(bǔ)充一下每日的用戶更新表該怎么獲取,據(jù)筆者的經(jīng)驗(yàn),有以下方式拿到或者間接拿到每日的用戶增量,因?yàn)樗容^重要,所以詳細(xì)說明:

  1. 我們可以監(jiān)聽Mysql數(shù)據(jù)的變化,比如說用Canal,最后合并每日的變化,獲取到最后的一個狀態(tài)。
  2. 假設(shè)我們每天都會獲得一份切片數(shù)據(jù),我們可以通過取兩天切片數(shù)據(jù)的不同來作為每日更新表,這種情況下我們可以對所有的字段先進(jìn)行concat,再取md5,這樣就ok了。
  3. 流水表!有每日的變更流水表。
  4. 通過etl工具對操作型數(shù)據(jù)庫按照時間字段增量抽取到ods或者數(shù)據(jù)倉庫(每天抽取前一天的數(shù)據(jù)),形成每天的增量數(shù)據(jù)(實(shí)際中使用最多的情形)。

拉鏈表實(shí)現(xiàn)方式一:

ods層的user表

現(xiàn)在我們來看一下我們ods層的用戶資料切片表的結(jié)構(gòu):

  1. CREATE?EXTERNAL?TABLE?ods.user?(?
  2. ??user_num?STRING?COMMENT?'用戶編號',?
  3. ??mobile?STRING?COMMENT?'手機(jī)號碼',?
  4. ??reg_date?STRING?COMMENT?'注冊日期'?
  5. COMMENT?'用戶資料表'?
  6. PARTITIONED?BY?(dt?string)?
  7. ROW?FORMAT?DELIMITED?FIELDS?TERMINATED?BY?'\t'?LINES?TERMINATED?BY?'\n'?
  8. STORED?AS?ORC?
  9. LOCATION?'/ods/user';?
  10. )?

ods層的user_update表

然后我們還需要一張用戶每日更新表,前面已經(jīng)分析過該如果得到這張表,現(xiàn)在我們假設(shè)它已經(jīng)存在。

  1. CREATE?EXTERNAL?TABLE?ods.user_update?(?
  2. ??user_num?STRING?COMMENT?'用戶編號',?
  3. ??mobile?STRING?COMMENT?'手機(jī)號碼',?
  4. ??reg_date?STRING?COMMENT?'注冊日期'?
  5. COMMENT?'每日用戶資料更新表'?
  6. PARTITIONED?BY?(dt?string)?
  7. ROW?FORMAT?DELIMITED?FIELDS?TERMINATED?BY?'\t'?LINES?TERMINATED?BY?'\n'?
  8. STORED?AS?ORC?
  9. LOCATION?'/ods/user_update';?
  10. )?

拉鏈表

現(xiàn)在我們創(chuàng)建一張拉鏈表:

  1. CREATE?EXTERNAL?TABLE?dws.user_his?(?
  2. ??user_num?STRING?COMMENT?'用戶編號',?
  3. ??mobile?STRING?COMMENT?'手機(jī)號碼',?
  4. ??reg_date?STRING?COMMENT?'用戶編號',?
  5. ??t_start_date?,?
  6. ??t_end_date?
  7. COMMENT?'用戶資料拉鏈表'?
  8. ROW?FORMAT?DELIMITED?FIELDS?TERMINATED?BY?'\t'?LINES?TERMINATED?BY?'\n'?
  9. STORED?AS?ORC?
  10. LOCATION?'/dws/user_his';?
  11. )?

實(shí)現(xiàn)sql語句

然后初始化的sql就不寫了,其實(shí)就相當(dāng)于是拿一天的ods層用戶表過來就行,我們寫一下每日的更新語句。

現(xiàn)在我們假設(shè)我們已經(jīng)已經(jīng)初始化了2017-01-01的日期,然后需要更新2017-01-02那一天的數(shù)據(jù),我們有了下面的Sql。

然后把兩個日期設(shè)置為變量就可以了。

  1. INSERT?OVERWRITE?TABLE?dws.user_his?
  2. SELECT?*?FROM?
  3. (?
  4. ????SELECT?A.user_num,?
  5. ???????????A.mobile,?
  6. ???????????A.reg_date,?
  7. ???????????A.t_start_time,?
  8. ???????????CASE?
  9. ????????????????WHEN?A.t_end_time?=?'9999-12-31'?AND?B.user_num?IS?NOT?NULL?THEN?'2017-01-01'?
  10. ????????????????ELSE?A.t_end_time?
  11. ???????????END?AS?t_end_time?
  12. ????FROM?dws.user_his?AS?A?
  13. ????LEFT?JOIN?ods.user_update?AS?B?
  14. ????ON?A.user_num?=?B.user_num?
  15. UNION?
  16. ????SELECT?C.user_num,?
  17. ???????????C.mobile,?
  18. ???????????C.reg_date,?
  19. ???????????'2017-01-02'?AS?t_start_time,?
  20. ???????????'9999-12-31'?AS?t_end_time?
  21. ????FROM?ods.user_update?AS?C?
  22. )?AS?T?

拉鏈表實(shí)現(xiàn)方式二:

操作型數(shù)據(jù)庫的用戶表結(jié)構(gòu):

  1. CREATE?EXTERNAL?TABLE?ods.user?(?
  2. ??user_num?STRING?COMMENT?'用戶編號',?
  3. ??mobile?STRING?COMMENT?'手機(jī)號碼',?
  4. ??reg_date?STRING?COMMENT?'注冊日期' ,
  5. ? last_modify_date?STRING?COMMENT?'‘最后修改時間’?
  6. COMMENT?'用戶資料表'?
  7. PARTITIONED?BY?(dt?string)?
  8. ROW?FORMAT?DELIMITED?FIELDS?TERMINATED?BY?'\t'?LINES?TERMINATED?BY?'\n'?
  9. STORED?AS?ORC?
  10. LOCATION?'/ods/user';

? ? ? 這里我們假設(shè)ods.user表的業(yè)務(wù)主鍵為user_num+mobile作為聯(lián)合主鍵。

每天增量抽取的用戶表結(jié)構(gòu)和抽取條件:

1)表結(jié)構(gòu)和上面的表結(jié)構(gòu)保持一致,我們?nèi)”砻麨閛ds.user_update

2)增量抽取條件:select * from ods.user where last_modify_date = '$date'

拉鏈表

現(xiàn)在我們創(chuàng)建一張拉鏈表:

  1. CREATE?EXTERNAL?TABLE?dws.user_his?(?
  2. ??user_num?STRING?COMMENT?'用戶編號',?
  3. ??mobile?STRING?COMMENT?'手機(jī)號碼',?
  4. ??reg_date?STRING?COMMENT?'用戶編號',
  5. ??last_modify_date?STRING?COMMENT?'‘最后修改時間’?
  6. ??t_start_date?,?
  7. ??t_end_date?
  8. COMMENT?'用戶資料拉鏈表'?
  9. ROW?FORMAT?DELIMITED?FIELDS?TERMINATED?BY?'\t'?LINES?TERMINATED?BY?'\n'?
  10. STORED?AS?ORC?
  11. LOCATION?'/dws/user_his';?
  12. )?

實(shí)現(xiàn)sql

1)

merge into?dws.user_his tar?

using

(

  select?user_num,mobile from?ods.user_update?

) sou on tar.user_num=sou.user_num and tar.mobile=sou.mobile and tar.t_start_date < '$date' and tar.t_end_date >??'$date'?

when matched then?

update set tar.t_end_date='9999-12-31'

按照主鍵篩選,在dws.user_his表中出現(xiàn)過的并且現(xiàn)在為有效數(shù)據(jù)的,全部更新為閉鏈數(shù)據(jù)。

2)

  1. INSERT??TABLE?dws.user_his?
  2. SELECT?
  3.   C.user_num,?
  4. ? ? ? ? C.mobile,?
  5. ? ? ? ? C.reg_date,?
  6. ? ? ? ? ?c.last_modify_date
  7. ? ? ? ? ?'2017-01-02'?AS?t_start_time,?
  8. ? ? ? ? ?'9999-12-31'?AS?t_end_time?
  9. ? FROM?ods.user_update?AS?C?

比如我們要1月2號的數(shù)據(jù),取出來的數(shù)據(jù)為

select from user where t_start_date <= ‘2017-01-02’ and t_end_date >= ‘2017-01-02’

拉鏈表,hive,數(shù)據(jù)倉庫,大數(shù)據(jù)

與1月2號數(shù)據(jù)完全一致。?

0x03 補(bǔ)充

好了,我們分析了拉鏈表的原理、設(shè)計思路、并且在Hive環(huán)境下實(shí)現(xiàn)了一份拉鏈表,下面對拉鏈表做一些小的補(bǔ)充。

拉鏈表和流水表

流水表存放的是一個用戶的變更記錄,比如在一張流水表中,一天的數(shù)據(jù)中,會存放一個用戶的每條修改記錄,但是在拉鏈表中只有一條記錄。

這是拉鏈表設(shè)計時需要注意的一個粒度問題。我們當(dāng)然也可以設(shè)置的粒度更小一些,一般按天就足夠。

查詢性能

拉鏈表當(dāng)然也會遇到查詢性能的問題,比如說我們存放了5年的拉鏈數(shù)據(jù),那么這張表勢必會比較大,當(dāng)查詢的時候性能就比較低了,個人認(rèn)為兩個思路來解決:

  1. 在一些查詢引擎中,我們對start_date和end_date做索引,這樣能提高不少性能。
  2. 保留部分歷史數(shù)據(jù),比如說我們一張表里面存放全量的拉鏈表數(shù)據(jù),然后再對外暴露一張只提供近3個月數(shù)據(jù)的拉鏈表。

4 拉鏈表回滾

  4.1?具體操作方案

    假設(shè)恢復(fù)到t天之前的數(shù)據(jù),即未融合t天數(shù)據(jù)之前的拉鏈表,假設(shè)標(biāo)記的開始日期和結(jié)束日期分別為s、t,具體分析如下:

1 當(dāng)t-1>e時,s數(shù)據(jù)、e數(shù)據(jù)在t天之前產(chǎn)生,保留即可
2 當(dāng)t-1=e時,e數(shù)據(jù)在t天產(chǎn)生,需修改
3 當(dāng)s<t<=e時,e數(shù)據(jù)在t+n天產(chǎn)生,需修改
4 當(dāng)s>=t時,s數(shù)據(jù)、e數(shù)據(jù)在t+n天產(chǎn)生,刪除即可

    具體例子:

拉鏈表,hive,數(shù)據(jù)倉庫,大數(shù)據(jù)

拉鏈表,hive,數(shù)據(jù)倉庫,大數(shù)據(jù)

spark-sql> select * from t_dw_orders_his order by orderid,dw_start_date;
1       2015-08-18      2015-08-18      創(chuàng)建    2015-08-18      2015-08-21
1       2015-08-18      2015-08-22      支付    2015-08-22      2015-08-22
1       2015-08-18      2015-08-23      完成    2015-08-23      9999-12-31
2       2015-08-18      2015-08-18      創(chuàng)建    2015-08-18      2015-08-21
2       2015-08-18      2015-08-22      完成    2015-08-22      9999-12-31
3       2015-08-19      2015-08-21      支付    2015-08-19      2015-08-20
3       2015-08-19      2015-08-21      支付    2015-08-21      2015-08-22
3       2015-08-19      2015-08-23      完成    2015-08-23      9999-12-31
4       2015-08-19      2015-08-21      完成    2015-08-19      2015-08-20
4       2015-08-19      2015-08-21      完成    2015-08-21      9999-12-31
5       2015-08-19      2015-08-20      支付    2015-08-19      2015-08-22
5       2015-08-19      2015-08-23      完成    2015-08-23      9999-12-31
6       2015-08-20      2015-08-20      創(chuàng)建    2015-08-20      2015-08-21
6       2015-08-20      2015-08-22      支付    2015-08-22      9999-12-31
7       2015-08-20      2015-08-21      支付    2015-08-20      2015-08-20
7       2015-08-20      2015-08-21      支付    2015-08-21      9999-12-31
8       2015-08-21      2015-08-21      創(chuàng)建    2015-08-21      2015-08-21
8       2015-08-21      2015-08-22      支付    2015-08-22      2015-08-22
8       2015-08-21      2015-08-23      完成    2015-08-23      9999-12-31
9       2015-08-22      2015-08-22      創(chuàng)建    2015-08-22      9999-12-31
10      2015-08-22      2015-08-22      支付    2015-08-22      9999-12-31
11      2015-08-23      2015-08-23      創(chuàng)建    2015-08-23      9999-12-31
12      2015-08-23      2015-08-23      創(chuàng)建    2015-08-23      9999-12-31
13      2015-08-23      2015-08-23      支付    2015-08-23      9999-12-31 

    比如在插入2015-08-23的數(shù)據(jù)后,回滾2015-08-22的數(shù)據(jù),使拉鏈表與2015-08-21的一致,具體操作過程如下

1 增加臨時表t_dw_orders_his_tmp1,用來記錄t-1>e的數(shù)據(jù)
CREATE TABLE t_dw_orders_his_tmp1
AS
SELECT 
  orderid,
  createtime,
  modifiedtime,
  status,
  dw_start_date,
  dw_end_date
FROM 
  t_dw_orders_his
WHERE 
  dw_end_date < '2015-08-21'
3       2015-08-19      2015-08-21      支付    2015-08-19      2015-08-20
4       2015-08-19      2015-08-21      完成    2015-08-19      2015-08-20
7       2015-08-20      2015-08-21      支付    2015-08-20      2015-08-20
?

2 增加臨時表t_dw_orders_his_tmp2,用來記錄t-1=e的數(shù)據(jù) 
CREATE TABLE t_dw_orders_his_tmp2 
AS 
SELECT   
  orderid,
  createtime,   
  modifiedtime,   
  status,   
  dw_start_date,   
  '9999-12-31' AS dw_end_date 
FROM 
  t_dw_orders_his
WHERE 
  dw_end_date = '2015-08-21'
1       2015-08-18      2015-08-18      創(chuàng)建    2015-08-18      9999-12-31
2       2015-08-18      2015-08-18      創(chuàng)建    2015-08-18      9999-12-31
6       2015-08-20      2015-08-20      創(chuàng)建    2015-08-20      9999-12-31
8       2015-08-21      2015-08-21      創(chuàng)建    2015-08-21      9999-12-31
 
3 增加臨時表t_dw_orders_his_tmp3,用來記錄s<t<=e的數(shù)據(jù)
CREATE TABLE t_dw_orders_his_tmp3
AS
SELECT 
  orderid,
  createtime,
  modifiedtime,
  status,
  dw_start_date,
  '9999-12-31' dw_end_date
FROM 
  t_dw_orders_his
WHERE 
  dw_start_date < '2015-08-22' AND dw_end_date >= '2015-08-22'
3       2015-08-19      2015-08-21      支付    2015-08-21      9999-12-31
4       2015-08-19      2015-08-21      完成    2015-08-21      9999-12-31
5       2015-08-19      2015-08-20      支付    2015-08-19      9999-12-31
7       2015-08-20      2015-08-21      支付    2015-08-21      9999-12-31
4 所有數(shù)據(jù)插入新表t_dw_orders_his_new
CREATE TABLE t_dw_orders_his_new
AS
SELECT * FROM t_dw_orders_his_tmp1
UNION ALL
SELECT * FROM t_dw_orders_his_tmp2
UNION ALL
SELECT * FROM t_dw_orders_his_tmp3
1       2015-08-18      2015-08-18      創(chuàng)建    2015-08-18      9999-12-31
2       2015-08-18      2015-08-18      創(chuàng)建    2015-08-18      9999-12-31
3       2015-08-19      2015-08-21      支付    2015-08-19      2015-08-20
3       2015-08-19      2015-08-21      支付    2015-08-21      9999-12-31
4       2015-08-19      2015-08-21      完成    2015-08-19      2015-08-20
4       2015-08-19      2015-08-21      完成    2015-08-21      9999-12-31
5       2015-08-19      2015-08-20      支付    2015-08-19      9999-12-31?
6       2015-08-20      2015-08-20      創(chuàng)建    2015-08-20      9999-12-31
7       2015-08-20      2015-08-21      支付    2015-08-20      2015-08-20
7       2015-08-20      2015-08-21      支付    2015-08-21      9999-12-31
8       2015-08-21      2015-08-21      創(chuàng)建    2015-08-21      9999-12-31

與原數(shù)據(jù)一致,驗(yàn)證無錯

  4.2 備用方案

    可以采用備份的方案,保證無誤和可行。(保存增量數(shù)據(jù),并對t_dw_orders_his表每個月備份一次全量數(shù)據(jù)。如需回滾,最多重跑30天數(shù)據(jù)即可)

0xFF 總結(jié)

我們在這篇文章里面詳細(xì)地分享了一下和拉鏈表相關(guān)的知識點(diǎn),但是仍然會有一會遺漏。歡迎交流。

在后面的使用中又有了一些心得,補(bǔ)充進(jìn)來:文章來源地址http://www.zghlxwxcb.cn/news/detail-848441.html

  1. 使用拉鏈表的時候可以不加t_end_date,即失效日期,但是加上之后,能優(yōu)化很多查詢。
  2. 可以加上當(dāng)前行狀態(tài)標(biāo)識,能快速定位到當(dāng)前狀態(tài)。
  3. 在拉鏈表的設(shè)計中可以加一些內(nèi)容,因?yàn)槲覀兠刻毂4嬉粋€狀態(tài),如果我們在這個狀態(tài)里面加一個字段,比如如當(dāng)天修改次數(shù),那么拉鏈表的作用就會更大。

到了這里,關(guān)于漫談數(shù)據(jù)倉庫之拉鏈表(原理、設(shè)計以及在Hive中的實(shí)現(xiàn)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 數(shù)據(jù)倉庫-拉鏈表

    數(shù)據(jù)倉庫-拉鏈表

    在數(shù)據(jù)倉庫中制作拉鏈表,可以按照以下步驟進(jìn)行: 確定需求:首先明確需要使用拉鏈表的場景和需求。例如,可能需要記錄歷史數(shù)據(jù)的變化,以便進(jìn)行時間序列分析等。 設(shè)計表結(jié)構(gòu):在數(shù)據(jù)倉庫中,拉鏈表通常由兩個表組成:當(dāng)前表和歷史表。當(dāng)前表存儲最新的數(shù)據(jù),歷

    2024年02月06日
    瀏覽(20)
  • 數(shù)據(jù)倉庫-拉鏈算法

    數(shù)據(jù)倉庫-拉鏈算法,如何處理開鏈、閉鏈數(shù)據(jù)

    2024年02月16日
    瀏覽(22)
  • 數(shù)據(jù)倉庫保存歷史數(shù)據(jù)方法之拉鏈表

    數(shù)據(jù)倉庫是一個面向主題的、集成的、相對穩(wěn)定的、反應(yīng)歷史變化的數(shù)據(jù)集合,用于支持管理決策。 面向主題:傳統(tǒng)的數(shù)據(jù)庫是面向事務(wù)處理的,而數(shù)據(jù)倉庫是面向某一領(lǐng)域而組織的數(shù)據(jù)集合,主題是指用戶關(guān)心的某一聯(lián)系緊密的集合。 集成:數(shù)據(jù)倉庫中數(shù)據(jù)來源于各個離

    2024年03月13日
    瀏覽(22)
  • Hive在阿里巴巴數(shù)據(jù)倉庫中的實(shí)踐與應(yīng)用

    作者:禪與計算機(jī)程序設(shè)計藝術(shù) Apache Hive 是 Hadoop 的一個子項(xiàng)目,它是一個基于 HQL(Hadoop Query Language)語言的查詢引擎,可以將結(jié)構(gòu)化的數(shù)據(jù)文件存儲在HDFS上并提供分布式計算功能。Hive 有著良好的擴(kuò)展性、穩(wěn)定性、高效執(zhí)行速度、完備的SQL支持等優(yōu)點(diǎn)。Hive 適用于互聯(lián)網(wǎng)行

    2024年02月11日
    瀏覽(21)
  • 數(shù)據(jù)倉庫之建模理論以及倉庫設(shè)計思想

    數(shù)據(jù)倉庫之建模理論以及倉庫設(shè)計思想

    數(shù)據(jù)倉庫是一個為數(shù)據(jù)分析而設(shè)計的企業(yè)級數(shù)據(jù)管理系統(tǒng)。數(shù)據(jù)倉庫可集中、整合多個信息源的大量數(shù)據(jù),借助數(shù)據(jù)倉庫的分析能力,企業(yè)可從數(shù)據(jù)中獲得寶貴的信息進(jìn)而改進(jìn)決策。同時,隨著時間的推移,數(shù)據(jù)倉庫中積累的大量歷史數(shù)據(jù)對于數(shù)據(jù)科學(xué)家和業(yè)務(wù)分析師也是十

    2023年04月15日
    瀏覽(25)
  • Hive---拉鏈表

    Hive---拉鏈表

    拉鏈表是一種數(shù)據(jù)模型,主要是針對數(shù)據(jù)倉庫設(shè)計中表存儲數(shù)據(jù)的方式而定義的,顧名思義,所謂拉鏈,就是記錄歷史。記錄一個事物從開始,一直到當(dāng)前狀態(tài)的所有變化的信息。拉鏈表可以避免按每一天存儲所有記錄造成的海量存儲問題,同時也是處理緩慢變化數(shù)據(jù)(SCD

    2024年02月10日
    瀏覽(19)
  • Hive 拉鏈表詳解及實(shí)例

    版本迭代:hive 0.14 slowly changing dimension = hive 2.6.0 merge 事務(wù)管理 原來采用分區(qū)表,用戶分區(qū)存儲歷史增量數(shù)據(jù),缺點(diǎn)是重復(fù)數(shù)據(jù)太多 定義:數(shù)倉用于解決持續(xù)增長且存在一定時間時間范圍內(nèi)重復(fù)的數(shù)據(jù) 存儲:創(chuàng)建拉鏈表時使用 列式存儲ORC : 不能使用load加載數(shù)據(jù) 壓縮比高

    2024年01月23日
    瀏覽(19)
  • hive 全量表、增量表、快照表、切片表和拉鏈表

    hive 全量表、增量表、快照表、切片表和拉鏈表

    全量表 :記錄每天的所有的最新狀態(tài)的數(shù)據(jù), 增量表 :記錄每天的新增數(shù)據(jù),增量數(shù)據(jù)是上次導(dǎo)出之后的新數(shù)據(jù)。 快照表 :按日分區(qū),記錄截止數(shù)據(jù)日期的全量數(shù)據(jù) 切片表 :切片表根據(jù)基礎(chǔ)表,往往只反映某一個維度的相應(yīng)數(shù)據(jù)。其表結(jié)構(gòu)與基礎(chǔ)表結(jié)構(gòu)相同,但數(shù)據(jù)往往

    2024年02月13日
    瀏覽(23)
  • 漫談大數(shù)據(jù) - 如何設(shè)計業(yè)務(wù)埋點(diǎn)方案與數(shù)據(jù)采集應(yīng)用

    漫談大數(shù)據(jù) - 如何設(shè)計業(yè)務(wù)埋點(diǎn)方案與數(shù)據(jù)采集應(yīng)用

    ????????業(yè)務(wù)埋點(diǎn)和數(shù)據(jù)分析是在用戶行為和業(yè)務(wù)數(shù)據(jù)上進(jìn)行跟蹤、收集和分析的關(guān)鍵方法,用于了解用戶行為模式、改進(jìn)產(chǎn)品和服務(wù),并做出數(shù)據(jù)驅(qū)動的決策。 ????????全文1.5萬字,建議閱讀時間35min。 目錄 業(yè)務(wù)埋點(diǎn) 埋點(diǎn)的重要性 埋點(diǎn)的類型 全埋點(diǎn) 代碼埋點(diǎn) 埋點(diǎn)

    2024年02月11日
    瀏覽(20)
  • Hive數(shù)據(jù)倉庫---Hive的安裝與配置

    Hive數(shù)據(jù)倉庫---Hive的安裝與配置

    Hive 官網(wǎng)地址:https://hive.apache.org/ 下載地址:http://www.apache.org/dyn/closer.cgi/hive/ 把安裝文件apache-hive-3.1.2-bin.tar.gz上傳到master節(jié)點(diǎn)的/opt/software目 錄下,執(zhí)行以下命令把安裝文件解壓到/opt/app目錄中 進(jìn)入/opt/app目錄,為目錄apache-hive-3.1.2-bin建立軟件鏈接 即輸入hive就相當(dāng)于輸入a

    2024年02月02日
    瀏覽(50)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包