国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

離線數(shù)據(jù)倉(cāng)庫(kù)-關(guān)于增量和全量

這篇具有很好參考價(jià)值的文章主要介紹了離線數(shù)據(jù)倉(cāng)庫(kù)-關(guān)于增量和全量。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

數(shù)據(jù)倉(cāng)庫(kù)同步策略概述

應(yīng)用系統(tǒng)所產(chǎn)生的業(yè)務(wù)數(shù)據(jù)是數(shù)據(jù)倉(cāng)庫(kù)的重要數(shù)據(jù)來(lái)源,我們需要每日定時(shí)從業(yè)務(wù)數(shù)據(jù)庫(kù)中抽取數(shù)據(jù),傳輸?shù)綌?shù)據(jù)倉(cāng)庫(kù)中,之后再對(duì)數(shù)據(jù)進(jìn)行分析統(tǒng)計(jì)。

為了方便上層指標(biāo)的統(tǒng)計(jì),數(shù)據(jù)的同步策略有全量同步增量同步。

同步方式是針對(duì)對(duì)應(yīng)的表而言的!

為什么要做數(shù)據(jù)同步?
數(shù)據(jù)倉(cāng)庫(kù)的目的是對(duì)歷史數(shù)據(jù)做分析,并對(duì)外提供數(shù)據(jù)服務(wù),業(yè)務(wù)數(shù)據(jù)庫(kù)不能很好的存儲(chǔ)大量的歷史數(shù)據(jù),并且在根據(jù)業(yè)務(wù)數(shù)據(jù)進(jìn)行分析時(shí),業(yè)務(wù)數(shù)據(jù)不能很好的承受分析帶來(lái)的性能消耗,因此我們需要將數(shù)據(jù)同步到數(shù)據(jù)倉(cāng)庫(kù)中,使用數(shù)據(jù)倉(cāng)庫(kù)作為指標(biāo)分析的數(shù)據(jù)源。

一、數(shù)據(jù)的全量同步

全量同步,就是每天都將業(yè)務(wù)數(shù)據(jù)庫(kù)中的全部數(shù)據(jù)同步一份到數(shù)據(jù)倉(cāng)庫(kù),這是保證兩側(cè)數(shù)據(jù)同步的最簡(jiǎn)單的方式。

以下是2022-06-08到2022-06-10的數(shù)倉(cāng)和業(yè)務(wù)數(shù)據(jù)庫(kù)的全量同步過程簡(jiǎn)介:

假設(shè)2022-06-08是數(shù)倉(cāng)創(chuàng)建的首日,那么數(shù)倉(cāng)需要把業(yè)務(wù)數(shù)據(jù)庫(kù)中的所有數(shù)據(jù)進(jìn)行一次全量同步,保證從這天開始,兩側(cè)的數(shù)據(jù)是一致的。
離線數(shù)據(jù)倉(cāng)庫(kù)-關(guān)于增量和全量,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù),spark,oracle
2022-06-09的數(shù)據(jù)同步如下圖,同步的3條數(shù)據(jù)中,前2條屬于前一日的數(shù)據(jù),即新增的數(shù)據(jù)只有一條,這種同步方式存在著大量的冗余。
離線數(shù)據(jù)倉(cāng)庫(kù)-關(guān)于增量和全量,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù),spark,oracle
離線數(shù)據(jù)倉(cāng)庫(kù)-關(guān)于增量和全量,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù),spark,oracle

優(yōu)點(diǎn) 缺點(diǎn)
操作邏輯簡(jiǎn)單 在某些情況下效率較低。例如某張表數(shù)據(jù)量較大,但是每天數(shù)據(jù)的變化比例很低,若對(duì)其采用每日全量同步,則會(huì)重復(fù)同步和存儲(chǔ)大量相同的數(shù)據(jù)。

二、數(shù)據(jù)的增量同步

增量同步,就是每天只將業(yè)務(wù)數(shù)據(jù)中的新增及變化數(shù)據(jù)同步到數(shù)據(jù)倉(cāng)庫(kù)。采用每日增量同步的表,通常需要在首日先進(jìn)行一次全量同步。

以下是2022-06-08到2022-06-10的數(shù)倉(cāng)和業(yè)務(wù)數(shù)據(jù)庫(kù)的增量同步過程簡(jiǎn)介:

假設(shè)2022-06-08是數(shù)倉(cāng)創(chuàng)建的首日,那么數(shù)倉(cāng)需要把業(yè)務(wù)數(shù)據(jù)庫(kù)中的所有數(shù)據(jù)進(jìn)行一次全量同步,保證從這天開始,兩側(cè)的數(shù)據(jù)是一致的。
離線數(shù)據(jù)倉(cāng)庫(kù)-關(guān)于增量和全量,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù),spark,oracle
從2022-06-09開始,增量同步的表只同步對(duì)應(yīng)日期的新增和變更數(shù)據(jù),利用分區(qū)表將不同日期的新增變化數(shù)據(jù)存儲(chǔ)到對(duì)應(yīng)的位置。
離線數(shù)據(jù)倉(cāng)庫(kù)-關(guān)于增量和全量,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù),spark,oracle
離線數(shù)據(jù)倉(cāng)庫(kù)-關(guān)于增量和全量,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù),spark,oracle

優(yōu)點(diǎn) 缺點(diǎn)
效率高,無(wú)需同步和存儲(chǔ)重復(fù)數(shù)據(jù) 邏輯復(fù)雜,需要將每日的新增及變化數(shù)據(jù)同原來(lái)的數(shù)據(jù)進(jìn)行整合,才能使用,但在一些指標(biāo)下尤為好用。

三、數(shù)據(jù)同步策略的選擇

通常情況,業(yè)務(wù)表數(shù)據(jù)量比較大,優(yōu)先考慮增量,數(shù)據(jù)量比較小,優(yōu)先考慮全量;

關(guān)于一張業(yè)務(wù)表是需要使用全量同步還是增量同步,通??梢?strong>根據(jù)上層的指標(biāo)進(jìn)行抉擇,某些指標(biāo),例如每日新增指標(biāo),對(duì)增量同步的表而已,解決這個(gè)指標(biāo)比使用全量同步來(lái)得更容易;

一張表的同步策略不一定非全量即增量

一張業(yè)務(wù)表的數(shù)據(jù)量很大,并且變化程度高,每日的變化量占全表的70%,那么增量和全量所同步的數(shù)據(jù)量相差不多。

一張表的數(shù)據(jù)同步方式的可以根據(jù)數(shù)據(jù)量大小和數(shù)據(jù)變化量進(jìn)行抉擇。

數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建目的上是為了指標(biāo)的產(chǎn)出,所以同步方式原則上應(yīng)該是為了方便上層指標(biāo)的產(chǎn)出而進(jìn)行選擇,具體情況具體分析,因此- 具體選擇由數(shù)倉(cāng)模型決定。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-797552.html

到了這里,關(guān)于離線數(shù)據(jù)倉(cāng)庫(kù)-關(guān)于增量和全量的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 全量、增量數(shù)據(jù)在HBase遷移的多種技巧實(shí)踐

    全量、增量數(shù)據(jù)在HBase遷移的多種技巧實(shí)踐

    作者經(jīng)歷了多次基于HBase實(shí)現(xiàn)全量與增量數(shù)據(jù)的遷移測(cè)試,總結(jié)了在使用HBase進(jìn)行數(shù)據(jù)遷移的多種實(shí)踐,本文針對(duì)全量與增量數(shù)據(jù)遷移的場(chǎng)景不同,提供了1+2的技巧分享。 1.背景 在HBase使用過程中,使用的HBase集群經(jīng)常會(huì)因?yàn)槟承┰蛐枰獢?shù)據(jù)遷移。大多數(shù)情況下,可以用離線

    2024年02月06日
    瀏覽(19)
  • DBSyncer安裝_配置postgresql和mysql_sqlserver_oracel全量增量同步---數(shù)據(jù)全量增量同步之DBSyncer001

    DBSyncer安裝_配置postgresql和mysql_sqlserver_oracel全量增量同步---數(shù)據(jù)全量增量同步之DBSyncer001

    ? ? ?國(guó)內(nèi)做開源的大神做的,用了一下還可以,就是不能和Phoenix這種操作hbase等數(shù)據(jù)庫(kù)一起用, 這個(gè)是官網(wǎng),下載安裝非常簡(jiǎn)單,官網(wǎng)也有中文詳細(xì)說明. 直接下載安裝包: 然后解壓到某個(gè)地方,主要要用unzip dbsyncer.zip -d /opt/module這樣解壓 解壓后直接啟動(dòng)就可以了 ? ?解壓以后進(jìn)入

    2024年02月09日
    瀏覽(22)
  • Redis主從架構(gòu)、數(shù)據(jù)同步原理、全量同步、增量同步

    Redis主從架構(gòu)、數(shù)據(jù)同步原理、全量同步、增量同步

    大家好,我是哪吒。 2023年再不會(huì)Redis,就要被淘汰了 圖解Redis,談?wù)凴edis的持久化,RDB快照與AOF日志 Redis單線程還是多線程?IO多路復(fù)用原理 Redis集群的最大槽數(shù)為什么是16384個(gè)? Redis緩存穿透、擊穿、雪崩到底是個(gè)啥?7張圖告訴你 Redis分布式鎖的實(shí)現(xiàn)方式 Redis分布式緩存、

    2024年02月07日
    瀏覽(25)
  • 什么是全量數(shù)據(jù)、增量數(shù)據(jù)?如何統(tǒng)一一套系統(tǒng)?

    一、什么是全量數(shù)據(jù)、增量數(shù)據(jù)? 1.全量數(shù)據(jù) 2.增量數(shù)據(jù) 二、如何統(tǒng)一一套系統(tǒng) 1.為什么需要統(tǒng)一一套系統(tǒng)來(lái)處理全量數(shù)據(jù)和增量數(shù)據(jù)? 2.如何實(shí)踐? 全量數(shù)據(jù)和增量數(shù)據(jù)是在數(shù)據(jù)庫(kù)系統(tǒng)遷移時(shí)的概念。 ? ? ? ? 當(dāng)前需要遷移的數(shù)據(jù)庫(kù)系統(tǒng)的全部數(shù)據(jù)。 ? ? ? ? 在數(shù)據(jù)庫(kù)系

    2024年02月05日
    瀏覽(26)
  • Oracle通過函數(shù)調(diào)用dblink同步表數(shù)據(jù)方案(全量/增量)

    Oracle通過函數(shù)調(diào)用dblink同步表數(shù)據(jù)方案(全量/增量)

    創(chuàng)建對(duì)應(yīng)的包,以方便觸發(fā)調(diào)用 觸發(fā)同步任務(wù): SELECT yjb.pkg_scene_job.F_SYNC_DRUG_STOCK() AS a FROM dual WHERE 1=0; 沒有結(jié)果行時(shí)是不會(huì)觸發(fā)的,以下方式可觸發(fā): SELECT yjb.pkg_scene_job.F_SYNC_DRUG_STOCK() AS a FROM dual; PS:一定是使用(調(diào)用)到 觸發(fā)函數(shù)yjb.pkg_scene_job.F_SYNC_DRUG_STOCK(),才可完成觸

    2024年02月16日
    瀏覽(29)
  • 【大數(shù)據(jù)精講】全量同步與CDC增量同步方案對(duì)比

    【大數(shù)據(jù)精講】全量同步與CDC增量同步方案對(duì)比

    目錄 背景 名詞解釋 問題與挑戰(zhàn) FlinkCDC DataX 工作原理 調(diào)度流程 五、DataX 3.0六大核心優(yōu)勢(shì) 性能優(yōu)化 CDC ? ? ? ?CDC又稱變更數(shù)據(jù)捕獲(Change Data Capture),開啟cdc的源表在插入INSERT、更新UPDATE和刪除DELETE活動(dòng)時(shí)會(huì)插入數(shù)據(jù)到日志表中。CDC通過捕獲進(jìn)程將變更數(shù)據(jù)捕獲到變更表中

    2024年01月24日
    瀏覽(18)
  • 微調(diào)llama 3 — PEFT微調(diào)和全量微調(diào)

    微調(diào)llama 3 — PEFT微調(diào)和全量微調(diào)

    官方blog llama 3 目前有兩個(gè)版本:8B版和70B版。8B版本擁有8.03B參數(shù),其尺寸較小,可以在消費(fèi)者硬件上本地運(yùn)行。 meta-llama/Meta-Llama-3-8B meta-llama/Meta-Llama-3-70B 超過400B個(gè)參數(shù)的第三個(gè)版本目前仍在訓(xùn)練中…… Llama 3與Llama 2具有相同的架構(gòu),但詞匯表要大得多,包含128k entries,而

    2024年04月27日
    瀏覽(26)
  • elasticsearch+canal增量、全量同步

    elasticsearch+canal增量、全量同步

    目錄 一、搭建環(huán)境: 1.1 下載軟件上傳到linux目錄/data/soft下 1.2? 把所有軟件解壓到/data/es-cluster 二、單節(jié)點(diǎn)(多節(jié)點(diǎn)同理)集群部署elasticsearch 2.1 創(chuàng)建es用戶 2.2 準(zhǔn)備節(jié)點(diǎn)通訊證書 2.3 配置elasticsearch,編輯/data/es-cluster/elasticsearch-7.9.0-node1/config/elasticsearch.yml文件 2.4 在每一臺(tái)集群

    2024年01月24日
    瀏覽(24)
  • DataEase開源BI工具安裝_數(shù)據(jù)全量_增量同步_大屏拖拽自動(dòng)生成_多數(shù)據(jù)源支持_數(shù)據(jù)血緣分析---大數(shù)據(jù)工作筆記0183

    DataEase開源BI工具安裝_數(shù)據(jù)全量_增量同步_大屏拖拽自動(dòng)生成_多數(shù)據(jù)源支持_數(shù)據(jù)血緣分析---大數(shù)據(jù)工作筆記0183

    我這里用的是Centos7.9安裝的 可以通過uname -p來(lái)查看一下我們的電腦架構(gòu),可以看到是x86_64架構(gòu)的 ?我們下第一個(gè),這個(gè)是x86架構(gòu)的,第二個(gè)arm架構(gòu)的? ? 然后解壓到/opt/module中 ? 然后再去重命名一下文件夾.? 推薦200G? 本地模式的功能比較多 推薦100G ?

    2024年02月15日
    瀏覽(18)
  • Android中的全量更新、增量更新以及熱更新

    Android中的全量更新、增量更新以及熱更新

    在客戶端開發(fā)過程中,我們可能會(huì)遇到這樣一種需求:點(diǎn)擊某個(gè)按鈕彈出一個(gè)彈窗,提示我們可以更新到apk的某個(gè)版本,或者我們可以通過服務(wù)端接口進(jìn)行強(qiáng)制更新。在這種需求中,我們是不需要通過應(yīng)用商店來(lái)更新我們的apk的,而是直接在apk內(nèi)部進(jìn)行版本更新。這次我們就

    2024年02月12日
    瀏覽(22)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包