国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

數(shù)據(jù)倉(cāng)庫(kù) ODS->DWD->DWS->ADS

這篇具有很好參考價(jià)值的文章主要介紹了數(shù)據(jù)倉(cāng)庫(kù) ODS->DWD->DWS->ADS。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

1.數(shù)據(jù)倉(cāng)庫(kù)DW

1.1簡(jiǎn)介

Data warehouse(可簡(jiǎn)寫為DW或者DWH)數(shù)據(jù)倉(cāng)庫(kù),是在數(shù)據(jù)庫(kù)已經(jīng)大量存在的情況下,為了進(jìn)一步挖掘數(shù)據(jù)資源、為了決策需要而產(chǎn)生的,它是一整套包括了etl、調(diào)度、建模在內(nèi)的完整的理論體系。數(shù)據(jù)倉(cāng)庫(kù)的方案建設(shè)的目的,是為前端查詢和分析作為基礎(chǔ),主要應(yīng)用于OLAP(on-line Analytical Processing),支持復(fù)雜的分析操作,側(cè)重決策支持,聽且提供直觀易懂的查詢結(jié)果。比較流行的有:AWS Redshift,Greenplum,Hive等。

1.2主要特點(diǎn)

  • 面向主題
    • 操作型數(shù)據(jù)庫(kù)組織面向事務(wù)處理任務(wù),而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。
    • 主題是指用戶使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,一個(gè)主題通過(guò)與多個(gè)操作型信息系統(tǒng)相關(guān)
  • 集成
    • 需要對(duì)源數(shù)據(jù)進(jìn)行加工與融合,統(tǒng)一與綜合
    • 在加工的過(guò)程中必須消除源數(shù)據(jù)的不一致性,以保證數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息時(shí)關(guān)于整個(gè)企業(yè)的一致的全局信息。(關(guān)聯(lián)關(guān)系)
  • 不可修改
    • DW中的數(shù)據(jù)并不是最新的,而是來(lái)源于其他數(shù)據(jù)源
    • 數(shù)據(jù)倉(cāng)庫(kù)主要是為決策分析提供數(shù)據(jù),涉及的操作主要是數(shù)據(jù)的查詢
  • 與時(shí)間相關(guān)
    • 處于決策的需要數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)都需要標(biāo)明時(shí)間屬性

1.3與數(shù)據(jù)庫(kù)的對(duì)比

  • DW:專門為數(shù)據(jù)分析設(shè)計(jì)的,涉及讀取大量數(shù)據(jù)以了解數(shù)據(jù)之間的關(guān)系和趨勢(shì)
  • 數(shù)據(jù)庫(kù):用于捕獲和存儲(chǔ)數(shù)據(jù)
特性 數(shù)據(jù)倉(cāng)庫(kù) 事務(wù)數(shù)據(jù)庫(kù)
適合的工作負(fù)載 分析、報(bào)告、大數(shù)據(jù) 事務(wù)處理
數(shù)據(jù)源 從多個(gè)來(lái)源收集和標(biāo)準(zhǔn)化的數(shù)據(jù) 從單個(gè)來(lái)源(例如事務(wù)系統(tǒng))捕獲的數(shù)據(jù)
數(shù)據(jù)捕獲 批量寫入操作通過(guò)按照預(yù)定的批處理計(jì)劃執(zhí)行 針對(duì)連續(xù)寫入操作進(jìn)行了優(yōu)化,因?yàn)樾聰?shù)據(jù)能夠最大程度地提高事務(wù)吞吐量
數(shù)據(jù)標(biāo)準(zhǔn)化 非標(biāo)準(zhǔn)化schema,例如星型Schema或雪花型schema 高度標(biāo)準(zhǔn)化的靜態(tài)schema
數(shù)據(jù)存儲(chǔ) 使用列式存儲(chǔ)進(jìn)行了優(yōu)化,可實(shí)現(xiàn)輕松訪問(wèn)和高速查詢性能 針對(duì)在單行型物理塊中執(zhí)行高吞吐量寫入操作進(jìn)行了優(yōu)化
數(shù)據(jù)訪問(wèn) 為最小化I/O并最大化數(shù)據(jù)吞吐量進(jìn)行了優(yōu)化 大量小型讀取操作

2.數(shù)據(jù)分層

數(shù)據(jù)分層,每個(gè)企業(yè)根據(jù)自己的業(yè)務(wù)需求可以分成不同的層次,但是最基礎(chǔ)的分層思想,理論上數(shù)據(jù)分為三個(gè)層:數(shù)據(jù)運(yùn)營(yíng)層、數(shù)據(jù)倉(cāng)庫(kù)層、數(shù)據(jù)服務(wù)層。基于這個(gè)基礎(chǔ)分層之上,再提交信息的層次,來(lái)滿足不同的業(yè)務(wù)需求。

2.1數(shù)據(jù)運(yùn)營(yíng)層(ODS)

  • ODS:Operation Data Store 數(shù)據(jù)準(zhǔn)備區(qū),也稱為貼源層。數(shù)據(jù)倉(cāng)庫(kù)源頭系統(tǒng)的數(shù)據(jù)表通常會(huì)原封不動(dòng)的存儲(chǔ)一份,這稱為ODS層,是后續(xù)數(shù)據(jù)倉(cāng)庫(kù)加工數(shù)據(jù)的來(lái)源。
  • ODS層數(shù)據(jù)的來(lái)源方式:
    • 業(yè)務(wù)庫(kù)
      • 經(jīng)常會(huì)使用sqoop來(lái)抽取,例如每天定時(shí)抽取一次。
      • 實(shí)時(shí)方面,可以考慮用canal監(jiān)聽mysql的binlog,實(shí)時(shí)接入即可。
    • 埋點(diǎn)日志
      • 日志一般以文件的形式保存,可以選擇用flume定時(shí)同步
      • 可以用spark streaming或者Flink來(lái)實(shí)時(shí)接入
      • kafka也OK
    • 消息隊(duì)列:即來(lái)自ActiveMQ、Kafka的數(shù)據(jù)等。

2.2數(shù)據(jù)倉(cāng)庫(kù)層(DW)

DW數(shù)據(jù)分層,由下到上為DWD,DWB,DWS。

  • DWD:data warehouse details 細(xì)節(jié)數(shù)據(jù)層,是業(yè)務(wù)層與數(shù)據(jù)倉(cāng)庫(kù)的隔離層。主要對(duì)ODS數(shù)據(jù)層做一些數(shù)據(jù)清洗和規(guī)范化的操作。
    • 數(shù)據(jù)清洗:去除空值、臟數(shù)據(jù)、超過(guò)極限范圍的
  • DWB:data warehouse base 數(shù)據(jù)基礎(chǔ)層,存儲(chǔ)的是客觀數(shù)據(jù),一般用作中間層,可以認(rèn)為是大量指標(biāo)的數(shù)據(jù)層。
  • DWS:data warehouse service 數(shù)據(jù)服務(wù)層,基于DWB上的基礎(chǔ)數(shù)據(jù),整合匯總成分析某一個(gè)主題域的服務(wù)數(shù)據(jù)層,一般是寬表。用于提供后續(xù)的業(yè)務(wù)查詢,OLAP分析,數(shù)據(jù)分發(fā)等。
    • 用戶行為,輕度聚合
    • 主要對(duì)ODS/DWD層數(shù)據(jù)做一些輕度的匯總。

2.3數(shù)據(jù)服務(wù)層/應(yīng)用層(ADS)

  • ADS:applicationData Service應(yīng)用數(shù)據(jù)服務(wù),該層主要是提供數(shù)據(jù)產(chǎn)品和數(shù)據(jù)分析使用的數(shù)據(jù),一般會(huì)存儲(chǔ)在ES、mysql等系統(tǒng)中供線上系統(tǒng)使用。
    • 我們通過(guò)說(shuō)的報(bào)表數(shù)據(jù),或者說(shuō)那種大寬表,一般就放在這里

3.附錄

ETL

  • ETL :Extract-Transform-Load,用于描述將數(shù)據(jù)從來(lái)源端經(jīng)過(guò)抽取、轉(zhuǎn)換、加載到目的端的過(guò)程。

寬表

  • 含義:指字段比較多的數(shù)據(jù)庫(kù)表。通常是指業(yè)務(wù)主體相關(guān)的指標(biāo)、緯度、屬性關(guān)聯(lián)在一起的一張數(shù)據(jù)庫(kù)表。
  • 特點(diǎn):
    • 寬表由于把不同的內(nèi)容都放在同一張表,寬表已經(jīng)不符合三范式的模型設(shè)計(jì)規(guī)范:
      • 壞處:數(shù)據(jù)有大量冗余
      • 好處:查詢性能的提高和便捷
    • 寬表的設(shè)計(jì)廣泛應(yīng)用于數(shù)據(jù)挖掘模型訓(xùn)練前的數(shù)據(jù)準(zhǔn)備,通過(guò)把相關(guān)字段放在同一張表中,可以大大提供數(shù)據(jù)挖掘模型訓(xùn)練過(guò)程中迭代計(jì)算的消息問(wèn)題。

數(shù)據(jù)庫(kù)設(shè)計(jì)三范式

為了建立冗余較小、結(jié)構(gòu)合理的數(shù)據(jù)庫(kù),設(shè)計(jì)數(shù)據(jù)庫(kù)時(shí)必須遵循一定的規(guī)則。在關(guān)系型數(shù)據(jù)庫(kù)中這種規(guī)則就稱為范式。范式時(shí)符合某一種設(shè)計(jì)要求的總結(jié)。

  1. 第一范式:確保每列保持原子性,即要求數(shù)據(jù)庫(kù)表中的所有字段值都是不可分解的原子值。
  2. 第二范式:確保表中的每列都和主鍵相關(guān)。也就是說(shuō)在一個(gè)數(shù)據(jù)庫(kù)表中,一個(gè)表中只能保存一種數(shù)據(jù),不可以把多種數(shù)據(jù)保存在同一張數(shù)據(jù)庫(kù)表中。
    1. 作用:減少了數(shù)據(jù)庫(kù)的冗余
  3. 第三范式:確保每列都和主鍵列直接相關(guān),而不是間接相關(guān)。

作者:AmyZYX
出處:AmyZYX - 博客園
本文版權(quán)歸作者和博客園共有,歡迎轉(zhuǎn)載,但未經(jīng)作者同意必須保留此段聲明,且在文章頁(yè)面明顯位置給出原文連接,否則保留追究法律責(zé)任的權(quán)利。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-654804.html

到了這里,關(guān)于數(shù)據(jù)倉(cāng)庫(kù) ODS->DWD->DWS->ADS的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包