国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

詳解數(shù)據(jù)倉庫和數(shù)據(jù)集市：ODS、DW、DWD、DWM、DWS、ADS

2年前作者：jane9872分類：Toy博客閱讀(53)違法舉報

這篇具有很好參考價值的文章主要介紹了詳解數(shù)據(jù)倉庫和數(shù)據(jù)集市：ODS、DW、DWD、DWM、DWS、ADS。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

何為數(shù)倉DW

Data warehouse（可簡寫為DW或者DWH）數(shù)據(jù)倉庫，是在數(shù)據(jù)庫已經(jīng)大量存在的情況下，它是一整套包括了etl、調度、建模在內(nèi)的完整的理論體系。

數(shù)據(jù)倉庫的方案建設的目的，是為前端查詢和分析作為基礎，主要應用于OLAP（on-line Analytical Processing），支持復雜的分析操作，側重決策支持，并且提供直觀易懂的查詢結果。目前行業(yè)比較流行的有：AWS Redshift，Greenplum，Hive等。

數(shù)據(jù)倉庫并不是數(shù)據(jù)的最終目的地，而是為數(shù)據(jù)最終的目的地做好準備，這些準備包含：清洗、轉義、分類、重組、合并、拆分、統(tǒng)計等

主要特點

面向主題
- 操作型數(shù)據(jù)庫組織面向事務處理任務，而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進行組織。
- 主題是指用戶使用數(shù)據(jù)倉庫進行決策時所關心的重點方面，一個主題通過與多個操作型信息系統(tǒng)相關。
集成
- 需要對源數(shù)據(jù)進行加工與融合，統(tǒng)一與綜合
- 在加工的過程中必須消除源數(shù)據(jù)的不一致性，以保證數(shù)據(jù)倉庫內(nèi)的信息時關于整個企業(yè)的一致的全局信息。（關聯(lián)關系）
不可修改
- DW中的數(shù)據(jù)并不是最新的，而是來源于其他數(shù)據(jù)源
- 數(shù)據(jù)倉庫主要是為決策分析提供數(shù)據(jù)，涉及的操作主要是數(shù)據(jù)的查詢
與時間相關
- 處于決策的需要數(shù)據(jù)倉庫中的數(shù)據(jù)都需要標明時間屬性

與數(shù)據(jù)庫的對比

DW：專門為數(shù)據(jù)分析設計的，涉及讀取大量數(shù)據(jù)以了解數(shù)據(jù)之間的關系和趨勢
數(shù)據(jù)庫：用于捕獲和存儲數(shù)據(jù)

為何要分層

數(shù)據(jù)倉庫中涉及到的問題：

為什么要做數(shù)據(jù)倉庫？
為什么要做數(shù)據(jù)質量管理？
為什么要做元數(shù)據(jù)管理？
數(shù)倉分層中每個層的作用是什么？
…...

在實際的工作中，我們都希望自己的數(shù)據(jù)能夠有順序地流轉，設計者和使用者能夠清晰地知道數(shù)據(jù)的整個聲明周期，比如下面左圖。

但是，實際情況下，我們所面臨的數(shù)據(jù)狀況很有可能是復雜性高、且層級混亂的，我們可能會做出一套表依賴結構混亂，且出現(xiàn)循環(huán)依賴的數(shù)據(jù)體系，

為了解決我們可能面臨的問題，需要一套行之有效的數(shù)據(jù)組織、管理和處理方法，來讓我們的數(shù)據(jù)體系更加有序，這就是數(shù)據(jù)分層。數(shù)據(jù)分層的好處：

清晰數(shù)據(jù)結構：讓每個數(shù)據(jù)層都有自己的作用和職責，在使用和維護的時候能夠更方便和理解
復雜問題簡化：將一個復雜的任務拆解成多個步驟來分步驟完成，每個層只解決特定的問題
統(tǒng)一數(shù)據(jù)口徑：通過數(shù)據(jù)分層，提供統(tǒng)一的數(shù)據(jù)出口，統(tǒng)一輸出口徑
減少重復開發(fā)：規(guī)范數(shù)據(jù)分層，開發(fā)通用的中間層，可以極大地減少重復計算的工作

05

數(shù)據(jù)分層

每個公司的業(yè)務都可以根據(jù)自己的業(yè)務需求分層不同的層次；目前比較成熟的數(shù)據(jù)分層：數(shù)據(jù)運營層ODS、數(shù)據(jù)倉庫層DW、數(shù)據(jù)服務層ADS(APP)。

數(shù)據(jù)運營層ODS

數(shù)據(jù)運營層：Operation Data Store 數(shù)據(jù)準備區(qū)，也稱為貼源層。數(shù)據(jù)源中的數(shù)據(jù)，經(jīng)過抽取、洗凈、傳輸，也就是ETL過程之后進入本層。該層的主要功能：

ODS是后面數(shù)據(jù)倉庫層的準備區(qū)
為DWD層提供原始數(shù)據(jù)
減少對業(yè)務系統(tǒng)的影響

在源數(shù)據(jù)裝入這一層時，要進行諸如去噪（例如有一條數(shù)據(jù)中人的年齡是?300 歲，這種屬于異常數(shù)據(jù)，就需要提前做一些處理）、去重(例如在個人資料表中，同一?ID 卻有兩條重復數(shù)據(jù)，在接入的時候需要做一步去重)、字段命名規(guī)范等一系列操作。

但是為了考慮后續(xù)可能需要追溯數(shù)據(jù)問題，因此對于這一層就不建議做過多的數(shù)據(jù)清洗工作，原封不動地接入原始數(shù)據(jù)也可以，根據(jù)業(yè)務具體分層的需求來做。

這層的數(shù)據(jù)是后續(xù)數(shù)據(jù)倉庫加工數(shù)據(jù)的來源。數(shù)據(jù)來源的方式：

業(yè)務庫
- 經(jīng)常會使用sqoop來抽取，例如每天定時抽取一次。
- 實時方面，可以考慮用canal監(jiān)聽mysql的binlog，實時接入即可。
埋點日志
- 日志一般以文件的形式保存，可以選擇用flume定時同步
- 可以用spark streaming或者Flink來實時接入
- kafka也OK
消息隊列：即來自ActiveMQ、Kafka的數(shù)據(jù)等。

數(shù)據(jù)倉庫層

數(shù)據(jù)倉庫層從上到下，又可以分為3個層：數(shù)據(jù)細節(jié)層DWD、數(shù)據(jù)中間層DWM、數(shù)據(jù)服務層DWS。

數(shù)據(jù)細節(jié)層DWD

數(shù)據(jù)細節(jié)層：data warehouse details，DWD(數(shù)據(jù)清洗/DWI)

該層是業(yè)務層和數(shù)據(jù)倉庫的隔離層，保持和ODS層一樣的數(shù)據(jù)顆粒度；主要是對ODS數(shù)據(jù)層做一些數(shù)據(jù)的清洗和規(guī)范化的操作，比如去除空數(shù)據(jù)、臟數(shù)據(jù)、離群值等。

為了提高數(shù)據(jù)明細層的易用性，該層通常會才采用一些維度退化方法，將維度退化至事實表中，減少事實表和維表的關聯(lián)。

數(shù)據(jù)中間層DWM

數(shù)據(jù)中間層：Data Warehouse Middle，DWM

該層是在DWD層的數(shù)據(jù)基礎上，對數(shù)據(jù)做一些輕微的聚合操作，生成一些列的中間結果表，提升公共指標的復用性，減少重復加工的工作。

簡答來說，對通用的核心維度進行聚合操作，算出相應的統(tǒng)計指標。

數(shù)據(jù)服務層DWS

數(shù)據(jù)服務層：Data Warehouse Service，DWS(寬表-用戶行為，輕度聚合)

該層是基于DWM上的基礎數(shù)據(jù)，整合匯總成分析某一個主題域的數(shù)據(jù)服務層，一般是寬表，用于提供后續(xù)的業(yè)務查詢，OLAP分析，數(shù)據(jù)分發(fā)等。

一般來說，該層的數(shù)據(jù)表會相對較少；一張表會涵蓋比較多的業(yè)務內(nèi)容，由于其字段較多，因此一般也會稱該層的表為寬表。

用戶行為，輕度聚合對DWD
主要對ODS/DWD層數(shù)據(jù)做一些輕度的匯總。

數(shù)據(jù)應用層ADS

數(shù)據(jù)應用層：Application Data Service，ADS(APP/DAL/DF)-出報表結果

該層主要是提供給數(shù)據(jù)產(chǎn)品和數(shù)據(jù)分析使用的數(shù)據(jù)，一般會存放在ES、Redis、PostgreSql等系統(tǒng)中供線上系統(tǒng)使用；也可能存放在hive或者Druid中，供數(shù)據(jù)分析和數(shù)據(jù)挖掘使用，比如常用的數(shù)據(jù)報表就是存在這里的。

事實表?Fact Table

事實表是指存儲有事實記錄的表，比如系統(tǒng)日志、銷售記錄等。事實表的記錄在不斷地增長，比如電商的商品訂單表，就是類似的情況，所以事實表的體積通常是遠大于其他表。

維表層Dimension（DIM）

維度表（Dimension Table）或維表，有時也稱查找表（Lookup Table），是與事實表相對應的一種表；它保存了維度的屬性值，可以跟事實表做關聯(lián)，相當于將事實表上經(jīng)常重復出現(xiàn)的屬性抽取、規(guī)范出來用一張表進行管理。維度表主要是包含兩個部分：

高基數(shù)維度數(shù)據(jù)：一般是用戶資料表、商品資料表類似的資料表，數(shù)據(jù)量可能是千萬級或者上億級別
低基數(shù)維度數(shù)據(jù)：一般是配置表，比如枚舉字段對應的中文含義，或者日期維表等；數(shù)據(jù)量可能就是個位數(shù)或者幾千幾萬。

臨時表TMP

每一層的計算都會有很多臨時表，專設一個DWTMP層來存儲我們數(shù)據(jù)倉庫的臨時表

數(shù)據(jù)集市

狹義ADS層；廣義上指hadoop從DWD DWS ADS?同步到RDS的數(shù)據(jù)

數(shù)據(jù)集市（Data Mart），也叫數(shù)據(jù)市場，數(shù)據(jù)集市就是滿足特定的部門或者用戶的需求，按照多維的方式進行存儲，包括定義維度、需要計算的指標、維度的層次等，生成面向決策分析需求的數(shù)據(jù)立方體。

從范圍上來說，數(shù)據(jù)是從企業(yè)范圍的數(shù)據(jù)庫、數(shù)據(jù)倉庫，或者是更加專業(yè)的數(shù)據(jù)倉庫中抽取出來的。數(shù)據(jù)中心的重點就在于它迎合了專業(yè)用戶群體的特殊需求，在分析、內(nèi)容、表現(xiàn)，以及易用方面。數(shù)據(jù)中心的用戶希望數(shù)據(jù)是由他們熟悉的術語表現(xiàn)的。

區(qū)別數(shù)據(jù)倉庫

數(shù)據(jù)集市就是企業(yè)級數(shù)據(jù)倉庫的一個子集，它主要面向部門級業(yè)務，并且只面向某個特定的主題。為了解決靈活性與性能之間的矛盾，數(shù)據(jù)集市就是數(shù)據(jù)倉庫體系結構中增加的一種小型的部門或工作組級別的數(shù)據(jù)倉庫。數(shù)據(jù)集市存儲為特定用戶預先計算好的數(shù)據(jù)，從而滿足用戶對性能的需求。數(shù)據(jù)集市可以在一定程度上緩解訪問數(shù)據(jù)倉庫的瓶頸。

理論上講，應該有一個總的數(shù)據(jù)倉庫的概念，然后才有數(shù)據(jù)集市。實際建設數(shù)據(jù)集市的時候，國內(nèi)很少這么做。國內(nèi)一般會先從數(shù)據(jù)集市入手，就某一個特定的主題（比如企業(yè)的客戶信息）先做數(shù)據(jù)集市，再建設數(shù)據(jù)倉庫。數(shù)據(jù)倉庫和數(shù)據(jù)集市建立的先后次序之分，是和設計方法緊密相關的。而數(shù)據(jù)倉庫作為工程學科，并沒有對錯之分。

在數(shù)據(jù)結構上，數(shù)據(jù)倉庫是面向主題的、集成的數(shù)據(jù)的集合。而數(shù)據(jù)集市通常被定義為星型結構或者雪花型數(shù)據(jù)結構，數(shù)據(jù)集市一般是由一張事實表和幾張維表組成的。

問題總結

ODS與DWD區(qū)別？

問：還是不太明白?ods 和?dwd 層的區(qū)別，有了?ods 層后感覺?dwd 沒有什么用了。

答：嗯，我是這樣理解的，站在一個理想的角度來講，如果?ods 層的數(shù)據(jù)就非常規(guī)整，基本能滿足我們絕大部分的需求，這當然是好的，這時候?dwd 層其實也沒太大必要。但是現(xiàn)實中接觸的情況是?ods 層的數(shù)據(jù)很難保證質量，畢竟數(shù)據(jù)的來源多種多樣，推送方也會有自己的推送邏輯，在這種情況下，我們就需要通過額外的一層?dwd 來屏蔽一些底層的差異。

問：我大概明白了，是不是說?dwd 主要是對?ods 層做一些數(shù)據(jù)清洗和規(guī)范化的操作，dws 主要是對?ods 層數(shù)據(jù)做一些輕度的匯總?

答：對的，可以大致這樣理解。

APP層干什么的？

問：感覺DWS層是不是沒地方放了，各個業(yè)務的DWS表是應該在?DWD還是在?app?

答：這個問題不太好回答，我感覺主要就是明確一下DWS層是干什么的，如果你的DWS層放的就是一些可以供業(yè)務方使用的寬表表，放在?app 層就行。如果你說的數(shù)據(jù)集市是一個比較泛一點的概念，那么其實?dws、dwd、app 這些合起來都算是數(shù)據(jù)集市的內(nèi)容。

問：那存到?Redis、ES 中的數(shù)據(jù)算是?app層嗎?

答：算是的，我個人的理解，app 層主要存放一些相對成熟的表，能供業(yè)務側使用的。這些表可以在?Hive 中，也可以是從?Hive 導入?Redis 或者?ES 這種查詢性能比較好的系統(tǒng)中。

附錄

1. ETL

ETL ：Extract-Transform-Load，用于描述將數(shù)據(jù)從來源端經(jīng)過抽取、轉換、加載到目的端的過程。

2. 寬表

含義：指字段比較多的數(shù)據(jù)庫表。通常是指業(yè)務主體相關的指標、緯度、屬性關聯(lián)在一起的一張數(shù)據(jù)庫表。
特點：
- 寬表由于把不同的內(nèi)容都放在同一張表，寬表已經(jīng)不符合三范式的模型設計規(guī)范：
  - 壞處：數(shù)據(jù)有大量冗余
  - 好處：查詢性能的提高和便捷
- 寬表的設計廣泛應用于數(shù)據(jù)挖掘模型訓練前的數(shù)據(jù)準備，通過把相關字段放在同一張表中，可以大大提供數(shù)據(jù)挖掘模型訓練過程中迭代計算的消息問題。

3. 主題（Subject）

是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)進行綜合、歸類和分析利用的一個抽象概念，每一個主題基本對應一個宏觀的分析領域。在邏輯意義上，它是對應企業(yè)中某一宏觀分析領域所涉及的分析對象。例如“銷售分析”就是一個分析領域，因此這個數(shù)據(jù)倉庫應用的主題就是“銷售分析”。文章來源地址http://www.zghlxwxcb.cn/news/detail-481882.html

到了這里，關于詳解數(shù)據(jù)倉庫和數(shù)據(jù)集市：ODS、DW、DWD、DWM、DWS、ADS的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉載，請注明出處：如若內(nèi)容造成侵權/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

大數(shù)據(jù)存儲架構詳解：數(shù)據(jù)倉庫、數(shù)據(jù)集市、數(shù)據(jù)湖、數(shù)據(jù)網(wǎng)格、湖倉一體
本文隸屬于專欄《大數(shù)據(jù)理論體系》，該專欄為筆者原創(chuàng)，引用請注明來源，不足和錯誤之處請在評論區(qū)幫忙指出，謝謝！本專欄目錄結構和參考文獻請見大數(shù)據(jù)理論體系《分布式數(shù)據(jù)模型詳解：OldSQL =＞ NoSQL =＞ NewSQL》《分布式計算模型詳解：MapReduce、數(shù)據(jù)流、P2P、RPC、
2024年02月15日
瀏覽(28)
大數(shù)據(jù)之使用Flink消費Kafka中topic為ods_mall_data的數(shù)據(jù)，根據(jù)數(shù)據(jù)中不同的表將數(shù)據(jù)分別分發(fā)至kafka的DWD層
前言題目：一、讀題分析二、處理過程三、重難點分析總結? 本題來源于全國職業(yè)技能大賽之大數(shù)據(jù)技術賽項賽題 - 電商數(shù)據(jù)處理 - 實時數(shù)據(jù)處理注：由于設備問題，代碼執(zhí)行結果以及數(shù)據(jù)的展示無法給出，可參照我以往的博客其中有相同數(shù)據(jù)源展示 ? ? 提示：以下是本
2024年02月04日
瀏覽(44)
數(shù)據(jù)集市與數(shù)據(jù)倉庫的區(qū)別
數(shù)據(jù)倉庫是企業(yè)級的，能為整個企業(yè)各個部門的運作提供決策支持；而數(shù)據(jù)集市則是部門級的，一般只能為某個局部范圍內(nèi)的管理人員服務，因此也稱之為部門級數(shù)據(jù)倉庫。 1、兩種數(shù)據(jù)集市結構數(shù)據(jù)集市按數(shù)據(jù)的來源分為以下兩種（1）從屬數(shù)據(jù)集市所謂從屬，是指其數(shù)據(jù)
2024年02月01日
瀏覽(14)
一文了解數(shù)據(jù)庫，數(shù)據(jù)倉庫，數(shù)據(jù)湖，數(shù)據(jù)集市，數(shù)據(jù)湖倉
目錄一、定義 1. 數(shù)據(jù)庫（Database） 2. 數(shù)據(jù)倉庫（Data Warehouse） 3. 數(shù)據(jù)湖（Data Lake） 4. 數(shù)據(jù)集市（Data Mart） 5. 數(shù)據(jù)湖倉（Data Lakehouse）二、相同、異同 2.1 相同點 2.2 不同點三、常見的工具數(shù)據(jù)庫：數(shù)據(jù)倉庫：數(shù)據(jù)湖：數(shù)據(jù)集市：數(shù)據(jù)湖倉：當然，以下是關于數(shù)據(jù)庫、數(shù)
2024年01月17日
瀏覽(25)
數(shù)據(jù)倉庫：如何解決ODS數(shù)據(jù)零點漂移問題
本篇文章講解的是從業(yè)務庫同步數(shù)據(jù)至數(shù)倉導致的零點漂移，查看flume+kafka同步數(shù)據(jù)導致的零點漂移參考該文章：業(yè)務數(shù)據(jù)采集_零點漂移處理方法(Flume+Kafka+HDFS) 1、什么是零點漂移：數(shù)據(jù)零點漂移指的是數(shù)據(jù)同步過程中，ODS表按時間字段分區(qū)時，同一個業(yè)務日期 (分區(qū)) 包含
2024年01月22日
瀏覽(38)
一百八十七、大數(shù)據(jù)離線數(shù)倉完整流程——步驟六、在ClickHouse的ADS層建表并用Kettle同步Hive中DWS層的結果數(shù)據(jù)
經(jīng)過6個月的奮斗，項目的離線數(shù)倉部分終于可以上線了，因此整理一下離線數(shù)倉的整個流程，既是大家提供一個案例經(jīng)驗，也是對自己近半年的工作進行一個總結。 1、ClickHouse的ADS層建庫建表語句 --如果不存在則創(chuàng)建hurys_dc_ads數(shù)據(jù)庫 create database if not exists hurys_dc_ads; --使用
2024年02月07日
瀏覽(36)
4 萬字全面掌握數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)集市、數(shù)據(jù)湖、數(shù)據(jù)中臺
如今，隨著諸如互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)等技術的不斷發(fā)展，越來越多的數(shù)據(jù)被生產(chǎn)出來-據(jù)統(tǒng)計，每天大約有超過2.5億億字節(jié)的各種各樣數(shù)據(jù)產(chǎn)生。這些數(shù)據(jù)需要被存儲起來并且能夠被方便的分析和利用。隨著大數(shù)據(jù)技術的不斷更新和迭代，數(shù)據(jù)管理工具得到了飛速的發(fā)展，相關
2024年04月11日
瀏覽(27)
數(shù)據(jù)倉庫介紹（DW）
第一章：了解DW 1.1什么是數(shù)據(jù)倉庫？數(shù)據(jù)倉庫(Data Warehouse) ，簡稱DW。數(shù)據(jù)倉庫顧名思義，是?個很?的數(shù)據(jù)存儲集合，出于企業(yè)的分析性報告和決策?持 ?的?創(chuàng)建，對多樣的業(yè)務數(shù)據(jù)進?篩選與整合。它能為企業(yè)提供?定的BI（商業(yè)智能：例如數(shù)據(jù)挖掘、數(shù)據(jù)分析和
2023年04月13日
瀏覽(26)
數(shù)據(jù)倉庫、數(shù)據(jù)集市、數(shù)據(jù)湖，你的企業(yè)更適合哪種數(shù)據(jù)管理架構？
建設企業(yè)級數(shù)據(jù)平臺，首先需要了解企業(yè)數(shù)據(jù)，確認管理需求，并選擇一個數(shù)據(jù)管理架構。那么面對紛繁復雜的數(shù)據(jù)來源，多元化的數(shù)據(jù)結構，以及他們的管理使用需求，企業(yè)數(shù)據(jù)平臺建設該從何處入手呢？哪個數(shù)據(jù)管理架構適合自己的企業(yè)呢？本篇將介紹數(shù)據(jù)倉庫、數(shù)據(jù)集
2023年04月09日
瀏覽(31)
數(shù)據(jù)倉庫DW-理論知識儲備
數(shù)據(jù)倉庫具備采集數(shù)據(jù)、存儲數(shù)據(jù)、分析和計算的功能，最后得出一些有用的數(shù)據(jù)，一些目標數(shù)據(jù)來使用。采集來自不同源的數(shù)據(jù)，然后對這些數(shù)據(jù)進行分析和計算得出一些有用的指標，提供數(shù)據(jù)決策支持。數(shù)據(jù)的來源有：系統(tǒng)的業(yè)務數(shù)據(jù)、用戶的行為數(shù)據(jù)、爬蟲數(shù)據(jù)等。
2024年02月07日
瀏覽(28)