第9章 阿里巴巴整合及管理體系
??OneData的設(shè)計是為了建設(shè)統(tǒng)一的、規(guī)范化的數(shù)據(jù)接人層( ODS )和數(shù)據(jù)中間層( DWD和DWS ),通過數(shù)據(jù)服務(wù)和數(shù)據(jù)產(chǎn)品,完成服務(wù)于阿里巴巴的大數(shù)據(jù)系統(tǒng)建設(shè) ,即數(shù)據(jù)公共層建設(shè)。提供標(biāo)準(zhǔn)化的( Standard )、共享的( Shared )、數(shù)據(jù)服務(wù)( Service )能力,降低數(shù)據(jù)互通成本,釋放計算、存儲、人力等資源,以消除業(yè)務(wù)和技術(shù)之痛。
1. OneData體系架構(gòu)
- 業(yè)務(wù)板塊
由于阿里巴巴集團(tuán)業(yè)務(wù)生態(tài)龐大,所以根據(jù)業(yè)務(wù)的屬性劃分出幾個相對獨(dú)立的業(yè)務(wù)板塊,業(yè)務(wù)板塊之間的指標(biāo)或業(yè)務(wù)重疊性較小。如電商業(yè)務(wù)板塊涵蓋淘系、 B2B系和 AliExpess系等。
- 規(guī)范定義
規(guī)范定義指以維度建模作為理論基礎(chǔ) 構(gòu)建總線矩陣,劃分和定義數(shù)據(jù)域、業(yè)務(wù)過程、維度、度量 原子指標(biāo)、修飾類型、修飾詞、時間周期、派生指標(biāo)。
名詞術(shù)語 | 解釋 |
---|---|
數(shù)據(jù)域 | 指面向業(yè)務(wù)分析,將業(yè)務(wù)過程或者維度進(jìn)行抽象的集合。其中,業(yè)務(wù)過程可以概括為一 個個不可拆分的行為事件,在業(yè)務(wù)過程之下,可以定義指標(biāo);維度是指度數(shù)據(jù)域的環(huán)境,如買家下單事件,買家是維度。為保障整個體系的生命力,數(shù)據(jù)域是需要抽象提煉,并且長期維護(hù)和更新的,但不輕易變動。在劃分?jǐn)?shù)據(jù)域時,既能涵蓋當(dāng)前所有的業(yè)務(wù)需求,又能在新業(yè)務(wù)進(jìn)入時無影響地被包含進(jìn)已有的數(shù)據(jù)域中和擴(kuò)展新的數(shù)據(jù)域 |
業(yè)務(wù)過程 | 指企業(yè)的業(yè)務(wù)活動事件,如下單、支付、退款都是業(yè)務(wù)過程。請注意,業(yè)務(wù)過程是一個不可拆分的行為事件,通俗地講,業(yè)務(wù)過程就是企業(yè)活動中的事件 |
時間周期 | 用來明確數(shù)據(jù)統(tǒng)計的時間范用或者時間點(diǎn),如最近 30 天、自然周、截至當(dāng)日等 |
修飾類型 | 是對修飾詞的一種抽象劃分。修飾類型從屬于某個業(yè)務(wù)域,如日志域的訪問終端類型涵蓋無線端、 PC端等修飾詞 |
修飾詞 | 指除了統(tǒng)計維度以外指標(biāo)的業(yè)務(wù)場景限定抽象。修飾詞隸屬于一種修飾類型,如在日志域的訪問終端類型下,有修飾詞 PC 端、無線端等 |
度量/原子指標(biāo) | 原子指標(biāo)和度自含義相同,基于某一業(yè)務(wù)事件行為下的度量,是業(yè)務(wù)定義中不可再拆分的指標(biāo),具有明確業(yè)務(wù)含義的名詞 ,如支付金額 |
維度 | 維度是度量的環(huán)境,用來反映業(yè)務(wù)的一類屬性,這類屬性的集合構(gòu)成一個維度也可以稱為實(shí)體對象。維度屬于一個數(shù)據(jù)域,如地理維度(其中包括國家、地區(qū)、省以及城市等級別的內(nèi)容)、時間維度(其中包括年、季、月、周、日等級別的內(nèi)容) |
維度屬性 | 維度屬性隸屬于一個維度,如地理維度里面的國家名稱、同家 ID 、省份名稱等都屬于維度屬性 |
派生指標(biāo) | 派生指標(biāo)= 一個原子指標(biāo)+多個修飾詞(可選)+時間周期??梢岳斫鉃閷υ又笜?biāo)業(yè)務(wù)統(tǒng)計范圍的圈定。如原子指標(biāo):支付金額,最近1天海外買家支付金額則為派生指標(biāo)(最近1天為時間周期,海外為修飾詞,買家作為維度,而不作為修飾詞) |
- 模型設(shè)計
(1)指導(dǎo)理論
維度建模理論:基于維度數(shù)據(jù)模型總線架構(gòu),構(gòu)建一致性的維度和事實(shí)。
(2)模型層次
① 操作數(shù)據(jù)層(ODS)
功能:同步;結(jié)構(gòu)化;累積歷史、清洗
② 公共維度模型層(DM):明細(xì)數(shù)據(jù)層(DWD)+匯總數(shù)據(jù)層(DWS)
功能:組合相關(guān)和相似數(shù)據(jù);公共指標(biāo)統(tǒng)一加工;建立一致性維度
③ 應(yīng)用數(shù)據(jù)層( DS )
功能:個性化指標(biāo)加工;基于應(yīng)用的數(shù)據(jù)組裝
(3)基本原則
高內(nèi)聚和低輯合
核心模型與擴(kuò)展模型分離
公共處理邏輯下沉及單一
成本與性能平衡
數(shù)據(jù)可回滾
一致性
命名清晰、可理解
2.模型實(shí)施
- 業(yè)界常用模型實(shí)施過程
(1)Kimball 模型實(shí)施過程
高層模型
詳細(xì)模型
模型審查、再設(shè)計和驗證
提交 ETL 設(shè)計和開發(fā)
參考:Ralph Kimball, The DataWarehouse Lifecycle Toolkit
(2)Inmon 模型實(shí)施過程
三個層次:
ERD (Entity Relationship Diagram ,實(shí)體關(guān)系圖)層
DIS (Data Item Set 數(shù)據(jù)項集)層
物理層(Physical Model ,物理模型)
參考:Inmon, Building the Data Warehouse
(3)其他模型實(shí)施過程
業(yè)務(wù)建模,生成業(yè)務(wù)模型
領(lǐng)域建模,生成領(lǐng)域模型
邏輯建模,生成邏輯模型
物理建模,生成物理模型
- OneData模型實(shí)施過程
(1)指導(dǎo)方針
首先,在建設(shè)大數(shù)據(jù)數(shù)據(jù)倉庫時,要進(jìn)行充分的業(yè)務(wù)調(diào)研和需求分析。
其次,進(jìn)行數(shù)據(jù)總體架構(gòu)設(shè)計,主要根據(jù)數(shù)據(jù)域?qū)?shù)據(jù)進(jìn)行劃分;按照維度建模理論,構(gòu)建總線矩陣、抽出業(yè)務(wù)過程和維度。
再次,對報表需求進(jìn)行抽象整理出相關(guān)指標(biāo)體系,使用 OneData 工具完成指標(biāo)規(guī)范定義和模型設(shè)計。
最后,就是代碼研發(fā)和運(yùn)維。
(2)實(shí)施工作流
OneDatade的實(shí)施過程是一個高度迭代和動態(tài)的過程,一般采用螺旋式實(shí)施方法。文章來源:http://www.zghlxwxcb.cn/news/detail-613530.html
① 數(shù)據(jù)調(diào)研
業(yè)務(wù)調(diào)研
需求調(diào)研
②架構(gòu)設(shè)計
數(shù)據(jù)域劃分
構(gòu)建總線矩陣
③ 規(guī)范定義
主要定義指標(biāo)體系,包括原子指標(biāo)、修飾詞、時間周期和派生指標(biāo)。
④ 模型設(shè)計
主要包括維度及屬性的規(guī)范定義,維表、明細(xì)事實(shí)表和匯總事實(shí)表的模型設(shè)計。文章來源地址http://www.zghlxwxcb.cn/news/detail-613530.html
到了這里,關(guān)于數(shù)據(jù)模型篇之阿里巴巴數(shù)據(jù)整合及管理體系的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!