OneData
OneData概述
OneData是阿里巴巴數(shù)據(jù)整合及管理體系,其方法論的核心在于:從業(yè)務(wù)架構(gòu)設(shè)計到模型設(shè)計,從數(shù)據(jù)研發(fā)到數(shù)據(jù)服務(wù),做到數(shù)據(jù)可管理 、可追溯、可規(guī)避重復(fù)建設(shè)。即數(shù)據(jù)只建設(shè)一次。
OneData體系架構(gòu)
Onedata方法論分為三個階段:業(yè)務(wù)板塊、規(guī)范定義、模型設(shè)計。
業(yè)務(wù)板塊:根據(jù)業(yè)務(wù)的屬性劃分出幾個相對獨立的業(yè)務(wù)板塊,業(yè)務(wù)板塊的指標(biāo)或業(yè)務(wù)重疊性較小。
規(guī)范定義:結(jié)合業(yè)務(wù)板塊相關(guān)數(shù)倉建設(shè)經(jīng)驗設(shè)計出的一套數(shù)據(jù)規(guī)范命名體系。
模型設(shè)計:以維度建模理論為基礎(chǔ),基于維度建??偩€矩陣,構(gòu)建一致性維度和事實。
規(guī)范定義
名詞術(shù)語
數(shù)據(jù)域:指面向業(yè)務(wù)分析,將業(yè)務(wù)過程或者維度進(jìn)行抽象的集合 其中 業(yè)務(wù)過程可以概括為一個個不可拆分的行為事件 在業(yè)務(wù)過程之下 可以定義指標(biāo);維度是指度的環(huán)境,如買家下單事件,買家是維度。為保障整個體系的生命力,數(shù)據(jù)域是需要抽象提煉,并且長期維護(hù)和更新的,但不輕易變動,在劃分?jǐn)?shù)據(jù)域時 既能涵蓋當(dāng)前所有的業(yè)務(wù)需求,又能在新業(yè)務(wù)進(jìn)入時無影響地被包含進(jìn)已有的數(shù)據(jù)域中和擴(kuò)展新的數(shù)據(jù)域。
業(yè)務(wù)過程:如電商業(yè)務(wù)中的下單、支付、退款等都屬于業(yè)務(wù)過程,業(yè)務(wù)過程是一個不可拆分的行為事實,就是企業(yè)活動中的事件。
時間周期:就是統(tǒng)計范圍,如近30天、自然周、截止到當(dāng)天等。
修飾類型:比較好理解的如電商中支付方式,終端類型等。
修飾詞:除了維度意外的限定詞,如電商支付中的微信支付、支付寶支付、網(wǎng)銀支付等。終端類型為安卓、IOS等
原子指標(biāo):不可再拆分的指標(biāo)如支付金額、支付件數(shù)等指標(biāo)
維度:維度是度量的環(huán)境,用來反映業(yè)務(wù)的一類屬性,這類屬性的集合構(gòu)成一個維度,也可以稱為實體對象。如地理維度、時間維度。
維度屬性:隸屬于一個維度,比如時間維度中的年、季、月等內(nèi)容。
派生指標(biāo):原子指標(biāo)+修飾詞+時間周期就組成了一個派生指標(biāo)。
指標(biāo)體系
基礎(chǔ) 原則
- 派生指標(biāo)由原子指標(biāo)、時間周期修飾詞、若干其他修飾詞組合得到。派生指標(biāo) = 原子指標(biāo)+時間周期修飾詞+修飾類型+修飾詞。
- 原子指標(biāo)、修飾類型和修飾詞直接歸屬在業(yè)務(wù)過程下。
- 派生指標(biāo)可以有多個修飾詞,具體由派生指標(biāo)語義決定。
- 派生指標(biāo)歸屬唯一的原子指標(biāo)。
- 原子指標(biāo)由確定的英文字段名、數(shù)據(jù)類型和說明;派生指標(biāo)繼承原子指標(biāo)的一切。
命名約定
-
指標(biāo)命名盡量使用英文簡寫,其次是英文全拼,當(dāng)指標(biāo)英文名過長時,可以考慮使用漢語拼音首字母。
-
存量型指標(biāo)在指標(biāo)名后+stock,比如付費會員數(shù),其對應(yīng)的業(yè)務(wù)過程為mbr_stock。
-
時間周期修飾詞表如下
中文名 英文名 中文名 英文名 最近1天 1d 自然月 cm 最近3天 3d 自然季度 cq 最近7天 1w 截至當(dāng)日 td 最近14天 2w 年初截至當(dāng)日 sd 最近30天 1m 零點截至當(dāng)前 tt 最近60天 2m 財年 fy 最近90天 3m 最近1小時 1h 最近180天 6m 準(zhǔn)實時 ts 180天以前 bh 未來7天 f1w 自然周 cw 未來4周 f4w 操作細(xì)則
-
派生指標(biāo)的種類
派生指標(biāo)可以分為三類:事務(wù)型指標(biāo)、存量型指標(biāo)和復(fù)合型指標(biāo)。
-
事務(wù)型指標(biāo)
是指對業(yè)務(wù)活動進(jìn)行衡量的指標(biāo)。例如新發(fā)商品數(shù)、重發(fā)商品數(shù)、新增注冊會員數(shù)。這類指標(biāo)需維護(hù)原子指標(biāo)及修飾詞。
-
存量型指標(biāo)
是指對實體對象某種狀態(tài)的統(tǒng)計。例如商品總數(shù)、注冊會員總數(shù)。這類指標(biāo)需維護(hù)原子指標(biāo)及修飾詞,在此基礎(chǔ)上創(chuàng)建派生指標(biāo)。
-
復(fù)合型指標(biāo)
是指事務(wù)型指標(biāo)和存量型指標(biāo)的基礎(chǔ)上復(fù)合而成的。
比率型:轉(zhuǎn)換率、滿意度。例如瀏覽UV-下單購買UV轉(zhuǎn)換率。
比例型:百分比、占比。例如最近1天無線支付金額占比。
變化量型:例如最近1天營收上1天變化量。
變化率型:例如最近7天營收上7天變化率。
統(tǒng)計型:均值,分位數(shù)。例如自然月日均UV。
排名型:指標(biāo)名上聲明統(tǒng)計方法、名詞、范圍、語義。例如機(jī)械行業(yè)成交量降序TOP5。
對象集合型:可以將一些對象以KV對的方式存儲在字段中方便前端展示。
-
模型設(shè)計
OneData方法論將表數(shù)據(jù)模型分為三層,即操作數(shù)據(jù)層(ODS),公共維度模型層(CDM)和應(yīng)用數(shù)據(jù)層(ADS)。其中CDM包含明細(xì)數(shù)據(jù)層(DWD)和匯總數(shù)據(jù)層(DWS)。
ODS
將業(yè)務(wù)系統(tǒng)數(shù)據(jù)無處理的存放在ODS層中。
DWD
采用維度模型方法作為理論基礎(chǔ),將維度退化至事實表中,減少事實表和維度表的關(guān)聯(lián)。
DWS
加強(qiáng)指標(biāo)的維度退化,采用更多的寬表化手段構(gòu)建DWS層。一般對外數(shù)據(jù)服務(wù)由DWS層提供。
ADS
存放數(shù)據(jù)產(chǎn)品個性化的統(tǒng)計指標(biāo)數(shù)據(jù)。一般ADS層不直接對外提供數(shù)據(jù)服務(wù)。
實施過程
指導(dǎo)方針
首先,在建設(shè)大數(shù)據(jù)數(shù)據(jù)倉庫時,要進(jìn)行充分的業(yè)務(wù)調(diào)研和需求分析,這是數(shù)據(jù)倉庫建設(shè)的基石,業(yè)務(wù)調(diào)研和需求分析做得是否充分直接決定了數(shù)據(jù)倉庫建設(shè)是否成功。
其次,進(jìn)行數(shù)據(jù)總體架構(gòu)設(shè)計,主要是根據(jù)數(shù)據(jù)域?qū)?shù)據(jù)進(jìn)行劃分;按照維度建模理論,構(gòu)建總線矩陣、抽象出業(yè)務(wù)過程和維度。
再次,對報表需求進(jìn)行抽象整理出相關(guān)指標(biāo)體系,使用 OneData 工具完成指標(biāo)規(guī)范定義和模型設(shè)計。最后,就是代碼研發(fā)和運維。
實施工作流
-
數(shù)據(jù)調(diào)研
-
業(yè)務(wù)調(diào)研
首先了解項目建設(shè)范圍中的各個業(yè)務(wù)領(lǐng)域、業(yè)務(wù)線的業(yè)務(wù)有什么共同點和不同點,以及各個業(yè)務(wù)線可以細(xì)分為哪幾個業(yè)務(wù)模塊,每個業(yè)務(wù)模塊的業(yè)務(wù)流程又是怎么樣的。
比如下面三個電商業(yè)務(wù)線中,處理供應(yīng)鏈管理模塊不同外,其他幾乎一樣。
-
需求調(diào)研
需求調(diào)研的途徑有兩種:第一種是根據(jù)分析師、業(yè)務(wù)運營人員的溝通;二是對報表系統(tǒng)中現(xiàn)有報表進(jìn)行研究分析。
比如我們要建設(shè)一個某行業(yè)的成交金額,首先要分析根據(jù)什么維度匯總,以及要匯總什么度量,明細(xì)層和匯總層怎么設(shè)計,是一個公用的數(shù)據(jù)嗎?是需要沉淀到匯總表里面還是在外部報表工具中匯總。
-
-
架構(gòu)設(shè)計
-
數(shù)據(jù)域劃分
數(shù)據(jù)域是指面向業(yè)務(wù)分析,將業(yè)務(wù)過程或者維度進(jìn)行抽象的集合。業(yè)務(wù)過程可以概括為一個個不可拆分的行為事件。數(shù)據(jù)域是一個長期維護(hù)和更新,但是不輕易變動。
對業(yè)務(wù)過程進(jìn)行歸納抽象后得到的數(shù)據(jù)域。
-
構(gòu)建總線矩陣
總線矩陣需要明確每個數(shù)據(jù)域下有哪些業(yè)務(wù)過程;業(yè)務(wù)過程與那些維度相關(guān)。
-
-
規(guī)范設(shè)計
規(guī)范定義主要定義指標(biāo)體系,包含原子指標(biāo)、修飾詞、時間周期和派生指標(biāo)。
-
模型設(shè)計
模型設(shè)計主要包括維度及屬性的規(guī)范定義,相關(guān)表的模型設(shè)計。
-
總結(jié)文章來源:http://www.zghlxwxcb.cn/news/detail-446418.html
OneData的實施過程是一個高度迭代和動態(tài)的過程,一般采用螺旋式實施方法。文章來源地址http://www.zghlxwxcb.cn/news/detail-446418.html
到了這里,關(guān)于OneData方法論-概述的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!