一. 數(shù)據(jù)倉庫的概念
數(shù)據(jù)倉庫的主要作用:
數(shù)據(jù)倉庫概念主要是解決多重數(shù)據(jù)復(fù)制帶來的高成本問題。
在沒有數(shù)據(jù)倉庫的時代,需要大量的冗余數(shù)據(jù)來支撐多個決策支持環(huán)境。盡管每個環(huán)境服務(wù)于不同的用戶,但這些環(huán)境經(jīng)常需要大量相同的數(shù)據(jù)。
數(shù)據(jù)倉庫的概念:
數(shù)據(jù)倉庫描述為一個面向主題的、集成的、隨時間變化的、非易失的數(shù)據(jù)集合,用于支持管理者的決策過程。
?
1. 面向主題
傳統(tǒng)數(shù)據(jù)庫圍繞產(chǎn)品功能進行組織建設(shè),而數(shù)據(jù)倉庫是面向主題的。主題是一個抽象概念,每一個主題基本對應(yīng)一個宏觀的分析領(lǐng)域。
例如,一個公司要分析銷售數(shù)據(jù),就可以建立一個專注于銷售的數(shù)據(jù)倉庫,使用這個數(shù)據(jù)倉庫,就可以回答類似于“去年誰是我們這款產(chǎn)品的最佳用戶”這樣的問題。
主題域的概念:主題域是主題的邊界,如客戶、銷售、產(chǎn)品都是主題域的例子。
?
2. 集成
集成的概念與面向主題是密切相關(guān)的。
還是銷售的例子,公司有各個銷售的產(chǎn)品線,每個產(chǎn)品線都有自己的數(shù)據(jù)庫,此時要整體分析銷售數(shù)據(jù),那需要將這些分散的數(shù)據(jù)進行統(tǒng)一,比如數(shù)據(jù)倉庫必須要解決的問題是產(chǎn)品命名沖突、計量單位不一致等。
當(dāng)完成了全公司各銷售產(chǎn)線的數(shù)據(jù)整合工作后,該數(shù)據(jù)倉庫就可稱為是集成的。
?
3. 隨時間變化
聯(lián)機事務(wù)強調(diào)的是處理數(shù)據(jù)的時效性:
聯(lián)機事務(wù)處理反應(yīng)的是當(dāng)前時間點的數(shù)據(jù)情況,要求高性能、高并發(fā)和極短的響應(yīng)時間,出于這樣的需求考慮,聯(lián)機事務(wù)處理系統(tǒng)中一般都將數(shù)據(jù)依照活躍程度分級,把歷史數(shù)據(jù)遷移到歸檔數(shù)據(jù)庫中。
?
olap強調(diào)的是數(shù)據(jù)隨時間是怎么變化的:
數(shù)據(jù)倉庫關(guān)注的是數(shù)據(jù)隨時間變化的情況,并且能反映在過去某個時間點的數(shù)據(jù)是怎樣的。換句話說,數(shù)據(jù)倉庫中的數(shù)據(jù)是反映了某一歷史時間點的數(shù)據(jù)快照,這也就是術(shù)語“隨時間變化”的含義。
當(dāng)然數(shù)據(jù)在數(shù)據(jù)倉庫中也有自己的生命周期。到了一定時候,數(shù)據(jù)會從數(shù)據(jù)倉庫中移除。移除的方式可能是將細(xì)節(jié)數(shù)據(jù)匯總后刪除、將老的數(shù)據(jù)轉(zhuǎn)儲到大容量介質(zhì)后刪除和直接物理刪除等。
?
4. 非易失
數(shù)據(jù)入倉后就不能改變,這樣保證了隨時間變化(保留了數(shù)據(jù)變化的歷史軌跡)
非易失指的是,一旦進入到數(shù)據(jù)倉庫中,數(shù)據(jù)就不應(yīng)該再有改變。
操作型環(huán)境中的數(shù)據(jù)一般都會頻繁更新,而在數(shù)據(jù)倉庫環(huán)境中一般并不進行數(shù)據(jù)更新。
當(dāng)改變的操作型數(shù)據(jù)進入數(shù)據(jù)倉庫時會產(chǎn)生新的記錄,這樣就保留了數(shù)據(jù)變化的歷史軌跡。
粒度
粒度是指數(shù)據(jù)的細(xì)節(jié)或匯總程度,細(xì)節(jié)程度越高,粒度級別越低。
例如,單個事務(wù)是低粒度級別,而全部一個月事務(wù)的匯總就是高粒度級別。
數(shù)據(jù)的粒度影響了數(shù)據(jù)倉庫的數(shù)據(jù)量,和可以進行查詢的類型
在早期的操作型系統(tǒng)中,當(dāng)細(xì)節(jié)數(shù)據(jù)被更新時,幾乎總是將其存放在最低粒度級別上;而在數(shù)據(jù)倉庫環(huán)境中,通常都不這樣做。例如,如果數(shù)據(jù)被裝載進數(shù)據(jù)倉庫的頻率是每天一次,那么一天之內(nèi)的數(shù)據(jù)更新將被忽略。
或者這樣說:
會在一天的某一刻加載完這天的數(shù)據(jù),之后這天數(shù)據(jù)再發(fā)生改變,也不會進行更新(ing)。
?
?
二. 建立數(shù)據(jù)倉庫的原因
數(shù)據(jù)倉庫里的數(shù)據(jù)從哪里來,怎么使用在倉庫里的數(shù)據(jù) ?
數(shù)據(jù)源:
通常數(shù)據(jù)倉庫的數(shù)據(jù)來自各個業(yè)務(wù)應(yīng)用系統(tǒng)。業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)形式多種多樣,可能是Oracle、MySQL、SQL Server等關(guān)系數(shù)據(jù)庫里的結(jié)構(gòu)化數(shù)據(jù),可能是文本、CSV等平面文件或Word、Excel文檔中的非結(jié)構(gòu)化數(shù)據(jù),還可能是HTML、XML等自描述的半結(jié)構(gòu)化數(shù)據(jù)。
?
入庫:
這些業(yè)務(wù)數(shù)據(jù)經(jīng)過一系列的數(shù)據(jù)抽取、轉(zhuǎn)換、清洗,最終以一種統(tǒng)一的格式裝載進數(shù)據(jù)倉庫。
?
分析:
數(shù)據(jù)倉庫里的數(shù)據(jù)作為分析用的數(shù)據(jù)源,提供給后面的即席查詢、分析系統(tǒng)、數(shù)據(jù)集市、報表系統(tǒng)、數(shù)據(jù)挖掘系統(tǒng)等。
?
直接訪問業(yè)務(wù)系統(tǒng)無法工作的原因:
● 某些業(yè)務(wù)數(shù)據(jù)由于安全或其他因素不能直接訪問。
● 業(yè)務(wù)系統(tǒng)的版本變更很頻繁,每次變更都需要重寫分析系統(tǒng)并重新測試。
● 很難建立和維護匯總數(shù)據(jù)來源于多個業(yè)務(wù)系統(tǒng)版本的報表。
● 業(yè)務(wù)系統(tǒng)的列名通常是硬編碼,有時僅僅是無意義的字符串,這讓編寫分析系統(tǒng)更加困難。
● 業(yè)務(wù)系統(tǒng)的數(shù)據(jù)格式,如日期、數(shù)字的格式不統(tǒng)一。
● 業(yè)務(wù)系統(tǒng)的表結(jié)構(gòu)為事務(wù)處理性能而優(yōu)化,有時并不適合查詢與分析。
● 沒有適當(dāng)?shù)姆绞綄⒂袃r值的數(shù)據(jù)合并進特定應(yīng)用的數(shù)據(jù)庫。
● 沒有適當(dāng)?shù)奈恢么鎯υ獢?shù)據(jù)。
● 用戶需要看到的顯示數(shù)據(jù)字段,有時在數(shù)據(jù)庫中并不存在。
● 通常事務(wù)處理的優(yōu)先級比分析系統(tǒng)高,所以如果分析系統(tǒng)和事務(wù)處理運行在同一硬件之上,分析系統(tǒng)往往性能很差。
● 有誤用業(yè)務(wù)數(shù)據(jù)的風(fēng)險。
● 極有可能影響業(yè)務(wù)系統(tǒng)的性能。
盡管需要增加軟硬件的投入,但建立獨立數(shù)據(jù)倉庫與直接訪問業(yè)務(wù)數(shù)據(jù)相比,無論是成本還是帶來的好處,這樣做都是值得的。
?
是否值得投入創(chuàng)建數(shù)據(jù)倉庫
我們從時間、成本、功能等幾個角度分析
當(dāng)你的組織很小,人數(shù)很少,業(yè)務(wù)單一,數(shù)據(jù)量也不大,可能你真的不需要建立數(shù)據(jù)倉庫。畢竟要想成功建立一個數(shù)據(jù)倉庫并使其發(fā)揮應(yīng)有的作用還是很有難度的,需要大量的人、財、物力,并且即便花費很大的代價完成了數(shù)據(jù)倉庫的建設(shè),在較短一段時間內(nèi)也不易顯現(xiàn)出價值。
當(dāng)你所在的組織有超過1000名雇員,有幾十個部門的時候,它所面臨的挑戰(zhàn)將是完全不同的。要做出最恰當(dāng)?shù)臎Q策,僅依據(jù)對孤立維度的分析是不可能實現(xiàn)的。這時必須要考慮所有相關(guān)數(shù)據(jù)的可用性,而這個數(shù)據(jù)最好的來源就是一個設(shè)計良好的數(shù)據(jù)倉庫。
例子:
假設(shè)一個超市連鎖企業(yè),在沒有實現(xiàn)數(shù)據(jù)倉庫的情況下,最終該企業(yè)會發(fā)現(xiàn),要分析商品銷售情況是非常困難的,比如哪些商品被售出,哪些沒有被售出,什么時間銷量上升,哪個年齡組的客戶傾向于購買哪些特定商品等這些問題都無從回答。
?
在輔助戰(zhàn)略決策層面,數(shù)據(jù)倉庫的重要性更加凸顯
下面是一些常見問題的例子:
● 如何把公司的市場份額提升5%?
● 哪些產(chǎn)品的市場表現(xiàn)不令人滿意?
● 哪些代理商需要銷售政策的幫助?
● 提供給客戶的服務(wù)質(zhì)量如何?哪些需要改進?
回答這些戰(zhàn)略性問題的關(guān)鍵一環(huán)就是數(shù)據(jù)倉庫。
比如第一個問題:在過去半年中,收到過多少用戶反饋?可以在數(shù)據(jù)倉庫上發(fā)出對應(yīng)的查詢,并對查詢結(jié)果進行分析。
第二個問題:在這些用戶反饋當(dāng)中,給出“非常滿意”“一般”“不滿意”的人數(shù)分別有多少?
第三個問題:客戶所強調(diào)的需要改進的地方和廣受批評的地方是哪些?這在數(shù)據(jù)倉庫的用戶反饋信息中也有一列來表示,它也能從一個側(cè)面反映出客戶關(guān)心的問題是哪些。
以上這三個問題的答案聯(lián)合在一起,就可以得出客戶服務(wù)滿意度的結(jié)論,并且準(zhǔn)確定位哪些地方急需改進。
?
?
三. 使用數(shù)據(jù)倉庫的好處
● 將多個數(shù)據(jù)源集成到單一數(shù)據(jù)存儲,因此可以使用單一數(shù)據(jù)查詢引擎展示數(shù)據(jù)。
● 緩解在事務(wù)處理數(shù)據(jù)庫上因執(zhí)行大查詢而產(chǎn)生的資源競爭問題。
● 通過對多個源系統(tǒng)的數(shù)據(jù)整合,使得在整個企業(yè)的角度存在統(tǒng)一的中心視圖。
● 通過提供一致的編碼和描述,減少或修正壞數(shù)據(jù)問題,提高數(shù)據(jù)質(zhì)量。
● 一致性地表示組織信息。
● 提供所有數(shù)據(jù)的單一通用數(shù)據(jù)模型,而不用關(guān)心數(shù)據(jù)源。
● 重構(gòu)數(shù)據(jù),使數(shù)據(jù)對業(yè)務(wù)用戶更有意義。
● 向復(fù)雜分析查詢交付優(yōu)秀的查詢性能,同時不影響操作型系統(tǒng)。
● 開發(fā)決策型查詢更簡單。文章來源:http://www.zghlxwxcb.cn/news/detail-693575.html
參考:
《Hadoop構(gòu)建數(shù)據(jù)倉庫實戰(zhàn)》文章來源地址http://www.zghlxwxcb.cn/news/detail-693575.html
到了這里,關(guān)于【數(shù)倉基礎(chǔ)(一)】基礎(chǔ)概念:數(shù)據(jù)倉庫【用于決策的數(shù)據(jù)集合】的概念、建立數(shù)據(jù)倉庫的原因與好處的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!