從基本需求和數據需求兩方面介紹對數據倉庫系統(tǒng)的整體要求。
一. 基本需求
1. 安全性
數據倉庫中含有機密和敏感的數據。為了能夠使用這些數據,必須有適當的授權機制。這意味著只有被授權的用戶才能訪問數據,這些用戶在享有特權的同時,也有責任保證數據的安全。
增加安全特性會影響到數據倉庫的性能,因此必須提早考慮數據倉庫的安全需求。當數據倉庫已經建立完成并開始使用后,此時再應用安全特性會比較困難。
在數據倉庫的設計階段,我們就應該進行如下的安全性考慮:
- 數據倉庫中的數據對于最終用戶是只讀的,任何人都不能修改其中的數據,這是由數據的非易失性所決定的。
- 劃分數據的安全等級,如公開的、機密、秘密、絕密等。
- 制定訪問控制方案,決定哪些用戶可以訪問哪些數據。
- 設計授予、回收、變更用戶訪問權限的方法。
- 添加對數據訪問的審計功能。
?
2. 可訪問性
用戶能夠有效地查找、理解和使用數據。數據應該是隨時可訪問的。這里數據可訪問性指的是用戶訪問和檢索數據的能力。
數據倉庫的最終用戶通常是業(yè)務人員、管理人員或者數據分析師。他們對組織內的相關業(yè)務非常熟悉,對數據的理解也很透徹,但是他們大都不是IT技術專家。
這就要求我們在設計數據倉庫的時候,將用戶接口設計得盡量友好和簡單,使得沒有技術背景的用戶同樣可以輕易查詢到他們需要的數據。
?
3. 自動化
這里的自動化有狹義和廣義兩個層面的理解。
- 狹義的自動化指的是數據倉庫相關作業(yè)的自動執(zhí)行。比如ETL過程、報表生成、數據傳輸等處理,都可以周期性定時自動完成。
- 廣義的數據倉庫自動化指的是在保證數據質量和數據一致性的前提下,加速數據倉庫系統(tǒng)開發(fā)周期的過程。整個數據倉庫生命周期的自動化,從對源系統(tǒng)分析到ETL,再到數據倉庫的建立、測試和文檔化,可以幫助加快產品化進程,降低開發(fā)和管理成本,提高數據質量。
?
?
三. 數據需求
通過數據倉庫,既可以周期性地回答已知的問題(如報表等),也可以進行即席查詢(ad-hoc queries)。
- 報表最基本的需求就是對預定義好的一系列查詢條件、查詢內容,排序條件等進行組合,查詢數據,把結果用表格或圖形的形式展現(xiàn)出來。
- 所謂的即席查詢不是預定義好的,而是在執(zhí)行時才確定的。
數據庫管理員使用命令行或客戶端軟件,連接數據庫系統(tǒng)執(zhí)行各種各樣的查詢語句,是最為常見的一種即席查詢方式。而理想的數據倉庫系統(tǒng),允許業(yè)務或分析人員也可以通過系統(tǒng)執(zhí)行這樣的自定義查詢。為了滿足需求,數據倉庫中的數據需要確保準確性、時效性和歷史可追溯性。
1. 準確性
想要數據倉庫實施成功,業(yè)務用戶必須信任其中的數據。這就意味著他們應該能知道數據從哪來,何時抽取,怎么轉換的。更重要的是,他們需要訪問原始數據來確定如何解決數據差異問題。
實際上ETL過程應該總是在數據倉庫的某個地方(如ODS)保留一份原始數據的復制。
?
2.時效性
用戶的時效性要求差異很大。有些用戶需要數據精確到毫秒級,而有些用戶只需要幾分鐘、幾小時甚至幾天前的數據就可以了。
數據倉庫是分析型系統(tǒng),用于決策支持,所以實踐中一般不需要很強的實時性,以一天作為時間粒度是比較常見的。
?
3.歷史可追溯性
數據倉庫更多的價值體現(xiàn)在它能夠輔助隨時間變化的趨勢分析,并幫助理解業(yè)務事件(如特殊節(jié)日促銷等)與經營績效之間的關系。文章來源:http://www.zghlxwxcb.cn/news/detail-699874.html
?
?
參考:《Hadoop構建數據倉庫實戰(zhàn)》文章來源地址http://www.zghlxwxcb.cn/news/detail-699874.html
到了這里,關于【數據倉庫基礎(四)】數據倉庫需求:基本需求和數據需求的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!