作者:禪與計算機程序設(shè)計藝術(shù)
1.簡介
互聯(lián)網(wǎng)公司在實現(xiàn)業(yè)務(wù)需求時,一般會選擇一種數(shù)據(jù)源作為基礎(chǔ)數(shù)據(jù),在數(shù)據(jù)處理過程需要對基礎(chǔ)數(shù)據(jù)進行清洗、計算等加工操作。這些處理后的結(jié)果可以提供給公司內(nèi)部各個部門、業(yè)務(wù)線使用,同時也方便了公司將數(shù)據(jù)用于分析報表或做決策,提高效率。但隨著互聯(lián)網(wǎng)平臺規(guī)模的擴大,單一的基礎(chǔ)數(shù)據(jù)可能無法滿足需求,于是,多種異構(gòu)數(shù)據(jù)源便產(chǎn)生了。那么如何從多個異構(gòu)數(shù)據(jù)源中獲取統(tǒng)一的數(shù)據(jù),將其轉(zhuǎn)換成公司需要的格式并存儲起來呢?這個問題就需要數(shù)據(jù)倉庫(Data Warehouse)的作用來解決。
數(shù)據(jù)倉庫又稱為企業(yè)數(shù)據(jù)中心,主要功能是集中存儲、整合和分析企業(yè)所需的各種信息,包括來自內(nèi)部交易系統(tǒng)、客戶關(guān)系管理系統(tǒng)、ERP、CRM等業(yè)務(wù)系統(tǒng)的信息。數(shù)據(jù)倉庫的價值不僅在于分析出更加有意義的業(yè)務(wù)數(shù)據(jù),而且能夠減少信息重復(fù)建設(shè)、提升企業(yè)整體競爭力。除此之外,數(shù)據(jù)倉庫還為分析人員提供了方便快捷的分析工具、優(yōu)化查詢方式,且能夠有效降低數(shù)據(jù)的安全風(fēng)險。因此,數(shù)據(jù)倉庫應(yīng)用廣泛,對數(shù)據(jù)質(zhì)量、數(shù)據(jù)的安全性、數(shù)據(jù)的可用性及數(shù)據(jù)的使用效率都有非常重要的影響。
通常來說,數(shù)據(jù)倉庫是一個獨立的系統(tǒng),它由結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)源匯總而來,再經(jīng)過清洗、轉(zhuǎn)換、重組、聚合等過程,形成企業(yè)最易操作的結(jié)構(gòu)化數(shù)據(jù)。然而,由于眾多不同公司或組織擁有自己的IT系統(tǒng)和數(shù)據(jù)庫,使得構(gòu)建數(shù)據(jù)倉庫變得異常復(fù)雜。為了解決這個難題,出現(xiàn)了許多開源的工具或商業(yè)軟件解決方案,例如:文章來源:http://www.zghlxwxcb.cn/news/detail-648354.html
- Google BigQuery
- Apache Hive
- Pentaho Data Integration (DGI)
本文將主要介紹在這些開源的工具或商業(yè)軟件的基礎(chǔ)上建立數(shù)據(jù)倉庫的方式&文章來源地址http://www.zghlxwxcb.cn/news/detail-648354.html
到了這里,關(guān)于解析OpenDataPlatform的數(shù)據(jù)倉庫:如何確保數(shù)據(jù)的準(zhǔn)確性和可靠性?的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!