建設(shè)企業(yè)級(jí)數(shù)據(jù)平臺(tái),首先需要了解企業(yè)數(shù)據(jù),確認(rèn)管理需求,并選擇一個(gè)數(shù)據(jù)管理架構(gòu)。那么面對(duì)紛繁復(fù)雜的數(shù)據(jù)來源,多元化的數(shù)據(jù)結(jié)構(gòu),以及他們的管理使用需求,企業(yè)數(shù)據(jù)平臺(tái)建設(shè)該從何處入手呢?哪個(gè)數(shù)據(jù)管理架構(gòu)適合自己的企業(yè)呢?本篇將介紹數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市、數(shù)據(jù)湖。
—?數(shù)據(jù)倉(cāng)庫(kù)(Data?Warehouse)—
數(shù)據(jù)倉(cāng)庫(kù)是Bill Inmon在1991年出版的“Building the Data Warehouse”一書中所提出的定義被廣泛接受:數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)是一個(gè)面向主題的(Subject Oriented)、集成的(Integrated)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策(Decision Making Support)。
數(shù)據(jù)倉(cāng)庫(kù)是企業(yè)的統(tǒng)一的數(shù)據(jù)管理方式,將不同應(yīng)用中的數(shù)據(jù)匯聚,然后對(duì)這些數(shù)據(jù)加工和多維度分析,并最終展現(xiàn)給用戶。它幫助企業(yè)將紛繁浩雜的數(shù)據(jù)整合加工,并最終轉(zhuǎn)換為關(guān)鍵流程上的KPI,從而為決策/管理等提供最準(zhǔn)確的支持,并幫助預(yù)測(cè)發(fā)展趨勢(shì)。因此,數(shù)據(jù)倉(cāng)庫(kù)是企業(yè)IT中非常核心的系統(tǒng)。
根據(jù)企業(yè)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的主要應(yīng)用場(chǎng)景不同,我們可以將數(shù)據(jù)倉(cāng)庫(kù)分為以下兩種類型,每一種類型的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)都有不同的技術(shù)指標(biāo)與要求。
-
企業(yè)數(shù)據(jù)倉(cāng)庫(kù)
企業(yè)會(huì)把數(shù)據(jù)分成內(nèi)部數(shù)據(jù)和外部數(shù)據(jù),內(nèi)部數(shù)據(jù)通常分為兩類,OLTP交易系統(tǒng)以及OLAP分析系統(tǒng)數(shù)據(jù),他們會(huì)把這些數(shù)據(jù)全部集中起來,經(jīng)過轉(zhuǎn)換放到數(shù)據(jù)庫(kù)當(dāng)中,這些數(shù)據(jù)庫(kù)通常是Teradata、Oracle、DB2數(shù)據(jù)庫(kù)等。然后在這上面進(jìn)行數(shù)據(jù)的加工,建立各種主題模型,再提供報(bào)表分析業(yè)務(wù)。一般來說,數(shù)據(jù)的處理和加工是通過離線的批處理來完成的,通過各種應(yīng)用模型實(shí)現(xiàn)具體的報(bào)表加工。
?
-
實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)
隨著業(yè)務(wù)的發(fā)展,一些企業(yè)客戶需要對(duì)一些實(shí)時(shí)的數(shù)據(jù)做一些商業(yè)分析,譬如零售行業(yè)需要根據(jù)實(shí)時(shí)的銷售數(shù)據(jù)來調(diào)整庫(kù)存和生產(chǎn)計(jì)劃,風(fēng)電企業(yè)需要處理實(shí)時(shí)的傳感器數(shù)據(jù)來排查故障以保障電力的生產(chǎn)等。這類行業(yè)用戶對(duì)數(shù)據(jù)的實(shí)時(shí)性要求很高,傳統(tǒng)的離線批處理的方式不能滿足需求,因此他們需要構(gòu)建實(shí)時(shí)處理的數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)可以通過各種方式完成采集,然后數(shù)據(jù)倉(cāng)庫(kù)可以在指定的時(shí)間窗口內(nèi)對(duì)數(shù)據(jù)進(jìn)行處理,事件觸發(fā)和統(tǒng)計(jì)分析等工作,再將數(shù)據(jù)存入數(shù)據(jù)倉(cāng)庫(kù)以滿足其他一些其他業(yè)務(wù)的需求。因此,實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)增強(qiáng)了對(duì)實(shí)時(shí)性數(shù)據(jù)的處理能力要求,核心的計(jì)算引擎需要基于實(shí)時(shí)計(jì)算平臺(tái),如開源的Flink或星環(huán)科技自研的Slipstream,通過實(shí)時(shí)引擎來對(duì)接機(jī)器學(xué)習(xí)、可視化分析和實(shí)時(shí)調(diào)度類應(yīng)用。
—?數(shù)據(jù)集市(Data?Mart)—
數(shù)據(jù)集市是一個(gè)有針對(duì)性的數(shù)據(jù)倉(cāng)庫(kù)版本,它包含一個(gè)較小的數(shù)據(jù)子集,這些數(shù)據(jù)對(duì)組織內(nèi)的單個(gè)團(tuán)隊(duì)或選定用戶組很重要且是必需的。由于數(shù)據(jù)集市包含較小的數(shù)據(jù)子集,因此在使用更廣泛的數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)集時(shí),數(shù)據(jù)集市使部門或業(yè)務(wù)線能夠更快地發(fā)現(xiàn)更有針對(duì)性的洞察。最初創(chuàng)建數(shù)據(jù)集市的目的是應(yīng)對(duì)組織在20世紀(jì)90年代建立數(shù)據(jù)倉(cāng)庫(kù)的困難。當(dāng)時(shí)集成來自整個(gè)組織的數(shù)據(jù)需要進(jìn)行大量手動(dòng)編碼,而且非常耗時(shí)。與集中式數(shù)據(jù)倉(cāng)庫(kù)相比,數(shù)據(jù)集市的范圍更有限,使其實(shí)現(xiàn)起來更容易且更快速。到了大數(shù)據(jù)時(shí)代,雖然企業(yè)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖在各個(gè)企業(yè)都已經(jīng)普及,但是每個(gè)部門自身也有對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行處理分析統(tǒng)計(jì)的需求,而且不涉及到和其他數(shù)據(jù)交互,因此特定的部門不希望在數(shù)據(jù)量大的數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行操作(因?yàn)椴僮髀?,而且可能影響到其他人處理?shù)據(jù)),所以建立一個(gè)新的存儲(chǔ)系統(tǒng),把數(shù)據(jù)倉(cāng)庫(kù)里關(guān)聯(lián)自己的數(shù)據(jù)存儲(chǔ)到這個(gè)系統(tǒng),本質(zhì)上算是數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)子集。這個(gè)系統(tǒng)叫做數(shù)據(jù)集市。
相比較數(shù)據(jù)倉(cāng)庫(kù),由于數(shù)據(jù)集市涉及的數(shù)據(jù)源集中于某個(gè)部門或者業(yè)務(wù)線的主體,因此其處理的數(shù)據(jù)會(huì)小很多,業(yè)務(wù)構(gòu)建比較敏捷,對(duì)用戶需求的響應(yīng)也會(huì)更加迅速。對(duì)集市的用戶來說,由于僅開放給某個(gè)部門或業(yè)務(wù)主體,其對(duì)多租戶隔離的需求也不是很強(qiáng),用戶可以更加簡(jiǎn)單方便的獲取數(shù)據(jù),可以簡(jiǎn)單的通過數(shù)據(jù)報(bào)表工具或Excel等工具來做數(shù)據(jù)分析,因此對(duì)基礎(chǔ)設(shè)施的依賴就相對(duì)比較低,建設(shè)成本也相對(duì)更低。此外,對(duì)集市的實(shí)施人員來說,涉及到要加工處理的數(shù)據(jù)比較少,數(shù)據(jù)加工時(shí)間會(huì)短很多,安全管理的要求也比較低,因此建設(shè)和運(yùn)維相對(duì)更低??傮w上說,因?yàn)閿?shù)據(jù)集市都是集中在某個(gè)單一的業(yè)務(wù)領(lǐng)域,對(duì)實(shí)施人員和業(yè)務(wù)用戶來說都比較敏捷和靈活。
按照集市和數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)庫(kù)的關(guān)系,數(shù)據(jù)集市也可以分為三種類型:
-
獨(dú)立數(shù)據(jù)集市?:?獨(dú)立的數(shù)據(jù)集市系統(tǒng),不依賴數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)湖,一般直接從數(shù)據(jù)源系統(tǒng)加載必要的數(shù)據(jù)做加工后按照業(yè)務(wù)主體提供業(yè)務(wù)分析結(jié)果;
?
-
?關(guān)聯(lián)數(shù)據(jù)集市:?是數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)湖的一個(gè)部分,一般對(duì)應(yīng)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)集市層,相關(guān)的數(shù)據(jù)加工處理由數(shù)據(jù)倉(cāng)庫(kù)的批處理任務(wù)完成;
?
-
混合數(shù)據(jù)集市:?主題數(shù)據(jù)的來源包括了數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖,也包括了其他的數(shù)據(jù)庫(kù)。這種集市的好處是既能包含企業(yè)自頂而下設(shè)計(jì)的從數(shù)據(jù)倉(cāng)庫(kù)中加工而來的業(yè)務(wù)主題數(shù)據(jù),又能滿足自下而上的一線分析師的靈活提出的業(yè)務(wù)需求。
?數(shù)據(jù)集市的底層一般是一個(gè)獨(dú)立的數(shù)據(jù)庫(kù),并且一般提供高并發(fā)的統(tǒng)計(jì)分析和檢索服務(wù),因此對(duì)數(shù)據(jù)庫(kù)的并發(fā)計(jì)算性能要求比較高。為了保證數(shù)據(jù)集市的并發(fā)性能,關(guān)鍵技術(shù)包括這兩種:一是數(shù)據(jù)庫(kù)層采用支持高并發(fā)訪問的分布式數(shù)據(jù)庫(kù)來支撐,二是采用OLAP Cube技術(shù)。
分布式數(shù)據(jù)庫(kù)由于其可擴(kuò)展性能的優(yōu)勢(shì),能夠支撐更高并發(fā)的連接訪問,并且分布式計(jì)算引擎的統(tǒng)計(jì)分析SQL的性能更強(qiáng),還可以通過增加硬件資源來擴(kuò)展性能,因此針對(duì)一些用戶規(guī)模較大、或者BI報(bào)表涉及的報(bào)表計(jì)算非常復(fù)雜的部門或業(yè)務(wù)線,可以采用分布式數(shù)據(jù)庫(kù)。
OLAP Cube技術(shù)是將一些數(shù)據(jù)建模結(jié)果預(yù)先計(jì)算出來,這樣分析人員使用數(shù)據(jù)的時(shí)候就可以靈活的做各種深入分析,如數(shù)據(jù)下鉆、切片等,就可以通過預(yù)計(jì)算的數(shù)據(jù)來訪問,而無需去查詢底層數(shù)據(jù)庫(kù)或重新計(jì)算數(shù)據(jù),因此如果訪問數(shù)據(jù)能夠命中Cube,業(yè)務(wù)的并發(fā)訪問性能將得到極大的提升。OLAP Cube本身是采用空間換時(shí)間的優(yōu)化策略,它需要用戶來指定預(yù)計(jì)算的schema,此外Cube建模工具會(huì)有優(yōu)化方法來減少需要持久化的Cube數(shù)據(jù),從而減少預(yù)計(jì)算需要的處理時(shí)間和存儲(chǔ)空間。OLAP Cube技術(shù)根據(jù)其持久化數(shù)據(jù)的方式又分為ROLAP和MOLAP,簡(jiǎn)單理解ROLAP是將建模的Cube數(shù)據(jù)持久化在數(shù)據(jù)庫(kù)中,而MOLAP一般是將Cube數(shù)據(jù)持久化在報(bào)表工具或建模工具中。
—?數(shù)據(jù)湖(Data Lake)—
數(shù)據(jù)湖是一種企業(yè)數(shù)據(jù)架構(gòu)的實(shí)現(xiàn)方式,在物理實(shí)現(xiàn)上是一個(gè)存儲(chǔ)庫(kù),允許用戶以任意規(guī)模存儲(chǔ)所有結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),并支持對(duì)數(shù)據(jù)進(jìn)行快速加工和分析。用戶可以按原樣存儲(chǔ)數(shù)據(jù)(無需先對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理),并運(yùn)行不同類型的分析(從控制面板和可視化到大數(shù)據(jù)處理、實(shí)時(shí)分析和機(jī)器學(xué)習(xí),以指導(dǎo)做出更好的決策。
最初創(chuàng)建數(shù)據(jù)湖的目的是應(yīng)對(duì)數(shù)據(jù)倉(cāng)庫(kù)無法處理數(shù)量、速度和種類不斷增加的大數(shù)據(jù)的情況。雖然數(shù)據(jù)湖比數(shù)據(jù)倉(cāng)庫(kù)慢,但它們的價(jià)格也更低廉,因?yàn)樵诓杉皫缀醪恍枰獢?shù)據(jù)準(zhǔn)備。與數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市不同的是,數(shù)據(jù)湖上存儲(chǔ)原始數(shù)據(jù),通常為PB級(jí)別,一般沒有復(fù)雜的業(yè)務(wù)建模,主要做一些基礎(chǔ)的數(shù)據(jù)治理或者基礎(chǔ)性的模型建設(shè)工作,更多的為企業(yè)內(nèi)部提供一個(gè)公共的數(shù)據(jù)存儲(chǔ)和探索能力,并為下游的集市、倉(cāng)庫(kù)或者中臺(tái)提供數(shù)據(jù)與計(jì)算能力。很多企業(yè)會(huì)同時(shí)建設(shè)數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù),從而保證更好的數(shù)據(jù)架構(gòu)與用戶體驗(yàn)。
數(shù)據(jù)湖支持廣泛的用例,因?yàn)樵谑占瘮?shù)據(jù)時(shí)不需要定義數(shù)據(jù)的業(yè)務(wù)目標(biāo)。數(shù)據(jù)湖可以存儲(chǔ)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),這種靈活的存儲(chǔ)需求對(duì)于數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師和開發(fā)人員尤其有用,讓他們能夠訪問數(shù)據(jù)進(jìn)行數(shù)據(jù)發(fā)現(xiàn)練習(xí)和機(jī)器學(xué)習(xí)項(xiàng)目。數(shù)據(jù)科學(xué)家可以使用數(shù)據(jù)湖進(jìn)行概念驗(yàn)證。機(jī)器學(xué)習(xí)應(yīng)用程序可以從能夠在同一個(gè)地方存儲(chǔ)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中受益,這是使用關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)無法實(shí)現(xiàn)的。數(shù)據(jù)湖也可以用于測(cè)試和開發(fā)大數(shù)據(jù)分析項(xiàng)目。當(dāng)應(yīng)用程序開發(fā)完成并識(shí)別出有用數(shù)據(jù)后,可以將數(shù)據(jù)導(dǎo)出到數(shù)據(jù)倉(cāng)庫(kù)以供操作使用,并且可以利用自動(dòng)化來實(shí)現(xiàn)應(yīng)用程序擴(kuò)展。數(shù)據(jù)湖還可以用于數(shù)據(jù)備份和恢復(fù),因?yàn)樗鼈兡軌?strong>以低成本進(jìn)行擴(kuò)展。數(shù)據(jù)湖非常適合存儲(chǔ)尚未定義業(yè)務(wù)需求的“以備不時(shí)之需”數(shù)據(jù),現(xiàn)在存儲(chǔ)這些數(shù)據(jù)意味著可以在以后出現(xiàn)新計(jì)劃時(shí)使用。
從實(shí)現(xiàn)方式上看,目前Hadoop是最常用的部署數(shù)據(jù)湖的技術(shù),也有采用MPP+Hadoop的混合架構(gòu),近年也有一些基于公有云存儲(chǔ)的數(shù)據(jù)湖方案出現(xiàn)和落地。
為了滿足多樣化的數(shù)據(jù)存儲(chǔ)與分析的需求,在數(shù)據(jù)湖的建設(shè)中,我們需要設(shè)計(jì)確保落地后的數(shù)據(jù)湖具備以下4個(gè)關(guān)鍵能力:
-
數(shù)據(jù)整合能力
數(shù)據(jù)湖需要提供相關(guān)的工具或能力,可以整合包括各種關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),以及從各個(gè)其他渠道(包括互聯(lián)網(wǎng)、內(nèi)部文檔、傳感器)等收集和存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù),并且具備多樣化的數(shù)據(jù)整合策略,包括實(shí)時(shí)、準(zhǔn)實(shí)時(shí)、離線整合等,允許整合過程中的數(shù)據(jù)轉(zhuǎn)換等能力。
-
數(shù)據(jù)計(jì)算能力
由于數(shù)據(jù)湖中積累了企業(yè)內(nèi)部的多樣化的數(shù)據(jù),因?yàn)槭褂谜呖梢源蛲▋?nèi)部各種數(shù)據(jù),從而分析其中的數(shù)據(jù)規(guī)律,從而進(jìn)一步指導(dǎo)和預(yù)測(cè)分析。因此,數(shù)據(jù)湖需要給使用者提供強(qiáng)大的數(shù)據(jù)計(jì)算能力,能夠快速地從海量數(shù)據(jù)中檢索到關(guān)鍵信息,或是能夠做大量數(shù)據(jù)的碰撞找到關(guān)聯(lián)關(guān)系,或是對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行深度的識(shí)別分析等,這些都需要數(shù)據(jù)湖的平臺(tái)提供完善的數(shù)據(jù)計(jì)算能力。
-
數(shù)據(jù)治理能力
由于數(shù)據(jù)湖中匯集了原始數(shù)據(jù),未做復(fù)雜的數(shù)據(jù)模型加工,因此可能存在湖內(nèi)的數(shù)據(jù)本身有較多質(zhì)量問題的情況,或者各個(gè)數(shù)據(jù)源頭的標(biāo)準(zhǔn)不統(tǒng)一,因此不能很好地用于指導(dǎo)數(shù)據(jù)分析業(yè)務(wù)。因此,數(shù)據(jù)湖的建設(shè)者需要提供工具或計(jì)算能力給使用者,可以在數(shù)據(jù)湖內(nèi)做進(jìn)一步的數(shù)據(jù)治理,從而提高數(shù)據(jù)質(zhì)量和價(jià)值。
-
數(shù)據(jù)服務(wù)能力
數(shù)據(jù)湖在設(shè)計(jì)的時(shí)候,需要充分考慮如何提供給更多的數(shù)據(jù)需求者來自助服務(wù),用戶可以在數(shù)據(jù)湖上發(fā)現(xiàn)數(shù)據(jù)、分析數(shù)據(jù)、改進(jìn)數(shù)據(jù)以及最終貢獻(xiàn)數(shù)據(jù),從而形成一個(gè)從數(shù)據(jù)到價(jià)值鏈路的閉環(huán)。在這個(gè)過程中,有效的數(shù)據(jù)資產(chǎn)目錄可以有效地幫助用戶來打通數(shù)據(jù)鏈路,而多租戶服務(wù)能力是核心的技術(shù)要求。
?除了以上4個(gè)核心的功能性需求以外,還需要關(guān)注一些重要的非功能性需求,包括:
-
互操作性
數(shù)據(jù)湖本身需要跟企業(yè)內(nèi)部的各個(gè)數(shù)據(jù)系統(tǒng)有很好的互操作性,因此數(shù)據(jù)整合的工具或系統(tǒng)需要有良好的連接互通性,可以與關(guān)系數(shù)據(jù)庫(kù)、NoSQL、實(shí)時(shí)數(shù)據(jù)系統(tǒng)、企業(yè)級(jí)對(duì)象存儲(chǔ)等各個(gè)系統(tǒng)建立高效的數(shù)據(jù)交互通道。
-
有效的成本控制
由于數(shù)據(jù)湖本身的特點(diǎn),存儲(chǔ)的數(shù)據(jù)量一般比較大,數(shù)據(jù)價(jià)值密度低,因此需要非常關(guān)注本身的成本控制,總體方案上需要較低的硬件成本和運(yùn)維成本,以及較好的資源使用效率,有較好的彈性伸縮,能夠支持計(jì)量計(jì)費(fèi)等。
-
多租戶
數(shù)據(jù)湖一般會(huì)開放給企業(yè)內(nèi)多個(gè)部門或組織共用,而每個(gè)使用者本身運(yùn)行的業(yè)務(wù)各自有特殊性,譬如機(jī)器學(xué)習(xí)的任務(wù)計(jì)算復(fù)雜度高,CPU消耗大,而檢索類任務(wù)磁盤IO密集使用,面向多個(gè)用戶同時(shí)提供服務(wù),如果要保證用戶體驗(yàn),數(shù)據(jù)湖底層需要提供良好的資源共享與隔離能力。
-
業(yè)務(wù)連續(xù)性
此外,高可用與災(zāi)備能力也是數(shù)據(jù)湖的一個(gè)關(guān)鍵要素,在技術(shù)的設(shè)計(jì)上需要充分考慮相關(guān)的技術(shù)要求,從而實(shí)現(xiàn)極端故障下的業(yè)務(wù)快速恢復(fù)能力。文章來源:http://www.zghlxwxcb.cn/news/detail-408032.html
—?小結(jié)—
本篇介紹了數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市、數(shù)據(jù)庫(kù)等數(shù)據(jù)管理架構(gòu)。那么對(duì)于平臺(tái)建設(shè)落地,該如何根據(jù)企業(yè)數(shù)字化程度,建立一個(gè)可持續(xù)演進(jìn)技術(shù)架構(gòu)呢?在接下來的幾篇中,我們將根據(jù)企業(yè)數(shù)字化程度,分五個(gè)階段來介紹。下一篇:存儲(chǔ)與算力基礎(chǔ)建設(shè)文章來源地址http://www.zghlxwxcb.cn/news/detail-408032.html
到了這里,關(guān)于數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市、數(shù)據(jù)湖,你的企業(yè)更適合哪種數(shù)據(jù)管理架構(gòu)?的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!