目錄
一、數(shù)據(jù)中臺總體架構(gòu)圖
1、數(shù)據(jù)匯聚
2、數(shù)據(jù)開發(fā)
3、數(shù)據(jù)體系
4、數(shù)據(jù)資產(chǎn)管理
5、數(shù)據(jù)服務(wù)體系
6、數(shù)據(jù)運營體系
7、數(shù)據(jù)安全管理
二、數(shù)據(jù)中臺 四字箴言
1、采
2、存
3、通
4、用
數(shù)據(jù)中臺總體架構(gòu)圖前面我們通過理論層面對數(shù)據(jù)中臺有了一定的了解,下面我們通過架構(gòu)層面來詳細(xì)看一下數(shù)據(jù)中臺的設(shè)計。數(shù)據(jù)中臺是位于底層存儲計算平臺與上層的數(shù)據(jù)應(yīng)用之間的一整套體系。數(shù)據(jù)中臺屏蔽掉底層存儲平臺的計算技術(shù)復(fù)雜性,降低對技術(shù)人才的需求,讓數(shù)據(jù)的使用成本更低。通過數(shù)據(jù)中臺的數(shù)據(jù)匯聚、數(shù)據(jù)開發(fā)模塊建立企業(yè)數(shù)據(jù)資產(chǎn)。通過數(shù)據(jù)體系對數(shù)據(jù)進(jìn)行分層存儲通過資產(chǎn)管理、數(shù)據(jù)服務(wù),把數(shù)據(jù)資產(chǎn)變?yōu)閿?shù)據(jù)服務(wù)能
一、數(shù)據(jù)中臺總體架構(gòu)圖
前面我們通過理論層面對數(shù)據(jù)中臺有了一定的了解,下面我們通過架構(gòu)層面來詳細(xì)看一下數(shù)據(jù)中臺的設(shè)計。
?文章來源地址http://www.zghlxwxcb.cn/news/detail-686348.html
數(shù)據(jù)中臺是位于底層存儲計算平臺與上層的數(shù)據(jù)應(yīng)用之間的一整套體系。
數(shù)據(jù)中臺屏蔽掉底層存儲平臺的計算技術(shù)復(fù)雜性,降低對技術(shù)人才的需求,讓數(shù)據(jù)的使用成本更低。
通過數(shù)據(jù)中臺的數(shù)據(jù)匯聚、數(shù)據(jù)開發(fā)模塊建立企業(yè)數(shù)據(jù)資產(chǎn)。
通過數(shù)據(jù)體系對數(shù)據(jù)進(jìn)行分層存儲
通過資產(chǎn)管理、數(shù)據(jù)服務(wù),把數(shù)據(jù)資產(chǎn)變?yōu)閿?shù)據(jù)服務(wù)能力,服務(wù)于企業(yè)業(yè)務(wù)。
數(shù)據(jù)安全管理、數(shù)據(jù)運營體系,保障數(shù)據(jù)中臺可以長期健康、持續(xù)運轉(zhuǎn)。
1、數(shù)據(jù)匯聚
數(shù)據(jù)匯聚是數(shù)據(jù)中臺數(shù)據(jù)接入的入口,數(shù)據(jù)中臺本身不產(chǎn)生數(shù)據(jù),所有的數(shù)據(jù)來自于業(yè)務(wù)系統(tǒng),數(shù)據(jù)庫、日志、文件等,這些數(shù)據(jù)分散在不同的網(wǎng)絡(luò)環(huán)境和存儲平臺中,難以利用,很難產(chǎn)生業(yè)務(wù)價值,所以需要統(tǒng)一匯聚。
2、數(shù)據(jù)開發(fā)
數(shù)據(jù)開發(fā)是一整套數(shù)據(jù)加工以及處理的工具,因為通過數(shù)據(jù)匯聚模塊匯聚到中臺的數(shù)據(jù)沒有經(jīng)過處理,基本是按照數(shù)據(jù)的原始狀態(tài)堆砌在一起的,這樣業(yè)務(wù)是很難直接使用的。所以需要通過數(shù)據(jù)開發(fā)模塊實現(xiàn)對數(shù)據(jù)的加工處理,形成有價值的數(shù)據(jù),提供給業(yè)務(wù)部門使用。
3、數(shù)據(jù)體系
通過數(shù)據(jù)匯聚、數(shù)據(jù)開發(fā),中臺就具備了構(gòu)建數(shù)倉平臺的基本能力,這一塊其實就是將采集過來的各種數(shù)據(jù)按照數(shù)倉的標(biāo)準(zhǔn)進(jìn)行建設(shè)。
4、數(shù)據(jù)資產(chǎn)管理
通過數(shù)倉建立起來的數(shù)據(jù)資產(chǎn)比較偏向于技術(shù),業(yè)務(wù)人員比較難理解,資產(chǎn)管理是以業(yè)務(wù)人員更好理解的方式,把數(shù)據(jù)資產(chǎn)展現(xiàn)給企業(yè)的業(yè)務(wù)人員。
5、數(shù)據(jù)服務(wù)體系
數(shù)據(jù)服務(wù)體系就是把數(shù)據(jù)變?yōu)橐环N服務(wù)能力,通過數(shù)據(jù)服務(wù)讓數(shù)據(jù)參與到業(yè)務(wù),激活整個數(shù)據(jù)中臺,數(shù)據(jù)服務(wù)體系是數(shù)據(jù)中臺存在的價值所在。
6、數(shù)據(jù)運營體系
是數(shù)據(jù)中臺得以健康、持續(xù)運轉(zhuǎn)的基礎(chǔ)
7、數(shù)據(jù)安全管理
是為了保證數(shù)據(jù)中臺中的數(shù)據(jù)安全。
這是一個典型的數(shù)據(jù)中臺總體架構(gòu)設(shè)計。
二、數(shù)據(jù)中臺 四字箴言
如果大家之前沒有工作過的話,可能對數(shù)據(jù)中臺還是不好理解,所以在這我將數(shù)據(jù)中臺的功能總結(jié)為四個字:采、存、通、用
下面我們來詳細(xì)分析一下這四字箴言
1、采
采:表示采集的意思,就是采集企業(yè)中的所有數(shù)據(jù)。
隨著互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等技術(shù)的興起,企業(yè)的業(yè)務(wù)形態(tài)開始多元化,數(shù)據(jù)的產(chǎn)生形式也是多樣化的,對應(yīng)的就需要有多種采集形式。
埋點采集、硬件采集、爬蟲采集、數(shù)據(jù)庫采集、日志采集。
埋點采集:一般是采集用戶行為信息,例如用戶在平臺上的瀏覽、點擊、停留等行為。
硬件采集:指的是物聯(lián)網(wǎng)數(shù)據(jù)采集,例如通過無人機傳感器來采集空氣質(zhì)量指標(biāo)。
爬蟲采集:指的是采集互聯(lián)網(wǎng)上的公開數(shù)據(jù),例如:電商平臺競品價格采集。
數(shù)據(jù)庫采集:一般是采集企業(yè)內(nèi)的業(yè)務(wù)數(shù)據(jù),例如:用戶交易數(shù)據(jù)、用戶個人信息數(shù)據(jù)等。
日志采集:一般是采集軟件運行時產(chǎn)生的日志。
這些是常見的采集形式。
從數(shù)據(jù)組織形式可以分為:結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。
結(jié)構(gòu)化數(shù)據(jù):數(shù)據(jù)規(guī)則、完整、能夠通過二維邏輯來表現(xiàn)的數(shù)據(jù),嚴(yán)格遵守數(shù)據(jù)格式與長度規(guī)范,常見的有數(shù)據(jù)庫中的數(shù)據(jù)、excel中的數(shù)據(jù)。
半結(jié)構(gòu)化數(shù)據(jù):數(shù)據(jù)規(guī)則、完整,同樣嚴(yán)格遵守數(shù)據(jù)格式與長度規(guī)范,但無法通過二維關(guān)系來表現(xiàn),常見的有JSON、XML等格式的數(shù)據(jù)。
非結(jié)構(gòu)化數(shù)據(jù):數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,不方便用二維邏輯表來表現(xiàn),需要經(jīng)過復(fù)雜的邏輯處理才能提取其中的信息內(nèi)容,常見的有word文檔、圖片、視頻、音頻等數(shù)據(jù)。
從數(shù)據(jù)的時效性上來劃分,可以分為:離線數(shù)據(jù)、實時數(shù)據(jù)。
離線數(shù)據(jù):主要用于大批量數(shù)據(jù)的周期性遷移,對時效性要求不高,一般采用分布式批量數(shù)據(jù)同步的形式,通過連接讀取數(shù)據(jù),讀取數(shù)據(jù)過程中可以有全量、增量的方式,經(jīng)過統(tǒng)一處理后寫入到目標(biāo)存儲。
實時數(shù)據(jù):主要面向低延時的數(shù)據(jù)應(yīng)用場景,一般通過實時監(jiān)控的方式實現(xiàn),例如通過讀取數(shù)據(jù)庫的binlog日志來實現(xiàn)數(shù)據(jù)庫的實時數(shù)據(jù)采集。
前面我們針對數(shù)據(jù)的采集形式、數(shù)據(jù)的組織形式、數(shù)據(jù)的時效性進(jìn)行了分析,那這些數(shù)據(jù)在采集的時候具體應(yīng)該使用什么類型的工具呢?
常見的采集工具有:Flume、FileBeat、Logstash、Sqoop、Canal、DataX等。
其中Flume、FileBeat、Logstash適合采集日志數(shù)據(jù),這三個組件的特性在前面項目課程中已經(jīng)詳細(xì)分析過了,在這不再贅述。
sqoop是在結(jié)構(gòu)化數(shù)據(jù)和HDFS之間進(jìn)行批量數(shù)據(jù)遷移的工具,適合批量采集數(shù)據(jù)庫中的數(shù)據(jù),它的主要優(yōu)勢是,在特定場景下,數(shù)據(jù)交換過程會有很大的性能提升。主要缺點是處理過程定制程度較高,需要在腳本中調(diào)整配置參數(shù)實現(xiàn),在用戶的一些自定義邏輯和數(shù)據(jù)同步鏈路監(jiān)控方面比較薄弱。
DataX是阿里開源的一套數(shù)據(jù)采集工具,提供數(shù)據(jù)采集全鏈路的流量監(jiān)控,將作業(yè)本身的狀態(tài),數(shù)據(jù)流量,數(shù)據(jù)速度,執(zhí)行速度等信息進(jìn)行展示,提供臟數(shù)據(jù)探測功能,支持傳輸過程中對傳輸報錯進(jìn)行策略化處理。
由于它是基于進(jìn)程內(nèi)讀寫直連的方式,高并發(fā)數(shù)據(jù)采集場景下對機器內(nèi)存要求比較高。
不過DataX不支持非結(jié)構(gòu)化數(shù)據(jù)的采集。
這些單個工具都無法很好的滿足企業(yè)復(fù)雜的數(shù)據(jù)采集場景,所以我們需要對已有的采集工具進(jìn)行二次開發(fā),以可視化配置的方式提供給用戶,屏蔽底層工具的復(fù)雜性,要支持常見的數(shù)據(jù)源采集:關(guān)系型數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫、MQ、文件系統(tǒng)等,并且支持增量同步、全量同步等方式。
2、存
將數(shù)據(jù)采集過來之后,就需要考慮數(shù)據(jù)存儲了。
在這里我們可以將數(shù)據(jù)分為兩種:靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù)。
其中靜態(tài)數(shù)據(jù):是以 HDFS 、S3等分布式文件系統(tǒng)作為存儲引擎,適用于高吞吐量的離線大數(shù)據(jù)分析場景。這類存儲的局限性是數(shù)據(jù)無法進(jìn)行隨機的讀寫。
動態(tài)數(shù)據(jù):是以 HBase、Cassandra等NoSQL數(shù)據(jù)庫作為存儲引擎,適用于大數(shù)據(jù)隨機讀寫的場景。這類存儲的局限性是批量讀取吞吐量遠(yuǎn)不如 HDFS,不適合用于批量數(shù)據(jù)分析的場景。
3、通
表示是對數(shù)據(jù)進(jìn)行加工計算,構(gòu)建企業(yè)級數(shù)據(jù)倉庫,打通企業(yè)中的全域數(shù)據(jù)。
針對數(shù)據(jù)的加工計算,可以分為兩大塊,離線計算和實時計算。
離線計算中的代表框架為:MapReduce、Hive、和Spark。
實時計算中的代表框架為:Storm、SparkStreaming和Flink,針對實時計算,現(xiàn)在主要是以Flink為主了。
針對這些計算框架,如果每一個計算任務(wù)都需要開發(fā)代碼的話,對使用人員就不友好了,特別是針對一些業(yè)務(wù)人員,他們不會寫代碼,只會寫SQL,所以這時候我們就需要開發(fā)一套基于SQL的一站式開發(fā)平臺,底層引擎使用Spark和Flink,支持離線數(shù)據(jù)計算和實時數(shù)據(jù)計算。
讓用戶徹底規(guī)避掉繁重的底層代碼開發(fā)工作。
4、用
企業(yè)全域數(shù)據(jù)采集、存儲,打通之后,就涉及到如何去用了。
這里的”用” 包含很多層面。
首先是包括數(shù)據(jù)資產(chǎn)管理,也可以稱之為數(shù)據(jù)治理,其中包含數(shù)據(jù)元標(biāo)準(zhǔn)管理,數(shù)據(jù)標(biāo)簽管理,數(shù)據(jù)模型管理、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理等,保證數(shù)據(jù)中臺里面數(shù)據(jù)的合理化和規(guī)范化,充分發(fā)揮數(shù)據(jù)的價值。
對于數(shù)據(jù)的擁有者和管理者來說,通過對數(shù)據(jù)的合理管理和有效應(yīng)用,能盤活并充分釋放數(shù)據(jù)的巨大價值,但如果不能對數(shù)據(jù)進(jìn)行有效管理,數(shù)據(jù)就用不起來,或者即使用起來也用不好,在這種情況下,堆積如山的無序數(shù)據(jù)給企業(yè)帶來的是高昂的成本。
在使用數(shù)據(jù)的時候還需要做好數(shù)據(jù)安全管理,隨著大數(shù)據(jù)技術(shù)和應(yīng)用的快速發(fā)展,數(shù)據(jù)所承載的多維度業(yè)務(wù)價值已被越來越多的挖掘和應(yīng)用變現(xiàn),隨之而來的是數(shù)據(jù)安全和隱私已經(jīng)成為世界性的關(guān)注點,上升到國家戰(zhàn)略層面,最近鬧得沸沸揚揚的特朗普要禁用國外版的抖音(TikTok)事件,特朗普的理由就是TikTok平臺的數(shù)據(jù)對他們產(chǎn)生了威脅。
所以說數(shù)據(jù)安全很有必要,整體的數(shù)據(jù)安全管理體系通過分層建設(shè)、分級防護(hù),創(chuàng)造面向數(shù)據(jù)的安全管理體系系統(tǒng)框架,形成完整的數(shù)據(jù)安全管理體系。
數(shù)據(jù)中臺的建設(shè),應(yīng)該始終把數(shù)據(jù)安全管理放在最重要的位置上,通過設(shè)計完備的數(shù)據(jù)安全管理體系,多方面,多層次保障數(shù)據(jù)安全。
最終我們需要把安全、有價值的數(shù)據(jù)快速方便的提供給上層應(yīng)用,此時需要通過數(shù)據(jù)服務(wù)對外開放,也就是API接口的形式。
舉個例子,水是生命之源,是人們賴以生存和發(fā)展的重要物質(zhì)資源,在日常生活中,可以通過不同的方式使用水,這也給我們的生活帶來了巨大便利。
在數(shù)據(jù)世界中,數(shù)據(jù)資產(chǎn)就好比日常生活中生命所需的水資源,無處不在且不可或缺。但是如果沒有相應(yīng)的水加工廠,運輸管道,人們只能到水庫打水喝,這明顯會極大影響人們正常的生活和工作。因此,將數(shù)據(jù)封裝成數(shù)據(jù)服務(wù),以接口形式提供給上層應(yīng)用,才能極大釋放、提升數(shù)據(jù)資產(chǎn)的價值。
最后總結(jié)一下,數(shù)據(jù)中臺其實可以這樣理解,采集企業(yè)全域數(shù)據(jù),存儲起來,通過加工計算打通數(shù)據(jù)之間的關(guān)系,最后以API接口的形式對外提供數(shù)據(jù)服務(wù)。這就是數(shù)據(jù)中臺要做的事情。文章來源:http://www.zghlxwxcb.cn/news/detail-686348.html
?
到了這里,關(guān)于數(shù)據(jù)中臺架構(gòu)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!