1 前言
我在上一篇中介紹了實時集成與離線集成該怎么選擇,接著介紹一下離線集成中的增量與全量的選擇問題。
要設計方案,我們先分析一下數(shù)據(jù)產(chǎn)生的方式。我們把音視頻流這種非結構化的數(shù)據(jù)集成從這里排除出去,因為這種音視頻流一般都是專業(yè)的廠商和系統(tǒng)來處理。我們圍繞數(shù)據(jù)分析領域常見的半結構化、結構化數(shù)據(jù)來看。
結構化和半結構化數(shù)據(jù)主要來源于各種設備和系統(tǒng)中運行的軟件,包括寫入各種數(shù)據(jù)庫的數(shù)據(jù)、服務器中的日志。如果數(shù)據(jù)本身可以實時傳輸過來,那么我們就盡可能采用這種方式,但是實際工作中更多的場合是離線。尤其是項目的一期,更容易使用離線集成。
實時集成就相當于收快遞,需要商家和物流企業(yè)先期投入大量建設,才能讓快遞便捷的傳輸?shù)侥闶掷铩6@種什么都準備好的情況,大部分時候都是企業(yè)IT建設相對成熟的情況下才有。
日志這種文件流,如果采用實時采集,就屬于實時集成范圍。如果離線傳輸,就是傳個文件,本身就沒有太多需要講述的。下面我們就討論下從數(shù)據(jù)庫中實施離線集成的方法。
2 數(shù)據(jù)庫的數(shù)據(jù)
一提到傳統(tǒng)數(shù)據(jù)庫,就想到了結構化數(shù)據(jù)。但是數(shù)據(jù)庫其實可以存儲各種能存儲的下的數(shù)據(jù),比如音視頻文件其實可以存儲到LOB類型的二進制大對象字段中。而半結構化數(shù)據(jù),可以存儲到string、text、CLOB等字符型二進制大對象字段中。工業(yè)控制系統(tǒng)產(chǎn)生的時序數(shù)據(jù),也可以存儲到數(shù)據(jù)庫中。
而數(shù)據(jù)庫中的數(shù)據(jù)操作有插入、更新、刪除,不同種類的操作會對集成有影響。
如果要對一個數(shù)據(jù)庫做全庫的集成,首先要決定哪些表是我們要入倉的。一定不要不經(jīng)分析就把數(shù)據(jù)集成到數(shù)據(jù)倉庫或者數(shù)據(jù)中臺中。按照維度建模的理念,需要以需求為導向去構建模型,所以,集成的數(shù)據(jù)表一定是要明確有需求。這樣我們就能確定一個范圍,而不是全部。
劃定范圍,我們就會遇到非結構化數(shù)據(jù)入庫的問題,因為MaxCompute本身是不支持大字段的,最長的字段長度是string,只有8M。至于數(shù)據(jù)庫的LOB存儲什么,五花八門,我見過照片、音頻、Word文檔、這些要集成,統(tǒng)統(tǒng)都需要傳輸?shù)絆SS,而不是MaxCompute。目前這種數(shù)據(jù),還需要單獨開發(fā)程序去集成到OSS。
剩下的我們就可以理解為結構化和半結構化數(shù)據(jù)了,一般能用string存的下的都可以集成到MaxCompute。例如一些XML、JSON半結構化數(shù)據(jù),之前在數(shù)據(jù)庫是存儲在CLOB類型的字段中的,但是本身并不是超過8M。
接下來我們就需要評估該如何集成數(shù)據(jù)了-增量還是全量。
3 增量還是全量
回顧之前在實時還是離線的章節(jié)總結的集成原則。
集成原則:
1 費用緊張,資源有限,盡可能使用離線集成。
2 批處理數(shù)據(jù)(主要指源端數(shù)據(jù)是批量產(chǎn)生,或者雙十一式爆發(fā)式產(chǎn)生)集成,盡量走離線。如果確實預算非常充足,資源非常豐富,也可以走實時集成(很多時候,源端都可能扛不住)。
3 交易型數(shù)據(jù)集成,盡量走實時,如果資源有限可以走離線。
4 大表,例如數(shù)據(jù)超過200W、存儲超過1G,盡量走實時,這種表一般在業(yè)務系統(tǒng)中數(shù)量不會超過表數(shù)量的20%。離線集成時效性很難滿足要求,當然也不是不行。一般離線集成的表在1-10億這個級別也是可以一戰(zhàn)(與系統(tǒng)資源相關)。再大基本上就很難了,集成時間過久,業(yè)務系統(tǒng)沒有足夠的快照空間,事務會報錯,集成就會失敗。
5 小表,例如常年不動的代碼表,10W以下的小表,大概都能在30秒-3分鐘內(nèi)完成,建議走離線。畢竟實時挺貴,這些小表,還是打包搞過來比較適合。
我們看到我把數(shù)據(jù)分為“批處理”、“交易型”、“大表”、“小表”。很明顯,“批處理”和“交易型”是一個對照組,“大表”和“小表”是一個對照組。
先看下什么是“批處理”,主要是指數(shù)據(jù)并不是由業(yè)務系統(tǒng)的業(yè)務事件產(chǎn)生,而是由數(shù)據(jù)庫或者應用后臺運行的數(shù)據(jù)運行,其特點是一次操作的數(shù)據(jù)或者產(chǎn)生的數(shù)據(jù)是多條(幾萬到數(shù)億)記錄。“批處理”操作主要在做后臺數(shù)據(jù)庫版本發(fā)布的批量運維,夜間批量做數(shù)據(jù)處理,幾個表關聯(lián)生成一張新的表。這種操作瞬時產(chǎn)生大量的數(shù)據(jù)操作,少則幾萬,多則數(shù)億,且發(fā)生時間相對短暫。對應的“交易型”則是實時發(fā)生,是由實際的業(yè)務發(fā)生時產(chǎn)生。并不是定時任務和運維人員提交到數(shù)據(jù)庫的,是由應用提交到數(shù)據(jù)庫的。
“大表”和“小表”需要畫一條線,根據(jù)數(shù)據(jù)庫系統(tǒng)的能力來評估。一般按照二八原則,或者一九。就是說一般數(shù)據(jù)庫中90%表都是小表,根據(jù)數(shù)據(jù)庫的規(guī)模,可以是10萬也可以是100萬。
1.全量集成
先說大小表,這個比較簡單,一旦劃定了大小表。就可以確定,小表是可以全部使用全量集成的。所以,這個邊界是全量離線集成的邊界。剩下的大表,就困難了。大表的意思就是全量集成不能完成,或者對數(shù)據(jù)庫的負載過大,搞不定。這部分就需要考慮增量集成了。
2.增量集成
因為小表全量集成很暴力了,無所謂什么,都能集成過來。而大表的增量要怎么獲取呢?真的很難。我有一句總結:沒有一個業(yè)務系統(tǒng)的時間戳字段是可信的。大家可以去證明我是錯誤的,我的見識是淺薄的,但是這就是從業(yè)十多年的我的見識。
首先,增量集成需要數(shù)據(jù)庫表不能有物理刪除,這很難實現(xiàn)。即便業(yè)務系統(tǒng)在設計之初有這種設計,也難以避免后臺人工運維引入非正常操作問題。
其次,標識數(shù)據(jù)被更新和插入的時間字段(時間戳)不可信。除了業(yè)務系統(tǒng)可能并不更新這個字段外,還同樣存在人工運維引入非正常操作的問題。
3.批處理表的增量集成
即便如此,仍然有表,是可以容易實現(xiàn)增量識別的,而這種表往往還是大表。我們前面提到的“批處理”表就是這種表,因為這類表是批量寫入的,操作頻次是有限且是批量的(常見的數(shù)據(jù)交換表也是這種表)。這種表的數(shù)據(jù),較為容易獲得增量。
方法:
- 找到主鍵。因為增量數(shù)據(jù)需要與全量合并,所以主鍵非常重要。
- 了解數(shù)據(jù)寫入特征。數(shù)據(jù)變動的范圍多大,哪個字段是每日生成新數(shù)據(jù)的業(yè)務日期字段,這關系到增量集成的增量時區(qū)范圍多大。例如,會更新當前月的數(shù)據(jù),會更新最近N天的數(shù)據(jù)。
- 了解業(yè)務。為什么會產(chǎn)生這樣的數(shù)據(jù),業(yè)務是什么,數(shù)據(jù)該如何使用。
- 調(diào)研數(shù)據(jù)。從數(shù)據(jù)中驗證之前得到的信息,是否完全正確,這非常重要。最經(jīng)常的問題就是數(shù)據(jù)變動的范圍,與描述不一致。這是因為調(diào)研總是短暫的,而數(shù)據(jù)不會騙人。例如運行了一個歷史日期的數(shù)據(jù),例如過了一個假期才處理問題。
- 事件表的增量集成
還有另外一種表,自然就可以做到增量識別。這類表就是事件型表,這類表只有insert,沒有update和delete。例如刷了一次門禁卡。
到這里,我其實并沒有解決所有表的集成。我只解決了小表、部分大表(批量表、事件表),這就是現(xiàn)實。大部分時候,我們只能采取加大離線集成的并行度,并忍受數(shù)個小時離線集成時長。而離線集成很難解決的這些表的集成,往往也是最適合實時集成的表。這就是我給的答案,離線集成不完美,解決不了我們獲取數(shù)據(jù)的完整性的問題。
4總結
全量和增量都是一種選擇,如果表都很小,我們整個庫都可以全量集成。而增量則更多的時候是一種奢望,系統(tǒng)運行的越久,離線增量集成的問題就會暴露的越多。在這個時候,我要說:選擇要大于努力,建議去看看實時集成是不是可以幫助到你。另外一個方面,我們回顧上一章節(jié),實時集成集成小表并不劃算,集成批量表會導致進程崩潰。
所以,沒有完美的工具,只有完美的方案。只有針對客戶現(xiàn)場的實際情況,做出最適合客戶的現(xiàn)場方案才是我們的最終選擇。
原文鏈接
本文為阿里云原創(chuàng)內(nèi)容,未經(jīng)允許不得轉載。文章來源:http://www.zghlxwxcb.cn/news/detail-781210.html
?文章來源地址http://www.zghlxwxcb.cn/news/detail-781210.html
到了這里,關于如何選擇離線數(shù)據(jù)集成方案 - 全量&增量的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!