国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

美團(tuán)買菜基于 Flink 的實(shí)時(shí)數(shù)倉建設(shè)

這篇具有很好參考價(jià)值的文章主要介紹了美團(tuán)買菜基于 Flink 的實(shí)時(shí)數(shù)倉建設(shè)。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。


1. 背景介紹

美團(tuán)買菜基于 Flink 的實(shí)時(shí)數(shù)倉建設(shè)
美團(tuán)買菜是美團(tuán)自營生鮮零售平臺,上面所有的商品都由美團(tuán)親自采購,并通過供應(yīng)鏈物流體系,運(yùn)輸?shù)骄嚯x用戶 3km 范圍內(nèi)的服務(wù)站。用戶從美團(tuán)買菜平臺下單后,商品會(huì)從服務(wù)站送到用戶手中,最快 30 分鐘內(nèi)。

上圖中,左側(cè)的時(shí)間軸展示了美團(tuán)買菜的發(fā)展歷程,右側(cè)展示了美團(tuán)買菜豐富的商品。目前,美團(tuán)買菜在北上廣深、武漢等城市均有業(yè)務(wù)覆蓋,為人們?nèi)粘5纳钐峁┍憷?。在疫情場景下,起到了非常重要的保障民生作用?br>美團(tuán)買菜基于 Flink 的實(shí)時(shí)數(shù)倉建設(shè)
接下來,介紹一下實(shí)時(shí)數(shù)倉場景。美團(tuán)買菜的實(shí)時(shí)數(shù)倉場景分為三個(gè)部分。

  • 第一個(gè)應(yīng)用場景,數(shù)據(jù)分析部分。其主要用戶是業(yè)務(wù)管理層、數(shù)據(jù)分析師、數(shù)據(jù)運(yùn)營人員等等。他們通過數(shù)據(jù)大盤、數(shù)據(jù)看板等形式,獲取數(shù)據(jù)指標(biāo),用于企業(yè)經(jīng)營、運(yùn)營、活動(dòng)決策。
  • 第二個(gè)應(yīng)用場景,業(yè)務(wù)監(jiān)控部分。其主要用戶是大倉物流服務(wù)站的一線管理人員和總部的運(yùn)營中臺。他們會(huì)對線下作業(yè)情況進(jìn)行異常監(jiān)控,及時(shí)了解并處理線下業(yè)務(wù)的異動(dòng)。
  • 第三個(gè)應(yīng)用場景,實(shí)時(shí)特征部分。其主要面向算法模型的實(shí)時(shí)特征,例如供應(yīng)鏈場景的銷量預(yù)測、履約場景的動(dòng)態(tài) ETA、用戶的搜索排序推薦等等。

2. 技術(shù)愿景和架構(gòu)設(shè)計(jì)

美團(tuán)買菜基于 Flink 的實(shí)時(shí)數(shù)倉建設(shè)
技術(shù)愿景和架構(gòu)設(shè)計(jì)。實(shí)時(shí)數(shù)倉的技術(shù)愿景是在新零售場景下,建設(shè)質(zhì)量可靠、運(yùn)行穩(wěn)定、覆蓋核心鏈路環(huán)節(jié)的實(shí)時(shí)數(shù)據(jù)體系。這里著重強(qiáng)調(diào)質(zhì)量可靠、運(yùn)行穩(wěn)定、覆蓋核心鏈路環(huán)節(jié)。

美團(tuán)買菜所處的新零售行業(yè),是一個(gè)薄毛利率賽道,對數(shù)據(jù)準(zhǔn)確性的要求較高。由于買菜業(yè)務(wù)的正常運(yùn)轉(zhuǎn),對數(shù)據(jù)有著強(qiáng)依賴,所以要求數(shù)據(jù)必須運(yùn)行穩(wěn)定。與此同時(shí),美團(tuán)買菜是自營的全鏈條業(yè)務(wù),業(yè)務(wù)的鏈條環(huán)節(jié)較多,我們希望能夠覆蓋核心的鏈路環(huán)節(jié)。
美團(tuán)買菜基于 Flink 的實(shí)時(shí)數(shù)倉建設(shè)
基于上述的技術(shù)愿景,我們著重建設(shè)了質(zhì)量保障體系、穩(wěn)定性保障體系。這兩個(gè)體系的主要目的是,提升實(shí)時(shí)數(shù)倉基線能力,讓數(shù)據(jù)穩(wěn)定生產(chǎn),質(zhì)量可信賴。希望質(zhì)量保障體系、穩(wěn)定性保障體系能夠成為實(shí)時(shí)數(shù)倉的基石,建設(shè)好實(shí)時(shí)數(shù)倉的基本功。
美團(tuán)買菜基于 Flink 的實(shí)時(shí)數(shù)倉建設(shè)
在做好實(shí)時(shí)數(shù)倉基本功的基礎(chǔ)上,我們希望數(shù)據(jù)發(fā)揮它的最大價(jià)值。根據(jù) DIKM 模型,從數(shù)據(jù)到信息,信息到知識,知識到智慧,價(jià)值會(huì)被不斷放大?;?DIKM 模型的理論指導(dǎo),我們建立了全域數(shù)據(jù)中心、統(tǒng)一資產(chǎn)管理中心。

其中,全域數(shù)據(jù)中心會(huì)有效組織原始事實(shí)和原始數(shù)據(jù),讓數(shù)據(jù)轉(zhuǎn)換成信息。統(tǒng)一資產(chǎn)管理中心對信息加以提煉,提升洞察力、創(chuàng)造力,幫助信息更好的轉(zhuǎn)換成知識、智慧。
美團(tuán)買菜基于 Flink 的實(shí)時(shí)數(shù)倉建設(shè)
接下來,介紹一下實(shí)時(shí)數(shù)倉的整體架構(gòu)。如上圖所示,底層模塊是數(shù)據(jù)平臺部分,包含了數(shù)據(jù)的同步、加工、質(zhì)量檢測、管理權(quán)限、數(shù)據(jù)治理等環(huán)節(jié)設(shè)計(jì)的數(shù)據(jù)工具鏈。
在數(shù)據(jù)平臺工具模塊之上是全域數(shù)據(jù)中心、質(zhì)量保障體系、穩(wěn)定性保障體系三個(gè)模塊。其中,全域數(shù)據(jù)中心是基于數(shù)據(jù)源 ODS 層建設(shè)的數(shù)據(jù)倉庫。在數(shù)據(jù)源 ODS 層,當(dāng)前主要包含買菜業(yè)務(wù)數(shù)據(jù)、美團(tuán)公共數(shù)據(jù)、靈犀流量數(shù)據(jù)、外部數(shù)據(jù)四個(gè)部分。

數(shù)據(jù)倉庫主要有 DWD 層、DWS 層、APP 層和一致性的 DIM 層組成。其中,DWD 層主要還原業(yè)務(wù)的數(shù)據(jù)加工過程,包含清洗、轉(zhuǎn)換、過濾。原子指標(biāo)的加工會(huì)在 DWD 層進(jìn)行收口。

DWS 層是面向分析場景建設(shè)的,主要的建模方式是維度建模。在 DWS 層常見的數(shù)據(jù)加工過程包含多個(gè)業(yè)務(wù)主題的數(shù)據(jù)關(guān)聯(lián),數(shù)據(jù)力度上的輕度匯總,衍生指標(biāo)的加工。

APP 層主要面向應(yīng)用場景建設(shè)寬表模型,其目的是更好地滿足應(yīng)用場景的個(gè)性化需求,提升數(shù)據(jù)應(yīng)用的效率和體驗(yàn)。

質(zhì)量保障體系主要包含流程規(guī)范、質(zhì)量監(jiān)控、問題處理、持續(xù)改進(jìn)四個(gè)部分,形成了一個(gè)閉環(huán)的管理系統(tǒng)。穩(wěn)定性保障體系從預(yù)防、發(fā)現(xiàn)、處理、規(guī)范四個(gè)角度建設(shè)。

統(tǒng)一資產(chǎn)管理中心基于全域數(shù)據(jù)管理中心質(zhì)量保障體系、穩(wěn)定性保障體系,其建設(shè)基礎(chǔ)是元數(shù)據(jù)管理。元數(shù)據(jù)包含指標(biāo)、維度、實(shí)時(shí)流、畫像標(biāo)簽、實(shí)時(shí)特征、數(shù)據(jù)大盤、數(shù)據(jù)接口等等。

基于原數(shù)據(jù)之上是資產(chǎn)全景、資產(chǎn)應(yīng)用、資產(chǎn)優(yōu)化三個(gè)部分。資產(chǎn)全景將數(shù)據(jù)資產(chǎn),通過分類檢索的形式展示出來。數(shù)據(jù)應(yīng)用部分包含了應(yīng)用的管理、應(yīng)用的血緣。資產(chǎn)優(yōu)化部分包含模型優(yōu)化、接口優(yōu)化。

3. 典型場景、挑戰(zhàn)與應(yīng)對

3.1 動(dòng)態(tài) ETA 實(shí)時(shí)特征

美團(tuán)買菜基于 Flink 的實(shí)時(shí)數(shù)倉建設(shè)
實(shí)時(shí)數(shù)倉典型場景下的挑戰(zhàn)和應(yīng)對方法。首先,介紹一下動(dòng)態(tài) ETA 實(shí)時(shí)特征場景。
如上圖所示,展示了用戶在美團(tuán)買菜下單的頁面情況。頁面中顯示的預(yù)計(jì)送達(dá)時(shí)間,涉及到了動(dòng)態(tài) ETA。動(dòng)態(tài) ETA 是動(dòng)態(tài)的承諾送達(dá)時(shí)間。經(jīng)過研究發(fā)現(xiàn),承諾用戶送達(dá)時(shí)間不準(zhǔn),會(huì)影響用戶的下單意愿。與此同時(shí),當(dāng)訂單預(yù)計(jì)送達(dá)時(shí)間和實(shí)際送達(dá)時(shí)間差異變大后,客訴率及取消率均有明顯攀升。

動(dòng)態(tài) ETA 的實(shí)現(xiàn)依賴算法模型預(yù)估履約時(shí)效。算法模型預(yù)估履約時(shí)效需要用到天氣特征、用戶下單商品特征、服務(wù)站內(nèi)作業(yè)實(shí)時(shí)特征、配送實(shí)時(shí)特征。
美團(tuán)買菜基于 Flink 的實(shí)時(shí)數(shù)倉建設(shè)
動(dòng)態(tài) ETA 算法模型需要的實(shí)時(shí)特征數(shù)量非常多。算法特征生產(chǎn)鏈路比較復(fù)雜,任何一個(gè)實(shí)質(zhì)特征的缺失,都會(huì)影響到算法模型的準(zhǔn)確性,從而直接影響 C 端用戶。因此實(shí)時(shí)特征數(shù)據(jù)穩(wěn)定性要求 3 個(gè) 9 以上。
美團(tuán)買菜基于 Flink 的實(shí)時(shí)數(shù)倉建設(shè)
那么什么是 3 個(gè) 9 的穩(wěn)定性呢?提升穩(wěn)定性的本質(zhì),是提高系統(tǒng)的可用性。系統(tǒng)的可用性等于,平均無故障時(shí)間除以,平均無故障時(shí)間+平均故障修復(fù)時(shí)間。想要實(shí)現(xiàn) 3 個(gè) 9 的穩(wěn)定性,要求平均每天故障時(shí)間少于 1.44 分鐘。
美團(tuán)買菜基于 Flink 的實(shí)時(shí)數(shù)倉建設(shè)
接下來,講一講提升數(shù)據(jù)穩(wěn)定性的方式。提升數(shù)據(jù)穩(wěn)定性需要提升可用性。提升可用性的本質(zhì)是,降低不確定性帶來的風(fēng)險(xiǎn)。降低不確定性帶來的風(fēng)險(xiǎn)包含發(fā)現(xiàn)問題、解決問題兩個(gè)部分。

在發(fā)現(xiàn)問題方面,需要思考如何識別風(fēng)險(xiǎn)。在實(shí)時(shí)特征的生產(chǎn)中,我們會(huì)通過容量預(yù)估、性能壓測、容災(zāi)演練、全鏈路監(jiān)控,實(shí)時(shí)對賬的方式,更好的識別風(fēng)險(xiǎn)。
在解決問題方面,需要思考如何應(yīng)對風(fēng)險(xiǎn)。一些常見應(yīng)對風(fēng)險(xiǎn)的方式包含存儲計(jì)算、雙鏈路備份、實(shí)時(shí)特征、易購存儲、降級預(yù)案、故障處理 SOP、事故復(fù)盤、完善工具和規(guī)范等。
美團(tuán)買菜基于 Flink 的實(shí)時(shí)數(shù)倉建設(shè)
上圖展示了,在故障發(fā)生的不同階段,對穩(wěn)定性的影響。事前階段發(fā)生故障,對穩(wěn)定性的影響最小。所以實(shí)時(shí)特征場景穩(wěn)定性建設(shè)的關(guān)鍵策略是,盡可能在故障發(fā)生之前發(fā)現(xiàn)問題、解決問題。
美團(tuán)買菜基于 Flink 的實(shí)時(shí)數(shù)倉建設(shè)
穩(wěn)定性保障體系全景。穩(wěn)定性保障體系全景包含預(yù)防、發(fā)現(xiàn)、處理、規(guī)范四個(gè)部分。其中,預(yù)防部分主要包括異構(gòu)存儲、雙鏈路備份、性能壓測、容量預(yù)估、容災(zāi)演練、特征分級等等。

異構(gòu)存儲是指,Doris 和 ES 作為應(yīng)用層的存儲引擎。雙鏈路備份是指,存儲和計(jì)算,多機(jī)房部署兩條數(shù)據(jù)生產(chǎn)鏈路。這兩條數(shù)據(jù)生產(chǎn)鏈路互為儲備,任何一條鏈路出現(xiàn)問題,都可以快速切換到另一條鏈路,從而保障數(shù)據(jù)的持續(xù)生產(chǎn)。在性能壓測部分,主要通過數(shù)據(jù)回放和流量控制實(shí)現(xiàn)。容量預(yù)估是指 Flink 的并發(fā)數(shù)和內(nèi)存配置。
在發(fā)現(xiàn)部分,我們除了在硬件、組件、服務(wù)層建立完善的監(jiān)控體系,還針對數(shù)據(jù)場景的常見風(fēng)險(xiǎn)、異常情況,著重建設(shè)了 ETL 任務(wù)監(jiān)控、端到端數(shù)據(jù)延遲監(jiān)控、實(shí)時(shí)離線 t+1 對賬。在風(fēng)險(xiǎn)處理部分,我們主要通過故障處理、兜底策略、降低預(yù)案來實(shí)現(xiàn)。

在預(yù)防、發(fā)現(xiàn)、處理三個(gè)部分的經(jīng)驗(yàn),通過規(guī)范的形式進(jìn)行沉淀。規(guī)范部分主要包含事故的復(fù)盤規(guī)范、技術(shù)方案 review 規(guī)范、代碼 review 機(jī)制、上線發(fā)布流程規(guī)范、巡檢機(jī)制、值班制度。
美團(tuán)買菜基于 Flink 的實(shí)時(shí)數(shù)倉建設(shè)
下面重點(diǎn)介紹一下性能壓測部分。如上圖所示,我們通過環(huán)境隔離的方式,建立了線上和測試兩條完整的數(shù)據(jù)鏈路。

在測試鏈路中,我們通過回?fù)?Kafka Offset,得到了非常大的數(shù)據(jù)流量。然后,通過流量控制模塊得到需要的測試流量,從而實(shí)現(xiàn)按需構(gòu)建壓測流量。最后,我們通過記錄不同流量下的鏈路性能,得到了需要的性能壓測結(jié)果。
美團(tuán)買菜基于 Flink 的實(shí)時(shí)數(shù)倉建設(shè)
上圖展示了性能壓測結(jié)果的評估指標(biāo)體系,其中包含了過程指標(biāo)和結(jié)果指標(biāo)。主要指標(biāo)有任務(wù)配置、機(jī)器狀態(tài)、Source QPS、Sink QPS、瓶頸算子 QPS、最大可支撐流量倍數(shù) N、端到端耗時(shí)。

3.2 實(shí)時(shí)數(shù)據(jù)經(jīng)營分析

美團(tuán)買菜基于 Flink 的實(shí)時(shí)數(shù)倉建設(shè)
實(shí)時(shí)數(shù)據(jù)經(jīng)營分析場景。美團(tuán)買菜業(yè)務(wù)經(jīng)常舉行營銷活動(dòng),提升用戶的活躍度。在營銷大促場景下,運(yùn)營人員需要實(shí)時(shí)了解業(yè)務(wù)的經(jīng)營狀態(tài),并制定運(yùn)營策略。

與此同時(shí),買菜業(yè)務(wù)受工作日、非工作日、節(jié)假日因素的影響,數(shù)據(jù)指標(biāo)波動(dòng)較大。單純看指標(biāo)的大小,很難判斷指標(biāo)的好壞,往往需要結(jié)合周同比、年同比進(jìn)行輔助判斷。在近幾年的疫情場景下,買菜業(yè)務(wù)經(jīng)常出現(xiàn)搶單模式,流量短時(shí)間內(nèi)暴漲。
美團(tuán)買菜基于 Flink 的實(shí)時(shí)數(shù)倉建設(shè)
美團(tuán)買菜面臨的挑戰(zhàn)。一方面,數(shù)據(jù)質(zhì)量要求十分嚴(yán)苛。實(shí)時(shí)和離線數(shù)據(jù)差異不超過萬分之三,端到端的數(shù)據(jù)差異不超過萬分之一。在百萬 QPS 流量下,需要保障無數(shù)據(jù)延遲。

另一方面,數(shù)據(jù)架構(gòu)本身復(fù)雜度高。在實(shí)時(shí)、離線兩條生產(chǎn)鏈路下,F(xiàn)link 只支持計(jì)算引擎內(nèi)的 exactly-once。
美團(tuán)買菜基于 Flink 的實(shí)時(shí)數(shù)倉建設(shè)
在上述情況下,數(shù)據(jù)質(zhì)量的保障面臨了很大挑戰(zhàn)。數(shù)據(jù)質(zhì)量是指,數(shù)據(jù)的一組滿足固有特性(質(zhì)量維度)要求的程度。

上圖中,左邊展示了數(shù)據(jù)質(zhì)量問題。數(shù)據(jù)不同程度缺失,數(shù)據(jù)集成流程中的數(shù)據(jù)不等價(jià),在數(shù)據(jù)需求期限內(nèi)未獲取最新數(shù)據(jù),數(shù)據(jù)與目標(biāo)特征值之間的差異程度、數(shù)據(jù)標(biāo)識不唯一。

由于這些數(shù)據(jù)質(zhì)量問題可以通過對應(yīng)的指標(biāo)來衡量,所以我們用數(shù)據(jù)完整性、數(shù)據(jù)一致性、數(shù)據(jù)及時(shí)性、數(shù)據(jù)準(zhǔn)確性、數(shù)據(jù)唯一性,來衡量數(shù)據(jù)質(zhì)量的好壞。
美團(tuán)買菜基于 Flink 的實(shí)時(shí)數(shù)倉建設(shè)
數(shù)據(jù)質(zhì)量保障體系的建設(shè)思路是基于閉環(huán)管理,事前通過流程規(guī)范,減少質(zhì)量問題的發(fā)生。事中通過數(shù)據(jù)質(zhì)量監(jiān)控系統(tǒng),發(fā)現(xiàn)問題并處理問題。事后通過復(fù)盤的形式,將遇到的問題總結(jié)提煉,持續(xù)對流程規(guī)范進(jìn)行改進(jìn)。由此可見,事前、事中、事后組成了完整的閉環(huán)。
美團(tuán)買菜基于 Flink 的實(shí)時(shí)數(shù)倉建設(shè)
在數(shù)據(jù)保障體系的推進(jìn)策略上,我們整體上分為三個(gè)階段。

  • 第一階段,提廣度。我們建立了從需求分析、技術(shù)設(shè)計(jì)、數(shù)據(jù)模型開發(fā)、數(shù)據(jù)測試數(shù)據(jù)上線等等,覆蓋了數(shù)據(jù)研發(fā)全流程的規(guī)范體系。在這個(gè)階段,我們重點(diǎn)提升質(zhì)量監(jiān)控覆蓋度,將數(shù)據(jù)生產(chǎn)過程進(jìn)行全面的監(jiān)控覆蓋。
  • 第二階段,保核心。在核心數(shù)據(jù)鏈路上,增加貼近業(yè)務(wù)的指標(biāo)監(jiān)控。相對于第一階段的監(jiān)控,第二階段的監(jiān)控能更好的發(fā)現(xiàn)個(gè)性化的業(yè)務(wù)問題。針對影響數(shù)據(jù)質(zhì)量較大的流程規(guī)范做加法,保證完整的落地,持續(xù)的改進(jìn)。
  • 第三階段,線上化、自動(dòng)化。線上化是指,將流程規(guī)范從線下轉(zhuǎn)變?yōu)榫€上管理。線上管理的好處是,便于后續(xù)的統(tǒng)計(jì)分析。自動(dòng)化是指,問題的處理、追蹤。從人工處理的方式,變成工具,自動(dòng)化的方式實(shí)現(xiàn),避免遺漏并減少運(yùn)營成本。

美團(tuán)買菜基于 Flink 的實(shí)時(shí)數(shù)倉建設(shè)
上圖是數(shù)據(jù)質(zhì)量保障體系的能力圖,數(shù)據(jù)質(zhì)量保障體系包含流程規(guī)范、質(zhì)量監(jiān)控、問題處理、持續(xù)改進(jìn)四個(gè)模塊兒。流程規(guī)范部分包含數(shù)據(jù)開發(fā)規(guī)范、工程開發(fā)流程規(guī)范、產(chǎn)業(yè)合作機(jī)制運(yùn)營三個(gè)部分。

質(zhì)量監(jiān)控包含系統(tǒng)監(jiān)控和服務(wù)監(jiān)控。其中,系統(tǒng)監(jiān)控包含存儲引擎 Kafka 流量監(jiān)控、計(jì)算引擎 Flink 核心指標(biāo)監(jiān)控、基于數(shù)據(jù)埋點(diǎn)的 Raptor 異常監(jiān)控。

在服務(wù)監(jiān)控方面,包含了主鏈路差值監(jiān)控、APP 從同環(huán)比監(jiān)控、ODS 層同環(huán)比監(jiān)控。在問題處理方面,主要包括影響周知,告警處理、數(shù)據(jù)修復(fù)。在持續(xù)改進(jìn)方面,包含基于時(shí)間線梳理、聲音定位、問歸因、監(jiān)控告警優(yōu)化、作業(yè)調(diào)參優(yōu)化、資源配置優(yōu)化。
美團(tuán)買菜基于 Flink 的實(shí)時(shí)數(shù)倉建設(shè)
在實(shí)時(shí)離線數(shù)據(jù)的一致性方面,我們基于 Doris 實(shí)現(xiàn)了存儲一體架構(gòu)。存儲一體架構(gòu)是基于 Lambda 架構(gòu)改進(jìn)實(shí)現(xiàn)的。在數(shù)據(jù)源部分,數(shù)據(jù)源通過兩種數(shù)據(jù)同步的方式,分別同步到實(shí)時(shí)數(shù)倉和離線數(shù)倉。

實(shí)時(shí)數(shù)倉通過 Flink 引擎,對數(shù)據(jù)進(jìn)行分層加工。離線數(shù)倉通過 Spark 引擎,對數(shù)據(jù)進(jìn)行分層加工。實(shí)時(shí)數(shù)倉的數(shù)據(jù)和離線數(shù)倉的數(shù)據(jù),最終會(huì)寫到 Doris 存儲引擎的同一個(gè)數(shù)據(jù)模型上。

Doris 數(shù)據(jù)模型按天進(jìn)行分區(qū),實(shí)時(shí)數(shù)倉的數(shù)據(jù)會(huì)寫到當(dāng)天分區(qū),離線數(shù)倉的數(shù)據(jù)會(huì)寫到歷史分區(qū)。當(dāng)外部的數(shù)據(jù)查詢需要查詢當(dāng)天或歷史數(shù)據(jù)時(shí),只需要通過時(shí)間分區(qū)路由。從而保證數(shù)據(jù)指標(biāo)、數(shù)據(jù)維度口徑完全一致。
美團(tuán)買菜基于 Flink 的實(shí)時(shí)數(shù)倉建設(shè)
在數(shù)據(jù)準(zhǔn)確性方面,我們通過數(shù)據(jù)冪等和監(jiān)控來實(shí)現(xiàn)。Kafka 只支持計(jì)算引擎內(nèi)的 exactly once。為了實(shí)現(xiàn)端到端的 exactly once,我們一方面使用 Doris 的約定模型,實(shí)現(xiàn)數(shù)據(jù)冪等。另一方面,在數(shù)據(jù)加工過程中,按照業(yè)務(wù)組件進(jìn)行數(shù)據(jù)去重。數(shù)據(jù)去重通常采用 row number 或 last value 的方式實(shí)踐。

在質(zhì)量的監(jiān)控上,監(jiān)控指標(biāo)體系包含窗口統(tǒng)計(jì)指標(biāo)、波動(dòng)監(jiān)控窗口。窗口統(tǒng)計(jì)指標(biāo)是指,數(shù)據(jù)量、最大值、最小值、平均值、空值、占比、正則匹配。波動(dòng)監(jiān)控是指,數(shù)據(jù)的同環(huán)比。
美團(tuán)買菜基于 Flink 的實(shí)時(shí)數(shù)倉建設(shè)
在數(shù)據(jù)的及時(shí)性方面,我們通過性能瓶頸的定位和優(yōu)化來解決。上圖展示了數(shù)據(jù)生產(chǎn)鏈路性能瓶頸定位的過程。我們在 Flink ETL 任務(wù)里,植入算子處理的時(shí)間埋點(diǎn)。然后,將 ETL 任務(wù)輸出的 Kafka,同步一份埋點(diǎn)數(shù)據(jù)到 Hive 引擎里?;?Hive 引擎進(jìn)行算子處理、性能分析,從而定位性能瓶頸。

當(dāng)算子定位到性能瓶頸之后,我們采用的優(yōu)化方式包含 TM JVM 性能調(diào)優(yōu)、Doris 性能優(yōu)化、Flink 任務(wù)優(yōu)化。具體的優(yōu)化方式包括調(diào)整新生代、老年代比例;Doris 導(dǎo)入并發(fā)數(shù);compaction 參數(shù)調(diào)優(yōu);模型合并;RSU 數(shù)據(jù)緩存;大狀態(tài)消除;代碼邏輯優(yōu)化等等。

4. 未來規(guī)劃

美團(tuán)買菜基于 Flink 的實(shí)時(shí)數(shù)倉建設(shè)
接下來,講一講未來規(guī)劃。實(shí)時(shí)數(shù)倉的未來規(guī)劃主要包含三個(gè)部分。文章來源地址http://www.zghlxwxcb.cn/news/detail-489935.html

  • 第一部分,數(shù)據(jù)的標(biāo)準(zhǔn)化。數(shù)據(jù)標(biāo)準(zhǔn)化的好處是,更好的保障數(shù)據(jù)口徑一致,提升建模規(guī)范程度,數(shù)據(jù)的應(yīng)用性。
  • 第二部分,流批一體。流批一體能提升實(shí)時(shí)離線數(shù)據(jù)的一致性和數(shù)據(jù)開發(fā)效率。
  • 第三部分,自動(dòng)化建模。自動(dòng)化建模的好處是,統(tǒng)一模型設(shè)計(jì)并實(shí)現(xiàn)任務(wù)的智能構(gòu)建。

到了這里,關(guān)于美團(tuán)買菜基于 Flink 的實(shí)時(shí)數(shù)倉建設(shè)的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 實(shí)時(shí)數(shù)倉|基于Flink1.11的SQL構(gòu)建實(shí)時(shí)數(shù)倉探索實(shí)踐

    實(shí)時(shí)數(shù)倉主要是為了解決傳統(tǒng)數(shù)倉數(shù)據(jù)時(shí)效性低的問題,實(shí)時(shí)數(shù)倉通常會(huì)用在實(shí)時(shí)的 OLAP 分析、實(shí)時(shí)的數(shù)據(jù)看板、業(yè)務(wù)指標(biāo)實(shí)時(shí)監(jiān)控等場景。雖然關(guān)于實(shí)時(shí)數(shù)倉的架構(gòu)及技術(shù)選型與傳統(tǒng)的離線數(shù)倉會(huì)存在差異,但是關(guān)于數(shù)倉建設(shè)的基本方法論是一致的。本文會(huì)分享基于 Flink

    2024年02月16日
    瀏覽(22)
  • GaussDB(DWS)基于Flink的實(shí)時(shí)數(shù)倉構(gòu)建

    本文分享自華為云社區(qū)《GaussDB(DWS)基于Flink的實(shí)時(shí)數(shù)倉構(gòu)建》,作者:胡辣湯。 大數(shù)據(jù)時(shí)代,廠商對實(shí)時(shí)數(shù)據(jù)分析的訴求越來越強(qiáng)烈,數(shù)據(jù)分析時(shí)效從T+1時(shí)效趨向于T+0時(shí)效,為了給客戶提供極速分析查詢能力,華為云數(shù)倉GaussDB(DWS)基于流處理框架Flink實(shí)現(xiàn)了實(shí)時(shí)數(shù)倉構(gòu)建。在

    2024年04月22日
    瀏覽(37)
  • 基于 Flink 的實(shí)時(shí)數(shù)倉在曹操出行運(yùn)營中的應(yīng)用

    基于 Flink 的實(shí)時(shí)數(shù)倉在曹操出行運(yùn)營中的應(yīng)用

    本文整理自曹操出行基礎(chǔ)研發(fā)部負(fù)責(zé)人史何富,在 Flink Forward Asia 2023 主會(huì)場的分享。本次分享將為大家介紹實(shí)時(shí)數(shù)倉在曹操出行(互聯(lián)網(wǎng)網(wǎng)約車出行企業(yè))的實(shí)時(shí)數(shù)倉應(yīng)用場景,以及通過離線場景向?qū)崟r(shí)場景下加速升級而獲得的業(yè)務(wù)價(jià)值。內(nèi)容主要分為以下六部分: 業(yè)務(wù)簡

    2024年01月20日
    瀏覽(17)
  • 詳解大廠實(shí)時(shí)數(shù)倉建設(shè)

    1. 實(shí)時(shí)需求日趨迫切 目前各大公司的產(chǎn)品需求和內(nèi)部決策對于數(shù)據(jù)實(shí)時(shí)性的要求越來越迫切,需要實(shí)時(shí)數(shù)倉的能力來賦能。傳統(tǒng)離線數(shù)倉的數(shù)據(jù)時(shí)效性是 T+1,調(diào)度頻率以天為單位,無法支撐實(shí)時(shí)場景的數(shù)據(jù)需求。即使能將調(diào)度頻率設(shè)置成小時(shí),也只能解決部分時(shí)效性要求不

    2024年02月08日
    瀏覽(20)
  • 伴魚實(shí)時(shí)數(shù)倉建設(shè)案例

    伴魚實(shí)時(shí)數(shù)倉建設(shè)案例

    隨著伴魚業(yè)務(wù)的快速發(fā)展,離線數(shù)據(jù)日漸無法滿足運(yùn)營同學(xué)的需求,數(shù)據(jù)的實(shí)時(shí)性要求越來越高。之前的實(shí)時(shí)任務(wù)是通過實(shí)時(shí)同步至 TiDB 的數(shù)據(jù),利用 TiDB 進(jìn)行微批計(jì)算。隨著越來越多的實(shí)時(shí)場景涌現(xiàn)出來,TiDB 已經(jīng)無法滿足實(shí)時(shí)數(shù)據(jù)計(jì)算場景,計(jì)算和查詢都在一套集群中,

    2024年01月22日
    瀏覽(20)
  • 如何基于 Apache Doris 與 Apache Flink 快速構(gòu)建極速易用的實(shí)時(shí)數(shù)倉

    如何基于 Apache Doris 與 Apache Flink 快速構(gòu)建極速易用的實(shí)時(shí)數(shù)倉

    隨著大數(shù)據(jù)應(yīng)用的不斷深入,企業(yè)不再滿足離線數(shù)據(jù)加工計(jì)算的時(shí)效,實(shí)時(shí)數(shù)據(jù)需求已成為數(shù)據(jù)應(yīng)用新常態(tài)。伴隨著實(shí)時(shí)分析需求的不斷膨脹,傳統(tǒng)的數(shù)據(jù)架構(gòu)面臨的成本高、實(shí)時(shí)性無法保證、組件繁冗、運(yùn)維難度高等問題日益凸顯。為了適應(yīng)業(yè)務(wù)快速迭代的特點(diǎn),幫助企業(yè)

    2024年02月12日
    瀏覽(20)
  • 1.8萬字詳解實(shí)時(shí)數(shù)倉建設(shè)方案及大廠案例

    1.8萬字詳解實(shí)時(shí)數(shù)倉建設(shè)方案及大廠案例

    一、實(shí)時(shí)數(shù)倉建設(shè)背景 關(guān)注公號: 數(shù)元齋 1. 實(shí)時(shí)需求日趨迫切 目前各大公司的產(chǎn)品需求和內(nèi)部決策對于數(shù)據(jù)實(shí)時(shí)性的要求越來越迫切,需要實(shí)時(shí)數(shù)倉的能力來賦能。傳統(tǒng)離線數(shù)倉的數(shù)據(jù)時(shí)效性是 T+1,調(diào)度頻率以天為單位,無法支撐實(shí)時(shí)場景的數(shù)據(jù)需求。即使能將調(diào)度頻率

    2024年02月02日
    瀏覽(22)
  • Flink+Doris 實(shí)時(shí)數(shù)倉

    Flink+Doris 實(shí)時(shí)數(shù)倉

    Doris基本原理 Doris基本架構(gòu)非常簡單,只有FE(Frontend)、BE(Backend)兩種角色,不依賴任何外部組件,對部署和運(yùn)維非常友好。架構(gòu)圖如下 可以 看到Doris 的數(shù)倉架構(gòu)十分簡潔,不依賴 Hadoop 生態(tài)組件,構(gòu)建及運(yùn)維成本較低。 FE(Frontend)以 Java 語言為主,主要功能職責(zé): 接收用戶

    2024年02月07日
    瀏覽(20)
  • Flink電商實(shí)時(shí)數(shù)倉(四)

    業(yè)務(wù)數(shù)據(jù):數(shù)據(jù)都是MySQL中的表格數(shù)據(jù), 使用Flink SQL 處理 日志數(shù)據(jù):分為page頁面日志(頁面信息,曝光信息,動(dòng)作信息,報(bào)錯(cuò)信息)和啟動(dòng)日志(啟動(dòng)信息,報(bào)錯(cuò)信息),使用Flink Stream API處理 五種日志數(shù)據(jù): “start”; 啟動(dòng)信息 “err”; 錯(cuò)誤信息 “display”; 曝光信息 “ac

    2024年01月17日
    瀏覽(20)
  • Flink電商實(shí)時(shí)數(shù)倉(三)

    Flink電商實(shí)時(shí)數(shù)倉(三)

    維度層的重點(diǎn)和難點(diǎn)在于實(shí)時(shí)電商數(shù)倉需要的維度信息一般是動(dòng)態(tài)的變化的,并且由于實(shí)時(shí)數(shù)倉一般需要一直運(yùn)行,無法使用常規(guī)的配置文件重啟加載方式來修改需要讀取的ODS層數(shù)據(jù),因此需要通過Flink-cdc實(shí)時(shí)監(jiān)控MySql中的維度數(shù)據(jù)配置信息表,實(shí)時(shí)動(dòng)態(tài)的發(fā)布廣播信息。主

    2024年02月03日
    瀏覽(19)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包