国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

“數(shù)據(jù)驅(qū)動(dòng)”時(shí)代,企業(yè)為什么需要實(shí)時(shí)湖倉(cāng)?

這篇具有很好參考價(jià)值的文章主要介紹了“數(shù)據(jù)驅(qū)動(dòng)”時(shí)代,企業(yè)為什么需要實(shí)時(shí)湖倉(cāng)?。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

當(dāng)談到數(shù)據(jù)湖的時(shí)候,大家都在說,可以把所有數(shù)據(jù)(結(jié)構(gòu)化/半結(jié)構(gòu)化/非結(jié)構(gòu)化)一股腦都丟進(jìn)去,進(jìn)行統(tǒng)一的元數(shù)據(jù)管理。然后上層計(jì)算對(duì)接,進(jìn)行流批計(jì)算/OLAP 分析/算法分析。

這個(gè)沒問題,數(shù)據(jù)湖確實(shí)能承接底層的這部分能力,但是同時(shí)出現(xiàn)的問題也是不容忽視的。

本文將關(guān)注討論,利用湖倉(cāng)架構(gòu),統(tǒng)一結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)的流批計(jì)算,和大家聊聊為什么企業(yè)需要實(shí)時(shí)湖倉(cāng)。非結(jié)構(gòu)化的視頻/圖片/文本等數(shù)據(jù)的存儲(chǔ)和計(jì)算不在本文的討論范圍內(nèi)。

當(dāng)前的企業(yè)困境

下圖是一個(gè)經(jīng)典的 Lambda 架構(gòu),雖然這套架構(gòu)的優(yōu)點(diǎn)很明顯:技術(shù)方案成熟、應(yīng)用實(shí)踐廣泛,適用于企業(yè)發(fā)展過程中各階段、各場(chǎng)景下的大數(shù)據(jù)開發(fā)需求。

“數(shù)據(jù)驅(qū)動(dòng)”時(shí)代,企業(yè)為什么需要實(shí)時(shí)湖倉(cāng)?

但是,隨著業(yè)務(wù)對(duì)數(shù)據(jù)時(shí)效性要求的提高,許多企業(yè)的實(shí)時(shí)任務(wù)體量,正在逐步接近存量離線任務(wù)。在數(shù)據(jù)開發(fā)和運(yùn)維資源有限的情況下,這套架構(gòu)的問題正在逐漸暴露出來:

· 離線開發(fā)鏈路中的數(shù)據(jù)更新問題,在當(dāng)前技術(shù)環(huán)境下顯得越來越難以容忍

· 實(shí)時(shí)開發(fā)鏈路中的數(shù)據(jù)不落地問題,無(wú)法支持歷史數(shù)據(jù)回溯、查詢分析等場(chǎng)景

· 多種計(jì)算引擎,造成數(shù)據(jù)開發(fā)學(xué)習(xí)成本和運(yùn)維管理成本的居高不下

· 多種存儲(chǔ)介質(zhì),造成數(shù)據(jù)存儲(chǔ)冗余、批/流數(shù)據(jù)不一致

· ……

解決之道:實(shí)時(shí)湖倉(cāng)

下圖是一種實(shí)時(shí)湖倉(cāng)解決方案,利用湖存儲(chǔ)的特性和 Flink 的流批計(jì)算能力,統(tǒng)一存儲(chǔ)和計(jì)算,解決 Lambda 架構(gòu)的問題。

“數(shù)據(jù)驅(qū)動(dòng)”時(shí)代,企業(yè)為什么需要實(shí)時(shí)湖倉(cāng)?

本文以 Paimon 為例,Paimon 是 Flink 內(nèi)部基于 Flink Tablestore 孵化的一款湖存儲(chǔ)產(chǎn)品。和 Hudi/Iceberg 相比,Paimon 和 Flink 引擎有著更完整的兼容能力。

下面將就袋鼠云的實(shí)踐經(jīng)驗(yàn),展開說說如何使用“Flink+數(shù)據(jù)湖”三步構(gòu)建實(shí)時(shí)湖倉(cāng)。

● Step1:搭建實(shí)時(shí) ODS 層

不管是通過 Flink 消費(fèi) Kafka,還是通過 FlinkCDC 采集日志,都可以將源庫(kù)數(shù)據(jù)實(shí)時(shí)同步至 Paimon 中。

這樣,無(wú)論上層是要做批計(jì)算還是流計(jì)算,都有份統(tǒng)一的實(shí)時(shí) ODS 數(shù)據(jù)做基礎(chǔ),避免了數(shù)據(jù)不一致和存儲(chǔ)冗余的問題。

“數(shù)據(jù)驅(qū)動(dòng)”時(shí)代,企業(yè)為什么需要實(shí)時(shí)湖倉(cāng)?

● Step2:加工湖倉(cāng)中間層

關(guān)于實(shí)時(shí)湖倉(cāng)的層級(jí)設(shè)計(jì),可以參考成熟的離線數(shù)倉(cāng)劃分方案。

“數(shù)據(jù)驅(qū)動(dòng)”時(shí)代,企業(yè)為什么需要實(shí)時(shí)湖倉(cāng)?

從上面的架構(gòu)圖中可以看出,Paimon 存儲(chǔ)將文件分為 DataFile 和 LogFile:

· DataFile 用于存量數(shù)據(jù)的批計(jì)算

· LogFile 用于增量數(shù)據(jù)的流計(jì)算,但畢竟是一種文件存儲(chǔ)格式,其實(shí)時(shí)性只能做到分鐘級(jí)別。如果業(yè)務(wù)場(chǎng)景對(duì)實(shí)時(shí)性有秒級(jí)/毫秒級(jí)要求,Paimon 也支持將 Kafka 外掛為 LogFile 使用,同時(shí)對(duì)上層應(yīng)用暴露的,仍然只有一張 Paimon 表。

基于上面的特性,如何在實(shí)際應(yīng)用體現(xiàn)出流/批一體能力,可以參考如下幾種開發(fā)場(chǎng)景:

01 流、批獨(dú)立任務(wù)

根據(jù)實(shí)際業(yè)務(wù)場(chǎng)景需要,使用 Flink+Paimon 的統(tǒng)一技術(shù)棧,進(jìn)行離線任務(wù)和實(shí)時(shí)任務(wù)的獨(dú)立開發(fā)。

02 批流一體任務(wù)

在很多實(shí)時(shí)統(tǒng)計(jì)類的數(shù)據(jù)開發(fā)場(chǎng)景下,往往需要在完成存量數(shù)據(jù)統(tǒng)計(jì)的基礎(chǔ)上,再銜接實(shí)時(shí)增量計(jì)算。傳統(tǒng)的 Lambda 架構(gòu)要完成這種場(chǎng)景,實(shí)現(xiàn)上相對(duì)比較復(fù)雜,而使用 Flink+Paimon,一個(gè)任務(wù)即可滿足。

03 流批一體任務(wù)

傳統(tǒng)的 Lambda 架構(gòu)中,為了保障 Flink+Kafka 實(shí)時(shí)計(jì)算的準(zhǔn)確性,往往需要將 Kafka 數(shù)據(jù)雙寫一份到離線存儲(chǔ)中,然后通過離線定時(shí)任務(wù)對(duì)實(shí)時(shí)計(jì)算結(jié)果做一次覆蓋修正。而使用 Flink+Paimon,一個(gè)任務(wù)即可滿足。

● Step3:湖倉(cāng)分析應(yīng)用層

這層有兩種不同的落地方案,可以根據(jù)企業(yè)技術(shù)棧自由選型:

· ADS 層數(shù)據(jù)也在數(shù)據(jù)湖加工落地,然后使用 OLAP 引擎如 Trino、StarRocks 直接對(duì)接數(shù)據(jù)湖,向上層提供數(shù)據(jù)分析能力。這樣做可以實(shí)現(xiàn)存儲(chǔ)的完全統(tǒng)一,但是在查詢分析性能上會(huì)有一定的犧牲。

“數(shù)據(jù)驅(qū)動(dòng)”時(shí)代,企業(yè)為什么需要實(shí)時(shí)湖倉(cāng)?

· 將 DWS 層數(shù)據(jù)加工后打入 StarRocks 或者 ClickHouse 這類存儲(chǔ)+分析的統(tǒng)一引擎。該方案可以充分利用這類引擎的查詢加速能力,對(duì)于 OLAP 場(chǎng)景有較高要求的企業(yè),是個(gè)比較合適的方案。

“數(shù)據(jù)驅(qū)動(dòng)”時(shí)代,企業(yè)為什么需要實(shí)時(shí)湖倉(cāng)?

企業(yè)的其他選擇?

目前業(yè)內(nèi)比較熱門的探索實(shí)踐,不依賴 Hadoop 體系,僅利用 StarRocks/Doris 構(gòu)建實(shí)時(shí)數(shù)倉(cāng)的方式,大致的架構(gòu)圖如下:

“數(shù)據(jù)驅(qū)動(dòng)”時(shí)代,企業(yè)為什么需要實(shí)時(shí)湖倉(cāng)?

理論上,該方案確實(shí)可行。StarRocks/Doris 本身作為計(jì)算+存儲(chǔ)一體的引擎,具備向量化、MPP 架構(gòu)、CBO、智能物化視圖、可實(shí)時(shí)更新等能力,在一定程度上可以滿足構(gòu)建實(shí)時(shí)數(shù)倉(cāng)的要求。

但是,在我們接觸過的一些金融客戶的實(shí)際應(yīng)用中發(fā)現(xiàn),當(dāng)數(shù)據(jù)體量較大、視圖邏輯較復(fù)雜時(shí),該方案存在明顯的性能瓶頸。

而根據(jù) StarRocks/Doris 官網(wǎng)對(duì)自己高性能分析型數(shù)倉(cāng)的定位,將它作為企業(yè) OLAP 的選型,完全沒有問題,但是寄希望于它承擔(dān)全鏈路的大數(shù)據(jù)計(jì)算,目前來看還有很長(zhǎng)的路要走。

所以,將實(shí)時(shí)湖倉(cāng)部分層級(jí)的計(jì)算,前移至“Flink+數(shù)據(jù)湖”的架構(gòu)中,仍然是當(dāng)前技術(shù)方案中最優(yōu)的選擇。

本文根據(jù)《實(shí)時(shí)湖倉(cāng)實(shí)踐五講第一期》直播內(nèi)容總結(jié)而來,感興趣的朋友們可免費(fèi)獲取直播課件:

直播課件:

https://www.dtstack.com/resources/1050?src=szsm

《數(shù)棧產(chǎn)品白皮書》:https://www.dtstack.com/resources/1004?src=szsm

《數(shù)據(jù)治理行業(yè)實(shí)踐白皮書》下載地址:https://www.dtstack.com/resources/1001?src=szsm

想了解或咨詢更多有關(guān)袋鼠云大數(shù)據(jù)產(chǎn)品、行業(yè)解決方案、客戶案例的朋友,瀏覽袋鼠云官網(wǎng):https://www.dtstack.com/?src=szbky

同時(shí),歡迎對(duì)大數(shù)據(jù)開源項(xiàng)目有興趣的同學(xué)加入「袋鼠云開源框架釘釘技術(shù)qun」,交流最新開源技術(shù)信息,qun號(hào)碼:30537511,項(xiàng)目地址:https://github.com/DTStack文章來源地址http://www.zghlxwxcb.cn/news/detail-695163.html

到了這里,關(guān)于“數(shù)據(jù)驅(qū)動(dòng)”時(shí)代,企業(yè)為什么需要實(shí)時(shí)湖倉(cāng)?的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • CH340-為什么需要安裝驅(qū)動(dòng)?

    CH340-為什么需要安裝驅(qū)動(dòng)?

    CH340作為一種電平轉(zhuǎn)換芯片,用于TTL轉(zhuǎn)USB,最終實(shí)現(xiàn)USB轉(zhuǎn)串口(一般用于電腦和設(shè)備之間的通信) ? (串口:串行通信接口。對(duì)于電腦來說,串口就是DB9,USB;對(duì)于嵌入式來說,串口一般就是指UART(GNDVCCTXDRXD)。二者之間電平標(biāo)準(zhǔn)不同,通過轉(zhuǎn)換芯片進(jìn)行轉(zhuǎn)換。) 簡(jiǎn)單來

    2024年02月06日
    瀏覽(92)
  • 企業(yè)數(shù)字化轉(zhuǎn)型:為什么需要做 ModelOps 模型全生命周期管理

    企業(yè)數(shù)字化轉(zhuǎn)型:為什么需要做 ModelOps 模型全生命周期管理

    現(xiàn)如今,以大數(shù)據(jù)、云計(jì)算、人工智能、工業(yè)互聯(lián)網(wǎng)為代表的數(shù)字科技正飛速發(fā)展,帶領(lǐng)技術(shù)與產(chǎn)業(yè)向數(shù)字化、智能化的方向展開變革——數(shù)字科技正逐漸成為推動(dòng)世界經(jīng)濟(jì)高質(zhì)量發(fā)展的核心驅(qū)動(dòng)力,數(shù)字經(jīng)濟(jì)應(yīng)運(yùn)而生。而對(duì)于企業(yè)來說, 數(shù)字化轉(zhuǎn)型則是發(fā)展數(shù)字經(jīng)濟(jì)的必由

    2024年02月04日
    瀏覽(27)
  • Git企業(yè)開發(fā)控制理論和實(shí)操-從入門到深入(一)|為什么需要Git|Git的安裝

    那么這里博主先安利一些干貨滿滿的專欄了! 首先是博主的高質(zhì)量博客的匯總,這個(gè)專欄里面的博客,都是博主最最用心寫的一部分,干貨滿滿,希望對(duì)大家有幫助。 高質(zhì)量博客匯總 https://blog.csdn.net/yu_cblog/category_12379430.html 然后就是博主最近最花信息的一個(gè)專欄《Git企業(yè)開

    2024年02月11日
    瀏覽(23)
  • 為什么需要數(shù)據(jù)倉(cāng)庫(kù)

    為什么不在OLTP環(huán)境下分析?? OLTP環(huán)境也會(huì)存儲(chǔ)歷史數(shù)據(jù),但這些歷史數(shù)據(jù)并不是業(yè)務(wù)運(yùn)行所需的,這些歷史數(shù)據(jù)需要經(jīng)常歸檔到數(shù)據(jù)倉(cāng)庫(kù),并且在OLTP數(shù)據(jù)庫(kù)中刪除。 相比之下,事務(wù)環(huán)境適用于連續(xù)處理事務(wù),通常應(yīng)用于訂單錄入以及財(cái)務(wù)和零售事務(wù)。它們并不依賴歷史數(shù)據(jù)

    2024年01月25日
    瀏覽(32)
  • 實(shí)時(shí)湖倉(cāng)技術(shù)選型,企業(yè)如何借實(shí)時(shí)湖倉(cāng)贏在“數(shù)據(jù)驅(qū)動(dòng)”時(shí)代

    實(shí)時(shí)湖倉(cāng)技術(shù)選型,企業(yè)如何借實(shí)時(shí)湖倉(cāng)贏在“數(shù)據(jù)驅(qū)動(dòng)”時(shí)代

    在之前三期的實(shí)時(shí)湖倉(cāng)系列文章中,我們從業(yè)務(wù)側(cè)、產(chǎn)品側(cè)、應(yīng)用側(cè)等幾個(gè)方向,為大家介紹了實(shí)時(shí)湖倉(cāng)方方面面的內(nèi)容,包括實(shí)時(shí)湖倉(cāng)對(duì)于企業(yè)數(shù)字化布局的重要性以及如何進(jìn)行實(shí)時(shí)湖倉(cāng)的落地實(shí)踐等。 本文將從純技術(shù)的角度,為大家解析實(shí)時(shí)湖倉(cāng)的存儲(chǔ)原理以及生態(tài)選型

    2024年02月04日
    瀏覽(24)
  • 視覺化洞察:為什么我們需要數(shù)據(jù)可視化?

    視覺化洞察:為什么我們需要數(shù)據(jù)可視化?

    為什么我們需要數(shù)據(jù)可視化?這個(gè)問題在信息時(shí)代變得愈發(fā)重要。數(shù)據(jù),如今已成為生活的一部分,我們每天都在產(chǎn)生大量的數(shù)據(jù),從社交媒體到購(gòu)物記錄,從健康數(shù)據(jù)到工作表現(xiàn),數(shù)據(jù)無(wú)處不在。然而,數(shù)據(jù)本身通常是冷冰冰的數(shù)字,對(duì)于大多數(shù)人而言,理解和分析這些數(shù)

    2024年02月10日
    瀏覽(31)
  • 為什么越來越多的企業(yè)選擇云數(shù)據(jù)存儲(chǔ)而放棄本地?cái)?shù)據(jù)存儲(chǔ)?

    為什么越來越多的企業(yè)選擇云數(shù)據(jù)存儲(chǔ)而放棄本地?cái)?shù)據(jù)存儲(chǔ)?

    隨著企業(yè)的發(fā)展,它們會(huì)產(chǎn)生大量數(shù)據(jù)。企業(yè)已經(jīng)意識(shí)到,利用他們的數(shù)據(jù)做出數(shù)據(jù)驅(qū)動(dòng)的決策對(duì)于創(chuàng)新和保持競(jìng)爭(zhēng)優(yōu)勢(shì)至關(guān)重要。 本文將會(huì)探討企業(yè)在收集和分析大數(shù)據(jù)時(shí)可能面臨的主要挑戰(zhàn),以及將企業(yè)數(shù)據(jù)倉(cāng)庫(kù)部署到本地或云數(shù)據(jù)存儲(chǔ)的選擇。我們將根據(jù)安全性、成本

    2024年02月08日
    瀏覽(20)
  • CloudNative:云原生(分布式云)的簡(jiǎn)介(發(fā)展&演變/為什么需要/優(yōu)勢(shì)&價(jià)值/安全/對(duì)比傳統(tǒng)企業(yè)應(yīng)用)、四大核心技術(shù)、CNCF云原生交互景觀、云原生技術(shù)的使用經(jīng)驗(yàn)及方法之詳細(xì)攻略

    CloudNative:云原生(分布式云)的簡(jiǎn)介(發(fā)展&演變/為什么需要/優(yōu)勢(shì)&價(jià)值/安全/對(duì)比傳統(tǒng)企業(yè)應(yīng)用)、四大核心技術(shù)、CNCF云原生交互景觀、云原生技術(shù)的使用經(jīng)驗(yàn)及方法之詳細(xì)攻略

    CloudNative:云原生(分布式云)的簡(jiǎn)介(發(fā)展演變/為什么需要/優(yōu)勢(shì)價(jià)值/安全/對(duì)比傳統(tǒng)企業(yè)應(yīng)用)、四大核心技術(shù)、CNCF云原生交互景觀、云原生技術(shù)的使用經(jīng)驗(yàn)及方法之詳細(xì)攻略 導(dǎo)讀 :從“ 軟件正在吞噬世界 ”到“ 開源正在吞噬軟件 ”,到如今“ 云原生吞噬開源 ”,開源項(xiàng)目

    2023年04月16日
    瀏覽(40)
  • mysql面試題30:什么是數(shù)據(jù)庫(kù)連接池、應(yīng)用程序和數(shù)據(jù)庫(kù)建立連接的過程、為什么需要數(shù)據(jù)庫(kù)連接池、你知道哪些數(shù)據(jù)庫(kù)連接池

    mysql面試題30:什么是數(shù)據(jù)庫(kù)連接池、應(yīng)用程序和數(shù)據(jù)庫(kù)建立連接的過程、為什么需要數(shù)據(jù)庫(kù)連接池、你知道哪些數(shù)據(jù)庫(kù)連接池

    該文章專注于面試,面試只要回答關(guān)鍵點(diǎn)即可,不需要對(duì)框架有非常深入的回答,如果你想應(yīng)付面試,是足夠了,抓住關(guān)鍵點(diǎn) 數(shù)據(jù)庫(kù)連接池是一種用于管理和復(fù)用數(shù)據(jù)庫(kù)連接的技術(shù)。它是在應(yīng)用程序和數(shù)據(jù)庫(kù)之間建立一組數(shù)據(jù)庫(kù)連接,并以池的形式存儲(chǔ)起來,每當(dāng)應(yīng)用程序需

    2024年02月07日
    瀏覽(31)
  • 為什么需要uboot?

    bootROM: 一種固化在芯片內(nèi)部的只讀存儲(chǔ)器(ROM),用于啟動(dòng)和初始化系統(tǒng)。BootROM 中通常包含了一些預(yù)先編寫好的代碼,用于完成系統(tǒng)啟動(dòng)前的基本初始化和配置, 例如初始化時(shí)鐘、GPIO控制器、中斷控制器、存儲(chǔ)設(shè)備(SD卡、NAND Flash、SPicy Flash)等硬件資源, 檢測(cè)啟動(dòng)設(shè)備

    2023年04月23日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包