在剛剛過(guò)去的2024春季發(fā)布會(huì)上,袋鼠云帶來(lái)了數(shù)棧產(chǎn)品V6.2版本的全新發(fā)布。其中,EasyMR 作為數(shù)棧V6.2中的一項(xiàng)關(guān)鍵能力,代表了袋鼠云對(duì)大數(shù)據(jù)生態(tài)的深入理解和持續(xù)創(chuàng)新。
EasyMR(后文統(tǒng)稱EMR)是袋鼠云基于 Hadoop、Hive、Spark、Flink、HBase 等開源組件,構(gòu)建的彈性計(jì)算引擎,提供安全可靠、彈性伸縮、低成本的大數(shù)據(jù)存儲(chǔ)與計(jì)算服務(wù)。其中自主研發(fā)的 EasyManager 企業(yè)級(jí)大數(shù)據(jù)運(yùn)維管理平臺(tái)支持 Hadoop 集群的一站式創(chuàng)建、管理、部署、運(yùn)維與監(jiān)控功能,提供高效搭建數(shù)據(jù)中臺(tái)解決方案。
面對(duì)企業(yè)日益增長(zhǎng)的數(shù)據(jù)處理和分析需求,EMR6.2版本,將為用戶提供更為出色的大數(shù)據(jù)運(yùn)維服務(wù)及計(jì)算性能優(yōu)化。以下是針對(duì) EMR6.2 版本四大功能優(yōu)化的詳細(xì)介紹,幫助用戶全面了解這一創(chuàng)新產(chǎn)品。
UI全面煥新升級(jí):簡(jiǎn)約舒適的交互體驗(yàn)
袋鼠云深知用戶體驗(yàn)的重要性,因此在 EMR6.2 版本中,我們對(duì) UI 界面進(jìn)行了全面的煥新升級(jí)。新的界面設(shè)計(jì)遵循了簡(jiǎn)約而不失優(yōu)雅的風(fēng)格,旨在為用戶提供一個(gè)直觀、舒適的交互體驗(yàn)。無(wú)論是新手還是資深用戶,都能迅速上手,輕松管理復(fù)雜的大數(shù)據(jù)集群。
此外,我們還優(yōu)化了界面的響應(yīng)速度和操作流暢性,確保用戶在集群運(yùn)維時(shí)能夠享受到更加順滑的操作體驗(yàn)。
差異化配置:滿足多樣化需求
EMR6.2 版本引入了實(shí)例組-差異化配置功能,允許用戶根據(jù)自己的具體需求定制集群配置。用戶可以把 EMR 集群中的不同節(jié)點(diǎn)構(gòu)建獨(dú)立實(shí)例組,實(shí)例組中設(shè)置特定的配置參數(shù),以實(shí)現(xiàn)更好的性能、資源利用和任務(wù)調(diào)度。
無(wú)論是對(duì)于成本敏感的初創(chuàng)企業(yè),還是對(duì)于性能有更高要求的大型企業(yè),EMR6.2 都能提供靈活的配置選項(xiàng),滿足不同用戶的需求。
針對(duì)實(shí)例組實(shí)行差異化配置策略,其具體優(yōu)勢(shì)包括但不限于以下幾點(diǎn):
● 資源分配
差異化配置能有效針對(duì)各類任務(wù)的獨(dú)特需求進(jìn)行精細(xì)化資源配置,涵蓋計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)資源等多個(gè)層面。避免資源浪費(fèi),同時(shí)提高資源利用率,確保集群的各項(xiàng)任務(wù)都能得到合適的資源支持。
● 任務(wù)調(diào)度優(yōu)化
針對(duì)不同類型的任務(wù)或作業(yè),可以根據(jù)其特點(diǎn)設(shè)定不同的配置參數(shù),以優(yōu)化任務(wù)調(diào)度和執(zhí)行效率。
● 容錯(cuò)與穩(wěn)定性
通過(guò)差異化配置,可以提高集群的容錯(cuò)能力和穩(wěn)定性。根據(jù)節(jié)點(diǎn)或?qū)嵗M的重要性和負(fù)載情況,可以設(shè)置不同的容錯(cuò)機(jī)制和故障處理策略,確保集群在面對(duì)異常情況時(shí)能夠保持穩(wěn)定運(yùn)行。
● 成本管理
差異化配置還可以幫助管理成本,根據(jù)業(yè)務(wù)需求和預(yù)算限制,對(duì)集群中的不同實(shí)例組進(jìn)行合理配置,避免資源浪費(fèi),降低運(yùn)維成本,并在性能和成本之間找到平衡點(diǎn)。
集群遷移:無(wú)縫過(guò)渡,業(yè)務(wù)不中斷
隨著企業(yè)的業(yè)務(wù)發(fā)展,不斷增長(zhǎng)的數(shù)據(jù)量往往會(huì)導(dǎo)致數(shù)據(jù)中心的容量不足或者數(shù)據(jù)中心變更等問(wèn)題,企業(yè)需要將數(shù)據(jù)從一個(gè)數(shù)據(jù)中心遷移到另一個(gè)數(shù)據(jù)中心。同時(shí)在國(guó)產(chǎn)化平替背景下,越來(lái)越多的企業(yè)將 CDH、HDP、CDP 等非信創(chuàng)平臺(tái)遷移到國(guó)產(chǎn)化大數(shù)據(jù)平臺(tái)。因此 EMR 推出了大數(shù)據(jù)集群遷移功能,可以幫助企業(yè)高效地完成數(shù)據(jù)中心的遷移。
集群遷移功能支持用戶在不同的數(shù)據(jù)中心或云服務(wù)之間無(wú)縫遷移他們的大數(shù)據(jù)集群,而無(wú)需擔(dān)心數(shù)據(jù)丟失或業(yè)務(wù)中斷。通過(guò)這一功能,企業(yè)可以更加靈活地調(diào)整其IT基礎(chǔ)設(shè)施,以適應(yīng)不斷變化的市場(chǎng)需求。
引擎升級(jí)大揭秘:性能飛躍,全新體驗(yàn)
最令人激動(dòng)的是,EMR6.2 版本在計(jì)算引擎性能上實(shí)現(xiàn)了重大突破。我們不僅對(duì)現(xiàn)有的 Spark、Flink 計(jì)算引擎進(jìn)行了問(wèn)題優(yōu)化,還引入了新的算法和技術(shù),以提高數(shù)據(jù)處理速度和計(jì)算效率。這意味著用戶可以在更短的時(shí)間內(nèi)完成更復(fù)雜的數(shù)據(jù)分析任務(wù),從而加快決策過(guò)程,提升企業(yè)競(jìng)爭(zhēng)力。
● Spark3 支持 Z-oreder 索引優(yōu)化
Z-Order 是一種可以將多維數(shù)據(jù)壓縮到一維的技術(shù),對(duì)于一條數(shù)據(jù)來(lái)說(shuō),我們可以將其多個(gè)要排序的字段看作是數(shù)據(jù)的多個(gè)維度,Z-Order 可以通過(guò)一定的規(guī)則將多維數(shù)據(jù)映射到一維數(shù)據(jù)上。
具體表現(xiàn)為通過(guò)一定的規(guī)則構(gòu)建 z-value 值,該 z-value 值可以理解為上文所提到的一維數(shù)據(jù),此時(shí)我們就可以基于該一維數(shù)據(jù)進(jìn)行排序。如下圖所示:
在 Spark SQL 中,袋鼠云新增 OPTIMIZE XX ZORDER BY 語(yǔ)法來(lái)支持 Z-Order 索引,實(shí)現(xiàn)了 INSERT INTO table 、INSERT OVERWRITE table、CREATE TABLE table AS SELECT、DISTINCT 等 SQL 的 Z-Order 索引優(yōu)化。
Spark3 支持 Z-order 優(yōu)化后極大提高了數(shù)據(jù)處理和查詢的效率,減少 IO 開銷,加速作業(yè)的執(zhí)行速度。特別是在需要處理大規(guī)模數(shù)據(jù)集和復(fù)雜查詢操作的場(chǎng)景下,Z-order 優(yōu)化可以發(fā)揮重要作用。在解決文件壓縮率的問(wèn)題上,使用 Z-order 優(yōu)化后,文件壓縮率相比手動(dòng)優(yōu)化提升了近 20%,相比原始任務(wù)提升了近10倍, 對(duì)比開源 Spark3 的任務(wù)也有近 30% 的性能提升,極大提升了離線作業(yè)的性能和效率。
● Flink Per-job 任務(wù)熱更新
實(shí)際的生產(chǎn)作業(yè)中,往往會(huì)出現(xiàn)實(shí)時(shí)任務(wù)參數(shù)變更或者算子、函數(shù)調(diào)優(yōu)等情況,通常只能先取消當(dāng)前任務(wù),再選擇 CheckPoint 恢復(fù)或者重新運(yùn)行,整個(gè)過(guò)程大概需要3-5分鐘等待,極大浪費(fèi)任務(wù)開發(fā)時(shí)間。
為了解決傳統(tǒng) Per-Job 模式下任務(wù)更新導(dǎo)致的服務(wù)中斷問(wèn)題,提高任務(wù)的穩(wěn)定性和系統(tǒng)的可用性,滿足生產(chǎn)環(huán)境中對(duì)業(yè)務(wù)連續(xù)性和高可用性的要求。袋鼠云引擎團(tuán)隊(duì)進(jìn)行了相關(guān)探索及源碼的改進(jìn),在 Per-Job 任務(wù)取消的異步回調(diào)里進(jìn)行任務(wù)的熱重啟優(yōu)化:
①首先判斷當(dāng)前是否存在新的 JobGraph 緩存,存在緩存時(shí)進(jìn)入熱重啟邏輯
②獲取取消任務(wù)的 CheckPoint 信息,填充到新的 JobGraph
③將 JobGrap 更新到 JobMaster,清理 JobGraph 的緩存信息
④清除 JobMaster 里 SloyPool 管理的資源
⑤JobMaster 重新創(chuàng)建 ScheduleNg 并調(diào)度運(yùn)行,至此開啟新的 JobGraph 調(diào)度運(yùn)行
Flink Per-job 任務(wù)熱更新優(yōu)化之后顯著提高了開發(fā)效率,減少停機(jī)時(shí)間并提升了應(yīng)用程序的靈活性和可靠性。對(duì)于需要快速迭代和動(dòng)態(tài)調(diào)整的實(shí)時(shí)應(yīng)用程序,帶來(lái)極致的效率體驗(yàn)。
· 提高開發(fā)效率: 開發(fā)人員可以快速測(cè)試和迭代代碼,而無(wú)需經(jīng)歷繁瑣的停止和重啟過(guò)程,這加快了開發(fā)周期,并允許更頻繁的發(fā)布
· 減少停機(jī)時(shí)間: 熱更新可以最大限度地減少應(yīng)用程序的停機(jī)時(shí)間,從而提高服務(wù)的可用性,對(duì)于關(guān)鍵任務(wù)和實(shí)時(shí)應(yīng)用程序,尤為重要
· 動(dòng)態(tài)調(diào)整參數(shù): 可以動(dòng)態(tài)調(diào)整作業(yè)配置參數(shù),例如并行度或算子參數(shù),而無(wú)需重啟作業(yè),允許根據(jù)實(shí)時(shí)數(shù)據(jù)流或負(fù)載情況進(jìn)行靈活調(diào)整
● 其他功能開發(fā)
此外,在引擎?zhèn)任覀冞€進(jìn)行了 Spark Ranger 對(duì)接、Spark 物化視圖優(yōu)化、Flink Session 模式類加載隔離等功能開發(fā),提升引擎計(jì)算性能的同時(shí)增強(qiáng)引擎的任務(wù)安全性和可擴(kuò)展性。
總結(jié)
總結(jié)而言,EMR6.2 版本的發(fā)布,標(biāo)志著袋鼠云在大數(shù)據(jù)服務(wù)領(lǐng)域的又一重要里程碑。通過(guò)UI全面煥新升級(jí)、差異化配置、集群遷移以及引擎升級(jí)等四大功能的優(yōu)化,EMR6.2 為用戶提供了一個(gè)更加強(qiáng)大、靈活和高效的大數(shù)據(jù)計(jì)算引擎平臺(tái),助力企業(yè)在數(shù)據(jù)管理和分析方面實(shí)現(xiàn)質(zhì)的飛躍。
《行業(yè)指標(biāo)體系白皮書》下載地址:https://www.dtstack.com/resources/1057?src=szsm
《數(shù)棧產(chǎn)品白皮書》下載地址:https://www.dtstack.com/resources/1004?src=szsm
《數(shù)據(jù)治理行業(yè)實(shí)踐白皮書》下載地址:https://www.dtstack.com/resources/1001?src=szsm文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-855316.html
想了解或咨詢更多有關(guān)大數(shù)據(jù)產(chǎn)品、行業(yè)解決方案、客戶案例的朋友,瀏覽袋鼠云官網(wǎng):https://www.dtstack.com/?src=szbky文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-855316.html
到了這里,關(guān)于EasyMR6.2 全面解讀:四大功能深度優(yōu)化,解鎖全新大數(shù)據(jù)處理和計(jì)算體驗(yàn)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!