本文分享自華為云社區(qū)《新一代云原生可觀測(cè)平臺(tái)之華為云CCE集群健康中心》,作者:云容器大未來(lái)。
"Kubernetes運(yùn)維確實(shí)復(fù)雜,這不僅需要深入理解各種概念、原理和最佳實(shí)踐,還需要對(duì)集群的健康狀態(tài)、資源利用率、容器的穩(wěn)定性等多個(gè)方面進(jìn)行風(fēng)險(xiǎn)評(píng)估。當(dāng)集群出現(xiàn)故障時(shí),我們通常需要花費(fèi)大量時(shí)間來(lái)分析各種日志和監(jiān)控信息,以找出問(wèn)題的根本原因。"一位IT公司運(yùn)維總監(jiān)如此說(shuō)道。
近年來(lái),越來(lái)越多的公司轉(zhuǎn)向了基于Kubernetes的云原生架構(gòu)。隨著微服務(wù)和云原生架構(gòu)的變得越來(lái)越復(fù)雜,我們也收到不少客戶反饋在生產(chǎn)中進(jìn)行監(jiān)控和故障排除變得越來(lái)越困難。雖然CCE云原生可觀測(cè)平臺(tái)提供了監(jiān)控、告警、日志等功能,能夠讓用戶更加方便的定位問(wèn)題,但是同樣也無(wú)形中提高了運(yùn)維人員的技術(shù)門(mén)檻。為了讓運(yùn)維和開(kāi)發(fā)人員能夠從繁重的故障定位排查中解脫出來(lái),CCE服務(wù)提供了集群健康診斷能力。
CCE集群健康診斷集合了容器運(yùn)維專家的經(jīng)驗(yàn),為您提供了集群級(jí)別的健康診斷最佳實(shí)踐??蓪?duì)集群健康狀況進(jìn)行全面檢查,幫助您及時(shí)發(fā)現(xiàn)集群故障與潛在風(fēng)險(xiǎn),并給出對(duì)應(yīng)的修復(fù)建議供您參考。
▎開(kāi)箱即用:免開(kāi)通零依賴,一鍵健康診斷
集群健康診斷功能作為CCE內(nèi)置健康專家系統(tǒng),可以在不依賴任何插件和其他服務(wù)的情況下獨(dú)立運(yùn)行。用戶無(wú)需繁瑣的開(kāi)通與配置流程,就可以一鍵觸發(fā)集群健康診斷。
圖1 一鍵健康診斷
▎定時(shí)巡檢:無(wú)人值守,持續(xù)守護(hù)集群健康
在主動(dòng)運(yùn)維場(chǎng)景,比如集群升級(jí)前后或業(yè)務(wù)重保期間,用戶可隨時(shí)主動(dòng)觸發(fā)健康診斷來(lái)保障業(yè)務(wù)的順利運(yùn)行。另一方面,在日常運(yùn)維中,我們無(wú)法一直盯屏保障,為了將客戶從這種低級(jí)的勞動(dòng)中解放出來(lái),健康診斷支持定時(shí)巡檢功能,只需要簡(jiǎn)單的配置定時(shí)任務(wù),健康診斷任務(wù)就可以在后臺(tái)守護(hù)您的集群健康,并將檢查結(jié)果定時(shí)存檔,方便隨時(shí)回溯復(fù)盤(pán)。
圖2 健康檢查結(jié)果
▎多維診斷:豐富的診斷項(xiàng),集群全方位體檢
CCE集群健康診斷提煉了運(yùn)維專家提供的高頻故障案例,覆蓋了集群/核心插件/節(jié)點(diǎn)/工作負(fù)載/外部依賴等多種維度的健康檢查,并且所有的診斷項(xiàng)都給出了風(fēng)險(xiǎn)評(píng)級(jí)、影響風(fēng)險(xiǎn)、以及修復(fù)建議。
- 集群維度:包括集群運(yùn)維能力檢查,安全組配置檢查,集群資源規(guī)劃?rùn)z查等診斷項(xiàng)。
圖3 集群維度診斷項(xiàng)
- 核心插件維度:覆蓋監(jiān)控、日志、coredns、存儲(chǔ)等核心插件的健康檢查。
圖4 核心插件維度診斷項(xiàng)
- 節(jié)點(diǎn)維度:包括節(jié)點(diǎn)資源負(fù)載情況和節(jié)點(diǎn)狀態(tài)診斷。
圖5 節(jié)點(diǎn)維度診斷項(xiàng)
- 工作負(fù)載維度:包括工作負(fù)載配置檢查,Pod資源負(fù)載檢查,Pod狀態(tài)診斷等。
圖6 工作負(fù)載維度診斷項(xiàng)
- 外部依賴維度:主要包括ECS和云硬盤(pán)等資源配額檢查。
圖7 外部依賴維度診斷項(xiàng)
▎智能分析:智能健康評(píng)級(jí),專業(yè)修復(fù)建議
CCE集群健康診斷會(huì)針對(duì)故障和潛在風(fēng)險(xiǎn),給出風(fēng)險(xiǎn)等級(jí)并提供修復(fù)建議。風(fēng)險(xiǎn)等級(jí)按照緊急程度分為高風(fēng)險(xiǎn)和低風(fēng)險(xiǎn)兩種:
- 高風(fēng)險(xiǎn):說(shuō)明該診斷項(xiàng)會(huì)危及到集群或應(yīng)用穩(wěn)定性,可能造成業(yè)務(wù)損失,需要盡快修復(fù)。
- 低風(fēng)險(xiǎn):說(shuō)明該診斷項(xiàng)不符合云原生最佳實(shí)踐,存在潛在的風(fēng)險(xiǎn),但是不會(huì)馬上對(duì)業(yè)務(wù)造成重大影響,建議修復(fù)。
在每一次健康診斷完成之后,所有的診斷結(jié)果會(huì)被匯總分析,并給出最終的集群健康評(píng)分,該評(píng)分反映了集群的整體健康狀況。健康評(píng)分較低的集群往往存在較大的故障風(fēng)險(xiǎn),需要引起集群管理員的高度重視。
圖8 健康風(fēng)險(xiǎn)等級(jí)評(píng)估
▎案例分析:一次安全組誤操作導(dǎo)致的業(yè)務(wù)故障
CCE作為通用的容器平臺(tái),安全組規(guī)則的設(shè)置適用于通用場(chǎng)景。集群在創(chuàng)建時(shí)將會(huì)自動(dòng)為Master節(jié)點(diǎn)和Node節(jié)點(diǎn)分別創(chuàng)建一個(gè)安全組。如果用戶不小心誤操作了默認(rèn)安全組中的規(guī)則,可能會(huì)導(dǎo)致節(jié)點(diǎn)網(wǎng)絡(luò)不通等問(wèn)題,而且這種問(wèn)題往往比較難以排除,需要花費(fèi)較多的時(shí)間才能定位到安全組的原因,影響業(yè)務(wù)恢復(fù)速度。這種情況我們可以通過(guò)健康中心的巡檢功能來(lái)進(jìn)行故障診斷。
例如修改一個(gè)集群的默認(rèn)安全組規(guī)則,將Master與Node通信規(guī)則,從允許改為拒絕。
圖9 修改安全組規(guī)則
以上操作會(huì)導(dǎo)致集群部分功能異常,如網(wǎng)絡(luò)不通出現(xiàn)無(wú)法執(zhí)行kubectl命令的問(wèn)題。
這種問(wèn)題往往難以排查,會(huì)消耗用戶大量的時(shí)間來(lái)尋找根因。此時(shí)如果用戶在CCE健康中心執(zhí)行一次健康巡檢,會(huì)發(fā)現(xiàn)安全組高風(fēng)險(xiǎn)巡檢項(xiàng)提示:
圖10 安全組異常提示
通過(guò)診斷詳情可以直接定位異常安全組,便于進(jìn)行針對(duì)性修復(fù):

圖11 定位異常安全組
整個(gè)故障診斷流程方便快捷,可以大幅減低故障排查時(shí)間,幫助客戶業(yè)務(wù)更穩(wěn)定的運(yùn)行在CCE集群上。
▎結(jié)語(yǔ)
CCE集群健康診斷功能,集成沉淀了大量的專家運(yùn)維經(jīng)驗(yàn),目標(biāo)是為客戶提供更加智能、快捷的運(yùn)維能力。當(dāng)前該能力依然在快速迭代,后續(xù)我們會(huì)增加巡檢結(jié)果通知、風(fēng)險(xiǎn)評(píng)估閾值調(diào)整以及更豐富的診斷項(xiàng)等能力,為大家?guī)?lái)更智能、更可靠穩(wěn)定的云原生系統(tǒng)。
服務(wù)體驗(yàn)請(qǐng)?jiān)L問(wèn):云容器引擎_CCE_搭建_部署_企業(yè)級(jí)云容器_容器引擎-華為云文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-811418.html
點(diǎn)擊關(guān)注,第一時(shí)間了解華為云新鮮技術(shù)~文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-811418.html
到了這里,關(guān)于華為云CCE集群健康中心:一個(gè)有大量的專家運(yùn)維經(jīng)驗(yàn)的云原生可觀測(cè)平臺(tái)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!