引言
隨著數(shù)字化時代的到來,各個行業(yè)的應(yīng)用系統(tǒng)從傳統(tǒng)私有化部署逐漸轉(zhuǎn)向公有云、行業(yè)云、微服務(wù),這種變遷給運維部門和應(yīng)用部門均帶來了較大的挑戰(zhàn)?;诋斍捌髽I(yè) IT 運維均為多部門負責,且使用多種運維工具,因此,當業(yè)務(wù)出現(xiàn)問題時很難快速定位故障根源。而隨著業(yè)務(wù)上云,云平臺運維和應(yīng)用運維的責任歸屬不同,業(yè)務(wù)方(租戶)只負責云平臺之上運維,若是要對業(yè)務(wù)體驗全鏈路負責,就會導致有責任沒手段。同時,容器微服務(wù)架構(gòu)應(yīng)用后的業(yè)務(wù)之間的訪問關(guān)系更加復雜,也會產(chǎn)生應(yīng)用出現(xiàn)故障后分析困難等問題。基于以上的背景,企業(yè)數(shù)字化時代應(yīng)用的健康診斷變得至關(guān)重要。
問題及挑戰(zhàn)
如下圖,當代碼量的增長達到 100 倍,故障被企業(yè) IT 部門察覺前已由用戶申報達到 80% 時,作為企業(yè)會非常被動。用戶對服務(wù)超時非常敏感,當 5 秒打不開應(yīng)用時便會直接選擇放棄。同時,用戶對故障解決時效要求也比較高,75% 的用戶希望在 5 分鐘內(nèi)解決業(yè)務(wù)故障,而業(yè)務(wù)系統(tǒng)需要超過 24 小時才能解決的故障占比在 25% 左右。
應(yīng)用是一個端到端的多技術(shù)棧復雜整合環(huán)境,用戶端包括移動端、瀏覽器、小程序,網(wǎng)絡(luò)層包括路由器、防火墻和負載均衡等,后臺支撐應(yīng)用包括中間件、數(shù)據(jù)庫、主機、MQ 等。所以如何去高效精細化的實現(xiàn)整個應(yīng)用端到端的全鏈路性能問題洞察和診斷、快速找到故障的邊界、以及特別是 VIP 用戶出現(xiàn)性能問題如何快速追蹤。這些應(yīng)用的復雜度是企業(yè)運維部門和業(yè)務(wù)部門都需要考慮的問題。
傳統(tǒng)的監(jiān)控工具早已無法滿足當前企業(yè)面臨的問題。因為一個應(yīng)用會涉及到數(shù)據(jù)庫、第三方的 API 調(diào)用、應(yīng)用服務(wù)器、中間件、Web、網(wǎng)絡(luò)層等多個鏈路,因此,當系統(tǒng)慢是無法快速定位就是是拿個環(huán)節(jié)、組件以及指標導致。日常企業(yè)去判斷上述問題時,會需要網(wǎng)絡(luò)團隊、開發(fā)團隊、數(shù)據(jù)庫團隊、基礎(chǔ)設(shè)施團隊等多方協(xié)助排查,且排查效率較低。
解決方案與功能場景介紹
基于以上問題與挑戰(zhàn),云智慧提供了全新一代架構(gòu)的應(yīng)用性能管理解決方案。以提升數(shù)字化用戶體驗,幫助企業(yè)實現(xiàn)數(shù)字化轉(zhuǎn)型賦能為目標,提供了 web 用戶、移動用戶、主動撥測、壓力測試前端側(cè)性能監(jiān)控,同時貫穿網(wǎng)絡(luò)層到后端各個組件的全棧一體化性能監(jiān)控方案,包含 Web 服務(wù)器支持 IIS、Nginx 等。此外,應(yīng)用后端支持市面上主流的開發(fā)語言以及微服務(wù)容器架構(gòu),基于 Smart Agent 的探針技術(shù),部署在容器宿主機上就可以自動發(fā)現(xiàn)容器內(nèi)部應(yīng)用拓撲關(guān)聯(lián)關(guān)系,實現(xiàn)整體的業(yè)務(wù)關(guān)聯(lián)快速分析和根因快速診斷。
產(chǎn)品技術(shù)架構(gòu)
下圖為產(chǎn)品整體的技術(shù)架構(gòu),主要是分三層:
- 數(shù)據(jù)采集層:APM 產(chǎn)品支持市面上比較主流的開發(fā)語言,如 Java、PHP、Python 等。APP 端支持 android 和 iOS 等各種版本。依賴主動撥測,基于全球 IDC 實現(xiàn) Monitor 數(shù)據(jù)監(jiān)測。
- 數(shù)據(jù)存儲層:采集到的數(shù)據(jù)統(tǒng)一放到產(chǎn)品的數(shù)據(jù)存儲層進行數(shù)據(jù)存儲。云智慧產(chǎn)品基于列式存儲的技術(shù),在各行業(yè)項目上經(jīng)過大量數(shù)據(jù)實踐,可以實現(xiàn)秒級查詢和展示。
- 數(shù)據(jù)分析與展示層:該層主要提供了具體產(chǎn)品的相關(guān)功能。包括拓撲展示,請求分析、用戶追蹤,代碼堆棧詳情分析,網(wǎng)頁性能分析,頁面響應(yīng)時間分析、可用率分析等相關(guān)功能。
整個平臺提供告警通知功能及標準 API 接口,方便用戶其他業(yè)務(wù)系統(tǒng)調(diào)用數(shù)據(jù)進行應(yīng)用。接下來,我們主要圍繞 APM 和撥測兩款產(chǎn)品的應(yīng)用場景進行整體闡述。
監(jiān)控寶:7*24 小時主動 IT 性能監(jiān)控
云智慧撥測產(chǎn)品監(jiān)控寶提供 7*24 小時主動 IT 性能監(jiān)控;產(chǎn)品在全球范圍內(nèi)大概有 300 家的 IDC 節(jié)點,提供 800 家的服務(wù)器,IDC 數(shù)量決定了數(shù)據(jù)反饋的全面性,可以有效保障業(yè)務(wù)在全球的用戶體驗;國內(nèi)節(jié)點覆蓋 30 多個省份和 100 多個城市和地區(qū),更能精準的定位問題所在區(qū)域。此外,也較為全面的覆蓋了多個運營商,包括移動、聯(lián)通、電信、教育四大運營商。以上三個維度,可以看出云智慧監(jiān)控寶產(chǎn)品可以為各行業(yè)企業(yè)提供業(yè)務(wù)保駕護航的能力。
監(jiān)控寶平臺支持的協(xié)議包括 http/https、ping、DNS、ftp、traceroute 等,支持協(xié)議類型種類豐富,滿足企業(yè)多方面使用需求。功能包括網(wǎng)頁性能診斷、CDN 評估效果、網(wǎng)絡(luò)質(zhì)量探測、網(wǎng)站訪問速度、接口服務(wù)可用率等。同時,整個產(chǎn)品支持多頁面腳本錄制,方便企業(yè)在大型網(wǎng)站上提供多頁面監(jiān)控能力,以及能夠快速發(fā)現(xiàn)深層次的頁面性能問題。
透視寶:端到端全鏈路應(yīng)用性能診斷
云智慧 APM 透視寶產(chǎn)品提供端到端全鏈路的應(yīng)用性能診斷。用戶體驗端包括 APP、瀏覽器、小程序的全棧性能分析和性能探測。后端支持應(yīng)用拓撲的發(fā)現(xiàn)和代碼質(zhì)量的追蹤,真正做到端到端一體化,實時掌握前端、透視后端,實現(xiàn)全業(yè)務(wù)鏈環(huán)節(jié)問題監(jiān)控與分析。
下圖為透視寶產(chǎn)品的技術(shù)實現(xiàn)原理, APP 端通過嵌入 SDK 實現(xiàn)用戶行為和 APP 崩潰卡頓數(shù)據(jù)的抓?。粸g覽器通過頁面嵌入 JS 方式實現(xiàn)頁面詳情的分析;主機操作系統(tǒng)通過部署 agent 實現(xiàn) cpu、內(nèi)存、網(wǎng)絡(luò)、io 等指標監(jiān)測;應(yīng)用后端根據(jù)不同開發(fā)語言部署不同的探針,在中間件啟動腳本里注入?yún)?shù),重啟應(yīng)用后就可以實現(xiàn)數(shù)據(jù)的采集,小程序通過 mini agent 抓取相關(guān)數(shù)據(jù)。
應(yīng)用場景介紹
- 業(yè)務(wù)服務(wù)持續(xù)監(jiān)測與告警
業(yè)務(wù)服務(wù)的持續(xù)監(jiān)測和告警在一些互聯(lián)網(wǎng)企業(yè)當中經(jīng)常會遇見。比如北京區(qū)域網(wǎng)站訪問是健康的,但其他區(qū)域網(wǎng)站訪問異常時,也會收到的其他區(qū)域用戶投訴。針對上述問題,由于目前各行業(yè)網(wǎng)站頁面加載時序元素復雜,外加整個頁面會有一些動畫圖片效果的呈現(xiàn),所以需要能夠?qū)崟r探測網(wǎng)站在中國區(qū)域到地市級別和區(qū)級別的監(jiān)控的主動撥測產(chǎn)品。監(jiān)控寶可監(jiān)測不同運營商鏈路訪問網(wǎng)站速度、404 相關(guān)錯誤,以及可通過 IDC 節(jié)點主動收集數(shù)據(jù),幫助企業(yè)及時分析并主動探測業(yè)務(wù)問題。該場景主要應(yīng)用于互聯(lián)網(wǎng)企業(yè),電商企業(yè),還有企業(yè)官網(wǎng)、在線教育等行業(yè)。
- 內(nèi)外網(wǎng)及網(wǎng)絡(luò)專線質(zhì)量監(jiān)測與告警
企業(yè)內(nèi)外網(wǎng)業(yè)務(wù)服務(wù)于全國。運營商網(wǎng)絡(luò)不穩(wěn)定的用戶投訴,分公司專線或 VPN 經(jīng)常出現(xiàn)的各種問題,均會導致業(yè)務(wù)運營受到較大影響。 外網(wǎng)網(wǎng)絡(luò)質(zhì)量監(jiān)測依托于云智慧在全球 IDC 節(jié)點提供主動的 ping、MTR、traceroute 網(wǎng)絡(luò)探測,60 秒的探測頻率可以讓問題被及時發(fā)現(xiàn)。針對內(nèi)網(wǎng)專線的監(jiān)測,云智慧提供魔盒產(chǎn)品。類似機頂盒的小盒子,使用壽命長、無風扇設(shè)計、節(jié)能環(huán)保,直接部署在分公司數(shù)據(jù)中心機房中即可使用。該場景主要應(yīng)用于醫(yī)療行業(yè)、電商、金融、政府軍工等集團企業(yè)。
- 網(wǎng)頁用戶體驗分析與持續(xù)優(yōu)化
隨著網(wǎng)站內(nèi)容更加復雜化,大量元素加載耗時變長,首屏響應(yīng)時間變得更加重要。如:當用戶點擊二級頁面時會出現(xiàn) 404 錯誤或響應(yīng)慢等現(xiàn)象,企業(yè)雖然做了 CDN 加速,在此情況下也很難確定加速的質(zhì)量的好壞。然而在互聯(lián)網(wǎng)時代下,用戶對網(wǎng)頁的加載速度提出更高要求,出現(xiàn)網(wǎng)頁響應(yīng)過慢或無法訪問則會導致用戶失去耐心而流失,以此便會給企業(yè)業(yè)務(wù)收入以及品牌均會帶來損失。基于上述問題,監(jiān)控寶產(chǎn)品提供了多頁面腳本錄制功能,可以模擬人點擊操作所有頁面各個環(huán)節(jié)的性能診斷,及時發(fā)現(xiàn)元素性能問題。此外,基于企業(yè)同時使用多家 CDN 廠商導致具體加速質(zhì)量難以判斷的現(xiàn)象,監(jiān)控寶也提供了 CDN 整體性能評估功能,方便用戶做 CDN 廠商性能體驗對比。該場景主要應(yīng)用在網(wǎng)站有豐富的大型 logo / 圖片 / 輪播要展示的企業(yè),如汽車類、廣告展示類以及大量使用 CDN 服務(wù)商的企業(yè)。
- 業(yè)務(wù)流程監(jiān)測與優(yōu)化
業(yè)務(wù)流程監(jiān)測與優(yōu)化主要解決業(yè)務(wù)調(diào)用第三方 API 接口性能問題。由于業(yè)務(wù)流程現(xiàn)狀復雜性,完整的互聯(lián)網(wǎng)或內(nèi)部業(yè)務(wù)訪問需要經(jīng)歷多重用戶認證,以及多個內(nèi)部環(huán)節(jié)處理才能最終完成。任何一個環(huán)節(jié)出現(xiàn)問題都可能導致業(yè)務(wù)不能正常進行,以及用戶體驗不佳、滿意度下降,甚至出現(xiàn)用戶流失。所以需要監(jiān)控寶幫助企業(yè)從業(yè)務(wù)視角準確感知整體業(yè)務(wù)的性能和質(zhì)量狀況。該場景主要應(yīng)用在使用第三方 API 服務(wù)的互聯(lián)網(wǎng)企業(yè)、關(guān)注用戶業(yè)務(wù)訪問過程及體驗的企業(yè)。
- 應(yīng)用拓撲自動發(fā)現(xiàn)與監(jiān)控
全自動發(fā)現(xiàn)應(yīng)用所有技術(shù)棧及其關(guān)聯(lián)關(guān)系可以幫助企業(yè)從宏觀視角把握一個應(yīng)用及其關(guān)聯(lián)應(yīng)用的整體狀態(tài)以及請求數(shù)、響應(yīng)時間、錯誤等變化趨勢,以此快速定位各層級問題。
隨著企業(yè)應(yīng)用上云和容器微服務(wù)化,應(yīng)用之間調(diào)用關(guān)系愈來愈復雜。全局拓撲自動發(fā)現(xiàn)與監(jiān)控是通過將復雜的請求調(diào)用關(guān)系拓撲圖化來幫助運維人員和業(yè)務(wù)開發(fā)人員快速定位性能問題。產(chǎn)品可以直觀的通過顏色變化分辨出是緩慢問題還是錯誤問題。同時拓撲上能發(fā)現(xiàn)各個組件的調(diào)用情況以及自身應(yīng)用訪問的組件,數(shù)據(jù)庫、MQ、Nosql 和 API 接口情況。此外,通過拓撲可以直觀的判斷是自身應(yīng)用問題還是其他應(yīng)用性能導致的間接問題。此外,產(chǎn)品提供類似時光機的回溯功能,選擇一定時間范圍可以統(tǒng)計請求次數(shù),緩慢次數(shù)、非常緩慢次數(shù)和錯誤次數(shù)。
- 應(yīng)用性能問題及故障快速診斷
隨著云計算、大數(shù)據(jù)、容器、微服務(wù)等技術(shù)在企業(yè)的廣泛采用,企業(yè)業(yè)務(wù)系統(tǒng)數(shù)量不斷增加,運行環(huán)境也愈加復雜,需要不斷根據(jù)市場環(huán)境和客戶需求的變化進行快速響應(yīng)和迭代,不斷推出新的業(yè)務(wù),減少業(yè)務(wù)故障風險,推動業(yè)務(wù)營收的增加;
第二個場景是應(yīng)用性能問題及故障快速診斷,使用人員通過拓撲發(fā)現(xiàn)問題后需要第一時間定位問題,產(chǎn)品提供簡單直觀的操作界面,在拓撲圖上點擊應(yīng)用實例就可以快速跳轉(zhuǎn)到詳細問題分析界面,比如上面截圖的內(nèi)容,可以看到后臺代碼堆棧追蹤,慢 SQL 語句、外部接口詳情、自身耗時、請求參數(shù)等詳細分析問題的指標,性能問題一目了解,問題定位運籌帷幄。
- 端到端全鏈路性能問題追蹤
目前企業(yè)業(yè)務(wù)都是通過 APP、小程序或瀏覽器訪問,因此在使用 APM 產(chǎn)品排查分析前端各種崩潰、卡頓、網(wǎng)絡(luò)等問題后還是不能解決業(yè)務(wù)慢的問題。然而此時更多的是支撐業(yè)務(wù)后端的應(yīng)用產(chǎn)生了性能故障,企業(yè)該如何去快速判斷,精準的定位呢?云智慧產(chǎn)品提供了前端頁面一鍵跳轉(zhuǎn)后端的串聯(lián)功能。如下方圖片所示,當業(yè)務(wù)在登陸時已經(jīng)能看到體驗非常差,此時,在點擊請求性能分析界面的查看按鈕,便可以直接跳轉(zhuǎn)到后端代碼分析詳情頁面。該操作的前提條件是監(jiān)測應(yīng)用已經(jīng)注入探針,不然是無法實現(xiàn)的。該場景可以有效的把前端和后端打通,串聯(lián)追蹤。
案例分享
某銀行部署了 APM 整套產(chǎn)品,實現(xiàn)了應(yīng)用后端整體性能監(jiān)控,探針數(shù)量 115 個、接入應(yīng)用數(shù)量 225 個、日均業(yè)務(wù)請求量 1500tps、日均應(yīng)用請求的落盤數(shù)據(jù)量 150G 左右。截止到現(xiàn)在平臺穩(wěn)定 7*24 小時運行、探針對業(yè)務(wù)系統(tǒng)資源占用率控制在 3% 以內(nèi)。在大量請求并發(fā)的情況下,云智慧基于列式存儲的技術(shù)架構(gòu),也能實現(xiàn)頁面妙級查詢和妙級響應(yīng)。
寫在最后
近年來,在 AIOps 領(lǐng)域快速發(fā)展的背景下,IT 工具、平臺能力、解決方案、AI 場景及可用數(shù)據(jù)集的迫切需求在各行業(yè)迸發(fā)。基于此,云智慧在 2021 年 8 月發(fā)布了 AIOps 社區(qū),?旨在樹起一面開源旗幟,為各行業(yè)客戶、用戶、研究者和開發(fā)者們構(gòu)建活躍的用戶及開發(fā)者社區(qū),共同貢獻及解決行業(yè)難題、促進該領(lǐng)域技術(shù)發(fā)展。文章來源:http://www.zghlxwxcb.cn/news/detail-621090.html
社區(qū)先后?開源?了數(shù)據(jù)可視化編排平臺 - FlyFish、運維管理平臺?OMP?、云服務(wù)管理平臺 - 摩爾平臺、?Hours?算法等產(chǎn)品。文章來源地址http://www.zghlxwxcb.cn/news/detail-621090.html
到了這里,關(guān)于數(shù)字化時代,如何做好用戶體驗與應(yīng)用性能管理的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!