一、系統(tǒng)可靠性
SRE是判斷系統(tǒng)是否可靠、可用、有效重要標準,它包括:
- 服務水平指標SLI:衡量服務使用情況量化指標。 比如IO讀寫速率、網(wǎng)絡延遲。通常量化指標會轉換為比率、平均值或百分比。
- 服務水平目標SLO:一段時間、區(qū)間內的目標。 SLO的表達式通常為: SLI <= target 或 lower bound ≤ SLI ≤ upper bound。比如SLO可以為每個請求的平均延遲<=10ms。
- 服務水平協(xié)議SLA:測量指標應與商業(yè)目標密切相關。
穩(wěn)定性99.99% 和 99.999% 在大部分情況下對用戶體驗差異不大,但每增加一個9,會顯著增加成本。
基于時間的可用性=可用時間/總時間,但該指標通常意義不大。比如某訂單系統(tǒng)在7天內有1小時不可用,其影響將是致命的。
基于成功率的可靠性=成功請求數(shù)/總請求數(shù)。選擇何種可靠性級別主要依賴于用戶風險承受能力,在創(chuàng)新和可靠性之間找到恰當?shù)钠胶狻?/p>
度量建模首先需要對指標進行標準化,比如聚合間隔、聚合區(qū)域、測量頻率、包括哪些請求、如何獲取數(shù)據(jù)以及數(shù)據(jù)訪問延遲。進行度量選擇時,應關注用戶關心的內容,而不是能夠衡量的內容。關注標準化指標時,需關注SLI分布而不是平均值。
以上圖為例,紫色區(qū)域整體較為穩(wěn)定,狀態(tài)較好;而藍色區(qū)域毛刺突出,意味著系統(tǒng)在某一個時間點資源占用出現(xiàn)問題。
在事件處理中,需要在事件發(fā)生前做異常演練、趨勢分析、告警等,在事件發(fā)生后及時呼叫相關工程師做根因分析,現(xiàn)場補救,進行錯誤修復。然后將補救經(jīng)驗沉淀到知識庫,后續(xù)用于自動化修復。
不同業(yè)務會有不一樣的監(jiān)控指標,不同的商業(yè)目標也會有不同的SLO。
上圖展示了操作系統(tǒng)的可觀測維度。
這里我們列了一個矩陣,Y軸是可靠性通用度量方法,X軸是系統(tǒng)的可觀維度,通過X和Y軸的組合,可以生成操作系統(tǒng)的SLI度量項。
對于SRE而言,監(jiān)控也十分重要。監(jiān)控可以分析長期趨勢,比如查看每日活動用戶數(shù)據(jù)量、增加或減少、數(shù)據(jù)庫使用了多大的磁盤、何時需要做擴容;也可以用來比較不同時間或實驗組,比如不同組件查詢速度比較、內存命中率比較、網(wǎng)站運行速度比較等。
監(jiān)控可以大幅提升運維效率,不再需要運維人員、用戶手動登錄檢查系統(tǒng)狀態(tài)。另外,它也可以用于臨時性的回顧分析,查看某個時間點具體發(fā)生了什么、哪些指標出現(xiàn)了異常。
監(jiān)控的基本原則是癥狀與原因,監(jiān)控系統(tǒng)應該解決兩個問題:什么壞了?為什么?
監(jiān)控具有四個黃金信號,分別為延遲、流量、錯誤,飽和度。監(jiān)控的工作內容應盡量簡單,最常捕獲真實事件的規(guī)則應盡可能簡單、可預測和可靠,很少使用的數(shù)據(jù)收集、聚合和警報配置應被移除,已收集但未在任何儀表板中公開或被任何警報使用的信號應刪除,方能達到高效分析問題的目的。
系統(tǒng)自動化能夠解決一致性、一個平臺、更快的維修與行動以及計劃的問題,后續(xù),我們也期待能夠通過AI OPS實現(xiàn)智能識別、智能介入以及智能修復。
sysOM致力于打造一個集主機管理、配置部署、監(jiān)控報警、異常診斷、安全審計等一系列功能的自動化運維平臺。目前我們對資源管理做了納管、監(jiān)控,對配置管理做了安全、包管理、自動化,對權限管理做了權限細分、審計攔截,也實現(xiàn)了主動診斷。
上圖為SYSOM的主機管理圖,可以做主機的批量導入、導出、刪除,也可以根據(jù)集群做分門別類的梳理,支持在線終端,為運維人員帶來了極大的方便,無需額外安裝專門的客戶端軟件,只需一臺電腦,登錄SYSOM服務即可直接訪問外部終端,達到運維目的。
上圖為SYSOM 診斷中心,負責檢查調度、內存、IO網(wǎng)絡、補丁 CPU 等,并針對問題進行告警。
上圖為網(wǎng)絡診斷圖。
二、系統(tǒng)安全性
系統(tǒng)安全性包括靜態(tài)應用程序安全檢查、動態(tài)應用程序安全檢查以及軟件生命周期保護。靜態(tài)應用程序安全檢查一般為在開發(fā)階段做源碼掃描勘測,判斷哪些編碼可能會出現(xiàn)漏洞;動態(tài)應用程序一般對正在運行的二進制開啟端口滲透,查看是否存在漏洞。
軟件生命周期維護分為三個部分:
- 基線:包含軟件版本和配置文件。告知用戶安全的軟件版本和配置文件,即使出現(xiàn)高危漏洞也不會產生太大影響。
- 漏洞庫:存儲軟件出現(xiàn)的漏洞以及出現(xiàn)漏洞的版本。
- 修復:對軟件包進行升級或補丁。
上圖為SYSOM 安全中心,能夠直觀地為用戶展示需要修復的漏洞數(shù)量、高危漏洞數(shù)量、修復漏洞影響的主機數(shù)量、今天修復的數(shù)量、累計修復的數(shù)量等。安全中心既能支持多個漏洞批量修復,也支持多個主機漏洞批量修復,可以一次性將所有主機的所有漏洞進行修復。
不同漏洞數(shù)據(jù)庫包含的漏洞數(shù)據(jù)可能有缺失,SYSOM安全中心支持第三方數(shù)據(jù)庫接入,只需配置名稱、連接地址、請求方式等,即可將第三方漏洞數(shù)庫數(shù)據(jù)導入到 SYSOM 安全中心,進行系統(tǒng)掃描。
上圖為安全掃描結果展示。
三、展望與挑戰(zhàn)
當前,系統(tǒng)穩(wěn)定性存在若干痛點。
首先,事件現(xiàn)場的保留。故障事件發(fā)生之后,現(xiàn)場難以保留,分析時需要花費較大代價。因此,保留事件現(xiàn)場尤為重要。
其次,底躁問題。監(jiān)控時,監(jiān)控指標會對系統(tǒng)帶來一些負載,做巡檢和指標計算也會對系統(tǒng)帶來負載,我們期望以盡可能低的底噪來達到更全面的監(jiān)控,也是將來需要解決的問題。
最后,修復依據(jù)。做安全基線配置或問題修復時,大多依靠專家經(jīng)驗和廠商經(jīng)驗。但是每個廠商或每個專家各有自己的觀點,我們需要將其形成一套標準化規(guī)范。
原文鏈接文章來源:http://www.zghlxwxcb.cn/news/detail-797222.html
本文為阿里云原創(chuàng)內容,未經(jīng)允許不得轉載。文章來源地址http://www.zghlxwxcb.cn/news/detail-797222.html
到了這里,關于統(tǒng)信軟件高級系統(tǒng)研發(fā)工程師:sysOM 在系統(tǒng)可靠性與安全上實踐的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!