一、系統(tǒng)不可能100%可靠
系統(tǒng)不可能100%可靠,人都不可能100%健康,更何況我們?nèi)祟悇?chuàng)造的系統(tǒng)?所以,任何軟件系統(tǒng)都不應(yīng)該一味地追求 100%可靠。事實證明,可靠性超過一定值后,再提高可靠性對于一項服務(wù)來說,結(jié)果可能會更差而不是更好!極端的可靠性會帶來成本的大幅提升:比如過分追求穩(wěn)定性限制了新功能的開發(fā)速度和產(chǎn)品交付速度,并且很大程度地增加了投資成本和運維成本。
二、管理風險
不可靠的系統(tǒng)會影響產(chǎn)品的信譽,雖然系統(tǒng)不可能100%可靠,但我們也要減少系統(tǒng)出故障的幾率。然而,經(jīng)驗表明,可靠性進一步提升的成本并不是線性增加的:可靠性的下一個改進可能比之前的改進成本增加100倍?;谝陨厦茳c,SRE的做法是管理風險,目標是:我們會努力提高一項服務(wù)的可靠性,但不會超過該服務(wù)需要的可靠性。管理風險旨在尋求快速創(chuàng)新和系統(tǒng)可靠性的平衡,而不是簡單地將可靠性最大化。
三、度量風險
SRE的做法是通過一個客觀的指標來體現(xiàn)一個系統(tǒng)的可靠性(或者是風險)。對于大多數(shù)服務(wù)而言,最直接的能夠代表風險承受能力的指標就是對于計劃外停機時間的可接受水平。對于系統(tǒng)而言,這個指標通常是基于系統(tǒng)正常運行時間比例的計算得出的。
可用性=系統(tǒng)正常運行時間/(系統(tǒng)正常運行時間+停機時間)
使用這個公式,我們可以計算出一年內(nèi)可接受的停機時間,從而可以使可用性達到預(yù)期目標。舉例來說,一個可用性目標為99.99%的系統(tǒng)最多在一年中停機52.56分鐘,就可以達到預(yù)計的可用性目標。當然,并不是所有的系統(tǒng)或者組件適用于這個公式,比如也可以通過請求成功率來定義服務(wù)可用性,具體如何度量還要結(jié)合實際情況靈活應(yīng)對。
四、確定服務(wù)可靠性目標
如果 100% 不是一個正確的可靠性目標,那么多少才是呢?這其實并不是一個技術(shù)問題而是一個產(chǎn)品問題。要回答這個問題,必須考慮以下幾個方面:
- 基于用戶的使用習(xí)慣,服務(wù)可靠性要達到什么程度用戶才會滿意?
- 如果這項服務(wù)的可靠程度不夠,用戶是否有其他的替代選擇?
- 服務(wù)的可靠程度是否會影響用戶對這項服務(wù)的使用模式?
為了建立起一個合理的可靠性目標,SRE必須與產(chǎn)品負責人一起努力,將一組商業(yè)目標轉(zhuǎn)化為明確的可以實現(xiàn)的工程目標。在實踐中,這種轉(zhuǎn)化說起來容易做起來難,SAAS層軟件和IAAS層基礎(chǔ)設(shè)施轉(zhuǎn)化的方式又各不相同。
五、錯誤預(yù)算
SRE和產(chǎn)品負責人必須對每個系統(tǒng)建立起一個合理的可靠性目標。一旦建立,“錯誤預(yù)算”就是“1-可靠性目標”。如果一個服務(wù)的可靠性目標是99.99%,那么錯誤預(yù)算就是0.01%,這意味著產(chǎn)品研發(fā)部門和SRE部門可以在這個范圍內(nèi)將這個預(yù)算用于新功能上線或者產(chǎn)品的創(chuàng)新等任何事情。
錯誤預(yù)算可以用于什么范疇呢?研發(fā)團隊需要用這個預(yù)算上線新功能,吸引新用戶。理想情況下,我們應(yīng)該使用錯誤預(yù)算來最大化新功能上線的速度,同時保障服務(wù)質(zhì)量。這個基本模型建立起來之后,許多常見的戰(zhàn)術(shù)策略,例如灰度發(fā)布、AB測試等手段就全說得通了。這些戰(zhàn)術(shù)性手段都是為了更合理地使用整個服務(wù)的錯誤預(yù)算。文章來源:http://www.zghlxwxcb.cn/news/detail-449303.html
SRE通過引進“錯誤預(yù)算”的概念,解決了研發(fā)團隊和 SRE 團隊之間的組織架構(gòu)沖突。SRE 團隊的目標不再是“零事故運行”,SRE團隊和產(chǎn)品研發(fā)團隊目標一致,都是在保障業(yè)務(wù)服務(wù)可靠性需求的同時盡可能地加快功能上線速度。這個改動雖小,意義卻很大。一次“生產(chǎn)事故”不再是一件壞事,而僅僅是創(chuàng)新流程中一個不可避免的環(huán)節(jié),兩個團隊通過協(xié)作共同管理它。文章來源地址http://www.zghlxwxcb.cn/news/detail-449303.html
到了這里,關(guān)于SRE方法論之擁抱風險的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!