高可用指標(biāo)與問題
高可用,英文單詞High Availability,縮寫HA,它是分布式系統(tǒng)架構(gòu)設(shè)計中一個重要的度量。業(yè)界通常用多個9來衡量系統(tǒng)的可用性,如下表:
既然有可用率,有一定會存在不可用的情況。系統(tǒng)宕機一般分為有計劃的和無計劃的,有計劃的如日常維護(hù)、系統(tǒng)升級等,無計劃的如設(shè)備故障、突發(fā)斷電等。我們對此作如下分類:
1.設(shè)備故障:機房斷電、硬盤損壞、交換機故障。
2.網(wǎng)絡(luò)故障:網(wǎng)絡(luò)帶寬擁堵、網(wǎng)絡(luò)連接中斷。
3.安全問題:利用系統(tǒng)漏洞進(jìn)行網(wǎng)絡(luò)攻擊。
4.性能問題:CPU利用率太高、內(nèi)存不足、磁盤IO過載、數(shù)據(jù)庫慢SQL。
5.升級維護(hù):由于業(yè)務(wù)變更或技術(shù)改進(jìn)而引起的系統(tǒng)升級。
6.系統(tǒng)問題:分布式系統(tǒng)中存在服務(wù)的依賴而導(dǎo)致數(shù)據(jù)的不一致性,或是核心服務(wù)出現(xiàn)異常。
高可用主要手段
負(fù)載均衡
負(fù)載均衡(Load Balance),它將工作任務(wù)分發(fā)到多個工作單元上進(jìn)行運行,它可以提高網(wǎng)絡(luò)設(shè)備的帶寬,提升網(wǎng)絡(luò)數(shù)據(jù)處理能力,增強網(wǎng)絡(luò)的穩(wěn)定性??煞乐箼C房斷電、網(wǎng)絡(luò)設(shè)備故障等問題。
負(fù)載均衡的實現(xiàn)可分為硬件負(fù)載與軟件負(fù)載。硬件負(fù)載由專門的設(shè)備完成專門的任務(wù),這種方式性能較高同時成本也高;軟件負(fù)載通過軟件代碼實現(xiàn),此種方式耗費操作系統(tǒng)資源,性能較低,容易出現(xiàn)BUG,也容易引起安全問題。
負(fù)載策略一般有輪詢策略、隨機策略、最小連接策略以及最短響應(yīng)時間策略。
輪詢策略:講用戶請求輪流分配給服務(wù)器,這種算法比較簡單。
隨機策略:隨機選擇一臺服務(wù)器來執(zhí)行任務(wù)。
最小連接策略:把請求分配給活動連接數(shù)最小的后端服務(wù)器。
最短響應(yīng)時間策略:將請求分配給平均響應(yīng)時間最短的服務(wù)器。
限流
限流就是避免服務(wù)過載,隨著流量的提高,無論負(fù)載策略如何高效,系統(tǒng)的某個環(huán)節(jié)總會過載。就如木桶能裝多少水取決于最短的那塊木板,我們是無法保證系統(tǒng)的每個部分都保持同樣的高吞吐量,因此要考慮如何優(yōu)雅地提供有損服務(wù)。
常用的三種限流算法:計數(shù)器算法、滑動窗口算法、漏桶算法、令牌桶算法。
計數(shù)器算法:使用計數(shù)器在一定周期內(nèi)累加某個接口的訪問次數(shù),當(dāng)達(dá)到限流閾值時,觸發(fā)限流策略,進(jìn)入下一個周期后,重新開始計數(shù)。此算法較為簡單,但會降低服務(wù)器的負(fù)載能力。
滑動窗口算法:將時間周期劃分成更小的周期,按小周期來進(jìn)行計數(shù),根據(jù)時間滑動刪除過期的小周期。這種算法使得周期劃分得越小服務(wù)器的負(fù)載能力越高。
漏桶算法:將請求直接放入漏桶中,如果當(dāng)前訪問量超出漏桶的限流值,則把后來的請求予以丟棄,這樣可以最大限度地提高服務(wù)器的負(fù)載能力。
令牌桶算法:以(時間周期/限流值)的速度向令牌桶里增加令牌,直到裝滿桶的容量,當(dāng)請求到達(dá)時,分配一個令牌讓其通過,如果沒有獲取到令牌則觸發(fā)限流機制。
### 異步調(diào)用
異步調(diào)用一般有兩種方式:一種是異步回調(diào),一種是消息隊列。消息隊列方式也算是限流的一種手段,可以讓請求一個一個地被處理,避免并發(fā)太高而引起的應(yīng)用無法及時處理。這種方式相對與限流來講,是一種無損的解決方案。但這種方案僅適用于非實時響應(yīng)的業(yè)務(wù)。
### 超時重試與冪等設(shè)計
很多文章把超時重試與冪等設(shè)計分開來討論,但我卻認(rèn)為它們是相輔相成,密切相關(guān)的。在設(shè)計超時重試時,一定要考慮冪等設(shè)計
超時重試機制:由于服務(wù)器宕機、網(wǎng)絡(luò)延時、服務(wù)器線程死鎖等原因,導(dǎo)致應(yīng)用程序無法先限定時間內(nèi)對服務(wù)調(diào)用方進(jìn)行響應(yīng)。因此當(dāng)發(fā)生調(diào)用超時后,應(yīng)用程序可根據(jù)調(diào)度策略進(jìn)行重試。被調(diào)用的服務(wù)沒有及時響應(yīng),可能會存在兩種情況,一是服務(wù)內(nèi)部發(fā)生異常,導(dǎo)致執(zhí)行失敗,沒有返回任何消息;一是執(zhí)行的服務(wù)耗時太長,沒有及時響應(yīng),但實際已經(jīng)執(zhí)行成功。所以針對第二種情況要做冪等設(shè)計。
冪等設(shè)計:多次相同參數(shù)的請求對系統(tǒng)造成的作業(yè)都是相同的。常見的冪等方案有:MCVV多版本并發(fā)、唯一索引、token機制、悲觀鎖、狀態(tài)機冪等、只讀操作等。
降級與熔斷
服務(wù)降級與服務(wù)熔斷都是為了解決服務(wù)雪崩的問題,但不要把他們混為一談,它們是有本質(zhì)區(qū)別的。
降級是對系統(tǒng)的某個功能進(jìn)行降級,可以只提供部分功能也可以完全停止該功能。降級一般由開關(guān)來進(jìn)行控制,在不重啟服務(wù)的情況下,對功能進(jìn)行降級。它常常發(fā)生在高并發(fā)時段、機器卡頓、下游不太重要的服務(wù)異常等情況下。
熔斷沒有開關(guān),它是一個框架級的設(shè)計,常常被稱作斷路器。它的主要作用是,當(dāng)下游的服務(wù)因為某種原因變得不可用或服務(wù)不及時,為了保證整體服務(wù)的可用性,不再調(diào)用目標(biāo)服務(wù),直接返回默認(rèn)處理或容錯處理,從而使得整體服務(wù)可以快速響應(yīng)。例如SpringCloud中的Hystrix。
降級與熔斷的主要區(qū)別是手動與自動。降級主要是通過配置中心的熱刷新功能,人為地對開關(guān)進(jìn)行打開與關(guān)閉操作。而熔斷則是根據(jù)事先設(shè)計好的策略,系統(tǒng)自動地根據(jù)策略來進(jìn)行開關(guān)操作。但它們都是對功能進(jìn)行關(guān)閉。
架構(gòu)模式
主備模式
實際是一主多備,master負(fù)責(zé)提供讀寫服務(wù),slave作為數(shù)據(jù)備份,一旦主機宕機,將其中一個備節(jié)點作為主節(jié)點。
主從復(fù)制
實際是一主多從,master對外提供讀寫服務(wù),slave作為數(shù)據(jù)備份提供只讀服務(wù)。主機定期復(fù)制數(shù)據(jù)給從機。多副本的關(guān)鍵問題是保證數(shù)據(jù)一致性,通常需要考慮數(shù)據(jù)同步延時的問題。
集群分片
集群分片是為了解決每臺機器上存儲全量數(shù)據(jù)的問題,面對大數(shù)據(jù)單機的存儲量總是有上限的,當(dāng)面對PB級數(shù)據(jù)時,單機是無法支撐的,因此就需要對數(shù)據(jù)進(jìn)行分片。
異地多活
異地就是指在地理位置上不同的地方,可分為同城異地、跨城異地、跨國異地,多活就是指不同地理位置上的系統(tǒng)都能夠提供服務(wù)。這種架構(gòu)的復(fù)雜度較高,且部署成本也會提高。
設(shè)計原則:
1、 只把核心業(yè)務(wù)設(shè)計為異地多活,比如流量大、盈利高的業(yè)務(wù)
2、 保證核心數(shù)據(jù)的一致性與實時性,且可丟失、可恢復(fù)
3、 可采用多種數(shù)據(jù)同步的方案,比如存儲系統(tǒng)同步、消息隊列同步
4、 異地多活僅適用于大部分用戶,以地區(qū)來論,覆蓋主要城區(qū)
總結(jié)
在互聯(lián)網(wǎng)架構(gòu)設(shè)計中,高可用是必不可少的環(huán)節(jié),要從網(wǎng)絡(luò)架構(gòu)、服務(wù)架構(gòu)、數(shù)據(jù)架構(gòu)以及軟硬件架構(gòu)等多方面來分析設(shè)計,是架構(gòu)師必備的技能之一。
作者:京東零售 谷偉文章來源:http://www.zghlxwxcb.cn/news/detail-515725.html
來源:京東云開發(fā)者社區(qū)文章來源地址http://www.zghlxwxcb.cn/news/detail-515725.html
到了這里,關(guān)于互聯(lián)網(wǎng)高可用架構(gòu)探討的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!