国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

架構(gòu)設(shè)計(jì)內(nèi)容分享(一百三十三):ES+Redis+MySQL高可用,如何試實(shí)現(xiàn)?

這篇具有很好參考價(jià)值的文章主要介紹了架構(gòu)設(shè)計(jì)內(nèi)容分享(一百三十三):ES+Redis+MySQL高可用,如何試實(shí)現(xiàn)?。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

目錄

背景:

ES 高可用方案:

ES 雙中心主備集群架構(gòu)

ES 流量隔離三集群架構(gòu)

ES 集群深度優(yōu)化提升

會(huì)員 Redis 緩存方案:

ES 近一秒延時(shí)導(dǎo)致的 Redis 緩存數(shù)據(jù)不一致問題的解決方案

Redis 雙中心多集群架構(gòu)

高可用會(huì)員主庫方案:

MySQL 雙中心 Partition 集群方案

會(huì)員主庫平滑遷移方案

MySQL 和 ES 主備集群方案

異常會(huì)員關(guān)系治理:

展望:更精細(xì)化的流控和降級(jí)策略

更精細(xì)化的流控策略

更精細(xì)化的降級(jí)策略


背景:

會(huì)員系統(tǒng)是一種基礎(chǔ)系統(tǒng),跟公司所有業(yè)務(wù)線的下單主流程密切相關(guān)。如果會(huì)員系統(tǒng)出故障,會(huì)導(dǎo)致用戶無法下單,影響范圍是全公司所有業(yè)務(wù)線。所以,會(huì)員系統(tǒng)必須保證高性能、高可用,提供穩(wěn)定、高效的基礎(chǔ)服務(wù)。

隨著同程和藝龍兩家公司的合并,越來越多的系統(tǒng)需要打通同程 APP、藝龍 APP、同程微信小程序、藝龍微信小程序等多平臺(tái)會(huì)員體系。

例如微信小程序的交叉營(yíng)銷,用戶買了一張火車票,此時(shí)想給他發(fā)酒店紅包,這就需要查詢?cè)撚脩舻慕y(tǒng)一會(huì)員關(guān)系。

因?yàn)榛疖嚻庇玫氖峭虝?huì)員體系,酒店用的是藝龍會(huì)員體系,只有查到對(duì)應(yīng)的藝龍會(huì)員卡號(hào)后,才能將紅包掛載到該會(huì)員賬號(hào)。

除了上述講的交叉營(yíng)銷,還有許多場(chǎng)景需要查詢統(tǒng)一會(huì)員關(guān)系,例如訂單中心、會(huì)員等級(jí)、里程、紅包、常旅、實(shí)名,以及各類營(yíng)銷活動(dòng)等等。

所以,會(huì)員系統(tǒng)的請(qǐng)求量越來越大,并發(fā)量越來越高,今年清明小長(zhǎng)假的秒并發(fā) tps 甚至超過 2 萬多。

在如此大流量的沖擊下,會(huì)員系統(tǒng)是如何做到高性能和高可用的呢?這就是本文著重要講述的內(nèi)容。

ES 高可用方案:

ES 雙中心主備集群架構(gòu)

同程和藝龍兩家公司融合后,全平臺(tái)所有體系的會(huì)員總量是十多億。在這么大的數(shù)據(jù)體量下,業(yè)務(wù)線的查詢維度也比較復(fù)雜。

有的業(yè)務(wù)線基于手機(jī)號(hào),有的基于微信 unionid,也有的基于藝龍卡號(hào)等查詢會(huì)員信息。

這么大的數(shù)據(jù)量,又有這么多的查詢維度,基于此,我們選擇 ES 用來存儲(chǔ)統(tǒng)一會(huì)員關(guān)系。ES 集群在整個(gè)會(huì)員系統(tǒng)架構(gòu)中非常重要,那么如何保證 ES 的高可用呢?

首先我們知道,ES 集群本身就是保證高可用的,如下圖所示:

架構(gòu)設(shè)計(jì)內(nèi)容分享(一百三十三):ES+Redis+MySQL高可用,如何試實(shí)現(xiàn)?,架構(gòu)設(shè)計(jì) 內(nèi)容分享,elasticsearch,redis,mysql

當(dāng) ES 集群有一個(gè)節(jié)點(diǎn)宕機(jī)了,會(huì)將其他節(jié)點(diǎn)對(duì)應(yīng)的 Replica Shard 升級(jí)為 Primary Shard,繼續(xù)提供服務(wù)。

但即使是這樣,還遠(yuǎn)遠(yuǎn)不夠。例如 ES 集群都部署在機(jī)房 A,現(xiàn)在機(jī)房 A 突然斷電了,怎么辦?

例如服務(wù)器硬件故障,ES 集群大部分機(jī)器宕機(jī)了,怎么辦?或者突然有個(gè)非常熱門的搶購秒殺活動(dòng),帶來了一波非常大的流量,直接把 ES 集群打死了,怎么辦?面對(duì)這些情況,讓運(yùn)維兄弟沖到機(jī)房去解決?

這個(gè)非常不現(xiàn)實(shí),因?yàn)闀?huì)員系統(tǒng)直接影響全公司所有業(yè)務(wù)線的下單主流程,故障恢復(fù)的時(shí)間必須非常短,如果需要運(yùn)維兄弟人工介入,那這個(gè)時(shí)間就太長(zhǎng)了,是絕對(duì)不能容忍的。

那 ES 的高可用如何做呢?我們的方案是 ES 雙中心主備集群架構(gòu)。

架構(gòu)設(shè)計(jì)內(nèi)容分享(一百三十三):ES+Redis+MySQL高可用,如何試實(shí)現(xiàn)?,架構(gòu)設(shè)計(jì) 內(nèi)容分享,elasticsearch,redis,mysql

我們有兩個(gè)機(jī)房,分別是機(jī)房 A 和機(jī)房 B。我們把 ES 主集群部署在機(jī)房 A,把 ES 備集群部署在機(jī)房 B。會(huì)員系統(tǒng)的讀寫都在 ES 主集群,通過MQ 將數(shù)據(jù)同步到 ES 備集群。

此時(shí),如果 ES 主集群崩了,通過統(tǒng)一配置,將會(huì)員系統(tǒng)的讀寫切到機(jī)房 B 的 ES 備集群上,這樣即使 ES 主集群掛了,也能在很短的時(shí)間內(nèi)實(shí)現(xiàn)故障轉(zhuǎn)移,確保會(huì)員系統(tǒng)的穩(wěn)定運(yùn)行。

最后,等 ES 主集群故障恢復(fù)后,打開開關(guān),將故障期間的數(shù)據(jù)同步到 ES 主集群,等數(shù)據(jù)同步一致后,再將會(huì)員系統(tǒng)的讀寫切到 ES 主集群。

ES 流量隔離三集群架構(gòu)

雙中心 ES 主備集群做到這一步,感覺應(yīng)該沒啥大問題了,但去年的一次恐怖流量沖擊讓我們改變了想法。

那是一個(gè)節(jié)假日,某個(gè)業(yè)務(wù)上線了一個(gè)營(yíng)銷活動(dòng),在用戶的一次請(qǐng)求中,循環(huán) 10 多次調(diào)用了會(huì)員系統(tǒng),導(dǎo)致會(huì)員系統(tǒng)的 tps 暴漲,差點(diǎn)把 ES 集群打爆。

這件事讓我們后怕不已,它讓我們意識(shí)到,一定要對(duì)調(diào)用方進(jìn)行優(yōu)先級(jí)分類,實(shí)施更精細(xì)的隔離、熔斷、降級(jí)、限流策略。

首先,我們梳理了所有調(diào)用方,分出兩大類請(qǐng)求類型:

  • 第一類是跟用戶的下單主流程密切相關(guān)的請(qǐng)求,這類請(qǐng)求非常重要,應(yīng)該高優(yōu)先級(jí)保障。

  • 第二類是營(yíng)銷活動(dòng)相關(guān)的,這類請(qǐng)求有個(gè)特點(diǎn),他們的請(qǐng)求量很大,tps 很高,但不影響下單主流程。

基于此,我們又構(gòu)建了一個(gè) ES 集群,專門用來應(yīng)對(duì)高 tps 的營(yíng)銷秒殺類請(qǐng)求,這樣就跟 ES 主集群隔離開來,不會(huì)因?yàn)槟硞€(gè)營(yíng)銷活動(dòng)的流量沖擊而影響用戶的下單主流程。

如下圖所示:

架構(gòu)設(shè)計(jì)內(nèi)容分享(一百三十三):ES+Redis+MySQL高可用,如何試實(shí)現(xiàn)?,架構(gòu)設(shè)計(jì) 內(nèi)容分享,elasticsearch,redis,mysql

ES 集群深度優(yōu)化提升

講完了 ES 的雙中心主備集群高可用架構(gòu),接下來我們深入講解一下 ES 主集群的優(yōu)化工作。

有一段時(shí)間,我們特別痛苦,就是每到飯點(diǎn),ES 集群就開始報(bào)警,搞得每次吃飯都心慌慌的,生怕 ES 集群一個(gè)扛不住,就全公司炸鍋了。

那為什么一到飯點(diǎn)就報(bào)警呢?因?yàn)榱髁勘容^大, 導(dǎo)致 ES 線程數(shù)飆高,cpu 直往上竄,查詢耗時(shí)增加,并傳導(dǎo)給所有調(diào)用方,導(dǎo)致更大范圍的延時(shí)。那么如何解決這個(gè)問題呢?

通過深入 ES 集群,我們發(fā)現(xiàn)了以下幾個(gè)問題:

  • ES 負(fù)載不合理,熱點(diǎn)問題嚴(yán)重。ES 主集群一共有幾十個(gè)節(jié)點(diǎn),有的節(jié)點(diǎn)上部署的 shard 數(shù)偏多,有的節(jié)點(diǎn)部署的 shard 數(shù)很少,導(dǎo)致某些服務(wù)器的負(fù)載很高,每到流量高峰期,就經(jīng)常預(yù)警。

  • ES 線程池的大小設(shè)置得太高,導(dǎo)致 cpu 飆高。我們知道,設(shè)置 ES 的 threadpool,一般將線程數(shù)設(shè)置為服務(wù)器的 cpu 核數(shù),即使 ES 的查詢壓力很大,需要增加線程數(shù),那最好也不要超過“cpu core * 3 / 2 + 1”。如果設(shè)置的線程數(shù)過多,會(huì)導(dǎo)致 cpu 在多個(gè)線程上下文之間頻繁來回切換,浪費(fèi)大量 cpu 資源。

  • shard 分配的內(nèi)存太大,100g,導(dǎo)致查詢變慢。我們知道,ES 的索引要合理分配 shard 數(shù),要控制一個(gè) shard 的內(nèi)存大小在 50g 以內(nèi)。如果一個(gè) shard 分配的內(nèi)存過大,會(huì)導(dǎo)致查詢變慢,耗時(shí)增加,嚴(yán)重拖累性能。

  • string 類型的字段設(shè)置了雙字段,既是 text,又是 keyword,導(dǎo)致存儲(chǔ)容量增大了一倍。會(huì)員信息的查詢不需要關(guān)聯(lián)度打分,直接根據(jù) keyword 查詢就行,所以完全可以將 text 字段去掉,這樣就能節(jié)省很大一部分存儲(chǔ)空間,提升性能。

  • ES 查詢,使用 filter,不使用 query。因?yàn)?query 會(huì)對(duì)搜索結(jié)果進(jìn)行相關(guān)度算分,比較耗 cpu,而會(huì)員信息的查詢是不需要算分的,這部分的性能損耗完全可以避免。

  • 節(jié)約 ES 算力,將 ES 的搜索結(jié)果排序放在會(huì)員系統(tǒng)的 jvm 內(nèi)存中進(jìn)行。

  • 增加 routing key。我們知道,一次 ES 查詢,會(huì)將請(qǐng)求分發(fā)給所有 shard,等所有shard返回結(jié)果后再聚合數(shù)據(jù),最后將結(jié)果返回給調(diào)用方。如果我們事先已經(jīng)知道數(shù)據(jù)分布在哪些 shard 上,那么就可以減少大量不必要的請(qǐng)求,提升查詢性能。

經(jīng)過以上優(yōu)化,成果非常顯著,ES 集群的 cpu 大幅下降,查詢性能大幅提升。ES 集群的 cpu 使用率:

架構(gòu)設(shè)計(jì)內(nèi)容分享(一百三十三):ES+Redis+MySQL高可用,如何試實(shí)現(xiàn)?,架構(gòu)設(shè)計(jì) 內(nèi)容分享,elasticsearch,redis,mysql

會(huì)員系統(tǒng)的接口耗時(shí):

架構(gòu)設(shè)計(jì)內(nèi)容分享(一百三十三):ES+Redis+MySQL高可用,如何試實(shí)現(xiàn)?,架構(gòu)設(shè)計(jì) 內(nèi)容分享,elasticsearch,redis,mysql

會(huì)員 Redis 緩存方案:

一直以來,會(huì)員系統(tǒng)是不做緩存的,原因主要有兩個(gè):

  • 第一個(gè),前面講的 ES 集群性能很好,秒并發(fā) 3 萬多,99 線耗時(shí) 5 毫秒左右,已經(jīng)足夠應(yīng)付各種棘手的場(chǎng)景。

  • 第二個(gè),有的業(yè)務(wù)對(duì)會(huì)員的綁定關(guān)系要求實(shí)時(shí)一致,而會(huì)員是一個(gè)發(fā)展了 10 多年的老系統(tǒng),是一個(gè)由好多接口、好多系統(tǒng)組成的分布式系統(tǒng)。

所以,只要有一個(gè)接口沒有考慮到位,沒有及時(shí)去更新緩存,就會(huì)導(dǎo)致臟數(shù)據(jù),進(jìn)而引發(fā)一系列的問題。

例如:用戶在 APP 上看不到微信訂單、APP 和微信的會(huì)員等級(jí)、里程等沒合并、微信和 APP 無法交叉營(yíng)銷等等。

那后來為什么又要做緩存呢?是因?yàn)榻衲隀C(jī)票的盲盒活動(dòng),它帶來的瞬時(shí)并發(fā)太高了。雖然會(huì)員系統(tǒng)安然無恙,但還是有點(diǎn)心有余悸,穩(wěn)妥起見,最終還是決定實(shí)施緩存方案。

ES 近一秒延時(shí)導(dǎo)致的 Redis 緩存數(shù)據(jù)不一致問題的解決方案

在做會(huì)員緩存方案的過程中,遇到一個(gè) ES 引發(fā)的問題,該問題會(huì)導(dǎo)致緩存數(shù)據(jù)的不一致。

我們知道,ES 操作數(shù)據(jù)是近實(shí)時(shí)的,往 ES 新增一個(gè) Document,此時(shí)立即去查,是查不到的,需要等待 1 秒后才能查詢到。

如下圖所示:

架構(gòu)設(shè)計(jì)內(nèi)容分享(一百三十三):ES+Redis+MySQL高可用,如何試實(shí)現(xiàn)?,架構(gòu)設(shè)計(jì) 內(nèi)容分享,elasticsearch,redis,mysql

ES 的近實(shí)時(shí)機(jī)制為什么會(huì)導(dǎo)致 Redis 緩存數(shù)據(jù)不一致呢?具體來講,假設(shè)一個(gè)用戶注銷了自己的 APP 賬號(hào),此時(shí)需要更新 ES,刪除 APP 賬號(hào)和微信賬號(hào)的綁定關(guān)系。而 ES 的數(shù)據(jù)更新是近實(shí)時(shí)的,也就是說,1 秒后你才能查詢到更新后的數(shù)據(jù)。

而就在這 1 秒內(nèi),有個(gè)請(qǐng)求來查詢?cè)撚脩舻臅?huì)員綁定關(guān)系,它先到 Redis 緩存中查,發(fā)現(xiàn)沒有,然后到 ES 查,查到了,但查到的是更新前的舊數(shù)據(jù)。

最后,該請(qǐng)求把查詢到的舊數(shù)據(jù)更新到 Redis 緩存并返回。就這樣,1 秒后,ES 中該用戶的會(huì)員數(shù)據(jù)更新了,但 Redis 緩存的數(shù)據(jù)還是舊數(shù)據(jù),導(dǎo)致了 Redis 緩存跟 ES 的數(shù)據(jù)不一致。

如下圖所示:

架構(gòu)設(shè)計(jì)內(nèi)容分享(一百三十三):ES+Redis+MySQL高可用,如何試實(shí)現(xiàn)?,架構(gòu)設(shè)計(jì) 內(nèi)容分享,elasticsearch,redis,mysql

面對(duì)該問題,如何解決呢?我們的思路是,在更新 ES 數(shù)據(jù)時(shí),加一個(gè) 2 秒的 Redis 分布式并發(fā)鎖,為了保證緩存數(shù)據(jù)的一致性,接著再刪除 Redis 中該會(huì)員的緩存數(shù)據(jù)。

如果此時(shí)有請(qǐng)求來查詢數(shù)據(jù),先獲取分布式鎖,發(fā)現(xiàn)該會(huì)員 ID 已經(jīng)上鎖了,說明 ES 剛剛更新的數(shù)據(jù)尚未生效,那么此時(shí)查詢完數(shù)據(jù)后就不更新 Redis 緩存了,直接返回,這樣就避免了緩存數(shù)據(jù)的不一致問題。

如下圖所示:

架構(gòu)設(shè)計(jì)內(nèi)容分享(一百三十三):ES+Redis+MySQL高可用,如何試實(shí)現(xiàn)?,架構(gòu)設(shè)計(jì) 內(nèi)容分享,elasticsearch,redis,mysql

上述方案,乍一看似乎沒什么問題了,但仔細(xì)分析,還是有可能導(dǎo)致緩存數(shù)據(jù)的不一致。

例如,在更新請(qǐng)求加分布式鎖之前,恰好有一個(gè)查詢請(qǐng)求獲取分布式鎖,而此時(shí)是沒有鎖的,所以它可以繼續(xù)更新緩存。

但就在他更新緩存之前,線程 block 了,此時(shí)更新請(qǐng)求來了,加了分布式鎖,并刪除了緩存。當(dāng)更新請(qǐng)求完成操作后,查詢請(qǐng)求的線程活過來了,此時(shí)它再執(zhí)行更新緩存,就把臟數(shù)據(jù)寫到緩存中了。

發(fā)現(xiàn)沒有?主要的問題癥結(jié)就在于“刪除緩存”和“更新緩存”發(fā)生了并發(fā)沖突,只要將它們互斥,就能解決問題。

如下圖所示:

架構(gòu)設(shè)計(jì)內(nèi)容分享(一百三十三):ES+Redis+MySQL高可用,如何試實(shí)現(xiàn)?,架構(gòu)設(shè)計(jì) 內(nèi)容分享,elasticsearch,redis,mysql

實(shí)施了緩存方案后,經(jīng)統(tǒng)計(jì),緩存命中率 90%+,極大緩解了 ES 的壓力,會(huì)員系統(tǒng)整體性能得到了很大提升。

Redis 雙中心多集群架構(gòu)

接下來,我們看一下如何保障 Redis 集群的高可用。

如下圖所示:

架構(gòu)設(shè)計(jì)內(nèi)容分享(一百三十三):ES+Redis+MySQL高可用,如何試實(shí)現(xiàn)?,架構(gòu)設(shè)計(jì) 內(nèi)容分享,elasticsearch,redis,mysql

關(guān)于 Redis 集群的高可用,我們采用了雙中心多集群的模式。在機(jī)房 A 和機(jī)房 B 各部署一套 Redis 集群。

更新緩存數(shù)據(jù)時(shí),雙寫,只有兩個(gè)機(jī)房的 Redis 集群都寫成功了,才返回成功。查詢緩存數(shù)據(jù)時(shí),機(jī)房?jī)?nèi)就近查詢,降低延時(shí)。這樣,即使機(jī)房 A 整體故障,機(jī)房 B 還能提供完整的會(huì)員服務(wù)。

高可用會(huì)員主庫方案:

上述講到,全平臺(tái)會(huì)員的綁定關(guān)系數(shù)據(jù)存在 ES,而會(huì)員的注冊(cè)明細(xì)數(shù)據(jù)存在關(guān)系型數(shù)據(jù)庫。

最早,會(huì)員使用的數(shù)據(jù)庫是 SqlServer,直到有一天,DBA 找到我們說,單臺(tái) SqlServer 數(shù)據(jù)庫已經(jīng)存儲(chǔ)了十多億的會(huì)員數(shù)據(jù),服務(wù)器已達(dá)到物理極限,不能再擴(kuò)展了。按照現(xiàn)在的增長(zhǎng)趨勢(shì),過不了多久,整個(gè) SqlServer 數(shù)據(jù)庫就崩了。

你想想,那是一種什么樣的災(zāi)難場(chǎng)景:會(huì)員數(shù)據(jù)庫崩了,會(huì)員系統(tǒng)就崩了;會(huì)員系統(tǒng)崩了,全公司所有業(yè)務(wù)線就崩了。想想就不寒而栗,酸爽無比,為此我們立刻開啟了遷移 DB 的工作。

MySQL 雙中心 Partition 集群方案

經(jīng)過調(diào)研,我們選擇了雙中心分庫分表的 MySQL 集群方案,如下圖所示:

架構(gòu)設(shè)計(jì)內(nèi)容分享(一百三十三):ES+Redis+MySQL高可用,如何試實(shí)現(xiàn)?,架構(gòu)設(shè)計(jì) 內(nèi)容分享,elasticsearch,redis,mysql

會(huì)員一共有十多億的數(shù)據(jù),我們把會(huì)員主庫分了 1000 多個(gè)分片,平分到每個(gè)分片大概百萬的量級(jí),足夠使用了。

MySQL 集群采用 1 主 3 從的架構(gòu),主庫放在機(jī)房 A,從庫放在機(jī)房 B,兩個(gè)機(jī)房之間通過專線同步數(shù)據(jù),延遲在 1 毫秒內(nèi)。

會(huì)員系統(tǒng)通過 DBRoute 讀寫數(shù)據(jù),寫數(shù)據(jù)都路由到 master 節(jié)點(diǎn)所在的機(jī)房 A,讀數(shù)據(jù)都路由到本地機(jī)房,就近訪問,減少網(wǎng)絡(luò)延遲。

這樣,采用雙中心的 MySQL 集群架構(gòu),極大提高了可用性,即使機(jī)房 A 整體都崩了,還可以將機(jī)房 B 的 Slave 升級(jí)為 Master,繼續(xù)提供服務(wù)。

雙中心 MySQL 集群搭建好后,我們進(jìn)行了壓測(cè),測(cè)試下來,秒并發(fā)能達(dá)到 2 萬多,平均耗時(shí)在 10 毫秒內(nèi),性能達(dá)標(biāo)。

會(huì)員主庫平滑遷移方案

接下來的工作,就是把會(huì)員系統(tǒng)的底層存儲(chǔ)從 SqlServer 切到 MySQL 上,這是個(gè)風(fēng)險(xiǎn)極高的工作。

主要有以下幾個(gè)難點(diǎn):

  • 會(huì)員系統(tǒng)是一刻都不能停機(jī)的,要在不停機(jī)的情況下完成 SqlServer 到 MySQL 的切換,就像是在給高速行駛的汽車換輪子。

  • 會(huì)員系統(tǒng)是由很多個(gè)系統(tǒng)和接口組成的,畢竟發(fā)展了 10 多年,由于歷史原因,遺留了大量老接口,邏輯錯(cuò)綜復(fù)雜。這么多系統(tǒng),必須一個(gè)不落的全部梳理清楚,DAL 層代碼必須重寫,而且不能出任何問題,否則將是災(zāi)難性的。

  • 數(shù)據(jù)的遷移要做到無縫遷移,不僅是存量 10 多億數(shù)據(jù)的遷移,實(shí)時(shí)產(chǎn)生的數(shù)據(jù)也要無縫同步到 MySQL。另外,除了要保障數(shù)據(jù)同步的實(shí)時(shí)性,還要保證數(shù)據(jù)的正確性,以及 SqlServer 和 MySQL 數(shù)據(jù)的一致性。

基于以上痛點(diǎn),我們?cè)O(shè)計(jì)了“全量同步、增量同步、實(shí)時(shí)流量灰度切換”的技術(shù)方案。

首先,為了保證數(shù)據(jù)的無縫切換,采用實(shí)時(shí)雙寫的方案。因?yàn)闃I(yè)務(wù)邏輯的復(fù)雜,以及 SqlServer 和 MySQL 的技術(shù)差異性,在雙寫 MySQL 的過程中,不一定會(huì)寫成功,而一旦寫失敗,就會(huì)導(dǎo)致 SqlServer 和 MySQL 的數(shù)據(jù)不一致,這是絕不允許的。

所以,我們采取的策略是,在試運(yùn)行期間,主寫 SqlServer,然后通過線程池異步寫 MySQL,如果寫失敗了,重試三次,如果依然失敗,則記日志,然后人工排查原因,解決后,繼續(xù)雙寫,直到運(yùn)行一段時(shí)間,沒有雙寫失敗的情況。

通過上述策略,可以確保在絕大部分情況下,雙寫操作的正確性和穩(wěn)定性,即使在試運(yùn)行期間出現(xiàn)了 SqlServer 和 MySQL 的數(shù)據(jù)不一致的情況,也可以基于 SqlServer 再次全量構(gòu)建出 MySQL 的數(shù)據(jù)。

因?yàn)槲覀冊(cè)谠O(shè)計(jì)雙寫策略時(shí),會(huì)確保 SqlServer 一定能寫成功,也就是說,SqlServer 中的數(shù)據(jù)是全量最完整、最正確的。

如下圖所示:

架構(gòu)設(shè)計(jì)內(nèi)容分享(一百三十三):ES+Redis+MySQL高可用,如何試實(shí)現(xiàn)?,架構(gòu)設(shè)計(jì) 內(nèi)容分享,elasticsearch,redis,mysql

講完了雙寫,接下來我們看一下“讀數(shù)據(jù)”如何灰度。整體思路是,通過 A/B 平臺(tái)逐步灰度流量,剛開始 100% 的流量讀取 SqlServer 數(shù)據(jù)庫,然后逐步切流量讀取 MySQL 數(shù)據(jù)庫,先 1%,如果沒有問題,再逐步放流量,最終 100% 的流量都走 MySQL數(shù)據(jù)庫。

在逐步灰度流量的過程中,需要有驗(yàn)證機(jī)制,只有驗(yàn)證沒問題了,才能進(jìn)一步放大流量。

那么這個(gè)驗(yàn)證機(jī)制如何實(shí)施呢?方案是,在一次查詢請(qǐng)求里,通過異步線程,比較 SqlServer 和 MySQL 的查詢結(jié)果是否一致,如果不一致,記日志,再人工檢查不一致的原因,直到徹底解決不一致的問題后,再逐步灰度流量。

如下圖所示:

架構(gòu)設(shè)計(jì)內(nèi)容分享(一百三十三):ES+Redis+MySQL高可用,如何試實(shí)現(xiàn)?,架構(gòu)設(shè)計(jì) 內(nèi)容分享,elasticsearch,redis,mysql

所以,整體的實(shí)施流程如下:

架構(gòu)設(shè)計(jì)內(nèi)容分享(一百三十三):ES+Redis+MySQL高可用,如何試實(shí)現(xiàn)?,架構(gòu)設(shè)計(jì) 內(nèi)容分享,elasticsearch,redis,mysql

首先,在一個(gè)夜黑風(fēng)高的深夜,流量最小的時(shí)候,完成 SqlServer 到 MySQL 數(shù)據(jù)庫的全量數(shù)據(jù)同步。

接著,開啟雙寫,此時(shí),如果有用戶注冊(cè),就會(huì)實(shí)時(shí)雙寫到兩個(gè)數(shù)據(jù)庫。那么,在全量同步和實(shí)時(shí)雙寫開啟之間,兩個(gè)數(shù)據(jù)庫還相差這段時(shí)間的數(shù)據(jù),所以需要再次增量同步,把數(shù)據(jù)補(bǔ)充完整,以防數(shù)據(jù)的不一致。

剩下的時(shí)間,就是各種日志監(jiān)控,看雙寫是否有問題,看數(shù)據(jù)比對(duì)是否一致等等。

這段時(shí)間是耗時(shí)最長(zhǎng)的,也是最容易發(fā)生問題的,如果有的問題比較嚴(yán)重,導(dǎo)致數(shù)據(jù)不一致了,就需要從頭再來,再次基于 SqlServer 全量構(gòu)建 MySQL 數(shù)據(jù)庫,然后重新灰度流量。

直到最后,100% 的流量全部灰度到 MySQL,此時(shí)就大功告成了,下線灰度邏輯,所有讀寫都切到 MySQL 集群。

MySQL 和 ES 主備集群方案

做到這一步,感覺會(huì)員主庫應(yīng)該沒問題了,可 dal 組件的一次嚴(yán)重故障改變了我們的想法。

那次故障很恐怖,公司很多應(yīng)用連接不上數(shù)據(jù)庫了,創(chuàng)單量直線往下掉,這讓我們意識(shí)到,即使數(shù)據(jù)庫是好的,但 dal 組件異常,依然能讓會(huì)員系統(tǒng)掛掉。

所以,我們?cè)俅萎悩?gòu)了會(huì)員主庫的數(shù)據(jù)源,雙寫數(shù)據(jù)到 ES,如下所示:

架構(gòu)設(shè)計(jì)內(nèi)容分享(一百三十三):ES+Redis+MySQL高可用,如何試實(shí)現(xiàn)?,架構(gòu)設(shè)計(jì) 內(nèi)容分享,elasticsearch,redis,mysql

如果 dal 組件故障或 MySQL 數(shù)據(jù)庫掛了,可以把讀寫切到 ES,等 MySQL 恢復(fù)了,再把數(shù)據(jù)同步到 MySQL,最后把讀寫再切回到 MySQL 數(shù)據(jù)庫。

如下圖所示:

架構(gòu)設(shè)計(jì)內(nèi)容分享(一百三十三):ES+Redis+MySQL高可用,如何試實(shí)現(xiàn)?,架構(gòu)設(shè)計(jì) 內(nèi)容分享,elasticsearch,redis,mysql

異常會(huì)員關(guān)系治理:

會(huì)員系統(tǒng)不僅僅要保證系統(tǒng)的穩(wěn)定和高可用,數(shù)據(jù)的精準(zhǔn)和正確也同樣重要。

舉個(gè)例子,一個(gè)分布式并發(fā)故障,導(dǎo)致一名用戶的 APP 賬戶綁定了別人的微信小程序賬戶,這將會(huì)帶來非常惡劣的影響。

首先,一旦這兩個(gè)賬號(hào)綁定了,那么這兩個(gè)用戶下的酒店、機(jī)票、火車票訂單是互相可以看到的。

你想想,別人能看到你訂的酒店訂單,你火不火,會(huì)不會(huì)投訴?除了能看到別人的訂單,你還能操作訂單。

例如,一個(gè)用戶在 APP 的訂單中心,看到了別人訂的機(jī)票訂單,他覺得不是自己的訂單,就把訂單取消了。

這將會(huì)帶來非常嚴(yán)重的客訴,大家知道,機(jī)票退訂費(fèi)用是挺高的,這不僅影響了該用戶的正常出行,還導(dǎo)致了比較大的經(jīng)濟(jì)損失,非常糟糕。

針對(duì)這些異常會(huì)員賬號(hào),我們進(jìn)行了詳細(xì)的梳理,通過非常復(fù)雜燒腦的邏輯識(shí)別出這些賬號(hào),并對(duì)會(huì)員接口進(jìn)行了深度優(yōu)化治理,在代碼邏輯層堵住了相關(guān)漏洞,完成了異常會(huì)員的治理工作。

如下圖所示:

架構(gòu)設(shè)計(jì)內(nèi)容分享(一百三十三):ES+Redis+MySQL高可用,如何試實(shí)現(xiàn)?,架構(gòu)設(shè)計(jì) 內(nèi)容分享,elasticsearch,redis,mysql

展望:更精細(xì)化的流控和降級(jí)策略

任何一個(gè)系統(tǒng),都不能保證百分之一百不出問題,所以我們要有面向失敗的設(shè)計(jì),那就是更精細(xì)化的流控和降級(jí)策略。

更精細(xì)化的流控策略

熱點(diǎn)控制。針對(duì)黑產(chǎn)刷單的場(chǎng)景,同一個(gè)會(huì)員 id 會(huì)有大量重復(fù)的請(qǐng)求,形成熱點(diǎn)賬號(hào),當(dāng)這些賬號(hào)的訪問超過設(shè)定閾值時(shí),實(shí)施限流策略。

基于調(diào)用賬號(hào)的流控規(guī)則。這個(gè)策略主要是防止調(diào)用方的代碼 bug 導(dǎo)致的大流量。例如,調(diào)用方在一次用戶請(qǐng)求中,循環(huán)很多次來調(diào)用會(huì)員接口,導(dǎo)致會(huì)員系統(tǒng)流量暴增很多倍。所以,要針對(duì)每個(gè)調(diào)用賬號(hào)設(shè)置流控規(guī)則,當(dāng)超過閾值時(shí),實(shí)施限流策略。

全局流控規(guī)則。我們會(huì)員系統(tǒng)能抗下 tps 3 萬多的秒并發(fā)請(qǐng)求量,如果此時(shí),有個(gè)很恐怖的流量打過來,tps 高達(dá) 10 萬,與其讓這波流量把會(huì)員數(shù)據(jù)庫、ES 全部打死,還不如把超過會(huì)員系統(tǒng)承受范圍之外的流量快速失敗,至少 tps 3 萬內(nèi)的會(huì)員請(qǐng)求能正常響應(yīng),不會(huì)讓整個(gè)會(huì)員系統(tǒng)全部崩潰。

架構(gòu)設(shè)計(jì)內(nèi)容分享(一百三十三):ES+Redis+MySQL高可用,如何試實(shí)現(xiàn)?,架構(gòu)設(shè)計(jì) 內(nèi)容分享,elasticsearch,redis,mysql

更精細(xì)化的降級(jí)策略

基于平均響應(yīng)時(shí)間的降級(jí)。會(huì)員接口也有依賴其他接口,當(dāng)調(diào)用其他接口的平均響應(yīng)時(shí)間超過閾值,進(jìn)入準(zhǔn)降級(jí)狀態(tài)。

如果接下來 1s 內(nèi)進(jìn)入的請(qǐng)求,它們的平均響應(yīng)時(shí)間都持續(xù)超過閾值,那么在接下的時(shí)間窗口內(nèi),自動(dòng)地熔斷。

基于異常數(shù)和異常比例的降級(jí)。當(dāng)會(huì)員接口依賴的其他接口發(fā)生異常,如果 1 分鐘內(nèi)的異常數(shù)超過閾值,或者每秒異??倲?shù)占通過量的比值超過閾值,進(jìn)入降級(jí)狀態(tài),在接下的時(shí)間窗口之內(nèi),自動(dòng)熔斷。

目前,我們最大的痛點(diǎn)是會(huì)員調(diào)用賬號(hào)的治理。公司內(nèi),想要調(diào)用會(huì)員接口,必須申請(qǐng)一個(gè)調(diào)用賬號(hào),我們會(huì)記錄該賬號(hào)的使用場(chǎng)景,并設(shè)置流控、降級(jí)策略的規(guī)則。

但在實(shí)際使用的過程中,申請(qǐng)了該賬號(hào)的同事,可能異動(dòng)到其他部門了,此時(shí)他可能也會(huì)調(diào)用會(huì)員系統(tǒng),為了省事,他不會(huì)再次申請(qǐng)會(huì)員賬號(hào),而是直接沿用以前的賬號(hào)過來調(diào)用,這導(dǎo)致我們無法判斷一個(gè)會(huì)員賬號(hào)的具體使用場(chǎng)景是什么,也就無法實(shí)施更精細(xì)的流控和降級(jí)策略。

所以,接下來,我們將會(huì)對(duì)所有調(diào)用賬號(hào)進(jìn)行一個(gè)個(gè)的梳理,這是個(gè)非常龐大且繁瑣的工作,但無路如何,硬著頭皮也要做好。文章來源地址http://www.zghlxwxcb.cn/news/detail-835121.html

到了這里,關(guān)于架構(gòu)設(shè)計(jì)內(nèi)容分享(一百三十三):ES+Redis+MySQL高可用,如何試實(shí)現(xiàn)?的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 第一百三十回 Flutter與原生平臺(tái)通信

    我們?cè)谏弦徽禄刂薪榻B了Visibility組件相關(guān)的內(nèi)容,本章回中將介紹 Flutter與原生平臺(tái)通信 相關(guān)的內(nèi)容.閑話休提,讓我們一起Talk Flutter吧。 在移動(dòng)開發(fā)領(lǐng)域以Android和IOS SDK開發(fā)出的應(yīng)用程序叫原生開發(fā),開發(fā)同一個(gè)程序需要兩個(gè)平臺(tái)相關(guān)的SDK,有沒有使用一個(gè)SDK來開發(fā)運(yùn)行于

    2024年02月10日
    瀏覽(18)
  • C++之C++11 thread線程示例(一百三十八)

    C++之C++11 thread線程示例(一百三十八)

    簡(jiǎn)介: CSDN博客專家,專注Android/Linux系統(tǒng),分享多mic語音方案、音視頻、編解碼等技術(shù),與大家一起成長(zhǎng)! 優(yōu)質(zhì)專欄: Audio工程師進(jìn)階系列 【 原創(chuàng)干貨持續(xù)更新中…… 】?? 人生格言: 人生從來沒有捷徑,只有行動(dòng)才是治療恐懼和懶惰的唯一良藥. 更多原創(chuàng),歡迎關(guān)注:An

    2023年04月15日
    瀏覽(23)
  • 一百三十七、Hive——HQL運(yùn)行報(bào)錯(cuò)(持續(xù)更新中)

    一百三十七、Hive——HQL運(yùn)行報(bào)錯(cuò)(持續(xù)更新中)

    樣例:from_unixtime(unix_timestamp(change_time, \\\'yyyy-MM-dd HH:mm:ss\\\') + green) AS new_timestamp ?成功?。?! 在DWS層中,對(duì)多層SQL使用with語句嵌套查詢,然后insert插入數(shù)據(jù)。如果直接把insert放在with語句上面,那么就會(huì)如下報(bào)錯(cuò) org.apache.hadoop.hive.ql.parse.ParseException:line 2:0 cannot recognize input near \\\'w

    2024年02月15日
    瀏覽(15)
  • C/C++基礎(chǔ)講解(一百三十一)之經(jīng)典篇(信息合并/平均分?jǐn)?shù)存儲(chǔ))

    很多時(shí)候,特別是剛步入大學(xué)的學(xué)子們,對(duì)于剛剛開展的計(jì)算機(jī)課程基本上是一團(tuán)迷霧,想要弄明白其中的奧秘,真的要花費(fèi)一些功夫,我和大家一樣都是這么啃過來的,從不知到知知,懵懂到入門,每一步都走的很艱辛,課程上,大學(xué)老師基本上講解上機(jī)實(shí)操得時(shí)間特別有

    2024年02月07日
    瀏覽(21)
  • Linux圖形管理框架gdm3、lightdm、sddm、kdm介紹(一百三十七)

    1.Gnome系列圖形管理器:gdm、gdm3 Ubuntu默認(rèn)界面管理器:gdm3 2.KDE系列圖形管理器:KDM,SDDM LUbuntu默認(rèn)界面管理器:sddm 3.Canonical公司系列圖形管理器:Lightdm XUbuntu默認(rèn)界面管理器:lightdm 查看當(dāng)前使用的顯示管理器?

    2024年02月12日
    瀏覽(18)
  • AIGC內(nèi)容分享(三十三):AIGC“造浪”:創(chuàng)新應(yīng)用爆發(fā),釘釘為何先行一步?

    AIGC內(nèi)容分享(三十三):AIGC“造浪”:創(chuàng)新應(yīng)用爆發(fā),釘釘為何先行一步?

    目錄 前言 ?AI產(chǎn)業(yè)元年帶來的變化與重構(gòu) ?AI如何深入產(chǎn)業(yè)、解決痛點(diǎn)? ?智能時(shí)代的超級(jí)APP ?結(jié)語 剛剛過去的2023年,可謂是AI產(chǎn)業(yè)發(fā)展的關(guān)鍵之年。 在這短短的一年內(nèi),AIGC(生成式人工智能,Artificial Intelligence Generated Content)就已經(jīng)歷了三波浪潮:第一波,以GPT為代表的大

    2024年01月21日
    瀏覽(29)
  • AIGC內(nèi)容分享(三十六):“AIGC的觸摸”如何賦予UI設(shè)計(jì)新生命

    AIGC內(nèi)容分享(三十六):“AIGC的觸摸”如何賦予UI設(shè)計(jì)新生命

    目錄 一、UI設(shè)計(jì)的基本原則與AIGC的融合 1. 一致性與風(fēng)格化的AIGC 2. 反饋與交互式AIGC 3. 簡(jiǎn)化操作與智能化AIGC 4. 可用性與適應(yīng)性AIGC 5. 吸引力與創(chuàng)意AIGC 二、利用AIGC生成界面——操作指南 1.使用“Chat GPT Classic”、“文新一言”詢問 2.刨根問底 3.搭建詳細(xì)頁面——首頁 4.AIGC搭建

    2024年02月21日
    瀏覽(18)
  • JAVA面試題分享一百六十三:Kafka如何實(shí)現(xiàn)延時(shí)推送?

    JAVA面試題分享一百六十三:Kafka如何實(shí)現(xiàn)延時(shí)推送?

    目錄 一、延時(shí)隊(duì)列定義 二、技術(shù)實(shí)現(xiàn)方案 1. Redis 2. Kafka 3. RabbitMQ 4. RocketMQ 三、Kafka延時(shí)隊(duì)列背景 四、Kafka延時(shí)隊(duì)列實(shí)現(xiàn)思路 六、Kafka延時(shí)隊(duì)列架構(gòu)圖 七、kafka延時(shí)任務(wù)代碼實(shí)現(xiàn) 1. KafkaDelayQueue:Kafka延遲隊(duì)列 2. KafkaDelayQueueFactory:Kafka延遲隊(duì)列工廠 3. KafkaPollListener:Kafka延遲隊(duì)

    2024年02月04日
    瀏覽(23)
  • 架構(gòu)設(shè)計(jì)內(nèi)容分享(二百一十):設(shè)計(jì)一個(gè)大并發(fā)、大數(shù)據(jù)的系統(tǒng)架構(gòu),說說設(shè)計(jì)思路

    架構(gòu)設(shè)計(jì)內(nèi)容分享(二百一十):設(shè)計(jì)一個(gè)大并發(fā)、大數(shù)據(jù)的系統(tǒng)架構(gòu),說說設(shè)計(jì)思路

    目錄 大并發(fā)/大數(shù)據(jù)的軟件有如下特點(diǎn) 大并發(fā)/大數(shù)據(jù)的架構(gòu)目標(biāo)有如下幾個(gè) 大并發(fā)/大數(shù)據(jù)的設(shè)計(jì)思路與原則 大并發(fā)/大數(shù)據(jù)的分層架構(gòu) 1 接入層的架構(gòu)方案: 第二三層:應(yīng)用層/服務(wù)層架構(gòu)方案 第四層:數(shù)據(jù)層架構(gòu)方案 第五層:基礎(chǔ)設(shè)施層架構(gòu) 高并發(fā)核武器:?jiǎn)卧?異地

    2024年02月21日
    瀏覽(16)
  • 架構(gòu)設(shè)計(jì)內(nèi)容分享(四十一):100萬級(jí)連接,愛奇藝WebSocket網(wǎng)關(guān)如何架構(gòu)

    架構(gòu)設(shè)計(jì)內(nèi)容分享(四十一):100萬級(jí)連接,愛奇藝WebSocket網(wǎng)關(guān)如何架構(gòu)

    目錄 100W級(jí)連接,愛奇藝WebSocket推送網(wǎng)關(guān)架構(gòu) 1、舊方案存在的技術(shù)痛點(diǎn) 2、新方案的技術(shù)目標(biāo) 3、新方案的技術(shù)選型 4、新方案的實(shí)現(xiàn)思路 4.1 系統(tǒng)架構(gòu) 4.2 會(huì)話管理 4.3 監(jiān)控與報(bào)警 5、新方案的性能壓測(cè) 6、新方案的實(shí)際應(yīng)用案例 7、總結(jié) HTTP 協(xié)議屬于一種無狀態(tài)、基于 TCP 的請(qǐng)

    2024年01月23日
    瀏覽(16)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包