国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

短視頻媒體處理系統(tǒng)應(yīng)急響應(yīng)自動化實踐

這篇具有很好參考價值的文章主要介紹了短視頻媒體處理系統(tǒng)應(yīng)急響應(yīng)自動化實踐。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

動手點關(guān)注

短視頻媒體處理系統(tǒng)應(yīng)急響應(yīng)自動化實踐

干貨不迷路

背景

每天在世界各地都有海量用戶在短視頻 App 上分享充滿創(chuàng)意的視頻或是生活中的精彩故事。

由于使用者所在的環(huán)境不可控(高鐵、電梯等弱網(wǎng)環(huán)境),若直接播放原始畫質(zhì)的視頻,可能導(dǎo)致觀看影片的過程中出現(xiàn)卡頓甚至無法播放的情形,導(dǎo)致觀影感受不佳。為了讓不同網(wǎng)絡(luò)條件的使用者,都能順暢地觀看這些視頻,每一條視頻的發(fā)布,都需要經(jīng)過轉(zhuǎn)碼的過程,生成不同檔位的視頻,即使用戶在網(wǎng)絡(luò)不好的環(huán)境中,也能提供適合檔位的視頻,讓使用者有順暢的觀影體驗。

針對視頻轉(zhuǎn)碼的場景,目前業(yè)界通用的解決方案大多為原始視頻上傳到物件儲存后,通過事件觸發(fā)媒體處理過程,當(dāng)中可能涉及使用工作流系統(tǒng)做媒體處理任務(wù)的調(diào)度或是編排,處理完成的視頻存檔至物件儲存后再透過內(nèi)容分發(fā)網(wǎng)絡(luò)(Content Delivery Network,CDN)分發(fā)給觀影者。

短視頻媒體處理系統(tǒng)應(yīng)急響應(yīng)自動化實踐

圖 1:媒體處理系統(tǒng)在 AWS 公有云上的業(yè)界通用解決方案

[來源]https://aws.amazon.com/media-services

在業(yè)界通用的公有云解決方案中,對開發(fā)者而言需要整合公有云上各個子系統(tǒng),來完成視頻轉(zhuǎn)碼的生命周期,以及管理虛擬機(jī)計算資源,這需要較大的認(rèn)知成本以及對各種云服務(wù)的學(xué)習(xí)成本,對開發(fā)者來說是比較大的負(fù)擔(dān)。

在字節(jié),視頻架構(gòu)團(tuán)隊經(jīng)過長年的技術(shù)積累,在視頻這個領(lǐng)域已經(jīng)形成了一個內(nèi)部多媒體處理 PaaS 平臺。用戶通過上傳系統(tǒng)上傳視頻到物件儲存中,接著會觸發(fā)媒體處理平臺的任務(wù)編排系統(tǒng),下發(fā)轉(zhuǎn)碼、生成動圖、封面照等任務(wù)到具有海量資源的計算資源池,最后透過內(nèi)容分發(fā)網(wǎng)絡(luò)分發(fā)給觀影者。多媒體處理 PaaS 平臺主要由兩大子系統(tǒng)構(gòu)成,工作流系統(tǒng)與計算平臺,并提供多租戶的接入方式,用以支撐字節(jié)整個生態(tài)系的視頻處理需求。

計算平臺主要提供了一個大型的計算資源池,將各種異構(gòu)資源(CPU、GPU)封裝起來,讓團(tuán)隊內(nèi)媒體處理專業(yè)的開發(fā)者無需關(guān)注計算資源整合相關(guān)工作,可以專注于開發(fā)具有各種原子能力的無伺服器函數(shù),提供轉(zhuǎn)碼、生成封面照、生成動圖等豐富功能。工作流系統(tǒng)則提供了任務(wù)編排的能力,能夠定義視頻上傳后需要執(zhí)行各種媒體處理任務(wù)的先后順序,并將任務(wù)下發(fā)到計算平臺利用大型的計算資源池來完成媒體處理的工作。

透過這兩大子系統(tǒng)提供的基礎(chǔ)能力,可以大大減少開發(fā)者的負(fù)擔(dān)以及提高功能迭代的速度。

短視頻媒體處理系統(tǒng)應(yīng)急響應(yīng)自動化實踐

圖 2:視頻架構(gòu)團(tuán)隊媒體處理系統(tǒng)解決方案

技術(shù)框架 1.0

這么龐大的一個線上系統(tǒng),如何保持它的穩(wěn)定性,并且在線上有任何異常情況時,能夠準(zhǔn)確、快速地處理問題,減少對用戶的影響就顯得特別重要。針對部署在世界各地的多媒體處理 PaaS 平臺都會定義服務(wù)水準(zhǔn)指標(biāo) (SLI),并以此為基礎(chǔ)定義服務(wù)水準(zhǔn)目標(biāo) (SLO),并配置針對 SLO 的適當(dāng)報警規(guī)則。

短視頻媒體處理系統(tǒng)應(yīng)急響應(yīng)自動化實踐

圖 3:應(yīng)急響應(yīng)流程

如圖 3 所示,當(dāng)服務(wù)發(fā)生異常,例如:5分鐘內(nèi)請求正確率低于 99.9% 時,觸發(fā)報警,并發(fā)送 Webhook 消息給團(tuán)隊內(nèi)研發(fā)的應(yīng)急響應(yīng)中心平臺,平臺會將當(dāng)下的值班人員創(chuàng)立一個告警處理群組,并把后續(xù)相關(guān)的報警信息都聚合到群組中,隨后就由 SRE 開始介入處理。當(dāng)前流程在創(chuàng)建告警處理群組之后,主要仰賴 SRE 去自主搜集與應(yīng)急事件相關(guān)的異常指標(biāo),缺乏自動化工具提前做訊息的匯總,可能導(dǎo)致整體事故處理流程需要花費較多時間先梳理目前異常的指標(biāo)才能做事故止損操作。

當(dāng)前的痛點

微服務(wù)及依賴數(shù)量多

在團(tuán)隊中,服務(wù)的開發(fā)大部分走的是微服務(wù)架構(gòu),并且作為一個內(nèi)部的 PaaS 平臺,勢必得提供全球跨區(qū)域的服務(wù)因此在服務(wù)本身以及基礎(chǔ)設(shè)施方面,需要有多區(qū)域以及多機(jī)房的部署。目前只看單一區(qū)域媒體處理任務(wù)調(diào)度的微服務(wù)就有 30 個,此外還需考慮相關(guān)的基礎(chǔ)設(shè)施的監(jiān)控,如:數(shù)據(jù)庫、緩存、分布式鎖以及消息隊列等......

短視頻媒體處理系統(tǒng)應(yīng)急響應(yīng)自動化實踐

圖 4:數(shù)量龐大的微服務(wù)監(jiān)控儀表板

因此,即使制作了如上圖全局視角的監(jiān)控儀表板,但在應(yīng)急事件發(fā)生的當(dāng)下就能迅速的定位如此龐大的服務(wù)拓?fù)渲械漠惓|c,仍然是一個具有挑戰(zhàn)的任務(wù)。

不同指標(biāo)比較基準(zhǔn)不同

對于應(yīng)急事件發(fā)生時,通常可以分為以下兩種情況:基礎(chǔ)設(shè)施異常、突發(fā)流量。

第一個例子:數(shù)據(jù)庫基礎(chǔ)設(shè)施。通常在正常運作下的查詢延遲都會處于一個固定的水平,例如 10ms 。延遲上升分為:整體數(shù)據(jù)庫延遲上升(可能是當(dāng)下負(fù)載高),部分實例延遲上升(可能是部門網(wǎng)段有抖動)。

短視頻媒體處理系統(tǒng)應(yīng)急響應(yīng)自動化實踐

圖 5:數(shù)據(jù)庫延遲異常指標(biāo)

第二個例子,突發(fā)流量。作為一個內(nèi)部的 PaaS 平臺,勢必是提供了多租戶的功能以服務(wù)字節(jié)內(nèi)諸多團(tuán)隊的需求,且當(dāng)租戶數(shù)量達(dá)到一個量級,逐個租戶去了解他們何時有活動或是有突發(fā)流量已經(jīng)是不太合乎經(jīng)濟(jì)效益的事情,以下方的例子為例,可以看到指標(biāo)呈現(xiàn)以天為周期的規(guī)律分布,但可以看到紅框處紫色的指標(biāo)較昨天明顯得更多,這稱之為昨日同比上升。

短視頻媒體處理系統(tǒng)應(yīng)急響應(yīng)自動化實踐

圖 6:流量指標(biāo)同比上升

錯誤排查涉及不同內(nèi)部系統(tǒng)

第三個例子,涉及依賴系統(tǒng)的錯誤。以下圖為例,紅框處的錯誤量明顯比過去半小時要高得多,這稱之為環(huán)比上升。針對這種情況則需要到內(nèi)部的 PaaS 平臺去查詢詳細(xì)的錯誤碼以及對應(yīng)的錯誤日志。

短視頻媒體處理系統(tǒng)應(yīng)急響應(yīng)自動化實踐

圖 7:依賴系統(tǒng)錯誤指標(biāo)環(huán)比上升

目標(biāo)

以上三種情況,以現(xiàn)有的監(jiān)控以及排查手段,在應(yīng)急事件發(fā)生時,整個排查的過程需要比對多個儀表板甚至是不停地在儀表板上切換不同的查詢時間段來比較指標(biāo)的正常性,更甚者需要打開其他內(nèi)部系統(tǒng)來查找日志,這都大大延長了定位問題以及做應(yīng)急處理的決策時間。

因此如果能夠把上面的排查工作做一定程度的自動化,那就能大大提高 SRE 成員在值班時對照值班手冊 SOP(標(biāo)準(zhǔn)作業(yè)流程)來排查的速度,并能減少值班的辛苦感受。

量化指標(biāo)

平均修復(fù)時間(Mean time to repair,MTTR)包含了發(fā)現(xiàn)故障(Identify)、故障定位止損(Know)以及故障恢復(fù)(Fix)的整體時間。導(dǎo)入自動化排查工具的主要目的是減少故障定位止損的時間,目前系統(tǒng)都有設(shè)定針對 SLO 目標(biāo)的告警發(fā)生以及恢復(fù)時間的數(shù)據(jù)統(tǒng)計,因此決定以 MTTR 這個指標(biāo)來作為這次自動化系統(tǒng)導(dǎo)入的成果量化指標(biāo)。

短視頻媒體處理系統(tǒng)應(yīng)急響應(yīng)自動化實踐

圖 8:平均修復(fù)時間在事故時間序中的范圍

架構(gòu)

技術(shù)架構(gòu) 2.0

短視頻媒體處理系統(tǒng)應(yīng)急響應(yīng)自動化實踐

圖 9:改善后的應(yīng)急響應(yīng)流程

視頻架構(gòu)穩(wěn)定性團(tuán)隊研發(fā)的應(yīng)急響應(yīng)中心平臺(Emergency Center)內(nèi)建了名為 SOP Engine 的集成解決方案,提供了 SDK 讓 SRE 的成員能快速開發(fā),如:Metrics 查詢、分析、發(fā)起 HTTP 請求等通用的無服務(wù)器函數(shù),并能夠利用 yaml 定義狀態(tài)機(jī)工作流編排,來實現(xiàn)自定義的告警診斷或是應(yīng)急處理預(yù)案的工作流編排使用。

自動化工作流設(shè)計

整個自動化告警處理流程可以歸納成如下圖的步驟:

  1. 工作流被告警的 Webhook 觸發(fā),平臺攜帶告警上下文(時間、區(qū)域),以及預(yù)先設(shè)定在工作流中的 Metrics 查詢目標(biāo)(為服務(wù)名稱、數(shù)據(jù)庫名稱、消息隊列 Topic)和異常閾值

  2. 使用 Parallel Task 方式觸發(fā)子工作流分別做:作業(yè)系統(tǒng)(CPU、Memory)、基礎(chǔ)設(shè)施以及微服務(wù)的告警診斷

  3. 每個告警診斷子工作流中,都會經(jīng)過 Metrics 查詢、分析以及結(jié)果聚合三個階段

  4. 最后組裝要發(fā)送到應(yīng)急響應(yīng)群組的卡片并發(fā)送

短視頻媒體處理系統(tǒng)應(yīng)急響應(yīng)自動化實踐

圖 10:自動化工作流內(nèi)部流程

Metrics Query 函數(shù)

Metrics 查詢函數(shù)設(shè)計了如下方范例的 API,能對接字節(jié)基于 OpenTSDB 搭建的 Metrics 平臺,主要提供以下幾種功能來大幅提升本函數(shù)的重用性。

  • Metrics 查詢模板化,針對 indicator、tags、filters 都可以撰寫 go template 語法并從 template_values 欄位帶入值。

  • 支援一次查詢多種時間區(qū)段資料,利用 time_ranges 欄位下可定義如:30分鐘前、1天、1周前等......不同時間范圍,在一次函數(shù)呼叫中全部取得。

  • Metrics 下鉆功能,在 drill_downs 欄位可以定義針對原有 tags 上再額外追加 tags 來取得如:原本查詢整體服務(wù)的 CPU 使用率,再額外查詢該服務(wù)每個主機(jī)的 CPU 使用率。

{
????"zone":?"xx",
????"indicator":?"service.thrift.{{?.service_name?}}.call.success.throughput",
????"template_values":?{
????????"service_name":?"my_service_name",
????????"to":?"redis_cache"
????},
????"aggregator":?"avg",
????"tags":?{
????????"idc":?"literal_or(*)",
????????"cluster":?"literal_or(*)",
????????"to":?"literal_or({{?.to?}})"
????},
????"filters":?{
????????"cluster":?"my_cluster_name"
????},
????"rate_option":?{
????????"counter":?false,
????????"diff":?false
????},
????"start_at":?"now-5m",
????"end_at":?"now",
????"time_ranges":?{
????????"5mago":?{
????????????"start_at":?"now-10m",
????????????"end_at":?"now-5m"
????????}
????},
????"drill_downs":?{
????????"instances":?{
????????????"top":?1,
????????????"top_aggregator":?"max",
????????????"tags":?{
????????????????"host":?"literal_or(*)"
????????????}
????????}
????}
}
Metrics Analysis 函數(shù)

Metrics 分析函數(shù)設(shè)計了如下圖的 API ,讓閾值、同環(huán)比分析甚至是針對 Metrics 中某一個 Tag 的下鉆分析,都能夠定制要分析的匯總結(jié)果(最大、最小、平均、總和),此外比較運算子跟閾值也能夠隨意調(diào)整,這對于后續(xù)要修改閾值或是分析的邏輯都提供了很大的便利性。

{
????"display":?{?//?必填
????????"namePrefix":?"今日",?//?可選,顯示名稱前綴,默認(rèn):當(dāng)前
????????"name":?"延遲",?//?必填,分析結(jié)果指標(biāo)顯示名稱
????????"format":?"latencyMs"?//?可選,分析結(jié)果指標(biāo)顯示格式,不填則按原樣輸出,只顯示到小數(shù)第二位,格式支援?default,?percent,?latency,?latencyMs
????},
????"summary":?"avg",?//?必填,對哪一個匯總資料做顯示及分析?sum,?avg,?max,?min,?count
????"threshold":?{?//?可選,閾值分析
????????"value":?4,?//?必填,原始數(shù)值閾值
????????"operator":?"gt"?//?必填,比較運算子,支援?gt,?gte,?lt,?lte,?eq,?ne
????},
????"time_ranges_percentage_difference":?{?//?可選,分析不同時間偏移資料
????????"5mago":?{?//?鍵名,可自行指定名稱
????????????"display":?{?//?必填
????????????????"name":?"5分環(huán)比"?//?必填,分析結(jié)果顯示名稱
????????????},
????????????"summary":?"avg",?//?必填,對哪一個匯總資料做顯示及分析?sum,?avg,?max,?min,?count
????????????"precondition":?{?//?可選,前置條件,原始?metrics?滿足條件后才進(jìn)行變化率分析
????????????????"value":?4,?//?必填,閾值
????????????????"operator":?"gt"?//?必填,比較運算子,支援?gt,?gte,?lt,?lte,?eq,?ne
????????????},
????????????"threshold":?{?//?可選,變化率閾值
????????????????"value":?0.1,?//?必填,閾值
????????????????"operator":?"gt"?//?必填,比較運算子,支援?gt,?gte,?lt,?lte,?eq,?ne
????????????}
????????}
????},
????"drill_downs":?{?//?可選,分析不同下鉆資料
????????"instances":?{?//?鍵名,可自行指定名稱
????????????"display":?{?//?必填
????????????????"name":?"單實例"?//?必填,分析結(jié)果顯示名稱
????????????},
????????????"summary":?"max",?//?必填,對哪一個匯總資料做顯示及分析?sum,?avg,?max,?min,?count
????????????"threshold":?{?//?可選,閾值分析
????????????????"value":?10,?//?可選,單實例原始數(shù)值閾值
????????????????"stdDiff":?1,?//?可選,單實例原始數(shù)值與其他下鉆值平均比較標(biāo)準(zhǔn)差閾值
????????????????"operator":?"gt"?//?必填,比較運算子,支援?gt,?gte,?lt,?lte,?eq,?ne
????????????}
????????}
????},
????"filter":?true,?//?可選,只顯示有達(dá)到閾值的分析結(jié)果
????"metrics":?[...]?//?略,Metrics?查詢函數(shù)返回的資料內(nèi)容
}
JavaScript 執(zhí)行函數(shù)

在 Metrics 聚合以及機(jī)器人卡片信息組裝的步驟中,不同的 Metrics 的聚合條件以及機(jī)器人卡片顯示邏輯各不相同,如果分別開發(fā)會讓整體函數(shù)的重用性以及開發(fā)效率降低,因此利用了 github.com/rogchap/v8go 這個套件開發(fā)了可以對輸入 JSON 數(shù)據(jù)動態(tài)執(zhí)行 JavaScript 的函數(shù)來處理這一系列的用途,誰叫 JavaScript 就是處理 JSON 格式數(shù)據(jù)的最好方式呢,如下,對 JSON 內(nèi)的 Array 數(shù)據(jù)都能用原生的 JavaScript 做群組、排序、倒序以及映射的操作,十分便利。

{
????"script":?"data.flat().map(x?=>?x?*?2).filter(x?=>?x?>?5).reverse()",
????"data":?[
????????[1,2,3,4,5],
????????[6,7,8,9]
????]
}
實際案例:MySQL 延遲診斷

下圖是一個實際異常診斷的例子如何用上述三個函數(shù)做組合,下圖以 MySQL 延遲作為例子,可以看到大部分的 MySQL 延遲正常范圍在 1s 以下,其中一臺主機(jī)的延遲突然上升至 20.6s 這在應(yīng)急響應(yīng)中是需要被主動發(fā)現(xiàn)出來并且是有可能造成應(yīng)急事件的異常。

短視頻媒體處理系統(tǒng)應(yīng)急響應(yīng)自動化實踐

圖 11:MySQL 延遲單實例異常

  • 查詢延遲

    ,如下方的工作流定義,只需要從 Grafana 儀表板中把用來做圖的 Metrics 以及查詢條件、時間范圍、下鉆 tag 依照前面提到的 Metrics 查詢函數(shù)的 API 定義填入就能做 Metrics 查詢。

MetricQuery:
??type:?Task
??next:?MetricAnalysis
??atomicOperationRef:?metric_query
??variables:
????zone:?xxx
????indicator:?mysql.latency.pct99
????tags:
??????idc:?literal_or(*)
??????db:?my_database
????aggregator:?avg
????start_at:?now-30m
????end_at:?now
????time_ranges:
??????1d:
????????start_at:?now-1d30m
????????end_at:?now-1d
????drill_downs:
??????instances:
????????top:?30
????????top_aggregator:?max
????????tags:
??????????host:?literal_or(*)
??????????port:?literal_or(*)
  • 分析延遲

    ,下方的工作流定義,會在 Metrics 查詢函數(shù)執(zhí)行完成后執(zhí)行,主要需要提供顯示分析結(jié)果的文案、Metrics 的單位、以及各項異常分析的閾值。

MetricAnalysis:
??type:?Task
??next:?GroupResult
??atomicOperationRef:?metric_analysis
??variables:
????metrics.@:?"@.data"?#?從查詢延遲函數(shù)輸出取得查詢結(jié)果
????filter:?true
????display:
??????name:?延遲
??????format:?latencyMs
????summary:?avg?#?整體延遲平均超過?500ms?視為異常
????threshold:
??????value:?500
??????operator:?gt
????time_ranges_percentage_difference:
??????1d:
????????display:
??????????name:?昨日同比
????????summary:?avg
????????precondition:?#?整體延遲平均超過?200ms?則分析當(dāng)下延遲與昨日對比
??????????value:?200
??????????operator:?gt
????????threshold:?#?整體延遲平均超過昨日的?50%?視為異常
??????????value:?0.5
??????????operator:?gt
????drill_downs:
??????instances:
????????display:
??????????name:?單實例
????????summary:?max?#?單一?MySQL?實例延遲最大超過?1s?視為異常
????????threshold:
??????????value:?1000
??????????operator:?gt
  • 分組結(jié)果

    ,這個工作流步驟相對簡單,主要針對 Metrics 分析函數(shù)的結(jié)果,以特定的 tag 做分組并排序,在這個例子里,我們希望利用 IDC(機(jī)房)來做分組的鍵,因此在以下工作流定義中就把執(zhí)行上述邏輯的 JavaScript 代碼引入即可。

GroupResult:
??type:?Task
??end:?true
??atomicOperationRef:?jsrun
??resultSelector:
????mysqlLatency.@:?"@.data"?#?從分析延遲函數(shù)輸出取得查詢結(jié)果
??variables:?
????data.@:?"@"
????script:?|?#?針對?IDC?tag?分組結(jié)果
??????data?=?data.map(x?=>?x.data).flat().groupBy(x?=>?x.template_values?.idc)
??????
??????//?排序資料并轉(zhuǎn)換格式
??????for?(const?key?in?data)?{
??????????data[key]?=?data[key].
??????????????sort((a,?b)?=>?a.original_value?-?b.original_value).
??????????????reverse().
??????????????map(x?=>?({
??????????????????...x.tags,
??????????????????usage:?{
??????????????????????current:?x.value,
??????????????????????"1d":?x.time_ranges_percentage_difference???x.time_ranges_percentage_difference["1d"]?.value?:?"無數(shù)據(jù)"
??????????????????},
??????????????????threshold:?{
??????????????????????current:?x.threshold,
??????????????????????"1d":?x.time_ranges_percentage_difference???x.time_ranges_percentage_difference["1d"]?.threshold?:?"無數(shù)據(jù)突增"
??????????????????????"instances":?x.drill_downs?.instances
??????????????????}
??????????????}))
??????}
??????data

最終經(jīng)過以上三個工作流的執(zhí)行,可以得到以下資料輸出結(jié)果,基本上有異常的 Metrics 以及診斷結(jié)論都已經(jīng)結(jié)構(gòu)化的方式做好分組以及過濾,并附有診斷結(jié)論,可以作為聊天機(jī)器人訊息的輸入使用。

{
????"mysqlLatency":?{
????????"xx":?[
????????????{
????????????????"cluster":?"xxxx",
????????????????"idc":?"xx",
????????????????"threshold":?{
????????????????????"1d":?"平均延遲昨日同比大于:50%",
????????????????????"current":?"當(dāng)前平均延遲大于:1s",
????????????????????"instances":?[
????????????????????????{
????????????????????????????"name":?"mysql.latency.pct99{cluster=xxxx,dc=xx,host=xxx-xxx-xxx-001}",
????????????????????????????"original_value":?20600.546,
????????????????????????????"tags":?{
????????????????????????????????"cluster":?"xxxx",
????????????????????????????????"idc":?"xx",
????????????????????????????????"host":?"xxx-xxx-xxx-001"
????????????????????????????},
????????????????????????????"threshold":?"單實例最大延遲大于:1s",
????????????????????????????"value":?"單實例最大延遲:20.6s"
????????????????????????}
????????????????????]
????????????????},
????????????????"usage":?{
????????????????????"1d":?"平均延遲昨日同比:62%",
????????????????????"current":?"當(dāng)前平均延遲:501.49ms"
????????????????}
????????????}
????????]
????}
}

而針對應(yīng)用容器相關(guān)的指標(biāo)診斷,如:CPU、Memory,或是應(yīng)用本身的 Metrics 指標(biāo)都是遵照類似的邏輯來編排工作流,只要替換查詢的 Metrics 以及診斷的閾值即可。

收益

有了以上的自動化分析工具,在視頻架構(gòu)團(tuán)隊的日常應(yīng)急響應(yīng)流程中得到了很大的收益,在一次應(yīng)急事件中,某一個 IDC 的網(wǎng)路發(fā)生故障,如下圖:某一個 IP 的錯誤以及延遲都特別高,在應(yīng)急響應(yīng)處理群中自動觸發(fā)的診斷都能直接把這類異常直接發(fā)現(xiàn)出來,就能馬上針對異常的實例進(jìn)行處置操作。

短視頻媒體處理系統(tǒng)應(yīng)急響應(yīng)自動化實踐

圖 12:自動化工具在事故群組中展示異常指標(biāo)的匯總訊息

本自動化流程完整導(dǎo)入后統(tǒng)計 MTTR 縮短成效如下圖,從2022年10月初開始導(dǎo)入到目前2023年1月底,每雙周統(tǒng)計一次 MTTR:從初期的 70 分鐘,到目前 17 分鐘,總體下降約 75.7%。

總結(jié)

在面對如此大量的微服務(wù)以及種類繁多的基礎(chǔ)設(shè)施依賴環(huán)境下要能在應(yīng)急事件發(fā)生時快速做決策以及執(zhí)行應(yīng)急操作,除了要有相對完整的監(jiān)控之外,并且平時需要收集應(yīng)急響應(yīng)處理記錄,才能統(tǒng)計出高頻率發(fā)生的事件并歸納出一個自動化的排查流程來縮短 MTTR。文章來源地址http://www.zghlxwxcb.cn/news/detail-424651.html

到了這里,關(guān)于短視頻媒體處理系統(tǒng)應(yīng)急響應(yīng)自動化實踐的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 接口自動化測試 —— 工具、請求與響應(yīng)

    接口自動化測試 —— 工具、請求與響應(yīng)

    1.工具介紹 postman :很主流的API測試工具,也是工作里面使用最廣泛的研發(fā)工具。 JMeter: ApiPost: 2.安裝postman: 安裝好直接打開,不用注冊。 1、同步通信: 客戶端請求服務(wù)端必須有回應(yīng),在回應(yīng)之前不能做別的操作,有缺陷,會造成排隊、等待、堵塞。 當(dāng)任務(wù)太多時,服

    2024年02月07日
    瀏覽(20)
  • 【Python 自動化】自媒體剪輯第一版·思路簡述與技術(shù)方案

    大家都知道我主業(yè)是個運維開發(fā)(或者算法工程師),每天時間不多,但我又想做自媒體。然后呢,我就想了個方案,每天起來之后寫個短視頻的腳本,包含一系列圖片和文字,然后上班的時候給它提交到流水線上跑,下班之前就能拿到視頻,然后往各大平臺上一傳,是不是

    2024年02月09日
    瀏覽(20)
  • SOAR安全事件編排自動化響應(yīng)-安全運營實戰(zhàn)

    SOAR安全事件編排自動化響應(yīng)-安全運營實戰(zhàn)

    SOAR是最近幾年安全市場上最火熱的詞匯之一。各個安全產(chǎn)商都先后推出了相應(yīng)的產(chǎn)品,但大部分都用得不是很理想。SOAR不同與傳統(tǒng)的安全設(shè)備,買來后實施部署就完事,SOAR是一個安全運營系統(tǒng),是實現(xiàn)安全運營過程中人、工具、流程的有效協(xié)同,提高安全運營效率的平臺。

    2024年02月04日
    瀏覽(20)
  • Selenium自動化測試中如何抓取網(wǎng)絡(luò)請求響應(yīng)及WebSocket信息

    Selenium自動化測試中如何抓取網(wǎng)絡(luò)請求響應(yīng)及WebSocket信息

    我們在使用Selenium測試Web或Electronjs/Cef框架應(yīng)用時,有時候操作一個元素需要判斷是否發(fā)送了請求以及請求的參數(shù)是否正確 我們可以通過,開啟Chrome的性能日志來然后配合driver.get_log(\\\"performance\\\")來查看請求,然后對Network相關(guān)的日子進(jìn)行過濾, 實現(xiàn)如下: 運行結(jié)果如下: 由于日

    2024年02月16日
    瀏覽(22)
  • HttpRunner自動化測試工具之獲取響應(yīng)數(shù)據(jù)&extract提取值到變量

    HttpRunner自動化測試工具之獲取響應(yīng)數(shù)據(jù)&extract提取值到變量

    獲取響應(yīng)數(shù)據(jù) extract: 提取 注: extract 應(yīng)與request保持同一層級 1、響應(yīng)行,響應(yīng)頭;通過 extract 提取響應(yīng)的數(shù)據(jù)并存儲到變量中,如下圖: 注:變量名的前面要有 -? # 獲取響應(yīng)數(shù)據(jù): 響應(yīng)行(200,ok)響應(yīng)頭 - config: ? ? name: 測試百度網(wǎng)站 ? ? base_url: https://www.baidu.com - test:

    2024年02月02日
    瀏覽(57)
  • AutoJs手機(jī)自動化實戰(zhàn)(包含抖音自動化刷視頻實戰(zhàn))

    AutoJs手機(jī)自動化實戰(zhàn)(包含抖音自動化刷視頻實戰(zhàn))

    目錄 介紹 環(huán)境準(zhǔn)備 安裝vscode插件 簡單使用? 測試連接 編寫打開抖音app腳本測試? 腳本打包成apk 去除腳本打開日志 實戰(zhàn)QQ自動化發(fā)送消息 微信自動化發(fā)送朋友圈 ?編輯?抖音掃碼登錄 抖音自動化刷視頻? Auto.js是一款不用ROOT就能實現(xiàn)自動點擊、長按、滑動屏幕操作的安卓

    2024年04月11日
    瀏覽(21)
  • Python自動化實現(xiàn)抖音自動刷視頻

    Python自動化實現(xiàn)抖音自動刷視頻

    本文主要介紹了Python自動化實現(xiàn)抖音自動刷視頻,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧 環(huán)境準(zhǔn)備 實現(xiàn) Python3.5以上 Appium Server服務(wù)器 Android SDK,需要用到adb服務(wù) 需要依賴Appium-Pytho

    2024年02月12日
    瀏覽(27)
  • PPT自動化處理

    PPT自動化處理

    python-pptx模塊 可以創(chuàng)建、修改PPT(.pptx)文件 非Python標(biāo)準(zhǔn)模塊,需要單獨安裝 在線安裝方式? pip install python-pptx? 讀取slide幻燈片?.slides? 獲取shape形狀??slide.shapes 判斷一個shape中是否存在文字??shape.has_text_frame 獲取文字框??shape.text_frame 使用Python向PPT中寫入數(shù)據(jù) 添加幻燈片

    2024年01月15日
    瀏覽(10)
  • Python文件自動化處理

    Python文件自動化處理

    Python標(biāo)準(zhǔn)庫 和操作系統(tǒng)有關(guān)的操作 創(chuàng)建、移動、復(fù)制文件和文件夾 文件路徑和名稱處理 路徑的操作 獲取當(dāng)前Python程序運行路徑 不同操作系統(tǒng)之間路徑的表示方式? windows中采用反斜杠()作為文件夾之間的分隔符? Mac和Linux中采用斜杠(/)作為文件夾之間的分隔符 把文件夾里面

    2024年01月17日
    瀏覽(19)
  • 基于python實現(xiàn)Web自動化測試(selenium)、API自動化測試(requests)&附學(xué)習(xí)視頻

    基于python實現(xiàn)Web自動化測試(selenium)、API自動化測試(requests)&附學(xué)習(xí)視頻

    另一篇文章 :自動化測試框架(pytest)附學(xué)習(xí)視頻 學(xué)習(xí)視頻,學(xué)習(xí)文檔-白月黑羽 說明: 1緊跟著寫的不加/,不加空格-表示同一級別信息,加空格表示后代 2.css定位tag,id,class時分別有不同的標(biāo)識,其他屬性都要加[]進(jìn)行搜索, Xpath所有屬性都要都加【】,tag不用 3. css在使用ta

    2024年02月03日
    瀏覽(24)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包