国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【博客655】prometheus如何應(yīng)對告警目標(biāo)消失帶來的評估缺失問題

這篇具有很好參考價(jià)值的文章主要介紹了【博客655】prometheus如何應(yīng)對告警目標(biāo)消失帶來的評估缺失問題。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

prometheus如何應(yīng)對告警目標(biāo)消失帶來的評估缺失問題

1、up指標(biāo)剖析

基于拉取的監(jiān)控(例如 Prometheus)的優(yōu)勢之一是,您可以在抓取過程中判斷目標(biāo)是否健康。

關(guān)于 Prometheus 的一個(gè)常見問題是如何判斷服務(wù)器是否沒有響應(yīng)或檢測樣本是否不再從目標(biāo)中攝取。簡單黑盒監(jiān)控的首選工具是黑盒導(dǎo)出器,您可以使用 unless 和 offset 進(jìn)行邊緣檢測,以檢測時(shí)間序列是否未更新。然而,有一種更簡單的方法可以涵蓋大多數(shù)用例。

當(dāng) Prometheus 抓取目標(biāo)時(shí),它不只是攝取返回的樣本。它還添加了一些關(guān)于抓取本身的額外示例。主要的是 up指標(biāo),如果抓取失敗則為 0,如果抓取成功則為 1。

關(guān)于 up 有幾件事你應(yīng)該知道:

  • 1、它不是來自 scrape 本身,所以 metric_relabel_configs 不適用。也就是說,up 總是有目標(biāo)的標(biāo)簽,每個(gè)服務(wù)發(fā)現(xiàn)和 relabel_configs。

  • 2、只要目標(biāo)從服務(wù)發(fā)現(xiàn)中返回,up 就會(huì)獲得新值。這意味著如果自動(dòng)縮放刪除了一個(gè)實(shí)例,您將不會(huì)收到它已關(guān)閉的警報(bào),這正是您想要的。但是,這也意味著如果自動(dòng)縮放刪除了所有實(shí)例,您也不會(huì)收到警報(bào)。為了防止這種情況,明智的做法是為所有工作消失的情況創(chuàng)建一個(gè)帶有表達(dá)式 absent(up{job=“myjob”}) 的警報(bào)。

  • 3、有額外的時(shí)間序列表現(xiàn)得像up,都是以scrape_為前綴的。這些對于調(diào)試很有用

    • scrape_duration_seconds{job=“”, instance=“”}: duration of the scrape.
    • scrape_samples_post_metric_relabeling{job=“”, instance=“”}: the number of samples remaining after metric relabeling was applied.
    • scrape_samples_scraped{job=“”, instance=“”}: the number of samples the target exposed.
    • scrape_series_added{job=“”, instance=“”}: the approximate number of new series in this scrape.
  • 4、即使他們遇到的實(shí)例失敗,一些exporter也會(huì)成功,通常是因?yàn)樵谶@種情況下他們?nèi)匀豢梢蕴峁┮恍┯杏玫男畔?。因此,up 為 0 的警報(bào)是必要的,但還不夠。在這種情況下,您可能還需要關(guān)于 haproxy_up、mysqld_up、consul_up、probe_success(由black box exporter使用)等的警報(bào)。

2、Alerting on Down Instances(探測目標(biāo)down)

假設(shè)已經(jīng)設(shè)置了監(jiān)控并正在抓取實(shí)例,無論是用于機(jī)器監(jiān)控的節(jié)點(diǎn)導(dǎo)出器還是其他導(dǎo)出器。要為已關(guān)閉 10 分鐘的每個(gè)實(shí)例生成警報(bào):

groups:
- name: node.rules
  rules:
  - alert: InstanceDown
    expr: up{job="node"} == 0
    for: 10m

標(biāo)簽的強(qiáng)大功能意味著您只需定義一次此警報(bào),它就會(huì)自動(dòng)應(yīng)用于您所有帶有節(jié)點(diǎn)標(biāo)簽的實(shí)例!

單個(gè)實(shí)例發(fā)生故障不值得叫醒某人。只在 25% 的實(shí)例停機(jī)時(shí)發(fā)出警報(bào)怎么樣?

groups:
- name: node.rules  
  rules:
  - alert: InstancesDown
    expr: avg(up{job="node"}) BY (job) 

3、Absent Alerting for Jobs(探測目標(biāo)缺失)

使用 Prometheus 可以輕松地對數(shù)字過大或過小發(fā)出警報(bào)。但是,如果數(shù)字丟失了怎么辦?

在正常操作中,您的 Prometheus 會(huì)發(fā)現(xiàn)您的目標(biāo),抓取它們,并將運(yùn)行您針對它們定義的任何警報(bào)規(guī)則。但這可能會(huì)出錯(cuò)。例如,您的實(shí)例可能會(huì)從服務(wù)發(fā)現(xiàn)中消失,這將導(dǎo)致任何警報(bào)(例如 avg by (job)(up) < 0.5 不返回任何內(nèi)容而不是發(fā)出警報(bào))。如前所述,當(dāng)沒有輸入時(shí),聚合器不產(chǎn)生輸出。

因此,建議對作業(yè)消失的所有目標(biāo)發(fā)出警報(bào),例如:

groups:
- name: example
  rules:
  - alert: MyJobMissing
    expr: absent(up{job="myjob"})
    for: 10m

這使用了 absent 函數(shù)。如果給定的選擇器不匹配任何內(nèi)容,則返回值為 1 的單個(gè)時(shí)間序列和任何相等匹配器的標(biāo)簽。例如,在這種情況下,警報(bào)的標(biāo)簽為 job=“myjob”。如果有匹配的系列,則不返回任何內(nèi)容。

Prometheus 不知道應(yīng)該存在哪些標(biāo)簽集,因此您需要為每個(gè)作業(yè)設(shè)置一個(gè)這樣的警報(bào)。這僅適用于不存在和其他時(shí)間序列缺失的情況,如果您只想檢測目標(biāo)是否已關(guān)閉,您可以像往常一樣使用一個(gè)警報(bào)規(guī)則來完成。

4、Absent Alerting for Scraped Metrics(探測metrics缺失)

如果想針對一個(gè)目標(biāo)消失的特定指標(biāo)發(fā)出警報(bào)怎么辦?

注意:最好避免出現(xiàn)和消失的指標(biāo),但是目標(biāo)的某些子系統(tǒng)并不總是返回它們應(yīng)該返回的所有指標(biāo)??梢酝ㄟ^注意到 up 指標(biāo)存在但所討論的指標(biāo)不存在來檢測這種情況。此外,您需要檢查 up 是否為 1,以便在目標(biāo)關(guān)閉時(shí)不會(huì)誤觸發(fā)警報(bào)。如果您已經(jīng)收到有關(guān)該工作的警報(bào),則無需再向自己發(fā)送有關(guān)缺少指標(biāo)的垃圾郵件。

警報(bào)看起來像:

groups:
- name: example
  rules:
  - alert: MyJobMissingMyMetric
    expr: up{job="myjob"} == 1 unless my_metric
    for: 10m

5、對于使用可能不存在的指標(biāo)的規(guī)則如何處理

如果您正在對多個(gè)指標(biāo)進(jìn)行數(shù)學(xué)運(yùn)算,而其中一些指標(biāo)并不總是存在,那么處理起來可能會(huì)很困難,并會(huì)導(dǎo)致警報(bào)不觸發(fā)。這方面的一個(gè)例子是:

如果您有一個(gè)失敗指標(biāo)和一個(gè)成功指標(biāo)(忽略建議改為使用失敗指標(biāo)和總指標(biāo))。如果標(biāo)記了這些但沒有成功,則將失敗率計(jì)算為: rate(failure[1m]) / (rate(failure[1m]) + rate(success[1m]))
由于缺少成功指標(biāo)中的匹配標(biāo)簽集。因此,100% 的故障率會(huì)導(dǎo)致高級(jí)別故障警報(bào)永遠(yuǎn)不會(huì)觸發(fā)!

對于您正在使用可能不存在的指標(biāo)的情況,例如成功/失敗示例,方法是根據(jù)我們知道存在的某些指標(biāo)(通常是 up)或在缺失的標(biāo)簽集中。因此,例如,上面的故障率將變?yōu)椋?/strong>文章來源地址http://www.zghlxwxcb.cn/news/detail-488078.html

(rate(failure[1m]) or up * 0)
  /
((rate(failure[1m]) or up * 0) + (rate(success[1m] or up * 0))

到了這里,關(guān)于【博客655】prometheus如何應(yīng)對告警目標(biāo)消失帶來的評估缺失問題的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【博客685】prometheus 出現(xiàn)NaN場景以及如何去除干擾(Not a Number)

    場景: 一些監(jiān)控系統(tǒng)使用 NaN 作為空值或缺失值,但在 Prometheus 中 NaN 只是另一個(gè)浮點(diǎn)值。Prometheus 表示缺失數(shù)據(jù)的方式是讓數(shù)據(jù)缺失。Prometheus 支持所有 64 位浮點(diǎn)值,包括正無窮大、負(fù)無窮大和 NaN。 出現(xiàn)NaN的情況示例: 除以分母0 用作過時(shí)處理一部分的標(biāo)記。 然而,這是一

    2024年02月14日
    瀏覽(51)
  • 玩轉(zhuǎn)prometheus告警 alertmanger(一)之prometheus告警規(guī)則

    玩轉(zhuǎn)prometheus告警 alertmanger(一)之prometheus告警規(guī)則

    目錄 1. 告警系統(tǒng)原理概述 2.??配置prometheus規(guī)則 2.1 配置告警規(guī)則目錄 2.2 告警規(guī)則 3. 查看效果 在開始之前,需要了解下prometheus和altermanger之間的關(guān)系是什么?從prometheus的架構(gòu)及生態(tài)系統(tǒng)組件來看 ??Prometheus從targets中抓取指標(biāo)(metric)并存儲(chǔ),通過對指標(biāo)進(jìn)行分析生成告警

    2024年02月13日
    瀏覽(16)
  • 供應(yīng)鏈安全和第三方風(fēng)險(xiǎn)管理:討論如何應(yīng)對供應(yīng)鏈中的安全風(fēng)險(xiǎn),以及評估和管理第三方合作伙伴可能帶來的威脅

    供應(yīng)鏈安全和第三方風(fēng)險(xiǎn)管理:討論如何應(yīng)對供應(yīng)鏈中的安全風(fēng)險(xiǎn),以及評估和管理第三方合作伙伴可能帶來的威脅

    ? 在當(dāng)今數(shù)字化時(shí)代,供應(yīng)鏈的安全性越來越受到重視。企業(yè)的成功不僅僅依賴于產(chǎn)品和服務(wù)的質(zhì)量,還取決于供應(yīng)鏈中的安全性。然而,隨著供應(yīng)鏈越來越復(fù)雜,第三方合作伙伴的參與也帶來了一系列安全風(fēng)險(xiǎn)。本文將探討供應(yīng)鏈安全和第三方風(fēng)險(xiǎn)管理的關(guān)鍵問題,并通過

    2024年02月12日
    瀏覽(30)
  • 容器云平臺(tái)監(jiān)控告警體系(五)—— Prometheus發(fā)送告警機(jī)制

    容器云平臺(tái)監(jiān)控告警體系(五)—— Prometheus發(fā)送告警機(jī)制

    在Prometheus的架構(gòu)中告警被劃分為兩個(gè)部分,在Prometheus Server中定義告警規(guī)則以及產(chǎn)生告警,Alertmanager組件則用于處理這些由Prometheus產(chǎn)生的告警。本文主要講解Prometheus發(fā)送告警機(jī)制也就是在Prometheus Server中定義告警規(guī)則和產(chǎn)生告警部分,不過多介紹Alertmanager組件。 在Prometheus中

    2023年04月23日
    瀏覽(21)
  • Prometheus 告警規(guī)則配置

    Prometheus 告警規(guī)則配置

    alert.rule即告警規(guī)則,在Prometheus中,通過用戶自定義的條件進(jìn)行告警,自定義條件可以由 PromQL 表達(dá)式定義,當(dāng)滿足告警條件后,Prometheus會(huì)通過web界面進(jìn)行告警,如果同時(shí)有部署Alertmanager,則可利用Alertmanager進(jìn)行更為復(fù)雜的通知,如釘釘、微信、飛書等個(gè)性化渠道進(jìn)行通知。

    2023年04月25日
    瀏覽(28)
  • prometheus告警處理

    一.告警簡介 1.工作流程 prometheus收集監(jiān)測的信息 prometheus.yml 文件中定義 rules 文件,rules 里包含告警信息 prometheus 把告警信息 push 給 altermanager,alertmanager 里定義收件人和發(fā)件人 altermanager 發(fā)送文件到郵箱或微信 2.告警生命周期 定期采集監(jiān)控?cái)?shù)據(jù) 定期掃描告警規(guī)則,發(fā)現(xiàn)告警

    2023年04月08日
    瀏覽(15)
  • prometheus實(shí)戰(zhàn)之三:告警規(guī)則

    prometheus實(shí)戰(zhàn)之三:告警規(guī)則

    歡迎訪問我的GitHub 這里分類和匯總了欣宸的全部原創(chuàng)(含配套源碼):https://github.com/zq2599/blog_demos 本篇概覽 本文是《prometheus實(shí)戰(zhàn)》系列的第三篇,一起來學(xué)習(xí)prometheus的告警功能,如下圖所示,整個(gè)告警功能分為規(guī)則和通知兩部分,本篇是有關(guān)規(guī)則的詳細(xì)介紹,至于命中規(guī)則后

    2024年02月02日
    瀏覽(42)
  • 汽車智能化帶來的安全新挑戰(zhàn)及其應(yīng)對思路

    智能汽車的安全挑戰(zhàn) 挑戰(zhàn)1:域控架構(gòu)/集成式EE架構(gòu)的復(fù)雜度 功能安全開發(fā)所有的開發(fā)活動(dòng)中,都要求盡最大可能降低功能和系統(tǒng)的復(fù)雜度,復(fù)雜度的上升,對于安全實(shí)現(xiàn)的難度而言,是指數(shù)級(jí)上升的。然而域控架構(gòu)和集中式EE架構(gòu)的復(fù)雜度是天然的。原來一個(gè)功能相對簡單

    2024年02月05日
    瀏覽(17)
  • Edge瀏覽器版本更新后Copilot按鈕消失的解決應(yīng)對方式

    Edge瀏覽器版本更新后Copilot按鈕消失的解決應(yīng)對方式

    今天突然發(fā)現(xiàn)Edge瀏覽器右上角的Copilot按鈕不見了,排查了一下,發(fā)現(xiàn)可能是瀏覽器自動(dòng)升級(jí)到120版本后,關(guān)閉了右上角的Copilot按鈕。案發(fā)現(xiàn)場如下: 原因如下: 說實(shí)話,人家這個(gè)插件還是很好用的,之前說是測試版,那這次消失,我猜想是在進(jìn)行正式版發(fā)布吧,抱著這個(gè)

    2024年02月05日
    瀏覽(19)
  • 云原生監(jiān)控系統(tǒng)Prometheus:基于Prometheus構(gòu)建智能化監(jiān)控告警系統(tǒng)

    云原生監(jiān)控系統(tǒng)Prometheus:基于Prometheus構(gòu)建智能化監(jiān)控告警系統(tǒng)

    目錄 一、理論 1.Promethues簡介 2.監(jiān)控告警系統(tǒng)設(shè)計(jì)思路 3.Prometheus監(jiān)控體系 4.Prometheus時(shí)間序列數(shù)據(jù) 5.Prometheus的生態(tài)組件 6.Prometheus工作原理 7.Prometheus監(jiān)控內(nèi)容 8.部署Prometheus 9.部署Exporters 10.部署Grafana進(jìn)行展示 二、實(shí)驗(yàn) 1.部署Prometheus 2.部署Exporters 2.監(jiān)控遠(yuǎn)程MySQL 3.部署Grafana進(jìn)行

    2024年02月07日
    瀏覽(25)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包