国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Flink任務(wù)失敗,檢查點(diǎn)失效:Exceeded checkpoint tolerable failure threshold.

這篇具有很好參考價(jià)值的文章主要介紹了Flink任務(wù)失敗,檢查點(diǎn)失效:Exceeded checkpoint tolerable failure threshold.。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

項(xiàng)目場(chǎng)景:

最近實(shí)時(shí)平臺(tái)flink任務(wù)頻繁失敗,報(bào)檢查點(diǎn)方面的錯(cuò)誤,最近集群的hdfs也經(jīng)常報(bào)警:運(yùn)行狀況不良,不知道是否和該情況有關(guān),我的狀態(tài)后端位置是hdfs,廢話不多說,干貨搞起來~


問題描述

日志中報(bào)錯(cuò)如下:

2022-07-16 06:26:46,566 INFO  org.apache.flink.runtime.checkpoint.CheckpointCoordinator    [] - Checkpoint 670223 of job 61103d713243c4a71befb436fa3f32ee expired before completing.
2022-07-16 06:26:46,571 INFO  org.apache.flink.runtime.jobmaster.JobMaster                 [] - Trying to recover from a global failure.
org.apache.flink.util.FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold.
	at org.apache.flink.runtime.checkpoint.CheckpointFailureManager.handleCheckpointException(CheckpointFailureManager.java:98) ~[flink-dist_2.11-1.13.1.jar:1.13.1]
	at org.apache.flink.runtime.checkpoint.CheckpointFailureManager.handleJobLevelCheckpointException(CheckpointFailureManager.java:67) ~[flink-dist_2.11-1.13.1.jar:1.13.1]
	at org.apache.flink.runtime.checkpoint.CheckpointCoordinator.abortPendingCheckpoint(CheckpointCoordinator.java:1934) ~[flink-dist_2.11-1.13.1.jar:1.13.1]
	at org.apache.flink.runtime.checkpoint.CheckpointCoordinator.abortPendingCheckpoint(CheckpointCoordinator.java:1906) ~[flink-dist_2.11-1.13.1.jar:1.13.1]
	at org.apache.flink.runtime.checkpoint.CheckpointCoordinator.access$600(CheckpointCoordinator.java:96) ~[flink-dist_2.11-1.13.1.jar:1.13.1]
	at org.apache.flink.runtime.checkpoint.CheckpointCoordinator$CheckpointCanceller.run(CheckpointCoordinator.java:1990) ~[flink-dist_2.11-1.13.1.jar:1.13.1]
	at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) ~[?:1.8.0_201]
	at java.util.concurrent.FutureTask.run(FutureTask.java:266) ~[?:1.8.0_201]
	at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$201(ScheduledThreadPoolExecutor.java:180) ~[?:1.8.0_201]
	at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:293) ~[?:1.8.0_201]
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) ~[?:1.8.0_201]
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) ~[?:1.8.0_201]
	at java.lang.Thread.run(Thread.java:748) ~[?:1.8.0_201]

注意:

在報(bào)Exceeded checkpoint tolerable failure threshold.錯(cuò)誤的之前,是先報(bào)的是Checkpoint expired before completing.大概意思是檢查點(diǎn)在完成前過期了。


解決方案:

這個(gè)錯(cuò)誤也是頭一次見,更讓我好奇的是報(bào)這個(gè)錯(cuò)誤的時(shí)間點(diǎn)大概差不多(每?jī)商齑蟾艌?bào)一次,早晨6點(diǎn)多)。

最開始調(diào)整了檢查點(diǎn)的頻率(5s -> 10s)和任務(wù)重啟間隔(5s -> 30s),以為頻率太快了,但調(diào)整后并沒能解決該問題。
后來又將jobmanager和taskmanager運(yùn)行內(nèi)存調(diào)大,但也沒能解決…

通過查找flink檢查點(diǎn)相關(guān)配置,發(fā)現(xiàn)了配置項(xiàng)TolerableCheckpointFailureNumber即可容忍檢查點(diǎn)失敗次數(shù)的配置,默認(rèn)值為0表示不允許容忍任何檢查點(diǎn)失敗。
報(bào)的錯(cuò)就是超過檢查點(diǎn)可容忍失敗閾值,試試觀察觀察再說,因此在程序里加上了這個(gè)配置。

//設(shè)置可容忍的檢查點(diǎn)失敗數(shù),默認(rèn)值為0表示不允許容忍任何檢查點(diǎn)失敗
env.getCheckpointConfig().setTolerableCheckpointFailureNumber(2);

配置說明:

限制的是最大可容忍的連續(xù)失敗checkpoint計(jì)數(shù) continuousFailureCounter,例如將tolerableCheckpointFailureNumber設(shè)置成3,連續(xù)失敗3次,continuousFailureCounter會(huì)累計(jì)到3,作業(yè)就會(huì)嘗試重啟。如果中間有一個(gè)checkpoint成功了,continuousFailureCounter 就會(huì)重置為零。


按之前的規(guī)律第二天任務(wù)就得報(bào)這個(gè)錯(cuò)誤失敗了,查看flink任務(wù)web界面,任務(wù)正常,但檢查點(diǎn)確實(shí)失敗過一次,也是大概那個(gè)時(shí)間失敗的,失敗原因和之前一樣Checkpoint expired before completing.

Flink任務(wù)失敗,檢查點(diǎn)失效:Exceeded checkpoint tolerable failure threshold.

說明該配置對(duì)報(bào)錯(cuò)的解決有效,問題解決!??!


記得點(diǎn)贊收藏奧,后續(xù)遇到問題會(huì)持續(xù)更新,關(guān)注不迷路~文章來源地址http://www.zghlxwxcb.cn/news/detail-466635.html

到了這里,關(guān)于Flink任務(wù)失敗,檢查點(diǎn)失效:Exceeded checkpoint tolerable failure threshold.的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Flink流式計(jì)算狀態(tài)檢查點(diǎn)與恢復(fù)

    Flink流式計(jì)算狀態(tài)檢查點(diǎn)與恢復(fù) Apache Flink是一個(gè)流處理框架,用于實(shí)時(shí)數(shù)據(jù)處理和分析。Flink可以處理大規(guī)模數(shù)據(jù)流,并提供一種高效、可靠的方法來處理和分析這些數(shù)據(jù)。Flink流式計(jì)算狀態(tài)檢查點(diǎn)與恢復(fù)是流處理的關(guān)鍵組件,它們確保Flink應(yīng)用程序在故障時(shí)能夠恢復(fù)并繼續(xù)處

    2024年02月19日
    瀏覽(26)
  • Flink系列之:背壓下的檢查點(diǎn)

    Flink系列之:背壓下的檢查點(diǎn)

    通常情況下,對(duì)齊 Checkpoint 的時(shí)長(zhǎng)主要受 Checkpointing 過程中的同步和異步兩個(gè)部分的影響。 然而,當(dāng) Flink 作業(yè)正運(yùn)行在嚴(yán)重的背壓下時(shí),Checkpoint 端到端延遲的主要影響因子將會(huì)是傳遞 Checkpoint Barrier 到 所有的算子/子任務(wù)的時(shí)間。這在 checkpointing process) 的概述中有說明原因

    2024年02月04日
    瀏覽(18)
  • 【大數(shù)據(jù)】Flink 架構(gòu)(五):檢查點(diǎn) Checkpoint(看完即懂)

    【大數(shù)據(jù)】Flink 架構(gòu)(五):檢查點(diǎn) Checkpoint(看完即懂)

    《 Flink 架構(gòu) 》系列(已完結(jié)),共包含以下 6 篇文章: Flink 架構(gòu)(一):系統(tǒng)架構(gòu) Flink 架構(gòu)(二):數(shù)據(jù)傳輸 Flink 架構(gòu)(三):事件時(shí)間處理 Flink 架構(gòu)(四):狀態(tài)管理 Flink 架構(gòu)(五):檢查點(diǎn) Checkpoint(看完即懂) Flink 架構(gòu)(六):保存點(diǎn) Savepoint ?? 如果您覺得這篇

    2024年02月19日
    瀏覽(23)
  • 【Flink】Flink 記錄一個(gè) checkpoint 檢查點(diǎn) 越來越大的問題

    【Flink】Flink 記錄一個(gè) checkpoint 檢查點(diǎn) 越來越大的問題

    Flink SQL checkpoint越來越大咋么辦,從2個(gè)G,現(xiàn)在4個(gè)G了,增量同步的,窗口是1小時(shí),watermark是6小時(shí),按道理來說,數(shù)據(jù)量不應(yīng)該越來越大?。?在窗口內(nèi)執(zhí)行了count(distinct )這些操作。設(shè)置了狀態(tài)的ttl。后端狀態(tài)存儲(chǔ)用的rocksdb。 狀態(tài)如下 設(shè)置了增量的檢查點(diǎn) 代碼設(shè)置不一定有

    2024年02月10日
    瀏覽(27)
  • Flink---13、容錯(cuò)機(jī)制(檢查點(diǎn)(保存、恢復(fù)、算法、配置)、狀態(tài)一致性、端到端精確一次)

    Flink---13、容錯(cuò)機(jī)制(檢查點(diǎn)(保存、恢復(fù)、算法、配置)、狀態(tài)一致性、端到端精確一次)

    ?????????????????????? 星光下的趕路人star的個(gè)人主頁 ?????????????????????? 大鵬一日同風(fēng)起,扶搖直上九萬里 在Flink中,有一套完整的容錯(cuò)機(jī)制來保證故障后的恢復(fù),其中最重要的就是檢查點(diǎn)。 1.1.1 檢查點(diǎn)的保存 1、周

    2024年02月08日
    瀏覽(24)
  • 209.Flink(四):狀態(tài),按鍵分區(qū),算子狀態(tài),狀態(tài)后端。容錯(cuò)機(jī)制,檢查點(diǎn),保存點(diǎn)。狀態(tài)一致性。flink與kafka整合

    算子任務(wù)可以分為有狀態(tài)、無狀態(tài)兩種。 無狀態(tài):filter,map這種,每次都是獨(dú)立事件 有狀態(tài):sum這種,每次處理數(shù)據(jù)需要額外一個(gè)狀態(tài)值來輔助。這個(gè)額外的值就叫“狀態(tài)” (1)托管狀態(tài)(Managed State)和原始狀態(tài)(Raw State) 托管狀態(tài) 就是由Flink統(tǒng)一管理的,狀態(tài)的存儲(chǔ)訪問

    2024年02月06日
    瀏覽(22)
  • Spark 檢查點(diǎn)(checkpoint)

    Checkpointing可以將RDD從其依賴關(guān)系中抽出來,保存到可靠的存儲(chǔ)系統(tǒng)(例如HDFS,S3等), 即它可以將數(shù)據(jù)和元數(shù)據(jù)保存到檢查指向目錄中。 因此,在程序發(fā)生崩潰的時(shí)候,Spark可以恢復(fù)此數(shù)據(jù),并從停止的任何地方開始。 Checkpointing分為兩類: 高可用checkpointing,容錯(cuò)性優(yōu)先。這

    2024年04月27日
    瀏覽(49)
  • loadrunner入門教程(14)--檢查點(diǎn)

    loadrunner入門教程(14)--檢查點(diǎn)

    檢查點(diǎn)函數(shù)原理:回放腳本時(shí)搜索特定的文本或者字符串,從而驗(yàn)證服務(wù)器相應(yīng)的正確性;驗(yàn)證請(qǐng)求是否成功,可以添加檢查點(diǎn)。以檢查從服務(wù)器返回的內(nèi)容是否正確。本任務(wù)針對(duì)腳本開發(fā)–檢查點(diǎn)進(jìn)行介紹 掌握基于loadrunner性能測(cè)試腳本開發(fā)——檢查點(diǎn) 1.單擊Design→Insert

    2024年02月05日
    瀏覽(31)
  • SPARK--cache(緩存)和checkpoint檢查點(diǎn)機(jī)制

    rdd的特性 緩存和checkpoint 作用都是進(jìn)行容錯(cuò) rdd在計(jì)算是會(huì)有多個(gè)依賴,為了避免計(jì)算錯(cuò)誤是從頭開始計(jì)算,可以將中間* 依賴rdd進(jìn)行緩存或checkpoint 緩存或checkpoint也叫作rdd的持久化 一般對(duì)某個(gè)計(jì)算特別復(fù)雜的rdd進(jìn)行持久化 緩存使用 緩存是將數(shù)據(jù)存儲(chǔ)在內(nèi)存或者磁盤上,緩存

    2024年01月16日
    瀏覽(20)
  • Spark基礎(chǔ)學(xué)習(xí)筆記----RDD檢查點(diǎn)與共享變量

    Spark基礎(chǔ)學(xué)習(xí)筆記----RDD檢查點(diǎn)與共享變量

    了解RDD容錯(cuò)機(jī)制 理解RDD檢查點(diǎn)機(jī)制的特點(diǎn)與用處 理解共享變量的類別、特點(diǎn)與使用 當(dāng)Spark集群中的某一個(gè)節(jié)點(diǎn)由于宕機(jī)導(dǎo)致數(shù)據(jù)丟失,則可以通過Spark中的RDD進(jìn)行容錯(cuò)恢復(fù)已經(jīng)丟失的數(shù)據(jù)。RDD提供了兩種故障恢復(fù)的方式,分別是 血統(tǒng)(Lineage)方式 和 設(shè)置檢查點(diǎn)(checkpoint)

    2024年02月06日
    瀏覽(31)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包