国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Flink任務(wù)失敗，檢查點(diǎn)失效：Exceeded checkpoint tolerable failure threshold.

2年前作者：天青色等煙雨...分類：Toy博客閱讀(55)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了Flink任務(wù)失敗，檢查點(diǎn)失效：Exceeded checkpoint tolerable failure threshold.。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

項(xiàng)目場(chǎng)景：

最近實(shí)時(shí)平臺(tái)flink任務(wù)頻繁失敗，報(bào)檢查點(diǎn)方面的錯(cuò)誤，最近集群的hdfs也經(jīng)常報(bào)警：運(yùn)行狀況不良，不知道是否和該情況有關(guān)，我的狀態(tài)后端位置是hdfs，廢話不多說，干貨搞起來~

問題描述

日志中報(bào)錯(cuò)如下：

2022-07-16 06:26:46,566 INFO  org.apache.flink.runtime.checkpoint.CheckpointCoordinator    [] - Checkpoint 670223 of job 61103d713243c4a71befb436fa3f32ee expired before completing.
2022-07-16 06:26:46,571 INFO  org.apache.flink.runtime.jobmaster.JobMaster                 [] - Trying to recover from a global failure.
org.apache.flink.util.FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold.
	at org.apache.flink.runtime.checkpoint.CheckpointFailureManager.handleCheckpointException(CheckpointFailureManager.java:98) ~[flink-dist_2.11-1.13.1.jar:1.13.1]
	at org.apache.flink.runtime.checkpoint.CheckpointFailureManager.handleJobLevelCheckpointException(CheckpointFailureManager.java:67) ~[flink-dist_2.11-1.13.1.jar:1.13.1]
	at org.apache.flink.runtime.checkpoint.CheckpointCoordinator.abortPendingCheckpoint(CheckpointCoordinator.java:1934) ~[flink-dist_2.11-1.13.1.jar:1.13.1]
	at org.apache.flink.runtime.checkpoint.CheckpointCoordinator.abortPendingCheckpoint(CheckpointCoordinator.java:1906) ~[flink-dist_2.11-1.13.1.jar:1.13.1]
	at org.apache.flink.runtime.checkpoint.CheckpointCoordinator.access$600(CheckpointCoordinator.java:96) ~[flink-dist_2.11-1.13.1.jar:1.13.1]
	at org.apache.flink.runtime.checkpoint.CheckpointCoordinator$CheckpointCanceller.run(CheckpointCoordinator.java:1990) ~[flink-dist_2.11-1.13.1.jar:1.13.1]
	at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) ~[?:1.8.0_201]
	at java.util.concurrent.FutureTask.run(FutureTask.java:266) ~[?:1.8.0_201]
	at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$201(ScheduledThreadPoolExecutor.java:180) ~[?:1.8.0_201]
	at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:293) ~[?:1.8.0_201]
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) ~[?:1.8.0_201]
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) ~[?:1.8.0_201]
	at java.lang.Thread.run(Thread.java:748) ~[?:1.8.0_201]

注意：

在報(bào)Exceeded checkpoint tolerable failure threshold.錯(cuò)誤的之前，是先報(bào)的是Checkpoint expired before completing.大概意思是檢查點(diǎn)在完成前過期了。

解決方案：

這個(gè)錯(cuò)誤也是頭一次見，更讓我好奇的是報(bào)這個(gè)錯(cuò)誤的時(shí)間點(diǎn)大概差不多(每?jī)商齑蟾艌?bào)一次，早晨6點(diǎn)多)。

最開始調(diào)整了檢查點(diǎn)的頻率(5s -> 10s)和任務(wù)重啟間隔(5s -> 30s)，以為頻率太快了,但調(diào)整后并沒能解決該問題。
后來又將jobmanager和taskmanager運(yùn)行內(nèi)存調(diào)大，但也沒能解決…

通過查找flink檢查點(diǎn)相關(guān)配置，發(fā)現(xiàn)了配置項(xiàng)TolerableCheckpointFailureNumber即可容忍檢查點(diǎn)失敗次數(shù)的配置，默認(rèn)值為0表示不允許容忍任何檢查點(diǎn)失敗。
報(bào)的錯(cuò)就是超過檢查點(diǎn)可容忍失敗閾值，試試觀察觀察再說，因此在程序里加上了這個(gè)配置。

//設(shè)置可容忍的檢查點(diǎn)失敗數(shù)，默認(rèn)值為0表示不允許容忍任何檢查點(diǎn)失敗
env.getCheckpointConfig().setTolerableCheckpointFailureNumber(2);

配置說明：

限制的是最大可容忍的連續(xù)失敗checkpoint計(jì)數(shù) continuousFailureCounter，例如將tolerableCheckpointFailureNumber設(shè)置成3，連續(xù)失敗3次，continuousFailureCounter會(huì)累計(jì)到3，作業(yè)就會(huì)嘗試重啟。如果中間有一個(gè)checkpoint成功了，continuousFailureCounter 就會(huì)重置為零。

按之前的規(guī)律第二天任務(wù)就得報(bào)這個(gè)錯(cuò)誤失敗了，查看flink任務(wù)web界面，任務(wù)正常，但檢查點(diǎn)確實(shí)失敗過一次，也是大概那個(gè)時(shí)間失敗的，失敗原因和之前一樣Checkpoint expired before completing.

Flink任務(wù)失敗，檢查點(diǎn)失效：Exceeded checkpoint tolerable failure threshold.

說明該配置對(duì)報(bào)錯(cuò)的解決有效，問題解決！??！

記得點(diǎn)贊收藏奧，后續(xù)遇到問題會(huì)持續(xù)更新，關(guān)注不迷路~文章來源地址http://www.zghlxwxcb.cn/news/detail-466635.html

到了這里，關(guān)于Flink任務(wù)失敗，檢查點(diǎn)失效：Exceeded checkpoint tolerable failure threshold.的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

Flink流式計(jì)算狀態(tài)檢查點(diǎn)與恢復(fù)
Flink流式計(jì)算狀態(tài)檢查點(diǎn)與恢復(fù) Apache Flink是一個(gè)流處理框架，用于實(shí)時(shí)數(shù)據(jù)處理和分析。Flink可以處理大規(guī)模數(shù)據(jù)流，并提供一種高效、可靠的方法來處理和分析這些數(shù)據(jù)。Flink流式計(jì)算狀態(tài)檢查點(diǎn)與恢復(fù)是流處理的關(guān)鍵組件，它們確保Flink應(yīng)用程序在故障時(shí)能夠恢復(fù)并繼續(xù)處
2024年02月19日
瀏覽(26)
Flink系列之：背壓下的檢查點(diǎn)
通常情況下，對(duì)齊 Checkpoint 的時(shí)長(zhǎng)主要受 Checkpointing 過程中的同步和異步兩個(gè)部分的影響。然而，當(dāng) Flink 作業(yè)正運(yùn)行在嚴(yán)重的背壓下時(shí)，Checkpoint 端到端延遲的主要影響因子將會(huì)是傳遞 Checkpoint Barrier 到所有的算子/子任務(wù)的時(shí)間。這在 checkpointing process) 的概述中有說明原因
2024年02月04日
瀏覽(18)
【大數(shù)據(jù)】Flink 架構(gòu)（五）：檢查點(diǎn) Checkpoint（看完即懂）
《 Flink 架構(gòu) 》系列（已完結(jié)），共包含以下 6 篇文章： Flink 架構(gòu)（一）：系統(tǒng)架構(gòu) Flink 架構(gòu)（二）：數(shù)據(jù)傳輸 Flink 架構(gòu)（三）：事件時(shí)間處理 Flink 架構(gòu)（四）：狀態(tài)管理 Flink 架構(gòu)（五）：檢查點(diǎn) Checkpoint（看完即懂） Flink 架構(gòu)（六）：保存點(diǎn) Savepoint ?? 如果您覺得這篇
2024年02月19日
瀏覽(23)
【Flink】Flink 記錄一個(gè) checkpoint 檢查點(diǎn) 越來越大的問題
Flink SQL checkpoint越來越大咋么辦，從2個(gè)G，現(xiàn)在4個(gè)G了，增量同步的，窗口是1小時(shí)，watermark是6小時(shí)，按道理來說，數(shù)據(jù)量不應(yīng)該越來越大?。?在窗口內(nèi)執(zhí)行了count(distinct )這些操作。設(shè)置了狀態(tài)的ttl。后端狀態(tài)存儲(chǔ)用的rocksdb。狀態(tài)如下設(shè)置了增量的檢查點(diǎn) 代碼設(shè)置不一定有
2024年02月10日
瀏覽(27)
Flink---13、容錯(cuò)機(jī)制（檢查點(diǎn)（保存、恢復(fù)、算法、配置）、狀態(tài)一致性、端到端精確一次）
?????????????????????? 星光下的趕路人star的個(gè)人主頁 ?????????????????????? 大鵬一日同風(fēng)起，扶搖直上九萬里在Flink中，有一套完整的容錯(cuò)機(jī)制來保證故障后的恢復(fù)，其中最重要的就是檢查點(diǎn)。 1.1.1 檢查點(diǎn)的保存 1、周
2024年02月08日
瀏覽(24)
209.Flink（四）：狀態(tài)，按鍵分區(qū)，算子狀態(tài)，狀態(tài)后端。容錯(cuò)機(jī)制，檢查點(diǎn)，保存點(diǎn)。狀態(tài)一致性。flink與kafka整合
算子任務(wù)可以分為有狀態(tài)、無狀態(tài)兩種。無狀態(tài)：filter,map這種，每次都是獨(dú)立事件有狀態(tài)：sum這種，每次處理數(shù)據(jù)需要額外一個(gè)狀態(tài)值來輔助。這個(gè)額外的值就叫“狀態(tài)” （1）托管狀態(tài)（Managed State）和原始狀態(tài)（Raw State）托管狀態(tài) 就是由Flink統(tǒng)一管理的，狀態(tài)的存儲(chǔ)訪問
2024年02月06日
瀏覽(22)
Spark 檢查點(diǎn)（checkpoint）
Checkpointing可以將RDD從其依賴關(guān)系中抽出來，保存到可靠的存儲(chǔ)系統(tǒng)（例如HDFS，S3等)，即它可以將數(shù)據(jù)和元數(shù)據(jù)保存到檢查指向目錄中。因此，在程序發(fā)生崩潰的時(shí)候，Spark可以恢復(fù)此數(shù)據(jù)，并從停止的任何地方開始。 Checkpointing分為兩類：高可用checkpointing，容錯(cuò)性優(yōu)先。這
2024年04月27日
瀏覽(49)
loadrunner入門教程(14)--檢查點(diǎn)
檢查點(diǎn)函數(shù)原理：回放腳本時(shí)搜索特定的文本或者字符串，從而驗(yàn)證服務(wù)器相應(yīng)的正確性；驗(yàn)證請(qǐng)求是否成功，可以添加檢查點(diǎn)。以檢查從服務(wù)器返回的內(nèi)容是否正確。本任務(wù)針對(duì)腳本開發(fā)–檢查點(diǎn)進(jìn)行介紹掌握基于loadrunner性能測(cè)試腳本開發(fā)——檢查點(diǎn) 1.單擊Design→Insert
2024年02月05日
瀏覽(31)
SPARK--cache(緩存)和checkpoint檢查點(diǎn)機(jī)制
rdd的特性緩存和checkpoint 作用都是進(jìn)行容錯(cuò) rdd在計(jì)算是會(huì)有多個(gè)依賴，為了避免計(jì)算錯(cuò)誤是從頭開始計(jì)算，可以將中間* 依賴rdd進(jìn)行緩存或checkpoint 緩存或checkpoint也叫作rdd的持久化一般對(duì)某個(gè)計(jì)算特別復(fù)雜的rdd進(jìn)行持久化緩存使用緩存是將數(shù)據(jù)存儲(chǔ)在內(nèi)存或者磁盤上，緩存
2024年01月16日
瀏覽(20)
Spark基礎(chǔ)學(xué)習(xí)筆記----RDD檢查點(diǎn)與共享變量
了解RDD容錯(cuò)機(jī)制理解RDD檢查點(diǎn)機(jī)制的特點(diǎn)與用處理解共享變量的類別、特點(diǎn)與使用當(dāng)Spark集群中的某一個(gè)節(jié)點(diǎn)由于宕機(jī)導(dǎo)致數(shù)據(jù)丟失，則可以通過Spark中的RDD進(jìn)行容錯(cuò)恢復(fù)已經(jīng)丟失的數(shù)據(jù)。RDD提供了兩種故障恢復(fù)的方式，分別是血統(tǒng)（Lineage）方式和設(shè)置檢查點(diǎn)（checkpoint）
2024年02月06日
瀏覽(31)

<dfn id="spfp4"><mark id="spfp4"></mark></dfn>