国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

????網絡之謎:記一次失敗排查的故事

這篇具有很好參考價值的文章主要介紹了????網絡之謎:記一次失敗排查的故事。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

在這篇文章中,我們將詳細探討導致故障的可能原因以及解決方案,以便更好地理解故障排查的復雜性和艱巨性,尤其是當出現與本次故障表現相似的問題時。

故障的表現

首先,讓我們回顧一下故障的表現。在客戶端調用接口時,發(fā)現一直在轉圈等待,而服務器端卻收到了請求并在返回結果給客戶端時報了一些錯誤,包括java.io.IOException: Broken pipe錯誤和Connection reset by peer錯誤。盡管整個查詢鏈路所需時間并不長,大約在2秒左右,但通過使用grafana監(jiān)控工具,我們發(fā)現Nginx的連接數超過了平時的6倍以上。盡管我們已經仔細檢查了各個方面的原因,但仍未找到根本問題所在。但是,我們最終注意到重啟服務可以解決問題,因此我們將目標問題的范圍鎖定在服務器端。

pinpoint錯誤請求數及其分布

????網絡之謎:記一次失敗排查的故事

Nginx當時的連接數:當時是個很正常日子,并沒什么活動

????網絡之謎:記一次失敗排查的故事

問題排查

然而,為什么會出現這樣的問題呢?主要原因在于監(jiān)控手段不足,甚至無法生成基本的Java dump文件。在排查過程中,我們只能看到現象而無法找到具體原因。通過pinpoint平臺(類似于skywalking),我們發(fā)現了三種基本錯誤。第一種是之前提到的java.io.IOException: Broken pipe,第二種是Connection reset by peer,第三種是服務器訪問第三方服務器時出現的connection timeout或refuse connection錯誤。雖然之前也發(fā)生過類似的問題,但都是偶爾出現,并沒有像這次一樣數量如此之多,占用了訪問量的1/10。因此,在出現問題時,我們沒有立即重啟,而是進行了仔細排查。然而,最終我們以失敗告終,只能依靠重啟來解決問題。如果你有任何想法,請在下方評論區(qū)留言。

首先,我們排除了一些問題,如數據庫查詢、中間鏈路的轉發(fā)、第三方服務器的調用等,均未發(fā)現問題。盡管我們確實可以確定問題出在服務器節(jié)點上,但具體原因仍然是個謎。

在繼續(xù)探索之前,讓我們先了解一下故障排查的一般步驟。首先,我們需要收集足夠的信息來了解故障的具體表現。這包括錯誤日志、監(jiān)控指標、性能數據等。在本次故障中,我們已經通過監(jiān)控工具獲取了一些有用的信息。接下來,我們需要分析這些信息,并進行合理的假設和推斷。我們還可以嘗試在類似的環(huán)境中重現故障,以進一步觀察和分析。當我們找到可能的原因時,可以進行一系列的測試和驗證,以確定是否解決了問題。最后,我們需要記錄和總結我們的調查過程,以便于日后的參考和經驗積累。

在本次故障排查中,我們遇到了一些挑戰(zhàn)。首先是監(jiān)控手段不足的問題,由于JDK版本的問題導致無法生成Java dump文件。這使得我們無法深入了解故障的具體原因。因此,我們建議在類似的情況下,提前準備好足夠的監(jiān)控工具和技術手段,以便更好地進行故障排查。

另一個挑戰(zhàn)是故障的復現。由于問題并非每次都發(fā)生,我們無法簡單地通過重現來解決。在這種情況下,我們嘗試了在生產環(huán)境協調客戶獲取賬號,并確實復現了問題所在,最終確定了是某一個節(jié)點連接數飆高導致無法處理請求導致的,但是為什么會某一個節(jié)點單獨飆高就不得而知。

最后,我們需要注意故障排查的方法和技巧。在排查過程中,我們應該保持冷靜和耐心,避免盲目猜測和隨意嘗試。我們應該以科學的態(tài)度,根據收集的信息進行分析和推理,不斷迭代和驗證。同時,我們還應該注重團隊合作和知識共享,通過不同的視角和經驗來解決問題。

總結

總之,本次故障排查雖然以失敗告終,但我們從中學到了很多經驗和教訓。故障排查是一項復雜而重要的任務,需要我們具備專業(yè)知識和技術手段。同時,我們還需要保持冷靜和耐心,以科學的態(tài)度進行分析和推理。只有這樣,我們才能更好地解決問題,并為日后的故障排查積累寶貴的經驗。文章來源地址http://www.zghlxwxcb.cn/news/detail-746298.html

到了這里,關于????網絡之謎:記一次失敗排查的故事的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 記一次瀏覽器下載錯誤處理-失敗網絡錯誤

    記一次瀏覽器下載錯誤處理-失敗網絡錯誤

    背景 最近在自己電腦上Chrome瀏覽器正常使用,但只要是下載軟件,就會在下載幾十秒后,自動停止,報 失敗-網絡錯誤 ,導致文件都下載不成功,如下圖。 猜測是更改了哪塊的配置,導致一直中斷,可以依次檢查以下幾種方案。 1)檢查下載文件目錄是否存在 2)檢查網絡是

    2023年04月16日
    瀏覽(40)
  • 記一次內存泄漏排查

    記一次內存泄漏排查

    最近某項目的服務突然告警,cpu超85%,隨后就是服務宕機。交付重啟服務后恢復正常但是隨后不久又開始告警,特別是白天,嚴重影響客戶業(yè)務進行。 1、分析日志 查看日志的過程中發(fā)現存在內存溢出(OOM),思考要么存在內存泄漏要么業(yè)務上觸發(fā)了某個接口存在大對象,結

    2023年04月16日
    瀏覽(33)
  • 記一次Nacos線程數飆升排查

    記一次Nacos線程數飆升排查

    近日有個項目用到了Nacos做注冊中心。運行一段時間發(fā)現Nacos服務的線程數達到了1k+。這肯定是不正常的。 環(huán)境: 鏡像nacos-server 2.2.3 docker-compose編排部署 Nacos standalone模式 問題表現 docker stats nacos 發(fā)現該容器的線程數1k+ 用Fastthread分析stack文件表現如下 數量最多的線程線程棧如

    2024年02月09日
    瀏覽(30)
  • 記一次線上BUG排查過程

    記一次線上BUG排查過程

    1. 線上遇到一個非常奇怪的bug,為一個用戶分配業(yè)務線類型后,該用戶登錄時,提示502,但其它的用戶登錄完全是正常的 2. 問題現象 3. 排查思路 先去看線上日志,看是否有error,但日志里邊這個接口200正常返回 本地debug,也復現一樣問題,在分配角色類型超過22個總數時就報

    2024年02月09日
    瀏覽(30)
  • 記一次kafka消息積壓的排查

    kafka消息積壓報警,首先進行了自查,這個現象頻頻出現,之前每次都是先重新分配分區(qū)或者回溯(消息可丟棄防止大量積壓消費跟不上)。 根據手冊首先排查下消息拉取是否正常,看到了消息拉取線程是waiting狀態(tài),然后看到kafka這塊邏輯是消費線程阻塞了拉取線程。 對比了

    2024年03月24日
    瀏覽(22)
  • 【記一次線上事故的排查思路】- CPU飆升問題排查

    【記一次線上事故的排查思路】- CPU飆升問題排查

    由于項目排期較緊,臨時從其他組調來三個開發(fā)資源幫我一起做項目,難免上線的時候大家的需求一塊上線。 問題來了,上線三天后,線上CPU總是莫名奇妙的突然飆升,飆升后CPU并未降下來,而是一直處在高點。 由于是線上導致的問題,CPU超限后,會自動重啟項目,未能保

    2024年01月23日
    瀏覽(27)
  • 記一次Native memory leak排查過程

    記一次Native memory leak排查過程

    路由計算服務是路由系統(tǒng)的核心服務,負責運單路由計劃的計算以及實操與計劃的匹配。在運維過程中,發(fā)現在長期不重啟的情況下,有TP99緩慢爬坡的現象。此外,在每周例行調度的試算過程中,能明顯看到內存的上漲。以下截圖為這兩個異常情況的監(jiān)控。 TP99爬坡 內存爬坡

    2024年02月11日
    瀏覽(26)
  • 記一次Apache HTTP Client問題排查

    記一次Apache HTTP Client問題排查

    通過日志查看,存在兩種異常情況。 第一種:開始的時候HTTP請求會報超時異常。 762663363 [2023-07-21 06:04:25] [executor-64] ERROR - com.xxl.CucmTool - CucmTool|sendRisPortSoap error,url:https://xxxxxx/realtimeservice/services/RisPort org.apache.http.conn.HttpHostConnectException: Connect to xxx [/xxx] failed: 連接超時 第二種

    2024年02月12日
    瀏覽(28)
  • 記一次javaMetaspace導致CPU200%的排查

    insertMotionDataByWxCallBack方法并發(fā)多(其實也沒多少,可能就3個?)就導致CPU200%了,本地沒法復現。 看報錯是:java.lang.OutOfMemoryError: Metaspace,剛開始的時候眼挫,忽略了后面的Metaspace,只看到了OutOfMemoryError,就各種找代碼問題。 https://arthas.aliyun.com/doc/install-detail.html 然后發(fā)現

    2023年04月24日
    瀏覽(26)
  • 記一次jedis連接池頑固問題排查與修改

    記一次jedis連接池頑固問題排查與修改

    這輩子不想再看到jedisBrokenPipe??! ? 測試環(huán)境運行16天后報錯信息: 05:42:32.629 [http-nio-8093-exec-2] ERROR o.a.c.c.C.[.[.[.[dispatcherServlet] - [log,175] - Servlet.service() for servlet [dispatcherServlet] in context with path [] threw exception [Request processing failed; nested exception is redis.clients.jedis.exceptions.JedisCon

    2023年04月21日
    瀏覽(43)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包