環(huán)境簡述:
31 master 。 32 node1 。 33 node2 。 34 harbor/docker。
問題現象:
一、master/node節(jié)點,去curl pod IP,一直卡著,沒反應。timeout。
二、掛起恢復后,harbor服務無法正常訪問503 ,需要重啟harbor服務。
進容器curl localhost,是正常的。
而網絡CNI 、flannel 、 coreDNS等都是running狀態(tài)。 (發(fā)現restarts的次數有點多) .這里的metrics-server一直失敗的。文章來源:http://www.zghlxwxcb.cn/news/detail-416273.html
排查:
#下面兩個能顯示出對應的報錯信息
vim /var/log/message
systemctl status kubelet -f
#此時coreDNS、、flannel、kube-proxy 的 describe/logs 日志是正常的
kubectl describe pod (coredns/flannel/kube-proxy) -n kube-system
kubectl logs (coredns/flannel/kube-proxy) -n kube-system
最終處理
#通過搜索/問人。有老哥說,這是VMware掛起導致的。 看messages信息,也吻合掛起時間。 (這個問題也沒會想到是掛起vm的鍋,報錯日志也沒明確的信息提示是“掛起后”導致的)
systemctl restart docker && systemctl restart kubelet
重啟coreDNS、、flannel、kube-proxy。 都沒用。
最終reboot重啟 k8s集群的機器。
小結:所以掛起vm再喚醒機器,K8s/docker-compose起的服務,網絡都可能會有故障。 優(yōu)先從/var/log/message和systemctl status kubelet -f找出報錯信息,提高處理問題效率。
可參考:
https://blog.csdn.net/weixin_43293361/article/details/114731838 《解決 虛擬機掛起后再恢復導致的k8s集群網絡問題》文章來源地址http://www.zghlxwxcb.cn/news/detail-416273.html
其他-報錯日志信息(待寫)
到了這里,關于【故障排查】VMware掛起后恢復,k8s集群無法ping/curl通pod/svc/ingress的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!