K8s集群某節(jié)點出現(xiàn)異常,新分配到node上面的pod不能ping通外部pod,同節(jié)點pod、宿主機IP也不行,外部pod也不可以ping通IP
首先對問題pod進行排查,發(fā)現(xiàn)他不能解析域名和svc,網(wǎng)路模式是IPVS的,集群內(nèi)部可以ping通svc地址,我們中間件的pod來的,一開始懷疑是dns解析問題,查看了pod內(nèi)部的dns解析文件內(nèi)容
cat /etc/resolv.conf
IP地址和集群的dns地址一致,通過該節(jié)點其他pod對這個問題pod進行ping,發(fā)現(xiàn)還是不通,ping同節(jié)點其他pod是正常的,問題定位在這個pod上面,接著懷疑是svc未綁定問題,查看endpoint發(fā)現(xiàn)是綁定了pod的地址的,問題pod每次ping都是地址不可達,后將其切換至其他節(jié)點發(fā)現(xiàn)運行正常,也可以正常ping通其他pod,問題在節(jié)點上面,刪建了一個deployment的pod,在該節(jié)點重新啟動后故障現(xiàn)象和之前一樣,問題現(xiàn)象明確:文章來源:http://www.zghlxwxcb.cn/news/detail-774963.html
1.問題節(jié)點舊pod是正常的,對外訪問ping沒問題
2.問題節(jié)點新建pod是異常的,網(wǎng)絡(luò)模式像是none的,當時也去節(jié)點的docker inspect 容器 上面去查過這個容器的網(wǎng)絡(luò)模式是host的和其他容器一致,ping不出去,也進不來,端口telnet也是一樣
3.遷到其他節(jié)點沒問題,問題在node上面
最終在網(wǎng)絡(luò)上面發(fā)現(xiàn)IP出現(xiàn)問題,環(huán)境是云平臺虛擬機,上面有2張網(wǎng)卡,一張是內(nèi)網(wǎng)的,一張平臺上的彈性地址,發(fā)現(xiàn)這個彈性地址不見了,查看網(wǎng)卡內(nèi)容,該網(wǎng)卡是dhcp的,網(wǎng)卡狀態(tài)UP,查看systemctl status NetworkManage,發(fā)現(xiàn)一直提示IPV4 DHCP timeout類型錯誤,查看路由表,發(fā)現(xiàn)全局路由默認是走這張網(wǎng)卡的,異常節(jié)點的路由表是沒有全局路由的,0.0.0.0是不存在的,所以導致ping出去地址不可達,因為pod也是默認走這個網(wǎng)卡出去的,至此問題溯源成功,聯(lián)系云平臺進行虛機后臺重啟,啟動后網(wǎng)卡正常,pod訪問正常。(注:一定要云平臺后臺關(guān)機重啟,測試過reboot啟動后還是不行)
###這里沒分析到為什么舊的pod是正常網(wǎng)絡(luò)的,可以ping出去,也正是這個問題一開始干擾了問題排查思路,應(yīng)該是calico網(wǎng)卡維護了一部分路由表信息吧??文章來源地址http://www.zghlxwxcb.cn/news/detail-774963.html
到了這里,關(guān)于K8s集群某節(jié)點出現(xiàn)異常,新分配到node上面的pod不能ping通外部pod,同節(jié)點pod、宿主機IP也不行,外部pod也不可以ping通IP的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!