前言
客戶突然聯(lián)系說(shuō)應(yīng)用無(wú)法連接數(shù)據(jù)庫(kù),報(bào)錯(cuò)如下:
[ERROR]-[Thread: Druid-ConnectionPool-Create-26728049]-[com.alibaba.druid.pool.DruidDataSource$CreateConnectionThread.run()]: create connection error, url: jdbc:oracle:thin:@x.x.x.93:1521:empdb011, errorCode 17002, state 08006
java.sql.SQLRecoverableException: IO 錯(cuò)誤: The Network Adapter could not establish the connection
at oracle.jdbc.driver.T4CConnection.logon(T4CConnection.java:774)
at oracle.jdbc.driver.PhysicalConnection.connect(PhysicalConnection.java:688)
at oracle.jdbc.driver.T4CDriverExtension.getConnection(T4CDriverExtension.java:39)
at oracle.jdbc.driver.OracleDriver.connect(OracleDriver.java:691)
at com.alibaba.druid.filter.FilterChainImpl.connection_connect(FilterChainImpl.java:148)
at com.alibaba.druid.filter.stat.StatFilter.connection_connect(StatFilter.java:220)
at com.alibaba.druid.filter.FilterChainImpl.connection_connect(FilterChainImpl.java:142)
at com.alibaba.druid.filter.FilterAdapter.connection_connect(FilterAdapter.java:785)
at com.alibaba.druid.filter.FilterChainImpl.connection_connect(FilterChainImpl.java:142)
at com.alibaba.druid.pool.DruidAbstractDataSource.createPhysicalConnection(DruidAbstractDataSource.java:1463)
at com.alibaba.druid.pool.DruidAbstractDataSource.createPhysicalConnection(DruidAbstractDataSource.java:1525)
at com.alibaba.druid.pool.DruidDataSource$CreateConnectionThread.run(DruidDataSource.java:2100)
Caused by: oracle.net.ns.NetException: The Network Adapter could not establish the connection
at oracle.net.nt.ConnStrategy.execute(ConnStrategy.java:523)
at oracle.net.resolver.AddrResolution.resolveAndExecute(AddrResolution.java:521)
at oracle.net.ns.NSProtocol.establishConnection(NSProtocol.java:660)
at oracle.net.ns.NSProtocol.connect(NSProtocol.java:286)
at oracle.jdbc.driver.T4CConnection.connect(T4CConnection.java:1438)
at oracle.jdbc.driver.T4CConnection.logon(T4CConnection.java:518)
... 11 more
Caused by: java.io.IOException: Connection timed out: connect, socket connect lapse 20998 ms. /x.x.x.93 1521 0 1 true
at ora
一、當(dāng)前的狀態(tài)是什么?
集群狀態(tài)宕掉了,且無(wú)法正常啟動(dòng)?。。?br>
二、集群?jiǎn)?dòng)異常懷疑對(duì)象
1.排查心跳網(wǎng)絡(luò)異常
ping自己私有IP延遲高
ping其它主機(jī)私有IP不通
那么問(wèn)題定位到私有IP不通導(dǎo)致的集群無(wú)法啟動(dòng),一體機(jī)內(nèi)部私有IP交互是通過(guò)自身的IB交換機(jī)完成的,很有可能是IB交換機(jī)問(wèn)題,下面進(jìn)行日志查詢?nèi)∽C。
2.是否發(fā)生過(guò)重啟
每臺(tái)機(jī)器都發(fā)生過(guò)重啟,明顯掉電情況
三、日志信息收集
ocssd.trc
集群crs日志
cell的griddisk狀態(tài)及報(bào)錯(cuò)
嘗試啟動(dòng):
那么排查到這里可以斷定,是由于上層問(wèn)題導(dǎo)致的griddisk不正常無(wú)法拉起集群,此處上層的IB交換機(jī)就成為重要排查對(duì)象。
四、IB交換機(jī)的問(wèn)題排查處理
通過(guò)融合IP登入ilom管理網(wǎng)頁(yè)失敗,只能通過(guò)ssh
登入后看到明顯的提示,嘗試boot重啟失敗:
還發(fā)現(xiàn)掉了一個(gè)PDU,進(jìn)行確認(rèn)私有IP通信正常
五、緊急恢復(fù)業(yè)務(wù)
在IB完成正常重啟后,重新啟動(dòng)所有cell服務(wù)
拉起集群:
六、收尾工作
check修復(fù)第二臺(tái)IB交換機(jī)
重新掛載nfs共享目錄
檢查PDU,確實(shí)已掉電
七、原因調(diào)查
PDU問(wèn)題由于29日晚操作切電操作導(dǎo)致UPS路跳閘
主機(jī)等log顯示電源切換
29日有檢測(cè)到FAN0風(fēng)扇數(shù)值是0
但實(shí)際風(fēng)扇只應(yīng)該顯示FAN1~3才對(duì),出現(xiàn)FAN0也是奇怪,有知道朋友可以留言。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-717754.html
總結(jié)
通過(guò)整體問(wèn)題梳理,應(yīng)該是在用過(guò)進(jìn)行切電作業(yè)時(shí)候?qū)е耈PS跳閘,且市電進(jìn)行切換導(dǎo)致的整個(gè)一體機(jī)機(jī)柜出現(xiàn)了掉電情況,然后服務(wù)器重啟后,IB交換機(jī)自檢硬件有問(wèn)題導(dǎo)致自檢失敗所有整體的私有IP和以下的集群服務(wù)無(wú)法正常啟動(dòng)。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-717754.html
到了這里,關(guān)于Oracle Exadata X7-2掉電宕機(jī)導(dǎo)致集群無(wú)法啟動(dòng)處理過(guò)程的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!