探討hbase的監(jiān)控數據采集方式以及需要關注的核心指標,便于日常生產進行監(jiān)控和巡檢。
1. 監(jiān)控指標采集
監(jiān)控指標的采集方式使用promethues + jmx_prometheus_javaagent的方式進行,具體方案部署方案可以參考HDFS監(jiān)控方法以及核心指標
需要注意的是,調整幾個關鍵配置,
1, 配置master.yaml和regionserver.yaml
root@Master:/usr/local/monitor# cat /usr/local/monitor/master.yaml
startDelaySeconds: 0
ssl: false
lowercaseOutputName: false
lowercaseOutputLabelNames: false
root@Master:/usr/local/monitor# cat /usr/local/monitor/regionserver.yaml
startDelaySeconds: 0
ssl: false
lowercaseOutputName: false
lowercaseOutputLabelNames: false
2, 配置hdfs相關的OPTS
vim /usr/local/hbase-2.4.17/conf/hbase-env.sh
# 增加jmx_prometheus_javaagent采集配置
export HBASE_MASTER_OPTS="$HBASE_MASTER_OPTS -javaagent:/usr/local/monitor/jmx_prometheus_javaagent-0.20.0.jar=10000:/usr/local/monitor/master.yaml"
export HBASE_REGIONSERVER_OPTS="$HBASE_REGIONSERVER_OPTS -javaagent:/usr/local/monitor/jmx_prometheus_javaagent-0.20.0.jar=10001:/usr/local/monitor/regionserver.yaml"
3,正常啟動hbase
cd /usr/local/hbase-2.4.17/bin
./hbase-daemon.sh start master
./hbase-daemon.sh start regionserver
4, 啟動的進程中會攜帶jmx_prometheus_javaagent參數
5, 查看相關的指標文章來源:http://www.zghlxwxcb.cn/news/detail-814392.html
# resourcemanager指標
curl localhost:10000/metrics
# nodemanager指標
curl localhost:10001/metrics
配置prometheus等細節(jié),可以參考可以參考HDFS監(jiān)控方法以及核心指標,本文不再繼續(xù)贅述。文章來源地址http://www.zghlxwxcb.cn/news/detail-814392.html
2. 核心告警指標
2.1 Master核心指標梳理
指標名稱 | 指標說明 | 參考值 | 備注 |
---|---|---|---|
進程 | 進程 | 進程存在 == 1 | |
masterStartTime | Master 進程啟動時間 | >= 10s | |
主備情況 | haState | 1:主,0:備 | 集群必須包含1主1備 |
numCallsInPriorityQueue | 通用隊列 RPC 請求數 | <= 1000 | 過長的rpc隊列會導致nn處理不過來了,注意調優(yōu)jvm或者線程數量以及客戶端的緩存 |
numCallsInReplicationQueue | 復制隊列 RPC 請求數 | <= 1000 | 過長的rpc隊列會導致nn處理不過來了,注意調優(yōu)jvm或者線程數量以及客戶端的緩存 |
numOpenConnections | 當前打開的連接個數 | <= 1000 | 不宜有太多的鏈接,涉及性能問題,根據實際情況調整 |
numDeadRegionServers | 當前Dead的 RegionServer 個數 | <= 0 |
2.2 RegionServer核心指標梳理
指標名稱 | 指標說明 | 參考值 | 備注 |
---|---|---|---|
進程 | 進程 | 進程存在 == 1 | |
numCallsInPriorityQueue | 通用隊列 RPC 請求數 | <= 1000 | 過長的rpc隊列會導致nn處理不過來了,注意調優(yōu)jvm或者線程數量以及客戶端的緩存 |
MemHeapUsedM/MemHeapMaxM | Jvmd堆內內存使用率 | <= 60% | |
AvailableVCores / (AllocatedVCores + AvailableVCores ) | NodeManager 可用的 VCore 占比 | <= 90% | 涉及容量資源,不同環(huán)境根據實際情況調整 |
AvailableGB / (AllocatedGB + AvailableGB ) | NodeManager 可用的 內存 占比 | <= 90% | 涉及容量資源,不同環(huán)境根據實際情況調整 |
BytesWrittenMB | 寫入 DN 的字節(jié)速率 | 根據機器的網卡帶寬調整 | |
BytesReadMB | 讀取 DN 的字節(jié)速率 | 根據機器的網卡帶寬調整 | |
VolumeFailures | 磁盤故障次數 | <= 0 | |
DatanodeNetworkErrors | 網絡錯誤統(tǒng)計 | <= 0 | |
磁盤使用率 | <= 70 | ||
磁盤await | 磁盤讀寫的await | <= 1ms |
3. 參考文章
- HBase 監(jiān)控指標
到了這里,關于HBase監(jiān)控方法以及核心指標的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!