码迷,mamicode.com
首页 > 其他好文 > 详细

集群监控

时间:2018-07-08 22:03:27      阅读:167      评论:0      收藏:0      [点我收藏+]

标签:大于   sed   一个队列   汇报   ping   维护   存储系统   分布式文件   频繁   

监控指标

1、load

  load表示在特定时间间隔内运行队列中的线程数,每个CPU核维护着一个运行队列,队列中的线程数越多,意味着cpu越繁忙。一般一个队列维护的线程数不大于3表示cpu运行正常,如果大于5表明cpu运行超负荷。查看load指标的指令为uptime

2、cpu使用率

  通过top指令来查看cpu的使用率

3、trafic

  可以通过sar指令查看每个节点的trafic状态。指令为:sar -n DEV 1 1。n表示汇报网络状态,DEV表示查看各个网卡的网络流量,第一个1表示每一秒抽样一次,第二个1表示总共抽样一次。

4、磁盘I/O

  对于数据库应用和分布式文件存储系统,I/O指标在一定程度上反映了服务的繁忙程度,IO查看指令为:iostat -d -k。

5、内存使用

  free -g指令查看系统内存。total表示物理内存。剩余内存的计算方式为free=free+buffers+cached。使用内存used=used-buffers-cached。对于应用来说更应该关注的是swap,swap消耗过多表示物理内存已经不够用了。因为如果内存不够,部分数据会从内存转到磁盘,以腾出足够的空间给当前进程。内存越不够用,内存与磁盘的交换越频繁,swap使用越高。

心跳检测

1、ping

  ping指令可以查看地址的响应数据。

2、应用层检测

  通过curl指令可以访问应用层预留的自检url,通过响应数据来感知应用的健康状态,一旦响应超时或者无响应可以输出报警信息。

集群监控

标签:大于   sed   一个队列   汇报   ping   维护   存储系统   分布式文件   频繁   

原文地址:https://www.cnblogs.com/youzhongmin/p/9280861.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!