第十三讲：Prometheus 企业级实际使?

时间：2020-07-27 17:51:14 阅读：84 评论：0 收藏：0 [点我收藏+]

标签：显示 bsp 通过 csharp export incr 内存算法 mic

　　本讲主要内容

　　prometheus+grafana 企业CPU监控真实案例
　　prometheus+grafana 企业内存监控真实案例
　　prometheus+grafana 企业硬盘/IO监控真实案例
　　prometheus+grafana 企业?络传输真实案例

　　（一）prometheus+grafana 企业CPU监控真实案例

　　为什么基础监控第一项是CPU

　　1）CPU是处理所有任务的核心

　　2）另外 Linux 由于CPU存在各种状态类型CPU时间所以很多情况下 ?部分的出现问题的情况都可以反应在CPU的表现上

　　下?举?个在企业中对CPU使?率监控的实例

　　数据采集： Node_exporter
　　使用公式

(1-sum(increase(node_cpu{mode="idle"}[1m])) by(instance) / sum(increase(node_cpu[1m])) by(instance))*100

技术图片

　　第?幅图就是咱们之前讲过的，计算CPU综合使?率这?就不再重复它的计算?法了

　　在?产环境中 ?般70-80%以上的CPU? 是因为 ?户态user CPU?所导致

　　我们使?Top命令随便查看?台服务器的时候 ?般也会看到 user%会最?

技术图片

　　?户态的CPU使?率是跟应?程序（或者说软件）的运?密切相关的

　　不过我们在做监控的时候 ?般倒是不? 单独列出?个 user% 态的CPU使?率图因为除去IO等待造成的CPU?之外，?部分情况就是 user%造成

　　下图是io等待CPU利用率的监控图

技术图片

　　监控公式是

(sum(increase(node_cpu{mode="iowait"}[1m])) by (instance)/sum(increase(node_cpu[1m]))by (instance) ) * 100

　　第?个图是针对 IOWAIT类型的 CPU等待时间 user% 其中不同的地? 是mode=iowait

　　很多情况下，当服务器硬盘IO占?过?时，CPU会等待IO 的返回进? interuptable 类型的CPU等待时间所以对于 IOWAIT CPU的监控是很有必要的

　　grafana 另外对于CPU?的报警阈值是这样的设置的
技术图片

　　设置成 99 或者 100 都可以如果设置成 80 90 就报警，根据实际测试并不合适，因为 80% 90%状态下的服务器还是可以处理请求的只不过速度会慢了但是 ?旦综合CPU上了 98 99 100 那么整个服务器就?乎失去可?性了连SSH登录有时候都很困难所以针对Linux系统的优化 ?常重要要通过各种内核参数软件参数来控制服务器尽量不让CPU堆到 99 100

　　(二) prometheus+grafana 企业内存监控真实案例

　　接下来就到了内存监控了 ?先 ??需要给?家说?下内存的计算?式我们先从Linux命令来看起

free -m

技术图片

　　内存管理是Linux内核的 ?常重要的?个强势功能可以说 Linux对于内存的使?率 ?常的?校 ?起windows来说真的智能了很多

　　主要依赖于 Linux内存管理的缓存功能（简单来说就是刚? 过的内存中的内容会被暂时缓存?段时间以备下次再使? 快速调?）

　　然? 5.x 6.x 的内存命令却有?点不太善解?意对于 ?多数的零基础和初级学员来说, 命令?显?的这个

技术图片

　　很容易让?误解

　　直接给出?家 5.x 6.x 的真实内存使?率公式即可

　　从应?用程序的?角度来说，Linux 实际可?用内存=系统free memory+bu?ers+cached。

　　Centos 7.x
　　对于最新的 7.x中 free 命令?的输出解决了这个问题变得简单易懂实际可?内存直接放在最后?列直接使?
技术图片

　　接下来我们来看企业实际内存监控案例

　　监控公式适用于CentOS 5 6 7

(1-((node_memory_Buffers+ node_memory_Cached+ node_memory_MemFree) / node_memory_MemTotal)) * 100

技术图片

　　所以说我们从内存的计算公式来说， promehtues也让我们很精细很放? ，很多?式的监控直接返回?个内存使?率很多时候 ?法确认准确性　　　　　

　　（三） prometheus+grafana 企业硬盘/IO监控真实案例

　　数据来源：Node_exporter

　　硬盘剩余容量的监控相?上?的2个就简单很多

(node_filesystem_free/node_filesystem_size)<0.2

　　当硬盘空闲率小于20%则显示

技术图片

　　我在这? 给?家推荐另?个难度较?的 prometheus 函数 predict_linear()
　　对于硬盘使?率来说

　　通常不管使? 什么样?的监控?具基本上都是简单算法空闲/总量或以使?/总量当?于或?于 ?个阈值时报警
这么定义的?法 ?较简单也普遍

　　这个函数如果想讲清楚它的底层实现原理没个 2 3天还真说不完我们在这?就给?家简单介绍?下它能做什么吧对于刚才那种硬盘百分?报警的案例(剩余空间的百分?) predict_linear() 函数可以起到对曲线变化速率的计算以及在 ?段时间加速度的未来预测说的更简单?些它可以实时监测硬盘使?率曲线的变化情况，假如在?个很 ?的时间段中发现硬盘使?率急速的下降（跟之前平缓时期相?较）

　　那么对这种下降的速度进??个未来?段时间的预测，如果发现未来 ?如5分钟内按照这个速度硬盘肯定就100%了那么在当前硬盘还剩余 20%的时候就会报警！

　　说起来都觉得绕? 不过使?起来并不是很难

　　官网介绍

　　https://prometheus.io/docs/prometheus/latest/querying/functions/#predict_linear()

　　然后我们来看下硬盘IO使?的监控
　　使用的公式

((rate(node_disk_bytes_read[1m] )+ rate(node_disk_bytes_written[1m])) / 1024 /1024) > 0

技术图片

　　硬盘IO针对不同服务器差别较大，生产中可以多分几张图进行区分

　　硬盘使?率是 read + written 读和写都会占?IO /1024 两次后就由 bytes => Mbs

　　如果这个指标标?了，那么必然 CPU_IOWAIT 也会飙?

　　（四）prometheus+grafana 企业?络传输真实案例