22世纪真实链路式监控　设计理念分析

时间：2018-12-18 13:56:01 阅读：160 评论：0 收藏：0 [点我收藏+]

  浅谈最前沿 运维22世纪真实链路式 监控报警 设计理念
                                                    51CTO 主讲老师：大米哥

本课程大纲概述

1：通过真实案例看清不准确的监控报警带来危害
2：详细分析一个运维在分析排查故障时候的过程细节（同样基于真实案例）
3：运维真实链路式监控的基本理念和思路
4：本篇分享课程总结篇（给出大家一个完整的框架图）

1：通过真实案例看清不准确的监控报警带来危害

做过运维相关工作的朋友都知道一个词， 7*24 也就是说咱们当运维的为了维护线上集群的稳定维护企业产品的稳定
我们需要本着一个无时无刻都监视着整个线上环境的稳定状况这样一种精神，这也几乎成为一个好运维的"基本素养"了

那么为了达到这样的目标，自然一套完善的监控系统就首当其冲的成为运维工作之中的重中之重了

其实任何一位公司的员工的都明白这个道理，作为一个当下的互联网企业，无论其规模大小，核心线上产品都是作为一个企业的灵魂

而由企业通过常年累月所积累下来的用户群以及用户固定的线上流量这都是最最宝贵的资源

再说的通俗点，流量日活这些都是可以跟金钱收益直接划等号的

所以说，一旦线上生产环境出现故障的时候，所有用户都无法使用你的产品的时候，这对企业来说是最最最致命的

这可比开发人员写错几行代码逻辑，测试工程师忘了测试某条功能，销售人员丢掉几个客户还要严重的多的多的多！！

不是大米哥在这儿危言耸听，很有可能半小时的P0故障 (P0 P1 P2 P3)能让整个企业大家伙半年的辛苦努力付之东流

有一句话说的好，咱们运维也可以套用一下：叫辛辛苦苦三十年，一夜回到解放前

技术分享图片
接下来大米挑出之前惨痛的真实经历再给大家举两个例子

真实案例一： 10年前在某家跨国大型互联网业务托管公司（云计算平台）大米哥那时候所在的运维团队负责着国外近7000+服务器（包括物理机和虚拟机和所有其他设备在内）

企业的业务非常的庞大，通过租赁的形式托管着全世界（主要集中在欧洲和北美）大大小小200多个门户网站有视频的有音频的有多媒体有广告有论坛有游戏有足球还有×××等等繁多

有那么一天的夜里，突然整个团队的报警电话响起（记得应该是春节后不久），这是P0级别的报警，于是运维们全都爬起来处理故障

那一次的故障所有人都是先查看报警信息，记得报警信息当时最少在邮箱中也有近200多条！！
（在那个年代运维技术还很落后原始，且监控体系远远不及现在的完善，自然排查故障就更困难更费时）

当时的故障原因很隐蔽一个运维团队当时花费了近60分钟才最终确定了问题所在

故障虽然最终解决了，但是发生故障的所在地是在国外，正处于白天客流高峰期，最终造成的瞬时损失以及后续的影响按照合约需要赔付给客户（按秒计费）近十几万美金！，这占据了当时年度营业的近十分之一啊（那时候的企业尤其外企对于服务保障用户的利益还是非常尊重重视的所以赔付的力度很大这么多年过去了回想起来还是挺值得敬佩的）

真实案例二： 4年前在一家网络游戏公司，那时候大米是作为运维架构师负责着整个集群的设计和维护以及人员的管理

其实随着很多年经验的累积，在监控报警方面通过运维工程师们以及运维开发的不断努力已经进步了很多很多了

记得当时监控报警系统由专们的2个Devops 和 1个运维一同协作搭建，按照报警级别，报警种类归纳分类各种去重各种自动化集成确实跟10年前那会不可同日而已了

不过游戏公司相比其他互联网公司是有很大的不同，主要是体现在高强度的即时的用户服务上即时即时这个词可就要了命了

玩过游戏的朋友都知道一个叫做副本的概念把？？网游中的副本在技术的角度上，其实就是特殊开辟的一类进程，副本中的进程进行单独的数据结算，结合缓存技术(redis memcache magoDB ) 最后再汇总到玩家角色的数据中(mysql)

（补充知识网络游戏会大量使用缓存的机制主要是为了将频繁不断的用户数据传输加快速度且保证数据的不丢失）

但是玩游戏的用户都是很有情节的任何一点点的物品损失都是不能容忍的（丢掉一件心仪的装备，有时候可比丢了一打现金还愤怒）

有一次某一个区服所在的物理服务器出现了故障报警，级别很高 (P1)

但是由于监控系统已经比较完善了，于是运维们仅仅在15分钟内就通过相对准确一些的报警信息中定位了故障所在且解决了问题
当时是区服服务器的几个副本进程出现了 OOM的状况，造成进程假死，运维人员迅速把相关用户缓存数据导出，并成功恢复了玩家的数据，重启了进程恢复副本

其实这已经是速度很快的问题排查+处理了，但是当时还是后续产生了意想不到问题

虽然玩家在副本过程中的数据没有损失，但是由于往家数量多 15分钟内先后进入副本的玩家有400多人，而副本进入的当日次数是有限制的，且副本最终的获利很多人也没有得到结算这些玩家中
后来就有一些玩家在各大论坛进行了严厉的投诉甚至直接找上门来理论，最后还是给公司的形象造成了不小的损失

后来运维们在总结的时候，觉得还是监控报警不够100%的准确和即时，如果能把排查解决故障时间缩短到 3-5分钟内，那么损失就会小很多

2：详细分析一个运维在分析排查故障时候的过程细节（同样基于真实案例）

通过前面两个例子我们看得出在紧急状况之下，监控和报警信息是运维唯一能依赖的抢救线上环境的最直接救命稻草

我们也可以看得出 , 由于报警信息的普遍不准确给运维在排查故障的时候带来了很多很多的麻烦和误导

接下来我们再通过一个真实的案例详细分析过程来看下

晚上11点钟监控系统报警了，累了一天的运维工程师刚想躺下休息会，结果就被吵起来了 ...
我的妈呀公司的APP完全打不开了这是P0级别的报警啊！（监控报警的最高级别）
于是乎慌忙起身打开电脑，查看具体的报警信息，发现 100多封的报警邮件/短信都塞满了，于是开始排查问题
从报警邮件中开始过滤，其中有如下一些内容

用户QPS报警：某某接口流量骤然下滑
HTTP返回码报警：某某接口全都返回 5xx了(502 503)
CPU报警：某某集群中 CPU一路飙高快无法响应了
内存报警：各种OOM了
硬盘报警：大量错误日志导致硬盘塞满，还有其他各种硬盘分区满报警
日志报警：这里的内容就更"丰富"了，各种代码error/ warining
数据库报警：各种访问连接数飙升过高资源使用
连接数报警：负载均衡反向代理代码集群大量waiting_connections 少量出现半连接等等
各种缓存集群报警：大量并发连接，过高资源使用，主从同步缓慢内存占用严重等等

技术分享图片

于是苦逼的运维工程师开始旅行自己的"神圣职责"了, 救火啊排错啊赶快想办法恢复线上请求啊啊啊啊~~

运维一般的反应是（尤其是当前阶段）啊呀系统全面瘫痪了，是不是遭到***啦？？

于是赶快去看外层流量图(内部监控nagios prome zabbix , 监控宝)，奇怪了不对啊，最外层流量图显示并没有看到超大的并发链接数或者新建连接数啊
云产品的安全防护也没有报出遭到某某种类（如 DDOS， CC）***啊，那可以确定不是***了

那接下来看下数据库吧，因为根据以往的经验，越是后端的集群越容易导致问题的出现
看了一下，果然数据库资源利用过高，连接数过大，有慢查询的现象
把数据库重启一下试试吧（运维最大的利器），重启几次之后，连接数和资源降下去但是又迅速飙升回来感觉没啥作用看来不是数据库的问题

那么会不会是人为因素呢？比如哪个不懂事的开发人员偷摸的晚上加班未经许可上线功能了？
于是赶快去看发布系统记录（持续集成），结果今晚并没有任何线上程序的更新
但是也有可能是开发人员没有严格走持续集成的发布流程自己手动上线呢？（SUDO）
干脆把代码回滚到昨天试试看把，回滚之后，问题依然没有解决，看来不是代码发布问题

那么有没有可能是哪台做负载均衡的机器挂了导致请求失败堆积呢？
看了一下负载均衡的所有节点，发现健康检查的记录是OK的，也没有出现任何脑裂之类的现象看来问题也不在这儿

接下来看看硬盘使用状况吧，哎呀核心集群的PHP错误日志 (Nginx) 把分区写满了，这肯定是根儿啊，于是乎运维很熟练的
把日志移走，重启了所有核心集群的服务，哈哈一下子服务从5xx的返回码，又变回200了，太高兴了终于解决了问题
可是呢。。。。。好景不长没过多长时间，又开始报警了。。。。运维彻底奔溃了

问题到底在哪里啊。。。疑？？？？？这里有一条硬盘报警看着特殊一些
是缓存集群分区满了。。于是赶快上去看 redis日志，发现大量的 REDIS_ERR , RDB_failures, 终于终于找到问题的根儿了。

由于缓存集群硬盘满，造成redis的RDB同步失败，进而变成只读不写的状况，这种情况下从库无法再被更新，于是乎主程序由于后续无法在
缓存读到最新的信息，进而去访问关系数据库，且量越来越大()，到最终完全不走缓存而关系数据库在这种情况下，很快会被消耗殆尽造成请求的返回缓慢慢查询
接下来主程序层由于动态请求无法正常响应而造成堆积返回码大量非200请求，各种错误日志大量产生 CPU标高，内存耗尽，用户QPS下降等等

真的是一波三折啊...

监控报警

3：运维真实链路方式监控的基本理念和思路

通过上面一小节，详细的剖析运维通过监控报警信息分析故障原因的时候

我们看到了一个很严重且普遍存在的问题

由于监控报警信息的数量庞大且定位问题作用过小，给运维工程师排查紧急故障造成了很大的不便以及宝贵时间的浪费（这里是最好的体现时间就是金钱）

如何大幅度的提高报警准确性目前是个大企业面临的最急迫的问题（其实这已经不单单是运维面临的问题了）

相信所有的运维工程师们都在期待着一款绝妙的完美的监控报警工具能帮我们把问题彻底完美的解决

但是很遗憾，虽然现阶段市面上的各类开源监控软件，商业监控平台不断的迭代出新，不过我很肯定的告诉大家经过这么多年的实际检验
目前尚未有一款成型的监控产品能真真正正的帮运维帮企业把监控报警做到咱们期望的完美境界

不过呢，在不久之前出现了一个声音一个口号，或者说是一种新式的监控理念出现了

这就是我跟大家所要介绍的，咱们的主题， 真实链路式监控 理念

其实这个理念也并不是由大米哥（我本人）第一个提出的，我也是在一次和面试官的交流过程中听到过这个词汇
当时我很激动，立刻去搜索相关的资料，但是很郁闷的是，发现这个新式的监控理念到现在也仅仅停留在口号的阶段（或者说稍有思路）
并没有真正的开始研究，更不要说实现在运维生产环境上了

虽然有些遗憾，但是真实链路式监控这个提法，尤其是 "链路" 这两个字给了大米很多的灵感
接下来我结合自己运维11年的生涯给大家讲一下对于真实链路式监控的设计理念思路

理念一：完整化终极监控采样采集

记得大米在之前推出的 prometheus监控课程中也提到过监控采集

技术分享图片

上面这张图大家应该还有印象，不管是对于什么监控，即便是未来的真实链路式监控也一样离不开监控采集

数据的采集对监控系统来说是一切的源头

不过对于真实链路式监控在设计理念上，对于采集的强度就更胜一筹了

我们需要把几乎所有的跟监控相关的数据都要采集到，这说起来容易但是真想实现是异常的庞大且有点不可想象

举个例子来说：

就拿Linux操作系统中的一项指标CPU来说吧， CPU在Linux内核功能的划分下会呈现八种状态

分别叫做用户态，内核态，空闲态， Nice态， IO等待，硬中断，软中断，虚拟化

( CPU在Linux当中，是以这八种状态，按照时间片使用分配时长的方式通过累积 + 百分比瞬时计算来呈现 CPU各种状态下的百分比的）
技术分享图片
如上是咱们最熟悉的 TOP命令输出

每一种状态的CPU 对于分析操作系统的性能指标都十分重要（在低端的运维技术层面中，可能只关注用户态和内核态）

那么 CPU还会划分出每一个CPU核，整体监控完整CPU 很多时候不够细致，每一单核的状态有的时候也会影响全局
（曾经遇到过 redis 单进程跑满32核CPU其中的一核，虽然整体CPU监控体现很闲，但是这一个进程造成了无法响应，最终引起故障）

所以说，我们简单的来算一笔帐，在我们的真实链路式监控监控采集理念下，光是一个CPU项
就得有 1（一个完整CPU） 16（假设16核） 8（八态）* 100（假设集群就100台服务器），这就是 12800 个小监控项....

真实链路式监控的第一个理念就是对监控数据采样的超高完整性要求，不可以遗漏任何一个在集群中有可能造成影响的指标
不过我们也看到了，完美这个词光从量上就已经很庞大有一点让人望而却步

这还只是一个CPU，还没提到内存硬盘 IO 日志，程序数据库呢。。。。

理念二：监控数据灵活矢量化建设

大多数的监控工具/平台，对于监控采样数据的都是一种 "分而治之各自为政" 的处理形式

举个例子来说吧一般的监控在数据采集之后，根据工程师定义好的规则（各种大于小于临界值）然后产生监控输出信息和报警信息

技术分享图片

如上图所示，每一项监控项目都是分开采集分开计算分开显示和报警

我们的第二项真实链路式监控的设计理念需要建立一种完美的监控数据矢量化
什么意思呢？

就是让所有采集过来的一个一个的监控项目不再是孤立的不再是分开
且让每一个子项都变成可被其他子项后者是整个监控系统可识别可调用的状态 (区块链的理念 )
可以实现彼此的沟通（通信）

举个简单例子来说我们要求所有监控项能呈现如下这样的状态

技术分享图片

理念三：矢量化的监控项目建立层级连带+责任追溯关系

这个第三个设计理念有点不太好理解了，听大米好好讲解哦

什么叫做层级连带+责任追溯呢？

我们通过之前的第二小节课程给大家讲的那个实际例子还记得不？
技术分享图片

由于一个缓存上的硬盘分区满了，引起其他各个地方连带的问题和报警，并最终导致了致命的数据库瘫痪引起P0级别的故障

其实从这个实例我们看出，一个问题的引起会引发一种连带式的或者说是连锁反应

总结一下是这样的顺序：硬盘分区满 -> RDB同步失败 -> redis从库失效 -> 程序大量访问转向 -> 各处请求WAITING堆积 -> 数据库资源繁忙 -> 数据库挂点 -> 最终导致用户请求无法响应 QPS严重下滑 -> P0报警的产生

这样的一种按照顺序一步一步连带的发生故障，就叫做层级连带

而我们在这个例子不难发现，不管这种故障连带有多少层，其实都有一个问题的起点那么按照责任制的划分追溯到源头其实它就是原因
这个才是关键！！（最左边的硬盘问题）
而且运维在排查解决的时候，由于监控系统无法完美的提供支持，这种源头一般很难第一时间发现（除非是一个公司的一个老运维面对同样发生的问题有可能能意识到但这不是我们所追求的目标，毕竟企业是铁打的营盘流水的兵，不可能总是依赖老运维也不可能总是侥幸心理盼望着每次都是同一个原因造成问题）

那么对于第三个设计理念，我们需要真实链路监控能提供类似如下的功能

技术分享图片

理念四：左推式+上推式 +评估式 + 分布式最终形成真实链路式监控

这一小节中我们需要为真实链路式监控再贡献四项模糊一些的但是很重要的算法支持

那么接下来分别介绍着几个词是什么意思

1）什么叫左推式呢？为了说明这个，需要先简单介绍一下企业标准五层线上架构

技术分享图片
如上图所示，五层线上架构是当下企业运维架构的一种标准，线上指的是处理用户在线的请求
（不能说 100%所有企业都是完全按照这个架构走的，但是当前互联网运维线上架构的基本形式差不多都是这个模式）

其中可以看到由左向右流量的传递过程以及每个层级涉及的技术，一直推到最右边的关系型数据库层

那么结合这张架构图，我们可以解释一下什么叫做左推式了

意思就是说，随着流量由左向右逐层深入，越是靠右边的层级出现故障，那么它所引起的连锁反应越严重，也更可能带来全线的瘫痪

举个例子来说，最左边的洪流层负载均衡假设Down了一个节点，因为有HA的存在会被快速转移，充其量就是加重了一些其他LB节点的负担而已，倒并不至于影响全局

但是如果是最右边的关系数据库down了一节点，且这个节点对应的库和表在业务级别中很重要，那么一定会引起全面的业务瘫痪，而且整个左边的集群都会被牵连进去

所以对于真实链路式监控，符合左推式的算法，就应该具备这一种判断，看看报警项是处于哪一个层级，然后加入类似Linux nice值的一种东东，对报警的严重性加入综合判断

2）接下来说一下什么叫上推式

上推式解释起来要容易的多

在企业整套架构当中，其实还可以按照类似于 OSI七层模型的方式，由上向下的分级

最下层我们可以定义为网络层
中间层我们可以定义为 OS系统层
中上层我们可以定义为系统服务层（开源服务 FTP DNS NGINX）
最上层我们可以定义为应用程序层 (开发的事)

这种树形分层的模型，是为了说明一个问题，越靠下层出现故障，越有可能影响面越大

举个例子

互联网集群，网络其实是底层，随着云计算的出现，可能运维都不需要太关注了，但是一旦网络出现问题，比如整个IDC，或者整个云可用区网络出现瘫痪
连PING都不通了，那什么也不用说了，其他的地方也不用排查了，这个问题就一定是导致全部产品瘫痪的源头

最上层是应用程序层，程序出现了一些问题，比如刚刚上线的一项小功能，无法正常使用了，那么可能也只是影响了一小部分用户体验而已，到不一定就会影响全局

所以说这就是给大家的第二个真实链路监控的理念，树形结构的上推式算法

3）接下来咱们说一下什么叫做评估式

评估式的意思是说，在监控的过程中，如果同时出现问题是处在同一个层级（不管是按照前面所说的左右分，还是上下分）

在同一层级中，并行出现的问题，也需要有不同的判断依据，也要根据业务种类的不同有所区分

举个例子来说，假设都是在系统层面中同时出现了 CPU 和内存的报警，这两项报警都属于上推式当中的 OS系统层

而CPU 和内存对于不同密集型的集群它的分量是不一样的

比如在PHP（核心代码层）这一般情况下属于 CPU密集型，所以CPU的比重要高于内存（排除一些 PHP代码（也包括其他代码）例如分配变量的不健康导致的内存溢出等极端例子，总体来说健康的代码重于计算而不是过度消耗内存）
又比如在大数据集群中，内存的比重明显要高于CPU （大数据行业有这么一句话，内存决定生死， CPU决定效率），也就说 Hadoop 内存如果不够了，可能直接导致MR任务挂掉，如果CPU不足呢？可能仅仅是运行速度变慢了

通过上面的两个例子，我们可以看出评估式算法的重要性，也就是说同一类的或者同一层级的报警项目，根据不同的应用种类，真实链路监控需要具备灵活评估判断的能力（说起来简单实现起来很难）

4）最后再来说下分布式

分布式这个词一出，大家理解上应该不会有问题吧？听得很多很多了

关于什么是分布式，我这儿不再给大家啰嗦它的底层含义，感兴趣的朋友可以自行查阅资料多的是

大米在这儿只是介绍一下，为什么需要把分布式的用法融入到咱们的真实链路监控当中

前面在理念一的时候，就跟大家说过了，仅仅是数据采集一项在量级上就是非常巨大的(12800)

所以说可想而知如果真的要搭建出真实链路监控的平台，在数据存储上，以及计算方式上需要依赖分布式存储和分布式计算
（顺带一提的是，现阶段对于分布式存储和计算支撑最好的自然是各种Hadoop大数据生态圈（实时性 YarnHadoop+spark HBASE STORM），不过时代和技术的变迁是很快的，我们并不知道当有一天真实链路监控真的用在生产环境的时候，分布式是否还是现在这个样子这就不好说了）

总结篇:

通过上面三个小节，我给大家分享了未来真实链路式监控的一些设计理念

其中很多的理念其实都是我个人根据十多年运维架构的经验所提出的并不是所谓的官方定义

其实时代在发展运维技术企业架构也在不断的更新迭代，实事求是的说有一部分提到的设计理念

有可能会随着时间的推移，也需要进行改良需要再提出更适合的思路和方法这都是不可避免的

不过作为一个老运维，经过十多年运维生涯的风风雨雨，对于这种完美监控的诞生需求是始终不会变的也是不会错的

最后我们把上面所有的关于真实链路监控的知识点设计理念综合放在一张图中大家可以多多体会一下吧 ^_^

技术分享图片