码迷,mamicode.com
首页 > 其他好文 > 详细

[运维] 第六篇:告警是数据中心运维的核心驱动力!

时间:2016-08-11 23:15:01      阅读:200      评论:0      收藏:0      [点我收藏+]

标签:数据中心   告警事件   综合告警平台   事件通知   事件接口   运维自动化   

       告警事件是数据中心运维的核心驱动力,我们做的所有运维工作都是要减少业务出现故障的概率,提供更高的业务可用性。不知道大家是否认可这句话?还是看这张图,通过这张图,把这个问题讲透:
技术分享
        作为综合事件管理平台自身,需要有这样几个部件:
1 丰富事件接口。作为数据中心的核心驱动引擎,需要有丰富的事件接口可以将各种IT事件,甚至非IT事件接收过来,常见的接口有rest、web service、snmp、soap、socket、xml、文本、jdbc等。因为面对的对象不同,所以能够使用的方式是完全不同,事件平台提供的接口越多,事件采集源就越丰富
2 事件处理引擎。各种各样的事件被送到事件平台上,事件平台对这些原始事件进行处理以符合事件平台数据的格式,进而对格式化后的事件进行事件规则的处理,该报警报警,该关闭的关闭。处理完毕的事件有两条路,一条是该报警的报警,通过短信或邮件报警,另一条路存入事件数据库。这里要说对告警事件的处理和整合可以先放在内存数据库,以便处理速度更快、响应和存取更方便,真正处理完的数据再放到事件数据库中。
3 事件数据库。数据库可是是Oracle,SQL Server或Mysql等。
        告警对运维来说可以发挥的作用包括:
1 数据分析平台。大量而来源广泛的事件实际上代表着IT的运行状态,所以通过大数据对告警事件的分析,可以得到一些有价值的IT运行规律和运行趋势。例如运维中一些重大事件的发生与具体业务系统的关系;重大事件与时间点的关系,不同业务系统发生故障之间潜在的关联关系,不同事件来源之间的互相影响关系和分析等。大数据已经广泛应用,但监控上的大数据确实不多见。
2 知识库。事件的发生和处理在运维是属于大概率事件和重复性事件,所以对于处理后的事件的保存实际上是对于过去运维经验和知识的积累。知识库的建议可以减少新人从无到有的熟练时间,也可以减少事件的处理时间和难度。
3 IT服务流程。经过过滤的告警事件将被送到服务流程的事件管理中形成工单,这种工具形成的工单比人肉发现的工单更有广泛性和实效性。当工单处理完毕后,事件平台上的事件要改变属性,以便形成事件管理的闭环。
4 业务大屏。业务的运行状态可以通过监控大屏展现出来。这种展现不仅是运维门面的需要,也是IT了解业务整体状态的第一手资料,只有大屏才可以在目前监控软件分别监控的状态下将各个监控数据进行重新的展示和演绎,以符合整体展示的目的。而告警事件是监控大屏很重要的一环。
5 事件通知。这个在监控中比较普遍,就不多说了。
6 运维自动化。经过预选的告警事件发生后,可以自动触发管理动作,如事件的自动解决等。当然在现实监控项目中,这种预选的事件是有条件的,比   如大家已经很清楚原因、规律,处理动作比较清晰和明确,影响面可以控制等。坦率的说,事件的自动化处理不推荐大规模使用,因为事件的环境微小的改变,你预设的处理步骤都可以受到影响,进而出现错误的结果。
7 分析报表。分析报表不是什么新技术,但是分析报表永远可以在第一时间将你最需要知道的东西完整展示给你。你想做SLA(服务水平管理协议),想得到可用性的KPI,那就一定是按照某种算法对事件的综合计算来得到。
         说了这些,大家了解综合事件管理平台的重要性了吧!也许技术的发展也会给事件的价值带来更大的契机,后续继续大胆尝试和联想吧!

本文出自 “老段的修炼人生” 博客,请务必保留此出处http://031028.blog.51cto.com/9866455/1836873

[运维] 第六篇:告警是数据中心运维的核心驱动力!

标签:数据中心   告警事件   综合告警平台   事件通知   事件接口   运维自动化   

原文地址:http://031028.blog.51cto.com/9866455/1836873

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!