码迷,mamicode.com
首页 > 其他好文 > 详细

运维工程师如何做好告警分析与汇报?

时间:2020-05-24 09:25:40      阅读:56      评论:0      收藏:0      [点我收藏+]

标签:it运维   res   功能   详单   alert   通过   系统   targe   http   

智能告警平台Cloud Alert) CA,能快速接入各类告警信息,通过自动去重、规则压缩、算法降噪,实现告警降噪,帮助IT运维团队减少告警,避免告警风暴;同时通过分派、排班、通知等功能,快速实现告警流程化管理,帮助运维团队更快响应告警,恢复告警,提升告警管理能力。

CA提供多维度报表帮助您快速分析告警、成员工作效率,概览系统运行状况。支持自定义时间段,回溯分析历史系统状况。

技术图片

技术图片

关键指标分析

事件量: 原始告警量

· 主告警量: 自动去重、规则压缩后告警量

· 压缩比: 压缩比计算公式:(1 - 主告警量/事件量) * 100%

· MTTA: 告警平均响应or认领时长

· MTTR: 告警平均恢复or关闭时长

事件压缩分析

· 按天统计事件量、所有告警、主告警量随时间变化趋势

· 点击右上角 more 按钮,可下钻查看更多分析,若回溯分析时间跨度过长,还可以按月维度统计事件量、主告警量、所有告警量

技术图片

应用分析&关闭分析

· 应用分析: 统计查询时间周期内,不同应用的告警数量;

· 关闭分析: 统计通过外部系统关闭、超时自动关闭、手动关闭三种方式关闭对应不同应用的关闭告警数量;

· 应用分析中点击右上角 more 按钮,可下钻选择不同应用按天查看告警

技术图片

告警级别&状态分析

· 统计查询时间周期内,不同级别(提醒、警告、严重)占比,及告警当前处理状态(待认领、处理中、已关闭)。

· 支持联动查询:所有严重级别告警,当前处理状态分别是什么。

· 点击右上角 more 按钮,可下钻查看所有告警详单。

技术图片

成员分析

· 统计查询时间周期内,团队所有成员的告警处理效率:被分派告警量、认领告警量、关闭告警量、MTTA、MTTR。

· 支持下钻查看每个成员被分派的告警详单。

 

告警智能分类分析

· CA内置分类算法,基于告警全文本分析,自动标注告警分类。

· 提供本周期与上周期对比分析,快速定位不同分类告警数量差异及变化情况。

· 分类类型内置,无需自定义,目前支持12种分类:网络状态、硬件处理器、硬件内存、操作系统、磁盘、WEB应用、信号检测、数据库、基础组件、应用监控、容器、其他等。分类算法还在持续迭代优化中,敬情期待。

 

Top告警内容分析

· 统计查询时间周期内,不同告警内容的发生频率并进行排序,快速定位频繁发生的告警。

· 对于频繁发生的告警,需分析是否需要统一彻底解决,或者是否需要调整监控平台的告警阈值等。

· 对于不频繁发生的告警,更需要额外警惕,往往不经常发生的告警,导致的问题更严重,定位根因更久,修复耗时更长。

 

新奇事件TOP10

· 今日新奇事件TOP10:相较于昨天,今日新发生的事件;

· 本周新奇事件TOP10:相较于上周,本周新发生的事件。

 

更多功能欢迎访问睿象云官网进行体验~

 

运维工程师如何做好告警分析与汇报?

标签:it运维   res   功能   详单   alert   通过   系统   targe   http   

原文地址:https://www.cnblogs.com/ruixiangyun/p/12945524.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!