官方地址https://github.com/didi/nightingale夜莺运维平台是滴滴开源的一个运维平台有着滴滴公司最佳实践夜莺拆成了四个子系统,分别是:用户资源中心(RDB)、资产管理系统(AMS)、任务执行中心(JOB)监控告警系统(MON)具体介绍请看官网,这里重点说明下部署步骤我这里采用的docker部署第一步github拉取代码镜像到服务器指定位置也可以去http://116.
分类:
其他好文 时间:
2020-12-03 12:02:57
阅读次数:
6
监控俗称“第三只眼”。没了监控,什么基础运维,业务运维都是“瞎子”。所以说监控是运维这个职业的根本。尤其是在现在DevOps这么火的时候,用监控数据给自己撑腰,这显得更加必要,有人说运维是背锅侠,那么,有了监控,有了充足的数据,一切以数据说话,还需要背锅吗,所以作为一个优秀的工程师,如何构建一套监控系统是需要做好的第一件工作。一、常见的运维监控工具现在运维监控工具非常多,哪个好,哪个不好,哪个适合
分类:
其他好文 时间:
2020-10-10 16:47:39
阅读次数:
23
一、引入 1、网站因tcp受到的攻击 1)DoS(Denial of Service,拒绝服务) 2)DDoS(Distributed Denial of Service,分布式拒绝服务) 2、监控关键的状态 注:SYN_RCVD状态一般正常情况下监控不到,出现DDoS攻击时,才能监控到,所以zab ...
分类:
其他好文 时间:
2020-10-08 19:27:55
阅读次数:
25
作为一名合格的 Linux 运维工程师,一定要有一套清晰、明确的解决故障思路,当问题出现时,才能迅速定位、解决问题,这里给出一个处理问题的一般思路: 重视报错提示信息:每个错误的出现,都是给出错误提示信息,一般情况下这个提示基本定位了问题的所在,因此一定要重视这个报错信息,如果对这些错误信息视而不见 ...
分类:
其他好文 时间:
2020-05-23 20:32:05
阅读次数:
301
WGCLOUD基于java语言开发,是高性能高并发的分布式监控平台,核心模块包括:服务器集群监控,ES集群监控,CPU监控,内存监控,数据监控(mysql,oracle,pg等),服务心跳检测,应用进程管理,磁盘IO监控,系统负载监控,监控告警信息推送。englishreadme使用中若cache过大导致内存报警不准确,可以将内存使用率告警值改大,如memWarnVal:150,该阈值可以大于10
分类:
其他好文 时间:
2020-05-22 16:56:02
阅读次数:
79
说到平台开发,企业可能都会遇到过这样的情况,耗时多、人力成本高,进而导致开发效率低。那么如何快速开发数据平台呢?相信通过我今天的分享,将会对你在进行数据平台开发时,提供强有力的帮助。大家也可以搜索腾讯课堂、网易云课堂-《grafana运维监控与数据分析》接下来我将以一种最简单的方式,来分享一下怎样快速开发,通过我讲到的解决方式来操作,可以说,对于初创型公司来说,相信可以节约很多时间和人力成本。我们
分类:
其他好文 时间:
2020-05-16 09:25:36
阅读次数:
465
目前主流的监控系统prometheus,相比zabbix确实,prometheus确实很轻量级,很多功能都帮你做好,直接配置启动使用就好了。我写这个目的就是让你快速学会prometheus,两个小时,大家可以去腾讯课堂、网易云课堂搜索-《Prometheus运维监控》。下面开始介绍你应该学的重点,整个是围绕prometheus架构来的,每个部分都会讲解,并且还有些延伸,涉及的地址、程序都给你准备好
分类:
其他好文 时间:
2020-05-16 09:14:57
阅读次数:
235
很多人都知道CDN是内容分发加速,所谓内容分发,就是将本来位于源站的内容分发到全国各地的节点,方便用户去就近访问所需的内容。随着移动互联网、云计算等一代代技术变革,CDN已经成为了缓解互联网网络拥塞、提升应用响应速率、改善用户体验的重要互联网基础设施。前瞻产业研究院的数据表示,2019年超过50%的互联网流量将通过CDN进行加速,到2020年,全球CDN市场规模将增长到157.3亿美元。也就是说,
分类:
其他好文 时间:
2020-05-11 23:40:31
阅读次数:
74
为何要压缩告警? 运维监控工具/平台,一般是通过配置固定阈值,达到阈值后自动触发/生成告警。如网络中断、闪断;系统升级更新;设备多监控内容多等情况下,更会产生海量告警。以下为告警管理常见问题: l 故障期间,告警风暴,手机/邮箱会被海量告警淹没; l 运维人员很难从海量告警从筛选出重要告警,容易忽略 ...
分类:
其他好文 时间:
2020-05-10 21:38:05
阅读次数:
111
为何要压缩告警? 运维监控工具/平台,一般是通过配置固定阈值,达到阈值后自动触发/生成告警。如网络中断、闪断;系统升级更新;设备多监控内容多等情况下,更会产生海量告警。以下为告警管理常见问题: l 故障期间,告警风暴,手机/邮箱会被海量告警淹没; l 运维人员很难从海量告警从筛选出重要告警,容易忽略 ...
分类:
其他好文 时间:
2020-05-08 18:03:38
阅读次数:
69