一、PrometheusOperator介绍PrometheusOperator是CoreOS开源的一套用于管理在Kubernetes集群上的Prometheus的控制器,简化在Kubernetes上部署、管理和运行Prometheus和Alertmanager集群的操作。二、部署1.从官方下载部署文件gitclonehttps://github.com/coreos/kube-prometheu
分类:
其他好文 时间:
2019-09-11 18:19:16
阅读次数:
111
1哨兵的作用哨兵是redis集群架构中非常重要的一个组件,主要功能如下:集群监控:负责监控redismaster和slave进程是否正常工作消息通知:如果某个redis实例有故障,那么哨兵负责发送消息作为报警通知给管理员故障转移:如果masternode挂掉了,会自动转移到slavenode上配置中心:如果故障转移发生了,通知client客户端新的master地址2哨兵的核心知识故障转移时,判断一
分类:
其他好文 时间:
2019-09-08 20:11:36
阅读次数:
82
一、智能运维监控报警平台的组成 随着大数据时代的来临,运维工作的难度越来越大,每个运维人员都要面临不计其数的服务器和海量的数据,如何保证众多服务器和业务系统稳定高效地运行并尽量减少死机时间,成为考核运维工作的重要指标,而要实现大规模的运维,必须要有一套行之有效的智能运维监控管理系统,本章就详细介绍下 ...
分类:
其他好文 时间:
2019-08-31 23:50:41
阅读次数:
263
一、什么是Ganglia 对于这个工具,大家可能比较陌生,但是它功能非常强大,如果我们想收集所有服务器、网络设备的数据,那么ganglia绝对是首选,在深入学习之前,还是先从基础概念了解起吧! Ganglia是一款为HPC(高性能计算)集群而设计的可扩展的分布式监控系统,它可以监视和显示集群中的节点 ...
分类:
其他好文 时间:
2019-08-31 23:33:21
阅读次数:
117
1.CM(Cloudera Manager)介绍 1.1 简介 Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具,使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。 对比Apache / CDH / ...
分类:
其他好文 时间:
2019-08-16 22:35:14
阅读次数:
257
容器的监控方案有多种,如单台docker主机的监控,可以使用docker stats或者cAdvisor web页面进行监控。但针对于Kubernetes这种容器编排工具而言docker单主机的监控已经不足以满足需求,在Kubernetes的生态圈中也诞生了一个个监控方案,如常用的dashboard ...
分类:
数据库 时间:
2019-07-19 17:11:55
阅读次数:
261
1.概述 Kafka Eagle是一款开源的Kafka集群监控系统,源代码托管在Github。目前Kafka Eagle已更新到V1.3.4版本,域名已经统一更新为http://www.kafka-eagle.org/,之前的下载地址和官网使用手册地址均已替换,例如http://download.s ...
分类:
其他好文 时间:
2019-07-14 21:27:33
阅读次数:
204
/etc/hadoop/conf/hadoop-metrics2.properties namenode.sink.ganglia.servers=10.0.0.1:8649 datanode.sink.ganglia.servers=10.0.0.1:8649 journalnode.sink.g... ...
分类:
其他好文 时间:
2019-06-20 15:47:39
阅读次数:
110