一、存储故障概述1、故障环境两组分别由4块600G容量的SAS硬盘组成的raid5阵列,并且两组阵列划分LUN,组成LVM结构,并格式化为EXT3文件系统。2、故障分析一块硬盘意外离线,热备盘上线,顶替离线硬盘。但在热备盘上线过程中,又一块硬盘离线,导致热备盘同步失败,两组raid阵列中的一组崩溃,LVM结构不完整,文件系统无法正常使用。对两块离线硬盘进行检测,发现先离线硬盘无法识别,初步推断是硬
分类:
其他好文 时间:
2019-07-22 11:37:18
阅读次数:
89
近期青鸟报修云客服经常接到酒店方电话,需要在青鸟报修云报修功能基础上增加物料附件并转交给审批人的定制需求,在这里给大家讲清楚报修系统与OA系统功能区别。报修系统:故障报修系统一般是指报修人将故障通过二维码扫码提交给故障处理人,注重的是报修效率,如果增加报修节点审核会大大降低企业的报修效率。所以青鸟报修云作为专业的故障报修系统不支持审批流程开发定制,专注于故障报修。OA系统:企业OA办公系统注重的是
分类:
其他好文 时间:
2019-07-18 16:35:30
阅读次数:
138
一、前言:日志分析是我们运维解决系统故障、发现问题的主要手段。为了可以集中管理多台服务器的日志记录,开源实时日志分析ELK平台应用而生,ELK由Elasticsearch、Logstash和Kibana三个开源工具组成,这三个工具可以分别部署在不同的服务器上,并且相互关联,不过需要收集哪台服务器的日志,就必须在该服务器上部署Logstash。ELK的官网是:Elastic官网ELK的工作原理如下(
分类:
其他好文 时间:
2019-07-16 22:47:28
阅读次数:
244
CMDB与监控系统间的联动,主要体现在:●监控系统为CMDB提供CI数据,保证CI的自动实时更新●CMDB为监控系统处理故障提供配置支持通常自动更新率是CMDB很重要的考核指标,自动更新可以让监控系统来实现,无论是有agent的方式,还是通过SSH等方式都可以获取CMDB需要的CI信息:●主机名●IP地址●操作系统版本●数据库版本●中间件版本●CPU信息●内存信息●磁盘信息●逻辑盘信息等在CMDB
分类:
数据库 时间:
2019-07-12 12:42:37
阅读次数:
144
RAID概念 磁盘阵列(Redundant Arrays of Independent Disks,RAID),有“独立磁盘构成的具有冗余能力的阵列”之意。 磁盘阵列是由很多价格较便宜的磁盘,以硬件(RAID卡)或软件(MDADM)形式组合成一个容量巨大的磁盘组,利用多个磁盘组合在一起,提升整个磁盘 ...
分类:
其他好文 时间:
2019-07-03 15:22:02
阅读次数:
101
checkpoint原理机制 当RDD使用cache机制从内存中读取数据,如果数据没有读到,会使用checkpoint机制读取数据。此时如果没有checkpoint机制,那么就需要找到父RDD重新计算数据了,因此checkpoint是个很重要的的容错机制。checkpoint就是对于一个RDDcha ...
分类:
其他好文 时间:
2019-06-21 09:15:01
阅读次数:
115
1 故障起因 收到白盒告警:线上机器ip:x.x.x.x 文件系统没有挂载(/search/odin)。 看来得登上机器排查了。 2 df h看下情况 果然/search/odin没了。 3 journalctl看日志 journalctl 用来查询 systemd journald 服务收集到的日 ...
分类:
其他好文 时间:
2019-06-12 16:37:28
阅读次数:
213
[toc] 持久化的原因 很多时候我们需要持久化数据也就是将内存中的数据写入到硬盘里面,大部分原因是为了之后重用数据(比如重启机器、机器故障之后回复数据),或者是为了防止系统故障而将数据备份到一个远程位置。 Redis的数据是存在内存中的,如果Redis发生宕机,那么数据会全部丢失,因此必须提供持久 ...
分类:
其他好文 时间:
2019-06-04 20:57:39
阅读次数:
107
分布式系统故障场景梳理方法: 场景梳理逻辑关系: 单点硬件故障→单点进程故障类型→集群影响→集群故障场景 第三方依赖故障→集群依赖关系→集群影响→集群故障场景 业务场景→集群负载/错误影响→集群故障场景 Kafka故障场景 Kafka故障的定义是什么? 故障场景 单点硬件故障→集群故障场景 第三方依 ...
分类:
其他好文 时间:
2019-05-11 09:46:09
阅读次数:
151
HACluster:集群类型:LB(lvs/nginx(http/upstream,stream/upstream))、HA、HPSPoF:SinglePointofFailure系统可用性的公式:A=MTBF/(MTBF+MTTR)---失效转移(failover)(0,1),95%几个9(指标):99%,...,99.999%系统故障:硬件故障:设计缺陷、wearout、自然灾害、...软件故
分类:
其他好文 时间:
2019-04-29 22:34:10
阅读次数:
209