一、 发布系统
代码的自动发布脚本的编写,建立从本地提交代码——测试环境——审核——正式环境的上线流程,减少在这个过程中的手工操作。
二、 监控系统
1. 对服务器cup、内存、磁盘、网络等监控和报警。
2. 对日志的监控和报警,比如一分钟内产生的错误日志数量,在线人数同比上周同一时间段的增减数等等。通过报警来更主动的发现问题,而不是等到用户反映出来我们才发觉。特别是每次发布新的版本时,这个监控能够及时反映问题。
有些问题出现之前会有前兆,监控系统最好能够捕捉到这些前兆,而不是等到问题真的出现才报警。
我知道的监控系统有zabbix、nagios等。
三、 日志转移、日志存储和分析系统
日志除了错误日志外更大的是行为日志,我们做数据统计的数据来源除了数据库之外更多的是从这些行为日志中获取。这些行为日志可能会很大,聊天服务器上以后可能只保留最近3天或7天的日志,更久远的日志就需要转移到专门做日志存储和分析的服务器上。另外如果以后访问量增大,我们肯定会把单节点的扩展成集群,那么日志分散在集群中的每台机器上不利于统计分析。日志的转移可以使用scribe、rsync等。
四、 配管系统
1、当服务器数量不断增多时,必须有套统一配管的系统,不能每次变更都一个一个机器去执行。
2、随着我们系统越来越复杂,集群中需要增加一台机器时,我们不希望人工去从头构建系统环境和业务环境,而是希望配管系统自动完成。我了解的这方面的东西有puppet、cfengine等。
原文地址:http://www.cnblogs.com/bohai/p/4164525.html