码迷,mamicode.com
首页 > 其他好文 > 详细

IDCM项目总结(Ali)

时间:2016-07-22 19:04:29      阅读:164      评论:0      收藏:0      [点我收藏+]

标签:

  技术分享

  IDCM(Internet Data center monitoring, 网络数据中心监控平台),该项目是阿里巴巴技术保障部基础架构运营体系的一部分。通过对阿里集团内部的基础架构体系进行运营管理,为阿里集团内部的上层各个事业部提供服务。主要服务对象包括:阿里云、高德、UC、国际交易等。IDC(Internet Data center),即互联网数据中心。所谓IDC业务是电信部门利用其自身丰富的网络资源,为企业提供服务器托管、租用以及相关增值等方面的全方位服务。顾名思义,IDCM项目是对IDC业务的运营平台。

  首先来说下,阿里巴巴基础架构运营体系,它共包括五大部分:IDC生命周期管理,服务器生命周期管理,网络生命周期管理,操作系统生命周期管理,运营管理。前四个部分的生命周期管理,用于规范设备(资产)日常维护流程。例如从服务器的采购,到服务器的上/下架,服务器设备替换,服务器网线/光纤更换、(服务器)硬盘拔除工单、(服务器)硬盘消磁折弯工单、服务器的搬迁工单、服务器的RMA(废料审查)工单。最后一部分的运营管理,为了保证阿里基础架构环境发生故障时,能够根据故障级别,有序通知到相关方且触发对应的故障应急处理,将业务损失降至最低,故制定重大运维故障应急处理流程,即运营平台。下面分别介绍下基础架构运营体系中各大部分所承担的责任。

  服务器生命周期管理,主要实现了:服务器供应商的管理、服务器的采购/发货/验收/生产交付管理、服务器故障流程管理、服务器报废流程管理等,其主要以服务器为维度进行管理。

  网络生命周期管理,主要实现了:网络供应商的管理、网络采购验收管理、网络部署交付管理、网络定期检修/故障处理管理、网络退役流程管理等,对基础架构运营体系中网络部分作出了集中管理。

  操作系统生命周期管理,同上。系统的研发、测试、部署与交付都在该周期内管理。

  IDC生命周期管理。IDCM项目即是该大块中的一小部分,著名的杭州千岛湖数据中心即是受该平台所管理的。IDCM项目涵盖了IDC安全管理规范和现场运营流程。其中,现场运营流程是项目的核心模块。现场运营流程主要有机房、房间、机柜、机位、服务器、网络设备等几大主体。由于运营流程要交给人来操作,所以在项目中维护了基础设施管理员、机房管理员、机房经理、物流供应商、系统管理员、驻场工程师、网络工程师等角色,底层的驻场工程师负责运营流程的任务执行,其他角色则负责相应的审批、盘点、盘盈、盘亏、报备等操作。

  1.机房管理:机房查看,机房筛选,机房添加(添加后要走审批流程)、机房人员关联。

  2.房间管理;机柜管理;机位管理;同上。用于录入信息,维护信息。

  3.现场作业:现场作业是IDCM项目核心中的核心。它以服务器、网络设备、人、供应商为核心,用各种工单将上述主体串联起来,以实现现场作业流程。下图是千岛湖数据中心截图。

 技术分享

 

IDCM项目总结(Ali)

标签:

原文地址:http://www.cnblogs.com/RunForLove/p/5696066.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!