【摘要】本文从项目管理的角度出发,以极端天气为假设背景,分析数据中心在极端天气下的应急备战、应战、收尾等组织工作及流程。

通常,我们将数据中心的运维管理视作项目管理,站在项目管理的角度,极端天气对数据中心可能造成的影响属于可提前识别的风险。针对已识别的风险我们需要进行定性/定量分析、规划风险应对、控制风险等标准的项目管理流程,本文将IDC遭遇极端天气时的应急备战及响应视作一个独立项目来进行分析并讨论项目前、项目中、项目后的组织管理、实时响应、跟踪恢复和总结等具体工作流程及实施。

首先,传统的项目管理可分为五大阶段启动、规划、执行、监控和收尾

 

【摘要】

启动阶段

启动阶段需要制定本项目的项目章程,项目章程可以以很多种方式呈现,如邮件、函件、通知、会议及会议纪要等。

项目章程的内容主要包括:

o 项目目标:确保数据中心安全平稳度过极端天气,保证设备正常运行和服务可靠;

o 项目负责人:一般应为运维经理,也可以是其他相关管理人员;

o 高层级需求、客户需求:内部高层级需求,客户级需求等;

o 项目边界及成功标准:以IDC安全平稳度过极端天气(含灾后恢复)为准;

o 相关联系人及职权:工作人员、供应商(含SLA协议)、合作施工单位、客户等;

o 项目风险:极端天气下可能发生的市电断电、市政停水、供冷故障、火灾、坍塌等风险,应提前进行识别。

IDC遭遇极端天气时的应急备战及响应

项目章程的核心目的是确保相关人员(方)在项目目的、成功标准、职权等内容上达成共识,在章程制定结束后应召开启动会(动员会),向全员宣布项目章程,项目正式启动。

独立项目

规划阶段

规划阶段是组织管理最重要的阶段,需要对项目的各个领域进行详细规划。在极端天气到来前,应对项目范围、成本、进度、质量、人力资源、沟通、风险、采购、干系人等进行相应规划,制定项目管理计划

项目管理计划主要内容应包括:

o  确定项目团队:IDC范围内的运维管理人员(专业工程师)、运行值班、维保、物业等工作人员;

o  创建WBS:将应急响应按一定标准划分为多个工作包,如IDC及园区巡视、供电保障、供冷保障、排水保障、应急抢险等;

o  估算所需资源:IDC运维管理制度规定,极端天气下的应急物资应已随日常备品备件一同备好并存放于库房,但本项目中应重新估算项目所需的资源;

o  确定预算和实施采购:按资源需求确定预算,实施审批流程并执行采购;

o  估算所需时间:估算极端天气到达时间、持续时间、结束时间等;

o  确定质量标准:应急响应的目标是为保证数据中心在极端天气下正常运行并平稳度过,则项目过程中的一切活动就应以此标准为准则;

o  确定角色和职责:团队成员职责分工明确,同时应与WBS对应;

o  确定沟通需求:确定沟通准则,如沟通工具、时间、方式等;

风险识别、分析、应对:识别在应急响应过程中有可能存在的次生风险,如市电失电、市政停水等,同时制定相应的应对措施。

另外,在此阶段还应输出必要的项目文件,用以记录项目所有相关信息,项目文件可以包括:需求清单、变更日志、沟通名册、风险登记册等。在本项目背景下,风险登记册是最为重要的一项。

执行阶段

极端天气到来以后,按计划执行相应的管理及落实实施,协调各方资源。

团队在本阶段的主要任务包括:

o  执行项目管理计划:规划阶段的所有组织管理构成了项目管理计划,执行阶段应按项目管理计划进行相应的落实实施;

o  管理沟通:对执行阶段的团队沟通进行控制,保持信息传递通畅、及时、准确、有效;

o  风险再评估和实施风险应对:极端天气响应过程中应进行风险再评估、采取权变措施、执行应急计划、制定额外的风险应对计划;

o  管理相关方参与:管理好各方干系人参与,获得最大限度的支持和资源获取。

监控阶段

监控阶段应开始于项目的启动和规划阶段,贯穿整个项目的执行阶段,待项目收尾后,监控工作仍会持续一段时间,直至确保IDC未因极端天气留下任何安全隐患。

监控阶段的主要工作有:

o  监控项目工作:跟踪、审查和报告项目整体情况,使相关方了解当前状态;

o  控制变更(如有需要):极端天气下可能出现各种意外情况,在此过程中应确定是否与应急计划存在偏差和是否需采取纠正行动或实施变更;

o  控制成本、资源:所有财务和人力的投入应该合理且有效;

o  监督沟通:按管理计划优化信息传递流程;

o  监督风险:确保所有风险应对措施的有效性;

o  监督相关方参与:监督本项目相关参与方的关系,维持和提升参与方在本项目中参与活动的效率和效果。

收尾阶段

极端天气结束,天气恢复正常,项目进入收尾阶段。

此阶段任务主要包括:

o  确认已完成的工作符合需求:确认应急响应中各项工作的成功性,IDC在极端天气下做到供电供冷正常,运行正常,服务正常;

o  恢复和检查工作:对受损区域进行恢复,同时全面检查供电、供冷等系统、设备、线缆情况是否正常,排除安全隐患;

总结经验教训:对应急响应项目进行总结,建立项目档案,更新历史信息、风险数据库、培训、分享等。

项目收尾后(极端天气消失),IDC应回归到正常运行的节奏当中,各项日常工作均恢复正常。

【小结】本文将极端天气下的应急备战细化成不同的阶段过程和知识领域,而现实中每个不同的IDC都有其独立的运维管理体系,相关极端天气的应急备战过程应建立在其运维管理体系的指导下,并不需要严格采取文中所述的类似流程或方法。

在应对极端天气的过程中,规划阶段是重中之重。面对此类可预见的极端天气时,提前识别风险和规划风险应对是IDC运维人员保障IDC安全运行的可靠路径。另一方面,在日常运营中有计划地“加强人员技术培训、强化体系制度管理、定期组织应急演练”等,都能有效地降低IDC在面对极端情况下的风险,从而保障IDC稳定运行和服务的可靠性。


文章TAG: