世博园区信息基础设施的运维与应急管理
2011-01-29上海世博会事务协调局信息化部
文|上海世博会事务协调局信息化部 忻 烨
世博园区信息基础设施的运维与应急管理
文|上海世博会事务协调局信息化部 忻 烨
1 引言
世博园区信息基础设施包括地下管线、通信机房、通信基站等公共基础设施,公众通信网、世博专网等网络设施,摄像机、扬声器、票检机、预约机等信息终端设施三大部分,基础设施数量众多且分散分布在5.28km2的园区建筑内或公共场地上。
世博会运行期间经历梅雨、雷暴、高温、台风等恶劣天气,临时建筑内的通信机房和场地上的终端设施面临着考验,184天中每天14小时的长时间开园将给日常巡检、抢修等带来困难。
信息化服务对象有组织者、参展者、参观者、媒体记者等,保障等级高,业务提供面广,基础设施为信息系统安全的可靠运行承担着重要的支撑作用;面对园区信息基础设施运维保障工作的重要性和高难度,我们必须采取行之有效的运维管理体制,以确保世博信息化应用系统的稳定运行。
2 信息基础设施运维需求分析
园区信息基础设施分为公共基础设施、网络设施、终端设施,世博会期间的运维保障需求如下:
(1)公共基础设施
管线:园区内信息管道供世博会组织者、通信运营商及安保单位使用。永久性市政道路信息管道内以通信运营商、安保等单位敷设中继光缆、铜缆为主,临时性地块内信息管道主要为接入层光缆、铜缆和会期使用的各类信息化终端设施所需的线缆。
园区总计建设永久性信息管道42沟公里,各路段视场地情况和实际需求从17孔到36孔不等,临时地块的信息管道80沟公里,各段管道约为5孔,信息井1000余个,弱电井3000余个,管道通畅和井盖完好的监控与维护工作是基础设施运维的基本工作之一。
通信机房:用于会期运行指挥和管理的联网信息化系统,较多且分布广泛,因此园区内专用机房达100余处、通信运营商永久机房10余处、运营商临时机房近百处,另外视各建筑体量和用途在场馆与配套设施、管理用房中设置1~4处弱电间。
由于大部分机房设置在临时建筑中,无法按规范的信息通信机房建设,考虑到世博园区临时建筑及其内配套设施的特殊性,我们配置了移动式空调和大功率风扇作为应急手段,购置了防汛物质应对梅雨、台风天气。因此相对机房内的机架、UPS、桥架走线而言,恶劣天气下的墙面渗漏水和环境更成为运行期需要重点关注的问题。
此外,园区内建设有13处移动通信宏基站,在园区的高架步道、出入口及人流密集区还建设了400余个移动通信街道站,这些移动通信设备的稳定运行将确保大客流时的通信畅通。
(2)网络设施
运营商通信网络:运营商的固定通信网、移动通信网、有线电视网等公众通信网络,延伸至园区各场馆、配套设施、出入口等区域,提供语音通信、传真、视频会议、高带宽数据传送和因特网接入、电子商务、IT代维等业务及信息亭、手机导游导览等园区各类信息服务,满足组织者、参展者、媒体记者、游客的个性化、全方位的通信需求。
专用通信网络:世博信息化应用系统的高可靠运行离不开通信网络,根据信息系统的差异化需求建设了业务专网、视频专网、商业专网,并为网上世博会提供可全球最大规模的CDN服务。园区专网覆盖全园区并按业务需求延伸至园区外,专网接入点达250处左右。
(3)终端设施
终端设施主要包括3500台摄像机、3200台扬声器及300台显示大屏、600多台票检机、预约机等设备,满足园区运行指挥对视频监控、场馆预约、信息发布、广播等系统需求。其中摄像机安装高度都在4m以上,部分安装高度甚至达到12m。因此,众多终端设备的巡检、维修、清洁,特别是高空作业带来工作量大、操作难度高等问题。
3 运维工作中的常态管理与应急管理
信息化基础设施是世博信息化应用系统安全可靠运行的基础保障,基础设施运维工作的周全、细致将能更好地演绎“信息技术助力精彩世博”。通信基础设施的常态管理与应急管理的有效结合,对园区平稳运行起着关键性作用。
3.1 常态管理
世博局信息化部是世博信息化运行管理的组织、协调、分析决策和保障机构,本着“谁建设,谁运营”的原则,各信息通信系统的建设和运营单位是信息化现场运行保障的中坚力量。鉴于信息化项目复杂程度高、关联性强、参建企业多、各专业之间不可替代性等特点,同时结合世博园区面积大、运行时间长、信息化服务对象多的状况,我们建立了中央和现场两级运维体制。其中,IOC(信息化运行中心)是信息化运行管理的中央指挥机构,在园区运行指挥中心领导下工作;现场运行保障团队则分布在各园区,是信息通信运行保障的执行团队。
信息基础设施的常态管理遵循信息化部总体原则,并重点考虑了以下几个方面的内容:
(1)岗位设置:在IOC设置管线、机房、网络、终端设施四类专业岗位,由专业保障单位(均为本项目承建方)的团队担当,信息化部的项目经理在综合岗位值班。现场运维工作通过在浦东、浦西园区设立的多处备品备件存放点,安排专业保障单位的技术人员值守,快速响应各类故障处置。
运维技术人员通过网管监控、现场巡检、日志报告、日间/夜间抢修等方式开展日常保障工作。为了使在岗人员更好地掌握信息化基础设施运行保障的目标、内容、范围、体系与分工、流程与机制,在各专业保障单位和世博局共同编制的《运维保障方案》基础上,我们还编制了《通信与设施设备运行保障工作手册》,工作内容、流程与分工界面等有效规范并指导了团队的工作。
由于信息基础设施各岗位工作具有关联性,为使团队之间有效配合,我们将园区信息基础设施的建设情况编制成知识库进行培训和日常查询使用,提高了保障工作的协同性。
(2)制度建立:由于世博园区184天无休、9时~23时开园,因此信息基础设施保障队伍根据现场情况分为三班二运转和四班三运转以提供7×24小时高质服务。为了不影响游客观展和参展方正常工作,开园期间我们主要执行网管监测、巡检及应急抢修,而设备维护保养(尤其是外场地登高、开井作业)可能引起网络或系统中断的维修、割接及根据运行管理需要的补充建设等大部分工作则均在夜间实施。针对现场工作条件欠缺、工作量大、协调面广的特点,我们购置必备物资、优化工作流程,并建立与各片区、场馆管理部及物业定期沟通机制。经过一段时间的团队及与其他团队的磨合,形成了权威、顺畅的组织指挥体系,建立了快速、有效的沟通协调机制。
3.2 应急管理
信息基础设施应急管理坚持“预防为主、重点保障”的原则,实现资源分配向重点工作、重点活动、重点场所倾斜,建立专家团队并充分利用成熟的技术手段、产品、经验和解决方案,对预警预测、预案管理、处置过程进行信息化支撑,满足对应急管理的计划性、可溯性和可操作。
(1)事件分级及预案
我们对事件性质和影响面两个因素,对事件进行分级,具体如表1所示。
表1
针对不同等级的事件,我们制定对应的应急方案,以信息发布系统的显示屏为例,Ⅰ级、Ⅱ级事件类别及应急方案如表2所示。
信息化机房的Ⅰ级、Ⅱ级事件类别及应急方案如表3所示。
3.3 案例分析
在试运行期间,世博园区专网某重要汇聚节点曾发生故障,导致局部区域网络及系统中断。由于事件发现及时,且故障判断迅速准确,通过重启设备暂时消除了故障,因此未对运行带来重大影响。随后,根据应急预案,我们启动了以下几项工作:
表2
(1)根据故障初诊结果,当天晚上闭园期间重启所有同类型网络设备,并采取临时性的技术手段确保故障在两周内不再复发,并通知各应用系统团队做好相关预案工作。
表3
(2)组织专家团队紧急会诊。由于该故障较为罕见,设备供应商调动了上海、北京、美国三方专家共同参与故障的深度分析和修复方案的讨论。
(3)修复方案未完成前,安排设备厂商的专家入驻世博园区信息化进行24小时值守。
三天后,厂商确认故障为软件BUG,一周后提供了修复方案。根据方案,我们组织力量利用夜间对网络进行升级,彻底解决了隐患。
4 结束语
从目前运行情况看,信息基础设施在“信息化助力成功、精彩、难忘的世博会”中扮演了重要的角色,发挥了突出的作用。希望由此积累的体会和经验能与信息基础设施领域的同行们分享,为今后中国的大型活动项目提供借鉴并推广应用。