水利信息系统运行保障平台研究与应用
2010-02-13周维续詹全忠
蔡 阳,周维续,詹全忠,付 静
(水利部水利信息中心,100053,北京)
近年,水利信息化迅猛发展,效益日益显著,已成为创新和提升水利工作的重要手段,促进了传统水利向现代水利、可持续发展水利转变。随着水利信息化的快速发展,水利信息系统规模越来越大,据初步统计,仅7个流域机构的信息系统资产就达10多亿元。以水利部机关为例,信息系统资产达5亿多元,运行的主要应用系统128套、网络设备513台 (套)、 服务器设备 206台(套)、终端计算机3 255台。如何有效地管理和维护现有的信息系统,保证其高效、稳定、安全运行,已成为摆在我们面前的一项十分紧迫而艰巨的任务。
为有效解决水利信息系统运行保障问题,水利部水利信息中心从2004年起,依托水利基本建设项目以及国家水利基金项目,组织开展了水利信息系统运行保障平台研究工作。自2006年起,这项研究成果就在水利部信息系统运行保障工作中得到了广泛应用,目前已在部分流域机构和省级水利部门进行推广应用。
一、系统组成
水利信息系统的运行保障是保障水利网络与业务系统正常、安全、有效的运行,其核心在于提升运维能力,保障信息系统稳定、高效运行。水利信息系统运行保障通过运行保障措施,实现对运行保障对象(信息系统基础设施和业务应用系统)的管理和服务,从而实现支撑保障水利信息系统,为水利专业人员、决策人员及社会公众提供服务,它是一套完整的体系。
运行保障措施包括:人员队伍、运行经费、运行保障平台、运作模式、标准规范、管理制度。人员队伍是指运行保障人员(包括技术人员、管理人员)以及人员培训等;运行经费指运行保障工作所需的各种费用,包括人员经费、运行材料动力消耗费用、维护维修经费及其他有关费用支出;运行保障平台是为运行保障工作涉及的监控监视、预测预警、维护操作、应急处置和安全管理等各项工作提供的技术手段和管理工具;运作模式是指运行保障工作的组织体系、角色分工、工作流程等;标准规范主要包括各类运行保障标准,是行业性的运行保障规范;规章制度是运行保障工作具体工作制度、守则等。其中:人员队伍、运行经费是信息系统运行保障工作的前提;运行保障平台是信息系统运行保障工作的技术支撑;运作模式、标准规范及管理制度是信息系统运行保障高效开展的基础。
二、平台功能
基于水利信息系统运行保障体系框架,利用自主研发的业务服务框架 (BSF) 及 业 务 信 息 管 理 模 型(BIMM)开发了水利信息系统运行保障平台。
水利信息系统运行保障平台主要包括采集监控层、支撑层、应用层和门户层等4个层次。
1.采集监控层
采集监控层主要是通过各类监控采集工具将水利信息系统运行所依赖的基础框架对象、业务对象的原始性能、告警、配置等数据进行采集,并通过整合工具汇聚到相应的支撑保障库,供运行保障应用系统分析使用。
监控采集主要包括机房环境设施监控、网络监控、主机监控、数据库监控及业务应用监控等,利用各种通用监控采集工具及独立开发的其他监控采集工具,通过TCP/IP、SNMP等协议,根据运行保障监控采集策略,实现对网络拓扑、故障、主机指标、业务应用、oracle/Sybase/sqlserver等主流数据库等的常用性能指标的采集及控制管理功能。
2.支撑层
水利信息系统运行保障工作繁杂,保障工具和应用系统众多,数据结构复杂。水利信息系统运行保障平台将水利信息系统运行保障的相关数据进行归纳分类,划分为七大类支撑保障库,包括运行库、人员库、规则库、策略库、预案库、配置库和标准库,支撑保障库的建立促进了应用系统之间信息共享,为运行保障应用协同提供了基础。随着时间的推移,经验的不断丰富,支撑保障库根据运行保障工作的需要不断丰富和发展,从而不断增强和完善平台功能。
3.应用层
(1)集中监控管理
集中监控管理子系统整合采集监控层各监控工具采集的数据,综合监视各系统的运行状况,包括信息系统基础设施状况及应用系统状况,进行统一的数据分析和显示,实现对水利信息系统中网络设备、主机设备、数据库、中间件等资源的统一管理,完成了拓扑管理、故障管理、性能管理、应用管理等方面的功能。
(2)服务管理
服务管理子系统主要完成信息系统运行保障工作的管理,将信息系统运行保障工作中人、流程、技术有机地结合起来,建立了一套先进的、科学的运行维护综合服务台。服务管理根据水利部信息系统运行保障工作的要求,实现了人员角色管理、岗位职责分配、故障管理、服务请求管理、问题管理、配置管理、变更管理、发布管理、服务水平管理、作业计划管理、人员绩效考核等功能。
(3)常规自动化管理
在信息系统运行保障工作中,有很多重复性工作,这些工作技术难度低、工作量大且易出错。平台建设自动化处置系统,代替人工重复性劳动,减少人为误操作导致的故障,提高运行保障效率。目前实现的自动化处理功能包括:自动值班及巡检,运行维护相关邮件及传真的自动处理,业务自动处理等。
(4)应急管理
在信息系统运行保障过程中,难免会发生由于设备自身故障、人为攻击或自然灾害等原因引起的各种突发事件,如果这些事件的处置不及时,往往会对信息系统造成重大影响。为此,我们编制了《水利网络与信息安全事件应急预案》,并在此基础上对网络系统、视频会议、数据库、应用系统等进行全面梳理,针对每个系统编制具体可行的突发事件应急响应专项预案,提高突发事件的应急处置效率。应急管理实现对各应急预案的电子化管理,并对关键应急处置措施 (包括环境故障应急处置、病毒爆发应急处置等)实现了自动化处理。
(5)安全管理
水利信息系统运行保障平台管理众多设备、集成众多监控管理工具,各设备及管理工具都有自身的身份认证系统。为实现集中管理,需要解决各设备、系统的统一认证及集中授权,以避免因账号管理不善引起信息系统的安全问题。该平台实现了运行保障基础设施、运行保障管理工具的统一认证和集中授权,提高信息系统运行保障工作的安全性。
(6)风险预警
风险预警主要实现对信息系统运行过程中可能发生的故障进行预警,提醒运行保障人员进行处理,及时消除故障隐患,以避免发生较大的信息系统事故。信息系统运行风险预警主要包括:预警指标的制定、风险监控、风险分析、预警发布等。
(7)运行评估
运行评估主要是对信息系统运行状况及运行保障工作情况进行总结评估,以提高信息系统运行效率和稳定性,提高运行保障水平。分析评估内容包括:应用系统业务效率分析、性能分析、绩效考核及故障统计分析等。
4.门户层
门户将运行保障平台所有的子系统及资源进行整合,根据每个用户的角色及使用特点,形成个性化的操作界面,实现了各运行保障应用的界面集成及单点登录。
三、作用和效益
1.作用
水利信息系统运行保障平台的效益主要表现在提高运行保障效率、水平和促进该平台所支持、保障的信息系统效益的发挥上。据不完全统计,应用水利信息系统运行保障平台后,系统年平均故障率降低了40%,故障恢复效率提高数倍,在运行保障的系统及设备连续翻番的情况下运行维护人员不但没有增加,反而有所减少,终端用户满意度有较大幅度提高,运行保障工作得到了用户的充分肯定。主要体现在:
(1)规范了信息系统运行保障工作
建立了一整套运行保障标准制度、运作模式、工作流程,并通过服务管理系统加以落实,有效地规范了运行保障工作,提高了运行保障工作效率。同时,通过规范管理,对水利信息系统进行精心的维护,大大降低了系统故障。
(2)实现了信息系统运行保障工作自动化
通过各种自动化手段,实现运行保障工作的自动化处理,极大地提高了运行保障工作效率,也减少了人为误操作造成的故障。水利部网站新闻投稿主要通过电子邮件方式,以往采用人工查阅方式,时效性差且易发生遗漏,采用自动化处理系统后,改由系统自动进行邮件分拣,根据预定的策略将邮件发送相关人员处理,并且监控处理过程,有效地解决了新闻编发不及时、遗漏等问题。
(3)实现了信息系统的集中监控
平台对各类已建的监控系统、管理工具进行整合,从业务应用的角度对信息系统进行统一监控、集中管理,提升监控能力,提高故障和故障隐患发现的及时性、准确性,减少故障的发生,降低故障造成的影响。
(4)建立了应急处置体系
制定了信息系统突发事件的应急处置预案,并实现自动化管理,实现了供电、空调故障以及病毒暴发等突发事件的自动应急处置,提高突发事件的应急处置效率,降低突发事件造成的损失。比如过去在病毒大规模暴发时,对中毒计算机的定位、隔离及病毒清除需要耗费大量人力和时间,在 2000年“冲击波”病毒暴发期间,就花费了10余人处理了一周的时间,对信息系统造成较大影响。该平台建成后,根据信息流量的突然变化,可以自动定位中毒计算机,并自动进行隔离,再也没有发生因为病毒导致系统瘫痪的事件。
(5)加强了安全管理
建设了统一认证系统,加强了运行保障的安全管理,实现信息系统基础设施管理账号的统一管理、账号口令的定期自动更新、管理人员权限的统一分配、运行维护操作的审计等,增强了信息系统的运行安全。
(6)全面掌握了信息系统资产状况
建立了全面的配置管理数据库,对信息系统相关硬件设施、软件环境、文档等进行全面的管理,并建立相互之间关联关系,为做好信息系统的运行保障奠定基础,也有利于促进信息系统资源的共享和合理利用。
(7)实现了运行保障经验积累和共享
建设了支撑库,运行保障工作过程中的各种经验都可以积累下来,并进行共享,提高了运行保障水平和故障处理效率。
2.效益
通过水利信息系统运行保障平台,水利信息系统运行得到了很好的支撑和保障,充分发挥了作用,取得了显著效益。
(1)保障了国家防汛抗旱指挥系统的可靠运行
①保障了系统的可靠运行。应用运行保障平台以来,国家防汛抗旱指挥系统从未发生重大故障,一般故障能及时有效处置,未造成影响,有力支撑了防汛抗旱工作的开展。
②提升了信息的及时性、准确性。平台的应用使得防汛抗旱信息30分钟内到达率从2004年的73%提高到2006年的94.8%,错误率从2.5%降低到0.21%。
③显著提高了防汛抗旱指挥决策的科学性。平台有力支撑了防汛抗旱应用系统的稳定、高效运行,为防汛抗旱指挥决策提供科学手段。
(2)保障了异地会商视频会议系统的稳定运行
自水利信息系统运行保障平台运行以来,异地会商视频会议系统的准备时间从一周到现在可以随时召开,视频会议系统未发生过事故;在平台支撑下,可以快速、稳定进行多部门、多人员的视频会商,提升了防汛抗旱会商指挥决策的科学性和及时性。因其使用便捷、效果良好,越来越多的会议采用视频会议方式召开,据不完全统计,自2006年以来累计召开会议700余次,参加会议人数达25万人次。
(3)保障了水利部电子政务系统的运行
①保障了系统安全稳定运行。在运行保障平台的支撑下,水利电子政务系统未发生重大故障(电力等外部环境导致的停机除外)和安全事故,系统运行安全、稳定,有力地支撑了水利工作的开展。
②提高了工作效率,降低了成本。在平台支撑下,系统运行高效、稳定,数据安全可靠,2008年水利部全面实现无纸化办公,全年利用电子政务系统办理各类公文41 016份,处理其他信息79595条。
(4)保障了水利部网站的运行
①发挥了窗口作用。在平台支撑下,水利部网站运行稳定,信息更新及时、准确,响应快速,吸引了众多用户访问,仅主站每日平均点击数达130万。特别是在2008年抗震救灾期间,在第一时间全面准确地对水利抗震救灾信息进行了权威发布,搜狐等主要门户网站引用水利部网站信息。
②有效应对了外部攻击。自平台运行以来,水利部网站未发生安全事故。特别是在2008年北京奥运会期间,通过运行保障平台,及时发现并应对了多起黑客攻击事件,保障了网站安全运行。
水利信息系统运行保障平台是多年水利信息系统运行保障研究取得的重大成果,并在近年的实际工作中得到应用,为提高防汛抗旱指挥决策水平和行政效率作出了贡献,下一步将加大平台的推广力度和应用范围。
[1]水利部信息化工作领导小组办公室.2008年度中国水利信息化发展报告 [M].北京:中国水利水电出版社,2009.
[2]水利部水利信息中心.全国水利信息化规划[R].2003.
[3]蔡阳.加快水利信息化重点工程建设,为发展民生水利提供信息化支撑和保障[J].中国水利,2008(23).