检验检疫信息化运维风险管控体系的研究与建设
2015-01-14田建荣宋琳琳刘元臻王宏志
田建荣 宋琳琳 刘元臻 王宏志
(山东出入境检验检疫局,山东 青岛 266001)
0 概述
随着信息化的不断推进,电子应用系统及网络线路不断增多,我局运行了包括总局下发和省局自行研发的针对“三大平台”需求的多种信息化应用系统,系统与系统之间的数据交互机制越来越复杂,系统的软、硬件构建复杂程度高、分布范围广,日常应用维护工作变得十分繁重。所以如何尽快从人员、技术和流程三方面进行全面设计规划,建立高效的运维风险管控手段,保障出入境检验检疫局信息系统的稳定运行就变得至关重要。
我局希望通过建设“信息化运维风险管控体系”,把“电子业务平台”、“电子内务平台”、“电子服务平台”这三大平台涉及到中山路2号及瞿塘峡路70号机房的机房环境、网络线路、电子应用系统及服务器、虚拟机全部纳入运维风险管控中,通过提供方便快捷的管理手段,即通过先进的技术手段对各种应用的使用情况实时的监控和分析、检测系统的运行状况,对故障能及时预警与报警并能制定完善的维护管理、处理流程等;使电子应用系统、网络线路等能够在受控的状态下运行,保障检验检疫业务流畅、平稳、高效地运作,并为将来的电子应用系统优化升级提供有益的参考数据。
1 国内外对信息化运维风险管控体系的研究现状
到目前为止,国际上的一些信息化运维风险管控体系在管理模式上与我们的要求存在较大差异,无法直接引用;系统内对信息化运维风险管控体系的的研究与应用不多,且并不全面和系统,行业内个别兄弟局对信息化运维风险管控体系的研究只是局限于机房环境监控、网络监控,数据库监控等某一方面,缺乏ITIL最佳实践和自动化理念,水平不是很高。经过对各兄弟局进行详细调研,总结归纳如下共性问题:
(1)运维平台不完善。我局及系统内部分局的信息化监控平台虽然已可以监控机房环境、网络线路等方面,但没有对机房环境、硬件设施、软件平台及应用系统的全方位、全时段的主动监控,没有建立统一的运维风险管控平台,在整个运维流程、处置还缺乏规范化管理。
(2)复杂IT环境中,故障难以定位,基本靠后台人工完成,处理效率低;难以定量分析系统性能,识别潜在瓶颈以降低风险等。
因此,比较全面的信息化运维风险管控体系未有先例。无法满足目前复杂机房环境、网络线路、应用系统及软硬件设备的运维风险管控的要求。
2 信息化运维风险管控体系的研究与建设
信息化运维风险管控体系的建设我们着重从风险管控方面以及从平台的高扩展性、实用性和高效性以及安全性等几个方面进行研究。
2.1 风险管控方面
目前信息化运维管理中风险管理理念缺乏科学性,风险分析模式化、数字化、信息化程度不高,量化指标的风险模型非常缺乏;我们应积极探索建立以风险评估为基础的质量安全风险分析管控体系,逐步形成“预防胜于治疗”的风险管理理念,我们希望据此利用信息化手段在机房环境等方面进行风险数据采集并根据应用系统的重要性进行分级设置,在发生问题根据优先级别通过短消息、电话、E-mail等不同手段通知相关人员采取不用的应急处置措施及时处置。实现对机房环境、网络线路、相关应用系统及软硬件设备的可控、可管、可查,从而提高质量风险管控能力。
2.2 平台的高扩展性、实用性和高效性以及安全性方面
2.2.1 高扩展性
运维风险管控平台要求灵活的配置方式,能将其管理范围扩充到多个业务中,并逐步发展成为全面的IT管理平台。第一,软硬件配置需要具备可伸缩及动态平滑扩展能力,通过系统框架和相应服务单元的配置,适应业务量的变化。第二,系统架构应建立在开放的应用支撑体系结构之上,以便于扩展。通过开发或购买相应的适配器接口,即可整合其他业务系统、不断加入对新应用的管控。第三,IT系统管理应具备开放的API接口,应具备良好的开放性和对标准的支持能力,遵循相关标准。应采用模块化设计,确保良好的可扩展性和可伸缩性。
2.2.2 实用性和高效性
运维风险管控平台需要直接服务于运维的一线工作人员,系统监控的实用性是建设的出发点,具体如下:第一,提供直观易用的使用界面和策略定义工具,以及各种功能操作方式的一致性,部门领导及管理人员可以很方便地获取所关心的监控对象的状态、故障及性能信息。第二,提供基于Web的浏览界面,以便于IT管理人员能够在任意地点通过Internet浏览器管理系统,并能够生成HTML格式的报表。第三,提供对机房环境、应用服务器、业务应用系统进行实时的监控,当上述系统出现故障的时候,能够及时地反应到控制台;此外,在不影响正常工作的情况下,根据运营监控和管理系统所采集的数据,进行趋势分析预测,在出现问题之前解决问题,能从被动处理向主动预防转变,以避免故障的发生。
2.2.3 安全性
建成后的运维风险管控的综合安全体系应体现在以下方面。第一,拥有完善的身份认证和授权;第二,与应急处置措施建立一一对应关系,提升处置的有效性和及时性;第三,具备数据备份与灾难恢复等技术措施;第四与安全软件、设备、服务和安全管理结合,形成高效、协同的信息安全服务体系。
信息化运维风险管控平台建成后,拓扑示意图如图1。
图1
3 信息化运维风险管控体系研究技术方案方面
信息化运维风险管控平台结合ITIL最佳实践和自动化理念,将支持跨平台、多厂商异构环境统一监测 ;平台将基于J2EE技术开发,可跨三大平台部署,系统支持多级部署模式,以满足全省运维体系大集中的需求。所有功能模块并非简单集成;系统采用B/S和C/S相结合的技术架构,全中文管理界面。有完善的用户管理功能,不同角色的用户拥有不同的管理监控权限及相应界面,所见即所得,支持分级权限管理。
平台主要是风险监控管理。包括:
3.1 机房环境监控
可实时采集UPS的数据;包括主输入电压、主输入线电压以及负载的电压和频率、电池的电压、电流等各种UPS重要参数;点击报警信息,进入报警信息界面,当有UPS报警时也会自动弹出该界面,显示报警装态。可实时采集空调的温湿度、显示模块的运行状态,还有报警的信息。
3.2 网络线路监控
对网络中第四层的流量进行分析,提供完整的统计分析功能,包括网络流量实时监控、超量警示、流量分析、告警历史记录回放。提供了图形化显示、数据表格、文件输出等多种信息交互界面。
3.3 服务器及操作系统监控
支持IBM、HP小型机、主流PC服务器的监控和管理,包括AIX、HP-UNIX、LINUX、windows操作系统的监控和管理,同时也支持虚拟化主机的监控管理,包括物理实体主机及虚机的性能指标。可基于SNMP、syslog、ssh、telnet等多种采集指标方式。
3.4 数据库监控
支持对系统中的 ORACLE、SYBASE、SQL SERVER、DB2、My SQL等主流数据库进行监控及管理。能够数据库的实时性能运行状况、各种性能指标进行监控,以保证数据库的正常运作。
3.5 中间件及应用监控
监控中间件及WEBHTTPFTP关键的运行状态和性能。涉及的产品 WEBLOGIC、 TUXEDO、 WEBSPHERE、 MQ、 TOMCAT、 JBOSS、EXCHANGE等
3.6 业务应用监控
支持目前总局下发的CIQ2000主业务系统、统计业务系统、出境电子监管系统、入境境电子监管系统、集中审单系统、电子报检业务系统、电子转单业务系统、统计日报送系统、通关单联网核查系统、口岸内地联合执法系统、入境废物原料业务系统、报检员、报检单位系统、进出口企业诚信管理系统,同时可以对省局自主开发的应用系统进行定制开发。
3.7 告警模块
接受监测范围内的故障告警信息,系统能自动接受来自系统自动巡检和被管系统主动发出的告警信号,并对告警事件进行过滤和归类处理。
告警触发支持文字、声音、短信等方式告警,通过短信平台,可以提供与用户现有短信网关互通,实现告警手机触发功能。
4 结论
通过建设一套信息化运维风险管控平台,该平台可以实现将我局机房环境、网络线路、“三大平台”核心应用的运行状况及性能进行数据自动采集、数据综合分析、事件关联分析、应急决策反应;实现对IT系统中的各种关键主机 (Windows平台、Linux平台、AIX平台等)、关键应用服务(通讯机、数据库业务、中间件等)以及关键容灾备份系统等资源、性能、故障的实时监管,并分别通过不同门户,将系统资源运行状态信息通过可视化的、动态直观的方式展现给IT管理者,为整个IT系统的安全、可靠、有效运转提供技术保障和决策支持,最终达到统一管理的目的;实现完善的故障管理与报警机制,方便IT管理者可以在最短时间内找到问题的根源,并迅速排除故障。
[1]刘腾红.信息系统分析与设计[M].北京:科学出版社,2003:1-60.
[2]刘志峰.软件工程技术与实践 [M].北京:电子工业出版社,2004:52-67.
[3]L eszekA.Ma eiaszek著.金芝译需求分析与系统设计汇编[M].北京:机械 I业出版社,2003:60-80.
[4]国家质检总局信息中心.CIQ2000综合业务系统技术手册[Z.
[5]张折,刘敏三层体系结构在学生管理系统的实现[J].商丘职业技术学院学报,2004,3(3):41-43.
[6]李干池 数据挖掘预测技术在CIQ2000中的应用[J].检验检疫科学,2008.
[7]Khawar Zaman AhmedC安如意E.Umrysh.用J2EE和UML开发Java企业级应用程序 [M].康博,译.北京:清华大学出版社,2002:60-80.