使用IT运行监控系统保障医院信息系统的高可用性*
2015-03-13孟晓阳郭杰峰
孟晓阳 郭杰峰
(北京协和医院信息管理处 北京 100730)
使用IT运行监控系统保障医院信息系统的高可用性*
孟晓阳 郭杰峰
(北京协和医院信息管理处 北京 100730)
以一所三级甲等医院的附属院区为例,分析该院区信息系统对高可用性的需求,从机房环境、网络、服务器和存储设备、数据库、客户端、监控与报警几个方面,介绍信息系统运行监控系统的设计思路和应用情况。
IT运行监控系统;医院信息系统;高可用性
1 引言
随着医院信息化建设逐年深入,应用范围越来越广,配套的服务器网络设备也越来越多。IT设备的快速增长,使信息系统的管理面临很大的运维压力,传统的人工巡检排错的方式,已经无法满足业务系统高可用性的需求。有调查显示,在近年来发生的医院信息系统宕机事故中,因故障不能及时发现和排除而导致的UPS起火、空调宕机、数据库崩溃等情况占据很大比例。医院信息系统是一个数据量大、数据类型复杂、事务并发多的实时系统,由于医院业务的特殊性,任何人为或自然因素所导致的应用或表现中断,都会造成巨大的经济和名誉损失以及严重的法律后果。医院信息化水平越高,对计算机系统的依赖程度越高,如何保障医院信息系统应用服务的高可用性以及数据安全,保证系统持续正常运行是目前急需解决的一个重要问题。在银行、电信等行业的IT部门里,已有采用综合网管、温湿度监控、智能仪表数据采集等对IT资产进行一体化监控的经验。借助监控工具自动对IT基础设施进行数据采集、状态监控和性能分析是提高信息系统高可用性的有效手段。
2 需求分析
本文所提到的应用环境是一所三级甲等医院的附属院区,具有独立的机房、网络和应用系统。整个信息系统包括70余台服务器和存储设备、600多个网络客户端和近30个来自不同厂商的临床应用系统,运行环境复杂。负责日常运维工作的工程师只有5人,分别负责机房网络、服务器数据库、应用系统和安全管理,还要承担7×24小时的值班任务,工作繁重。该院区主要服务于高端人群,虽然日常业务量不大,但挂号、就诊、检查、取药各个环节均依赖信息系统支持,一旦信息系统故障,造成患者无法顺利就医,将对医院的经济和声誉造成不利影响,所以对系统可用性有极高的要求。基于以上原因,设计实施一套IT运行监控系统,帮助信息部门进行运维管理,从技术层面提高医院信息系统的可用性是很有必要的。
3 系统设计与功能实现
3.1 概述
高可用性就是指IT服务可以最大限度地减小或掩盖IT组件故障对服务用户的影响[4]。用户并不关心是否有IT故障,而只关心在其使用的节点信息系统是否可用;也就是说,保障信息系统的高可用性并不是完全避免IT组件本身的故障,但可以通过IT服务的手段,最大限度地减小故障对用户的影响。医院信息系统的运行环境包括机房、网络、服务器、数据库、客户端5部分,其关系,见图1。图1说明了两个问题:(1)下层的运行环境为上层的运行环境提供支撑。(2)作为用户界面的信息系统客户端位于最上层。因此,当下层的运行环境出现问题时,将逐层向上产生影响,如能及时发现和处理,就可以消除隐患,从而避免事故隐患蔓延到用户界面,减少造成业务中断的几率。
图1 医院信息系统运行环境
3.2 机房环境
3.2.1 配电系统 配电系统包括市电供应、不间断电源和发电机3部分。对市电供应应监控电能质量,主要指标包括开关状态、电流、电压、有功功率、功率因数、谐波含量[2]。不间断电源的主要监控指标为:监控输入和输出功率、电压、频率、电流、功率因数、负荷率;电池输入电压、电流、容量;同步/不同步状态、不间断电源系统/旁路供电状态、市电故障、不间断电源系统故障;监控蓄电池的电压、阻抗和故障[2]。对发电机系统应监控油箱(罐)油位、柴油机转速、输出功率、频率、电压、功率因数[2]。
3.2.2 环境温湿度 对空调系统应监控开关、制冷、加热、加湿、除湿的运行状态;相对温度、相对湿度、传感器故障、压缩机压力、加湿器水位、风量设置阀值,超出报警[2]。在空调、水管、窗户等易产生水源泄露的部位,应安装漏水感应装置并监控其状态。对机房环境,应监控房间各区域以及机柜内部的温度、湿度数据以及变化趋势。
3.2.3 消防系统监控 应监控消防控制器、烟感探测器、温感探测器等消防设备。机房内应有气体灭火设备并与消防系统联动,当有消防报警产生时,及时采取相应的控制措施,如开启门禁、切断
电源、启停相关设备等操作。
3.2.4 安防系统监控 包括门禁系统、闭路监控系统、入侵检测系统等。通过门禁系统进行人员出入控制,可采用读卡或密码方式进行身份认证,监测门的开关状态,记录开门的时间、卡号,远程控制门的开关。安装半球摄像机监视人员进出以及设备状况,采用数字硬盘录像机保存数据。
3.3 网络
3.3.1 网络拓扑 网络管理员可以直观地查看网络逻辑拓扑图和网络物理拓扑图,及时发现网络的逻辑和物理问题。拓扑图通过使用不同的图标来表示不同网络对象,用不同的颜色来表示不同的设备运行状况。通过网络拓扑图上数据和信息,管理员可以很及时地了解到网络运行健康情况。
3.3.2 故障管理 网络故障通常会影响到特定的区域或信息节点,当用户反映计算机访问相应的业务缓慢或网络中断时,网络管理员一般需要从网络的不同层次(如链路问题、设备问题、路由问题和网络拥塞情况)排查问题。采用了运行监控系统可以通过定时轮询和接收Trap两种方式监控设备运行状况,当网络设备中断或流量超过阀值时,可以通过短信、邮件、报警灯等多种方式将报警信息发送给网络管理员,节省故障排查时间。
3.3.3 性能管理 在实时显示网络运行状况信息的同时,运行监控系统可以将这些运行数据(如设备CPU、内存利用率,设备各端口出入流量、平均包长及丢包、错包率等)记录下来,用于以后的数据分析。通过历史曲线比对、TOPN数据分析等手段,可以了解设备的利用情况以及网络性能的瓶颈。
3.3.4 安全管理 通过事先设置好的资产清单运行监控系统可判别哪些网络终端设备是合法接入的。一旦有终端设备未经允许接入网络,就可以进行阻断并报警,严格控制网络边界;也可结合各个厂商的接入访问控制阻止客户端的非法接入,例如H3C的EAD和微软的NAP方案。
3.4 服务器和存储设备监控
3.4.1 运行监控系统 对于一个庞大而复杂的医院信息系统体系而言,如果不借助工具,进行服务器巡检将是很大的工作量。运行监控系统可以提供一个统一的界面,让系统管理员一目了然地了解到各台服务器的运行状况,而不用逐台对服务器进行巡检。监控服务器性能最主要的3个指标是CPU利用率、内存利用率和文件系统使用率。系统管理员应经常对以上指标的历史数据进行分析,如有利用率过高的情况,应分析应用场景,及时处理。除此之外,日常运维中还应重点关注服务器的通断状况和网络时延;如果操作系统日志中有异常信息应进行分析和处理;对于建有集群的服务器,还应监测集群服务地址、获得接管地址、Cluster节点状态等。
3.4.2 SNMP与MIB 和网络设备一样,绝大多数的存储设备和磁带库都支持简单网络管理协议(Simple Network Management Protocol,SNMP),SNMP是应用最为广泛的TCP/IP协议,采用Server/ Client的模式,通过管理端与SNMP代理间的交互工作完成对设备的管理。管理信息库(Management Information Base,MIB)包是设备厂商对设备信息的定义库,可以从设备代理商处获取,MIB包以文本形式保存树状的代码信息,每个分支代表一种类型的统计信息或状态信息,通过SNMP代理可以响应SNMP管理端关于MIB信息的各种查询,如get, get-next, set等。被管设备还可以通过TRAP包的形式主动向管理端发送紧急报警信息,从而实现对存储设备和磁带库的监控。
3.5 数据库
维护数据可靠安全是保证信息系统高可用性的最终目的。进行数据库的调优和管理数据备份是DBA的主要职责。对数据库的监控主要关注可用状态、性能和空间容量3个方面。可用状态是指被监控的数据库是否能正常访问,特定进程或服务是否状态正常;性能指标包括连接数是否过大、读缓存命中率是否过低、写缓存命中率是否过低、死锁数量是否过大、回滚数是否过高等;空间容量是指监测表空间和数据文件的大小、状态和使用率、数据库碎片比率等。以Oralce数据库为例,在实际工作中监控了以下指标:(1) Session数。(2)后台进程状态(SMON、PMON、DBWn、LGWR、CKPT等)。(3)PGA状况(内存争用比、PGA使用率、PGA命中率)。(4) SGA状况(Buffer Cache命中率、库缓存命中率、数据字典命中率、共享池命中率、回滚段争用比)。(5)表空间利用率、日志使用情况。
3.6 客户端
虽然单点故障不会影响医疗业务的正常运行,但对于重要的客户端节点,可以采用拨测的方式监控其运行状态。如在实际工作中,笔者对遍布院区的导医自助设备进行了监控。导医自助设备是唯一直接给病人使用的信息系统,但因处于公共区域,常处于无人管理状态。通过运行监控平台每10分钟对终端设备进行一次PING操作,结合远程桌面管理软件进行日常管理,取得了不错的效果。除此之外,客户端作为IT资产,分布于院区各个科室,不易管理。可以通过IT运行监控定期进行拨测,监控其使用状况,为资产清查提供辅助手段。
3.7 监控与报警
在信息部门的办公区设置监控大屏,播放IT运行监控系统的运维门户视图,集中显示信息系统整体运行状况,包括IT资产统计、报警列表、机房环境监控图、服务器位置及拓扑、全院网络拓扑、数据库状态、应用系统定期作业执行情况等。当IT运行监控系统收到Snmp Trap报警信息或检测到超过了预先设定的阀值时,会通过短信模块向管理员手机发送短信报警,同时监控大厅的报警灯闪烁并蜂鸣报警,运维门户的拓扑图上标示出故障位置。故障等级设为3档,正常、提醒和警告。系统通过拨测自检,确保自身运转正常;当发现异常数据但不影响系统正常使用时生成提示信息;当判断故障需要紧急处理时显示为警告。
4 结语
信息系统运行监控系统投入使用以来,既减轻了信息中心运维人员的巡检压力,又可实时全面地掌握信息系统各个环节的运行状况。在几次硬件故障发生时,均能及时报警,未造成进一步的事故。通过对历史数据分析,还可以再现事故发生的过程,排查类似隐患,避免同类情况再次发生。同时笔者也意识到,在IT运维管理方面需要人防和技防并重,技术只是辅助手段,如果IT运维人员责任心不强,不能重视并及时处理报警,IT运行监控系统也不能发挥作用。另一方面,对报警参数的配置是一个动态调整和完善的过程,需要在使用过程中,尽可能将所有软硬件报警信息都纳入其中,根据实际情况调整阈值,持续改进。
1 孟晓阳.医院机房改造四大建议[N].计算机世界,2011-04-18(32).
2 中华人民共和国住房和城乡建设部.电子信息系统机房设计规范[M]. 北京:中国计划出版社,2009.
3 全国信息安全标准化技术委员会.信息安全技术 信息系统灾难恢复规范[M].北京: 中国标准出版社,2007.
4 TSO.ITIL V3 服务设计[M].英国:英国商务部,2010.
5 孟晓阳.基于ITIL理念的医院IT运维模式改进[J].中国卫生质量管理,2013,20(6):94-96.
6 沈碧飞.在医院服务器虚拟化环境中构建存储性能测试平台[J].医学信息学杂志,2014,35(2):34-38.
7 肖革新,周立平,王俊玲,等.基于三维模型的疾控数据中心运维管理体系建设与实践[J].医学信息学杂志,2012,33(4):21-25.
8 肖革新,张烨,张睿,等.公共卫生数据中心安全保障体系建设与思考[J].医学信息学杂志,2012,33(2):13-17.
9 肖革新,张睿,马家奇.中国疾控中心IT运维管理平台设计思路[J].医学信息学杂志,2011,32(8):15-19.
10 张睿,杨永明,于萌,等.公共卫生数据统一采集交换平台[J].医学信息学杂志, 2013,34(12):6-10.
Ensuring High Availability of Hospital Information System Using IT Operation Monitoring Syste
MENGXiao-yang,GUOJie-feng,
DepartmentofInformtion,PekingUnionMedicalCollegeHospital,Beijing100730,China
Taking the affiliated hospital area of a three level first-class hospital as an example, the paper analyzes the demands for high availability of the information system, introduces the design idea and application status of operation monitoring system from the aspects of computer room environment, network, server and storage device, database, client, monitoring and alarm, etc.
IT operation monitoring system; Hospital Information System (HIS); High availability
2014-09-25
孟晓阳,硕士,软件工程师,发表论文10篇。
国家高技术研究发展计划(863计划)“数字化医疗医院流程研究及应用示范”(项目编号:2012AA02A613)。
R-058
A 〔DOI〕10.3969/j.issn.1673-6036.2015.02.005