APP下载

浅谈医院IT集成监控管理平台的解决方案及应用

2014-03-04陈展钦罗远梅马丽明

现代医院 2014年1期
关键词:中间件运维监控

陈展钦 罗远梅 马丽明

随着市场经济的发展,科学信息技术已日益成为提高医院科学管理水平、医疗服务质量和医疗工作效率的有效手段[1],医院信息化运维也随着建设发展而日益复杂化,给医院管理者、硬件、软件运维工程师的工作增加了复杂性,给医院信息化运维提出了前所未有的挑战。

1 医院IT运维面临的挑战与问题

医院IT运维面临的挑战:医院业务对IT依赖性在不断加强,医院信息化程度提高、基于IT技术的医疗业务不断创新;医院7×24可用性需求:医院业务的特殊性,决定了医院信息系统必须满足随时随地的服务请求;日趋复杂的医院IT系统技术架构,一项简单应用穿越多个资源层面,故障诊断和恢复变得越来越困难;持续增长的医院IT运营成本压力。

医院IT运维管理的现状:“以资源为中心”监控运维模式,即不同的维护工程师负责某一部分的医院信息系统运维工作,由于分散性模块化管理,浪费了人力资源与降低了工作效率。

医院IT运维中的几个常见问题,也制约着医院信息化的建设与发展;资源不足:医院IT运维投入跟不上IT规模的增长、IT复杂性变化永远快于IT人员成长、IT日常运行维护工作占据大量时间、IT运维知识转化、传递和共享不足;被动响应:70%的故障是终端用户首先发现的,存在监测盲点,缺乏故障预警能力、主动监控机制;监控孤岛:缺乏统一集中的监控管理平台,无法直接洞察全局,无法快速定位用户问题根源;面向设备:无法建立IT资源与业务之间关联、与业务部门之间缺乏非技术性沟通界面、不能准确判断事件对业务的影响,等等。

2 医院IT集成监控管理平台的意义

医院IT集成监控管理平台,应以医院业务应用监控为重点和主线,并涵盖支撑医院业务应用正常运作之IT基础架构的各个部件,以最终实现医院业务应用健康状况全方位监控平台[2]。监控范围应分为两个维度,纵向为网络、服务器、数据库、中间件和应用系统5个层次,并可扩展到业务运作健康状况监控,横向为可用性、性能、资源、安全和异常错误5个方面监控内容。

在日常发展复杂的医院信息化建设中,医院IT集成监控管理平台能为医院带来几个层面的效益;业务负责人:与IT技术人员有了共同视图,提高了沟通效率,帮助确定问题优先级别,确保医院关键业务可用性;应用程序负责人:加快问题定位速度,减少宕机时间,缩短故障恢复时间,在用户受影响之前检测到潜在问题,提高医院各业务部门的满意度;IT支持人员:协助发现故障隐患,快速定位问题根源,了解IT事件的业务影响,正确安排工作优先级;主动发现故障隐患,确保IT基础架构和服务的稳定运行。

3 一种行之有效的解决方案

基于医院IT运维面临的挑战和问题,业务的高速发展,迫切地需要我们提了一个行之有效的解决方案,该方案必须满足以下几个需求:医院IT资源监控,满足标准设备和平台的监测能力;业务服务监控,满足标准服务探测,具有强大的非标服务定制能力;满足按照业务和管理的需要[3],灵活组织监控视图,方面日常监控管理。

3.1 技术框架

服务端:Linux服务器+Mysql数据库+监控分析外挂,三者整合为一台硬件引擎,方便快速部署与管理;终端:根据采集需要部署探针或代理;实现从“面向设备”到“面向业务”的运维理念转变,业务服务建模、实现IT与业务关联,服务影响分析、服务可用性报告;实现从“被动运维”到“主动运维”的运维方式转变,主动服务侦测,全面消除监测盲点,故障主动预警,真正做到防患于未然;实现从“分散监控”到“集中监控”的管控模式转变,消除监控孤岛、集中事件管理、统一服务视图。

3.2 监控对象

网络设备:监控应全面管理支持SNMP协议各个网络设备厂商,监控设备类型包括交换机、路由器、防火墙、负载均衡等设备,监控内容包括设备可用性(ping)、端口流量、端口使用率、内存使用率、CPU使用率等。

主机/操作系统:监控应从多个方面对服务器硬件资源和操作系统进行监控管理,监控内容包括非法登录监测、存储空间监测、CPU负载监测、物理内存监测、交换区空间监测、IO负载监测、集群状态监测、指定进程监测和系统日志监测等。支持 IBM AIX、Windows、Unix、Linux、Red Hat等多种操作系统。

数据库:监控从可用性、性能、占用资源、安全事件和异常错误等多个方面对数据库进行全面监控,如响应时间监测、连接进程数监测、连接客户端监测、指定进程监测、长事务监测、锁监测、进程回滚监测、数据库空间监测和数据日志监测等。支持 ORACLE、Sybase、DB2、SQL Server、MySQL等多种数据库。

中间件:是位于网络、操作系统和数据库之上和应用系统之下的一种独立的系统软件或服务程序,常见的中间件类型有交易中间件、消息中间件、RPC中间件、应用服务器和WEB服务器等。监控应支持各种常用的中间件软件监控,如 WebLogic、WebSphere、Jboss、Tomcat、Apache、IIS、Exchange Server等。中间件监控应从可用性、性能、占用资源、安全事件和异常错误等几个方面对中间件进行全方位监测,如Apache监测内容包括服务进程监测、负载监测、请求监测、闲置监测、内存使用情况监测和数据库连接监测等信息。

3.3 功能要求

针对医院信息系统运维存在的种种困难及产生原因,我们迫切需要一款比较优秀的监控平台,该平台需具备以下功能和特性。

3.3.1 监控管理 覆盖常见资源监控模型,网络设备、主机、数据库、中间件、应用;支持服务主动模拟侦测,网络服务:ping、fping、ftp、dhcp、dns、telnet;邮箱服务:pop、smtp;数据库服务:jdbc、odbc;WEB服务:http、https;支持快速创建监控模型,支持个性化的监控模型创建,实现医院不同个性化的定制;支持代理和非代理采集,支持轻量级、低智能、采集时不需知道账号和密码、二次开发能力强的代理采集;支持各类 IT 标准如 SNMP、Telnet/SSH、WMI、JDBC/ODBC、JMX、API的非代理采集,两种方式提供的监控数据来源,保证监控结果的准确性。支持可视化展现:对海量数据要有深入的洞察力,对信息整合要有全局观、提供“仪表盘化”的高智能性可视化、操作的易用性。

3.3.2 事件管理 故障根源分析:基于采集依赖、基于业务依赖,从而快速准确定位故障的根源。

衍生事件屏蔽:消除告警风暴,避免由于风暴的产生而影响正常的业常。

基于规则的事件处理引擎:包括事件过滤、丰富、压制、关联及升级;事件过滤,对严重级别低或运维不关注的事件进行过滤;事件丰富,为事件后续处理提供添加必要信息,以帮助理解事件背景、提高事件管理效率和便利服务管理;事件压制,用来处理重复发生事件,以减少事件数量;事件关联,事件清除、因果关联;事件升级,调整事件严重性级别以提醒运维工程师尽快处理该事件。

3.3.3 服务影响管理 通过创建并维护服务模型、关联和处理服务组件相关事件,为医院IT运维工程师提供服务影响分析,帮助医院实时了解问题对服务的影响、快速定位问题根源和辅助确定解决问题优先顺序。

3.3.4 监控结果查询与处理 根据不同的管理需要,可以按“管理视图”、“设备视图”、“业务视图”和“自定义视图”,“KPI视图”进行分类,不同的分类满足不同权限监控需要。

3.3.5 告警管理 根据日常告警,可提供“邮件报警、短信报警、桌面报警、声光报警、显示屏管理”等多种方式的告警;而从方便告警处理、报警日志查询等,加快信息的主动告警,使运维工程师主动解决监控故障,降低系统的风险及提高医院的服务水平与满意度。

3.3.6 报表管理 CUP负载监测变化趋势分析报表,提供决策支持,如采购、更换设备、优化升级软件。

3.3.7 权限管理 提供单位用户管理、角色用户管理、角色权限管理、用户组管理等不同等级的权限管理。

4 应用效果

基于以上几点,在医院相关领导的重视及部门的大力支持和紧密配合下,我院与某公司合作,结合我院的特点二次开发并共同实施了一款面向业务的医院IT一体化监控平台软件,从2012年7月完成立项,经过业务调研、设计开发,于2012年10月完成投产,提供给各相关业务管理人员,经过半年的运行,系统运行效果良好,达到了项目的技术规范要求。

该平台软件集成了IT基础架构监控、事件管理、服务影响管理、告警管理和报表管理等功能模块,其监控范围覆盖了医院业务所依赖网络、服务器、数据库、应用和服务等各种IT基础设施,监控内容涵盖了可用性、性能、资源、安全等各个方面的监控需求。通过其内置的图形化的服务建模工具,医院可快速创建各种业务服务模型来实现业务与IT资源之间的动态关联,帮助运维工程师了解在IT基础设施出现问题时对医院业务的影响和在业务出现问题时快速定位问题根源,从而为医院提供一种以业务为主线的整体监控运维模式,以确保IT基础架构稳定运行和医院业务的持续可用性。

通过医院IT集成监控管理平台,多方位一体化监控网络设备、主机/操作系统、数据库、中间件,为我院信息化运营搭建了可视化平台,直观、及时有效监控IT故障并实时处理,使管理者、主管部门达到有效的监控作用,加强了医院信息化安全可靠管理[4],提高了医院满意度,进一步提升医院的整体综合效益。

[1]王春雨,王耀炜,付继刚.摆脱被动,以前瞻视角进行医院数字化建设[J].中国高新技术企业,2010,(09):135-136

[2]乔 民,冯 帆、索向军,等.浅谈我国医院信息化建设的现状及对策[J].华北国防医药,2008,20(30):81 -82.

[3]高晋华.数字化医院建设的实践与体会[J].解放军医院管理杂志,2007(6):10-11.

[4]李湘平.医院信息系统的安全问题[J].现代医院,2012,12:(7):141-142.

猜你喜欢

中间件运维监控
The Great Barrier Reef shows coral comeback
运维技术研发决策中ITSS运维成熟度模型应用初探
你被监控了吗?
Zabbix在ATS系统集中监控中的应用
风电运维困局
RFID中间件技术及其应用研究
基于Android 平台的OSGi 架构中间件的研究与应用
杂乱无章的光伏运维 百亿市场如何成长
基于ITIL的运维管理创新实践浅析
PDCA循环法在多重耐药菌感染监控中的应用