业务影响视图及其在信息系统监管中的应用
2015-05-27彭淑芬
彭淑芬
(国家安全生产监督管理总局通信信息中心,北京100713)
随着自身业务的发展和IT 基础设施的不断扩张,IT 运维管理发展经历了3 个主要阶段,即单一设备管理、网络和系统管理、IT 服务管理和业务服务管理。IT 管理正在从侧重于资源管理向侧重于业务和服务水平的IT 服务管理演进。相应地,IT 监控也从资源监控向业务监控转变。目前,大型应用系统的逻辑结构均是基于J2EE分层体系的,划分为客户访问层、表现接入层、业务逻辑层和数据资源层,如图1 所示[1-3]。客户访问层位于互联网区的终端设备,用于发出用户请求,以及接收操作数据。表现接入层位于互联网DMZ 区的JSP 和HTML 页面,用于接收用户请求,以及返回操作数据,是应用程序访问的入口。业务逻辑层一般位于内网区,主要是对业务数据需求进行处理。数据资源层一般位于内网区,主要是对原始数据进行操作,具体为业务逻辑层或表现接入层提供数据服务。
图1 基于J2EE 的应用系统通用部署结构图
1 业务影响视图
应用系统的客户端能否正常访问业务系统受到多方面多层次的影响,从逻辑结构上看包括客户访问层、表现接入层、业务逻辑层和数据资源层,从IT 资源上看包括链路、主机、中间件和数据库等,并且它们之间的故障也会相互影响,因此有必要建立业务影响视图。
关键资源指与多个重要业务均有关联的IT设备,可以是硬件,也可以是软件。
关键链路指由存在直接上下游资源关系的若干IT 设备组成的、与若干重要业务有关联的重要业务数据传输通道,关键链路是关键资源的扩展,关键资源性能的变化会对其所在关键链路的传输性能产生影响。
安全域指根据IT 设备处理数据的重要性,并且用相应的安全防护设备进行数据访问控制的区域。按照《信息系统安全等级保护基本要求》(GB/T22239 -2008),从第一级到第五级,安全级别依次升高。一般安全策略允许数据从等保级别低的区域流向等保级别高的区域,禁止数据从等保级别高的区域流向等保级别低的区域,适用于数据请求初次的发起方和接收方。
业务视图(business view,BV)主要用于描述业务、业务流程与业务活动、资源要素及进行业务活动所要求的信息交换。业务视图确定业务关键进程的关系、信息需求和性能需求,提出了性能阈值、信息发送方和接收方,集中呈现业务系统和资源要素的逻辑结构关系[4-5]。当业务所依赖的某个IT 资源出现告警和故障时,代表该项业务的图标将在拓扑图中呈现不同的报警颜色[6-7]。
业务影响视图从业务逻辑和安全域的角度,在业务和资源要素及关键进程之间建立映射关系,当管理对象产生的事件和状态报告通过业务影响视图整合之后传递给上层集中监控管理,需要告警哪些业务和业务功能受到故障影响、故障影响程度和影响范围,即为业务影响视图[8-9]。
2 基于业务影响视图的信息系统监管
2.1 体系结构
基于业务影响视图的信息系统监管总体架构分为三层:统一数据采集层、集中监控管理层,以及统一展现层,建立统一的配置管理数据库(CMDB),如图2 所示[10-12]。
图2 基于业务影响视图的系统监管体系架构图
统一数据采集层主要是对IT 设备包括网络资源、主机、数据库、中间件和业务应用系统的运行状态、性能信息,以及审计日志的采集工具部署、采集数据传输和采集数据存储等。
业务影响视图位于集中监控管理层。根据性能门限、业务影响视图和拓扑管理,将自动巡检采集到的设备运行状态及性能指标数据生成故障处理工单、性能告警工单、业务影响告警工单,并根据业务影响视图,进行告警关联分析,找出故障源及其关联故障,确定故障影响度及紧急度,根据设备的审计日志和总体安全策略,进行安全审计,找出违规事件。
统一展现层主要用于监控平台向最终用户提供人机信息交互,提供拓扑展现、故障管理、资源管理、性能管理等管理数据查阅和管理策略配置功能。
2.2 业务影响视图的建立方法
业务影响视图的建立是以业务为主线,采取自上而下的方法,将每项业务所依赖的链路资源、系统资源和应用软件贯穿起来,形成绑定业务的拓扑视图,实现面向业务的监测和管理。建立业务影响视图的一个重要环节是建立业务影响视图中各节点之间的故障传递机制,确定故障源及直接关联故障,从而在业务系统的可用性受到影响时,直接定位故障源,加速故障诊断与业务系统恢复。业务影响视图的建立步骤如下:
(1)确定业务系统的域名及其安全等保级别;业务系统为树根。
(2)确定客户访问层、表现接入层、业务逻辑层和数据资源层的服务端口(关键进程包括核心应用、中间件和数据库各类关键进程),数据源地址及安全等保级别和目的地址及安全等保级别;确定关键进程为第一级子节点,并确定数据流向及是否符合安全规则;确定所有端口不可用为故障源,业务系统不可用为关联故障。
(3)确定关键进程所在的服务器;确定所有源和目的主机为第二级子节点;确定所有主机宕机为故障源,关键进程不可用为关联故障。
(4)确定有直接访问关系的主机之间的链路及链路上的设备(含接口编号),从而确定客户访问层到数据资源层的链路;确定所有网络设备为第三级子节点;确定网络设备的接口宕为故障源,有直接访问关系的主机之间的链路不可用为关联故障。
(5)根据设备出现的频率(分子为该设备出现的次数,分母为业务系统总数)确定关键设备,频率阈值可以根据IT 设备的规模确定。
(6)根据IT 设备的规模,确定关键链路设备的数量区间,根据链路出现的频率(分子为该链路出现的次数,分母为业务系统总数)确定关键链路,频率阈值可以根据IT 设备的规模确定。
3 系统实现及运行结果
3.1 系统实现
基于业务影响视图的信息系统监控采用3 层架构设计。
统一数据采集层负责被采集源的性能数据和告警数据的采集和分析。统一数据采集层在获取监控管理层下发的数据采集策略后,对各种采集源的性能数据和告警数据进行获取和预处理,并发送给监控管理层。数据采集层与采集源之间的通信方式包括SNMP、Syslog、FTP/TFTP、SOCKET、API、JDBC/ODBC 等。
集中监控管理层负责被监管设备和信息系统的性能数据和告警数据的核心处理和汇聚。监控管理层提供拓扑管理、性能门限、业务影响视图、安全审计、告警关联分析、自动巡检、配置处理、性能处理、故障处理和自身安全处理等功能模块。监控管理层还要负责与统一数据采集层通信,通信方式包括JMS 和RMI 等。故障管理对业务系统正常运行所使用的系统资源的运行状况,如系统资源短缺、数据库连接失败、网络通信中断和文件系统使用率高低等,以事件的形式表现出来,针对不同对象的不同属性和特点提供不同的处理方法,保证告警的及时性和准确性,同时根据实际环境,通过配置、调整和细化事件标准化规则、事件压制规则、告警升级规则和告警通知规则,提供清晰的告警分类、多维度的告警信息统计。
统一展现层用于向最终用户提供系统访问门户,负责被监管设备和信息系统实时性较高的性能数据和告警数据的展现,汇总并展示统计报表,以及报表查询。
3.2 系统运行结果
监控系统告警的主要信息包括告警级别、告警标题、对象标识、告警分类、告警内容,以及首次发生时间等。告警级别分为主要告警、次要告警和警告告警。当数据流向不合规时,若源地址所在区域的安全级别高于目的地址所在区域的安全级别,那么告警级别为主要告警;若数据流向的源地址所在区域的安全级别不高于目的地址所在区域的安全级别,那么告警级别为次要告警。数据流向不合规的告警如图3 所示。告警分类可以是“故障源”或者“关联故障”。故障源与关联故障的告警如图4 所示。
图3 数据流向不合规的告警
图4 故障源与关联故障的告警
4 结论
为解决传统的业务监控系统告警繁多且无关联,并且对业务系统数据流没有安全规则监控的问题,提出了一种基于安全域和关键路径的业务影响视图建立方法,并且提出了一种基于业务影响视图的信息系统监控架构。关键路径简化了业务影响视图,对关键路径性能的监测能从总体上掌握基础设施的性能,基于安全域的业务数据流向监控能及时发现不符合预先定义的业务数据流。基于业务影响视图的业务系统监控能根据事先建立的业务影响视图对故障源及其关联故障进行报警,准确定位故障源,加速故障处理。下一步将重点考虑基于云计算的业务数据流的监控与告警,充分利用统一数据采集层采集到的数据监控业务系统的安全性。
[1]甘春明,刘连忠.面向业务的IT 管理系统设计与实现[J].计算机技术与发展,2008,18(6):156 -159.
[2]杨乾坤,谷建华,王云岚.面向科学计算的业务流程建模技术研究[J].计算机工程,2012,38(18):53-56.
[3]赵又森,邓仲华. 基于eTOM 的图书馆业务运营视图构建[J].情报资料工作,2013,34(3):103 -108.
[4]石玉峰,徐军.物流信息系统体系结构研究[J]. 交通运输工程与信息学报,2008,6(3):11 -14.
[5]孙维.BSM:“以业务为中心”的IT 管理[J].电信科学,2010,26(9):147 -153.
[6]孙路,兰巨龙. 基于流视图的动态QoS 保障机制[J].信息工程大学学报,2013(4):465 -471.
[7]温彦,刘晨,韩燕波. iViewer:利用数据服务即时生成跨域数据视图[J]. 计算机科学与探索,2012,6(3):221 -236.
[8]孙磊.面向SaaS 开发的多视图业务模型应用框架研究[D].上海:上海交通大学图书馆,2013.
[9]嵇智辉,倪宏. 网络管理中故障业务影响模型研究[J].计算机工程与应用,2009,45(16):13 -17.
[10]杨怀洲,李增智,陈靖.分布式网络资源管理和业务管理集成方法的研究[J].计算机工程,2006,32(7):100 -102.
[11]郭玺,杨家海,王建民.基于网络运行管理平台的资产管理系统[J].计算机工程,2012,38(23):259-262.
[12]沈青.基于ITIL 的云监控系统的研究与设计[D].武汉:华中师范大学图书馆,2013.