信息安全运维服务一体化管理平台的技术设计
2014-02-08侯杰华申玉华
侯杰华,申玉华,邹 暾,马 涛
1.湖南省烟草公司信息中心,长沙市芙蓉南路一段628号 410004
2.湖南省永州市烟草公司信息中心,湖南省永州市冷水滩区珍珠路909号 425000
3.武汉楚烟信息技术有限公司,武汉市硚口区宝丰路6号香溢大酒店7楼 430030
随着应用集成技术的逐步完善,建立统一、规范的运维和安全管理已成为湖南省烟草公司(以下简称湖南烟草)信息化建设的一项重要工作,以IT 运维服务为主体对企业信息网络和应用系统进行实时监控,可提前发现系统隐患和潜在风险,使企业信息网络和应用系统保持高效、稳定和安全地运行。国内学者在信息安全[1]和运维服务管理[2]方面都进行了研究,公安部和国家烟草专卖局对信息安全等级[3]和信息安全运维保障[4-5]也发布了规范和建设指南。烟草行业在采用SOA(Serviceoriented Architecture)架构进行信息系统集成[6]方面进行过探索,但把信息安全和运维服务管理集成到一个软件平台、实现一体化管理还未见报道。湖南烟草在“烟草商业系统应用平台集成”等重点信息化项目建设的带动下,信息化水平已达到较高程度,为实现全省集中统一管理,确保运维工作的安全性和规范性,采用SOA 架构基于ITIL(Information Technology Infrastructure Library)技术建立了适应业务和管理需求的信息安全运维服务一体化管理系统,以规范运维管理流程,实现运维工作的规范化和监控管理的自动化,保证湖南烟草业务系统的稳定运行。
1 系统架构
1.1 应用现状
目前湖南烟草已建立的业务系统涉及办公、烟叶、卷烟、物流、专卖、内管、财务等多个业务领域,建立了应用集成平台,形成了以省局、白沙物流、市局三级路由设备构建全省互联互通的OSPF(Open Shortest Path First)网络,利用流量工程技术保障核心业务的数据交换。网络运维和安全监管方面,在省局和各市局、县局都配置有专业的数据中心机房,以及相应的机房管理制度和业务运维服务,保证业务的连续性。网络接入方面,采用灵活的动态Vlan 技术,设置独立的服务器Vlan 域,有效地保证了业务系统访问控制机制。系统运维工作以服务外包的方式,由第三方技术人员负责,在统一地点办公,少数人员通过VPN 拨入远程维护,市局、县局的现场维护工作有严格的审批流程。
尽管湖南烟草已建立了较完善的运维管控制度体系,但在实际工作中仍存在一些安全风险,主要是运维行为由各开发商自动负责,缺少运维角色集中管理,对信息系统的敏感信息、运维时效、运维监控和审计也缺乏管理,存在安全风险,信息系统的整体运维缺乏完整性统计和分析,难以获取具体操作的统计分析数据等。
1.2 架构设计
针对湖南烟草安全运维工作存在的风险和不足,采用SOA 架构[6]建立了统一的信息安全运维服务一体化管理平台,集中监管全省烟草信息系统所有硬件设备、网络链路、数据库、中间件和业务系统的运行状态和安全状态。基于ITIL 技术[2]建立了统一的事件、问题、配置、变更、日志和安全等管理流程,统一了全省的运维模式,按需授权和集中审计,满足各类运维业务需要,实现信息系统管理的逐级监控、信息共享、运维互助,做到“可视化展示、集成化管理”。
安全运维服务一体化管理平台在系统架构上分为3 个层面:数据采集层、汇总分析层和展现层,见图1。数据采集层主要承担基础数据采集业务,通过数据采集器,采集省(市)公司的交换机、路由器、主机、操作系统、中间件、数据库、应用系统以及机房设备的指标信息,将指标信息保存在数据采集的数据库中。汇总分析层进行业务处理,完成设备监控、运维管理、安全审计和分析等功能,并形成安全运维知识库。展现层将汇总分析层处理产生的各类信息以图形、列表等形式展现给运维管控人员,为运维工作提供依据。
图1 信息安全运维服务一体化管理平台系统架构
如图2 所示,管理平台采用支持双机热备[4]的硬件设备,以双机热备模式部署于服务器域,当主机出现故障时备机接管会话;平台的WEB 服务器、邮件服务器、审计服务器、日志服务器、身份认证系统集中部署在省局机房,供全省统一使用;平台的数据采集器、访问控制设备、流量分析设备等软硬件设施采用分布式方式,分别部署在省、市信息中心的数据中心机房;多功能安全网关部署在运维管理室接入交换机连接全局的级联链路上,对运维访问提供深层防御。
2 技术实现
安全运维一体化管理平台主要实现基础资源、业务监控、运维服务和信息安全4 大管理功能,通过配置管理跟踪和日志智能分析,实现信息安全事件的自动采集、分析、预警,为运维人员处理各类事件提供依据。
图2 信息安全运维服务一体化管理平台设备部署
2.1 基础资源管理
基础管理模块通过对网络、设备、备份、机房、应用系统等信息系统的数据采集、分析、告警,建立起配置管理数据 库(CMDB,Configuration Management Database),对操作系统、中间件、数据库、WEB 服务器等应用系统性能进行监控管理。数据采集由Agent 和AgentServer 两部分组成,Agent 部署在被监控系统上,采用C、C++、Java 开发,数据采集插件根据被监控系统的需要采用C、C++、Java、SH 等开发。AgentServer 在系统中具有管理本地资源、调度Agent、检测事件等能力,接收来自Server 的监控资源、监控指标、监控策略等信息,放入共享内存中,并创建任务队列,按照既定的策略发指令给Agent,由Agent 调用相应的采集程序,将采集的信息反馈给AgentServer,AgentServer 收到后,通过本机上的事件检测引擎,进行事件的初步检测并传递至数据处理层进行处理;Agent 和AgentServer 之间的通信采用SNMP、TCP/IP 协议;AgentServer 还具有接收来自其他监控系统或第三方产品的事件数据的能力,实现对IT 系统的集中监控和管理。
数据分析处理是整个系统的核心,主要对采集的数据进行聚合、统计与分析处理工作,并根据各种性能KPI(Key Performance Indicator)指标的特征定义告警门限,通过与事件管理之间的接口及时生成告警信息;事件数据处理首先对采集或接收到的各种原始事件进行标准化处理,再对事件进行分类和分级,并根据各种条件进行事件合并、压缩和过滤,然后通过相关性分析尽可能地确定事件发生根源,提高告警信息的精确性;告警数据处理主要对告警信息进行传递、升级和前转处理,通过监控界面和其他告警渠道通知用户。为提高系统效率,事件的规则库等信息在系统启动时调入内存中,数据处理工作通过操作内存完成。
2.2 业务监控管理
业务监控[7]管理是从业务的角度重新诠释和展现IT 组件和服务,屏蔽IT 基础架构层次的复杂性和技术细节,按照业务影响和故障的严重程度,了解各项业务的重要性和紧迫性。监控视图按主机、网络、应用等不同角度实现多方式、多层次的展现,有拓扑和图表两种展现方式,见图3。拓扑展现包括结构展现和关系展现。结构展现是按照IT 资源的组成结构逐层次展现IT资源的子资源及其可用性状态;关系展现是按照拓扑图的方式展现IT 资源之间的关联关系,同时也包括按颜色展现资源的可用性状态及其相互之间的影响。图表展现能够按不同层次的管理、运维、业务人员以表格与图形方式展现各类IT 资源每天、每周以及每月的信息报表,同时也能够展现不同层次管理人员所关心的各类IT 资源的性能趋势等报表。
图3 业务监控管理功能视图
事件告警是集中监控管理建设的主要目的,系统通过定义好的发现策略对所有设备进行自动发现,数据写入配置管理数据库并同步更新拓扑图。当告警事件发生后,系统自动进行业务影响分析,通过定义好的模板将告警信息向上传递或过滤,实现业务预警。告警方式除声光告警外,还能利用系统平台提供的API 实现其他告警方式,如短信、电话语音、E-mail 等。在确认告警的基础上,由人工对业务系统、数据库进行信息关联,并录入人员信息等,为领导决策提供依据。
2.3 运维服务管理
运维服务管理基于ITIL 流程框架,实现事件、问题、变更、需求、知识库[2]等管理功能,见图4。运维服务管理的核心是工作流引擎,基于工作流引擎构架了ITIL 主要流程,包括服务台、事件问题、问题管理等,以及结合自身经验定制的运维管理流程和需求管理流程。根据不同权限定制的控制台,可以供企业不同层面用户使用。服务管理平台与底层的监控管理平台以及邮件、短信等系统之间有接口,能够接受监控管理平台的事件。
在运维服务管理中,事件管理是问题管理、变更管理、需求管理的来源和基础,主要流程包括:①检测和记录。在整个生命周期中对事件进行检测、跟踪、监视和更新,并将该信息用于问题管理、报告和流程优化。②服务请求的处理。对不同类型的服务请求以不同的方式处理。③分类和初始支持。对事件划分类别,并根据影响和紧迫性确定事件的优先级,为事件提供解决。④调查和诊断。调查处理事件和收集诊断数据,并根据服务水平协议(SLA,Service-Level Agreement)要求,进行相应事件的升级、管理上报或功能上报。⑤重大事件应急处置。为处理超出常规的严重事件,提供高优先级的事件所需要的协调、上报、沟通和资源。⑥解决和恢复。通过与变更管理流程配合以实施补救操作。⑦终结。用户对该事件的解决感到满意,在关闭事件记录前,更新事件记录并将其分配到某个终结类别中。
图4 运维服务管理
2.4 信息安全管理
安全管理主要实现用户的统一身份认证和访问权限控制,运维人员的会话同步监控与过程重放、异常维护行为告警及阻断、运维操作行为记录与查询等功能。系统通过帐号同步收集LDAP(Lightweight Directory Access Protocol)技术实现统一的用户身份认证,帐号同步是双向的,一方面是帐号管理模块收集资源中主从帐号的过程,另一方面是帐号管理模块将创建的主从帐号下发到资源中。用户信息保存在LDAP服务器中,LDAP 服务器中的主从帐号也可以同步到管理的资源中。系统通过“审计系统帐号”与“服务器帐号”相关联的方式,为每一个运维人员创建唯一的登录帐号,运维人员通过自身的“审计系统帐号”,先登录安全管理系统,再登录目标服务器,从而实现将用户身份的认证落实到“自然人”。
2.5 配置管理跟踪和日志智能分析
配置管理[5]是通过建立的配置管理数据库对所有的IT 组件、组件的版本和状态以及组件之间的相互关系进行跟踪,通过维护信息系统和服务的逻辑模式来协助管理运维服务。对网络、设备、业务、备份、机房各系统进行配置管理,根据问题管理提交的变更请求修改配置,核实变更内容并准确记录。日志智能分析包括系统及事件日志和防火墙、VPN、代理服务器日志两部分,实现对主机、业务、网络、备份和机房的事件日志集中管理,通过日志管理对事件进行分析、过滤并找出故障原因,快速解决问题,从而保障业务正常运营。
2.6 事件自动采集、分析和预警
通过在被监控平台上部署Agent,可以对网络、设备、业务、备份、机房5 大系统进行数据自动采集、分析、预警和监控,建立起配置管理数据库。主要收集各种性能KPI 和告警KPI 数据,通过对SYSLOG、SNMP TRAP、ICMP POLL、TCP POLL 和性能阀值定义等手段采集告警信息,并将采集到的信息经过过滤、级别定义等处理在系统界面上进行展示。前端SNMP 采集器根据系统中配置好的性能采集频率主动轮询远端Agent,获取各项性能数据。通过ICMP 协议可采集部分设备间端到端网络时延指标,为网络性能诊断提供依据。
3 应用效果
湖南烟草安全运维管理系统实现了运维人力资源统一调度,解决了目前运维和安全管理工作中存在的沟通不畅、效率低下、服务质量无法保证等问题。湖南省局部署安全运维服务一体化管理系统后,实现了信息安全事件的自动采集、分析、预警和处理,运维人员由原来的60 多人减少到11 人,提高了工作效率,节约了人力资源。同时,安全运维管理系统实现了业务系统和基础设施的实时监控,将服务台、事件管理等服务流程电子化,固化岗位职责,对运维人员的操作过程进行痕迹保留,实现人员身份、运维操作和访问控制的统一管理。系统还将日常运维和信息安全进行了资源整合,通过不断积累的知识库,加强了人员间的沟通和协作,提升了工作人员的专业化水平。
[1]胡新华,耿刚勇.中国烟草总公司信息系统容灾中心技术方案设计[J].烟草科技,2010(3):22-25.
[2]顾宇.基于ITIL 的IT 运维服务管理探析[J].信息与电脑:理论版,2011(4):21-25.
[3]中华人民共和国公安部.信息安全等级保护管理办法[S].2007.
[4]国家烟草专卖局.烟草行业信息安全保障体系建设指南[R].2008.
[5]国家烟草专卖局.烟草行业信息系统运行维护规范[S].2009.
[6]胡新华,耿刚勇.面向服务架构在烟草信息系统集成中的应用[J].烟草科技,2010(5):19-23.
[7]丁伟,肖强,李世祥,等.烟叶收购内部监管系统的设计与应用[J].烟草科技,2011(7):24-27.