APP下载

报业集团IT运维管理平台建设思路

2012-04-29王任华黄格非施芸

信息化建设 2012年7期
关键词:运维监控故障

王任华 黄格非 施芸

随着浙江日报报业集团业务系统

向多元化结构发展,新媒体技术及报业信息化技术也发生日新月异的变化,集团信息化网络的规模越来越大,报业出版及发行等业务系统越来越多。这直接推动Web服务器、应用服务器、数据库以及服务器虚拟化的应用快速发展,IT部门的重要性也不断提升的同时, IT运维面临的挑战也更加复杂化。如,原有的机房已经不能满足现有信息化设备的发展;日益增多的信息化终端设备和放开的USB设备权限导致病毒攻击、流量异常的情况增多;众多的业务系统和需要开启的远程监控窗口,易出现抢桌面和重复开启服务的状况;IP地址冲突以及IP地址不够用等现象。

如何能将现有的IT管理小软件进行资源整合,实现统一平台的集中管理,做到跨域扫描IT运维管理体系,并通过制定相应的流程规范来合理、高效的调配资源,使IT运维管理架构与集团业务系统的管理架构相统一,并将网络拥塞状况直观展现,为管理者和运维工作人员决策提供参考。这将是IT运维监控系统建设项目的总体目标。

总体设计思路

为更合理地配置网络资源、更好地管理网络IP资源,及时统计用户访问量、网络带宽分析、机房环境预知和巡检等,针对集团的实际情况,我们研发了IT运维综合管理平台(IT Operation Management platform,ITOM),为技术管理者提供了多管理领域的全方位解决方案。IT运维综合管理平台的设计主要分三个:

1.信息采集层。包含故障性能信息采集和故障信息采集。性能信息采集是对运行在服务器的中间件、数据库以及应用程序的监控。通过在被管理设备上安装监控程序的方式,然后将来自ICT内各部分的信息标准化为通用格式,实时保存为逻辑分析提供信息基础。包括发现网络拓扑,通过网络运行状况监控,判断网络的运行质量、运行效率、网络流量以及连通率信息等。

在信息采集层采集到的故障信息通常是逻辑故障信息。采集是通过接收IT基础设施发送的标准日志,同时辅以主动对设备轮询,将所收集的故障时间发送给探针,提交给事件管理器进行信息汇总。而其他类网络故障判断需要通过在信息处理层完成。初始故障等级判别是根据信息汇聚层收集上来的事件,级别定义。

2.信息处理层。按照事先设定的业务模型规则,将信息采集层收集的海量数据进行数据分析、数据关联、数据处理,使得看似无序和不同类的事件,通过事先定义的业务模型规则,对信息采集层所采集到的信息进行根源分析和对比,达到故障定位的目的。

网络故障判断在信息处理层须根据默认的规则定义,通过告警系统中的Automation 自动引擎,对故障事件进行分析和计算,经过数据关联和处理后,得出的网络故障判断,生成故障结果表单。例如端口流量、错报和丢包发生率、广播包与非广播包的多少来对设备阀值设定,超过预设参数进入故障结果表单。

3.信息应用层。数据应用层对日常运维的性能参数通过图表的方式反映出来,包括流量报告、故障分析报告、网络监控平台、统计分析报告等。

ITOM基于WEB方式的管理界面,允许维护人员通过浏览器方式查看业务运行状态和告警信息,支持界面的个性化定制。监控平台可实时监控包括网络状态、设备状态、业务主机状态、链路状态、性能管理、流量管理等信息。

支持多种应用接口,包括WebService接口、API接口、文件接口、码流接口等,集成多种第三方管理应用的综合数据接入,在同一平台上予以展现,是全域IT运维管理的决策支持系统。

十大功能描述

1.T运维管理平台采用 ITIL的标准。

ITIL(IT Infrastructure Librry 信息技术基础架构库)是英国各个行业在IT管理方面的最佳实践归纳起来变成规范,它结合流程、人员和技术三要素,为企业的IT部门提供一套从计划、研发、实施到运行维护的最佳实践方案,可以引导组织高效和有效地使用技术,让既有的信息化资源发挥更大的效能。

ITIL实际上是建立在业务和技术之间的桥梁,框架图如图1所示:

ITIL含服务支持和服务提供两部分,对应的10个管理流程是IT运维管理的核心过程,如图2所示:

围绕十个管理流程,并通过服务级别协议(SLA)来保证IT服务的质量,IT运维管理平台的结构图如图3所示。

2.分级用户管理,不同用户拥有不同子域、子系统的使用权限。

不同用户的分级管理通过统一入口授权完成,管理者、IT运维人员登录系统后分别可以查看对应角色的子系统信息,如网络管理员可以看到对应的机房监控数据和网络拥塞信息,资产管理人员可以对资产信息扫描和登记,实现真正意义上的分级管理。

3.网络状况可以做到实时监控,核心设备做负载均衡。

网络部分设备采用双核心双链路热备连接,这种接法的网络经系统智能分析后生成的网络拓扑图与真实物理拓扑结构略有出入,经人为修正后形成集团的网络拓扑图,真实反映整个网络的运行状态,直观反映设备的分布情况、负载状况和设备属性,以及线路的实时流量,同时通过负载均衡动态平衡;流量异常或者超负荷时会有颜色显示,告警网管关注点,动态预警可能存在的故障隐患。

网络平台管理对核心及汇聚等重要设备的UP/DOWN、CPU负载、线路负载等重要指标做告警设置,对核心业务服务器的操作系统参数(系统范围的CPU 使用情况、磁盘和I/O 使用情况、文件系统资源、日志文件等)实施告警监控,协助IT运维人员诊断和排除相关问题。同时可以提供灵活的警报条件定义,生成基于Web的报表,为工作人员进行应用系统的性能分析及系统优化提供依据。

通过ITOM读取在AIMS Server上集中创建生产主机环境的基线数据库,实时监控核心业务服务器的系统环境和应用环境,减少长期运营维护费用、降低危害攻击的可能性,保证了生产环境的稳定和核心业务数据的安全。

4.值班机房做到无人值守。

ITOM通过读取第三方厂商监测的机房温度数据、湿度数据、UPS电源信息等各类指标,若超出阀值信息发出警告,从而可以在无人值守的情况下,消除机房管理中的安全隐患。

5.遵循事件处理流程,完善IT运维服务。

事件管理即通常所说的现场管理,流程相对复杂,发起事件通常有两个途径,一个是ITOM的系统故障告警,一个是服务台。系统告警后无法马上处理完成可以直接生成事件,进入事件处理流程。

ITOM在事件生成后,可以由调度统一生成派工单,同时可以通过短信告知设备信息目前所处的维修状态。

6.融合进项目管理,使项目状态一目了然。

项目管理是ITOM非常重要的一块,主要记录目前在建项目的进展情况,包含项目小组成员及分工、项目进度、项目变更及项目调度信息,以方便其他项目人员随时查询。一旦项目结束,该项目信息将由相关人员做信息梳理及归档,对后续维护有帮助的解决方案、使用说明等文档将分类归到相关知识库。

7.根据项目和运维解决方案,形成一套系统的运维知识库。

知识库来源于常规的运维解决方案和项目管理文档。原来的情况是,各系统的解决方案、说明书、分析、手册和各种专业文档,零散地分布在各个系统管理员手里,或者一段时间整理放在FTP方式共享,但是缺少高效而有序的管理,检索起来很困难,IT部门的新员工往往需要跟班很长时间才能掌握必备的工作技能。ITOM则根据IT运维流转的各种文档进行规范化的管理,建立一套有系统的知识库和维护检修库,知识库管理是员工获取知识的有效途径。让所有人都能快速而方便地把自己掌握的经验技能更新进知识库共享,同时可以学习到自己所需要的信息和知识,保证IT系统的维护工作有据可依。

8.资产信息可以动态抓取,及时更新资产库信息。

ITOM的资产管理功能比较强大,除了初期人工录入数据外,还可把被管的网络设备、主机设备、配置信息、软件等信息抓取到,与资产库对比,若信息有差异,可以实时更新到库中。关联集团信息管理平台(EIP)的通讯录信息,管理者可以很清楚地掌握资产状况:设备信息、所属部门、房间号、使用人、使用人联系电话等信息。通过对资产信息全面和规范化的管理,同时与事件管理结合,可以向技术维护人员提供资产的完整“生命周期”,包括采购入库、领用、维修、升级和报废的整个生命周期事件以及历史维护记录,帮助技术维护人员迅速解决问题。

资产管理还可以拓扑形式展现资产分布平面图(分布图以楼层为单位,具体到每个房间的每项资产。平面图上的资产图标链接到资产管理库的记录,点击图标,自动检索库中的相关记录)。

IP管理是资产管理的重要部分,ITOM的IP管理可以检测后生成IP地址、网络端口与MAC地址对应的地址簿,从而实现IP-MAC-物理地址绑定。通过地址簿与安全认证系统匹配,可以对P2P或者BT下载以及非法接入设备的端口进行关闭,保证桌面系统的安全。

9.设备变更。

针对设备用途的变更、位置的变更以及设备更新等,根据全域网络拓扑结构图展示,会显示设备负载的位置,从而核实该设备可能发生的变化。

10.变被动服务为主动服务,定期做系统巡检。

通过系统设定巡检项目和巡检参数,可以生成日巡检、周巡检、月巡检项目等。目前我们对机房设备、邮件服务器、短信发送服务器、卫星发送和接受系统、畅流系统、全媒体采编系统和数字报生成系统设定为每日巡检项目;医保系统、发行系统设定为每周巡检。设定巡检项目生成巡检表后,系统执行巡检动作并生成巡检报告,巡检未通过项目以手机短信提示相关的系统管理员,以便及时掌握系统运行是否处于“健康”状态。

展望与思考

IT运维管理平台(ITOM)让IT运维管理人员在日常工作中变得更轻松,变得更加以服务为中心。但是仍然有两点还值得思考:

第一,数据挖掘还可以应用得更广。对全域各类运维相关数据信息进行统一的存储和分析处理,我们目前只是从海量数据中提取部分有用信息做分析,其他隐含在数据仓库中的、有助于决策的信息和知识点还有很多,怎么形成和提取各类有用数据以支持我们做决策分析,还需要深度思考。

第二,虚拟化设备还是IT运维管理平台的难点。企业机构正在通过各种虚拟化技术整合其基础设施来提高网络效率,虚拟化必然会带来云计算的迁移,由于核心基础设施资源(计算、存储和服务器虚拟化)的虚拟性质有不稳定状态,导致虚拟化设备的监控系统相当复杂,目前在ITOM系统中还没有相应的应用。

IT运维管理在报业集团的应用,不仅带来了全新的IT运维管理理念,而且在服务质量和服务成本压缩方面有了很大的提升。通过全域网络的智能监控以及事前预警和巡检功能,及时排除潜在隐患,使运维工作变得更为高效,网络运行更加安全和通畅。 同时,我们也在不断探讨和完善现有的IT运维管理系统,使其适应更为复杂的网络架构,以在报业IT运维中得到更好的应用。

(作者单位:浙江日报报业集团信息技术中心)

猜你喜欢

运维监控故障
The Great Barrier Reef shows coral comeback
故障一点通
运维技术研发决策中ITSS运维成熟度模型应用初探
你被监控了吗?
Zabbix在ATS系统集中监控中的应用
风电运维困局
杂乱无章的光伏运维 百亿市场如何成长
看监控摄像机的4K之道
奔驰R320车ABS、ESP故障灯异常点亮
基于ITIL的运维管理创新实践浅析