APP下载

高校IT运维服务项目的分析与实施

2016-01-06安寅杰

中国教育信息化·高教职教 2015年11期
关键词:高校

安寅杰

摘 要:文章针对高校信息化部门目前管理过程中存在的资源无法统一监控、出现问题响应不及时、流程不规范等问题设计了一套适用于高校的IT运维服务管理系统。通过调研其目前运维管理的现状和开发技术的对比分析,最终确定整个系统设计的总体结构包含了五大功能模块,即IT资源统一监控管理模块、安全和告警管理模块、自身管理和系统日志管理模块、统计分析管理模块、运维服务综合管理模块。实现了在现有的校园网平台基础上,对IT运维服务全方位的管理。系统运行后,为学校信息化运维提供了有效、便捷的工具和手段,提高了用户满意度。

关键词:IT运维;IT资源统一监控;高校

中图分类号:TP393 文献标志码:B 文章编号:1673-8454(2015)21-0020-03

随着学校信息化建设的不断深入,各业务系统的技术支持和IT基础设施的运行维护已经成为学校主管领导、业务部门普遍关注的问题。这是一个随信息技术深入应用而产生的新课题。目前,国内许多高校的IT运维部门也都有从传统的、零散孤立的网络软硬件维护上升到基于业务、基于ITIL的IT运维服务管理层面的需求。本课题的研究和实施,也为IT运维服务管理的标准化、流程化和自动化在高校的应用实现进行了有益的探索。

一、高校运维现状分析

IT 运维理念是目前业界被讨论的众多热门话题之一。国内的IT运维系统也是多种多样,层出不穷,这些系统由于针对领域的不同其特征也各不相同。高校做为一个特别的群体具有网络设备的种类、数量多,网络环境复杂,业务系统应用广泛,涉及的品牌繁杂,部分服务群体(学生)流动性高等特点。所以至今还没有一款特别适用于高校的IT运维系统。但近年来,随着教育部“教育信息化带动教育现代化”理念的提出,高校信息化建设的深入和完善,保障校园网络环境、网络设备和各业务应用系统的稳定运行已经成为高校信息部门的头等大事,因为信息化的保障工作将关系到全校日常教学和工作的各个方面,一旦出现故障将对学校造成不可预估的影响和损失。

目前,高校的大多数IT运维部门仍使用传统的IT运维方法,这样存在很多问题,比如:

(1)服务器管理、网络管理、机房环境监控等系统相互独立,网络安全设备尚未有效监控,故障不能准确定位;

(2)系统配置信息散乱在各种资料中,关键信息登记不完善;

(3)由于历史问题,信息化设备登记混乱,缺乏管理;

(4)信息化运维效率较低,类似的问题经常发生,流程没有得到梳理,没有解决方法可以借鉴;

(5)对IT运维人员技能要求较高,运维人员工作考核无法量化。

这些问题虽然迫在眉睫并受到足够地重视,但远未得到有效地解决。因此我校数字校园建设中心计划在现有IT基础上通过进行问题梳理,建设一套基于ITIL的IT运维服务管理系统。重组业务流程和变革内部管理流程,实现IT技术和主要业务的整合,从而使信息化手段成为支持业务运作的强大动力,这也是近年来越来越受到关注的IT运维服务管理所要达到的目标。

二、IT运维服务系统的功能需求分析

通过对以上问题的分析得出需要搭建运维综合管理平台,在现有服务流程评估分析基础上,对照ITIL标准,进行差异分析,改进和建立缺失的流程,完成IT运维流程梳理与设计。根据实际工作需求和ITIL最佳实践,设计一套符合实际应用、完整和规范的服务流程与运维管理平台。要求覆盖高校所有信息化运行、维护、服务管理的业务。

需要搭建能够统一全面监控所有信息资源的监控平台,具备基于三层路由协议的网络发现和拓扑呈现能力,多协议物理和逻辑拓扑发现和呈现能力,全方位网络设备、中间件等 IP 基础设施、基于数据库和Web Service 接口的应用层中间件自动发现及监控。

需要搭建告警信息采集平台。该功能应该具备单位时间内对网内的设备、系统进行轮询,实时监测可能发生的问题。在问题发生的第一时间快速响应,并对问题做出分类,不同问题给出不同的相应级别,通过邮件、短信等方式通知相关运维人员。较快速的解决问题。存储并对问题进行分析,供相关人员决策。

系统应具有审计日志、错误日志、管理员日志和操作者日志等功能,并对日志内容进行相关保护、分析和呈现。支持对IT运维服务各类业务进行统计,提供多种组合条件(事件次数及分类、用户数量、使用时长、常用功能等)的查询、统计。以即时或指定时间段为周期,形成业务统计报表。

三、IT运维服务系统的构思与落地

1.系统架构设计

通过对系统建设需求和应用模式的分析,对总体架构进行了分层设计。系统采用了四层体系架构,系统的四层体系架构自上而下分别是展示层、逻辑层、配置层、管理对象层。展现层包含了系统应用程序中需要和用户交互的组件。是系统功能实现、人机交互的窗口;逻辑层是实现系统所有运维业务管理功能的支撑,是基于配置层定制的满足IT运维业务需求各种流程的管理应用,由事件管理、问题管理、配置管理、项目管理、变更管理、服务台等业务流程模块,同时具备系统管理员入口功能;配置层为业务系统提供开发运行环境,将采集到的海量数据进行全面核查 ,在核查的基础上对确实数据进行预处理和标准化处理;管理对象层是对数据采集的全过程进行控制,并对采集的数据进行加工处理,从而实现各种异构信息产品和运维事件的信息收集,预警和告警条件的触发,为系统提供数据基础。

2.系统功能设计

系统采用B/S模式,在现有的校园网平台基础上,实现对IT运维服务全方位管理。系统的功能结构设计如图1所示。

系统功能结构划分主要是根据系统需求分析、功能定位和方便易用的原则进行设计。本系统五个组件主要完成以下功能:一是系统IT资源统一监控管理功能;二是系统安全和告警管理功能;三是系统自身管理和系统日志管理功能;四是统计分析管理功能;五是运维服务综合管理功能。系统采用整体设计、分步实现的原则。

(1)IT资源统一监控平台

1)网络拓扑自动发现

网络拓扑自动发现需要满足:准确性、实时性、完整性、低负载的要求。需要支持维护人员手工修改拓扑图。最后决定在自动发现的过程中,优先使用各个厂商提供的专属拓扑发现协议。

2)网络拓扑前台配置与展示

拓扑配置与展示在系统中占有非常重要的地位。网络管理系统中的拓扑图展示将包括如下要素:

背景图:可先把众多网络设备分为多个区域,如果某个区域出现告警,则这个区域的代表图标进行告警提示;另外,一些不方便用动态图形展现的静态信息,比如文字描述,静态连线,特殊标识等,也可以放在背景图中;

节点:作为被监控设备的数字化代表,每种被监控实体都会有属于自己的图形标识,每种类型的被监控实体,如主机、数据库、路由器等图形标识不同且容易区分记忆;

连线:在网络中,各个被监控实体都不是完全独立的,拓扑展示中需要表现出各个实体之间的连接关系。

(2)告警和系统安全管理

1)告警信息实时采集

设备关联和告警信息的自动传达,支持接收网络设备所发出的SNMP TRAP、Syslog日志告警,能实时的监测网络物理链路的情况、核心机房网络出口设备的异常情况,并判断是否为异常情况进而触发告警模块,可以根据告警事件的轻重选择告警方式,匹配不同级别的告警信息,如流量超过一类阀值为一般告警,超过二类阀值为紧急告警等细致化功能。

2)系统数据备份

对故障的采集、分类、展示是整个模块的核心功能,也是所有模块共同工作所围绕的中心点。首先通过采集模块对系统信息进行收集,通过各种对应的采集接口传回采集主机。然后由采集机上相应功能模块进行数据检错、过滤、分类,并把数据入库。然后,前台展示程序把分类入库的告警数据等做集中展示,并统计出相应报表。

除此之外,告警信息的过滤、压缩,故障定位及联动,系统审计,数据的展示也是系统设计要考虑的重点。

(3)系统日志管理和统计分析管理

面向领导、运维部门主管、运维人员提供网络和业务系统的运行状况分析,进行运维人员的绩效考核及其他相关的统计分析,为领导决策提供相关依据。保存过程中的所有日志文件,并进行分类。支持多重身份的验证。比如:业务关系流程图、设备位置分布图、网络结构拓扑图、流程进度时序图、工作日历、任务冲突分析图等,要有优质的操作体验。

(4)运维服务综合管理

运维服务综合管理要首先对业务流程进行梳理,将梳理的结果进行重定向。运维服务综合管理模块应具备友好的流程设定功能,利用图形化的方法快速部署。支持需求出发的流程环节快速重组,并根据需要进行增删改操作及对流程的执行进行监控。实现实时服务监控和绩效评定。系统中内置关键绩效指标信息,提供必要的绩效考评手段。自由扩展数据属性,提供表单的自定义相关功能。根据实际需求定制符合要求的表单,使表单的信息更加标准化、规范化。

3.系统安全设计

系统安全是保护系统的软硬件不受偶然的原因或恶意的攻击行为而遭受运行中断、数据被更改或破坏。

(1)系统硬件和网络环境安全

将系统接入到学校数据中心机房的内网服务器群区。有防火墙和其他安全保障措施,可以保证网络安全和服务器安全。

(2)角色权限控制

系统支持多角色,但对角色做了严格的权限控制,不仅对系统功能模块做了权限控制,对设备访问权限也做了控制,保证每个用户只能看到自己管辖范围内的资源,访问权限内的系统功能。

四、系统测试

1.功能测试

功能风险识别主要是两方面,首先目前定制的功能是否满足前期需求;其次,现有功能是否存在技术上的问题。验证与需求的一致性、系统的稳定性、安全性和可扩展性等。

2.流程测试

对运维服务综合管理模块的业务流程进行风险识别,从用户、运维人员、系统管理员、决策者等角色进到系统中,从具体业务流程出发,检验平台的业务流程是否符合实际业务流程,是否符合具体业务要求。

3.性能测试

性能风险识别是通过测试工具模拟多种正常、峰值及异常负载条件来对系统的各项性能指标进行识别。

依据项目风险识别方法,通过上述识别过程,经测试,系统功能、流程、性能已基本规避相关风险,能满足平台要求。

五、实施前后效果对比分析

系统实施前后效果对比如表1所示。

六、 结束语

本文通过对当前基于ITIL理论的IT运维服务管理系统的分析,指出IT运维服务对于高校信息化建设的意义。为高校信息化的管理提出了构建从 IT 基础架构管理面向业务管理的总体思路,从业务视角洞析 IT 管理的全过程,为业务的正常运作提供了强有力的保障,提高服务对象的整体客户满意度。

参考文献:

[1]凤羽翚,李严锋,叶琼伟编著.业务流程管理[M].北京:北京交通大学出版社,2009.3.1.

[2]王东红.信息系统运维基础[M].北京:北京理工大学出版社,2012.7.

[3](德)希尔等著,黄官伟,武亚平译.下一代业务流程管理:ARIS与SAP应用案例[M].上海:同济大学出版社,2007.7.1.

[4]麦斯阿塞克著,马素霞等译.需求分析与系统设计(原书第三版)[M].北京:机械工业出版社,2009:18-26.

[5]周凤珍,彭勇主编.信息运维人员胜任力模型研究[M].成都:四川大学出版社,2012.7.

[6]程栋,刘亿舟编.中国IT服务管理指南(第2版)[M].北京:北京大学出版社,2012.

(编辑:王晓明)

猜你喜欢

高校
提升高校官方微信公众平台传播效果的几点思考
新常态下高校档案工作发展研究
中日高校本科生导师制的比较
高校辅导员职业认同提升的策略研究
弘扬雷锋精神与转型期高校校园文化教育整合性研究
试论高校党建工作中的党史教育