货运站信息技术服务管理系统的研究与设计
2010-08-07张云霞宋宇博史百战
张云霞,宋宇博,史百战
(1.兰州交通大学机电技术研究所, 兰州730070 ;2.甘肃联合大学,兰州730070)
随着货运站信息化建设的不断深入,所拥有的计算机、服务器、网络设备以及应用系统等IT资源越来越多,IT系统也越来越复杂。PC机品牌多样、操作系统各不相同、分布于各个部门;服务器数量虽少但它们的品牌及操作系统亦不尽相同;而服务器与PC机又通过各种网络设备连接在一起;同时运行在这些异构系统构成的硬件平台之上的应用系统有货运信息管理系统(CMS)、设备监控系统(EMS)、设备控制系统(ECS)、企业资源规划(ERP)和客户关系管理(CRM),这些应用系统中的不同业务服务依赖于不同的PC机、服务器、网络设备,与应用系统相关联的PC机、服务器、网络设备的运行状态将直接或间接影响该系统业务服务的可用性,进而会影响到货运站的总体收益。
鉴于以上货运站IT资源的特点,不难发现以下几个有待解决的问题:
(1)如何对货运站的这些IT资源进行全面而有效地管理,使管理者对企业的IT资源有个宏观的把握。
(2)如何对这些IT资源进行动态管理,使管理人员及时地掌握资源的使用情况、运行状况,从而进行整体、科学的规划。
(3)如何使业务服务、管理流程与资源使用相关联,使得业务服务的故障与中断可以做到有因可查、有根可究,方便IT运维管理人员及时解决问题、排除故障,从而得以高效利用这些IT资源。
对于货运站来说,货物处理的快速性、及时性将影响其业务水平,因此建立货运站IT服务管理系统来解决上述几个有待解决的问题,从而提高货运站的业务水平十分必要。
1 信息技术服务管理
ITSM(Information Technology Service Management,IT服务管理)是一套帮助企业对IT系统的规划、研发、实施和运营进行有效管理的高质量方法。IT服务管理基本原理如图1。
IT服务管理系统是集IT设备状态监控、系统平台监控和关键应用运行监控于一体,结合IT服务管理库,兼顾基础环境管理,全面实现企业级IT服务监、管、控三维一体的综合管理平台[1]。
目前IT服务管理系统主要应用于政府、电信行业和金融行业,中小企业尚未广泛应用。文章探讨货运站IT 服务管理系统的系统架构、功能模块以及关键技术。
图1 IT服务管理基本原理图
2 货运站IT服务管理系统架构
依据某货运站的网络拓扑图和分层架构思想可得货运站IT服务管理系统的整体框架,如图2。
(1)被监控对象层:位于底层,它包括网络拓扑图中所有的硬件设备,以及企业所有的应用系统,如服务器、网络设备、现场设备、ECS等。
(2)数据采集层:用于采集被监控资源各项指标的数据,并将采集的初始数据存放在配置数据库和性能数据库。
(3)数据集成与处理层:将采集的初始数据标准化后存入数据库中,以供系统的调用。
(4)业务逻辑处理层:依据ITIL(IT基础信息架构库)和ITSM,进行系统的业务逻辑处理。
(5)系统展现层:采用图形化的方法展现采集的监控数据以及业务逻辑处理后的报警等;与用户互动,响应用户的操作和设定;集成第3方监控产品等。
3 系统功能模块
(1)基础架构管理:对各种IT资源进行管理,实现添加、删除、修改和查询。并对其基本信息进行维护。
(2)过程管理模块:该模块又包括配置管理、问题管理、变更管理、帮助平台管理、知识库管理、事件/故障管理、性能/预测管理以及输出管理8个子模块。
配置管理:实现各种IT资源配置的自动获取,以及手动添加、删除、修改和查询。
问题管理:问题管理是指负责解决IT服务运营过程中遇到的所有问题的流程。问题管理的主要活动实质上就是分析以被列出问题的事件的根本原因,找出解决方案,把事件的影响最小化,并通过找到已发生事件或潜在事故的根本原因来减少事件的数量或消除事件的再次发生。
变更管理:变更管理是要确保在IT服务变动的过程中能够有标准的方法,有效监控这些变动,降低或消除因为变动所造成的问题。它的目的并不是控制和限制变更的发生,而是对业务中断进行有效管理,确保变更有序进行。
帮助平台管理:IT资源管理人员信息的公布,以及处理故障能力的评价,便于在出故障时第1时间找到处理故障的合适人选。
知识库管理:对故障管理、问题管理进行记录和积累,通过对以往故障、问题处理过程和结果专门的整理和审核,总结出解决一批故障的方案存入知识库,以便解决新故障、新问题。
事件/故障管理:事件管理指的是突发事件/故障管理,处理IT的危机并要从中恢复运转。即在出现事件/故障的时候,能够尽可能地恢复服务的正常运作,避免业务中断,以确保最佳的服务可用性级别。
性能/预测管理:设置IT资源性能报警的各个级别的阈值,根据不同的阈值生成不同的可用性报告。
输出管理:根据系统登录人员的不同及其关注信息的不同,生成不同的首页。
(3)数据集成模块:将采集的初始数据按照统一的格式标准化后存入数据库中,以供核心程序的调用。
(4)数据采集:采集被监控资源各项指标的数据。
4 关键技术
4.1 Agent分布式方法
使用Agent分布式方法去采集配置和性能信息。Agent的研究起源于人工智能领域,它是一个具有自适应性和智能性的软件实体,能代表用户或其它程序,以主动服务的方式完成一项工作。这里所使用的Agent是一个用C语言设计,一个基于CIP协议、TCP/IP协议方法和Socket类的一个主动获取现场设备及终端的信息的小型程序,它包括Server Agent 和 Client Agent。其中发送的数据在应用层采用CIP协议格式,在传输层依据TCP协议封装,在网络层依据IP协议封装。大多数平台和系统都支持C程序运行,这就保证了Agent的跨平台性。在每个IT资源上都安装一个简单的Client Agent,并让它自主运作,它可以实时跟踪所需信息的更改,并通过与Server Agent会话及时把变化后的信息传输到数据采集中心服务器。采用Agent的分布式数据采集方法符合货运站现场采用以太网的数据采集的实际需求。
4.2 依据ITIL确定子模块管理流程
过程管理模块和基础架构管理模块中各个子模块的管理流程需依据ITIL(IT基础架构知识库)来实现,下面以故障管理为例来说明。
所谓故障是任何已经引起或可能引起服务中断和服务质量下降的故障。故障管理的目的就是在出现故障的时候,工作人员能够尽快地恢复服务的正常运行,避免业务中断,以确保最佳的服务可用性级别。故障管理与其余各个模块之间的关系较为紧密,如图3。故障处理流程如图4。
故障管理流程重点如下。
(1)故障归类
图4 故障处理流程
一般来说,当出现故障时,首先在运行维护平台记录与故障相关的提交人的信息,如姓名、工作地点和联系电话、故障症状描述、相关的配置项等,而有关故障信息的详细记录是由处理人员完成的。但故障处理人员在记录相关信息和确认故障后,接下来要做的并不是立即解决故障,而应是根据已有的知识和经验对故障进行大致的划分,以便采取相应的措施先对故障进行“归类”,然后再进行初步处理。这里采取的措施和行动不以根本上解决故障为目标,主要目的是确保业务的持续运作。如果不能较快找到根本性解决方案,支持人员就要尽快找到临时性解决方法。
(2)区分故障优先级
在对故障进行归类后,如果没有成功地将故障与知名错误进行匹配,下一步就是确定故障的优先级。
当支持人员必须同时处理数个故障,但受时间、资源和人力等的限制无法实现时,就要排定故障处理的先后次序,即确定每个故障的优先级。
确定故障处理优先级及相应所需的资源需要综合考虑故障对业务的影响情况、恢复服务对业务的紧迫性、故障的大小、范围和复杂程度以及当前可供选择的资源。综合考虑所有情况,可以用一个公式来计算:优先级=影响度×紧迫性。其中,影响度是衡量故障影响业务大小程度的指标,通常相当于故障影响服务质量的程度。紧迫性是评价故障和问题危机程度的指标,是根据客户的业务需求和故障或问题的影响制定的;而优先级是根据影响程度和紧急程度而制定的故障和问题的处理顺序。
4.3 统一的图形化界面展示
为达到实时管理与人性化管理的目标,同时借鉴机场EMS设备监控系统设备图形化监控系统的成功经验,构建一个统一的人性化的图形展现平台,支撑统一的应用于展现界面、综合的实时监管、工单与维护作业以及统计分析。图5为主机监控界面。
图5 主机监控界面
5 结束语
货运站IT服务管理系统可以从根本上解决IT资源的管理问题,提高IT资源的利用率,使得货运站的吞吐量得以提高,货物得以快速进出站,具有实际应用价值。
[1] 蔡雯瑛,郑骏. 基于SNMP的IT服务管理系统的架构设计[J] .计算机应用与软件,2007(5):178-180.
[2] 李佳. IT管理系统中采集管理子系统的设计与实现[D] .北京:北京邮电大学,2006.
[3] 冉崇善,赵萍. 基于ITlL的企业IT资源服务系统设计.信息与管理工程版[J] . 武汉理工大学学报,2006,28(5):80-83.
[4] 赵铭,方翎,王俏文,罗光磊.电力企业IT服务管理实践[J] . 电力信息化,2007,5(9):34-37.
[5] 袁红军,肖汉. 基于ITIL的虚拟参考咨询服务管理系统的设计与实现探究[J] . 计算机系统应用,2007(12):7-10.
[6] 胡波,詹瑾. 浅析IT服务管理系统的构建[J] . 广东技术师范学院学报,2007(10):12-13.
[7] 肖君. 基于ITIL的教育资源库服务质量管理系统的设计和应用[J] . 教育传播与技术,2007(3):46-49.理