APP下载

智慧校园统一运维管理平台设计

2024-09-04李虎群锁志海张心张哲苏磊磊

电脑知识与技术 2024年20期

关键词:运维管理;智慧校园;ITIL;管理流程

0 引言

随着智慧校园规模的扩大,各类软硬件系统及业务复杂程度不断提高,基础设施和应用系统的维护工作量增加,技术维护难度和管理复杂度也不断提升,与之相配套的运维管理[1]面临着新的挑战。

1 需求分析

智慧校园规模的扩大、运维组织架构及分工的细化,以及IT对业务的快速响应和支持要求的增加,使得运维管理流程需要在更大范围内使用并实现更多部门的高效协作。如果仅依靠现有的粗放式管理和手工管理方式,很难满足运维的效率和规范性要求。智慧校园运维管理需要从“单业务、单数据中心”运维模式向“多数据中心”运维模式转变,同时满足服务响应和故障解决的效率要求。

在复杂的基础设施环境和应用架构下,智慧校园需要实现快速故障定位及变更影响分析等深入应用。随着应用系统数量的持续增加,支撑各类业务系统的软硬件组件之间的关系越来越复杂,客观上对运维管理提出了更高的要求。管理上须随时监控环境中组件运行情况,并实现面向业务服务的配置管理功能,同时具备分析业务应用与其IT组件之间关系的能力。当某个业务出现中断或异常时,可以快速定位引发此故障的IT组件,从而可以快速进行故障分析与处理,最大程度降低对业务的影响。

智慧校园资产数据量庞大,配置信息始终处于动态变化之中。如何有效记录配置信息及资产间相互关系,实现对运维工作的有效支撑至关重要。在复杂和庞大的基础环境中,必须时刻关注和掌握各类资产的实时状态、配置项信息及其变动情况,才能够保证事件、问题、变更、服务请求与其他运维工作得到有效支持和规范化管理,切实保证业务系统的持续、稳定运行。

可以通过统一运维管理平台帮助高校智慧校园更好地管理和监督其IT基础设施的运营和维护,提高管理效率和质量,降低运维成本,为高校的发展提供有力的支持。

2 平台流程体系设计

根据智慧校园运维管理需求,结合ITIL制定开发日常运维制度,包括事件管理流程、问题管理流程、应急管理流程、变更管理流程等运维流程。统一运维流程体系[2]如图1所示。

2.1 事件管理

事件管理在统一运维流程体系中主要承担对用户故障恢复和管理工作,接收由服务台分派的事件工单或处理由变更等导致的事件工单,保障相应的事件得到快速处理。事件管理是在统一运维流程体系中发生的、可能影响或已经影响服务的任何可识别状态的变化进行管理的流程。这些事件可能包括服务器软硬件故障、网络故障、应用系统崩溃等。事件管理能迅速识别、记录、分类、优先级排序、响应和恢复运行服务中的事件,以最小化处理时间,减少对业务的影响。

2.2 问题管理

问题管理在统一运维流程体系中用于识别、调查、诊断和解决导致事件发生的主要原因和存在问题,从而预防类似事件再次发生。为减少事件的数gs2eItv5N/Bga4tyD0bnDQ==量和严重性,通过消除根本原因来预防问题事件再次发生,以提高服务的可用性和可靠性。事件管理关注的是当前发生的事件的解决,而问题管理则侧重找出导致事件的根本原因,并消除这些原因以防止未来的事件。

2.3 变更管理

变更管理在统一运维流程体系中用于记录、批准、控制、实施和监控运行环境中发生的所有变更,以确保这些变更不会对应用服务的可用性、性能和安全性产生负面影响。通过标准化和受控的方法,降低变更引入的风险,确保各项服务的稳定性和可靠性[3]。

2.4 配置管理

配置管理在统一运维流程体系中用于记录、识别、维护和控制应用运行环境中的所有配置项(如硬件、软件、文档等)的信息和关系。它提供关于IT基础设施和服务的准确、最新和完整的信息,以支持其他流程(如事件管理、问题管理、变更管理等)。通过统计分析,能够定位和预防运行风险、了解资产利用情况和相关费用支出情况,从而提升运行管理、优化资产利用。平台构建了灵活的资产配置数据库,提供配置项的登记、分类、统计、快照、审计、变更等功能,并在CMDB[4]的支撑下,提供对资产配置模型的管理,以及业务需要的各种设备、文档、合同、软件、应用等的全面管理。

2.5 发布管理

发布管理负责规划、安排和控制版本从测试到生产环境的流程。ITIL特指变更管理的首要目标是“保护生产环境的集成和发布正确的组件”。版本是一个相关的授权更改的集合,它经过测试并被引入现场环境中。版本管理与配置管理和变更管理密切合作,以确保对信息基础架构的更改能够实现,从而保持与客户不断变化的业务需求一致的服务功能和服务水平。发布管理包含ITIL V3内所嵌入的最佳实践活动,用于跟踪和管理变更及实施。变更管理的目的是提供更好的支持来管理标准版本,从需求到规划设计、建立、测试、部署和验收。

2.6 资产管理

对智慧校园软件与硬件产品进行生命周期内的管理,保证资产与业务的安全与健康运行。硬件资产管理对硬件资产的状态、位置、变更信息等进行管理,保证资产在生命周期内的安全使用。软件资产管理对软件型号与数量、使用周期与状态进行管理,如li⁃cense应用周期管理,确保软件得到及时更新与权限获取,保证业务健康安全运行。

2.7 服务级别管理

服务级别管理对服务级别与服务目标进行管理,对服务级别目标进行设定及量化考核。通过建立与约定的服务级别考核协议,监视约定的服务级别执行情况,最终统计出相应的服务指标,并形成改善计划和服务水平报告。在对服务级别进行准确分析评估的基础上实现服务优化,来确保服务质量得以维持并逐渐提高。

2.8 服务目录管理

服务目录提供一个管理所有交付服务的集中信息源,维护已经或将要转换到生产环境的服务清单,用以表述交付给使用者的所有IT服务,以及这些IT 服务与支持服务之间的关系。服务目录作为对外服务的窗口,提供清晰和明确的服务指导,同时为运维支持团队作为沟通和协调的依据[5]。

3 平台方案设计

3.1 总体架构

智慧校园统一运维管理平台的总体架构如图2所示,主要包括统一展示层、服务管理层、配置管理层和数据采集层。

1) 统一展示层:针对各个功能模块、组件的数据,进行集中展示、统计、分析。

2) 服务管理层:提供流程引擎,覆盖服务台、事件、问题、变更、发布等运维流程;对运维服务交付过程进行全方位管理;以应用业务的视角,将分散的IT 资源以业务系统为单位进行整合建模,为故障定位和业务影响分析提供支撑。

3) 配置管理层:对资产信息、配置信息、监控告警信息、性能数据、流程信息、业务信息进行关联整合,构建层次化的数据仓库。

4) 数据采集层:对服务器、网络、操作系统、数据库、中间件、应用提供全面监测手段,具备良好的兼容性和可扩展性;具备对告警信息进行压缩、丰富、关联等处理能力。

3.2 功能设计

统一运维管理平台由相互独立且密切协作的模块组成,包含业务资源监控、资产配置数据库、流程引擎、门户、数据管理和统计报表等核心支撑模块,同时实现应用集成和二次开发支持。

运维门户模块支持工作的统一信息平台,是所有系统的统一入口,是集中展示、统计、分析的综合模块。

运维流程模块提供以ITIL最佳实践为指导的运维流程,覆盖服务台、事件、问题、变更、发布等运维流程;对服务目录、服务水平、服务报告等服务交付过程进行全方位管理。

业务服务管理模块以应用业务的视角来运营维护智慧校园的IT系统,从业务角度对分布在智慧校园不同地方、不同系统中的IT设备进行有效管理,为故障定位及业务影响分析提供支撑。

配置管理模块采集信息全面覆盖技术类信息、流程管理生成的管理类信息、外部信息等,将各类信息全面关联,构造层次化的数据仓库。

信息采集模块实现全面的信息自动采集,包括性能信息、配置信息、容量信息、告警信息等。通过两段式的信息管理手段,利用预置及挂接的信息格式化程序,对信息进行清洗、格式化、存储,同时对信息进行关系分析以及拓扑展示。

监控关联模块对各种服务器、网络、操作系统、数据库、中间件、应用提供全面监测手段。

自动化管理模块对IT资源如网络设备、操作系统、数据库、中间件等实现自动化巡检和自动化安装部署、参数调整等功能。

3.3 平台数据采集

平台基于Java的MVC多层体系架构[6],数据采集使用多样化的采集手段,采集方式包括SNMP、TELNET/SSH、XML、日志、文件等,其中对于数据库、中间件、操作系统的监控采用Agent方式。对于配置数据的采集可采用手工录入、批量文件导入等方式。采集的具体架构分为三层:

1) 发现引擎及传感层。平台通过SNMP、Telnet、Agent、JMX、XML、JDBC等多种接口,采集各设备、系统和应用的配置信息。

2) 设备建模层。针对不同设备进行默认配置信息发现的定义,尤其是针对无法识别的设备,可定义界面,包括如何通过Sensor实现对应配置项的采集定义,覆盖智慧校园中的服务器、操作系统、中间件、数据库对象。

3) 应用映射层。将最终发现的设备配置信息进行应用模型映射,确保所发现的设备与设备配置建模信息一致,并实现相关配置关联及依赖信息。

3.4 平台流程管理

平台为智慧校园一体化运维服务管理功能需求,实现总分一体化管理。主要包括流程引擎、服务台、运维流程等。

3.4.1 流程引擎

平台流程设计完全支持B/S的可视化设计,流程引擎[7]内核为完全自主开发的流程引擎,建模明了、稳定方便。可以在Web上灵活建立活动,并且在活动上建立各式表单组件[8],能够建立分支、合并操作,能够连接活动绘出流程图、线条,以支持直线和折线,从而建立复杂的所见即所得流程。

流程引擎通过图形化和页面操作对流程进行自定义配置、测试和发布。对于有关的复杂业务逻辑和个性化操作,通过便捷而强大的扩展开发机制提供完善支撑。在流程引擎的支撑下,通过图形化的流程定义机制,可以快速配置实现各方运维工作方面的相关流程。

3.4.2 服务台

服务台作为一个服务职能,其主要是为用户和服务组织提供一个统一的联系点,负责接受用户服务请求与事件上报。用户可以通过服务台提交请求、查询状态或报告问题。一旦服务台接收到用户请求,它可以根据预设的规则或策略,将请求分配给相应的流程引擎或运维流程进行处理。如果流程执行过程中需要额外的资源或支持,服务台可以协调相关资源,确保流程能够顺利执行。

3.4.3 运维流程

1) 事件管理:实现自动化流程,提高IT支持效率。可以手工创建或者自动接收IT资源、动力环境、应用级监控等多系统的事件告警,根据预定义规则过滤、合并并自动转化为事件工单,进入事件管理流程响应、解决与恢复。

2) 问题管理:通过分析事件背后隐藏的深层次问题,找到事件发生的根本原因,通过预防性行为从根本上解决某类事件。问题流程的生命周期包含新建、分派、处理、审核、关闭等状态。

3) 日常工作管理:为管理人员处理日常工作提供统一管理入口,方便进行日常工作记录、查看,并可由管理角色进行管理。通过设定策略,定期发起工作提示,并跟踪工作整体进度与具体处理情况。

4) 计划任务管理:制定统一管理入口,方便进行日常工作任务安排。通过设定策略,定期发起工作任务,实现计划任务查询、制定、分类维护和工作查询。

5) 知识库管理:实现知识新建、知识审核、知识发布、知识过期等内容。知识库管理使运维人员可以方便、快捷地获得问题的解决方案,以快速解决问题,提高IT服务效率和质量。

3.5 平台系统集成

3.5.1 集成原则

智慧校园统一运维管理平台有大量的系统集成和开发工作。根据实际的系统和应用情况,制定了统一的接口和标准,在行业通用标准下,采用三层体系结构,使用XML规范作为信息交互的标准。

3.5.2 网管系统对接

与已部署的网络管理系统对接,接收网络管理系统推送的设备告警和性能信息,实现对数据中心硬件设备的统一管理。

3.5.3 综合安防集成

根据综合安防管理系统标准接口格式及协议进行对应的接口开发,将接收的视频系统设备信息和告警信息进行保存和展示。实现“一机一档”设备信息的管理功能,包括信息录入、修改、查询、导入/导出;“一机一档”与视频诊断检测有机融合,实现基于“一机一档”各类属性进行检查服务,并将状态结果与“一机一档”共享数据[9]。

3.5.4 后勤资产集成

根据后勤资产管理系统的标准接口格式及协议进行对应的接口开发,将后勤资产系统所管理的水、电、暖等能源管理信息和告警信息进行保存和展示。

3.5.5 管理服务集成

根据应用管理系统的标准接口格式及协议进行对应的接口开发,将智慧校园所包含的各种管理服务应用系统信息进行保存和展示。

4 结束语

智慧校园统一运维管理平台通过大数据、云计算和物联网等信息技术手段,为校园的日常运维管理提供了高效、便捷、智能的手段。该平台对于提升校园管理效率、保障校园安全、优化资源配置、提高教学质量、促进数据共享、降低运维成本、支持决策分析等方面都具有重要意义。