知识图谱在IT智能运维中的应用探析
2023-07-26刘映霓
刘映霓
(中国人民大学 信息资源管理学院,北京 100872)
0 引言
银行数据中心传统IT 运维工作的问题和挑战主要表现为:主要依靠运维人员的技能经验,IT 运维工作压力和强度很大、风险高、效率低、责任重大。因此,如何实现快速、高效的IT运维管理,成为银行数据中心IT 运维领域的关键问题;尤其在大数据、云计算等技术快速发展的今天,银行新形态业务对可用性、稳定性、可靠性等的要求进一步提高,使得IT 运维问题和挑战更为突出。
中国人民银行在其发布的《金融科技发展规划(2022—2025年)》中指出:“建立健全金融数据中心智能化运维机制,加强多场景协同联动、多节点一体管控,提升节点感知、异常发现和故障预测能力,降低人工操作风险,推动运维管理模式转型升级。”为了解决传统IT 运维问题,近年来,银行数据中心遵循人行的规划要领,在智能运维(AIOps) 方面发力,将传统运维中的关键、突出和典型的运维问题逐渐纳入智能运维框架下进行探索处理,以推动IT运维向数字化和智能化转型。智能运维依托的是人工智能技术,知识图谱作为人工智能的重要组成部分,在智能运维发展中的基石作用日益凸显。
知识图谱技术虽然已广泛应用于互联网、电商、医疗、金融、教育等行业中,但在银行IT运维领域还处于比较初级的阶段。本文从知识图谱的概念和在IT运维领域的应用特点出发,基于智能运维中的知识图谱研究现状,根据IT运维的实际需求和面临的问题,探讨知识图谱在银行数据中心IT运维领域的应用场景、应用方向、应用前景及发展重点,以期对知识图谱在银行数据中心智能运维的应用方面有一个全面认识。
1 知识图谱在IT智能运维领域的应用特点
“知识图谱”是Google 公司在2012 年提出的概念,目的是能够更快更简单地发现新的信息和知识,搜索结果也能体现一定的层次结构。知识图谱本质上是一种语义网络,是结构化的语义知识库,由“实体-关系-实体”或者“实体-属性-属性值”这样的三元组构成,通过图的形式呈现,图中的节点表示概念或实体,边表示事物的关系或属性。构建知识图谱的知识源来自相关的结构化、半结构化和非结构化的数据。知识图谱分为通用知识图谱和领域知识图谱,通用知识图谱涉及常识性知识,展现知识的广度;而领域知识图谱则涉及特定领域知识,体现知识的深度,运维知识图谱是典型的领域知识图谱。
知识图谱的逻辑结构包括模式层(schema) 和数据层(data) 两个层次,其构建方法有两种:自顶向下(先模式层后数据层)和自底向上(先数据层后模式层)两种方法;领域知识图谱大多采用自顶向下的方法进行构建,主要因为领域知识图谱所涉及的概念、定义、框架等经过长期积累和反复实践已基本成为稳定的经验模式。运维领域知识图谱的构建过程主要包括知识建模、知识获取和抽取、知识融合、知识存储、知识推理等。知识图谱的主要特点是:1) 知识图谱对各种数据和知识的表达形式统一,为不同来源知识的有效融合奠定了基础。2) 知识图谱以图结构格式存储知识,有利于快速进行知识的遍历检索并支持高效智能的知识推理。因此,知识图谱已经成为实现智能运维的关键技术之一。
图1 领域知识图谱技术体系
在银行数据中心IT运维中,知识图谱的应用特点如下:
1) 具有典型的领域性和很强的专业特性。
2) 具备长期积累的运维大数据可利用。
3) 具备现成的网络拓扑结构所带来的初步构建的便利性。
4) 需要运维领域专家经验知识的指导和融合。
5) 需要能支持快速检索和高效推理的数据库来存储运维知识。
6) 多采用自顶向下的构建方式。
知识图谱应用于银行数据中心的IT运维,就是将长期积累的IT运维大数据进行有效地抽取、处理并以实体、属性、事件和相互之间的关联关系为元素存储到相应的数据库中,进而形成运维知识图谱。构建完善的运维知识图谱既可用于紧急运维事件和故障的辅助处理以加快问题分析、故障诊断和根因定位的进度,也可用于日常运维知识的展现、知识管理和IT 设施健康状态评估等,对提高IT 运维工作的质量和效率、促进IT 运维的良性发展、为银行业务提供更加稳定和安全的运行保障具有十分重要的意义。
2 知识图谱在IT智能运维领域的应用探索
银行数据中心的各种IT 设备、系统、应用涉及不同厂家,不同厂商提供各自的监控管理平台和系统,导致所产生的海量运维数据基本处于相互独立分散的状态,在传统运维中,这些运维数据对IT 运维管理未能充分发挥系统性的作用;而在智能运维的框架下,通过人工智能技术特别是知识图谱技术的应用,把这些分散的运维大数据组织起来,进行有效处理和逻辑关联,构成具有网状存储特点的运维知识图谱,以协助加快解决传统运维的问题。
2.1 运维知识图谱的基本构建流程
银行数据中心IT 管理中的配置管理数据库(CMDB) 和网络拓扑结构为构建IT运维知识图谱提供了便利和优势,也是快速构建IT 运维知识图谱的基础。IT运维知识图谱的基本构建流程如图2。
图2 运维知识图谱构建流程
1) 运维需求分析:结合传统IT 运维问题,对紧急事件处理和日常运维管理方面相关的应用场景进行需求分析。
2) 运维知识图谱建模:在IT运维领域专家经验的基础之上,以运维实体、事件为出发点,对IT设备和系统的基础信息、状态信息、性能指标、告警信息、运维信息以及各种关联关系等进行梳理、定义和表达,建立“实体-关系-实体”“实体-属性-属性值”的三元组形式和以事件为核心的多元组形式相结合的运维知识图谱的模式,这个过程的结果需要人工反复核验,以保证模式框架的正确性。
3) 运维知识抽取/转换:根据第一步建好的运维知识图谱的模式,选择所需的现有结构化(如CMDB) 、半结构化(如日志)和非结构化(如产品文档)的运维数据进行知识转换或抽取,并结合运维专家的经验,具化运维知识图谱模式。
4) 运维知识融合:对知识抽取阶段来自多个信息数据源的知识进行实体、属性、概念的对齐、消歧、统一以及合并等知识融合工作,形成初步的运维知识图谱的知识库。在此融合阶段就开始相关的质量审核,以确保已有的运维知识图谱内容的一致性和准确性,为形成能有效协助和支持实际运维工作的运维知识图谱奠定基础。
5) 运维知识存储:把经过以上抽取并融合的运维知识图谱的知识库存储到所选择的相应数据库中。
6) 运维知识加工:知识加工主要包括知识推理和全面的质量评估。在知识融合之后,运维知识图谱就初步形成了,但可能知识内容缺失不全,可以通过知识推理技术进一步发现潜在的知识并补全或更新。因为银行数据中心运维知识图谱的重要性,构建完的知识图谱在投入应用之前需要做全面的质量审核与评估,以确保其准确性、一致性和完整性。
7) 运维知识应用:运维知识图谱可以展示出物理设备、虚拟机、系统、应用、进程、服务之间的逻辑关系等,能用于紧急事件或故障的辅助运维处理和日常运维管理工作,可以结合银行数据中心实际运维应用需求,落实相应的应用场景的设计和使用。
2.2 运维知识图谱的应用场景
在知识图谱构建完成后,可以基于知识图谱设计和开发所需的运维应用。从目前银行业智能运维知识图谱的应用研究、实践和发展来看,主要有两方面的应用:1) 面向紧急事件或故障处理的应用;2) 面向日常运维的应用。
2.2.1 面向紧急事件或故障处理的应用
面向紧急事件或故障处理的应用主要包括故障原因分析、故障影响范围、系统告警收敛方面。
1) 故障原因分析
当IT 系统和网络发生故障时,传统的排障过程是:故障发生→产生日志和告警→运维人员分析处理→原因定位→排除故障,故障处理的效果和结果,主要取决于运维人员的经验和技能,效率不能保障。应用知识图谱后,重点在于运维知识图谱能协助运维人员进行故障信息的分析和处理,正常情况下,构建完整的运维知识图谱融合了运维领域内专家的重要经验、设备和系统知识、网络知识、完备的关联关系、规则知识、案例知识等;当故障发生时,知识图谱的推理功能将依据这些知识和规则对故障日志告警信息进行更为精细的分析推理,给出推理结果,帮助运维人员尽快找到故障原因。因此,应用运维知识图谱能从根本上加快故障处理进程,提高故障处理的效率。
2) 异常事件的影响范围
当异常事件或者故障发生时,会产生相应的日志、告警等,运维知识图谱基于知识库中的关联关系和规则等知识能推理出异常事件或故障的波及范围,并把结果推送到前台,运维人员可以据此采用自动化或半自动化的方法调出与异常事件或故障相关的子图,供进一步研判。
3) 系统告警收敛
在传统运维过程中,当异常事件或故障发生时,会产生大量的相关日志和告警等,这极大降低了运维人员处理故障和事件的效率;应用知识图谱后,运维知识图谱的推理功能可以基于知识库的相关知识对告警传播路径进行推理分析过滤,可以有效屏蔽无关告警、大幅减少告警数量,使重要的核心告警容易“脱颖而出”,大大提高了异常事件或故障的分析速度。
2.2.2 面向日常运维的应用
面向日常运维的应用主要包括故障案例库知识管理和IT设备管理方面。
1) 案例库知识管理
在多年的运维工作中,银行数据中心IT运维人员积累了丰富的运维经验,这些经验凝结成了一个个的运维案例,传统是以手册或者电子文档的形式保存,但实际受各种情况和条件的限制,总有漏记未存的经验知识,而且在紧急情况下,查手册和文档并不方便。当以知识图谱的方式梳理运维案例时,就“激活”了这些运维案例,这种智能化的技术手段不仅解决了运维经验的高效使用和分享问题,也促进了运维人员技能的快速普遍提高。
2) IT设备管理
在知识图谱构建过程中,IT设备的性能、容量、状态、产品信息等也作为基础知识被抽取出来存入知识库,供运维知识图谱分析推理之用,也可结合预先设置的规则、阈值和关联关系等对异常事件进行预警,提示运维人员在问题出现之前及时采取相应措施以规避风险。运维知识图谱可以根据构建时的设置情况自动产生设备状况报表,或者人工进行知识查询获得相关运维信息,使运维人员能及时掌握IT设备运行情况。
3 知识图谱在银行IT运维领域的发展前景
基于知识图谱的IT 运维方法彻底改变了传统的主要依赖于人的运维方式,得益于运维知识图谱的知识推理、知识查询、人工交互等功能与技术的运用,实现了IT 运维管理的自动化和智能化。在目前银行数据中心IT运维知识图谱应用探索和实践的基础之上,可以在运维知识管理、故障预警、故障解决自愈等应用方向上继续发挥知识图谱的重要作用。
传统IT 运维知识管理主要以文档和文件的形式保存和管理,包括纸质文档,电子文件文档等,积累量大,利用率和共享率低,经验知识沉淀不足,大量运维数据中的隐藏知识有待挖掘。基于知识图谱进行运维知识管理,可以使用图的形式表达运维概念、知识点和知识点之间的关系等,利用知识图谱的推理功能挖掘出运维数据中的潜在知识;图形式表达的直观性,有利于提高运维知识的利用率和共享率,潜在知识的挖掘有助于运维知识体系的完善和运维工作效率的提高。
传统运维中,没有系统性的方法进行故障预警。应用知识图谱后,可以收集和处理IT 设备、系统、网络、应用等的日志、告警信息以及相关性能、容量、状态、负载等数据,结合常见和重点的IT故障场景,构建故障预警知识图谱,通过知识图谱的可视化功能展示出哪些IT因素及其变化与相关故障的关联性,帮助运维人员预判异常事件或故障触发的可能性、提前采取相应措施消除隐患,尽可能规避故障的产生,减少IT故障率和影响,提高IT运维质量。
故障自愈不仅是故障解决过程中的一个自动化环节,也是减轻运维人员压力的重要手段之一。对于无须人工干预的安全级别较低的普通故障,可以设计相应的故障自愈程序进行关联,当运维知识图谱完成故障原因定位并确定故障影响和安全级别后,自动触发运行预先设置好的故障自愈程序,修复故障,恢复正常。虽然故障自愈是运维管理的一种理想状态,但由于银行业务要求的重要性和安全性很高,不适宜在生产运维中采用,而在测试中心等非生产环境的运维中可以尝试采纳,并人工复核结果。尽管如此,故障自愈在尽可能解放运维人力方面值得深入研究和探索。
可以看到,知识图谱在银行数据中心IT运维管理中的应用前景是广阔的,同时还有很长的路要走。在学术界不断研究和各行各业积极探索应用知识图谱的大背景下,银行数据中心可以结合智能运维管理工作的重点和难点,顺势深挖研讨知识图谱技术,应用知识图谱到运维管理的各个契合点,从根本上解决传统IT运维的问题。
4 结束语
随着人工智能技术在银行数据中心IT 运维中的使用,知识图谱在智能运维中的应用逐渐深入;银行数据中心大数据的特性和典型的应用场景,使得知识图谱在智能运维中的应用价值突出,从而高效助力银行数据中心智能化IT运维。
基于知识图谱的智能运维将使银行数据中心IT运维的技术和手段从以产品和厂家为特点的离散独立状态整合为自动化智能化的逻辑统一体。运维工作逐渐从以“人”为中心转为以智能化“体系”为中心,使IT 运维人员逐渐从一些重复性的运维工作中解脱出来,有更多精力自我提升、从事创新工作,这有利于进一步推动IT运维体系的智能化发展,从而尽可能地减少被动运维,提升主动运维能力,达到运维人员、运维工作、运维体系的良性循环。