基于知识图谱的智能问答系统实现与应用*
2022-04-14南方电网调峰调频发电有限公司信息通信分公司董天波
南方电网调峰调频发电有限公司信息通信分公司 董天波
本文首先对知识图谱智能问答分析系统发展现状简要分析,然后从深度学习的文本特征提取技术原理、规则引擎基本原理、智能问答系统基本原理等方面分析研究原理和理论依据,从依托工程、实践基础等方面分析研究实践依据,基于知识图谱的智能问答分析系统实现理论和实践依据阐述研究的关键点和难点,最后阐述基于知识图谱的智能问答分析系统技术路线,并从IT设备质量信息文本特征提取技术、IT设备质量信息知识发现技术、IT设备质量事件智能问答技术等方面阐述基于知识图谱的智能问答分析系统实现与研究方案。
知识图谱关联的IT设备故障与智能问答系统相结合,通过智能助手系统,采集到相关故障,通过问答对找到根本原因,依据IT设备故障相关报告处理故障,改善IT设备运行环境,提高IT设备运维效率。电力、机械、IT等行业中知识图谱的智能问答分析系统的研究价值更是远超于其他行业,IT设备智能问答分析系统若能根据知识图谱智能问答分析系统自主判断故障位置和原因,则IT设备智能问答分析系统维修效率和质量可以获得极大提高。
1 知识图谱智能问答分析系统发展现状
国内研究人员主要使用Filter算法、Wrapper算法、Embedded算法研究文本特征自动提取方法,IT设备文本中运用知识工程的领域本体构建方法、叙词表的领域本体构建方法、顶层本体的领域本体构建方法完成海量非结构化质量信息数据的获取,这样再使用JRules、Drools、Mandarax、IBM ILOG、QuickRules等规则引擎即可不断优化算法模型[1]。
国外研究人员可以直接利用DBpedia、Yago等高质量大规模开放知识图谱,采用一种多源数据融合的框架或者原语、功能和模型构建的多维信息的集成框架实现智能应用的高层次融合,例如智能问答机器人。
2 基于知识图谱的智能问答分析系统实现理论和实践依据
2.1 研究原理和理论依据
(1)深度学习的文本特征提取技术原理。为了搭建起文本语言与计算机语言之间的桥梁,需要采用文本特征提取技术,该技术的核心任务就是将文本向量化。研究人员可以先扫描语料库记录词组信息,随后基于词频分析构建起向量空间,实现文本向量化,但是IT设备智能问答分析系统中文本信息是海量的,因此需要基于深度学习进行文本向量化。深度学习中经常使用卷积神经网络算法,通过观察、提取特征得到分类结果,其优点是准确率较高。卷积神经网络可以在提取特征信息之后通过全连接层提取最终特征信息。卷积层中卷积运算公式如式(1)所示:
公式(1)中各指标意义如下:Z表示卷积运算最终的结果矩阵;d为窗口的宽度和高度;i,j表示滑动窗口的索引;x表示输入矩阵向量;m,n表示滑动窗口对应矩阵的局部区域索引;W表示卷积核;b表示偏置参数[2]。
(2)规则引擎基本原理。规则引擎基本原理为利用文本特征提取技术提取IT设备文本中设备参数、地点、时间、原因及处理措施等关键信息,最终形成一套以设备质量、设备状态管理和设备处置相关规定为依据的业务规则的设备质量信息规则引擎构建方法。其核心就是获取知识,再应用知识到特定的数据上,它可以将任何复杂的业务逻辑清晰、简要地表达出来。规则引擎具有灵活快捷、逻辑和数据分离、知识集中化、实现业务逻辑与业务规则的分离等优点[3]。
(3)智能问答系统基本原理。基于大量IT设备文本建立起的IT设备知识图谱与规则引擎需要通过智能问答系统才能够与IT设备运维人员方便地进行信息交互与反馈更新,从而实现人机之间关于IT设备质量事件的问答对话[4]。智能问答系统处理框架如图1所示。
图1 智能问答系统处理框架Fig.1 Processing framework of intelligent question answering system
2.2 研究实践依据
(1)主要研究方向。知识图谱关联的IT设备故障与智能问答系统相结合,通过智能助手系统,采集到相关故障,通过问答对找到根本原因,依据IT设备故障相关报告处理故障,改善IT设备运行环境,提高IT设备运维效率。
(2)实践基础。基于知识图谱的智能问答分析系统打造一个集状态全面感知、信息高效处理、应用深度智能为特征的IT设备运维中心,针对当前IT设备状态实时监测难、信息传输效率低、状态评价智能化水平不足的问题,通过多维状态信息融合监测实现设备状态的全面感知,结合边缘代理技术实现状态监测数据的安全接入和高效传输,进一步应用智能AI主动学习技术,深度挖掘多维状态监测信息,实现设备状态的精准评价和智能决策。同时以设备文本信息结构化为基础,将与设备管理密切相关的信息作为知识点进行整合,通过对结构化与非结构化知识的抽取与融合,形成了以相似案例推荐、知识检索为核心的设备高级知识库,同时再不断拓展设备知识驱动的高级应用,提升设备管理智能化水平。
2.3 研究关键点和技术难点
(1)关键点。基于知识图谱的智能问答分析系统实现与研究必须先根据IT设备文本数据的普适性、多样性、多场景构建IT设备本体标准与方法,并保证IT设备领域文本的高准确率、实用化自动抽取。而知识表征技术必须包含数值单位、复杂逻辑、计算公式的物理机理,使其具备自动挖掘、知识的自动发现规则。这样在高质量的IT设备文本数据下,才能完成IT设备文本中复杂问题的解答,因此IT设备处理服务器、芯片必须采取并行与分布式方式。
(2)技术难点。基于知识图谱的智能问答分析系统实现与研究必须收集大量的IT设备文本数据,而IT设备领域中大部分都是专业术语,直接从互联网爬取相关数据信息并不准确。基础IT设备文本数量如何根据复杂的规律、公式对相关的问题进行解答也是其中的关键问题,因此研究人员必须解决小样本的情况下该系统如何基于自学习算法覆盖全部故障类型处置方案。
3 基于知识图谱的智能问答分析系统技术路线及实施方案
3.1 项目整体研究技术路线
项目总体技术路线如图2所示。
图2 项目总体技术路线Fig.2 Overall technical route of the project
3.2 基于深度学习的IT设备质量信息文本特征提取技术研究
(1)研究基于领域的IT设备质量信息本体模型构建方法。首先开展本体构建引擎调研总结本体构建方法的成功经验,然后开展领域本体构建引擎评价研究比较各方法技术的优缺点,最后优选本体模型构建引擎并制定本体评价标准对所建本体模型的概念体系,这样即可得到IT设备质量信息本体模型。
(2)研究基于人工标注的IT设备质量文本特征自动提取方法。首先对故障案例、处置方案、规范、导则、标准、科研论文等IT设备文本数据进行广泛收集通过多部门协调合作,大量收集、整理与IT设备质量相关的文本,然后开展IT设备文本预处理技术研究通过人工标注初步形成IT设备质量信息文本特征词字典,最后开展IT设备文本表示方法和实时自动信息抽取技术研究,对信息抽取模型进行修正和评估。
(3)研究基于深度学习的IT设备质量信息融合方法。首先开展IT设备多源质量信息融合需求分析掌握IT设备质量信息来源和特点,提出IT设备多源质量信息融合需求,然后开展深度学习框架下的多源异构数据融合机制设计,最后开展基于深度学习的IT设备质量信息融合算法研究,这样才能提出异构数据的设备质量信息融合方法。
3.3 融合知识网络与规则引擎的IT设备质量信息知识发现技术研究
(1)围绕业务规则研究IT设备质量信息规则引擎构建方法。首先建立IT设备质量信息规则引擎的业务规则,编写规则引擎所需的规则文件,然后提取出的信息是人类所使用的自然语言,对业务规则进行规则编译,最后对IT设备质量信息规则引擎的模式识别方法进行研究,得到推荐的IT设备故障原因及故障处置方案的功能。
(2)结合知识网络结构与规则引擎,研究IT设备质量信息知识发现方法。首先提取冗余数据并对有效数据进行归类和挖掘,得到真实案例中的故障现象、潜在故障原因与故障处置方案等有效信息,然后开展不同故障原因与故障现象之间的映射关系的建模分析,构建故障原因与故障现象之间的映射关系网络,最后完善规则引擎相关判断处置功能,建立可高效准确工作的设备质量信息规则引擎。
(3)研究基于置信度的专业领域知识网络数据质量评估与治理方法。首先建立一套IT设备安全管理文本智能分析系统评价体系,然后选取大量真实设备案例文本,并利用统计学原理,关联规则算法等计算得到系统结果的置信度,最后并将相应结果补充进入业务规则、知识图谱,实现系统治理,形成高置信度的设备质量信息知识网络。
3.4 基于数据挖掘的IT设备质量事件智能问答技术研究
(1)研究基于数据挖掘的IT设备质量事件特征标签分析方法。首先通过研究文本数据挖掘技术实现对主设备质量事件样本特征提取及标签归类,然后训练文本特征深度学习模型使其能够自动识别文本中存在的质量事件特征,最后评估验证深度学习模型实现IT设备质量信息知识库在应用层上的开发与集成。
(2)研究基于特征标签与图搜索的IT设备质量事件智能问答方法。首先利用信息抽取模型生成被问询质量事件的问句子图,然后开展图搜索方法获得基于现有数据库的具有最高置信度的答案信息,最后基于样本特征标签与图搜索方法帮助其进行故障判断与决策处理,这样才能不断提高智能问答引擎性能。
4 结语
综上所述,本项目将首先通过分析IT设备质量信息数据,对海量非结构化的文本数据中包含的词、语法、语义等信息进行标识、理解和抽取,挖掘其中存在的知识、规律,其中重点研究文本数据特征提取技术,建立可提取文本数据中设备参数、地点、时间、原因及处理措施等关键信息的文本特征提取模型。然后研究IT设备质量信息关联分析技术,融合知识网络与规则引擎,实现质量信息知识图谱建立、关联分析和原因推荐。最后研究IT设备质量事件智能问答技术研究,实现质量事件特征标签分析和智能问答。