工业企业数据挖掘和知识图谱系统建设研究

2023-04-05王辉邢伟曹帅阴鹏飞史梦瑶

中国标准化 2023年20期

关键词：工业企业知识图谱数据分析

王辉邢伟曹帅阴鹏飞史梦瑶

摘要：本文介绍了工业企业数据平台分析系统的数据挖掘和知识图谱相关知识，分析了数据挖掘方面的知识体系建设、实体识别、相关的算法和知识图谱方面的技术路线、业务建设、具体应用、核心算法，为业务应用的智能问答系统提供了数据和服务支持。

关键词：工业企业，数据分析，可视化工具，数据挖掘，知识图谱

DOI编码：10.3969/j.issn.1002-5944.2023.20.013

0 引言

数据挖掘和知识图谱系统是工业企业数据平台的大数据中台的重要组成部分。它以工业企业数据平台的采集系统的元数据为基础数据源，其输出成果为工业企业的智能问答系统的业务应用提供数据支撑和服务支撑，对数据挖掘和知识图谱起到承上启下的作用。下面分别从数据挖掘、知识图谱和自然语言处理工具三个方面做论述，希望对读者能有一定的借鉴意义。

1 数据挖掘

1.1 知识体系建设

本平台的知识体系建设包括平台知识体系和机构知识体系。

平台知识体系是指针对工业企业的各个业务平台创建的指标标签体系。包括办公协同平台、经营管理平台、安全生产平台、标准运行平台、共享服务平台、移动支付平台等一级标签。其中办公协同平台对应有一站式信息平台标签、员工自助标签、业务云平台、工资报表、自主招聘等二级标签；安全生产下对应安全生产管理信息平台、安全生产OMS、双预控；虹膜稽核等二级标签；经营管理对应BPC全面预算、数据治理平台、电子商务、合同审计、招投标平台等二级标签[1]。

机构知识体系主要针对本平台所在的直属机构创建的指标标签体系。包括机关部室、共享中心、各级业务部门、客户、供应商等一级标签。

1.2 实体识别

实体识别的技术路线是通过构建结合数据主动命名实体识别系统，准备训练命名实体识别模型所需要的数据集，主动学习模块、数据标注模块、数据增强模块采用顺序化循环的方式对实体识别模块中的命名实体识别模型继续训练并对数据进行标注和增强。训练后的命名实体识别模块对各个数据源的文本进行命名实体识别的过程。本章重点对部门识别样本、人员识别样本、标准识别样本来阐述实体识别的过程。

1.2.1 组织识别样本

业务组织部门识别样本是利用实体识别技术路线对业务组织部门信息识别的具体应用。业务组织部门识别体系包括业务组织部门词典数据集、业务组织部门关联数据集、业务组织部门属性集、测试数据源、业务组织部门主题词识别模块、业务组织部门数据标注模块、业务组织部门实体识别模块，业务组织部门实体增强模块、业务组织部门属性关联模块等组成。

具体实现过程：利用业务组织部门主题词识别模块，从数据源中提取与业务组织部门相关的主题词；通过业务组织部门增强模块和实体识别模块在词典数据集、关联数据集、属性集对识别到的信息进一步加强和规范化；通过业务组织部门数据标注模块对被监测数据源进行实体标签标注，并建立索引；根据检测结果和基础数据集进行反馈和补充，进一步完善业务组织部门基础数据的过程。

针对不同的测试样本进行往复循环的过程成为业务组织部门识别算法的训练和完善的过程。

1.2.2 人员识别样本

人员识别样本是利用人名识别技术路线对不同数据源进行行业人员的识别过程。人员识别体系由行业人员基础数据集、人员属性数据集、测试数据源、基础人名识别模块、人员数据标注模块、人员属性实体识别模块，人员实体增强模块、人员属性关联模块等组成。

具体实现过程：利用基础人名识别模块从数据源中提取出疑似人名的清单；通过人名停用词进行疑似人名的清洗。接下來通过疑似人名与人员实体库进行匹配，满足条件词汇，根据人员属性实体识别模块和人员实体增强模块给疑似人名创建人员实体对象。通过被检数据源中匹配对应的属性信息，对人员实体对象进一步规范化；通过人员数据标注模块对人员信息和被监测数据源进行实体标签标注，并建立索引；经过人工审核后把新识别的人员基础数据对基础数据集进行反馈和补充。

针对不同的测试样本进行往复循环的过程成为识别算法的训练和完善的过程。

1.2.3 标准识别样本

标准识别样本是利用上下游标准固有类别数据集为基础，从不同数据源进行标准信息提取、识别和融合的过程。专家识别体系包括行业标准基础数据集、行业企业基础数据集、标准属性数据集、测试数据源、标准主题词识别模块、标准数据标注模块、标准属性实体识别模块，标准实体增强模块、标准属性关联模块等组成。

针对不同的测试样本进行往复循环的过程成为标准识别算法的训练和完善的过程。

1.2.4 其它实体识别样本

其它实体还包括办公协同实体识别、经营管理实体识别、安全生产实体识别、共享服务实体识别、移动支付实体识别、机关部室实体识别等内容。在此不再赘述。

1.3 算法介绍

1.3.1 分词、词性标注和关键词抽取算法

（1）分词算法。分词主要是基于统计词典，构造一个前缀词典；然后利用前缀词典对输入句子进行切分，得到所有的切分可能，根据切分位置，构造一个有向无环图；通过动态规划算法，计算得到最大概率路径，也就得到了最终的切分形式。

（2）词性标注算法。分词的词性标注过程非常类似于分词流程，同时进行分词和词性标注。

（3）关键词抽取算法。分词系统中实现了两种关键词抽取算法，分别是基于TF-IDF关键词抽取算法和基于TextRank关键词抽取算法，两类算法均是无监督学习的算法。

（4）HMM模型。由于处理的文本大部分为中文文本，基于汉字成词能力的HMM模型识别特别适合本平台的业务场景。利用HMM模型进行分词，主要是将分词问题视为一个序列标注（sequencelabeling）问题。其中，句子为观测序列，分词结果为状态序列。首先通过语料训练出HMM相关的模型，然后利用Viterbi算法进行求解，最终得到最优的状态序列，然后再根据状态序列，输出分词结果。

1.3.2 贝叶斯算法

贝叶斯分类算法是统计学的一种分类方法，它是一类利用概率统计知识进行分类的算法。该算法能运用到大型数据库中，而且方法简单、分类准确率高、速度快。

由于贝叶斯定理假设一个属性值对给定类的影响独立于其它属性的值，而此假设在实际情况中经常是不成立的，因此其分类准确率可能会下降。为此，就衍生出许多降低独立性假设的贝叶斯分类算法，如TAN（tree augmented Bayes network）算法。

2 知识图谱

2.1 技术路线

知识图谱基于语义解析的问答技术，是一种管道式的方法。首先需要对用户的查询问句进行语义解析，获取查询对象、对象约束与用户意图，而后根据查询对象、约束之间的关联关系形成查询图，最后使用查询图与知识图谱进行匹配和推理，获取并推送给用户所需要的知识。

其中涉及的关键技术有：命名实体识别（用于获取查询对象以及约束对象的字符串表达）、实体链接、语义解析、图匹配算法（用于将查询图与知识图谱进行匹配，获取最终答案实体）、文本生成算法（以答案实体、知识图谱与用户问句作为条件，生成易于理解的文本返回给用户）[2]。

2.2 业务建设

针对多数据源的融合应用，构建基于多数据源的知识图谱。首先，对不同来源的数据构建相应的本地库，并将不同的本地库通过数据融合映射到全局本地库。然后，利用实体对齐和实体方法进行知识获取和融合。最后搭建知识图谱应用平台，提供查询和统计等操作。

2.2.1 知识图谱构建过程

知识图谱的构建分为两步：知识图谱本体层构建和实体层的学习。其中，本体层构建包括主题词抽取、同义词抽取、概念抽取、分类关系抽取、公理和规则学习；实体层学习包括实体学习、实体数据填充、实体对齐和实体等。

知识图谱的构建方法包括自上向下和自底向上两种。自上向下的方法指先构建知识图谱的本体，即从煤炭行业领域、煤炭行业词典及其它高质量的数据源中，提取本体和模式信息，添加到知识库中；自底向上方法指从实体层开始，借助一定的技术手段，对实体进展归纳组织，实体对齐和实体等，并提取出具有较高执行度的新模式，经人工审核后，补充到知识图谱中。

2.2.2 多数据源融合的知识图谱构建

为实现各类知识图谱服务支撑的快速查询，本平台在融合多种数据源的情况下，构建了多数据源的知识图谱。首先对不同实体构建不同领域的本地库，然后将不同领域经过映射成全局本地库，接着对各领域的知识库实施实体对齐过程和实体过程，丰富和扩展构造多数据融合的知识图谱。

2.2.3 实体对齐

实体对齐，也称实体匹配或实体解析，是对相同或者不同数据集中两个实体是否指向真实世界同一对象的过程。实体对齐如图1所示。

本系统通过实体对齐，发现在不同知识库中的实体名称，并将这些实体进一步合并，对该实体创建标识索引，最终将该实体添加到对应的知识图谱的过程。

2.2.4 实体说明

实体是指对于从文本中抽取得到的实体对象，将其到知识图谱中对应的正确实体对象的操作。实体说明如图2所示。

其指导思想是根据给定三元组的头（尾）实体和关系，从知识图谱激活相关文本数据，选出一组候选实体对象，并通过实体预测算法，计算出正确的尾（头）实体，并将得到的三元组添加到对应的知识图谱中。

2.3 图谱应用

知识体系统计是指知识体系中结合具体行业固有类别标签的分析统计过程。在该过程中，需要依据行业固有的类别和标签进行主题词、属性词、相关词、场景词等产生关联和上下拓扑关系，从而通过行业固有类别或者标签，根据知识体系，能通过检索和识别、拓扑，提取出针对行业有实际经济效益价值的一系列有效信息。

2.3.1 区域图谱

区域图谱指能源企业在地域上的拓扑关系化。本过程需要关联能源产业链的上下游企业关系、能源企业之间的隶属归属关系、能源企业在地域上分布关系等。输出成果为在全球地图上呈现不同地域时间的地区分布图谱。

地域信息统计是指把知识体系中的对象信息按照地域信息进行统计的过程。地域范围从大到小分别包括世界级、洲际级、国家级、行政区域级、城市级等几个级别，按地区进行关联展示。

2.3.2 技术信息统计

针对技术类别的属性指标、标签指标，结合能源行业业务知识相关性，按照业务权重形成行业标签图谱。图谱对应标签可以关联到企业、产品、技术、文献、组织等一系列的相关信息。本知识图谱支持重的上行下钻动作。

技术信息统计是知识体系依据产品标签级行业固有类别进行统计的过程。本系统统计的对象为企业，可以通过产品类别、固有行业标签等信息顺利统计出相关联的企业信息。然后再通过企业信息关联到企业的其他属性信息。

2.3.3 趋势分析统计

趋势分析图谱通过对状态监测、控制系统、回归分析等一系列指标与新闻、论文、专利等发布时间进行关联，从而分析不同指标下新闻、论文、专利等的活跃趋势过程。

趋势分析统计过程是依据行业相关知识成果体系进行时间范围统计的过程。统计对象包括新闻、论文、专利等知识成果，统计维度为时间，统计的指标为时间段内的成果数目。

2.4 核心算法介绍

2.4.1 三元组构建算法

基于知识图谱的问答系统很难直接回答自然文本状态的问题，所以我们要把问题转化为一定的问题模板集。确定了候选的问题模板集，然后就可以利用原始问句，从中找到语義最接近的具体模板（通过最小编辑距离）。再对于具体的问题模板，人工设定对应的具体回答方式，就能够保证回答与问题在语义上的协调性。

2.4.2 关系模型到本体模型映射算法

关系数据模式到本体映射关系的建立，是一类典型的模式匹配问题。所谓模式匹配问题，指的是在不同的数据模式中找出语义相同或相似的元素对，并构造映射关系的一类问题，即建立数据库表到本体中类的映射以及数据库表中字段到本体类的属性的映射。

2.4.3 实体对齐算法

（1）实体消歧。含义：实体消歧的本质在于一个词有很多可能的意思，也就是在不同的上下文中所表达的含义不太一样。例子：“苹果”实体描述，“我的手机是苹果”和“我喜欢吃苹果”这两个句子中的“苹果”代表的含义是不一样的。前者代表是手机、后者代表是水果[3]。

（2）共指消歧。共指消歧，又称指代消解。由于自然语言充满歧义，必须使用多种信号和知识来消除歧义。需要基于对周围世界的了解才能明白这些指代，而这种知识很难编码到计算机中。

2.4.4 实体映射算法-rans系列算法

知识图谱的表示学习即将知识图谱构建成一个（头实体，关系，尾实体）的三元组形式，通过目标函数将实体和关系分别以低维的向量来表示。Trans方法主要有TransE、TransH、TransR、CtransR、TransD、TransA以及TransG等。

3 自然语言处理工具

3.1 可视化工具描述

本系统采用的可视化工具是通过以WPS插件形式，通过提取结构化数据库数据、本地非结构化的文本文件数据，通过插件面板形式把数据处理中涉及的各个步骤均通过功能按钮或面板形式呈现给客户。

3.2 数据编辑辅助工具

WPS文字端工具，包括文本导航目录（左侧面板），为用户提供结构化的库表数据和非结构化的本地数据。无论是库表数据还是本地数据，均可以通过WPS文字端进行呈现和展示，并且允许对呈现的数据进行文本编辑和字段编辑。编辑完成后根据用户需要把内容信息存储到原始文件/目标地址中。

本工具还提供了针对语义分析、标签算法中基础词库的编辑功能。针对图片、PDF、音频等功能的自动识别工具。协助用户对非常规的数据源进行文本处理转化。

4 结语

本文阐述了分析系统的数据源情况、数据中台的核心业务、用户服务的业务应用对象及数据中台中涉及的可视化工具。通过打造工业企业的数据中台服务，并构建符合业务应用的数据和服务支撑，既对大数据采集系统的应用和能力进行验证，也被智能问答平台及其他业务系统所验证。通过此类迭代式相互促进，可大幅度提升工业企业对大数据中臺建设的参与和认知程度，从而使数据中台的理念、机制和成果更好地服务于工业企业。