APP下载

多源异构数据情境中企业知识图谱模型构建研究

2020-11-18李学良李劲华

福建质量管理 2020年20期
关键词:本体图谱实体

李 雪 李学良 李劲华

(青岛大学数据科学与软件工程学院 山东 青岛 266071)

20世纪以来,大数据和互联网技术持续发展,各金融机构以及各大互联网平台产生了大量的与金融相关的数据,这些数据中蕴含了大量的实体信息以及实体之间的关系信息,为构建知识图谱奠定了基础。经过处理和分析的金融大数据,不仅可以实现企业的精准营销,风控,还可以帮助企业预测风险。因此,如何深入挖掘并利用金融大数据成为当前人们关注的热点。网络上的数据具有数量大,结构多样,以及动态更新等特点,为了使万维网成为人和机器都可理解的网络资源,就需要一个具有开放互联和强大语义理解和的知识库工具,知识图谱应运而生。

2012年,谷歌公司率先提出知识图谱的概念,并成功将其应用于搜索领域,增强用户的搜索质量和体验。其实Berners-Lee于2006年就提出了相似的语义链接的概念,建议优化本体模型来形式化表达数据中的隐含意义。通用型知识图谱的数据来源广,而且语义表示上的泛化性会影响预测的准确度,因此不适用于专业领域的知识推理,尤其是要求高的金融领域,所以构建领域知识图谱对于金融方面是很有必要的。另外虽然现在市面上有大量的知识图谱,但是金融领域的知识图谱还比较匮乏,而且一般只关注于知识图谱的某一方面,具有一定局限性。

综上,本文以金融数据为数据源,从数据获取,本体构建,知识抽取、融合及推理等问题入手,提出企业知识图谱构建的理论模型,详细描述了图谱的构建流程,推动金融领域的数据挖掘与应用。

一、知识图谱概述

(一)知识图谱定义

知识图谱旨在用图的形式表示现实世界中实体及实体之间的关系,实体或概念以节点表示,属性或者关系以边表示。目前知识图谱的知识表示采取的是三元组表示法,三元组表示法形式为“实体a,实体关系,实体b”、“实体,实体属性,属性值”,通过关系联结实体,形成网状的知识库。知识图谱的应用价值在于通过知识推理实现概念检索,改变了信息检索的方式,更贴近客户需求,且结果可以以图形化的方式向用户展示,更加高效,大大提高了检索的速度。表1给出了当前主流的知识图谱及相关应用。

表1 知识图谱及其相关产品

(二)知识图谱架构

知识图谱的架构包括两部分,分别是本身逻辑架构和知识图谱构建所使用的体系架构。在逻辑架构上看,知识图谱又包括两部分,分别是模式层和数据层。众多事实所在的层是数据层,它们以三元组的形式存储在图数据库中。知识图谱的管理层是构建在事实数据层之上的模式层,它制定了数据层应该遵守的制度和规则。而知识图谱的模式层通常采用本体库来管理,能很好的规范管理实体、关系及属性。通过本体库形成的知识库层次性强,知识规范冗余小。知识图谱架构如图1所示。

图1 知识图谱架构

二、企业知识图谱数据源

(一)企业数据分类

企业知识图谱旨对金融领域的数据所涉及到的事实进行统一的提取和表示。常见的金融数据有规范的政府提供的数据,也有不规范的百度百科词条。根据数据的表现形式,结构化数据包括政府相关部门提供的MySQL数据库,半结构化数据和非结构化数据包括百度百科的词条等。由于政府提供的数据已经是规范化的,所以我们的数据获取主要是针对不规范的网页数据的处理。

(二)数据获取

本文基于WebMagic爬虫框架,通过编写正则表达式对网页中的数据进行抽取。WebMagic框架主要由Downloader、PageProcesser、Schedule和Pipeline四部分组成。爬虫系统的工作流程:第一步先对政府相关部门提供的数据进行解析,提取出企业的名称,然后通过百度百科统一的API接口配置出初始URL。第二步是下载器通过初始URL下载,生成Page信息。第三步是页面解析器对Page进行解析并获取新的URL。第四步是调度器负责管理URL并进行去重操作。第五步是管道器对结果进行保存。数据抽取之后,将抽取到的与实体相关的词条转化为结构化的知识进行存储。爬虫框架图如图2所示。

图2 爬虫框架图

三、企业本体构建

(一)本体的概念

本体一词是由哲学领域引入,定义是“对世界上客观世界的系统描述”。而在计算机科学领域,本体是某个领域知识的通用概念模型,是概念建模的规范,是客观世界的抽象描述。目前被高度认同的本体定义1998年德国学者Studer提出的,对本体非常形象化的概念,即“本体是共享概念模型的形式化说明”,此定义给人们理解本体,研究本体提供了很大帮助。在知识图谱中,本体处于模式层,提供了上层的数据模式,是知识图谱至关重要组成部分。

(二)本体的构建方法

本体构建同样也被称为本体学习,它是为了表达领域内概念之间关系的明确定义。不同领域的本体构建的构建方法大相径庭。骨架法,TOVE法,七步法是当前认可度较高的本体构建方法。

(1)骨架法是由USHPLD和KING在构建实体过程中总结出来的方法。骨架法分为知识分类以及本体编码表示这两个阶段。骨架本体构建法可以分为四个步骤,首先确定本体的目标以及范围,再进行本体构建,本体构建之后然后对本体进行评测,最后一步是文档化。其的具体流程如图3所示。

图3 骨架法

(2)TOVE企业建模法源于构建企业实体过程中的总结,所以TOVE企业建模法专门用于企业的本体构建。其流程如图4所示。

图4 TOVE法

(3)七步法是斯坦福大学开发出来的专门用于本体构建的一种方法。顾名思义七步法分为七个步骤,它的七个步骤分别是:确定本体范围,再确定目标;再研究现有的本体能否重复利用;罗列出重要的术语;定义类之间的层次关系;定义类的属性以及定义类属性之间的关系;定义属性的约束;最后创建实例。七步法流程如图5所示。经上述方法构建的本体模型如图6所示。

图5 七步法

图6 企业本体RDF图

四、企业风控知识图谱模型构建

目前知识图谱主要分为自底向上和自顶向下两种构建方式。其中自底向上是先对数据进行归纳概括,先形成下层的概念,然后逐渐向上抽象,形成上层的概念。一般公共领域知识图谱会用到这种构建方式,特点在于具有海量数据,这样做出来的知识图谱覆盖面广。自顶向下方式则刚好相反,它首先定义的是知识图谱的本体。构建本体的过程中,自顶向下采取的是先从上层概念开始,再逐步向下不断进行细节化,形成良好的层次化数据结构,在定义好本体之后,再把实体的概念添加进去。这种方式一般适合于构建领域知识图谱。本文采用自顶向下的方式构建企业知识图谱。

(一)知识抽取

1.实体抽取。实体抽取同样属于是命名实体识别。它的作用就是将文本中的实体提取出来。通常情况下,同一概念或同一事物的实体会有不同的表达,因此需要实体抽取技术来对这些不同的表达进行一种统一表示。

早期的命名实体识别方法是由语言学家来人工制定规则和词典,然后再通过对文本进行处理匹配来实现实体抽取的方法,是基于规则和词典的方法。例如Rau[1]等学者提出的结合人工编写的规则与启发式想法,该想法构建了自动抽取公司名称的实体抽取系统。但是这种基于规则的方法,它的缺陷也很明显,不仅需要消耗大量的人力,而且也难以适应数据的变化。随着深度学习的发展,实体识别的研究重心转向深度神经网络(Deep Neural Network,DNN)。

2.实体关系抽取。文本经过上述的实体识别,得到一些实体,但是这些实体是离散的,价值不大,为了得到有价值的语义资料,还需要进一步进行实体关系的抽取,这样才能将离散的实体整合起来起来,得到整合的语义结构。对实体关系抽取的研究可以更好地解决实体离散问题,提高准确性。

实体关系抽取方法根据实体关系是否被标注出来,以此分为了有监督、半监督、弱监督和无监督的实体关系抽取方法。有监督的实体关系抽取方法需要人为指定词典和规则,这就要求制定者必须对该领域的各项知识了如指掌,并按时更新。这种方法的缺陷在于工作量巨大,且不能适用于其他领域。在这种背景下,另外三种关系抽取方法应运而生,用以改善有监督知识抽取的缺陷。其中Brin[2]首次使用了基于Bootstrapping 的半监督方法来抽取命名实体之间的关系,这种方法对减少工作量有帮助,但会导致特征提取误差的传播,影响准确性。近年来随着深度学习应用到关系抽取中来,极大地改善了误差积累问题。

(二)知识融合

通过知识抽取,实现了从结构化、半结构化数据中获取实体、关系的目的,但是由于知识来源不同,导致了知识的质量参差不齐,数据之间也缺乏层次性和逻辑性,知识的数量和质量有待提高,有必要通过知识融合对其进行清理整合。知识融合主要分为三个内容:实体消歧,实体对齐和知识合并。

实体消歧是解决同名实体歧义问题的技术。在实际语言环境中,经常存在着同名异义的实体,例如“李宁”既可以指著名的体操运动员,还可以指某个运动品牌,通过实体消歧就可以加以区分。Han与Zhao[3]使用维基百科(Wikipedia)作为背景知识,借此可以更准确地衡量实体间的相似性,进而提升实体消歧的效果。实体对齐是解决同义异名问题的技术。在实际语言环境中,一个是事物对应不止一个称呼,例如“上海”和“沪”对应的是同一个实体,在知识图谱中也同样存在同义异名的问题。Cheng[4]等提出了一个包括候选实体生成器、选择器和清理器的全自动的实体对齐框架,利用使用者的查询信息及查询后的点击记录,计算出实体间的相似度,完成实体对齐。知识合并是在知识图谱层面上进行知识融合,利用现有的知识库来扩大知识图谱的规模,丰富其中的知识。然而各知识库中的知识具有多样性和异构性,也会有重复和错误,需要知识合并来解决这些问题。Trisedya[5]等利用属性元组生成属性特征嵌入向量,计算实体的相似性。

(三)知识推理

知识推理是通过计算机推理发现知识库中已有实体之间的新关联,进而实现知识库的拓展。例如Lee[6]等人借助Teminology Box和Assertion Box将基于描述逻辑的推理归结为ABox的一致性问题,最终简化并实现关系推理。

五、结束语

目前知识图谱已经成为学术界的研究热点,具有重要的理论研究价值和现实的实际应用价值。本文从企业的实际需求出发,提出融合多种数据源的知识图谱模型,详细阐述了知识图谱的构建过程,首先是本体构建,然后通过命名实体识别,关系抽取等技术,从不同来源不同结构的数据中抽取出实体及关联,最后采用图数据库进行存储,构建企业知识图谱。本文的研究对企业知识图谱的构建具有一定的参考价值,但仍有改进的空间。下一步的研究,将从知识图谱的更新入手,引入时间维度,构建动态知识图谱,更有效的挖掘企业信息。

猜你喜欢

本体图谱实体
眼睛是“本体”
绘一张成长图谱
前海自贸区:金融服务实体
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
补肾强身片UPLC指纹图谱
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
基于本体的机械产品工艺知识表示
主动对接你思维的知识图谱
专题