APP下载

面向档案的知识图谱构建方法研究

2020-05-08王电化钱立新夏春梅

湖北科技学院学报 2020年1期
关键词:结构化本体图谱

王电化,钱 涛,钱立新,盛 琦,夏春梅

(1.湖北科技学院, 湖北 咸宁 437100;2.咸宁市档案馆, 湖北 咸宁 437100)

一、构建档案知识图谱的意义

档案信息化在近几年得到了快速发展,档案数据已呈几何级增长,形成真正意义上的档案大数据[1]。档案数据资源的利用特别是档案信息检索成为日常工作中不可或缺的组成部分。传统档案信息检索系统主要采用关键词匹配技术,只能进行词形的机械匹配,导致人们难以检索到符合自己意愿的档案信息。然而,检索语句中的“关键词”通常存在诸多隐形的逻辑语义关系,例如对于用户输入查询语句:“张三任职局长”,该语句包含三个关键字“张三、任职、局长”,隐含着张三是公职人员,用户想查询是人事任命类档案,甚至可能想查询张三是何时在何地担任局长的。但当前的档案检索系统并不能从语义的角度分析用户的检索意图,也缺乏有效的档案知识推理。

知识图谱[2~4]技术在解决知识查询的精度及知识推理方面展现出了巨大的优势,成为学术与工业界研究的热点问题。已被广泛应用于智能搜索、智能问答、个性化推荐、内容分发等领域。当前有代表性的知识图谱产品包括当DBpedia[5],YAGO[6],百度知心[7],搜狗知立方[8]等。以上大部分是通用的知识图谱,直接运用行业领域并不能达到较好性能。因此领域知识图谱也受到越来越多的重视。构建基于档案的知识图谱能效进行档案知识推理,是实现档案智能检索的关键技术和主要路径之一。然而,作为强领域属性的档案领域,当前缺乏系统的基于档案知识图谱的构建方法与应用研究。

本文以知识图谱技术与档案知识相结合,提出基于大规模档案领域知识图谱的构建方法,目的是建立大规模档案知识图谱,用于融合语义关系与知识推理的档案智能搜索系统。论文首先论述了知识图谱的研究现状;然后讨论了档案知识图谱构建的关键技术,最后给出结论。

二、研究现状

知识图谱技术由Google于2012提出[9],应用于其搜索引擎,用以提高查询质量。知识图谱本质是一种语义网络。其由具有属性的实体通过关系链接而成的网状知识库,即具有有向图结构的一个知识库,其中图的节点代表实体或者本体,而图的边代表实体——本体之间的各种语义关系。

知识图谱具有规模大、语义丰富、结构清晰等特点,是人工智能进一步发展的核心技术之一。因此其知识图谱受到了广泛的关注,在国外,比较有代表性的知识图谱产品包括: DBpedia[5], YAGO[6]和Probase[10],这些知识图谱包括百万级别的实体及十亿级别的关系边。当前国内针对知识图谱的研究正快速发展,在开放域方面有百度知心[7]、搜狗知立方[8]、Zhishi.me[11],CNN-DBpedia[12]等。然而这些产品都是通用知识图谱,直接用于行业领域研究不能达到较好效果。

不同于通用知识图谱,领域知识图谱能利用领域特有知识快速构建知识库,如医疗知识图谱[13]、地理知识图谱[14]、军事知识图谱[15]及农业知识图谱[16]等。作为强领域特性的档案领域,当前仍主要集中在档案本体知识库的构建与应用研究,如:贾永刚[17]提出采用五步来构建档案领域本体。李海军[18]系统的讨论了档案信息本体在档案管理信息系统中的使用。张园[19]利用档案本体来提升档案检索系统性能。周义刚和董慧[20]针对电子政务领域的特点,探讨电子政务领域数字档案本体的构建过程。这些本体构建通常采用手动构建。由于本体模型本质上属性概念级别的知识库,并不能真正实现语义推理与检索。本文利用自然语言的处理技术,在人工构建知识本体的基础,探讨档案知识图谱的构建关键技术研究。

三、档案知识图谱构建流程

知识图谱是一种结构化的语义知识网络,用于描述现实世界中的概念、实体、事件及其关系,其中实体对应于客观世界中的事物,属性代表事物的特征,概念是对具有相同属性事件的概括与抽象,事件可表示为不同时空状态下一系列实体及其联系。通过概念与概念、概念与实体、实体与实体、实体与属性等之间的关系,形成网状的语义知识图谱。

知识图谱通常采用自顶向下和自底向上2种方式构建。自顶向下构建一般首先顶层关系本体,然后将抽取到的实体及关系更新到所构建的顶层本体中。自底向上构建是指从公开采集的数据中采用一定的技术手段提取出实体关系模式,然后进行一定的知识加工与处理,选择其中置信度较高的加入到知识库中,将具有相似属性的实体进行抽象归纳,形成相应的概念,再逐层向上汇集,最终构建顶层概念本体模式。对于开放领域,由于所涉及知识非常广泛,通常采用自底向上的方式构建知识图谱;而对于特定领域,由于知识概念相对明确,一般采用自顶向下的方式构建。由于档案领域即具有领域性,又具有开放性,本文采用将二者方式相结合,其构建整体流程如图1所示。具体步骤如下:

1.档案本体建模:根据档案管理、档案信息标准化及应用特点,构建统一共享的档案领域概念模型,包括本体、关系及属性。该概念模型将对知识发现起着指导和约束作用。

2.档案来源:包括从已有档案业务管理系统、领域百科及其它外部系统中导入数据。其数据类型包括:结构化数据、非结构化数据和半结构化数据。它是知识获取的主要来源。

3.知识发现:从不同类型数据源在本体概念模型规则约束下进行实体识别、关系抽取与属性识别。

4.知识融合:对发现的实体、关系与属性进行知识整合,并进行知识更新。

5.知识存储与访问:大规模知识图谱分布式储存与访问。利用图搜索算法,对存储知识库实现高效访问。

图1 档案知识图谱构建流程

1.档案知识本体建模

知识本体建模是构建知识图谱的首要步骤,是对领域知识结构与概念设计的过程。主要包括本体设计、关系设计及属性设计。档案本体建模的目标是捕获档案领域的知识, 提供对档案领域知识的共同理解, 确定本领域内共同认可的词汇, 并从不同层次的形式化模式上给出这些词汇间相互关系的明确定义。本体作为共享的形式化概念模型,清晰定义概念之间的关系,使得被刻画的知识富含语义,具有良好的概念层次结构和对逻辑推理的支持。

档案具有强领域性,档案通常按主题按单位进行详细分类,每一档案都有一明确的目的和主题,表达单一确定事件,例如在文书档案里,事件通常包括:人事安排、工资提级、机构设置等。事件是动态的复杂的概念,它通常包含是地点、人物、时间等要素。利用事件概念,能明确的描述档案事件单一性特点,如关于人事安排的档案,通常包括发文机关、所涉及人物,时间、地点等相关要素。本文主要以档案标准文件《中国档案分类法》和《中国档案主题词表》为依据,结合档案自身特点以及系统的业务需要,提出以事件概念为中心的本体构建。以事件为中心概念,然后扩展至其它概念:机构、人物、文件,同时事件还包括地点、时间两个属性,对每一概念,又分别进行子类分类,如事件按其内容可分为:人事、学籍、科研、财政等。文件按其用途可分为:通知、公告、决定等。机构划分为:政府、国企业、私企、事业单位等,人物划分为公职、商界、公众。图2显示了档案本体的核心架构。

图2 档案本体建构核心架构

2.档案知识抽取模型

档案领域知识来源主要包括原有业务系统、领域百科、外部系统等结构化、半结构化及非结构化数据。对结构化与半结构化数据,可采用规则方法把实体映射到知识图谱中;对于非结构化数据主要是档案文本,需要从中抽取实体及关系等知识。手动的知识抽取代价太高,因此需要采用自然语言处理及机器学习相关技术可实现领域知识的自动识别和抽取。

根据前节所述档案本体知识架构,从档案文要识别的本体包括机构、人物、地点、时间及事件。本体关系则包括上下位、子类、近义、反义及所属事件关系。图3给出了本文所提档案领域实体识别与关系抽取流程。首先对档案全文进行预处理如分词、词性标注、句法分析,然后把这些语言特征转化为分布式表示,进行实体与关系抽取。实体识别采用基于深度学习的Bi-LSTM-CRF模型[21],该模型避免了复杂的特征设计,并且能充分利用全局信息进行优化。在实体识别基础上,关系抽取采用基于远程监督的关系抽取模型[22]。该模型能有效减少了模型对人工标注数据的依赖。

图3 档案领域实体识别与关系抽取流程图

3.知识图谱存储与检索

知识图谱通常采用图数据库存取,在完成档案知识图谱构建与存储之后, 需要利用图数据检索技术来提高知识图谱的查询效率, 为大规模实时动态查询和推理奠定基础。

本文档案系统采用图数据库Neo4j存储。领域知识中的概念、实体、关系分别对应于Neo4j中的标签、节点、边/关系。Neo4j提供Cypher命令对图数据进行检索操作。例如对于第1节所述查询语句:“张三任职局长”。检索系统首先利用分词工具对其进行分词,然后识别出其中的命名实体。可采用如下查询语句:

Match (a:Person)->[:Person_In]->(m)<-[:Organize_In]-(d) where a.name=‘张三’and a.title=’局长’//查询事件、机构及人物结点

Match(m)-[File_In]->(f) //查询所属文件结点

Return a,m,d,f; //显示结果

其查询结果显示如下图4所示。

可以看出,利用知识图谱可以进行深度语义理解与知识推理。知识图谱是一种开放式的知识结构,如果不考虑存储工具的限制,理论上基于现有知识图谱能无限拓展领域相关各种类型知识。

图4 档案知识图谱检索示意图

知识图谱的构建技术主要以数据挖掘、 机器学习、 自然语言处理、 信息检索等多学科交叉技术为支撑。基于档案领域既具有领域性,又具有开放性,本文提出档案知识图谱构建框架,并探讨了档案知识本体构建架构,档案知识抽取模型、知识图谱存储与检索等关键技术。知识图谱作为智能检索的核心技术,具有重要的理论研究和实际应用价值。档案知识图谱将在档案智能化信息管理中发挥重要作用。

猜你喜欢

结构化本体图谱
Abstracts and Key Words
促进知识结构化的主题式复习初探
绘一张成长图谱
对姜夔自度曲音乐本体的现代解读
结构化面试方法在研究生复试中的应用
补肾强身片UPLC指纹图谱
主动对接你思维的知识图谱
《我应该感到自豪才对》的本体性教学内容及启示
基于图模型的通用半结构化数据检索
基于软信息的结构化转换