基于CiteSpace的实体关系抽取研究与可视化分析
2022-04-29薛嘉楠
摘要:随着自然语言处理技术和产业的发展,知识图谱的构建成为企业和高校研究的主要领域,实体关系抽取则是构建知识图谱的关键技术。文章以CNKI数据库为数据源,以实体关系抽取领域相关研究性文献为研究对象,采用文献计量学的方法,借助CiteSpace可视化工具对该研究领域进行关键词共现分析,挖掘该领域的研究热点和研究前沿发展脉络,使用文献述评的方法对实体关系抽取任务进行评述和梳理,最后对实体关系抽取研究领域的发展趋势进行展望。
关键词:实体关系抽取;CiteSpace;深度学习
中图法分类号:TP182文献标识码:A
Research and visual analysis of entity relationship extraction based on CiteSpace
XUE Jianan
(College of Information Management,Nanjing Agricultural University,Nanjing 210095,China)
Abstract:With the development of natural language processing technology and industry, theconstruction of knowledge map has become the main research direction of enterprises anduniversities. Entity relationship extraction is the key technology of constructing knowledge map.Based on the CNKI database, this paper takes relevant research literature in the field of entityrelationship extraction as the research object. With the method of bibliometrics and CiteSpacevisualization tool, this paper analyzes the keyword co-occurrence of this research field, and excavatesthe research hotspot and development context of this field. Using the method of literature review,this paper reviews and combs the different methods of entity relationship extraction task. Finally,this paper looks forward to the research trend in the research field of entity relation extraction.
Key words: entity relationship extraction,CiteSpace,deep learning
1 引言
隨着互联网技术的不断发展,如何从纷繁复杂的海量信息中快速获取有效信息是诸多研究者的一个重要课题。在该背景下,自然语言处理 ( Natural Language Processing,NLP)技术的发展引起了相关学者的广泛关注。其中,实体关系抽取 ( Relation Extraction,RE)是实现信息有效提取的关键技术。
实体关系抽取也被称为“关系抽取”或“三元组抽取”,其目的是确定实体对之间蕴含的关系。实体关系抽取的结果为实体关系三元组(实体1,关系,实体2)的形式,用来表示实体对之间的特定关系。实体关系抽取任务是本体构建、图谱推理、信息检索等技术的重要基础,也是人工智能应用的重要基础支撑。
本文基于文献计量学的方法,统计实体关系抽取领域的关键词并进行定量分析,以获取该领域的研究热点和发展脉络,并在此基础上对各种实体关系抽取技术进行阐释和评述,分析关系抽取方法的特征,从而对关系抽取的研究趋势做出展望。
2 研究热点与前沿可视化分析
本文数据来源为 CNKI 数据库,检索方式为主题检索,检索关键词为:“实体关系抽取”“三元组抽取”“关系抽取”;检索时间跨度不限;设置检索文献类型为研究论文;检索时间为2022年 3月 5日。通过检索获得1455篇文献。本文以CiteSpace为可视化工具,目的是实现相关文献的关键词聚类和研究前沿演进分析。
2.1 关键词聚类分析
使用CiteSpace绘制实体关系抽取相关研究的关键词共现图谱,图中节点数多,中心区域节点较大且连接紧密,表明这部分的研究之间关联紧密,主要关键词包括知识图谱、表示学习、联合抽取等。在关键词高频排序表中,除了关系抽取等一般性关键词外,知识图谱、深度学习、实体识别、远程监督等关键词的词频较高。其中,知识图谱、问答系统与实体关系抽取的下游应用研究相关。实体链接、实体融合等关键词说明实体融合相关研究是关系抽取的研究热点之一。而深度学习、远程监督、本体、神经网络等关键词则主要涉及实体关系抽取实现的方法技术研究。
由此可见,实体关系抽取的研究比较广泛,主要涉及关系抽取实现方法研究、实体融合相关研究、实体关系应用相关研究等方向。其中,主要的研究方向聚焦于关系抽取实现方法。
2.2 研究前沿演进分析
借助CiteSpace对关键词进行主题聚类,并绘制该研究领域的关键词聚类时区图谱。同时,在关键词聚类时区图谱的基础上得到实体关系抽取研究突现词表。突现词是指某个关键词变量在短时间内发生了较大改变,代表着这一时间段的研究热点。
实体关系抽取研究关键词个数整体随时间的推移呈现上升态势,从2011年的“平平淡淡”到2021年呈现“百花齐放”的趋势。通过突显词表可以发现,实体关系抽取研究大致分为三个阶段,即早期阶段、中期阶段和最新阶段。
早期阶段(2011~ 2016年)。这一阶段的主要突现关键词为信息抽取、关联数据、本体、领域本体、情感分析等。相关研究中,相关学者关注本体概念的研究,研究热点为领域本体、关联数据等。
中期阶段(2016~ 2018年)。在这一阶段,由于计算机的计算能力不断提高,以及自然语言处理中机器学习和深度学习等概念方法的引入,都对实体关系抽取研究产生了重要影响,知识库、词向量、机器学习、实体链接等关键词成为研究热点,学者将人工智能技术应用于实体关系抽取实现中,成为当时的研究前沿。
最新阶段(2018~ 2022年)。在这一阶段,人工智能算法被广泛应用于实体关系抽取研究中,LSTM 、神经网络等深度学习模型的研究成为热点,是学者的重点研究方向。同时,语义网、关系推理、表示学习等概念出现并引发学者的关注,是关系抽取研究领域的关键节点。2020年,事理图谱出现并持续引发关注,研究热度保持至今,是关系抽取研究领域具有较强发展潜力的关键节点。
本文通过文献计量的方法,利用可视化技术对实体关系抽取研究的关键词进行统计,对该领域的研究热点和研究前沿发展进行了分析,由分析可知:(1)实体关系抽取的主要研究方法为实体关系抽取的实现方法研究;(2)实体关系抽取的研究发展大致分为三个阶段,研究阶段的迭代与实体关系抽取方法的更新密切相关。因此,下文对实体关系抽取领域的不同研究阶段的抽取实现方法进行了详细探讨,梳理了实体关系抽取方法的主要研究脉络。
3 实体关系抽取方法研究现状
实体关系抽取方法大致分为基于规则的关系抽取、基于机器学习的关系抽取和基于深度学习的关系抽取。
3.1 基于规则的关系抽取
基于规则的关系抽取方法主要是指通过人工构造语义规则和相关词典,针对领域中的非结构化文本进行相关匹配,完成关系抽取的分类。其缺陷在于要求规则构建者对领域背景和特点有深入了解,同时具备语言学知识,所以实现成本高、难度大,也存在对跨领域文本关系抽取的可移植性差等问题。
3.2 基于机器学习的关系抽取
基于机器学习的关系抽取方法可以分为三类,即有监督学习方法、半监督学习方法和无监督学习方法。
有监督学习方法将关系抽取问题视为分类问题,利用机器学习方法和大规模人工标注语料训练用于特定领域实体关系分类的分类器。朱惠[1]等引入共现分析、结构分析、模板构建、逻辑推理等方法构建关系抽取模型,取得了较好的实验结果。有监督学习方法在关系任务中取得了较好的效果,然而其缺陷在于依赖标注的语料资源库,标注成本较高。
半监督学习方法与有监督学习方法相比减少了标注成本,利用少量标注文本或者模板,通过迭代,即可从更多无标注文本中抽取出实体关系。蒋婷、孙建军 [2]提出了一种先对术语类型进行抽取,再结合外部词库和基于 Web 的方法抽取关系概念对,最后利用图剪枝方法减少噪音,并通过实验证明该方法的有效性。半监督学习方法不需要大量的人工标注,同时可以获得较高的准确率,但其容易在模型迭代过程中易产生噪声问题。
有监督学习方法和半监督学习方法都一定程度上依赖人工标注,学者利用聚类的思想,提出了无监督学习方法用于实体关系抽取。无监督学习方法的实现原理是:自下而上地从大量文本中利用相似度计算抽取实体之间含义相近的实体,并将其聚成一类,然后将同一类实体标记合适的名称,从而完成实体关系的提取。无监督学习方法无须大量的人工标注并提前定义实体关系的类型,往往具有一定的可移植性,适合大规模语料库中实体关系抽取工作。但是,该方法比较依赖数据库的质量,存在召回率低等问题。
3.3 基于深度学习的关系抽取
基于深度学习的关系抽取方法是指通过训练大量数据,能较好地自动获取模型特征,不需要人工预先提取特征。研究者将基于深度学习的关系抽取方法应用于实体关系抽取并取得了大量研究成果。基于深度学习的关系抽取方法分为有监督深度学习方法和远程监督深度学习方法,二者的主要区别在于数据集的构建方法不同。
3.3.1 有监督深度学习方法
有监督深度学习方法主要分为流水线学习方法和联合学习方法。流水线学习方法是指首先完成命名实体识别,然后对识别的实体进行关系抽取。Song L [3]等将图结构与 LSTM 模型结合,提出了一种基于图的 LSTM 多元关系抽取模型,并用实验验证该方法具有较好的效果。高丹[4]等提出一种基于 CNN 和改进核函数的多实体关系抽取模型,并通过实验验证该模型具有较好的效果。
流水线学习方法的实验结果相对良好,但是其将实体识别和实体关系抽取分割为两个完全独立的任务,从而忽略了二者的联系,这会导致大量信息被忽略,同时又会产生错误传递,即前一个任务的错误会被带入下一阶段的任务中。为解决这些问题,学者尝试将命名识别和实体关系抽取融合成一个任务,进行联合学习。 Zheng S[5]等提出了一种用于 NER 和 RC 的联合模型,同时用到 CNN 和 LSTM,该方法取得了较好效果。
综上,深度学习算法被学者广泛应用于实體关系抽取任务的探索中,并不断提升抽取效果,随算法技术的不断发展,迁移学习、注意力机制、强化学习等更多方法用于解决实体关系跨领域迁移、减少人工标注成本等问题。
3.3.2 远程监督深度学习方法
有监督深度学习方法采取自上而下的抽取策略,远程监督深度学习方法则与其不同—采取自下而上的策略,利用数据对齐技术从大量无标注数据集中挖掘实体关系。李颖[6]等提出了一种基于中文依存句法的远程监督深度学习方法,用于实体关系抽取任务中,实验证明该方法可以获得较高准确率。减少关系抽取过程中的噪音问题是远程监督深度学习方法的主要研究方向。目前,远程监督深度学习方法获取的数据集准确率较低。同时,远程监督关系抽取模型在模型准确度和召回率的表现上与有监督关系抽取模型之间仍有一定差距。
4 实体关系抽取方法研究趋势
实体关系抽取经过众多学者的探索和尝试,相关技术已经日趋成熟。但是,目前仍然面临一些问题和挑战。结合上文对该领域研究论文的定量分析与关系抽取不同方法的梳理,本文认为,未来该领域会呈现以下发展趋势。
4.1 基于深度学习方法的持续研究
深度学习方法被广泛应用于实体关系抽取中,并不断获得阶段性成果。学者对于关系抽取问题的知识图谱、注意力机制、迁移学习等方法的探索均以深度学习方法为基础,进一步往跨领域、跨语言以及减少人工标注成本等研究方向探索。
4.2 開放领域的深入研究
随着特定领域、特定语料的关系抽取方法趋于成熟,学者已经开始将研究焦点转为开放领域。在开放领域的实体关系抽取任务中,如何不断提高实体关系抽取的准确率、召回率是一个重要的研究方向。
5 结语
实体关系抽取是自然语言处理领域重要的任务之一,是知识图谱、智能检索等应用的关键技术。本文通过定量分析的方法发现实体关系抽取研究领域包含关系抽取实现、实体融合、实体关系应用等多个研究方向。其中,关系抽取实现方法是最主要的研究方向,相关学者致力于不断提升抽取效果、抽取准确率和召回率。
参考文献:
[1] 朱惠,王昊,苏新宁,等.汉语领域术语非分类关系抽取方法研究[J].情报学报,2018,37(12):1193?1203.
[2] 蒋婷,孙建军.领域学术本体概念等级关系抽取研究[J].情报学报,2017,36(10):1080?1092.
[3] Song L,Zhang Y,Wang Z ,et al.N ?ary Relation Extraction using Graph State LSTM[J].arXiv preprint arXiv,2018.
[4] 高丹,彭敦陆,刘丛.海量法律文书中基于 CNN 的实体关系抽取技术[ J].小型微型计算机系统,2018,39(5):1021? 1026.
[5] Zheng S ,Hao Y ,Lu D ,et al.Joint entity and relation extraction based on a hybrid neural network [ J ]. Neurocomputing,2016,257:59?66.
[6] 李颖,郝晓燕,王勇.中文开放式多元实体关系抽取[J].计算机科学,2017,44(S1):80?83.
作者简介:
薛嘉楠(1997—) ,硕士,研究方向:数字人文。