APP下载

国内外事件抽取技术应用研究分析

2022-11-25闫文浩

科学与信息化 2022年20期
关键词:图谱学者社交

闫文浩

南京农业大学信息管理学院 江苏 南京 210095

引言

事件抽取是信息抽取的主要任务之一,其主要任务是将非结构化文本中的事件以结构化方式抽取出来。与信息抽取任务中的命名实体识别任务不同,事件信息中往往包含多个组成元素,并且各个元素相互影响。ACE[1]定义中的事件由事件触发词(Event Trigger)和描述事件结构的元素(Argument)构成。因此事件抽取任务往往需要经过触发词识别来判断事件类型,然后抽取描述事件结构的元素加以分类形成最终的事件信息。

事件抽取作为信息抽取的重要内容之一,一直以来也是国内学者关注的重点。目前国内学者重心在于对事件抽取技术更迭的归纳探究,还鲜有学者从事件抽取应用领域分析事件抽取技术应用研究的发展历程。为了分析国内外事件抽取技术应用发展与演变过程,本文选取CNKI和Web of Science核心合集的论文数据对国内外事件抽取技术应用研究发展历程展开分析。

1 数据来源与研究方法

为分析国内外事件抽取技术应用研究发展历程,本文分别选取CNKI数据库以及Web of Science核心合集数据库作为本文数据来源。在CNKI数据库中,以“事件抽取”为检索词,时间跨度为2000年至2022年2月,得到国内论文共674篇,并将题录信息导出。在Web of Science核心合集数据中,以“Event Extraction”、“Content Extraction”为检索词,时间跨度为2000年至2022年2月,得到国外论文数据共1153篇,并将题录信息导出。

为表现论文主题词随时间发展的变化特点,本文借助Vosviewer工具绘制国内外事件抽取研究关键词叠加时间图,可以得到各个时期研究主题词的变化特点以及各时间段国内外的研究热点。

2 事件抽取技术应用方向分析

为探究国内外事件抽取技术应用发展的时间演化趋势,进而对国内外事件抽取技术应用研究内容进行梳理,需要获取国内外相关研究关键词各时间段的分布规律。因此本文选取前文所导出的国内外文献题录信息导入Vosviewer工具,选择关键词出现次数为5次以上,并为保证准确性,去除出现频次最高的“事件抽取”,“Event Extraction”等关键词,最终得到国内外事件抽取研究关键词叠加时间图,其中节点颜色由深到潜分别代表了某个关键词出现时间从由远及近。最终得到的关键词结果可大致分为三大块,分别代表2000至2010年,2010至2017年,2016至2022年间出现的热门关键词。

在2000至2010年间,国内出现的关键词主要体现技术变化,没有表现出事件抽取技术的应用方向;而国外出现较多的关键词有蛋白质,基因等关键词。在2010至2017年间,国内关键词出现了新闻事件、突发事件、微博等;这个阶段国外的研究热点词有生物学文本挖掘,社交媒体等。在2017至2022年间,国内出现了生物医学事件抽取、医疗事件抽取、知识图谱、事理图谱等关键词;此阶段国外与事件抽取技术应用相关的热点词有推特、知识图谱等。

综上所述,国内外事件抽取技术的应用领域已经十分广泛,主要可分为以下四大类。一是新闻类事件抽取研究。新闻文本作为传播信息的重要途径之一,其中蕴含大量事件信息:二是生物医学类事件抽取研究,许多学者将事件抽取应用生物医学领域各类文本,抽取关键信息;三是社交媒体文本事件抽取研究。社交媒体文本蕴含大量生活事件信息;四是知识图谱构建。知识图谱的构建所需要的知识数据依赖于实体识别,关系抽取,事件抽取等技术的识别结果。

3 事件抽取技术应用研究现状分析

由上文分析可知,虽然国内外不同时间段研究的侧重点不同,但是总的来说,主要的应用方向有新闻事件文本抽取研究,生物医学类文本事件抽取研究,社交媒体文本事件抽取研究以及事件抽取技术在事理图谱、知识图谱构建中的应用。

3.1 新闻事件抽取研究

对于新闻文本中事件抽取一直以来就是国内外事件抽取技术应用的重点方向之一。在新闻事件文本中,文本规模大且事件种类繁杂,且不同事件类型数量分布不均匀,因此如何给新闻事件分类是新闻文本中事件抽取的研究热点之一。李响[1]等基于支持向量机模型,融合了词法、句法和语义三类不同类型的特征,完成了新闻事件的类型识别。此外,国内学者开始关注外文新闻文本中事件抽取研究,如有些学者已经开始对越南语以及泰语新闻文本中的事件信息进行抽取。

目前国内外关于事件抽取技术在新闻文本上的逐渐趋于成熟,并且我国学者开始将研究目光转向非中文新闻文本,未来国内学者对于新闻事件抽取的研究可能将不再局限于中文新闻文本,而是面向各种的语言新闻文本。

3.2 生物医学类事件抽取研究

近年来,事件抽取技术在生物医学类文本上的应用研究成为国内外学者共同的研究热点,国外对于生物学文本事件抽取研究起步更早。

国内外对于生物医学类事件抽取研究主要还是对于生物医学事件触发词识别的问题,以及复杂生物事件信息的抽取等。生物医学领域有一些非常规的数据,如生理仪器记录的测量值等,可以看作是生理信号,其往往是波形数据。为了从生物医学信号中提取各类事件,Yazdani[2]等提出了一种名为相对能量(Rel-En)的快速新型非线性滤波方法,可以提取信号中的波形信息,从而识别相应的事件。近年来,对医疗事件的抽取成为国内研究的热点,余辉[3]等基于BiLSTM-CRF模型,提出了一种抽取治疗事件的方法,可以有效识别并抽取中文临床指南中的治疗事件信息。

对事件抽取技术在生物医学类文本上的应用一直以来都是国内外学者的研究重点,相关研究也逐渐趋于成熟,并且开始将事件抽取技术应用到生物医学领域的非常规数据上。事件抽取技术在生物医学领域中非常规数据上的应用将会是未来的研究方向之一。现有的研究中对于医疗事件信息的抽取起步相对较晚,研究也较少,近年来越来越多的学者将自然语言处理技术应用到医疗信息文本之中,医疗事件信息抽取将是未来研究的热点之一。

3.3 社交媒体类文本事件抽取研究

社交媒体类文本包含大量生活文本,其中大部分内容往往与民众生活状态息息相关,因此将事件抽取技术应用到社交媒体文本之中是近几年来国内外共同的研究热点。

国内外主流的社交媒体工具有所区别,国内最好文本来源为微博数据,国内诸多学者就如何抽取微博文本中的事件信息展开研究。微博文本数量大、信息丰富,同时其文本短小,内容种类繁杂,包含大量冗余信息。为了从微博文本中提取更多的有效信息,张炫[4]将实体之间的关联关系考虑进来,提出了基于词向量的狄利克雷过程事件混合模型为核心的事件信息抽取算法,在微博文本事件抽取实验中取得了更优异的结果。

国外的主流的社交媒体工具则是推特,因此国对于社交媒体文本事件抽取的研究主要集中在推特文本上。推特文本和微博文本相似,其中蕴含着大量事件信息,如何从中抽取事件信息是国外学者的研究重点。推特作为国外主流的社交媒体,大量用户在推特上分析他们的生活日常。为了提取推特文本中的生活事件信息,Yen[5]等利用推特上共享的视觉和文本信息来提取生活事件信息,实验结果表明,该方法在生活事件提取上是有效的。

社交媒体信息蕴含着大量事件信息,但同时其包含的事件种类事件元素多而杂,给事件抽取技术应用带来诸多困扰,国内外学者对于社交媒体文本事件抽取上的主要的研究内容就是去除无用信息,尽可能全面的获取有价值的事件信息,将社交媒体文本中的无序事件信息转换可为可供分析研究的信息是现在以及未来研究的重心所在。

3.4 知识图谱研究

事理图谱、知识图谱是我国近期的研究热点内容之一,而事件抽取是构建领域事件知识图谱重要环节之一。国内目前许多的知识图谱研究都需要以事件抽取为基础。廖豪劲[6]先提出了一个事件抽取模型ON-TLNN,然后提出了ON-LSTM与图卷积神经网络相结合的模型完成了事件关系抽取任务,最终实现了基于特定场景事理图谱的知识问答系统。

随着信息抽取技术不断进步,现在的学者已经不仅仅满足于抽取信息,而是将抽取出的信息整合起来构建事理图谱、知识图谱等,这都要以成熟的事件抽取方法作为基础。未来随着事件抽取技术愈加成熟,也将进一步推动知识图谱构建研究。

4 事件抽取技术应用研究发展趋势分析

随着事件抽取技术不断成熟,目前事件抽取技术已经有诸多应用,结合上文对事件抽取技术应用研究的梳理,本文认为,未来该领域存在一些发展趋势。

4.1 应用文本种类进一步拓展

目前事件抽取技术已经应用多种文本之中,除上文所说的生物医学文本、新闻文本、社交媒体文本外,事件抽取技术还应用到了金融文本、古文文本等文本中,都取得了一定的成绩。不同种类的文本各有特点,包含独特的事件信息,将事件抽取技术应用到更多的领域文本之中,是学者们未来探究的方向之一。

4.2 非常规文本事件抽取研究

目前生物医学领域已经有将事件抽取技术应用到非常规文本上的研究,并证实了可行性。除了生物医学领域外,其他各领域都也有着非常规文本的数据,其中也蕴含不同种类的事件信息。如何将事件抽取技术应用到这些非常规文本的数据之中,提取其中的事件的信息需要学者们进一步展开探索。

5 结束语

本文以CNKI和Web of Science收录的论文为数据来源,并借助Vosviewer工具获取国内外自2000年至2022年间的热门研究关键词来分析梳理国内外事件抽取技术应用研究发展历程,主要得出以下结论:①事件抽取技术主要的应用有新闻事件文本抽取研究,生物医学类文本事件抽取研究,社交媒体文本事件抽取研究以及事件抽取在事理图谱、知识图谱构建中的应用;②事件抽取技术在更多领域文本上的应用和非常规文本上的应用是未来需要学者们进一步研究的方向。

猜你喜欢

图谱学者社交
基于图对比注意力网络的知识图谱补全
“植物界大熊猫”完整基因组图谱首次发布
学者介绍
学者简介
社交牛人症该怎么治
学者介绍
聪明人 往往很少社交
社交距离
你回避社交,真不是因为内向
图表