APP下载

开放域信息抽取研究综述

2021-05-12高跃

现代计算机 2021年7期
关键词:模板解析信息

高跃

(四川大学计算机学院,成都610065)

0 引言

随着互联网技术的高速发展,网络上产生了海量的非结构化数据,自然语言处理(Natural Language Processing,NLP)中的信息抽取(Information Extraction,IE)技术被用于从海量的非结构化文本中抽取出结构化的信息,这些结构化信息常用关系三元组(实体1;关系;实体2)的形式表示。传统的信息抽取任务预先给定一组关系类别集合,限定关系类别以及文本的领域,在给定实体对的情况下可以将信息抽取看作是对实体对的多分类问题。但开放域信息抽取(Open Domain Information Extraction,Open IE)[1]不限定关系类别,从文本中抽取所有可能的关系三元组,例如:给定句子“自然语言处理是计算机科学的一个方向”,开放域信息抽取能够从中提取出关系三元组(自然语言处理;是;计算机科学的一个方向),其中的关系类别不受限制。这些提取出的关系三元组可以用于许多下游工作,如:问答系统[2]、信息检索[3]和知识图谱构建[4]等。

Banko 等人[1]首次提出开放域信息抽取任务,吸引了大量研究者的关注,早期的开放域信息抽取方法大多使用从标注文本中自动学习[1,5-6]或者人工构造的模板[7-9],依赖句子的依存特征进行关系三元组的抽取,由于使用领域独立的句法特征等信息,这些方法可以适用于不同领域和关系类型。一些研究者认为关系三元组缺失完整的上下文信息不利于下游任务的理解,且可能抽取出非事实性的、假设性的三元组,因此一些方法也探索了如何抽取具备完整上下文信息的关系三元组。Mausam 等人[5]分析三元组的上下文,并将其作为三元组的额外字段,Gashteovski 等人[10]用上下文信息对提取的三元组进行标注,一些系统[11-13]从三元组的上下文中提取额外的关系三元组,并使用修辞关系或依赖关系信息将其联系起来,以获得具有完整上下文信息的关系三元组。结构复杂的句子对于Open IE 方法来说是一个巨大的挑战,难以使用规则等方法从复杂句子中抽取关系三元组,因此为了提高关系三元组抽取的准确度,一些方法[13-15]提出了将复杂的句子转化为简单的子句,并在这些简单的子句中使用简单的模板抽取三元组。随着近几年深度学习方法发展,基于深度学习的开放域信息抽取成为主流,Cui 等人[16]、Stanovsky 等人[17]将开放域信息抽取转换为序列生成和序列标注问题,在多个数据集上取得了优秀的成绩。

1 相关工作

自从Banko 等人[1]首次提出,开放域信息抽取任务已经获得了长足的发展,现有的开放域信息抽取方法大致可以分为四类:基于学习的方法、基于规则的方法、基于子句的方法和基于深度学习的方法。此外,一些研究者针对不同语言的开放域信息抽取也进行了研究。

1.1 基于学习的方法

由于开放域信息抽取任务缺少大规模的标注数据,早期的方法都通过启发式方法、远监督方法等自动获取大量标注数据,使用这些自动标注的数据自动学习得到抽取模板或者分类器进行关系三元组的抽取。TextRunner[1]首先识别句子中可能的实体,然后利用一组启发式规则自动标注句子中可能的三元组集合,使用这些标注数据训练朴素贝叶斯分类器,判断两个实体之间的文本是否表达了关系。类似地,WOE[6]使用维基百科信息框中的数据作为监督源进行远监督标注,使用训练的分类器判断实体对之间的最短依存路径是否隐含表达关系。WOE 系统首次显示利用依存解析特征相比于浅层语言特征(如:词性序列)能取得更好的结果,大多数后续开放域信息抽取方法都利用了依存解析特征。后续的OLLIE[5]也使用了依存解析,从远监督标注数据的依存解析树中自动学习抽取模板,在依存解析上进行关系三元组的抽取。最近有研究者提出ATP-OIE[18],与OLLIE 类似地从依存解析树上学习模板,但不同的是ATP-OIE 针对关系三元组的每个部分单独学习抽取模板,取得了较好的效果。

1.2 基于规则的方法

除了从标注数据中自动学习抽取的模板,早期还有一些方法使用人工总结的规则进行关系三元组的抽取,REVERB[7]通过定义一组人工定义的词性序列模板对关系短语进行句法约束,避免不连贯和无信息的抽取,同时REVERB 作者认为正确的关系短语应该在语料库中和不同的论元共同出现,对关系短语进行词汇约束以减少关系短语的过度抽取。EXEMPLAR[8]使用一组人工构造的基于依存解析树的模板,检测关系触发词和与它相连的论元实体。PropS[19]认为从依存解析树中直接抽取三元组很困难,使用一组规则将依存解析树转化为带标注的有向图,由于有向图的形式比依存解析树更简单,只包含几种节点和边,因此从转化后的有向图中可以轻松抽取出关系三元组。与PropS 很相似,PredPatt[9]也基于普遍依存解析(Universal Dependency Parse)对句子构建了有向图,使用规则在其上进行抽取。这些基于规则的方法往往能够带来精确的抽取,但构造规则需要观察大量语料,耗时耗力。

1.3 基于子句的方法

结构复杂的长句子一直是开放域信息抽取的挑战,为了提高开放域信息抽取在复杂长句子上的抽取效果,研究者尝试将复杂的句子转换为结构简单的独立子句,从这些子句中抽取关系三元组更简单。经典的ClausIE[14]识别句子中的所有动词,然后根据语法知识和依存关系识别依赖于这些动词的子句部分,得到的子句会被判断属于哪一种类型,以便使用对应的模板抽取关系三元组。Angeli 等人[15]提出了Stanford OIE,巧妙地使用一个依存解析树上递归向下的边搜索算法解决了子句位置的识别问题,同时采用自然逻辑对得到的子句进行处理,使得从这些子句中抽取得到的三元组在下游任务中更有用。最近的Graphene[13]使用一组人工定义的简化规则移除句子中不重要的从句和短语,最终将复杂的句子转换为简单紧凑的独立句子,并使用模板从中抽取关系三元组。

1.4 基于深度学习的方法

近几年,自然语言处理领域的许多任务运用深度学习技术取得了不俗的成果,基于深度学习的方法也逐渐在开放域信息抽取任务中占据主流。目前这些方法主要将开放域信息抽取看作是序列生成、序列标注和基于分块(span-based)的选择问题。Cui 等人[16]将开放域信息抽取看作是序列到序列的生成问题,使用编码器-解码器框架对输入句子进行编码,生成包含关系三元组序列和分隔符的输出序列。简单的序列生成模型可能会生成大量相似的冗余抽取,同时Beam 搜索无法很好处理句子中的三元组个数问题,Kolluru 等人[20]在序列生成模型的基础上提出将生成的三元组序列添加到编码端重新编码,以指导后续三元组的生成。Stanovsky 等人[17]将开放域信息抽取转化为序列标注问题,首先识别句子中可能的关系词,然后针对每个关系词对输入句子进行BIO 标注,得到对应的关系三元组序列。SenseOIE[21]也使用序列标注方法,但将多个开放域信息抽取方法的输出作为序列标注模型的输入特征,利用了之前方法的优点。使用一个基于分块的选择模型,SpanOIE[22]得到句子中每个分块属于各个标签的得分,为关系三元组中的每个角色(关系,论元)从句子中选择得分最高的分块作为相应的抽取。这些基于深度学习的方法相比于之前的基于规则的系统更灵活,同时不存在错误传播等问题。

1.5 多语言方法

现有的开放域信息抽取研究大多集中在英语文本,但不同的语言在词汇、句法和语义等层面具备很大差异,因此一些研究者针对英语之外的其他语言进行研究,提出了特定语言的开放域信息抽取方法。ZORE[23]在中文的依存解析树上使用模板和语法知识进行抽取,最近有研究者提出使用端到端的指针-生成器的网络[24]解决错误传播问题,在中文上取得了较好的效果。针对西班牙语,有方法使用与REVERB 类似的基于词性序列模板的句法约束进行开放域信息抽取[25]。

2 数据集

开放域信息抽取工作中常用的数据集有OIE2016、CaRB、PENN、Web、NYT 等,其中Web、NYT、PENN 数据集是人工标注的数据集。Web 数据集[8]中的句子来自网页和新闻,这些句子往往不完整或者包含错误的语法,并且句子结构一般比其他数据集更简单。NYT 数据集[8]中的句子来自《纽约时报》语料库,书写更加正式规范。OIE2016 数据集[26]是由QA-SRL 自动转换而来,被现有的开放域信息抽取方法广泛采用作为评价数据集,最近IMOJIE[20]采用众包对OIE2016中的验证集和测试集重新进行了标注,得到了更准确的数据集CaRB。表1 显示了这些数据集的更多细节。

表1 数据集

3 结语

随着互联网上海量非结构化文本的产生,越来越多的研究工作从传统的信息抽取转向了开放域信息抽取,本文介绍了开放域信息抽取任务,对目前的开放域信息抽取研究工作进行了总结和梳理,列举了被广泛使用的评价数据集。近几年深度学习技术的使用使得开放域信息抽取模型更加灵活,解决了之前方法的错误传播问题,取得了不错的效果,但目前这方面研究还是有一定的问题。一方面深度学习方法需要更加大量的标注数据,目前开放域信息抽取任务并没有特别可靠的大规模标注数据,另一方面复杂句子的抽取仍然是一个很大的挑战,同时对于抽取结果的评价方式也存在争议。未来的开放域信息抽取工作可以思考如何自动标注更可靠的数据,或者引入外部信息辅助抽取,例如对远监督获得的标注数据进行去噪。后续工作也可以考虑对复杂句子进行处理,降低开放域信息抽取任务复杂度,使模型更好地学习到抽取需要的特征,同时在英语外的其他语言上的开放域信息抽取任务也还有很大的研究空间。

猜你喜欢

模板解析信息
高层建筑中铝模板系统组成与应用
铝模板在高层建筑施工中的应用
特高大模板支撑方案的优选研究
Inventors and Inventions
睡梦解析仪
复合场中类抛体运动解析
订阅信息
“Fe2+与Fe3+”相关解析
对称巧用解析妙解
展会信息