APP下载

CHIP 2020评测任务2概述:中文医学文本实体关系抽取

2022-08-02甘子发昝红英关同峰李雯昕朱田恬穗志方陈清财

中文信息学报 2022年6期
关键词:三元组评测类别

甘子发,昝红英,4,关同峰,4,李雯昕,4,张 欢,朱田恬,穗志方,陈清财,4

(1. 郑州大学 信息工程学院,河南 郑州 450001;2. 北京大学 计算语言学教育部重点实验室,北京 100871;3. 哈尔滨工业大学(深圳),广东 深圳 518000;4. 鹏城实验室,广东 深圳 518052)

0 引言

随着生物医学领域研究的不断发展,产生了越来越多的生物医学文献。研究人员的医学知识储量与其阅读的文献数量密切相关,但普通的研究人员难以尽数阅读现有的大量文献,因此对生物医学文献中有价值的信息进行提取和挖掘就受到越来越多研究者的关注。

信息抽取是自然语言处理的一项重要课题,其基本任务就是从原始的非结构化文本中抽取指定类型的实体、关系和事件等事实信息,并输出有意义的结构化信息,以用于智能问答、信息检索等。信息抽取包括命名实体识别、实体关系抽取和事件抽取等子任务,本文关注于实体关系抽取。近年来许多学者在实体关系抽取领域开展了深入研究,以从非结构化的文本中抽取有效信息并服务于下游子任务。由中文自然语言句子或句子集合组成的医学教材、临床实践以及电子病历数据等均为非结构化的医学文本,医学领域的实体关系抽取便是从非结构化医学文本中识别出医学实体,并确定实体对之间关系事实的过程。

CHIP 2020主题为“数据和知识驱动的医疗AI”。会议共享评测的任务2聚焦于“中文医学文本实体关系抽取”,希望能通过深度学习及其他算法促进中文医学文本实体关系抽取的相关研究。评测任务的数据总共包括28 008条经过人工标注实体关系的中文医学文本,以及预先定义好的53种实体关系类别标签(schema),其由11种医学实体类别和44种关系类别组合而成。任务要求: 给定一条真实的中文医学文本,模型需要返回其可能包含的实体关系三元组(triple),每个三元组由主实体(subject)、关系(predicate)及客实体(object)组成。评测任务最终排名指标为微平均F1值,示例数据如表1所示。

表1 评测任务数据示例

1 相关工作

1.1 实体关系抽取研究进展

实体关系抽取是自然语言处理的一项重要子任务,有着重要的研究价值和广泛的应用前景。随着医学领域信息化的发展,医学文本的实体关系抽取在提取结构化信息、辅助诊断等方面发挥着重要作用。中文医学文本实体关系抽取任务的数据来源广泛,包括医学教材、临床实践、电子病历等,通常由非结构化或半结构化的文本组成。实体关系抽取有多种实现方法,而根据设计思想的差异,实体关系抽取方法可以分为流水线方法和联合抽取方法[1]。

1.1.1 流水线方法

流水线方法是指将实体关系抽取分为两步来实现,分别为命名实体识别(named entity recognition,NER)和关系抽取(relation extraction,RE),但第2步的关系抽取依赖于第1步的命名实体识别,若第1步出现错误,第2步则必定受到影响,因此流水线方法存在误差传递问题。Soares等[2]将关系语句到表示关系的定长向量的映射定义为函数,并测试了关系编码器的不同架构对关系抽取效果的影响,最后其提出的关系抽取预训练任务空白匹配(matching the blanks,MTB)让模型在少样本关系抽取任务上的效果有明显的提升。Zhong等[3]则通过对实体和关系分别进行编码,使得其结果超越了之前的所有联合抽取模型,并提出了一种新颖且有效的近似方法,只需精度略微下降便可实现8~16倍的推断提速。

1.1.2 联合抽取方法

联合抽取方法则采用参数共享[4-5]或统一标注方案[6]实现联合编码来解决流水线方式的误差传递问题,Zeng等[4]将医学文本中的实体关系三元组分为正常、实体对重叠、单实体重叠三个类别,为了解决绝大多数方法只能关注于正常三元组而少有能考虑到其他类别三元组的问题,提出了使用复制机制(copy mechanism)的基于序列到序列(seq2seq)的端到端(end2end)模型,该模型可以联合抽取文本中任意类别的关系事实。Fu等[5]提出在实体关系抽取方法中,有三个方面的问题: 实体识别和关系抽取的端到端联合模型、对重叠关系的预测、关系尤其是重叠关系之间的相互作用,这三个方面仍有待在一个统一的框架内得到充分处理,为此Fu等提出了关系图模型(GraphRel),该模型是第一个处理关系抽取中上述全部三个关键方面的神经端到端联合模型。Wei等[6]为了解决实体重叠的问题,提出了一个新的级联二元标注框架(cascade binary tagging framework,CASREL),不同于之前的方法,其将关系当作离散标签,该框架将关系建模成从句子中的主实体映射到客实体的函数,由此来解决重叠问题。

1.2 中文医学文本的实体关系类别研究

知识图谱的构建与融合一直受到研究者的关注,奥德玛等[7]、昝红英等[8]利用自然语言处理技术与文本挖掘技术,构建了中文医学知识图谱(Chinese medical knowledge graph,CMeKG),CMeKG包括疾病、药物、医疗程序及身体等实体,并描述了100余万个概念关系实例及属性三元组,并针对疾病、药物、医疗程序及身体等各类医学概念进行细化描述,定义了各类概念的关系描述框架,其将实体分为12大类,并定义了实体间的12个关系类型,为此后的医学知识图谱研究奠定了基础,同时也为中文医学文本的实体关系类别研究提供了参考。昝红英等[9]在医学领域专家的指导下制定了适合儿科学的命名实体和实体关系的标注体系及详细标注规范;融合国内外相关医学标准资源,利用标注工具对298余万字儿科医学文本中实体及实体关系进行机器预标注、人工标注及人工校对,构建了面向儿科疾病的医学实体及关系语料库。在前者的基础上,Guan等[10]参考国内外权威的医学标准术语集,搜集多种来源的医学文本资料,包括常见疾病的临床实践、医学教材《儿科学》、《临床儿科学》等来源的医学文本,通过对部分语料进行预标注并对标注结果进行分析,与医学专家共同研究评估,总结出了11种实体类别和44种关系类别,并由此制定出中文医学信息抽取数据集(Chinese medical information extraction,CMeIE)的语料标注规范,以及实体和关系描述体系规范。

中文医学文本的实体关系类别研究可以优化实体关系设计,并有效促进医学知识图谱的构建与融合。2018年瑞金医院人工智能辅助构建知识图谱大赛公布了600份与糖尿病相关的学术论文和糖尿病临床指南,以及定义好的11种关系类别,旨在通过糖尿病相关的教科书、研究论文来做糖尿病文献挖掘并构建糖尿病知识图谱。其中排名第1的模型结合Zeng等[11]与Zhou等[12]的优点并做出改进,其F1值达到了0.787。随着实体关系抽取技术的不断发展,中文医学文本的实体关系类别研究与医学知识图谱研究也在不断相互促进,共同发展。此次CHIP 2020评测任务2聚焦于中文医学文本的实体关系抽取任务,希望能验证基于深度学习算法的实体关系抽取技术,促进中文医学文本实体关系抽取的研究。

2 评测数据

CHIP 2020评测任务2的数据集为CMeIE数据集,该数据集为公开数据集,可用于科学研究。CMeIE数据集的数据来源广泛,包括常见疾病的临床实践、医学教材《儿科学》、《临床儿科学》等来源的医学文本。医学教材均在国家卫生部指导下由专业医生编写,是极其权威和可靠的。临床实践则是根据具体的临床情况,系统化制定的以帮助医生和患者选择恰当治疗手段的医学指南,具有结构规范、内容丰富和更新及时的特点。该数据集共有11种实体类别和44种关系类别,并且对每种类别都定义了描述信息和标注规范。标注团队在对医学文本进行标注之前,将其以篇章为单位分为若干份,每一份都由两名标注者独立进行标注,对于标注结果不一致和不确定的情况,由专家讨论后确定最终结果。标注完成后对医学文本进行分句,每一条医学文本以及其中包含的实体关系三元组为一条数据。本文使用F1值衡量数据集的标注一致性[13],实体和关系的F1值分别达到了0.85和0.82。

CMeIE数据集包含11种实体类别、44种关系类别、28 008条医学文本和85 282个三元组。数据集分为4部分,其中,训练集包含14 399条数据,验证集包含3 585条数据,测试集1包含4 482条数据,测试集2包含5 602条数据。该数据集有着各关系类别数据量分布不均衡的特点,整体上呈现长尾分布。44种关系类别中,临床表现关系的三元组有22 932个,而病理生理关系的三元组只有60个,详细信息如表2所示。

表2 训练集、验证集、测试集1、测试集2中三元组在各关系类型上的数量分布情况

3 评测结果

评测任务2的训练集、验证集以及测试集1于2020年7月20日发布后,参赛队伍搭建并训练各自的模型,每支参赛队伍每天可提交一次在测试集1上的结果,系统会及时根据参赛队伍提交的结果更新排名。测试集2于2020年9月28日发布,每支参赛队伍在测试集2公布期间每天可提交一次结果。最终结果根据各参赛队伍在测试集2上的微平均F1值进行排名。评测任务2于2020年10月15日截止,至截止日期总共174支队伍参加评测任务,共计515人,其中,105支队伍来自科研院校等机构,64支队伍来自企业,5支队伍为个人报名。最终51支队伍提交了测试集1的结果,17支队伍提交了测试集2的结果。根据参赛规则,参赛队伍的评测方法和结果,由评测组织者进行学术评测研究分析。

3.1 评估指标

评测使用的评价指标包括精确率(Precision,P)、召回率(Recall,R)和F1值。最终排名以F1值为基准。本次评测任务使用微平均的方式计算精确率、召回率和F1值,即不分类别地统计全部的三元组进行计算。计算如式(1)~式(3)所示。

其中,n为测试集2中的句子个数,最终根据F1值进行排名。

3.2 方法分析

采用预训练语言模型,结合实体关系抽取框架,然后针对抽取任务进行微调,最后对多个模型进行融合是解决中文医学文本实体关系抽取任务的主流策略。预训练语言模型一般在大规模文本语料库上进行预训练,以获得丰富的语义表示信息,并可以在给定任务文本上进行微调。本文对前三名队伍的方法进行分析。

参赛队伍使用了多种预训练语言模型。前三名的队伍均使用了强力优化变换器双向编码表征模型(robustly optimized BERT pretraining approach,RoBERTa)[14]以及面向汉语理解的神经语境表征模型(neural contextualized representation for Chinese language understanding,NEZHA)[15]。排名第1的队伍另外使用了变换器双向编码表征模型(bidirectional encoder representations from transformers,BERT)[16],排名第3的队伍另外使用了高效替代令牌检测分类编码器(efficiently learning an encoder that classifies token replacements accurately,ELECTRA)[17]。

参赛队伍使用了多种机器学习算法与预训练语言模型融合进行实体关系的抽取。排名第1的队伍采用了3种训练策略: ①使用层叠式指针网络先识别主实体,再基于主实体感知抽取不同关系类型下的客实体,并对其做出了改进,如训练时针对不同主实体构建其对应的训练集、引入conditional LarerNorm对主实体的表征进行感知、改进BERT的分词器以更好地提取英文专有名词等;②将实体关系抽取任务看作多头选择(multi-head selection)[18]问题,将编码层由长短时记忆网络模型(long short-term memory,LSTM)[19]改为BERT等预训练模型,并使用条件随机场(conditional random field,CRF)[20]或指针网络作为关系分类器;③基于注意力机制(attention mechanism)[21]对第2种策略进行改进,将BERT最后两层编码进行双仿射变换(biaffine)计算[22]得到多头矩阵,同时引入[CLS]进行全局编码。上述三种策略中,第3种策略取得了最好的效果。基于上述的三种算法策略,排名第1的队伍使用K折交叉验证(K-fold cross validation)构建了模型融合策略;将原始数据集(训练集+验证集)划分为5折进行交叉验证,并采用了4种不同的预训练语言模型。

排名第2的队伍主要采用指针网络结合预训练模型预测主实体、客实体及关系,并用conditional LayerNorm或注意力机制融合主实体向量与字符向量。对于单个模型,其优化方案有采样更多主实体、融合BERT模型多层表征、通过融合专业名词的边界信息以及拼接词嵌入向量进行词汇增强、分别对主实体预测和客实体预测的分数加乘方以加快收敛、指数移动平均(exponential moving average,EMA)、动态调整学习率等。对于多个模型,其使用了K折交叉验证进行模型融合。

排名第3的队伍使用了两种不同的策略: ①使用层叠式指针网络,并辅以不同训练方案,如每个数据实例随机采样一个主实体、每个实例采样所有主实体或采用不同句长以得到更丰富的三元组抽取结果;②在第1种策略的基础上引入NER进行多任务训练: 在BERT的编码层之后连接CRF,采用序列标注方法进行实体识别。对于多个模型,其同样使用了K折交叉验证进行模型融合。

数据预处理可以让模型更好地提取和学习到文本中的表示特征,提高模型的泛化能力和预测能力。在此次任务中,数据集已经去除过重复数据。为了提升模型训练效果,参赛队伍均对过长的文本进行了截断处理。排名第2和第3的队伍均使用了不同句长的数据进行训练以得到更丰富的预测结果。排名第3的队伍还使用训练好的模型预测医学文本中的实体得到伪标签(pseudo-label)以达到数据增强的目的。

3.3 结果分析

对17支队伍提交的测试集2的评测结果进行分析,F1值的平均数为0.551 5,最大值为0.648 6,最小值为0.276 0,中位数为0.566 2。排名前三的队伍提交的各自最优的结果信息如表3所示,包括参赛单位、方法描述和F1值。

表3 排名前三参赛队伍的系统结果

图1为排名前三的队伍提交结果在测试集2中各关系类别上的表现,纵坐标表示各类别上的F1值,横坐标表示44种中文医学文本关系类别,并按照F1值从高到低对类别进行排序。各队伍对“多发季节”和“同义词”这两种关系类别的三元组抽取效果最好,所有队伍结果的F1值都超过了0.8,主要原因是“多发季节”的客实体特征明显,大多包含“秋冬季”“春秋”等词汇,而“同义词”的主实体和客实体相似性和关联性较强。“侵及周围组织转移的症状”抽取效果最差,三支队伍的成绩均为0.0,这主要是因为“侵及周围组织转移的症状”这一关系类别包含的三元组数量极少,而且其与包含三元组数量最多的“临床表现”存在实体对重叠的问题,这导致系统难以识别这一关系类别。

图1 排名前三的队伍分别在 44 种关系类别上的F1值

结合各关系类别的数据量和相关实体特征信息分析,可以发现实体具有特征明显的独特性词汇、主客实体相似性和关联性较强以及数据量大的实体关系类型抽取效果较好,而数据稀疏、没有明显特征信息的实体关系类型则抽取效果较差。模型表现好的实体关系类别,如“多发季节”“同义词”“鉴别诊断”及“多发地区”,一般其三元组的实体特征信息明显、辨识性强,这可以帮助模型表现出好的抽取效果。抽取效果差的实体关系类型,如“侵及周围组织转移的症状”“预后状况”“相关(转化)”及“发病机制”,由于实体没有明显的特征信息、主客实体的相似性和关联性不强以及数据量少,因此抽取效果较差。

在各实体关系类别中,存在关系重叠的问题,在这种情况下,数据量和实体特征的独特性对实体关系抽取效果的影响被扩大,数据量少且实体特征不明显的实体关系抽取效果大大降低,如“侵及周围组织转移的症状”。

结合不同队伍的系统方案分析,发现在抽取效果好的实体关系类别中,各系统方案的性能差别不大,在抽取效果差的实体关系类别中,各系统方案的性能开始有了差异。因此提升在这些实体特征不明显、实体间相似性和关联性不强以及数据量少的实体关系类别上的抽取效果,对模型总体抽取效果的提升具有明显的帮助。本次评测任务2中排名前三的队伍均使用了多模型融合并结合各类机器学习算法的方案。排名第1的队伍使用基于注意力机制改进的多头选择策略,在抽取效果好的类别上的F1值略优于其他两支队伍,但在抽取效果较差的类别上的F1值却逊于其他两支队伍更多,不过因为抽取效果好的类别一般数据量较大,所以总体上其预测正确的三元组数量更多,其微平均F1值更好。

4 结语

中国健康信息处理会议(CHIP 2020)共享评测任务2为中文医学文本实体关系抽取,总共开放了28 008条医学文本、预先定义好的11种实体类型和44种关系类型。共有174支队伍参加了评测任务,其中17支队伍提交了最终结果。排名第1的模型微平均F1值达到了0.648 6,其使用了将BERT等预训练模型和多头选择机制融合的抽取策略。参赛队伍均使用了预训练模型,结合神经网络模型和各种抽取框架,然后针对实体关系抽取任务进行微调,最后对各个模型的结果进行集成以提升整个模型的效果。结果分析显示,排名前三的模型表现很接近,微平均F1值在0.63~0.65之间。排名第1的队伍F1值较后两支队伍高出了0.01左右,但不同类别的实体关系抽取结果差异较大,数据量大、实体特征明显以及实体关联性强的实体关系类别抽取效果明显较好。本次CHIP 2020共享评测任务2同时也为中文医学文本实体关系抽取任务提供了可供参考的数据集和实验结果。在未来的工作中,如何提升模型在数据量较少的小类别以及关系重叠三元组上的表现,仍是提高中文医学文本实体关系抽取模型性能的关键。

猜你喜欢

三元组评测类别
时序知识图谱的增量构建
热力站设备评测分析
论陶瓷刻划花艺术类别与特征
次时代主机微软XSX全方位评测(下)
次时代主机微软XSX全方位评测(上)
一起去图书馆吧
关于余挠三元组的periodic-模
一个时态RDF存储系统的设计与实现
基于Spark的分布式并行推理算法①
选相纸 打照片