CHIP2019评测任务1概述：临床术语标准化任务

2021-04-29黄源航焦晓康汤步洲陈清财

中文信息学报 2021年3期

黄源航,焦晓康,汤步洲,3,陈清财,3,闫峻,

(1.哈尔滨工业大学计算机科学与技术学院，广东深圳 518055；2.医渡云(北京)技术有限公司，北京 100191；3.鹏城实验室，广东深圳 518055)

0 引言

随着信息技术的快速发展，计算机技术在医疗领域得到了广泛的应用。如何利用计算机相关技术处理海量的临床医疗数据是诸多学者一直在研究的热点问题。其中，临床术语标准化是临床医疗信息处理领域的一个重要研究方向。

临床上，由于医疗人员的记录风格存在差异，关于同一种诊断、手术、药品、检查、化验、症状等往往会有成百上千种不同的写法。比如，在中文临床医疗文本中，“先天性脊柱侧弯”可以表述为“先天性脊柱侧凸”，也可以表述为“先天性脊柱侧弯畸形”；在英文临床医疗文本中，“heart attack”“MI”和“myocardial infarction”都可以代表“心肌梗塞”的含义。临床术语标准化就是要为临床上各种不同表述找到对应的标准表述。有了术语标准化的基础，研究人员才可以对临床医疗文本进行后续的统计分析。目前部分医疗机构采用人工方式将临床术语手动规范化为标准术语，但是由于临床术语专业性较强，并且表述方式过于多样，这种方式对工作人员专业知识要求较高，所需人力成本巨大，得到的标准化结果也往往不够准确。

第五届中国健康信息处理会议(CHIP2019)组织了与中文临床医疗信息处理相关的三项评测任务，其中评测任务1为临床术语标准化任务。该评测任务鼓励参赛者使用计算机技术对中文电子病历中挖掘出的真实手术实体进行语义标准化，即给定一手术原词，将其自动映射为手术词表中对应的手术标准词。本次评测数据集由医渡云(北京)技术有限公司提供，其中的手术原词全部来自真实医疗数据。训练数据由专业人员依据《ICD9-2017协和临床版》手术词表对手术原词进行了人工标注，将手术原词手动映射为手术词表里的手术标准词，标注样例如表1所示，其中多个标准词用“##”分隔。参赛队伍需要构建系统将测试数据中的手术原词映射到给定手术词表里的手术标准词。本次评测以准确率(accuracy)作为评估指标。最终，排名第一的参赛队伍提交结果的准确率为94.83%。本文将对此次评测任务中的数据、各支队伍的提交结果以及评价指标进行分析和总结。

表1 CHIP2019评测任务1标注数据样例

1 相关工作

临床术语表述方式的不统一给医疗信息的整合、交换和共享等工作带来了诸多障碍。因此，开展临床术语标准化的相关研究有助于推动医疗领域数字化、信息化建设，实现高效率的全社会医疗资源共享。国外对于临床医学术语标准化的探索起步较早，目前已经做了许多研究工作。MetaMap是美国国立医学图书馆建立的一个实现生物医学文本到一体化医学语言系统(unified medical language system，UMLS)概念映射的在线工具,它能标记出生物医学文本所包含的UMLS超级叙词表(Metathesaurus)中的医学概念。Aronson[1]对MetaMap的文本映射基本原理进行了描述，即对于医疗文本，MetaMap使用基于规则的方法，通过计算文本中的名词短语与检索Metathesaurus得到的候选词之间的匹配程度来查找并返回与此文本相关的Metathesaurus概念。然而，这种简单的字符串匹配方法对数据要求较高，泛化能力不强。Leaman等人[2]提出了一个利用机器学习方法对医疗文本中的疾病名称进行标准化的模型DNorm。DNorm模型使用机器学习中的文档对排序学习(pairwise learning to rank)技术对文本中发现的疾病名称和知识库中的实体概念进行相似度打分并排序，最终返回分数最高的候选概念或能够在词表中完全匹配的候选概念作为疾病名称标准化后的标准概念。DNorm当时在公开数据集NCBI上达到了最好的效果，但该模型在计算相似度时并没有深入挖掘文本中所包含的语义信息。随着深度学习技术的发展和计算性能的大幅提升，神经网络被广泛应用于医疗信息处理领域。Limsopatham和Collier[3]提出使用卷积神经网络(convolutional neural network，CNN)或者长短期记忆网络[4](long short-term memory，LSTM)对社交媒体中的文本进行编码，把每个医学概念看作一个类别，将编码后的文本表示经过分类器映射到对应的医学概念上。这是深度学习技术首次被应用到医学术语标准化任务中，相比传统的字符串匹配或者机器学习方法，深度学习技术能够更好地利用文本中所包含的语义信息。近些年来，国际上组织了多个与临床术语标准化相关的评测任务，比如CLEF(Conference and Labs of the Evaluation Forum)eHealth 2017[5]、eHealth 2018[6]和eHealth 2019[7]中的多语言信息抽取任务，SMM4H(social media mining for health)2019[8]中的药物副作用抽取以及标准化任务，BioNLP(Biomedical Natural Language Processing Workshop)2019[9]中的药品和化学实体标准化子任务。

由于我国医疗信息化发展进程相对滞后，且医疗术语相关编码体系建设起步较晚，目前国内关于中文临床术语标准化开展的研究较少。CHIP2019评测任务1是国内首个聚焦于中文临床术语标准化工作的评测，旨在利用前沿的深度学习和自然语言处理技术，推动临床术语标准化的相关研究工作。

2 评测数据

CHIP2019评测任务1数据集中包含的所有手术原词均是来自三甲医院的真实医疗数据，由医渡云(北京)技术有限公司提供。训练集和验证集中分别包含了4 000条和1 000条手术原词，对每条手术原词以《ICD9-2017协和临床版》手术词表为标准进行了标注，形成<原始词，标准词>对。《ICD9—2017协和临床版》手术词表为层级结构，层级越深，标准词表述越具体，因此对于手术原词，标注原则为尽量查找层级深的标准词，无法准确对应标准词时再查找上级标准词。

测试集中包含了2 000条手术原词，要求参赛者给出其对应的手术标准词。表2展示了评测数据集的具体统计信息。除了训练集、验证集和测试集，此次评测还提供了《ICD9-2017协和临床版》手术词表，里面包含了9 867个手术标准词。

表2 CHIP2019评测任务1数据集统计信息

训练集、验证集和测试集的数据分布基本保持一致。长度不超过20的手术原词在训练集中占比约为94%，在验证集和测试集中将近95%，可以看出此次评测数据集中的手术原词均为短文本。由于训练集、验证集和测试集里面出现的手术标准词均来自《ICD9-2017协和临床版》手术词表，因此手术标准词长度分布和手术词表基本一致。由于数据集中的每条手术原词可能对应多个手术标准词，如手术原词“经皮肾镜碎石取石术(左侧)”对应的手术标准词为“经皮肾镜碎石术(PCNL)”和“经皮肾镜取石术”。这也是本次评测任务的难点之一。在训练集、验证集和测试集中，只对应一个手术标准词的手术原词占比大约为95%，即大部分手术原词对应单个标准词。关于数据集中手术原词对应手术标准词个数的具体统计信息如图1所示。

图1 CHIP2019评测任务1手术原词对应标准词个数统计信息

3 评估指标

CHIP2019评测任务1以准确率(accuracy,A)作为最终评估标准。本任务中，准确率定义：给出正确的手术原词加手术标准词的组合除以待预测手术原词的总数。具体计算如式(1)所示。

(1)

对于测试集中的第i条手术原词，预测出的手术标准词集合为Pi，真实对应的手术标准词集合为Gi,N是测试集中手术原词的个数。需要说明的是，计算Pi和Gi的交集时，遵循严格匹配原则，即预测出的手术标准词必须与手术原词真实对应的某个手术标准词完全匹配，否则不属于交集。

4 评测结果

CHIP2019评测任务规定每支参赛队伍最多提交三份结果，取准确率最高值作为该支队伍的最终结果。本次评测共收到了47份提交结果，其中准确率最高为94.83%，最低为35.11%，平均值为79.75%。表3为对评测任务1排名前十参赛队伍系统的简要描述，包括所使用的技术方法简述以及是否使用外部资源(此评测任务允许使用公开数据资源和选手个人/组织的内部资源，不允许执行任何人工标注)。

表3 CHIP2019评测任务1排名前十队伍系统信息

可以看出，本次评测排名前十的大部分参赛队伍都使用了预训练语言模型BERT[10](bidirectional encoder representation from transformers)，证明了利用大规模语料进行预训练得到的语言模型在自然语言处理领域的有效性。除了“GR-hwj”和“SXDX-djj”两支队伍，其余八支队伍均将标准化任务当成了文本相似度任务进行处理。本质上，临床术语标准化任务是语义相似度匹配任务的一种。但是由于原词表述方式过于多样，并且标准词词表通常规模较大，单一的匹配模型很难获得很好的效果。部分队伍除了文本匹配模块，还加入了筛选匹配候选词模块，即通过相似度计算等手段为每个手术原词筛选若干手术标准词作为匹配候选，再将<手术原词,手术标准词>对输入到文本匹配模型进行关系判断。相似度计算是较为常见的筛选候选方法，“YZS-cwf”采用多标签分类模型获取匹配候选；“ALBB-cms”引入信息检索技术，使用检索工具Lucene得到匹配候选；“ZKYF-xl”借鉴了生成模型的思想，利用Transformer[11]训练了端到端的翻译模型辅助相似度计算。“GR-hwj”将临床术语标准化任务分别当作生成问题和分类问题进行处理，融合了生成模型和分类模型的结果。“SXDX-djj”则完全将临床术语标准化任务当作生成问题，以Seq2Seq[12]模型为基础构建系统进行标准词预测。

测试集中一共有2 000条手术原词，其中1 901条手术原词对应单个手术标准词，99条手术原词对应多个手术标准词。表4是评测任务1排名前十队伍的系统在测试集上的评估结果，每列结果最高数值已加粗表示。其中“Acc”为在测试集整体2 000条数据集上计算的准确率结果，“Acc-single”为在测试集中对应单个手术标准词的1 901条手术原词上计算的准确率结果。“Acc-multiple”则是在测试集中对应多个手术标准词的99条手术原词上计算的准确率结果。可以看出：此次评测排名前十队伍对于单个手术标准词的预测准确率较高，前五支队伍均接近0.9或者达到0.9以上，前十队伍中“Acc-single”最高值与最低值之差为0.217 0。对于对应多个手术标准词的情况，前十队伍系统预测结果比对应的单个手术标准词差，最高值为0.888 9，最低值为0.491 3，二者相差0.3976，说明各支队伍系统在预测多个手术标准词时性能差异相对较大。

表4 CHIP2019评测任务1排名前十队伍系统评估结果

针对测试集中的2 000条手术原词，其中前十支队伍均没有预测正确的手术原词，一共有52条，可以将这些手术原词看作系统普遍预测错误的数据样例。通过分析这些数据样例，发现不易准确预测的手术原词可以主要归为以下三类：

(1)手术原词对应多个手术标准词，这与上文展示的各支队伍对于多标准词的预测结果相符。

(2)手术原词对应的标准词在训练集出现次数很少甚至没有出现过，这给模型的训练增加了难度，模型无法准确地学习到这些标准词的相关信息。

(3)手术原词对应的手术标准词在手术词表中有相似的标准词，模型在预测时难以有效地分辨这些相似标准词的区别。

5 结语

临床术语标准化是医疗信息处理领域中的一个重要研究方向。在如今互联网、大数据迅速发展的时代背景下，术语标准化有助于整合和利用规模庞大的、分散的、非结构化的医疗信息数据。随着人工智能的兴起，自然语言处理相关技术的应用逐渐渗透到医疗领域。如何利用自然语言处理等深度学习技术处理临床术语标准化问题，是CHIP2019评测任务1关注的重点。

本文是对CHIP2019评测任务1的简要概述。本次评测吸引了来自企业、高校和研究机构的56支队伍报名参加，一共接收了47组结果，最高准确率达到了94.83%。参赛队伍大多数以预训练语言模型BERT为基础构造了系统。相比于未引入预训练模型的系统，这些以预训练语言模型为基础的系统取得了较好的标准化效果。大多数系统对于对应单标准词的手术原词预测效果较好，对于对应多标准词的手术原词预测效果相对较差。通过分析预测错误的数据，总结了出错的主要类型，这是临床术语标准化任务的主要难点，也是未来研究工作中应该关注的重点。