脑卒中疾病电子病历实体及实体关系标注语料库构建
2022-09-28常洪阳昝红英马玉团张坤丽
常洪阳,昝红英,马玉团,张坤丽
(1. 郑州大学 计算机与人工智能学院,河南 郑州 450001; 2. 鹏城实验室,广东 深圳 518055)
0 引言
脑卒中疾病[1](Cerebral Stroke)俗称脑中风, 是由于脑部血管突然破裂(即脑出血)或血管阻塞导致血液不能流入大脑(即脑梗塞)而引起脑组织损伤的一组疾病。据2020年世界卫生组织公布(1)https://www.who.int/news-room/fact-sheets/detail/the-top-10-causes-of-death,中风是全球范围的第二大杀手,占世界死亡总人数11%,而在中国,根据科普中国网显示(2)https://cloud.kepuchina.cn/newSearch/imgText?id= 6750802040109207552,脑卒中已然成为中国死亡原因第一位,同时也是中国成年人致残的首要元凶。因此,通过人工智能的手段对脑卒中疾病进行研究是非常有必要的,而构建脑卒中电子病历实体及实体关系标注语料库(SEMRC)是深入研究的基础。
电子病历是指医务人员在医疗活动过程中,使用医疗机构信息系统生成的文字、符号、数据、图表、图形、影像等数字化信息,并能实现存储、管理、传输和重现的医疗记录,是病历的一种记录形式,包括门(急)诊病历和住院病历,记录了病人从入院到出院期间诊断治疗全部过程的诊疗信息[2],包含了大量真实可靠的病情信息,如“于外伤后出现头懵不适感”、“头CT(2018—07—21我院): 1.硬膜下出血?2. 蛛网膜下腔出血。”等,对这些电子病历文本进行实体及实体关系标注的语料库对后续的相关研究具有重大意义。(为方便书写,本文出现电子病历若无特殊说明都是指中文电子病历)。
对海量的电子病历进行人工标注的代价是昂贵的,因此对电子病历的处理常常需要借助自然语言处理、机器学习和深度学习等技术进行自动抽取。由于医学文本信息具有领域特点,通用语料库不能很好地应用到医学文本的信息抽取中,而且电子病历属于半结构化文本,不方便机器自动处理。因此,构建脑卒中疾病电子病历的实体及实体关系标注语料库将为脑卒中疾病的健康咨询、智能辅诊等相关研究提供可靠的数据基础。
本文的主要针对脑卒中疾病电子病历文本,探讨实体及实体间关系,创立脑卒中疾病电子病历标注规范体系,构建脑卒中疾病电子病历文本的实体及实体关系标注语料库(SEMRC)。
1 相关研究
1.1 医学文本信息抽取及语料标注
对于医学信息的抽取, i2b2(Informatics for Integrating Biology & the Bedside)举行的公开评测引起了大家浓厚的兴趣。在2006年举办的患者抽烟状态识别任务中[3],i2b2把患者抽烟的状态定义成了五个类别,该评测在2008年又加入了对电子病历中肥胖及其并发症进行抽取的任务,同时在标注中引进了推断机制,检查实体的属性值如血糖值、血脂值等能够对患者状态进行定量表述的描述,对于这些数值型的描述也进行了标注[4]。在2009年i2b2组织的评测任务中,加入了对电子病历中药物相关信息的抽取[5]。2010年i2b2的评测任务发起了倡议,希望参与评测的队伍可以在电子病历中抽取出医疗概念、医疗问题及对问题的修饰,并且能够识别出医疗问题与治疗、检查之间存在的关系[6]。在2012年i2b2举行的评测任务中,加入了对电子病历中时间信息及医疗事件与时间之间的关系的抽取[7]。在2014年i2b2组织的评测任务中,进行了糖尿病类患者的电子病历中心脏病风险因素的抽取[8]。除了i2b2,还有一些其他研究者做了相关的工作,Meystre等[9]构建了对医疗问题标注相关修饰词信息的医疗术语标注语料库、梅奥诊所[10]首次对实体及关系的修饰信息进行细致分类,Campillos等[11]构建了法语语种的命名实体及实体关系语料库,以及一些其他的相关工作,如对医疗事件之间的关系[12]、电子病历中的时间信息[13]、医疗术语和实体[14]、对实体和实体关系进行修饰的信息[15]等做了讨论。
中文医疗信息抽取领域近些年来也取得了许多的成果。Yang等[16]在构建中文电子病历命名实体和关系语料库过程中采用了以预标注的方法训练标注人员更新标注规范的模式在标注结果上取得了较好的一致性。Lei等人[17-18]借鉴i2b2组织2010年的实体分类,在2013年把病历中出现的治疗进一步划分为了过程及药物,并于2014年抽取研究了电子病历中出现的检查、药物、治疗过程及医疗问题等。Wu等人[19]在Lei等人[17]标注的语料库上使用深度学习算法识别电子病历中的命名实体。昝红英等人[20-21]在所构建的面向儿科疾病的实体及实体关系语料库中抽取多元组,构建了儿科医学知识图谱;针对目前国内医学领域信息抽取发展现状对深度学习模型在这一领域的应用及未来发展趋势做了总结。张坤丽等人[22]于2019年以构建中文医学知识图谱任务为基础,构建了能够实现半自动化的实体及关系标注平台,即本文标注过程中所采用的平台。
1.2 中文医学语料库
Lei等人[17]于2013年收集了协和医院的800份电子病历并由两名专家医生进行标注构建了命名实体标注语料库。2014年Wang等人[23]构建了包含11 613条主诉的医学症状名语料库,语料的标注由在职医生完成。2016年杨锦峰等人[24]在922份病历文本基础上构建了中文电子病历命名实体和实体关系语料库。2019年苏嘉等人[25]在中文健康信息处理领域构建了第一份关于心血管疾病风险因素的语料库。昝红英等人[20,26]利用自行开发的标注工具构建了包含常见疾病504种的面向儿科疾病的实体及关系标注语料库,并于2019年在原有的医学命名实体及关系标注体系的基础上结合了症状的特征、概念等及症状在医学影像中所发挥的作用,构建了一个共包含了8 772种症状和146 631条关系的症状知识库。Guan等人[27]基于教科书、电子病历等多种数据来源构建了中文医学信息提取数据集(Chinese Medical Information Extraction,CMeIE)。
2 脑卒中疾病电子病历实体及实体关系标注体系的制定
参考昝红英等人[20,26]提出的中文电子病历命名实体和实体关系标注规范、面向儿科疾病的实体及关系标注语料库中使用的标注规范及Guan等人[27]使用的标注规范,在临床医生的专业指导下,本文制定了适用于脑卒中疾病电子病历内容特点的标注规范。图1为脑卒中电子病历实体及实体关系标注体系的示意图。按照疾病及其与症状之间的关系以及疾病和症状分别与检查、手术治疗、药物治疗、其他治疗、修饰和时间等实体之间的关系来介绍脑卒中疾病电子病历标注规范。
图1 脑卒中疾病电子病历实体及实体关系标注体系示意图
2.1 疾病、症状及相互之间的关系
在脑卒中疾病电子病历标注过程中,疾病实体是指患者在一定条件下受到病因的损害作用后,机体因自稳调节紊乱而引发的异常生命活动的过程或医生针对患者情况做出的诊断。疾病的概念范围用ICD-10和MeSH词表中编码为C的疾病概念来界定,但同时不局限于词表中的概念,借助百度百科和医学百科等辅助确认疾病概念。
在此次症状的标注过程中,主要参考了《中文症状库》[26]和《诊断学》中的症状实体。没有专门区分症状与异常检查结果(体征),而是统一当作症状标注,即患者自述或家属转述或者医生通过观察、仪器等方法检查到患者出现的异常结果都标为症状实体。
疾病与症状之间存在的关系: 疾病导致了症状。
实例1: “4余年胃镜检查提示胃溃疡,后复查胃镜恢复,平时易出现胃部不适”中出现的疾病与症状之间的三元组为<胃溃疡,疾病导致症状, 胃部不适>。
2.2 治疗及其与疾病、症状之间的关系
治疗是指因疾病或症状而施加给患者的治疗程序、药物给予、干预实施等。我们认为治疗可以通过治疗的定义、手段和方法等再做更加精细的划分,因此在本次研究中不单独出现“治疗”实体,而是分别拆分成为了“手术治疗”“药物治疗”和“其他治疗”。
手术治疗指通过针、刀、剪等医疗器械在患者身体局部进行割、切、缝合等操作来完成维持患者健康目的的过程,通常用于外科治疗。本次标注中主要通过ICD-9-CM和MeSH词表中E编码的手术概念以及病历中明确指出患者通过某种手术进行治疗来界定手术实体的范围。药物是指能够对机体的生理功能或代谢活动产生影响的化学物质,此次标注对药物实体范围的界定主要为ATC、MeSH词表中D编码的药物以及病历中明确指出患者使用过或出现在用药指导部分的药物。其他治疗主要包括放射治疗、辅助治疗、化疗以及其他要完成一定治疗目的,如营养神经、清除自由基、改善循环等。
治疗与疾病和症状之间的关系如表1所示。
实例2: “4年前因声带息肉行“声带手术”;”一句中存在手术治疗与疾病之间三元组<声带手术,治疗施加于疾病,声带息肉>。
2.3 检查及其与疾病、症状之间的关系
检查指为了查清证实患者是否患有某种疾病或具有某些症状而通过特定的技术、医疗仪器设备而进行的检查项目、手段、过程等,为医生的临床诊断和治疗提供依据。为界定检查覆盖范围,避免标注歧义,检查限于以下三种: ①诊疗计划、辅助检查及治疗过程中提到的检查手段,如“头CT”“头颈联合CT”“头颅磁共振”等; ②体液检查项目、生理指标、生理测量及其他检查项目,后面通常跟有表示指标值或测量值的数值。如: “体温36.7℃”“血压134/87mmHg”“甘油三酯2.32mmol/L”等; ③病历中直接指出的检查,如“查”“检查”“示”“查体”“试验”等。由于在后续工作中采用深度学习算法,这些算法对于数值数字并不敏感,因此在检查项目中出现的指标数值结果没有进行标注,只标注了其中的检查项目。
表1 治疗与疾病、症状间的关系
检查与疾病间存在的关系: 检查证实了疾病、为了证实疾病而采取的检查;检查与症状间存在的关系: 检查证实了症状、为了证实症状而采取的检查。
实例3: “查体: 伸舌右偏,”一句中存在检查与症状之间三元组<查体,检查证实了症状,伸舌右偏>。
2.4 身体及其与症状之间的关系
身体包括部位、器官或身体位置、区域及身体系统。参考中文电子病历命名实体和实体关系标注规范[26]中没有身体或者部位的实体,但经过对脑卒中疾病电子病历的分析认为身体实体是有必要的,尤其是当症状与身体部位之间并不直接相连,如“双侧额顶叶、双侧侧脑室周围脑白质脱髓鞘”“双侧小脑半球、左侧桥小脑结合臂含铁血黄素沉淀”等,部位与部位之间有间隔,如果不添加身体实体会造成大量的信息缺失,并影响电子病历本身的严谨真实性。
身体与症状之间存在的关系: 位置。当身体部位与症状不能够直接相连时,则将其标注为: <身体,位置,症状>。
实例4: “双侧额叶、左侧顶叶点状白质脱髓鞘”一句中出现身体与症状之间三元组<双侧额叶,位置,点状白质脱髓鞘>、<左侧顶叶,位置,点状白质脱髓鞘>。
2.5 修饰及其与疾病、症状和治疗之间的关系
电子病历中的一些对疾病、症状及治疗等实体进行定性或定量非数值的描述,如,“无饮水呛咳”中“无”字、“头晕稍好转”中的“稍好转”“脑梗死可能性大”中的“可能性大”等,在脑卒中电子病历标注过程中将其标注为修饰实体。
修饰与疾病、症状和治疗之间的关系如表2所示。
实例5: “主诉: 视物不清2天加重1天”一句中存在修饰与症状之间三元组<加重1天,严重程度,视物不清>。
2.6 时间及其与疾病、症状之间的关系
在脑卒中电子病历标注过程中,将病历中出现的与疾病或症状有直接关联的时间点、时间段标注为时间实体。
时间与疾病之间存在的关系: 既往、持续、将来;时间与症状之间存在的关系: 既往、持续、将来。
实例6: “主诉: 视物不清2天加重1天”一句中存在时间与症状之间三元组<2天,持续,视物不清>。
表2 修饰与疾病、症状和治疗间关系
2.7 同类实体间关系
在标注过程中,发现在电子病历中会经常出现在同一区域有多个同类实体对应同一个或多个实体的现象,由于所使用的可视化图形标注工具[22],为提高标注过程中对标注人员的友好性和标注效率,将出现在同一区域且与同一个或多个实体对应的多个同类实体标注为实体组。定义的实体组关系有: <疾病,实体组,疾病>、<症状,实体组,症状>、<检查,实体组,检查>、<手术治疗,实体组,手术治疗>、<药物治疗,实体组,药物治疗>及<其他治疗,实体组,其他治疗>。
实例7: “无头晕头痛,恶心呕吐”一句中“无”字分别修饰“头晕头痛”和“恶心呕吐”,由于文本数量多及平台特征,如果分别单独标注会造成标注人员难以辨认,因此将“头晕头痛”和“恶心呕吐”标注为实体组<头晕头痛,实体组,恶心呕吐>。
2.8 标注原则补充
在本次SEMRC构建过程中遵循的医学实体标注基本原则如下:
(1) 非重复标注原则: 即在一段医学文本中出现的实体提及,只能属于一种确定的实体类型;
(2) 非嵌套标注原则: 即全部的实体都是相对独立的,不能作为其他实体的子集;
(3) 规范性原则: 即标注过程中,实体中不应包含普通文本与标点符号的组合,且尽量不包含“或、及、和”等连接词。
3 SEMRC语料库构建
构建语料库最为主要的工作就是制定合理的标注规范,并严格地依据规范进行语料标注。以上述制定的脑卒中疾病电子病历实体及实体关系标注体系为基础,在领域专家指导下,制定了标注规范的初稿,选定基础标注平台并开发出适用于本体系的标注工具。目前主流的语料标注模式有三种:
(1) 领域专家标注: 适用于专业知识储备要求高的专业领域语料的标注,该模式能够极大程度地保证语料标注的质量,但也存在标注成本高、语料构建周期长等弊端。
(2) 众包标注: 这种模式能够较为明显地降低较大规模语料标注的成本,但只能用于简单的语料构建任务,且标注过程中要巧妙设计以保证标注质量。
(3) 团体标注: 该构建语料库的标注模式与信息检索评价集构建较为类似,能够在标注过程中不依赖领域专家的情况下构建出质量较高的语料,但对标注成员要求较高。
为了兼顾标注质量及标注成本和周期,我们在语料标注模式上选择了领域专家+团体标注模式。
3.1 准备工作
数据准备我们从河南某三甲医院筛选了共200份的电子病历,其中每份电子病历选取包括: 入院记录、病程记录(拆分为首次病程记录和查房记录)、出院小结及出院医嘱等作为标注数据集。在这200份患者病历中脑出血患者病历有90份,脑梗塞有病历110份。在标注之前需要先进行数据脱敏处理,即去除电子病历中的敏感信息,如患者姓名、身份证号、联系方式、家庭住址、工作单位和医生姓名等。
标注规范的制定和标注人员的培训在脑卒中疾病电子病历实体及实体关系标注体系基础上制定标注规范初稿。在人员培训方面本文采用了预标注的策略,在标注人员详细阅读过标注规范初稿后选用另一批不在最终语料库中的相同来源电子病历,将经过格式转换和脱敏等预处理后部署在脑卒中电子病历实体及实体关系标注平台上进行预标注(预标注后的数据不再使用),希望通过预标注来达到两个目的: ①完成标注人员对标注过程的熟悉、对标注规范的深入理解; ②集合多位标注人员智慧总结脑卒中电子病历的特点,完成对标注规范初稿的修改完善,形成标注规范v2.0版本。
平台选取在张坤丽等人[22]构建的半自动化实体及关系标注平台基础上,参考脑卒中标注规范开发出适用于脑卒中疾病电子病历实体及实体关系标注平台。
3.2 病历标注
规范v2.0版本完善后在此基础上开始正式标注,对于每一批数据的标注分为四步。
第一步在一标文件中完成包括对疾病、症状、手术治疗、药物治疗、其他治疗、修饰、时间、检查及身体等实体的分类标注,同时记录每位标注人员标注过程中的疑惑,对于疑惑问题定期进行讨论解决,并在一标文件中进行修改;
第二步在一标文件基础上生成二标文件,现有标注人员进行交叉检查,对于有异议的,依据规范进行讨论解决;对于规范没有定义不能很好解决的问题统一讨论解决,并修订补充规范;
第三、四步实体标注基本统一后继续由一标人员在二标文件上依据规范v2.0版本中实体关系标注部分进行实体间关系标注,第三、四步是对实体关系的标注,过程与第一、二步一样。对于选定的200份患者电子病历,在标注过程中将其分成了3个批次进行标注,而人员的培训及规范的完善也随着这3个批次的进行而循环进行。整个语料构建过程如图2所示。
图2 脑卒中标注流程图
4 构建结果及分析
文献[28]中指出当标注一致性评价结果到达0.8时即可判定语料的一致性是可以被接受的。表3结果表明本文最终构建的语料库是可信赖的。一致性计算如式(1)~式(3)所示。
其中,A1、A2分别表示两位标注人员在同一份病历上的标注结果。
最终标注语料库的一致性评价结果如表3所示。可以看出,本次构建的脑卒中语料库的实体一致性达到了0.85,实体关系一致性达到了0.94,其中脑出血病历标注的实体及实体关系一致性分别为0.84和0.94;脑梗塞病历标注一致性分别为0.86和0.94。表3结果表明,本文最终构建的语料库是可信赖的。
表3 脑卒中标注语料库一致性结果
本文主要以脑卒中疾病电子病历作为基础的语料库构建依据,介绍了语料标注的过程和体系。整个脑卒中疾病实体及实体关系标注语料库的构建过程历时五个月,共由主任医师1名、副主任医师1名、计算机硕士研究生10名共同参与完成了电子病历标注语料库构建的工作。本次标注共完成了标注1 582 962字、实体概念10 594个、实体关系三元组14 457个,标注实体及实体关系数量如图3、图4所示。
图3 标注实体数量
图4 标注关系数量
5 结语
本文主要对脑卒中疾病电子病历实体及实体关系标注过程进行了探究,具体从以下三个方向进行探讨: 首先,构建了一套适用于脑卒中疾病电子病历实体及实体关系的标注体系;其次,制定了与本文构建体系相对应的语料标注规范;最后,根据标注体系和规范构建了中文脑卒中疾病电子病历实体及实体关系标注语料库SEMRC。
在体系构建、标注规范的确立及完善、标注过程中所遇到问题的解决都有医学专家的参与和指导,这使本文制定的标注规范具备较强的领域专业性,能够在后续的研究工作中提供一定的科学指导。在语料的标注过程中采用了领域专家+团体标注模式,并结合标注人员预标注培训的标注思想,语料库较高的一致性结果也肯定了本文的标注方法。在对脑卒中电子病历进行标注的过程中,本文根据病历语料的特点提出了以疾病和症状为双头实体,以治疗(包括手术治疗、药物治疗和其他治疗)为副头实体,以时间、修饰、身体、检查等作为从属属性实体的标注体系。本文此次构建的基于中文电子病历脑卒中实体及实体关系标注语料库可以为使用机器学习算法进行自动抽取、通过计算机技术对脑卒中疾病进行更深层次的探索提供基础。