APP下载

中英文电子病历临床表型标准化与语料收集的Web交互系统

2022-05-30齐磊齐莹莹尧玉恒

计算机应用文摘 2022年7期
关键词:电子病历标准化

齐磊 齐莹莹 尧玉恒

关键词:电子病历;临床表型;标准化;语料收集

中图法分类号:TP391 文献标识码:A

1引言

当前,生物医学领域的非结构化文本形式提供的数据量呈爆炸式增长。有效识别生物医学实体,是提取非结构化文本中隐藏的生物医学知识,并将其转化为结构化格式的前提。因此,BioNER(生物命名实体识别)任务具有重要的研究价值。其中,基于人类表型本体(HPO)的表型识别非常重要。

1.1生物医学命名实体识别

随着以非结构化文本形式提供的数据量呈爆炸式增长,截至2022年3月,PubMed中已经收录了3300多万份生物医学相关的文献。其中包含生物医学、健康和临床科学方面的知识,生物医学方面的命名实体识别(BioNER)变得越来越重要[1]。由于目前没有对这些科学方面的知识进行自动处理,因此大部分信息仍隐藏在文本的细节之中,无法进一步使用或分析。因此,自然语言处理(NLP)和文本挖掘方法被用于从此类出版物中提取信息。而命名实体识别(NER,也称为实体识别或实体提取)是信息提取(文本分析)的子任务,旨在发现和分类文本中的特定实体。“命名实体”一词是1996年在第六届消息理解会议(MUC)上创造的,当时从非结构化文本中提取信息成为一个重要问题。

在语言领域,命名实体识别涉及自动扫描非结构化文本以定位“实体”,用于术语规范化和分类,如人名、组织(包括公司、非营利组织等)、位置(包括城市、国家、河流等)或日期和时间;在生物医学领域,实体分为基因/蛋白质、药物、代谢物、疾病、组织、器官、毒素、食物等类别。因此,科研工作者如果不借助工具,需要人为查询数百万个非结构化文本语料库以查找目标信息,故自动化的BioNER无疑已成为研究中的非常重要的工具。有效识别生物医学实体,是提取非结构化文本中隐藏的生物医学知识,并将其转化为结构化格式的前提。因此,BioNER任务具有重要的研究价值。

1.2人类表型本体(HPO)

在遗传学中,表型是生物体可观察到的特征或特征的集合。生物体的表型源于两个基本因素,即基因型以及环境因素的影响。这两个因素都会互相影响,从而会进一步影响表型。而“临床表型”是医生在诊断中或者病人在检查中所描述的相关症状及状态说明。所述测量或临床观察能够与临床条件或者疾病的状况相关联。

为了对临床表型进行更规范化的整理,2008年国际生物医药组织OBO联盟成员德国柏林夏洛特(Charité)医学院联合Monarch Initiative启动了第一个人类表型术语本体数据库HPO(Human  Phenotype Ontology)项目[2]。利用该在线数据库,可便捷浏览、查询生物医疗领域的专业术语,聚集疾病、表型、模型生物、基因等大量结构化的语义数据。人类表型本体论(HPO)提供了在人类疾病中遇到的表型异常的标准化词汇表。每个术语在HPO描述了一种表型异常,如房间隔缺损等。目前,HPO包含超过13000个术语和超过156000个遗传疾病注释。迄今为止,HPO已被国际20余家顶级科研机构广泛应用于人类遗传学的临床诊断研究。以上人类表型数据库都是英文数据庫。目前,国内还缺乏针对临床表型统一的结构化和规范化的数据库标准。2015年年底,由国内临床、遗传咨询、分子生物学领域知名人士自愿组织、共同发起成立了中文人类表型标准用语联盟(CHPO,The Chinese Human  Phenotype Ontology Consortium),他们对国外已有的HPO词条进行翻译优化,从而形成了中国的HPO数据库,给中国的电子病历临床术语标准化提供了条件。

2中英文临床表型的在线Web预测系统

目前,中英文领域都开发出了针对生物医学文献和电子病历来对其中的临床表型术语进行标准化的方法。但是这些方法大多基于源代码,不便于用户使用。我们希望把该算法的中英文版本向临床医生或者科研工作者进行推广应用,从而帮助推进中英文临床表型相关研究的发展。

中英文临床表型的在线Web预测系统基于Django的框架,通过Python脚本控制电子病历或者相关生物医学文本的网页端获取、服务器后台的HPO标准化预测、数据库查询以及预测结果报告的返回和页面展示等功能。现从服务器界面和实现功能两个方面介绍中英文临床表型的在线Web预测系统。

2.1在线Web预测系统界面

在线Web预测系统的主界面的导航栏中包含Home,TeamtoIntroduce,Download,PatientManage?ment,Server,Contact,Help等条目,这些条目可以跳转到新的标签页或者跳转到页面的相应位置。Home栏目主要介绍了标准化系统任务的摘要,对整个任务进行了总结和概括;Download栏目储存了在线Web预测系统所有程序的源代码、数据集、训练好模型的二进制文件以及说明文档等;Patient Management栏目可以对预测病历的历史结果进行展示和调取;Help栏目可以对在线Web预测系统的使用进行图文结合的介绍和说明;Server栏目则是在线Web预测系统的核心部分,即预测输入信息入口。

2.2在线Web预测系统实现的功能

在线Web预测系统实现的主要功能包括三块,即在线预测功能、报告展示功能以及HPO树状结构图展示功能。

在线预测功能就是Server栏目的预测输入信息的入口,需要输入用户的姓名以及身份证号码用于验证用户的真实性,防止恶意爬虫的爬取和攻击,保证服务器资源的合理利用以及服务器的安全性。接下来,用户可以手动输入电子病历或者生物医学文献的文本,或者选择上传以电子病历或者生物医学文献文本为主要内容的txt文档。在线Web预测系统会自动判别输入的文本语言是中文还是英文,据此选择相应的模型进行预测,减少了用户进行选择的参数。以上步骤完成之后,就可以点击提交,后台程序会自动识别输入的语言来选择模型,并调用相关程序进行HPO标准化,之后在线Web预测系统会展示出完整的预测报告。

报告展示功能主要对输入的电子病历或生物医学文献文本和标准化输出的结果进行规范化展示。其中,第一栏是输入的电子病历或生物医学文献原始文本;第二栏是预测的结果展示,结果主要以表格的形式从6个方面进行展示,包括预测短语文本在原始文本中的开始位置、结束位置以及预测短语文本、标准化HPO、标准化HPO的名称和预测的概率值(该值越大表明预测的结果越可信)。预测结果展示预测短语文本在原始文本中的开始位置和结束位置,可以方便用户在原文中找到相应的位置,可以结合上下文语境来判断预测短语是否分割得准确。预测的结果同时展示了预测短语文本和对应标准化HPO的名称,可以让用户对预测的结果进行再次判断,从而判断预测结果是否可靠;第三栏是预测概率值,能够以数据的形式向用户直观展示预测的可信度,供用户参考。

HPO树状结构图展示功能主要用于可视化HPO的树状层级结构,使用了JavaScript语言进行编写,能够实现网页与用户进行交互的操作,可以通过点击模型预测出的HPO字段来展示该HPO对应的祖先节点的树状结构和孩子节点的树状结构。当悬浮在树状结构的HPO上时,会以弹窗形式展示HPO的编号和对应名称等详细信息,帮助用户筛选预测HPO的祖先节点或孩子节点是否有着更恰当的HPO标准化术语。

3基于用户反馈的临床表型语料收集的Web交互系统

虽然已有模型在临床术语标准化任务方面取得了不错的效果,但是若要让模型不断优化和进步,仍然需要付出更多的努力。为了模型训练,要标注大量的语料,通过对比研究发现,训练语料的多少对模型有着非常重要的影响。而我们知道,语料标注的代价是巨大的,并且临床表型术语相关的语料又很匮乏,英文仅包含HPO,GSC+和68?ID语料库,中文更是没有相关的HPO注释的语料。因此,如何减少标注的成本,一直是深度学习和机器学习者需要面对的一大难题。由于序列数据的复杂性较高,标注的工作更加困难,针对以上问题暂时没有更好的解决方法。针对标注语料不足的问题,近年来学者们提出了不少方法,如利用自训练算法构建训练语料。为此,我们开发了基于用户反馈的临床表型语料收集的Web交互系统,目的在于克服现有技术的不足。我们开发了一种基于用户反馈的训练语料收集方法,代价比较小,却能达到更好的效果。

基于用户反馈的临床表型语料收集的Web交互系统主要包括三個部分,即标准化模块、用户反馈结果、语料库重新训练(图1)。主要流程如下:首先用户通过Server栏目的预测板块输入需要预测的文本,这些文本通过txt的形式保存到服务器,接下来服务器把该txt文件作为标准化模型的输入经过模型预测后返回给用户预测的结果。当用户接收到信息之后,会根据信息结果的不同进行判断,并且产生不同的操作,即如果返回结果正确,用户会通过点击勾选预测结果前面的方框来进行选择;反之,如果判断返回的预测结果错误或者不符合预期,用户则不会点击勾选预测结果前面的方框。通过JavaScript实现的与用户交互的功能,能够使得用户把预测正确的结果保存到服务器的数据库上。保存到数据库的信息主要包括用户的ID、用户输入的文本、预测的时间以及相应的语料标注结果。

通过基于用户反馈的临床表型语料收集的Web交互系统,我们可以将标准化模块和用户以及语料库形成完整的、不断增加训练语料库提升模型效果的闭环系统,即标准化模块进行标准化结果的预测反馈给用户,用户基于JavaScript交互反馈给服务器形成更大的语料库,而该扩充的语料库又可以进一步进行训练,从而提升模型的鲁棒性及效果。通过不断循环,该闭环系统更能够最大限度地发挥出标准化模型的性能,并且为其他相关研究者提供更多的HPO标注语料,从而促进相关领域的发展。

4结语

本文开发了中英文电子病历临床表型标准化Web系统,并且建立了基于用户反馈的语料收集系统。通过基于用户反馈的临床表型语料收集的Web交互系统,我们可以将标准化模型和用户以及语料库形成完整的、不断增加训练语料库,从而建立具有模型效果的闭环系统。通过不断循环,该闭环系统能够最大限度地发挥出标准化模型的性能,并且为其他相关研究者提供更多的HPO标注语料,减少了数据集不足的问题,以促进领域的发展。

作者简介:

齐磊(1997—),硕士,研究方向:自然语言处理。

齐莹莹(1991—),本科,护师,研究方向:护理学。

尧玉恒(1983—),硕士,工程师,研究方向:教育信息化与云计算。

猜你喜欢

电子病历标准化
标准化简述
企业标准化管理信息系统
标准化是综合交通运输的保障——解读《交通运输标准化体系》
电子病历保全与认证研究
现阶段电子病历问题的探讨及改革
以标准化引领科技创新
论汽车维修诊断标准化(上)
住院电子病历在我院的应用和推广
电子病历临床信息系统的解决方案
交通运输标准化