呼吸病学标准医学术语在电子病历中的使用情况调研
2021-10-08商涛程瑶陈禄明邓立宗蒋太交
商涛 程瑶 陈禄明 邓立宗 蒋太交
摘 要:调研全国科学技术名词审定委员会发布的呼吸病学名词在电子病历中的使用情况。通过观察疾病、体征或症状类标准医学术语及其关联的同义词在呼吸疾病电子病历中的分布,发现标准医学术语在使用频次上高于非标准医学术语,但整体而言,同一医学概念在不同来源的病历中表达多样,标准化程度不高。此外,《呼吸病学名词》收录的标准医学术语及其同义词对电子病历中所使用的医学术语覆盖度偏低,需要扩充和完善。
关键词:标准医学术语;电子病历;术语覆盖度;术语标准化;术语挖掘
中图分类号:R4;H083 文献标识码:A DOI:10.12339/j.issn.1673-8578.2021.04.008
An Investigation into the Practical Use of Respiratory Disease Standard Medical Terms in Electronic Health Record//SHANG Tao,CHENG Yao,CHEN Luming,DENG Lizong,JIANG Taijiao
Abstract: The application of standard respiratory disease terms constructed by China National Committee for Terms in Sciences and Technologies was investigated in this research. The usage frequency of standard disease and symptom terms of respiratory disease is much higher than synonymous of standard terms. Overall, the standard terms could not descript practical clinical problems completely in electronic health record as of the diversity of medical concepts. Otherwise, standard terms collected by Terms of Respiratory Disease also could not cover all synonymous in electronic health record. Thus, the continuous development is necessary to expand the coverage of respiratory disease terms in real world applications.
Keywords: standard medical terms;electronic health record;coverage of medical terms;terminology standardization;terms mining
收稿日期:2021-06-15 修回日期:2021-09-05
基金项目:全国科学技术名词审定委员会事务中心一般项目“医学名词审定中的同义词整理与分析”(SWZX2018003),“科技名词社会使用状况调查”(SWZX202003);广州实验室应急攻关项目“新冠与其他12项呼吸道病原体核酸检测技术和设备”(EKPG21-12)
引言
以临床电子病历为代表的真实世界数据(real world data)蕴含了丰富的患者诊疗信息,若能对这些诊疗信息加以有效利用,将极大地推动我国医疗健康大数据应用的发展[1]。然而,由于不同机构、不同医生的用语习惯不同,电子病歷中的诊疗信息存在着用语不规范、不统一的问题,这为医疗健康大数据的整合和利用带来了极大的障碍[2]。为规范我国临床医学术语的使用,以国家卫生健康委员会(简称“卫健委”)、全国科学技术名词审定委员会(简称“名词委”)为代表的国家机构颁布了一系列标准医学术语①,引导中文医学术语的规范表达,推动了我国医学术语的标准化进程[3-4]。
调研已发布的标准医学术语在真实世界数据中的使用情况是一项十分重要的工作[5]。这一工作通常可以从两方面展开:一是调研真实世界数据使用标准医学术语的情况;二是调研标准医学术语对真实世界数据中所使用术语的覆盖度。前者关注的是真实世界数据所使用医学术语的标准化程度,后者关注的是标准医学术语描述真实世界数据的完备程度。
国内外学者均非常重视调研标准医学术语在真实世界数据中的使用情况。例如,来自梅奥诊所的研究者[5]从电子病历中搜集了4996个描述临床问题的医学术语,发现国际卫生术语标准制定组织制定的临床医学系统术语 (SNOMED-CT)能覆盖其中92.3%的临床问题术语。来自四川大学华西医院的研究者[6]通过对比中文人类表型标准用语(CHPO)和从中文电子病历中获取的表型术语,发现电子病历中使用的术语口语化、随意化现象严重,同标准医学术语集之间存在着巨大差异。中国医学科学院的研究者[7]系统汇集了卫健委、名词委发布的857 193个标准医学术语,并统计了标准医学术语对实际使用于临床指南、电子病历中的69 865个医学术语的覆盖度,发现中文标准医学术语资源对于常见术语的覆盖度较高(74.3%),但对不常见术语的覆盖度偏低(26.8%)。
名词委历来都很重视标准医学术语的审定与应用,不仅发布了呼吸病学、老年医学等18个专科的标准医学术语, 还发布了一系列专科医学术语审定名词与非规范名词对照表[8]。然而,对于目前真实世界数据中对已发布的专科标准医学术语的使用情况和专科标准医学术语对真实世界数据中使用术语的覆盖度尚缺少细致深入的研究。在本研究中,我们拟以名词委2018年发布的《呼吸病学名词》为切入点,调研《呼吸病学名词》中有关疾病、体征、症状类标准医学术语在电子病历中的使用情况,以期充实和完善我国的呼吸病学标准医学术语。
1 研究方法
1.1 研究设计
本研究的总体设计如图1所示:首先,我们搜集并整理了名词委《呼吸病学名词》中疾病、体征或症状类标准医学术语;随后,我们通过汇集《呼吸病学名词》《中文医学主题词表》(CMeSH,“万方医学网”发布)、“39健康网”等医学健康网站收录的同义词资源,整理了与标准医学术语存在同义关联的非标准医学术语;我们还通过术语挖掘的方法,从实际电子病历语料中发掘了与标准医学术语存在同义关联的非标准医学术语;最后,我们根据整理获得的标准医学术语和非标准医学术语集,对它们在实际电子病历语料中的使用情况展开调研。详述如下。
1.2 搜集并整理《呼吸病学名词》中疾病、体征或症状标准医学术语
首先,我们搜集并整理了名词委2018年发布的《呼吸病学名词》中547个疾病、体征或症状类标准医学术语,其中,疾病类标准医学术语数目为428个,体征或症状类标准医学术语数目为119个。我们主要出于两方面考虑疾病、体征或症状类的术语:首先,疾病、体征或症状是电子病历中最重要的一类诊疗信息;其次,我们前期积累了大量的疾病、体征或症状类同义词资源,可从中发掘出与标准医学术语具有同义关联的非标准医学术语,进而展开更深入的分析。
1.3 搜集并整理以呼吸系统疾病为主要诊断的电子病历
为评估呼吸病学标准医学术语在电子病历数据中的使用情况,我们通过“爱爱医”和“医脉通”网站的典型病例栏目搜集并整理了5383份以呼吸系统疾病为主要诊断的中文电子病历。“爱爱医”和“医脉通”的典型病例均来自不同医院、不同医生的临床记录,其中的医学术语表达具有多样性,因此非常适合作为本文的研究语料。
互联网电子病历资源网站所发布的电子病历数据通常包含各个疾病种类。为了配合调研呼吸病学标准术语使用情况的目的,我们设计了如下规则对所获的电子病历数据进行筛选。
(1)对于如“爱爱医”和“大专家”等带有疾病诊断标签的病历资源,以呼吸病学名词为种子词,筛选诊断结果为呼吸病学相关疾病的电子病历数据作为本研究所使用数据集的重要组成之一,共筛选出4321份电子病历。
(2)对于“医学慕课”和“医脉通”等无任何标签的病历资源,以呼吸病学名词为关键术语,筛选出病历文本内容中包含10个以上呼吸病学相关症状或疾病术语的电子病历,共筛选出1063份电子病历。由于这部分数据无确定的诊断标签用于判断其是否为呼吸病学相关病历,我们采用人工的方法,确认了这1063份电子病历数据均为呼吸病学相关数据。
1.4 搜集并整理与标准医学术语存在同义关联的非标准医学术语
在本研究中,我们将名词委发布的《呼吸病学名词》中的疾病、体征或症状类术语作为标准医学术语,将标准医学术语对应的同义词称作非标准术语。我们通过以下三个渠道对标准医学术语的同义词进行了扩充:
(1)来自《呼吸病学名词》的同义词资源。在名词委发布的《呼吸病学名词》中,除了给出标准医学术语(如“干性咳嗽”),还会给出标准医学术语的同义词(如“干咳”)。我们共搜集了114个疾病、体征或症状类标准医学术语的同义词。
(2)来自“万方医学网”发布的《中文医学主题词表》和医学健康网站(“寻医问药”“39健康网”等)的同义词资源。《中文医学主题词表》和“39健康网”“99健康网”等医学健康网站同样收录了大量的医学术语同义词资源。通过这一系列术语资源,我们为来自《呼吸病学名词》的标准医学术语扩充了969个同义词。
(3)通过运用自动术语挖掘和标准化映射技术发现的同义词资源。近年来,以大规模语料为基础,进行术语挖掘或新词发现的自然语言处理技术愈发成熟,以自动短语挖掘方法(AutoPhrase)[9]为例,它以维基百科中的高质量词条为种子词条,采用基于词性的词分割方法,基于统计语言模型的词语片段打分模型实现无监督地面向大语料的术语挖掘。通过运用AutoPhrase并辅以人工判断,我们从本研究整理的5383份呼吸系统疾病电子病历中识别了3442条描述呼吸系统疾病、体征或症状的医学术语。挖掘结果如表1所示。
更进一步,我们运用百度翻译、有道翻译、腾讯翻译君将中文医学术语翻译成英文,再借助MetaMap[10]将英文医学术语映射到统一医学语言系统(UMLS)[11],获取中文医学术语在UMLS体系中的概念编码。若两个字面不同的中文医学术语在UMLS体系中具有相同的概念编码,那么它们就可判定为同义词。例如,来自《呼吸病学名词》中的标准医学术语“肺念珠菌病”(pulmonary candidiasis)和从病历中挖掘得到的术语“念珠菌肺炎”(candida pneumonia)具有相同的UMLS概念編码“C0153251”。通过这种方法,我们为来自《呼吸病学名词》的标准医学术语扩充了522个同义词。
除了通过UMLS对中文医学术语进行同义关联外,我们还通过计算中文术语间的字形相似度和语义相似度[12],寻求挖掘得到的非标准医学术语和标准医学术语之间是否存在同义关系。通过这种方法,结合多轮人工确认,我们为来自《呼吸病学名词》的标准医学术语扩充了273个同义词。
最终,我们搜集并整理了与《呼吸病学名词》中的547个疾病、体征或症状类标准医学术语相关的同义词或非标准医学术语共1878个(表2)。
2 研究结果
2.1 标准医学术语与非标准医学术语在电子病历中的使用情况
我们首先调研了来自《呼吸病学名词》中547个标准医学术语和1878个非标准医学术语在5383份呼吸系统电子病历中的频次分布情况。从图2A可见,标准医学术语和非标准医学术语在本研究使用的电子病历语料中分别出现了51 881次和26 386次。无论对于疾病类还是体征或症状类术语而言,标准医学术语的出现频次都高于非标准医学术语。
由于我们整理的非标准医学术语都是标准医学术语的同义词,即对同一临床概念的不同描述,因此我们还从概念层面分析了某一医学概念在电子病历语料中是否更倾向于使用标准医学术语。我们首先筛选了242个具有同义词且在电子病历语料中出现10次以上的医学概念。统计发现,使用标准医学术语的概念占比为52.89% (128/242),使用非标准医学术语的概念占比为47.11% (114/242) (图2B)。
我们进一步统计了同一医学概念使用标准医学术语占该概念总出现次数的比例分布,发现该分布呈U型,即完全使用标准医学术语或完全使用非标准医学术语的医学概念出现较多(图2C)。典型的例子是“盗汗”和“胸痛”,大部分病历使用了标准医学术语,而不是其同义词“寝汗”和“胸部疼痛”。而对于“干性咳嗽”和“血性痰”,大部分病历使用的是其同义词,如“干咳”和“痰中带血”。从图2C也可以看出,电子病历中对同一医学概念的表达是多样的,整体而言,术语标准化程度不高。
2.2 标准医学术语对电子病历中使用医学术语的覆盖度分析
为调研标准医学术语对电子病历中使用医学术语的覆盖度,我们使用自动术语挖掘并辅以人工判断的方法,从5383份呼吸系统电子病历中挖掘出3442条描述呼吸系统疾病、体征或症状的医学术语。
这3442条来自电子病历中的医学术语中,有289条可被来自《呼吸病学名词》中标准医学术语所覆盖,有40条可被来自《呼吸病学名词》的同义词所覆盖。在其余的医学术语中:有173条可利用来自CMeSH和医学健康网站的同义词资源映射到《呼吸病学名词》收录的标准化医学术语上;进一步,有522条通过基于UMLS标准化的方法映射到《呼吸病学名词》收录的标准化医学术语上;此外,有273条可通过利用字形相似度和语义相似度相结合的术语映射方法映射到《呼吸病学名词》收录的标准化医学术语上。总体而言,《呼吸病学名词》中的医学概念对电子病历中所使用的医学术语的覆盖度是37.68% (1297/3442) (表3)。
我们进一步分析了未被《呼吸病学名词》收录的非标准医学术语的特征。通过语义关联和字形关联算法,推荐最为接近的标准医学术语。通过对这些术语标准化映射的人工确认,我们发现这些术语往往是《呼吸病学名词》收录的标准医学术语的子结点。如:“支气管腺样囊性癌”属于“腺样囊性癌”,“干酪样肺炎”属于“肺结核”等。从概念的角度来看,这些未被收录的术语所表示的概念往往是《呼吸病学名词》所收录的术语概念的子概念,在临床应用中可进行更为精细的描述与表征。
3 结语
在本研究中,我们调研了名词委发布的呼吸病学标准医学术语在电子病历中的使用情况。尽管在呼吸疾病电子病历中,标准医学术语的使用频次高于非标准医学术语,但从概念层面上看,术语的标准化程度仍然不高,这也是当前发展医疗健康大数据应用面临极大挑战的重要原因之一[2]。
由于术语标准化程度不高,同一概念的临床描述多种多样,因此搜集标准医学术语的同义词成为标准术语集合未来发展的要点之一[6]。从本文的术语覆盖度研究中可以看出,如果只考虑来自《呼吸病学名词》中的术语,它在呼吸疾病电子病历中所使用的术语的覆盖度仅为9.56% (329/3442); 但当通过利用现有中英文术语资源、术语挖掘和标准化映射方法扩充同义词后,在呼吸疾病电子病历中所使用的术语的覆盖度可达37.68% (1297/3442)。由此可见,在临床应用中,同一概念下医学术语的使用具有多样性,在使用过程中不仅有标准术语集合所收录的表达形式,同时也存在各种符合临床使用习惯的同义词表述形式。此外,在临床实践中,存在倾向于使用非标准医学术语的概念,其占比为47.11% (114/242)。这说明部分标准术语集合所收录的术语由于表述方式较复杂,或者不符合汉语、口语习惯等各种因素,临床使用频次较低。以上这些结果提示我们在未来的术语审定工作中,需要更充分地考虑不同渠道尤其是来自临床实践的同义词资源,以提升标准医学术语对临床实践的覆盖度[7]。与此同时,标准术语所收录的内容需要更为贴近临床实践及中文医学使用场景下的语言习惯,尽可能提升标准术语对临床应用术语的收录水平,为统一临床术语的使用提供可能。
从本研究对未被收录的呼吸病学相关概念的分析情况来看,未被收录的这些概念多为已收录术语概念的子概念,用于表述更为精细的临床实体和信息。因此在中文标准化术语的制定过程中,除需要更充分考虑临床习惯用语的同时,也需要考虑收录更为精细的临床概念相关术语,并在此基础之上构建起更为系统的概念间的从属、修饰关系,使得标准术语系统对临床应用场景形成更为全面的覆盖,从而促进临床实践中术语的标准化。
本研究的一個不足之处是我们只考虑了呼吸病学疾病、体征或症状类术语,而未对手术、药物等术语进行同样系统而全面的调研,我们期望在未来的工作中弥补这一不足。同时,尽管本研究针对的是呼吸病学术语,但调研所使用的方法同样适用于其他专科疾病术语。我们也期望在未来的工作中能进一步调研名词委发布的其他专科标准医学术语在真实世界数据中的使用情况,为推动我国的医学术语标准化事业做出贡献。
注释
① 本文将全国科学技术名词审定委员会审定、公布的医学类规范名词与其他国家机构作为标准发布的医学术语,统称为“标准医学术语”。
参考文献
[1] 宋扬, 贾王平, 韩珂,等. 健康医疗大数据的应用及其挑战[J]. 中国慢性病预防与控制,2021,29(3):220-223.
[2] 张世红, 史森, 杨小冉. 健康医疗大数据应用面临的挑战及策略探讨[J]. 中国卫生信息管理杂志, 2018, 15(6):629-632,658.
[3] 魏星. 全国科技名词委公布与预公布名词[J]. 中国科技术语, 2018,20(4):50.
[4] 杨威. 我国医学名词现状及发展分析[J]. 中国卫生标准管理, 2018, 9(1):1-4.
[5] Evaluation of the content coverage of SNOMED CT: ability of SNOMED clinical terms to represent clinical problem lists[J]. Mayo Clinic Proceedings, 2006, 81(6):741-748.
[6] 张睿,陈薇,杨豪,等.医学术语集的中文同义词富集方案[J].中华医学图书情报杂志,2021,30(2):25-32.
[7] 程瑶,蒋太交,邓立宗,等. 中文标准医学术语集对实际应用覆盖度研究[J]. 中国卫生信息管理杂志, 2020, 17(5):55-59,90.
[8] 全国科技名词审定委员会. 审定名词与非规范名词对照(心血管病学)[J]. 中国综合临床, 2000, 16(2):108,111,128.
[9] SHANG Jingbo, LIU Jialu, JIANG Meng, et al. Automated Phrase Mining from Massive Text Corpora[J]. IEEE Transactions on Knowledge & Data Engineering, 2018.
[10] DEMNER-FUSHMAN D, ROGERS W J, ARONSON A R. MetaMap Lite: an evaluation of a new Java implementation of MetaMap[J]. Journal of the American Medical Informatics Association Jamia, 2017(4):841.
[11] BODENREIDER O.The Unified Medical Language System(UMLS):integrating biomedical terminology[J].Nucleic Acids Research,2004(suppl_1):267-270.
[12] 張晨童,张佳影,张知行,等. 融合常用语的大规模疾病术语图谱构建[J]. 计算机研究与发展, 2020, 57(11):219-229.
作者简介:商涛(1979—),男,博士,2011年毕业于中国医学科学院基础医学研究所/北京协和医学院基础学院细胞生物学专业,主要研究方向为医学术语审定、医学数据规范化、国际疾病分类本地化。在医学术语规范化方面进行了深入的研究。此外,在规范化医学术语与医学信息学的交叉融合进行了研究。2013年7月在德国科隆大学进行学术交流活动,现任全国科学技术名词审定委员会事务中心医学专项办公室主管,主持全国科学技术名词审定委员会事务中心基金项目2项。通信方式:shangt@cnterm.cn。
通讯作者:蒋太交 (1970—),男,博士,中国医学科学院北京协和医学院长聘教授、博士生导师,国家杰出青年基金获得者。多年从事生物信息学、医学信息学领域的研究。课题组经过多年积累,发表多篇关于生物医学大数据处理的研究论文。同时在医学文本自然语言处理、疾病表型、医学本体、知识图谱方面进行了非常深入的研究。此外,在解决重大疾病科学问题中对生物信息学、医学信息学等进行多学科、多方法的交叉融合也是课题组重要的研究方向。通信方式:taijiao@ibms.pumc.edu.cn。