APP下载

临床实践指南实施性促进研究之七:基于本体的临床实践指南术语体系的对比与分析

2024-02-20任相颖王诗淳王永博阎思宇李绪辉靳英辉

医学新知 2024年1期
关键词:子类词表主题词表

任相颖,王诗淳,王永博,阎思宇,黄 桥,李绪辉,朱 彦,靳英辉

1.武汉大学中南医院循证与转化医学中心(武汉 430071)

2.中国中医科学院中医药信息研究所(北京 100700)

随着循证医学的不断发展,越来越多的临床实践指南(以下简称“指南”)被制订出来,与此同时,指南所对应的概念和术语激增。指南作为具有较高研究和临床价值的专业领域资源,迫切需要规范其术语的使用[1]。完整、准确、规范化的指南术语在提供本体的底层支撑、保障语义交换的同时,也是提高指南质量的重要前提。当前本体技术在指南中的应用多以疾病为主导,主要关注疾病的分类、流行病学及治疗等相关概念,少有研究针对指南方法学的专有术语进行本体构建,因此有进一步的补全空间。本研究旨在对指南已有的术语进行特征分析,学习常用术语的表达方法,构建指南专用的术语本体的同时,规范指南的术语表达。

1 资料与方法

1.1 数据库简介及检索

本研究基于本体构建领域中的七步法,前期已确定了领域范围和考察复用现有知识系统的可能性,本文主要介绍七步法中的“列举领域中重要的概念术语”,通过对一体化医学语言系统(Unified Medical Language System,UMLS)、系统化临床医学术语集(Systematized Nomenclature of Medicine Clinical Terms,SNOMED-CT)、MeSH主题词表(Medical Subject Headings,MeSH)、生物医学研究本体(Ontology for Biomedical Investigations,OBI)、schema.org、中文医学主题词表(Chinese Medical Subject Headings,CMeSH)、中医临床术语系统(Traditional Chinese Medicine Clinical Terminological Systems,TCMCTS)、中医药一体化语言系统(Traditional Chinese Medicine Language System,TCMLS)中的术语进行检索和筛选,复用临床实践指南的相关术语。涉及的数据库基本情况如下:

(1)UMLS[2]是美国国家医学图书馆于1986年开始研发的一体化医学语言系统,也是目前医学领域最大的医学本体,其汇集了许多已有的生物医学词汇表,可以支持计算机系统之间的互操作。UMLS有三个主要的工具和知识来源:超级叙词表、语义网络以及专家词典[3]。

(2)SNOMED-CT[4]最早由美国病理学家协会于1986年开始建设,目前由国际医学术语标准化与研发组织维护和更新。该词典是全球最大的多语种综合性临床术语集,也是当前国际上广为使用的临床术语标准。目前包括321 900条概念(concept)、超过80万条临床概念相关的描述(descriptions)和超过700万条进一步描述概念的关系(relationships)[5]。

(3)MeSH主题词表[6]是美国国家医学图书馆于1960年开始编制的权威性主题词表,其是一部规范化的可扩充的动态性叙词表,也是医学领域广泛使用的最具权威性的词表[7]。

(4)OBI由国际上25个研究团体共同开发,是一个关于生物医学研究、研究方案、使用的仪器和材料、生成的数据及研究用的分析类型的本体[8]。

(5)schema.org由Google、Microsoft和Yahoo等公司联合发起,其由642个类、992个属性和219个枚举值组成,其中所有的类按树型结构组织形成一个类目体系。每个类下均定义了0至多个属性。

(6)CMeSH是中国医学科学院医学信息研究所出版的《医学主题词表(MeSH)》中译本,用于中文医学文献的标引、编目和检索[9]。

(7)TCMCTS由中国中医科学院中医药信息研究所于2005年开始研制,目前为国内外唯一的中医临床术语系统,系统中收集了11余万个概念词,27余万个术语[10-11]。

(8)TCMLS由中国中医研究院从1999年主持设计,全国13个文献分中心参与研制[12]。该系统既是一个巨大的中医药知识宝库,又是一个先进的语言查询系统,是具有中国特色的以高度专业化、综合化的超级知识库为基础的集各种功能于一体的情报检索语言模式。

1.2 检索策略

UMLS、SNOMED-CT,MeSH主题词表、OBI以及schema.org中使用的英文检索词为“clinical practice guideline”“guideline”“level of evidence”“recommendation”“recommend”“strength of recommendation”;CMeSH、TCMCTS和TCMLS使用的中文检索词为“临床实践指南”“指南”“证据等级”“推荐”“推荐等级”。

1.3 术语提取方法

术语抽取(或术语识别)是从特殊领域文本中标识领域概念术语的过程,本研究基于语言学的方法,通过人工对指南相关术语进行识别与抽取。由于提取的术语均为指南相关的术语,可用作语言学模板提取的语料。首先对关键词进行预处理、分词及词性标注。除术语之外,本研究还提取术语的中英文版本、术语来源、定义及来源以及上下级关系。

2 结果

2.1 术语类型及层次关系

“指南”术语来源包括MeSH主题词表,以及包含了美国国立癌症研究所(National Cancer Institute,NCI)叙词表、当前术语程序(Current Procedural Terminology Concept,CPT)、用户健康词表(Consumer Health Vocabulary,CHV)和心理学索引术语主题词表(Psychological Index Terms,PSY)等来源词表的UMLS。具体内容见图1。

图1 “临床实践指南”术语类型及层级关系Figure 1.The types and hierarchy of terminology in "Clinical Practice Guidelines"

2.2 “指南”术语

2.2.1 MeSH主题词表

MeSH从指南的出版类型出发,其上层结构为“出版物类型(publication type category)”,涵盖了“出版物组成部分(publication components)”“出版格式(publication formats)”“研究特征(study characteristic)”以及“研究支持(support of Research)”4个主要的子类。在“出版格式”中包含有“缩写(abbreviation)”“指南术语(guideline)”以及“报纸文章(newspaper article)”等子类,囊括了各种出版物的类型。在“guideline”层级下又可细分为“实践指南(practice guideline)”以及“临床实践指南(clinical practice guideline)”。

在“医疗保健类别(health care category)”中分为“卫生保健经济学与组织(health care economics and organizations)”“健康服务管理(health services administration)”等子类,其中“health services administration”可进一步分为“健康规划(health planning)”和“卫生保健质量(quality of health care)”等。在“health planning”层级之下,包含了“健康规划指南(health planning guidelines)”这一具有指向性的指南术语。在“卫生保健质量(quality of health care)”层级下,包含了“质量保障,卫生保健(quality assurance, health care)”和“指南依从性(guideline adherence)”等层级,在“quality assurance, health care”下包含了“作为主题的指南(guidelines as topic)”,在“guidelines as topic”下涵盖了“作为主题的实践指南(practice guidelines as topic)”。

2.2.2 美国国立癌症研究所叙词表

NCI叙词表包括有NCI癌症术语、遗传学术语以及药物词典。其在“概念实体(conceptual entity)”中涵盖了“记录(records)”“知识产权(intellectual property)”等主要子类,在“intellectual property”中又包含了“文件类型(document type)”“算法(algorithm)”“分类(classification)”以及“电脑程序(computer program)”4个子类,在“document type”下包含“指南(guidelines)”以及“论文(article)”等子类,在“guideline”层级下又可细分为“临床实践指南(clinical practice guideline)”等。

2.2.3 当前术语程序

CPT在“目前程序术语概念的指南(guidelines for current procedural terminology concepts)”的下层概念中即出现“麻醉指南(anesthesia guidelines)”“医学指南(medicine guidelines)”以及“手术指南(surgery guidelines)”等有具体指向性的指南术语。

2.2.4 用户健康词表CHV在“酒精和其他药物同义词表(alcohol and other drug thesaurus)”中涵盖了“通信、信息和教育(communication, information,and education)”“健康与疾病(health and disease)”和“治疗方式(treatment method)”3个子类。在“communication, information, and education”下包含了“按内容和格式列出的文档和演示文稿(document or presentation by content and format)”“通信(communication)”等子类,在“document or presentation by content and format”下涵盖“排列文件(document by arrangement)”和“由目标受众提供的文件或报告(document or presentation by intended audience)”等,在“document by arrangement”下涵盖术语“推荐或指南(recommendations or guidelines)”。

2.2.5 心理学索引术语主题词表

PSY将“治疗(treatment (General))”分为“治疗步骤(therapeutic procedure)”和“替代疗法(alternative therapies)”。在“therapeutic procedure”中包含了“治疗指南(treatment guideline)”。

2.3 “证据等级”术语

UMLS中“证据等级”的术语和概念仅来源于NCI,在其他术语集或本体中未见“证据等级”的术语和概念。

如图2所示,“活动(activities)”为上层概念,涵盖了“动作(action)”“临床或研究活动(clinical or research activity)”“社会活动史(social history of activities)”等子类,在“clinical or research activity”中又包含了“医疗保健(health care)”“研究活动(research activities)”“介入治疗(interventional procedure)”和“学习活动(study activity)”4个类别。在“research activities”的向下层级中又可细分为“试验(testing)”“临床研究试验(research clinical testing)”以及“证据等级(level of evidence)”等子类。

图2 “证据等级”术语类型及层级关系Figure 2.The types and hierarchy of terminology in "Level of Evidence"

其中“level of evidence”按照研究设计又可细分为“证据等级I(level of evidence I)” “证据等级II(level of evidence II)” “证据等级III(level of evidence III)”“证据等级IV(level of evidence IV)”和“证据等级V(level of evidence V)”。

2.4 “推荐意见”术语

“推荐意见”术语来源于SNOMED-CT,以及包含了NCI、观测指标标识符逻辑命名与编码系统(Logical Observation Identifiers Names and Codes,LNC)等来源词表的UMLS。除以上来源词表,在医师数据查询(Physician Data Query,PDQ)、超级叙词表(Metathesaurus,MTH)、CHV中也有相关术语,但并无层级关系。具体内容见图3。

图3 “推荐意见”术语类型及层级关系Figure 3.The types and hierarchy of terminology in "Recommendation"

2.4.1 SNOMED-CT

SNOMED-CT包含19个分类,其中在“限定值(qualifier value)”部分包括了“动作(action)”“语境价值(context values)”等子类。“context values”又主要分为“时间语境价值(temporal context value)”“活动的背景价值(context values for actions)”和“查找上下文价值(finding context value)”3个子类。在“context values for actions”中分为“推荐(recommended)”“不推荐(not recommended)”等。

2.4.2 美国国立癌症研究所叙词表

NCI在“概念实体(conceptual entity)”下有“推荐意见(recommendation)”“环境(environment)”等子类。“recommendation”下无子类分类。

2.4.3 观测指标标识符逻辑命名与编码系统

LNC中“推荐意见”的顶层结构为“实验室(laboratory)”,可进一步分为“变态反应(allergy)”“分子病理学(molecular pathology)”等子类。随后进一步细分为“遗传学结果(genetics results)”“癌症风险评估(cancer risk assessment)”“药物基因组学(pharmacogenomics)”“HL7细胞遗传学(HL7 cytogenetics)”“临床细胞遗传学家(clinical cytogeneticist)”等。其中在“HL7 cytogenetics”中包含“推荐意见(recommendation)”。

2.4.4 HL7 卫生信息交换标准

HL7 卫生信息交换标准(Health Level 7,HL7 V3.0)中“推荐意见”的顶层术语为“行为情绪(ActMood)”,可分为“行为情绪跟踪(ActMoodCompletionTraK)”和“行为情绪建议(ActMoodProposal)”。在“ActMoodCompletionTraKo”下包含“不耐受警报(intolerance alert)”和“行为情绪欲望(desire)”等,在“desire”下包含“建议(recommend)”和“富血小板血浆(platelet rich plasma)”。其中在“platelet rich plasma”下包含“推荐意见(recommendation)”。

2.5 术语的概念表征

UMLS语义网络由127种语义类型和54种语义关系组成。语义类型的主要分类包括解剖结构、生物功能、化学物质等。UMLS最高层级的两个语义类型分别为“实体(entity)”和“事件(event)”,下层语义类型是对上层语义类型的进一步细分。UMLS在语义关系中最常用的关系为“is a”,此关系确立了语义网络中语义类型之间的等级结构[13]。除了“is a”关系外,其他非等级的关系被划分为五大类,分别为“概念上相关(conceptually related to)”“功能上相关(functionally related to)”“物理上相关(physically related to)”“空间上相关(spatially related to)”和“时间上相关(temporally related to)”。在本结果中,仅有NCI和CPT显示了术语间的关系。

NCI从概念实体出发,主要表示抽象实体。常见关系包含“is a”,“kind is domain of”和“kind is range of”等。如在“临床实践指南(clinical practice guideline)”is a“指南(guideline)”,“指南(guideline)”is a“文件类型(document type)”,“推荐意见(recommendation)”is a“概念实体(conceptual entity)”。CPT同样从概念出发,“is a”为其常见关系,如“麻醉指南(anesthesia guidelines)”“医学指南(medicine guidelines)”和“手术指南(surgery guidelines)”均is a“目前程序术语概念的指南(guidelines for current procedural terminology concepts)”。

在SNOMED-CT中,关系分为“is a”和属性关系。如“推荐(recommend)”is a“活动的背景价值(context values for actions)”。具体内容见图1和图3。

2.6 术语的概念映射

UMLS提供了位于这些词表之间的映射结构,使这些不同的术语系统之间能够彼此转换。超级叙词表建立了概念之间的关系以及不同来源词汇之间的概念映射。超级叙词表是根据概念组织的,基本保留了来源词表的结构和词汇信息,目的在于将相同概念的交替名称和变异形式联系在一起,并识别不同概念之间的关系。如在图1中,MeSH主题词表中的“guideline”与“guideline as topic”可以和NCI中“guideline”的概念相对应。在图3中,NCI、LNC和HL7 V3.0中“recommendation”的概念可以相互映射。

3 讨论

我国发表的指南数量呈逐年上升趋势[14]。尽管拥有庞大的指南数量和医疗数据资源,但由于缺少对医学术语标准规范的约束,为医疗大数据的整合带来了障碍[15]。随着结构化电子病历的逐步推广,临床决策支持系统(clinical decision support system,CDSS),“互联网+”医疗、智能医疗、远程医疗等新型医疗模式的出现,临床实践指南术语的标准化和规范化显得愈加重要和急迫。

规范化的医学术语标准是卫生健康信息共享和业务协同的重要基础[16]。本研究发现,指南和临床实践指南通常作为文件类型存在,但更具指向性的指南,如“健康计划指南”“治疗指南”则伴随特定的情境出现。同时,术语的发展需要明确其概念,对于“临床实践指南”,不同术语集中的概念之间缺少统一性。对于“健康计划指南”“手术指南”和“麻醉指南”则没有定义。

本研究还发现,大部分术语仅作为单个术语的形式在术语集或本体库中出现,缺少术语之间的层级、语义关系以及相关概念。如“营养指南(nutrition guidelines)”在UMLS中并无层级、语义关系和概念。此外,“推荐说明”“证据等级与推荐等级分级系统”“推荐强度”等指南的其他相关术语,在本体和术语集中均未找到相关结果。这表明仍有必要进一步补全临床实践指南相关术语。随着深度学习模型在临床实体标准化过程中的成功应用,有助于实现自下而上的临床医学术语补充与更新完善,推进临床实践指南术语类型及层级关系进一步扩展。

目前,我国缺乏自主构建的类似UMLS、SNOMED-CT等完善的中文医学术语标准,也未形成一套涵盖临床诊断、检查、药物、疾病分类、症状描述等临床实践领域的术语标准[17],现有的词表更新维护滞后[18]。UMLS、SNOMED-CT等医学术语体系对中文临床实践指南术语标准的建设和发展有着启示和借鉴的作用,中文医学术语标准的构建应学习与借鉴UMLS、SNOMED-CT等成熟的体系和经验,整合及优化全国的医学术语开发资源,推动中文医学术语标准的开发、维护和推广[19]。

推进医学术语标准化、一体化、语义化发展,是我国卫生健康信息标准化语智慧医疗进程中的重点内容。指南作为临床决策的指导性文件,日益受到国家和机构的重视。规范化的临床实践指南术语标准可以消除概念的不确定性,支持指南的准确制订,促进指南推荐意见和证据在不同国家和地区的分享与利用,以及人工智能与临床实践指南在医疗健康领域的深度融合。

猜你喜欢

子类词表主题词表
卷入Hohlov算子的某解析双单叶函数子类的系数估计
《〈汉语主题词表〉构建研究》
《〈汉语主题词表〉构建研究》
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
《〈汉语主题词表〉构建研究》
《〈汉语主题词表〉构建研究》
关于对称共轭点的倒星象函数某些子类的系数估计
叙词表与其他词表的互操作标准
国外叙词表的应用与发展趋势探讨*
块H矩阵新的子类