APP下载

中医临床术语系统v2.0设计与构建

2018-06-01朱彦贾李蓉高博刘丽红包蕾刘静

中国中医药图书情报杂志 2018年3期
关键词:水牛角术语语义

朱彦,贾李蓉,高博,刘丽红,包蕾,刘静

中国中医科学院中医药信息研究所,北京 100700

当前医疗环境中大量分布式的异构数据为医疗信息的存储、交换和共享带来了诸多障碍。其中,临床医学术语表达的多样性是健康医疗信息实现语义互操作的最大困难之一。国外已经构建了多种面向不同应用的医学术语集,来解决医学术语表达多样性的问题,如医学一体化语言系统(UMLS)、临床药品标准命名术语表(RxNorm)、观测指标标识符逻辑命名与编码系统(LOINC)、国际疾病分类法(ICD)、医学系统命名法-临床术语(SNOMED-CT)等。

随着中医临床信息化的发展,符合中医临床思维模式的临床术语集的需求也变得越来越迫切。业界也越来越认识到,完备的临床标准术语集的应用,能极大提高临床信息的采集、存储、传输直至利用的多个环节的效率,为真正实现全社会医疗资源共享、跨区域和跨系统医疗奠定基础。

1 中医临床术语系统v2.0的研究背景

SNOMED-CT是基于概念的结构化综合性临床术语集,是目前世界上使用最广泛的临床医学术语与信息编码系统。该系统收集了31万多个医学概念和 700多万条语义关系,并引入描述逻辑来定义临床概念术语及其之间的逻辑关系,适用于电子病历的书写、电子处方、医嘱录入、检验报告、临床数据挖掘等临床应用场景。该术语集还建立了其他各种生物医学相关标准和术语集的映射[1]。

中国中医科学院中医药信息研究所于2005年开始,牵头组织研发中医临床术语系统 v1.0。该术语集参照 SNOMED-CT的构建理念,依据中医临床特色,建立中医临床术语分类结构,确定中医临床术语概念、术语间的语义关系,共收录概念词11万多个,术语 27万多个[2-5]。概念及其定义来源工具书包括:中医药领域的国家标准及行业标准、全国中医药院校教科书、《中国中医药学主题词表》、权威中医药字典词典等。十多年来,该系统主要应用于面向科研的临床文献数据处理。而随着临床数据可获得性和实际应用场景的丰富,团队于2016年初开始对中医临床术语系统进行深度重构,并于 2018年 1月发布了中医临床术语系统 v2.0,新版的中医临床术语系统以临床实际应用为驱动,更加贴近用户需求,并对术语构建流程进行了完善和规范化。

本文详细介绍了中医临床术语系统 v2.0的设计理念、系统功能、实现途径和合作方式等,以期为中医临床术语标准化尽绵薄之力,也希望能为相关中医药领域术语集的构建提供参考和借鉴。

2 中医临床术语系统v2.0的设计理念

2.1 支持不同语义表达层次和临床应用需求

知识组织系统是对人类知识结构进行表达和有组织地阐述的各种语义工具(semantic tools)的统称,包括分类法、叙词表、语义网络、概念本体及其他情报检索语言与标引语言[6]。根据文献[6]整理的知识组织系统,将当前主要的几种生物医学术语集按表达层次进行分析归类(见图1)。图中横坐标从左往右对语言的受控性增强,纵坐标从下往上结构性增强,而从坐标原点往右上方则综合的语义表达能力增强。《GB/T 31774-2015中药编码规则及编码》等术语集是属于术语列表类型,主要解决的是同义词问题;国际疾病分类第十次修订本(International Classification of Diseases 10th Revision, ICD-10)等支持简单分类的术语体系属于分类法与范畴表;而主题词表(包括医学主题词表MeSH和中医药学主题词表TCMeSH)、支持多轴分类体系的 ICD-11、SNOMED-CT、UMLS和中医药学语言系统(TCMLS)其表达能力进一步增强,属于基于关系的知识组织系统(Knowledge Organization Systems, KOS)类型;目前的开放生物医学本体(Open Biomedical Ontology, OBO)则基于统一的本体构建原则和顶层本体来开发系列本体集,试图建立一套医学领域的正交参考本体集[7]。

图1 知识组织体系中的不同表达层次的医学术语集

结合中医临床数据和知识表达的特点,中医临床术语系统在设计上应满足5种表达层次的需求。

2.1.1 支持语义表达 由于中医药的历史悠久、学术流派众多、中西医交汇等原因,造成了领域内的同名异物和异名同物的现象非常广泛[8],中医临床医学术语的表达更是多样化。中医临床术语系统需要从语义学观点出发,将符号、意义和客观事物三者区分并建立语义三角关系,分别将概念通过ID进行赋值和区分,并建立与术语的关系,这样才能更清晰有效地处理同义词问题。

2.1.2 多来源术语集融合 中医临床术语系统的定位是建立行业内最全的临床术语体系,就需要支持多来源术语集的融合和映射。其中一个常见问题就是语义的适配。例如,同样一个术语“水牛角”在2015版《中华人民共和国药典》(以下简称《中国药典》)[9]和《GB/T 31774-2015中药编码规则及编码》(以下简称《中药编码》)[10]国家标准中表达的语义层次是不一样的:《中药编码》中所述的饮片“水牛角”实际上是饮片“水牛角片”,而《中国药典》所述的饮片“水牛角”则包括了“水牛角片”和“水牛角粉”。这是因为这 2个标准的出发点不同,《中药编码》面向的是药材领域的信息化编码问题,需要区分不同规格的饮片,因为其制作、保存方法甚至在价格上都有差异;而《中国药典》面向临床大夫,需要规范其临床用药,突出的是药物的性味归经和功能主治,并不需要突出炮制方法的差异(除非是对药物功效有重大影响的炮制方法,如“荆芥炭”等)。为实现这 2个相同级别的标准在语义上的适配,中医临床术语系统需要建立虚拟的饮片概念“水牛角”,在该概念上表达性味归经和功能主治,然后建立 2个子概念“水牛角片”和“水牛角粉”,其饮片规格分别为“片”和“粉”,这样就实现了多来源的概念映射和适配(见图2)。

图2 不同来源的概念映射和适配举例

2.1.3 多维度查询统计 和 ICD-11支持多轴的分类体系类似,中医临床术语系统也需要面向临床数据的多维度查询统计的需求,支持多个父概念的表达。例如,水牛角按照基源和功效分类,分别属于动物药和清热解毒药,而防己则分别属于植物药和祛风利水药(见图3)。这种多轴的分类体系,将对后续临床数据分析和挖掘非常有帮助。

图3 多轴分类体系

2.1.4 语义查询与推理 面向语义查询和推理的需求,中医临床术语系统需要基于本体的描述逻辑表达,实现类似 SNOMED-CT中概念的定义性关系的功能。如将证候的“病位”和“病性”信息进行逻辑表达,分别构建关系,这样能方便计算机执行语义查询。图4所示为查询“跟脾相关的证候”,橙色圈内为查询结果。

2.1.5 轻知识库 考虑到对临床诊疗决策的支持,中医临床术语系统也充当着轻知识库的作用,即录入一部分临床诊疗知识来供后续的应用系统调用。如疾病的证型知识,根据临床指南,术语系统中表达了疾病“经行头痛”有“气血虚弱证”“阴虚阳亢证”等证型的关系。

2.2 设计原则

基于已有术语系统构建经验及实际需求,确定设计原则:⑴借鉴但不拘泥于已有术语系统的成功经验。中医临床术语系统v2.0采用了SNOMED-CT的一些先进理念,但也当看到它的不足之处,如概念的定义很少,而且无来源出处信息;授权方式采用国家地区统一购买授权,不够灵活等。中医临床术语系统 v2.0将针对这些问题进行改进。⑵面向中医临床实际应用,体现中医临床诊疗特色。和现代医学不同,中医诊疗是病、证、症结合,理、法、方、药俱备的一个系统过程,故临床术语系统也需要囊括大部分临床中所需要用到的术语和知识。⑶针对实际应用场景,重视与现代医学术语集的整合与映射。目前现代医学术语集如 SNOMED-CT等已经涵盖了除中医独有术语以外的绝大部分知识,如疾病、症状、实验室检查等。中医临床术语系统将在保证中医知识体现结构完整的前提下,尽量少做重复工作,确实需要纳入的也要做好与其他术语集之间的映射。

图4 基于定义性关系的语义查询结果显示

3 中医临床术语系统v2.0实现

3.1 系统框架

中医临床术语系统框架如图5所示,包括两大部分:⑴中医临床术语集。包括所录入的概念、术语、定义和关系等信息;也包括新增的子集功能,能按需定制抽取所选概念,并允许重新编排层级关系和编辑,能实现与其他术语系统的映射。⑵软件系统。包括 2个子系统:术语维护子系统和基础应用子系统。其中术语维护子系统支持批量数据导入、术语编辑、子集维护和基本统计功能等;基础应用子系统则是基于中医临床术语的一些基础应用模块,包括数据清洗、术语自动规范化和数据导出等功能。

3.2 中医临床术语集的基本组成要素

基于语义学观点,中医临床术语集的组成要素包括概念、术语和关系(见图6)。⑴概念:每一个概念都有唯一的不变的ID,针对SNOMED-CT中缺少定义和来源出处的问题,新增加了定义和来源出处属性,并保证 60%以上的覆盖率。⑵术语:每一个概念对应唯一的正式名和多个异名或同义词。⑶关系:包括 Is-a关系(即父子概念关系)和属性关系。

图5 中医临床术语系统框架

图6 中医临床术语集的基本组成要素

3.3 顶层轴设计

团队前期完成了中医临床术语系统顶层轴设计,其成果《中医临床术语系统分类结构》于 2017年 2月 28日发布,并正式成为国际标准化组织(International Organization for Standardization, ISO)标准[11]。目前包含18个轴(见表1),基本涵盖了临床过程中所需的理、法、方、药等知识。

3.4 术语构建的一般技术路线及示例

术语集是按照主题分别进行构建的,为此专门制定了术语构建一般技术路线(见图7),下面以中药术语构建为例,介绍具体的构建过程。

3.4.1 粗术语收集 收集来自《中药编码》标准、《中国药典》2015版、中药学教材[12]、《中国中医药学主题词表》[13]、临床病案数据库、医院药房系统、中药数据字典等来源的中药粗术语,并记录定义、来源出处信息。

表1 中医临床术语系统18个顶层概念

图7 术语构建一般技术路线

3.4.2 基于本体的概念建模 对粗术语进行分析,并基于本体理论进行概念建模。根据上述中药粗术语,抽象总结出“中药”“中药材”“饮片”和“中成药”等概念[14],并构建其相关关系和各自具有的属性。

3.4.3 术语概念匹配和关系定义 将所搜集的粗术语一一匹配到所属的概念上,并定义其相互关系,录入到术语系统中。

3.4.4 审核 对所录入的概念、术语和关系进行逐条审核,确认合格后方能标记为审核通过,进入后续的发布程序。

3.4.5 结果统计 截止目前,收集录入的概念及术语结果统计如下(见表2)。

表2 中医临床术语系统v2.0中药相关结果统计

4 合作模式和应用场景

4.1 合作和开发模式

能否满足用户需求是一个产品是否合格的标准,中医临床术语系统要想成为合格的产品得到推广应用,乃至成为真正的行业标准,需要契合实际应用场景,发挥其独特优势,真正为用户解决问题,创造价值。为促进推广和应用,暂拟定中医临床术语系统以联盟形式合作开发。⑴邀请研究团队、电子病历厂商、医院等单位以会员形式加入,共同开发维护,共同利用。⑵灵活授权。按照盈利与非盈利,按项目、拷贝数进行授权和收费。⑶部分开放、广泛与各种开放组织,如临床数据交换标准协会(the Clinical Data Interchange Standards Consortium, CDISC)、ISO、世界卫生组织(World Health Organization, WHO)、健康观测数据科学和信息联盟(the Observational Health Data Sciences and Informatics, OHDSI)等开展合作和应用。

4.2 应用领域与场景

⑴支持临床电子病历规范化录入,方便实现临床信息结构化存储、共享和利用,支持临床数据的语义分析与挖掘;并能支持已有临床数据的清洗与规范化。⑵支持临床文献进行语义标引,为临床诊疗知识库提供术语参照基础。⑶药物编码分类。如术语系统中包含了中成药术语及多种分类结构,可以作为药物编码分类系统之一,支持多来源药物编码的映射整合。⑷与其他术语映射,实现跨领域的语义查询检索。

5 展望

中医临床术语系统v2.0已于 2018年1月份发布了第一个版本(网址:http://tcmcts.org),这也标志着中医临床术语系统的重构工作基本完成。团队中远期的目标是争取成为行业应用广泛、术语覆盖全面的中医临床术语系统,为中医药信息标准化奠定基础,要实现这个目标,还需要做大量的后续工作:以实际应用为驱动,加强与电子病历厂商和医院等交流,探索合理的合作开发模式;以子领域主题模式完善术语的收集,并逐步细化工作流程,保质保量,逐步推进;完善合作开发模式,广泛与现代生物医学领域的术语集的研发开展互动交流,包括中国医学科学院已启动的由“医学与健康科技创新工程”项目支持的“中文临床医学术语系统构建研究”,世界卫生组织药物词典(WHO Drug Dictionary, WHODD)等术语集的研发团队,都是目前合作开发的意向伙伴。

[1] LEE D, CORNET R, LAU F, et al. A survey of SNOMED CT implementations[J]. Journal of Biomedical Informatics, 2013,46(1):87-96.

[2] 郭玉峰,刘保延,崔蒙,等.借鉴 SNOMED CT发展中医临床标准术语集[C]//中国中医研究院.中医药发展与人类健康——庆祝中国中医研究院成立50周年论文集(上册).北京,2005:425-433.

[3] 杨阳,李园白,崔蒙.建立中医临床术语集探索性研究[J].中国中医药信息杂志,2006,13(12):105,110.

[4] 郭玉峰,刘保延,姚乃礼,等.基于 SNOMED CT核心构架研究的中医临床术语集标准化特征要素初探[J].中国中医药信息杂志,2008,15(9):96-97.

[5] 董燕,朱玲,于彤,等.中医临床术语研究现状与系统构建方法探讨[J].国际中医中药杂志,2014,36(11):965-968.

[6] 曾新红.中文叙词表本体——叙词表与本体的融合[J].现代图书情报技术,2009(1):34-43.

[7] SMITH B, ASHBURNER M, ROSSE C, et al. The OBO Foundry:coordinated evolution of ontologies to support biomedical data integration[J]. Nature Biotechnology, 2007,25(11):1251-1255.

[8] 朱彦,高博,崔蒙.中药名称同名异物及同物异名情况统计分析[J].中华中医药杂志,2015,30(12):4422-4425.

[9] 国家药典委员会.中华人民共和国药典:2015版[M].北京:中国医药科技出版社,2015.

[10] 中华人民共和国国家质量监督检验检疫总局,中国国家标准化管理委员会.中药编码规则及编码:GB/T 31774-2015[S].北京:中国标准出版社,2015.

[11] ISO. ISO 19465:2017 Traditional Chinese medicine -Categories of traditional Chinese medicine (TCM) clinical terminological systems[S/OL].Geneva: International Organization for Standardization, 2017.

[12] 钟赣生.中药学[M].北京:中国中医药出版社,2012.

[13] 刘丽红,刘静,李海燕,等.《中国中医药学主题词表》“中药功能分类”主题词选词研究[J].中国中医药信息杂志,2015,22(10):38-40.

[14] 刘丽红,贾李蓉,刘静,等.中药本体相关概念描述探讨[J].中国数字医学,2016,11(2):90-92.

猜你喜欢

水牛角术语语义
动物药水牛角基础与应用研究进展
语言与语义
批评话语分析中态度意向的邻近化语义构建
“社会”一词的语义流动与新陈代谢
“吃+NP”的语义生成机制研究
水牛角清凉茶中水牛角水解工艺优化研究
有感于几个术语的定名与应用
从术语学基本模型的演变看术语学的发展趋势
水牛角不同相对分子质量酶解液的药理作用研究
正交实验优选水牛角酶解的提取工艺研究