一体化医学语言系统及其对我国的借鉴作用
2010-01-04朱彦慧腾吉斯
朱彦慧 腾吉斯
(全国科学技术名词审定委员会,北京 100717)
一体化医学语言系统及其对我国的借鉴作用
朱彦慧 腾吉斯
(全国科学技术名词审定委员会,北京 100717)
由美国国立卫生院开发创立的一体化医学语言系统已成为世界上最全面的医学术语系统,它包括四个组成部分:元叙词表、语义网络、专家词典与相关词典项目、支持性软件工具,并拥有 17个语言版本。一体化医学语言系统不仅为全球使用者搜索文献提供便捷,也为我国电子病历的实施提供术语学基础。
一体化医学语言系统,术语,电子病历
在当前众多的术语数据库中,一体化医学语言系统 (the Unified Medical Language System,UMLS)以收词量大、涵盖面广、语言版本多而备受瞩目。由美国国立卫生院开发以来,该系统在使用英语及其他欧洲语言的国家中使用率甚高。本文简要介绍一体化医学语言系统的历史沿革、组成、应用,以及对我国术语学和生物信息学发展的借鉴作用。
一 历史沿革
当今世界,信息技术的迅猛发展和信息传播的便捷极大提升了知识传播的速度和数量,这使得现代医学在发展过程中产生了大量的生物医学文献。然而,很多文献在对同一概念的描述中经常使用不同的名称,给研究者在理解与区分方面带来了不同程度的困难。为解决此类问题,早在 1986年,具有计算机专业知识背景的医学博士唐纳德·林德伯格(Donald Lindberg)就慧眼独具,着手研发一体化医学语言系统[1-2],并被美国国立卫生院国家医学图书馆纳入。一体化医学语言系统是医生、生物信息专家、图书管理人员、计算机专家和语言学家合作研发的数据库系统,目的是通过发展计算机语言系统,对医学术语和词典进行整合,以达到信息整合的目的,从而克服两个障碍:“一是不同机读资源和不同人群对同一概念表达的差异,二是信息在网络中的不同数据库之间传播的困难。”[3]
一体化医学语言系统的研发历经三个阶段:1986—1988年,调查用户需求,界定了一体化医学语言系统的三个组成部分:元叙词表、语义网络及情报源图谱,并将系统与医学术语数据库链接;1989—1991年,主要研制和发布了三款一体化医学语言系统产品的测试版本,同时继续开展用户调查和一体化医学语言系统的功能开发;1992年以后,不断扩大词汇量和语言版本,以使数据库更加完善,1996年时增加了一个新的组成部分——专家词典。目前,一体化医学语言系统每年更新两次,通过网络共享和发行光碟供全球使用者免费使用。
二 组成及应用
一体化医学语言系统由四个部分组成:元叙词表、语义网络、专家词典和相关词典项目、支持性软件工具[4]。
1.元叙词表 (Metathesaurus)
元叙词表基于多种词典、分类、编码以及生物医学文献、基础医学、临床医学文献中的词汇,构成了一体化医学语言系统的基础,包含 100多万个生物医学概念和 500多万个名称[5]。例如,2009年11月发布的最新版本的词汇来源于 100多个词典和分类系统见 (图 1),包括国际疾病分类—9 ( ICD—9)、国际疾病分类—10( ICD—10)、医学主题词表 (MeSH)、临床医学命名系统(SNOMED—CT)、观测指标标识符逻辑命名与编码系统(LO INC)、世界卫生组织不良反应术语集 (WHO—ART)、英国临床术语 (UK Clinical Te rms)、临床药学标准术语(RxNORM)、基因本体(gene ontology)、人类孟德尔遗传网 (OM IM)等[6]。这些词汇称为元叙词表的“源词汇”,它来源于英语、西班牙语、法语、德语、日语等 17个国家的语言,目前还不包括汉语。
图 1 一体化医学语言系统组成示意图
从本质上说,元叙词表对同一概念的不同名称进行关联,元叙词表的一个概念至少被分配到语义网络的一个语义类型,它对语义网络的所有概念进行了分类。元叙词表中的许多单词和多个单词组成的术语也出现在专家词典中,该词典工具可以确定源于元叙词表的标准化词汇。
2.语义网络 (Semantic Network)
语义网络对元叙词表中的每个概念进行语义分类,对各个语义类型之间的相互关系进行说明。元叙词表中的每个概念至少属于一个语义类型,从不同的语义类型之间可以获得“语义关系”,语义类型和语义关系构成了语义网络。一体化医学语言系统一共有 135种语义类型和 54种相互关系。大的语义类型包括:有机体、解剖结构、生物功能、化学物质、事件、物体、概念等。语义网络表明了组群和概念之间的相互关系 (见图 2)[7]。
图 2 语义网络组群和概念之间的相互关系示意图
3.专家词典和相关词典项目 (SPEC IAL IST lexicon and associate lexicon program)
专家词典包含了英语术语的句法信息,用于术语向元叙词表的映射,包括普通英语词典、MEDL INE和一体化医学语言系统中的术语以及生活医学术语等。每个词条包括句法的、形式和结构的拼写信息,词条可以是一个单词,也可以是多个单词组成的术语。应用 Java程序,可以通过词典完成对生物医学文本变异的处理,这有利于网络搜索和对电子病历的搜索。
4.支持性软件工具
一体化医学语言系统的支持性软件工具包括MetamorphoSys、lvg、MetaMap、知识资源服务器。MetamorphoSys是针对元叙词表的特殊用途而定制出的应用程序,例如,可以应用它来排除其他来源的词汇,可以从一个数据库中挑选出一个概念和这个概念优先使用的名词。lvg程序基于专家词典和手工编码的规则,产生一个既定术语的词汇变异(例如从单数变为复数)和衍生 (例如形容词形式变为名词形式),并且能清除语义学上不重要的词汇。MetaMap是一个在线工具,当给予一个文本时,它能查找出与元叙词表相关的概念。知识资源服务器是一个在线服务器,它具有支持读者浏览元叙词表的功能。
一体化医学语言系统为美国国家生物技术信息中心 (National Center for Biotechnology Information)的文献检索 (包括MEDL INE等)提供关键词搜索。MEDL INE与世界上大部分生物医学文献链接,其搜索路径可以检索美国医学图书馆的大多数文献、会议资料、科研项目等。一体化医学语言系统也为临床试验系统 (ClinicalTrials.gov)的使用提供搜索便捷,解决一个概念有多个名称的问题。另外,一些医学机构利用一体化医学语言系统的资料库收集医学术语[8]。
三 对规范我国医学术语的借鉴作用和意义
我国医学术语系统化建设起步晚,收词量少,发展缓慢,而一体化医学语言系统为我国医学术语系统化提供了概念基础和理论借鉴。
要建立我国的一体化医学语言系统,首先要确立词库。美国一体化医学语言系统含有 100多万个概念,500多万个名称。100多万个概念为汉语医学术语提供了概念基础,但 500多万个名称中有很多仅仅是英文次序或者语法的变化,因此要充分考虑英语和汉语的异同点,做好本地化工作。汉语化的语义网络建设要充分考虑到汉语名词的同名不同义和异名同义的特点,另外,还应从汉语科技文献中补充汉语词汇。
在西方医学传入我国之前,传统中医学的主导地位不可动摇,在我国医学史上有着深远的影响。西方医学进入我国后,大量的西方医学术语被翻译成汉语,西方医学术语的翻译也同样受到传统中医学的影响,汉语化的西方医学术语带有很强的民族特色。因此,建立我国的一体化医学语言系统并不是一个简单的术语翻译问题,纳入中医学术语对该系统的汉语化建设具有重要意义。
随着社会现代化及信息网络化的发展,普及应用电子病历的重要性日益凸现出来。电子病历技术能够实现医疗信息共享,即将以医院为单位的医疗诊断信息通过网络实现不同医疗机构之间的信息共享,从而更加有效地利用医疗资源。信息共享的一个重要基础是术语的信息化,以便使表达同一概念的不同名称能被计算机正确解读。
[1]Medical terminologies:UMLS[DB/OL].http://www. openclinical.org/medTer mUmls.html.
[2]LindbergD A,HumphreysB L,McCray A T.The Unified Medical Language System[J].Methods Inf Med,1993 Aug,32(4):281-91.
[3]HumphreysB L.The UMLS and the web:new opportunities to link sciencitific knowledge to clinical care[EB/ OL].http://crics3.bvsalud.org/cgi-bin/crics3/.
[4]LindbergD A B,Humphreys B L.The UMLS Knowledge Sources:tools for building better user interfaces[J].Proc Annu Symp ComputApplMed Care,1990,121-5.
[5]About the UMLS[DB/OL].http://www.nlm.nih.gov/ research/umls/about_umls.html.
[6]Source Vocabularies-2009AB Release[DB/OL].http://www.nlm.nih.gov/research/umls/knowledge_ sources/metathesaurus.
[7]Kleinsorge A,W illis J,Browne,A.AM IA 2006 Tutorial T12 UMLS Overview[DB/OL].http://www.nlm.nih. gov/research/umls/pdf/AM IA_T12_2006_UMLS.pdf.
[8]UMLSApplications[DB/OL].(2009-09-23)[2010 -06-21].http://www.nlm.nih.gov/research/umls/ implementation_resources/applications.html.
The UMLS and Its Reference to Standardize Chinese Medical Terminologies
ZHU Yanhui Tengjisi
Having been deve lop ed for ove r two decades by U.S.N a tiona l Ins titute of Hea lth,w ith its17 linguis tic ve rs ions,the U nified M ed ica l Language Sys tem (UMLS)has becom e the m os t unive rsa l m ed ica l te rm inology sys tem.It inc ludes the M e ta thesaurus,Sem antic N e tw ork,SPEC IAL IST lexicon and assoc ia te lexicon p rog ram,supp orting softw a re tools.The UMLS p rovides convenience for lite ra ture re trieva l and the imp lem enta tion of the na tiona l e lec tronic m ed ica l record.
UMLS(Unified M ed ica lLanguage Sys tem),te rm inology,e lec tronic m ed ica l record
N04;R3
A
1673-8578(2010)04-0015-04
2010-05-11
朱彦慧(1972—),男,山东人,2004年北京大学医学部博士毕业,同年赴美从事医学研究,2006年归国,现为全国科学技术名词审定委员会副编审。通信方式:zhuyh@cnctst.gov.cn。