美国国立医学图书馆知识服务研究
2019-01-17翟文忠曹丽
翟文忠 曹丽
关键词知识服务 美国国立医学图书馆 NLM
一、前言
美国国立医学图书馆(TheNational Library of Medicine,NLM)历史悠久,馆藏资源丰富,是美国三大国家图书馆之一(美国国会图书馆、医学图书馆和农业图书馆)。从纸本时代、信息时代再到数据时代,无论信息和社会环境如何变化,NLM始终能以前瞻的思维和精准的战略,为全球用户提供优异的服务和先进的技术,引领美国乃至世界图书馆的发展。因此,探究NLM的知识服务内容和方式,分析NLM知识服务的特点和新进展,可为我国图书馆的知识服务提供参考和借鉴。
二、NLM知识服务概况
NLM是世界上最大的生物医学图书馆,也是美国乃至全世界的医学、药理学、医药生物学和医药化学专业信息中心。坐落于美国的马里兰州贝塞斯达的NLM,隶属于美国卫生与公众服务部下的美国国立卫生研究院(NIH)。NLM支持和开展生物医学信息学和健康信息技术方面的研究、开发和培训。1988年,NLM建立了国家生物技术信息中中心(National Center ofBiotech.nology Information,NCBI),NCBI的任务是发展新的信息学技术,以帮助世人理解控制健康和疾病的基本分子和遗传过程。此外,该图书馆还承担了协调了国家医学图书馆网络的重任,旨在促进和提供美国各地社区的卫生信息。
知识服务是当代图书馆的核心竞争力所在,NLM提供的知识服务在图书馆界具有前瞻性和示范性。所谓知识服务,是指根据人们的需求,将知识从各种显性和隐性信息中提炼出来、传输出去的过程。它可以通过采取多种途径与方法,从大量信息资源中提取出有用的知识资源。换言之,知识服务是以用户需求目标驱动的、面向知识内容的、融入用户决策过程并能有效支持知识应用和知识创新的增值服务。近年来,随着大数据、云计算、物联网、人工智能以及移动互联网的发展,知识创造、知识传播和利用的环境迅速改变,为图书馆知识服务带来了巨大的挑战。直面挑战,NLM具有敏锐的洞察力,在纷繁复杂的变化中把握了知识服务的发展态势,对图书馆的本质及服务形态进行创新性的思考和设计,为图书馆用户及自己创造了美好的未来。
三、NLM知识服务分析
(一)建设医学知识产品和资源
NLM收藏了大量的医学类的纸本资源,数量达到270万件,物理馆藏类型有图书、期刊、技术报告、手稿、缩微胶片、照片和影像。该馆行使“图书馆的图书馆”职能,只提供馆际外借(图书和声像资料可借原件,期刊论文只予复印),1957年起个人不能直接外借资料。
数字资源是NLM提供知识服务的主要资源。NLM开发了一系列深层次的、主题广泛的数字产品,形成了以文献库、事实库、指南库、医学数据库等互为补充、相互链接的系列化资源库群。每年被世界各地数百万人搜索,次数达十亿之多。数字资源主要有以下类别:
1.Locatorplus馆藏目录数据库。提供NLM的图书目录。
2.文献数据库:PubMed(生物医学文献检索系统)、PubMedCentral、OMIM(在线人類孟德尔遗传数据库)、休闲图书等。
PubMed是NLM所属的NCBI建立的网络生物医学文献检索系统,是检索全世界生物医学期刊论文的重要工具。数据主要来源有:MEDLINE、OLDMEDLlNE、Record in process、Recordsupplied by publisher等。MEDLINE是NLM最重要的期刊文献书目文摘数据库,也是PubMed的主要数据源,收录了1966年以来的70多个国家和地区的4800多种生物医学期刊上千万条的文献数据,内容涉及基础医学、临床医学和卫生科学等领域。Pub.Med提供对这些数据的访问,并能部分链接到期刊出版商网络站点的全文文章。
3.分子数据库:分子数据库、蛋白质数据库、生物门类数据库、基因数据库、蛋白质clusters、分子模型数据库等。
4.基因组数据库:geo bank、gene、基因组数据库、dbGAP、图谱浏览器、癌症染色体数据库等。
(二)基于搜索引擎的医学知识整合
NLM的主页提供了统一检索,统一检索框本质上是元搜索引擎,这就意味着整个图书馆的知识产品和资源都能通过单一检索框来获得,减少了用户的搜索成本。在元搜索之下,针对不同的资源,NLM开发了不同的检索系统,用于医学资源的整合:在文献资源建设方面有检索系统Gateway和EnWez、检索序列方面有Genbank的Entrze、比对序列Blast和医学图片开放检索系统Open-i。
NLM下设的国家生物医学通信中心(LHNCBC)和NCBI共同致力于网络信息研究,分别开发了Gateway和Entrez。2001年4月,Gateway推出,主要应用于检索艾滋病、卫生学、毒理学方面的文献。Entrez是NCBI的为用户提供整合的访问序列、定位、分类和结构数据的检索系统,能向因特网用户提供基因数据库、蛋白质数据库和PubMed等的免费检索,并在这三个数据库中建立了非常完善的联系。Entrez可以从一个DNA序列查询到蛋白产物以及相关文献,而且每个条目均有一个类邻信息,即与查询条目接近的信息,帮助用户扩展查询。检索相关的序列、结构和参考文献的能力是Entrez的一个强大和独特的特点。Entrez同时也提供序列和染色体图谱的图形视图。BLAST是一个基于序列相似性的数据库搜索程序,是“局部相似性基本查询工具”(Basic Local Aligemnent Search Tool)的缩写。它主要检索蛋白质(肽)序列数据库、核酸序列数据库、连接核酸与蛋白质的数据库。Open-i是NLM的图片检索系统,可以检索来自开源文献的摘要和图像(包括图表、图形、临床图像等)以及生物医学图像集合。Open-i检索对象包括大约120万篇PubMed Central文章中的370多万张图片;7000多次胸部x光检查;近4000次放射学报告;来自NLM馆藏的6.7万余幅图像;2000余幅骨科插图。检索可以使用文本查询和查询图像来完成,检索结果以图片形式呈现,选中图片均能看到图片来源,包括文章题名、作者、期刊卷次、基线等详细信息。
通过这些检索系统,NLM作为多种生物信息学数据库的集合实现了各种资源的知识整合,建立了个数据库之间的信息互联,在检索过程中只要定位其中的一条记录,通过数据库之间的超链接就可以定位其他的相关链接。
(三)医学知识组织和知识组织工具
在医学资源的揭示方面,NLM较早超越了MARC著录阶段,采用了RDA(ResottrceDescription&Access)编目。RDA是《英美编目条例(第2版)》(AACR2)的升级产品,是一种基于数字信息而设计的资源描述与检索的新标准,在内容和结构上满足了数字环境下资源著录、检索和资源共享的新要求,成为国际性的资源描述与检索的内容标准。RDA具有超强的灵活性和扩展性,其产生的数据能在很广泛的数据环境下使用,不仅支持单条书目记录的著录,还支持书目记录的聚类,显示作品及其创建者之间的关系,可帮助用户查找、标识、选择和获得他们所需要的信息。2011年,美国国会图书馆、美国国家农业图书馆与NLM一起对RDA进行联合测试,6月发布了RDA测试报告。报告显示RDA能够提供一个一致、灵活并且可扩展的框架,用于所有类型的资源和内容。在此基础上,美国国会图书馆和NLM都采用了RDA进行知识资源的揭示,为医学知识资源的检索和共享提供了数据基础,也引领了图书馆界的编目改革。
在资源的组织方面,NLM有知识组织工具的优秀代表——医学主题词表MeSH(Medical Subject Headings)和语义网络UMLS(Unified Medical Language System,统一医学语言系统)。MeSH最初是NLM为《医学文献索引》开发设计的医学标题表,后来经过纸本、电子化和网络化的发展,已经成为分析生物医学方面的期刊文献、图书、电子资源等多种医学资源的主题词表。同时,MeSH也是世界上最权威最常用的医学主题词表,可以不夸张地说是世界医学主题词表的通用标准,世界各国或者直接采用,或者以之为范本进行本国医学词表的修改和完善。MeSH主要由主题词、副主题词、增补概念表和“作品类型描述表”组成,主题词以树形结构进行组织,通过MeSH浏览器,为全世界用户提供MeSH主题词的检索和浏览。MeSH具有可扩充性、动态性,每年更新,目前词组超过2万多。MeSH支持Medline、PubMed的检索,也是UMLS的核心词表。此外,NLM通过MeSH自动标引系统实现知识资源的动态扩展,提供医学专业知识服务。专业的"MeSH on Demand"提供了为医学文本自动标引的功能,通过标引提供了医学主题词,同时推荐PubMed中与主题词相关的文章,实现了医学知识资源的动态扩展。
UMLS是NLM知识组织工具的另一利器。1986年,NLM开始建设的UMLS一体化医学知识语言,建设的目标是力图使计算机系统能够理解生物医学和健康语言,即实现语义化。UMLS以MeSH为核心,整合了全球上百种词表的语义网络,主要包括四大部分:超级叙词表、语义网络、专家词典和支持性的软件工具。因此,UMLS具有集成性和跨领域的特点。UMLS应用的领域和场景非常广泛,信息检索、自然语言处理、电子病历、健康数据标准等都可见其身影;Pubmed、NLM gateway、Clinicaltrials.gov等检索系统、网页都使用了UMLS。UMLS在医学智能信息检索中的应用效果良好,主要体现在扩展查询、语义检索、问答式检索方面0。难能可贵的是,NLM将这样的知识组织工具利器向全世界免费开放,提供了MeSH和UMLS各种格式的下载服务,包括普通文本的电子版、适用于图书馆的ASCII、MARC 21以及具有语义的XML、RDF版本。
(四)医学数据服务
在大数据时代,科学研究第四范式渗透到各个研究领域,研究人员从大量科研数据中发现新的知识和科学规律,科研数据管理和服务成为科学研究的首要问题。在科学数据服务方面,NLM走在世界前列。
首先,提供面向世界的臨床试验数据库(ClinicalTrials.gov)服务。ClinicalTrials.gov是NML与美国食品与药物管理局于1997年开发,2002年2月正式运行的临床试验资料库。其主旨在于向患者、医疗卫生人员和社会大众提供临床试验信息的查询服务,向医学科研人员和机构提供临床试验注册服务。Clinical-Trials.gov是目前国际上最重要的临床试验注册机构之一,其注册和查询临床试验均为免费,被誉为公开化、国际化临床试验注册的典范。国际医学杂志编辑委员会(International Committee ofMedicalJournalEditors,ICMJE)宣布,从2005年7月1日起不出版未注册的临床试验论文。因此,临床试验注册成为了医学研究的国际化惯例。目前,有超过200多个国家和地区319,012件的医学研究进行了注册。在ClinicalTrials.gov,人们可以获得临床试验的研究全文和研究报告结果。当然,有的试验未提供全文,只有研究报告,甚至没有研究结果,则可获得研究设计信息如研究目的、研究类型、疾病、干预、研究结局、入组信息、赞助信息、NCT代码等。
其次,NLM提供了开放共享的术语服务。用户可申请UMLS词表服务,获得许可后,创建一个UMLS术语服务(The UMLSTerminology Services,UTS)账户,就能通过NLM专门开发的词表浏览器、语义网络浏览器、SNOMED CT浏览器下载相关术语数据。术语数据包括UMLS、每周和每月的升级版RxNorm(临床药品标准命名术语表)、SNOMED CT(Systemafized Nomencla.ture ofMedicine.Clinical Term,医学系统化命名.临床术语)等。NLM的术语服务有效地促进了医学信息交换和知识共享,对于术语的重用、管理、标准化、互操作而言都有重大意义。
最后,NLM海量的医学数据为医学知识关联及知识挖掘提供了资源。由于NLM数据的权威性、全面性与标引的准确性,针对这些医学数据开展知识挖掘成为了研究的首选方法仅以Pubmed为例,该数据库中储存的每篇期刊文章包含了摘要和全文这些非结构化文本,以及标题、作者、分类、医学主题词等结构化字段。Pubmed中的论文平均提供10-20个左右的MeSH主题词。表中的主题词被分类成为解剖、生物、疾病、药物等类别。主题词因其具有语义关联属性,常被用来推测、获取或验证药物与疾病之间关联关系。此外,医学专家常采用NLM的大量医学数据进行知识抽取,建立知识库。专家采用关联规则算法,能自动地从医学文献中抽取大量信息,从而为知识库、专家系统提供证据。
(五)健康信息服务
NLM有三项使命:一是促进生物医学研究;二是支持衛生保健和公众健康;三是促进健康行为。为促进卫生保健和公众卫生事业的发展,NLM建设了MedlinePlus公众健康知识科普网站,为用户提供可靠的医学信息服务,促进健康素养。MedlinePlus所提供的信息、知识全部来自NLM、美国国立卫生研究院及相关专业团体或权威机构,如Clinical Trials.gov、美国国立卫生研究院的SeniorHealth等数据库和电子资源。Medilineplus提供500多个卫生专题的信息以及9000余种处方药和非处方药的使用指南;聚合了权威的知识、医疗、学术网站,为用户提供包括维基百科、知乎问答、国际前沿学术论文等权威、真实内容。由于Med-lineplus提供的医学信息和知识全面、准确、权威,深受美国民众的喜欢,很多医学专业人士也经常查阅参考。
四、结语
NLM是世界上最大的生物医学信息中心,也是最大的研究型图书馆之一,其在生物医学信息和健康信息长期保存和管理,特别是知识服务方面,做出了卓越的贡献,堪称研究型图书馆的楷模。。NLM建设了一系列深层次的、主题广泛的数字产品,和纸质文献一起,相得益彰,发挥了NLM世界医学知识中心的作用;NLM始终追随时代的脚步,在信息技术的道路上不断努力,整合文本、数据、图片、基因序列等各种类型、各种格式的数据,实现了跨库检索;不断更新知识组织工具MeSh和UMLS,与其他知识组织工具的互操作,使得医学信息检索能够科学和精准;Cli-nicalTrials.gov和开放共享的术语服务推动了世界医学数据的标准化、互操作,极大地促进了医学研究;健康信息服务贴近民众,为全世界的人民卫生健康知识普及做出了贡献。NLM的知识服务体现和渗透在医学信息的揭示、发布、获取、集成、利用和共享等各个环节,其知识服务的内容、方式和技术值得我国医学图书馆以及其他类型的专业图书馆学习和借鉴。