基于机构知识库构架的眼科知识服务平台建设
2022-11-18刘艳亭魏雪瑶午玉姣
刘艳亭,李 健,魏雪瑶,午玉姣
机构知识库,也称为“机构仓储系统(Institutional Repository,IR)”,是一种基于全球开放理念的新型知识组织与传播的门户,对特定机构知识进行采集、加工、组织、存储、管理,并允许搜索引擎发现、揭示,便于全球学者、机构之间的学术交流与分享[1]。医院建立机构知识库,可以收集、保存、管理本机构学者的学术产出,也可集中保存教学课件、视频等医学资源;机构知识库还具有服务属性,可按照权限提供访问,促进知识交流和共享[2]。21 世纪初,惠普公司实验室与美国麻省理工学院合作开发出的DSpace@MIT 系统是全球最早的机构知识库开发平台[3]。截至2021 年10 月,全球在OpenDOAR 网站上注册的数据仓储已有5 753个,其中机构知识库2 244 个[4]。国外的机构知识库建设已初具规模,美国排名第一,其次为日本、英国和德国。在国外大环境影响下,我国的机构知识库建设也有了一定程度的发展,OpenDOAR 网站注册的机构知识库中,我国有132 个。中国医学科学院[5]、北京大学医学部[6]、南京医科大学[7]等机构率先建立了功能较为完善的机构知识库,可以有效组织研究数据、病例资料、教学课件等高质量资源[8]。但目前医疗领域的知识库建设仍处于起步阶段,其便于学术交流分享的特点还未得到充分认知,且存在重建设、轻管理、使用率低等问题。
此外,随着特色数据库、电子资源共享、出版商数据开放获取等多种渠道的出现,期刊论文、图书、专利的全文获取已不存在瓶颈,但各个获取平台资源未实现融合,难以进行高效的内容特征揭示,仍然存在“信息孤岛”[9]。专科文献数据库按学科领域采集、存储文献,并对文献内容特征进行高效组织,可以为科研人员提供加工精深、及时准确的信息服务。文献信息的内容特征组织一般分为体系分类法和主题法,如常用的图书分类法和主题词标引法。而近年来,医学专病及专题数据库发展迅速,针对医疗数据进行整合、分析、挖掘,为临床决策、医疗服务、医学科研提供数据支撑,其数据源一般为电子病历数据、影像数据、检验信息系统、生物样本数据、随访数据等,针对多源异构数据整合的难点,多采用国际疾病分类法第10 版(International Classification of Diseases-10,ICD-10)、国际疾病分类第9 版临床修订本手术与操作(International Classfication of Diseases Clinical Modification of 9thRevision Operations and Procedures,ICD-9-CM)等编码体系作为数据标准。
首都医科大学附属北京同仁医院的科研人员对国内外医学文献尤其是眼科及其医学交叉学科资源的需求逐渐增加,在快速获取文献的基础上,眼科及其亚专科研究热点分析,以及学者成果交流与分享成为了新的需求点。因此,本文结合机构知识库及专科数据库功能优势,建立眼科知识服务平台,以提高文献数据的开发度和利用率,满足医疗、管理等不同类别用户的需求。
1 眼科知识服务平台建设思路
本文构建的眼科知识服务平台以机构知识库框架为基础,采集医院文献数据,并进行科室、作者归一,按医院、科室、学者3 个维度展示成果,实现统计、聚类、可视化等文献计量功能;按照专科/专题数据库的数据标准建设经验,以医学主题词、ICD-10、ICD-9-CM 为主要数据源建立眼科标准术语库,并依此对文献进行内容特征自动标识,在一般机构知识库基于题录信息(如作者、主题词、期刊名称等)的基础上,扩展眼科文献数据的展示、分析、挖掘的维度;将数据存储、组织、挖掘和服务功能相结合,满足成果典藏、知识发现、科研管理、学术交流等需求。
2 眼科知识服务平台的构建
2.1 系统架构
平台采用B/S 架构,Visual Studio 2010 开发环境,使用SQL Server 2008 数据库,以Java 语言进行开发。系统构架分为数据层、应用层和表现层3 部分(图1)。数据层包括数据源、数据采集、数据清洗与管理,从文献数据库中自动采集数据,并进行成果合并、科室归一、作者归一和文献内容标识,形成机构文献库和眼科文献库。应用层包括资源管理、科研应用及展示分类,实现成果的分类、展示、筛选及聚类分析、知识发现等功能。表现层通过严格的身份权限与认证,保证机构管理员、科室管理员、学者和访客通过Web 访问相应资源及功能模块。
图1 眼科知识服务平台系统构架
2.2 数据组织与采集
2.2.1 建立眼科标准术语库
医学术语体系在文献标引、聚类、分析和数据挖掘,以及电子病历、医保支付等卫生信息的组织与管理等方面发挥着重要作用[10]。国内医学术语标准化组织主要开展国际标准引进、翻译及本地化等工作[11],并且多集中在综合医学领域,未见关于眼科的标准数据库或术语库的文献报道。本文借鉴美国国立卫生研究院的医学主题词表(Medical Subject Headings,MeSH)的主题词和入口词映射模式,由眼科专业人员和图书情报专业人员提取MeSH、中文医学主题词表、ICD-10、ICD-9-CM、中图分类法中的眼科相关术语,补充对应的入口词(包括款目词、自由词、医学缩略语等),最终实现中图分类法R77 类目(眼科学)、ICD-10 眼科疾病部分、眼科主题词3 个树状分类与眼科术语的映射。根据中图分类法R77 类目,将眼科文献分为视网膜及视神经疾病、眼外科手术学、眼压与青光眼、眼附属器官疾病、晶状体与玻璃体疾病、眼屈光学、眼纤维膜疾病、眼色素层(葡萄膜)疾病、眼科诊断学、眼损伤与异物、眼科手术学、眼的一般性疾病、热带眼科学等13 个导航分类。根据ICD-10 及MeSH,构建包括“眼科疾病集”和“眼科主题词集”两个方向且相互补充的标准术语库。横向的“眼科疾病集”方便从眼科病种向其他病种拓展,纵向的“眼科主题词集”可以延伸眼科病种维度。本文对眼科术语和关键词进行了人工交叉映射,而在医疗大数据环境下,多种标准的交叉映射是医学术语标准化的研究重点,迫切需要业界认可的完善的医学术语编码系统,服务于医疗数据、信息和知识的整合与规范表达[12]。
2.2.2 文献数据采集与清洗
根据眼科主题词、关键词库及机构地址,分别在中国知网、万方数据、维普网、Web of Science、PubMed 等数据库中进行检索,采集题名、作者、作者单位、文献来源、摘要、关键词、主题词、DOI、全文链接等字段。与医院医疗异构数据的采集不同,本文采集的数据源分散在不同的检索平台中,不能直接读取数据库表,只能每周自动检索、下载、更新至相应的本地数据库,分别形成眼科文献数据集和机构文献数据集。然后利用数据抽取、转换、加载(extract-transform-load,ETL)工具对本地数据库中的数据进行抽取、转换,采用数据仓库的方法构建集成系统[13]。
在将本地数据导入到数据仓库之前,需要经过严格的数据清洗,将各个异构数据源模型转换为通用数据模型[14]。对眼科文献数据,应用眼科术语映射库对文献内容特征进行自动标识。对机构文献数据,通过DOI、题目及作者共现,筛查、清洗重复成果;建立科室别称库,实现科室归一清洗;建立学者中、英文名映射库,并结合科室与作者共现算法实现作者归一清洗。
3 眼科知识服务平台的功能
3.1 医院、科室、学者3 级学术共享功能
系统化地保存、管理、展示本机构的显性及隐性知识是机构知识库的首要职能。眼科知识服务平台实现了医院、科室、学者3 个维度的成果典藏功能,并可自动生成二维码便于传播、分享。平台通过自动匹配结合学者认领的方式采集文献数据,提供文摘信息及全文下载链接。学者上传个人简介、专著、专利、成果、课题等数据,由科研管理部门审核。学者可自行上传病例资料、教学课件等个人数据并设置访问权限。
3.2 应用于科研管理的统计及聚类分析功能
眼科知识服务平台引入SCI、《中文核心期刊要目总览》、中国科技论文统计源期刊、中国科学引文数据库(Chinese Science Citation Database,CSCD)中的收录情况、影响因子、中国科学院文献情报中心期刊分区表、期刊引证报告(JCR)分区等数据,方便对成果进行定性与定量评价分析,可以揭示科室、学者的研究现状和热点,也可以横向对比不同科室的科研产出数量及质量,为科研管理提供数据支撑,发挥平台在科研评价、科研监管、科研决策中的作用。
3.3 眼科文献数据挖掘应用
平台中的眼科文献从中图分类法、ICD-10 眼科疾病部分、眼科主题词3 个维度以树状结构展示,所有文献提供全文链接及免费馆际互借通道,其中全文链接需相应的数据库访问权限。平台支持多字段高级检索,并可按作者、科室、年份、收录情况、期刊名称、成果类型等维度对检索结果进行组合筛选;还可对医院、科室、学者及检索筛选出的成果进行聚类分析,具备发文趋势分析、学者产出分析、合作网络分析、学科热点分析、期刊分析等功能。
4 平台管理机制与质量控制
4.1 管理机制
平台实行严格的身份认证与权限控制机制,分为系统管理员、科室管理员、学者和访客4 级权限。系统管理员在平台上完成人事数据的导入,为科室及工作人员建立相应账号、分配权限,并对学者提交的成果进行终审;科室管理员负责编辑管理科室信息,并对本科室学者提交的成果进行初审;学者用户可进行个人成果认领和提交,提交教学课件、科研数据、病例、简历、头像、学术任职等资料;访客仅可访问医院、科室、学者的成果页面。
4.2 质量控制
机构知识库的质量控制包括内容质量控制和元数据质量控制。
平台数据采集采用“统建+自建”的方式[15],即平台从文献数据库统一采集数据,用户进行成果认领和个人数据上传,并严格规范个人数据的采集范围和类型,确保了内容质量。在行政、人事和科研管理部门的认同和支持下,学者的参与度和资源共享意识不断提高,真正实现了平台的共建、共享。
平台通过加强人员培训、规范标准字段、数据清洗、数据审核等方式确保元数据质量。建立机构科室别名库和学者中、英文名映射,通过科室和学者共现算法,实现科室和学者自动归一,有效解决了离退休人员成果无人认领、科室及学者成果统计数据不准确等问题。利用眼科术语映射库进行文献内容标识,避免了按主题词统计分析丢失大量文献的问题。
5 结语
本文构建了一个基于知识库构架的眼科特色服务平台,该平台同时具备机构知识库和专科文献数据库的属性。作为机构知识库,平台实现了对本院医务人员发表的中外文期刊论文、会议论文,以及专著、专利等类型学术成果的系统化保存和管理,同时可以按照时间、科室、学者、主题等维度对科研成果进行统计分析和可视化展示,有利于发文趋势研究、学科竞争力评价等科研管理工作的开展。学者用户在职称评定、申请项目时可以直接通过平台调用数据生成报告,省去了多次提交和审核的繁琐程序;同时平台实现了科研成果、教学课件、研究数据、病例等个人数据资料的上传、保存和分享,提高了医院科研成果的共享性。平台的专科文献数据库,不但收集了国内外眼科文献的题录数据,提供便利的全文获取通道,并按照中图分类法、ICD-10 眼科疾病部分和眼科主题词对眼科文献进行组织,还集成了合作关系图、研究热点图、发文趋势图等文献计量学功能,以便对眼科研究热点、地域分布、合作现状、主流期刊等内容进行揭示,有助于学者了解科研动态,辅助科研决策。
今后,将进一步加强眼科知识服务平台的投入和建设,将专利、著作、基金课题、教学课件、研究数据等学术成果纳入采集范围,建立严格的数据规范和评估、修正机制,并积极探寻与医院信息系统、科研管理系统、人事管理系统的数据互通,开发新的服务功能,更好地满足用户需求。