大数据背景下专业学科领域知识库联盟研究
2019-06-19刁羽畅佩王德平
刁羽 畅佩 王德平
摘 要 文章以构建“生物医学工程知识库联盟”为例,通过数据解析、整体构架、服务功能的设想与思考,探讨专业学科领域知识库联盟的构建模式,并提出构建知识库联盟的建议,目的在于推动国内专业学科知识库联盟的建设与发展,以期促进各相关行业服务功能智能化、便利化的发展。
关键词 大数据 专业学科 知识库 生物医学 联盟
分类号 G251
DOI 10.16810/j.cnki.1672-514X.2019.05.006
Abstract Taking the construction of the “Biomedical Science Repository Alliance” as an example, this paper probes into the construction mode of knowledge base alliance of professional subject domain through data analysis, overall framework, and thoughts on constructing the service function, and puts forward the suggestion of constructing repository alliance. The aim is to promote the construction and development of the professional discipline repository alliance in China, and promote the development of the intelligent and convenient service function of the related industries.
Keywords Big data. Professional discipline. Repository. Biomedical science. Alliance.
0 引言
在当今如火如荼的信息技术飞速发展时代,大数据已经成为与信息资源、人力资源并列的生产要素,并且越来越被广泛和深入地整合到各专业学科领域知识库中。欧美国家已经陆续成立了许多数据科学研究机构。Nature和Science也分别于2008年和2011年推出了大数据专刊,对大数据带来的挑战进行讨论[1]。大数据环境造就了新的科研范式,在此背景下,鉴于近年来机构知识库联盟这一概念的兴起,同时考虑到不同专业学科领域机构知识库数据资源的多样性与敏感性,我们提出构建大数据背景下的专业学科领域知识库联盟,希望通过该联盟重构不同行业的生态数据环境,发掘各行业跨机构学术研究、资源开放与共享、数据存储与备份、系统故障查询与修复等功能,目的在于推动国内专业学科知识库联盟的建设与发展,以期促进各相关行业服务功能智能化、便利化的发展。本文以构建“生物医学知识库联盟”为例,在高校医学院、医疗科研机构、医院、疾控中心等机构知识库的基础上提出与区域生物医学大数据中心建立共享关系,最终实现生物医学知识库联盟的服务功能的设想。
1 专业学科领域知识库联盟
在当今大数据背景下,建立专业学科领域知识库联盟是基于科学研究数据集,以“专业学科领域的数据痛点”为导向,旨在通过预测性数据推送、数据规划、数据重构、专题数据关联性管理等处理过程,为科研人员及被服务群体提供信息移动推荐服务,解决其个性化的、动态性的、知识性的行业信息需求。
大数据背景下的专业学科领域知识库联盟以专业学科领域下多个机构、组织为起点,收集密集的专业学科领域及相关行业实践大数据集,并各自建立可用于数据共享的机构知识库,围绕新建或指定的专业学科领域大数据研究中心,多个机构知识库通过合作的方式建立资源共享关系,形成专业学科领域知识库联盟。该联盟采用最新的大数据技术进行数据整合和挖据,以达到追踪、信息预测等目的,并将其数据分析成果最终应用于相关专业领域机构的各种服务,旨在为相关专业学科领域的科学研究、行业智能发展、行业监控与决策提供大数据驱动的决策支持。在专业学科领域知识库联盟整个构建和服务的过程中,数据流贯穿其中。
2 专业学科领域知识库联盟数据构成
各专业学科领域的大数据性质是不同的,作为最活跃的科学研究领域之一,生物医学领域的大数据也备受关注[1]。可以说全球范围内的科研人员、医院以及手机移动设备等都在不断地产生多种多样的、复杂的、混乱无序、大规模的生物医学领域的大数据,主要包括以下几类来源。
(1)数据提供者和使用者。生物医学数据的重要产生地有高校医学院、医学科研机构、区域疾控中心等机构,机构中专门从事医学研究工作的科研人员是医学数据的主要来源之一;另一个重要的来源地就是医院,医院是医生和病人(普通民众)的活动场所。医生在为病人治疗的过程中,会产生大量的医学数据。医院在医学大数据的应用中有着举足轻重的作用,因为它可以直接获取到病人的信息。
(2)基金机构和数据分析专家。对生物医学研究提供资金支持的基金机构也掌握大量的生物医学数据,这些机构尤其是国有机构在大数据背景下应该承担起自己的那份责任。而对大量生物医学数据的整理、分析和应用都依赖于数据分析专家的技术支持。
(3)出版商和图书馆。医学科研工作者的研究成果主要收藏在出版商和图书馆,如何获取和利用这些海量生物医学数据是我們需要关注的焦点所在。
(4)其他。生物医学的影响范围涉及方方面面,除以上的机构人员外,还有其他的相关者,如制药厂、药房等,他们所拥有的信息也是重要的生物医学数据。
3 专业学科领域知识库联盟整体框架
生物医学知识库联盟以高校医学院、医疗科研机构、医院、疾控中心等机构为起点,收集密集的生物医学领域及医疗实践大数据集,并各自建立可用于数据共享的机构知识库;围绕区域生物医学大数据研究中心,高校医学院、医疗科研机构、医院、疾控中心等机构知识库形成生物医学知识库联盟,该联盟整合海量复杂的生物医学大数据,并结合大数据、人工智能、医疗仪器设备检测等技术,进行数据加工、智能处理、信息挖掘等,为医疗行业的科学研究、医疗战略、医学实践和全人群健康管理提供大数据驱动的决策支持[3]。
生物医学知识库联盟构架主要划分成四个层次,即数据来源、数据采集、数据整合、数据管理,如图1。每个层次都有相应的机构参与沟通协作,在保证数据流贯穿整个知识联盟架构的同时,充分发挥医疗实践的多种创新职能,进而逐渐形成一个保存传播学术知识、收集医疗实践信息、开发智能医疗的重要端口。
图1 生物医学知识库联盟框架
(1)数据来源。联盟将集成来自高校医学院、医疗科研机构、医院、区域疾控中心等机构的生物医学大数据,采用国际前沿的数据处理和分析技术,为区域健康医疗战略、医学实践和全人群健康管理提供大数据驱动的决策支持。
(2)数据采集。通过建立生物医学知识库联盟实现生物医学大数据的最初采集。收集各个重点数据来源的机构库共享资源以及一些外购数据库资源,如生物医学特色型数据库、医疗行业系统数据库等。
(3)数据整合。专业学科领域的实验数据、分析数据、管理数据在量方面可能有所欠缺,因此在数据分析与评价过程中可能要涉及相关联的其他数据,如网络数据、文献数据、平台数据等[4]。这些关联数据将有助于构造整个医疗行业的生态数据环境,推动医疗行业智能化、便利化的发展。如利用 ASN.1格式为生物医学数据提供相应的编码、解码、数据传输标准,利用标准化的XML格式有效地整合和存储高纬度、格式复杂的生物医学数据。
(4)数据管理。数据管理的核心是对医疗科研过程中及诊断过程中所产生的科学数据的处理能力,生物医学知识库联盟的组织形式是以各机构库为核心、生物医学大数据中心为支撑的数据服务架构。大数据中心的后台即数据管理系统在数据日常维护、管理、信息反馈等方面发挥主导作用,具体包括数据的著录、审核、发布、导出等,从而实现信息资源的分类管理、代码管理、指标管理等。
4 专业学科领域知识库联盟服务功能
生物医学数据在生物医学大数据研究中心内部经历过锤炼和医疗实践验证后,可以帮助各机构知识库迅速搭建具有自身特色的大数据应用系统,如数据评价与分析系统、医疗信息管理系统等,系统中逐渐积累的数据流经过生物医学大数据分析专家科学地加工与发现,形成集知识性、学术性及功能性为一体的医疗分析报告,这些报告将为人工智能决策、政府决策、智能医疗行业监控、医疗APP的发展等提供指导和支持。
(1)人工智能决策。在生物医学大数据管理系统中,不同的人群在不同场景下有不同的响应,结合这些数据深度挖掘后形成数据模型,进行人工智能决策,如定制化推荐、个性化搜索等。
(2)开发医疗APP。医疗类APP软件开发借助生物医学知识库联盟产生的数据分析结果,拟在为患者提供更好更优质的医疗服务,通过知识库联盟的医疗信息管理系统打造医疗机构和患者之间的信息交互平台[5]。
(3)智能医疗行业监控。我们需要依托生物医学知识库联盟的共享数据资源和医疗科研团队的监测调研资料数据对该行业的运营成本、安全性、隐私问题及未来发展趋势进行全面监控,从而促进智能医疗行业的规模化、集群化和可持续性发展。
(4)政府决策。通过对生物医学知识库联盟内的数据进行整合与分析,围绕医疗改革发展中重大发展专题、重大政策文件,开展研究和咨询活动,可形成不同区域的医疗市场现状调研与发展趋势报告及具有影响力的对策报告和决策参考。
5 专业学科领域知识库联盟的构建模式
目前机构知识库联盟模式主要分为集中式、分布式及组合式。集中式知识库联盟指多个机构单位构建单一、集中的数据管理系统,联盟机构成员直接将元数据和内容提交到某个共享的服务器中,实现数字资产的统一保存、 利用、传播;分布式知识库联盟指联盟成员机构分别建立各自的数据管理系统,通过元数据收割的方式实现联盟机构资源的集中呈现和揭示;组合式知识库联盟是集中式和分布式的结合,既通过集中提交方式聚合资源,又分别收割元数据[6]。总的来说,集中式有利于控制联盟的建设成本,但各联盟成员会在一定程度上受约束;分布式有利于保证联盟成员的自主权益,但会出现资源重复建設的情况;组合式可兼顾两者的优点,但需抓住知识库联盟建设的适宜时机进行切换。
专业学科领域知识库联盟在建设过程中应根据自身的实际情况选择不同的构建模式。在建设初期宜采用集中构建模式,该模式可以通过建立区域专业学科大数据处理中心,整合多个机构单位的数据资源,形成一个具有专业学科资源、相关行业信息资源的知识库联盟。在知识库联盟的发展过程中,考虑到各区域专业学科大数据处理中心的运载能力,知识库联盟可分批进行,具有典型性行业实力的机构或单位可第一批加入联盟,其他相关专业学科领域的中小组织、机构可视情况陆续申请加盟。在知识库联盟稳定发展的中后期,可考虑采用集中与分布有机结合的模式,在该模式下,联盟中实力较弱的成员机构知识库仍采用集中构建模式,聚集共享资源,实力较强的成员机构知识库可独立形成相关专业学科领域的大数据处理中心,实现元数据的集中收割。随着专业科学领域大数据集在大数据处理中心并逐渐沉淀累积,专业科学领域知识库联盟可摄取到更多有价值的数据,围绕这些数据,各相关专业机构就可以开发出更多便利化、智能化的服务功能,从而为不同领域的用户提供更精准的服务。
6 构建专业学科领域知识库联盟的建议
由于构建专业学科领域知识库联盟还没有成熟的体系以供参考,笔者在深入了解其他领域机构知识库建设过程中出现的各种不足后,总结出大数据背景下构建专业学科领域知识库联盟应从数据的标准化和规范化、数据的开放性和互动性、非文本信息资源的存取、知识库联盟资源版权管理及复合型人才的培养等方面进行努力。
6.1 数据的标准化和规范化
专业学科领域数据庞杂,产生和更新速度更快,统一的著录特征是数据共享的前提,只有实现数据标准化和规范化的有效融合和整合,才能充分发挥生物医学大数据的利用价值。基于此,可以考虑搭建一种可拔插的开放式数据仓库架构,主要用于规范和统一各种数据结构的标准,以便数据能实时地介入与快速地发布。
6.2 数据的开放性和互动性
由于各种不同类型的数据都广泛存储在各种机构库服务器中,各种服务器之间的数据交换、各机构库之间的数据集成与共享、数据结果的及时发布都成为知识库联盟中数据处理的当务之急。为此,构建专业学科领域知识库联盟不仅需要强化各相关专业机构知识库与大数据中心之间的信息数据集成与共享功能,更重要的是开放、强化各种不同类型数据接口,最大程度地满足数据提供者和数据受益者的个性化及人性化需求。
6.3 非文本信息资源的存取
要保证专业学科领域知识库联盟优异的服务功能和贡献力,就必须支持非文本信息资源(NTM)的存取。非文本资源是由不同字符组成的文档,并且有各自特有的格式和属性,可考虑利用Fedora与 DSpace知识库软件平台灵活性和可重构性强的特点支持生物医学知识库联盟创建与处理不同类型的数据,如文档、图像、多媒体对象、数据集、元数据等[7],进而满足不同层次用户的信息需求。
6.4 知识库联盟资源的版权管理
专业学科领域知识库联盟数据来源的多样性决定了不同类型资源受到不同的版权限制,各种机构库资源在大数据中心过滤的过程中应标注有无版权的著录,有版权文献可以设置为对生物医学知识库联盟用户开放,其他机构用户可以进行DOI跳转后浏览[8]。同时,相关职能部门要考虑构建以专业学科领域知识库联盟为基础的版权管理制度以及与之相关的法律法规,从而最大程度地保护知识库联盟资源的版权。
6.5 复合型学科人才的培养
面对海量且无序的各专业学科领域的信息,我们缺少复合型学科人才对知识库联盟的有序管理以及有效使用、分析数据的工具和技术,这在一定程度上影响了大数据对知识库联盟建设事业的推动。为此,我们需要在对相关人员进行数据处理、分析培训的同时,积极推进交叉学科教育与长远发展,以便在数据分析、挖掘的开发应用技术上能更好地应对大量数据带来的复杂性,在专业学科及相关行业方面提供优质服务。
参考文献:
王波,吕筠,李立明.生物医学大数据:现状与展望[J].中华流行病学杂志,2014(6):617-620.
溫华影,高岭,姚延芳,等.中国生物医学知识库(全文版)检索与应用[J].中国现代医生,2008(8):147-148.
陈惠芳,徐卫国.大数据视角下医疗行业发展的新思维[J].现代管理科学,2015(4):70-72.
刁羽.大数据环境下高校图书馆嵌入式创客群体信息服务的策略探索[J].图书馆学研究,2016(16):70-75.
医疗类app开发功能需求分析[EB/OL].[2016-03-20].http://www.mdkg.net/iosnews_3227.html.
陈雨杏.我国区域机构知识库联盟的构建模式选择与实施策略[J].图书馆学研究,2011(7):59-63.
潘璇.机构知识库的非文本信息处理功能探讨[J].图书馆理论与实践,2017(2):44-48.
邵波,陈慧香,刘啸.基于联盟的高校机构知识库的构建研究[J].图书馆学研究,2016(24):33-38.