开放科学背景下高校图书馆科研数据管理模式探究
2023-12-30许正鑫
许正鑫,王 齐
(扬州大学,江苏 扬州 225009)
1 引 言
开放科学基于自由、开放、合作、平等、共享等理念,目的在于形成更加开放、高效、民主和透明的科学研究范式[1],推动知识的创造与传播,在拓宽科学界交互融合,提升科研成果附加值等方面具有重要价值。在这种科学范式发生改变的背景下,各领域研究人员都面临着许多数据管理的挑战、难题和需求。国际图联在评论《UNESCO开放科学建议书》时认为,开放科学与图书馆发展密切相关,能够在很大程度上推动图书馆事业建设进程,同时图书馆也将对开放科学的推进产生积极效果[1]。
由于该背景下研究范式的转变,高校图书馆科研数据的管理过程无可避免迎来了一定的冲击和挑战,相关领域专家明确提出对图书馆等机构而言,提供优质高效的科研数据服务的同时必须遵守科学数据生命周期的规律。因此,高校图书馆必须积极开展馆内科研数据基于数据生命周期的管理模式的创新型探索,通过营造开放科学环境与氛围,探索高校科研数据的最佳管理模式以确保高校图书馆科研数据管理在开放科学环境下也能有的放矢,助力开放科学环境下高校图书馆科研数据价值的高效实现。
2 数据生命周期视角下高校图书馆科研数据生态链分析
2.1 高校图书馆科研数据生命周期运行一般过程
数据的产生、组织、保存、发布以及再利用的过程为数据生命周期,而以科研过程为基础进行管理数据的过程就是科研数据生命周期。对科研人员而言,最优的数据管理模式就是以数据生命周期理论为指导思想,数据管理部门将对数据从产生、重组到发布的全生命过程进行全程把控,能够最大限度地促成数据的循环再利用。由此可见,高校图书馆应该基于科研数据的生命周期来完善其管理模式,以此增强科研人员与科研数据的黏性,促进高校图书馆科研数据生态体系的构建。目前,国外很多高校图书馆在进行科研数据管理活动时,已经开始引入科研数据生命周期理论以引领实践。例如,哈佛大学图书馆为了鼓励支持教学与学术研究,除了提供科学数据管理服务(RDM),还提供围绕科研数据生命周期开展的科研数据管理服务,如医学院RDM服务、法学院实证RDM服务以及商学院商业案例RDM服务等。国内外已有诸多高校基于数据增值的生命过程形成了具有自身特点的科研数据生命周期一般过程(见表1)。
表1 国内外高校形成的科研数据生命周期一般过程
由上述国内外重点高校科研数据管理过程可以发现,虽然各个生命周期模型所适用的领域以及在操作上的细节有一定的区别,但都拥有数据的产生、组织、保存、发布以及再利用这些共同要素。本文通过总结各高校划分的共性特征,主要将高校科研数据生命周期划分为数据的产生与获取、组织与描述、分析与加工、保存与归档、发布与共享以及再利用六个阶段。
数据产生与获取阶段是指通过各种数据源,基于各种数据平台、网站或文献资源收集所需数据的过程。数据组织与描述阶段需要对数据进行处理,如数据清洗和格式转换等以获得有用数据,并选择合适的元数据标准对收集的数据进行描述。数据分析与加工阶段是通过可视化分析工具及软件来开展数据分析,并且通过加工向特定对象提供个性化数据,以满足使用者多样化利用需求。数据保存与归档阶段主要通过形成完整的科学数据保存、备份与归档体系,构建数据存储平台,来确保科研数据的有效备份和协同共享。数据发布与共享阶段需要在获得创作者同意且充分保护科研人员隐私信息及敏感数据、确保数据安全的基础上,于期刊、数据平台或存储机构公开和发表研究成果。数据再利用阶段是指以原始研究数据基础来解决新问题的研究过程,或者在解决原始问题的过程中使用新的数据分析方法[2]。
2.2 基于数据生命周期高校图书馆科研数据生态链的划分及角色定位
数据生态链的提出起源于信息生态链,依据信息生态链中对信息人的分类,可以将在科研数据生命周期各个阶段承担不同任务的对象大致分为数据生产者、数据传递者、数据使用者3类[2]。在高校图书馆科研数据生命周期中,数据生产者主要是指从事一线科学研究活动的科研人员,如各学科领域科研人员、高校师生等以及团队及高校信息服务部门;数据传递者基本由科研人员、高校信息服务部门以及出版机构承担;数据使用者则多为科研人员、高校信息服务部门、校方领导决策机构以及社会用户(见表2)。
表2 高校科研数据生态链中不同任务对象的角色定位及其科研数据生命周期阶段
在科研数据生命周期中,数据生产者既能够生产数据,同时也是数据的主要使用者,他们参与数据产生、处理、组织、保存以及发布的全部阶段,贯穿于科研数据生命的全周期;对数据传递者而言,其主要工作是对科研数据的传递、储存和管理,参与数据处理与描述、保存或归档以及数据的发布或共享阶段;数据使用者主要是科研人员、高校信息服务部门、校方领导决策机构以及社会用户。
3 研究现状
笔者以“高校科研数据管理”为检索词,对中国知网收录的核心期刊进行筛选,共获得结果124条。根据可视化分析可知,研究成果自2014年起呈波段上升状,截至2021年12月已达22篇,其中,以图书情报与数字图书馆、高等教育、新闻与传媒三大领域学科分布为主。对这124条结果做关键词的社区聚类图可以发现,科研数据管理与高校图书馆之间的联系强度最高,并在开放科学参与高校图书馆建设以及数据生命周期参与高校图书馆科研数据管理过程方面已有研究成果(见图1)。
就研究成果的具体内容来看,目前,学界对“高校科研数据管理”领域的研究主要集中于开放科学环境中高校图书馆的作为、高校图书馆科研数据管理流程研究以及高校图书馆科研数据管理模式探究等。除了上述主题,还涉及包括数据治理及资源优化配置研究等方面的数据质量管控、管理工具应用以及人才培养等研究。其中,在开放科学领域,任萍萍[3]、王舒波[4]研究开放科学视阈下高校图书馆科研数据治理路径以及合理建议;张劭君[5]、张俊等[1]和刘敬仪等[6]分别针对开放科学背景下高校图书馆需要拓展的学科服务内容,探索变革科学数据服务模式和合作机制。在高校图书馆科研数据管理流程研究中,李菲等[7]、周淑云等[8]和李铮[9]均以数据生命周期理论为基点,分别对高校图书馆科研智库管理模式和数据监护流程进行分析;魏悦等[10]和贾玉文等[11]则以实际调研为依据,深入剖析国内外高校的科研数据管理政策和资源整合情况。最后就管理模式的研究成果来看,有学者或从数据策展角度,或从多维数据融合角度,提出高校图书馆科研管理模式的构建策略[12—14];也有学者基于国内外高校图书馆科研数据管理模式实践,通过总结现有经验提出面向研究数据管理的高校图书馆学科服务模式[15—17]。
综上可知,虽然目前学界对于在开放科学环境中开展高校图书馆科研数据管理的研究已有涉及,但仍未将开放科学的内核与高校图书馆科研数据全生命周期管理流程进行有效结合,尚未形成统一健全的科研数据生命阶段划分体系以及明确的科研数据系统管理模式,也未曾基于开放科学的核心要义,从数据生命周期视角对科研数据生命链的各参与主体进行深入阐述与剖析。在此背景下,本文尝试基于数据生命周期视角,构建一个明确任务对象、清晰划分任务的高校图书馆科研数据生态链,并对每一链下相关任务对象所涉及的任务进行详细阐述,构建出开放科学视域下高校图书馆科研数据“多链交互”管理模式。
4 开放科学背景下高校图书馆科研数据“多链交互”管理模式
4.1 数据搜集与获取阶段——多元主体共建,多源优化驱动
对高校科研数据进行收集与获取是开展高校科学研究的第一步,也是促进科研创新的前提和保障,数据生产者、传递者与使用者必须统筹协调,共同参与到该过程当中。具体来说,高校图书馆可以加强与研究性图情机构以及“智库”“知识库”等社会网络企业力量的合作联系,与数据利用的多元主体建立广泛的科研数据获取伙伴关系,同时加强与校内其他相关服务部门的合作,建立起基于学科生态系统的学科联络以及协同支持的科研合作体系,从而为建立面向本校学者的数据阶段型存储库做好数据积累与储备。
4.2 数据处理与描述阶段——统一处理操作,确保数据一致性
数据处理与描述阶段的主要参与者是数据生产者与数据传递者,在进行高校科研数据描述与处理时二者必须遵循统一的操作要求。数据生产者要在生产数据时保持与数据传递者的及时沟通与反馈,以此来确保数据描述的一致性。数据传递者如高校信息服务部门需要按照元数据标准处理数据生产者提供的数据或成果,同时向校内科研人员及团队明确元数据创建数据文档的使用方法、数据文件格式的标准与命名规范以及如何基于数据间逻辑关系分类创建使用模板等数据处理操作。
4.3 数据分析与加工阶段——多领域技术融合,个性化数据传输
数据分析与加工阶段主要是通过数据生产者运用信息组织、语义分析与文本挖掘、资源语义互联以及关联数据等新兴技术手段与识别方法,对数据使用者的学术专长进行用户画像,进而开展个性化学术文献引文推荐的信息组织。作为数据使用者,高校信息服务部门在此阶段也需要对科研论文的学术价值进行测量,形成以科学创造力、创新为导向的学术影响力评价模型,以及跨学科的创新型信息资源组织机制,以求促进复杂网络视角下科学文献的知识融合,充分实现高校跨学科的知识共享与知识再利用。
4.4 数据保存与归档阶段——多主体全程参与,实现归档格式互操作
高校图书馆进行科研数据管理的最终目标是实现高校的数据从业者、学科专家、服务及资源提供者之间的高度耦合,确保各学科研究数据可获取性、可访问性、可互操作性和可重用性,那么数据的保存与归档就相当重要。在这一阶段中,作为数据生产者的高校科研人员及团队等需要对数据进行前端控制,根据既定的保存策略及要求进行数据存储,高校信息服务部门以及出版机构等数据传递者需要为数据保存与归档提供格式规范与技术指导,并确保数据在传递过程中不被篡改或污染,同时还必须充分考虑到期刊或平台的要求、数据文件格式、数据版权、数据的隐私和敏感性、共享方式等问题。而数据使用者则需要在使用过程中保证数据的完整与安全,以确保数据保存与归档格式的一致性与延续性。
4.5 数据发布与共享阶段——群体参与为基础,公众获得感为导向
对高校图书馆科研数据的发布与共享阶段来说,只有基于群体参与视角,并以公众获得感为导向,鼓励数据的生产者、传递者与使用者协同开展信息行为,才能实现高校科研数据的有效传递与利用。具体来说,科研人员及团队作为主要的数据生产者必须获得可扩展的研究数据服务和资源以及数字素养教育和培训,同时定期与数据使用者开展双向信息沟通与交流,确保数据使用者提供项目评估监管以及指导等反馈途径畅通,以便数据处理者能够及时改进管理方法。高校信息部门等作为数据传递者则要为数据生产者提供数据发布与共享的技术指导与咨询服务,同时为数据使用者提供定期推送,以帮助使用者时刻了解科研数据管理最新消息。而对数据使用者来说,必须明确使用需求和目标对象,以此为数据的发布与共享提供精准的用户导向。
4.6 数据再利用阶段——深入挖掘“两维度”,确保数据再利用性
开放科学的最终目标就是促进数据再利用,高校图书馆必须从数据监管人员维度以及技术维度两方面对这一阶段进行科学管控。具体来说,数据生产者需要通过对数据生产过程进行严格的质量管控,确保数据的可信性与可靠性,以提高高校科研数据二次使用的易用性;数据传递者如高校信息服务部门需要及时记录描述信息以免数据丢失,并向数据使用者提供及时、便利的数据访问,提高数据二次利用的可行性及效率;数据使用者必须积极主动发挥主观能动性,根据要求及标准对数据进行深入挖掘。
此外,为建立一个完善的高校图书馆科研数据“多链交互”管理模式(见图2),外部保障也必不可少。首先,要完善高校科研数据管理计划,规范科研数据管理秩序。数据管理第一步是制订数据管理计划(DMP),有序管理科研项目数据,满足高校科研数据的管理与共享要求。其次,要明确规则制度,维护科研数据伦理。具体来说,高校图书馆要收集、评估不同需求和利益关系,提供科研数据管理服务和资源、相关法律政策、数据标准。最后,要加大技术投入确保科研数据安全。通过开发支持数据驱动研究的软件工具,为科研数据管理服务实践、数据长期获取以及知识再利用等创造最佳的技术环境。
图2 开放科学背景下高校图书馆科研数据“多链交互”管理模式
5 结论与展望
随着开放科学的不断发展,科学将更加具有合作性、可计算性和数据密集性,科研创新对于海量、系统、高可信度数据的依赖性将会提高。作为数据管理的重要基础理论之一,数据生命周期理论十分重视科学数据管理流程中数据的可流动性和生命性。因此,高校图书馆作为开放科学的重要参与者,必须深度融入开放科学全过程,牢牢把握开放科学这一特殊时代背景,在面对各种不确定因素的冲击时,立足于高校科研数据生命周期全过程,开展科研数据“多链交互”管理模式探索,以实现学术网络视域下图书馆跨学科支撑与服务能力的提升,从而全面助力开放科学背景下高校跨学科融合与协同创新。