高校图书馆科研数据管理服务系统建构与仿真研究*
2023-12-22陈媛媛陈志鹏
陈媛媛 陈志鹏
科研数据管理服务(Research Data Management Services,RDMS)是高校图书馆为支持科研工作提供的数据管理和相关支持服务。随着科学研究的发展和数据规模的快速增长,高校图书馆在科研数据的获取、组织、存储、分享和利用等方面起到了越来越重要的作用。然而,与发达国家相比,我国在RDMS 的建设方面起步较晚,存在较大差距,不利于我国科研数据的利用和学科发展[1-3]。一些高校图书馆开展科研数据管理服务时,未制定科研数据管理政策,或政策虚设,缺乏实质性支持,导致相关服务推进缓慢[3,4];同时缺乏对科研数据管理安全保障重要性的充分认知和对技术人员的相关培训,从而无法满足部分研究人员对数据管理服务的实际需求[5];此外,还存在科研数据共享和复用效率低下等问题[3]。
为提供综合性解决方案,探索高校图书馆RDMS 问题的根本原因,本文采用系统动力学作为主要研究方法进行建模和仿真实验,结合共现矩阵、词频法等辅助手段。通过动态分析不同系统变量在运作过程中的作用机理,辨析系统内部的正负反馈回路,确认驱使高校图书馆RDMS 水平提升的主要动力,并对优化系统构成提出针对性的建议。此外,系统动力学还能模拟和分析系统在长期演化中的动态变化,揭示问题的长期趋势和潜在的系统行为[6]。这有助于预测和评估不同决策和政策对RDMS 的长期影响,从而识别高校图书馆RDMS 中的瓶颈和关键因素,并制定更有效和可持续的管理策略。
1 相关研究综述
科研数据包括科学研究活动中产生的原始及衍生数据[7]。科研数据管理和科研数据服务是相关但侧重点不同的两个概念[8],前者通过数据组织实现数据有效管理[9],后者在前者的基础上为科研人员提供数据支持和服务,满足科研人员在数据管理和科学研究过程中的需求[10]。科研数据管理和服务都关注数据权益,并通过多方参与的权益博弈形成高效稳定的行为模式框架[11]。
RDMS 作为一个更加综合和深入的概念,融合了科研数据管理和科研数据服务的核心要素。RDMS 不仅关注数据本身的管理,还注重构建合作共赢的机制,使科研人员、图书馆等多方参与者在数据管理与服务中形成协同合作的良好格局。科研数据管理服务有助于更加高效地利用数据资源,推动科学知识的积累和传播。为评估RDMS 现状并分析提升策略,国内的研究者主要从理论和实践两个角度展开研究:在理论研究上,基于前人总结和本国发展规划,以某一环节或整个科研数据管理系统为研究对象进行理论分析[12,13];在实践研究上,通过分析现有案例总结实践经验,探索影响科研数据管理系统的关键因素,并提出对策建议[14,15]。
在研究过程中,国际学界也逐渐形成了一些共识。首先,数据生命周期对RDMS 的重要性得到广泛强调[16,17],并被视为加速开放科学建设的基础框架[18,19]。其次,各利益相关者的合作被认为是RDMS 成功的关键[20-22],吸引更多的利益相关者参与可以更好地支持RDMS 的数据生命周期活动[23],这些利益相关者涵盖政府、机构、高校及科研服务人员等[9,24]。此外,一些研究将数据生命周期与利益相关者概念结合,构建了更具普适性的RDMS 内容体系框架[25,26]。
然而,现有研究仍然存在一些不足。首先,大多基于个案或特定领域,缺乏系统性,研究视角较为狭窄。其次,多采用描述性和案例分析的方式,缺乏定量分析的支持,导致结论存在局限性,难以客观评估科研数据管理模型的效果及影响。再者,多以理论探讨和经验总结为主,缺乏对科研数据管理应用模型的验证评估,无法提供科学依据和实践指导。因此,有必要以更加系统化的方式开展科研数据管理领域研究。本文运用系统动力学方法进行模拟仿真,构建科研数据管理的动态模型,分析各个环节的相互作用和反馈机制,以更好地理解科研数据管理系统的复杂性,并进一步提供科学依据和决策支持。
2 系统变量选择
高校图书馆RDMS 系统建构的前提是系统变量的获取。为了避免主观调查可能带来的偏差,本文结合了文献计量学方法,更全面地捕捉学界对可能影响RDMS 系统运行的主要变量的认知情况。本文从CNKI 检索发表在CSSCI 及中文核心期刊中“篇关摘”包含“科研数据服务”或“科研数据管理”的论文,检索范围为2022 年4 月1日之前的所有文献,共得到246 篇相关文献。然后导出文献中所包含的关键词,共得到关键词473 个。利用Python 编写的程序完成关键词共现矩阵构建,得到的结果如表1 所示。
表1 关键词共现矩阵表(局部)
为了进一步分析各关键词的重要性,本文使用特征向量中心度来衡量它们的重要程度。特征向量中心度是一种同时考虑了节点本身的重要性和其相邻节点的重要性的指标。本文使用Gephi 完成实验计算,并得到了特征向量中心度排名前30 的关键词如表2 所示。
表2 高频关键词的特征向量中心度
通过表2 提供的信息,可以得出以下结论:
(1)“科研数据管理”和“科研数据服务”是该领域的核心概念。虽然研究重点可能有所偏向,但概念均与具体的服务环节密切相关,如数据共享、数据管理和数据保存以及开放科学等,这些环节共同构成了科研数据的生命周期[5,26]。然而,通过对原始文献的分析,发现还存在不同的数据生命周期划分方式,如数据获取、数据产生、数据加工、数据应用、数据收集发现和数据记录分析等[5,27-29]。因此,在整合现有研究结果的基础上,本文将RDMS 的数据生命周期划分为数据获取、数据保存、数据开放、数据利用、数据生成和数据共享六个阶段。
(2)关键词中大量出现的“高校图书馆”“图书馆”“高校”“大学图书馆”“学术图书馆”和“iSchools”表明,高校图书馆是进行RDMS 建设的主体[30]。同时,关键词“数据馆员”表明,科研服务人员同样被认为是参与其中的重要主体[31-33]。此外,一些研究者通过对政府、机构知识库和科研数据知识库等不同来源的数据政策进行研究,强调政府和第三方机构等利益相关者在RDMS系统中能发挥的关键作用[34,35]。因此,本文将利益相关者确定为高校图书馆、科研人员、政府和第三方机构四类。
结合上述对数据生命周期的划分以及利益相关者的确定,本文可以进一步确定系统中可能涉及的关键变量。(1)在科研数据获取阶段,高校图书馆需要考虑数据的重要性和可获取的共享数据量来确定获取和管理的优先级。(2)在科研数据保存阶段,高校图书馆的数据组织能力、数据库建设水平和规范程度会影响科研数据存储的效果。(3)科研数据开放阶段涉及多个利益相关者,其中数据敏感性、政策支持和存储服务供应商的能力都是重要考虑因素。(4)在科研数据利用阶段,高校图书馆提供的服务种类和人员规模以及科研数据的开放程度将影响科研数据的利用水平。(5)在科研数据生成阶段,科研人员的资金投入量、数据素养和科研水平对科研数据的生成质量起到重要作用。(6)在科研数据共享阶段,数据共享环境、政府政策支持和科研数据的生成量都会影响科研数据的共享情况。
基于上述分析,结合数据生命周期理论、利益相关者理论,本文得出对RDMS 系统产生影响的主要变量,如表3 所示。
3 系统模型构建
3.1 模型边界及假设条件
在本文中,内在主要变量仅设定为由高校图书馆、第三方机构、政府作为行为主体的,对数据获取、数据存储、数据开放、数据利用、数据生成、数据共享产生影响的系统变量。行业合作、社会需求以及舆论环境等其他直接或间接影响RDMS的外部因素并非研究的重点。基于此,提出以下基本假设:
假设一:高校图书馆RDMS 系统是一个相对封闭稳定的系统,其增长主要受到科研水平的自然增长驱动,不受外部变量的影响。
假设二:高校图书馆RDMS 水平只受到数据获取、数据保存、数据开放和数据利用等四个环节的影响,其他环节并不直接影响其发展。
假设三:对高校图书馆RDMS 系统产生影响的政策仅包括数据开放和数据保护政策。不考虑其他可能对系统流程产生潜在影响的政策,如高校图书馆环境基建和图书馆从业人员的薪酬福利等政策。
3.2 因果回路模型
根据在数据生命周期中参与作用环节的不同,对系统主要变量进行划分,构建高校图书馆RDMS 系统的动力学因果关系模型,如图1 所示。
图1 高校图书馆科研数据管理服务系统的因果回路模型
图1 包括的主要反馈回路如下所示,其中正负号分别代表变量之间的正向影响关系及负向影响关系,若一个变量增加会导致另一变量增加,则关系为正,反之则为负:
(1)高校图书馆科研数据获取量→+高校图书馆科研数据存量→+高校图书馆科研数据开放量→+高校图书馆开放数据利用量→+高校科研数据管理服务意愿→+高校图书馆科研数据获取量。
(2)高校图书馆科研数据获取量→+高校图书馆科研数据存量→高校图书馆科研数据开放量→+高校图书馆开放数据利用量→+科研人员科研数据生成量→+科研人员科研数据共享量→+高校图书馆科研数据获取量。
(3)高校图书馆科研数据获取量→+高校图书馆科研数据存量→+科研数据管理服务成本→-高校图书馆科研数据管理服务意愿→+高校图书馆科研数据获取量。
3.3 系统流图
根据上文建立的因果回路模型,构建高校图书馆RDMS 系统流图,如图2 所示。相较于图1所展示的因果回路关系,系统流图进一步强化了该系统中的动态特征,包括状态变量(存量)和速率变量(流量),这些是系统动力学的核心概念,也是反映系统动态变化的重要变量。
图2 高校图书馆科研数据管理服务系统流图
在该系统中,唯一的驱动因素是高校科研水平的自然增长。即科研水平的增长量直接影响科研人员的科研数据生成效率,从而导致科研数据的总量增加。即使在数据获取、存储、开放和利用等环节的效率保持不变的情况下,整个高校图书馆数据生命周期中各环节的数据量也会增多,从而推动了RDMS 水平的自然增长。
4 方程设计与参数配置
4.1 方程设计思路
由于系统中各变量难以量化,为使实验结果的实践意义及参考价值最大化,本文将各指标的值量化为与初始时刻值的比值。即各指标值反映的是不同时刻下该指标值与初始时刻指标值相比的变化情况,而非具体的规模水平指标。
同时,为保证基于二级系统变量计算所得出的一级系统变量,如政策支持水平、科研人员数据共享效率、科研人员科研数据生成效率等,在二级系统变量不变的情况下保持不变。依据归一法设计通用权重系数公式,具体如公式(1)所示:
公式(1)中Xi代表第i 个正面系统变量的权重系数(i=1,2,……,n),Yj代表第j 个负面系统变量的权重系数(j=1,2,……,m)。而各个系统变量的具体权重系数来源见表4。
表4 系统变量权重
此外,对于状态变量,如科研人员科研数据共享量、科研人员科研数据生成量以及高校图书馆开放数据利用量等,应有以下关系:
其中,ΔS(t) 为存量在t 时刻的单位时间变化量;k为单位时间增长比例系数,本实验中取值为0.02;μ为存量S 对应增长效率,如高校图书馆数据获取量对应高校图书馆数据获取效率、高校图书馆数据存量对应高校图书馆数据存储效率等;S(t- 1) 为t- 1 时刻的存量。
4.2 系统变量权重系数确定
为确定高校图书馆RDMS 系统动力学模型中各系统变量的权重系数,本文将选取的246 篇论文转换为文本格式后,再对全文文本进行分词处理,随后参考表3 所选取的系统变量确定对应的关键词,并统计各词的词频信息。同时,为避免词频差距过大影响最后实验结果,本文还对词频信息进行对数化处理,最后再基于公式(1)计算各系统变量的权重系数,结果如表4 所示。
4.3 方程表达
结合上述内容,本文构建高校图书馆RDMS系统的动力学模型,并使用方程表达系统的基本思路。在模型中,一级系统变量通过将二级系统变量与相应的权重系数相乘并求和计算而得。正面指标对应的权重系数为正值,负面指标对应的权重系数为负值。状态变量通过将相应的速率变量、比例系数0.02 与上一周期状态变量值的乘积进行积分计算而得,初始值均设为1。例如:政策支持水平=数据保护政策支持* 0.48 +数据开放政策支持*0.52;高校图书馆数据开放效率=政策支持水平*0.17+数据发布及开放存取水平*0.30+数据存储服务供应商*0.10+科研人员数据需求*0.31+高校图书馆科研数据存量*0.31-数据敏感性*0.19;科研人员科研数据共享量=INTEG(科研人员数据共享效率*0.02*科研人员科研数据共享量,1)。
剩余方程也均按上述方法进行确定,因而不再赘述。
5 系统仿真分析
5.1 初始状态分析
在VensimPLE 平台上对高校图书馆RDMS系统进行模拟仿真试验,设定仿真时间为36 个月,仿真步长为1,RDMS 水平初始值为1,在不更改任何系统变量的情况下得到RDMS 水平自然增长曲线,如图3 所示。
图3 科研数据管理服务水平的自然增长曲线
从图3 可以看出,RDMS 水平的自然增长趋势整体保持平缓的指数增长态势,在仿真前期增速较为缓慢,在后期逐渐加速,最终伴随36 个月的自然增长后,RDMS 水平增长为初始状态的2.27 倍。由此可见,科研数据量的规模增长速度会随着整体规模的增大而加快,并且这种趋势会逐渐扩散到科研数据生命周期各个环节的状态变量,从而最终影响高校图书馆RDMS 水平。
5.2 灵敏度分析
通过对关键参数调整后的仿真运行结果进行分析比较,可以得到各系统变量与最后系统输出结果之间的影响关系。本文选择对高校图书馆RDMS 水平产生直接影响的四个可控变量,即高校图书馆数据的获取效率、存储效率、开放效率以及利用效率,分别调整为初始值的150%及50%进行仿真实验进行灵敏度分析,得到实验结果如图4 所示。
图4 调整各系统变量对科研数据管理服务水平的影响
为更好比较不同环节对高校图书馆RDMS系统输出结果的影响力,本文截取在仿真周期内不同时间点的RDMS 水平数据,结果如表5所示。
表5 科研数据管理水平各系统变量仿真实验结果对比
结合图4 和表5,对比不同变量的仿真运行结果可以发现,在初期阶段调整不同系统变量的效果并不明显,但随着时间的推移,差距逐渐扩大。这表明高校图书馆RDMS 系统内部存在一定的滞后期,对系统中各环节的调整效果需要经过较长的数据循环周期才能明显显现。
从数据层面来看,提升高校图书馆的数据获取效率、数据存储效率、数据开放效率和数据利用效率都能对RDMS 水平产生明显的影响,提升比例均超过10%。高校图书馆的数据利用效率和数据开放效率对整体RDMS 水平的影响最大,其次是数据存储效率,而数据获取效率的影响最小。这可能是因为高校图书馆在提升数据获取效率和数据存储效率方面的手段相对有限,但在提升数据开放效率和数据利用效率方面有更多样的方法可供选择,因此在RDMS 实施阶段更加侧重后者。
5.3 情境分析
经过对数据获取效率、数据存储效率、数据开放效率和数据利用效率进行灵敏度分析和比较后,可以得出它们对高校图书馆RDMS 水平的影响。然而,这些影响因素的改变并非由利益相关者直接控制,而是需要通过特定行为活动来影响,如提升数据库建设水平、增加RDMS 种类等。为了展现这些直接行为对最终RDMS 水平的影响关系,本文将进一步从各利益相关者自身的角度进行情境分析。
5.3.1 政府政策维度
政府通过制定政策对高校图书馆RDMS 水平产生影响。在本模型中,政策主要分为数据保护政策和数据开放政策两类。为了比较不同政策对高校图书馆RDMS 水平的影响,本文将数据保护政策支持水平和数据开放政策支持水平分别调整为自然状态的3 倍,并进行仿真实验,得到的动态结果如图5 所示。
图5 政府政策支持行为对科研数据管理服务水平的影响
由图5 可知,提升数据开放政策支持水平和提升数据保护政策支持水平对RDMS 水平的影响差异并不明显,但均相较于原始状态下有着10%左右的提升幅度。这表明数据开放政策和数据保护政策在政策层面上具有同等重要性。可见,高校图书馆的数据开放和数据保护行为不适合通过政府政策进行严格管控,政府的政策主要在营造环境和引导趋势方面发挥作用。因此,政府的政策支持对提升高校图书馆RDMS 水平的影响有限。在政策趋势引导上,不应过分偏向数据保护或数据开放任一方,而是寻求平衡,兼顾数据保护和数据共享的需求。
5.3.2 第三方机构维度
本文认为对高校图书馆RDMS 水平产生影响的第三方机构包括:(1)对科研数据管理计划存在一定要求的学术资助机构,如跨大学政治和社会研究联盟(ICPSR)、国家人文基金会(NEH)等;(2)为高校图书馆提供数据存储服务的供应商,如Dyrad 数据知识库等。前者通过对资助申请者提出DMP 要求来提升科研人员的科研数据共享效率,后者通过收集、整理高校图书馆提供的科研数据,以促进高校图书馆的数据开放效率。为体现两者行为对RDMS 水平的影响差异,现分别将数据存储服务供应商水平与资助机构DMP 要求提升至原始状态的3 倍进行仿真运行实验,得到的结果如图6 所示。
图6 第三方机构行为对科研数据管理服务水平的影响
由图6 可知,无论是提升数据存储服务供应商水平还是提高资助机构的DMP 要求,都对高校图书馆的科研数据管理服务水平有积极影响。然而,在其他系统变量不变的情况下,提升数据存储服务供应商水平对高校图书馆的RDMS 水平提升具有更大的正面影响。这可能因为资助机构的DMP 要求仅是对申请资助的科研人员的最低要求,影响力有限,而数据存储服务供应商可以为多个高校图书馆提供服务,能够产生更广泛的影响。
5.3.3 高校图书馆维度
高校图书馆在开展RDMS 方面的行为选择多样化,可以通过增加RDMS 种类、提升科研数据存储规范程度、改善数据发布和开放存储水平等措施来提升RDMS 水平。在控制其他系统变量水平不变的情况下,本模型进行了仿真运行实验,并将观测目标系统变量的水平调整到原始状态的3倍。实验结果如图7 所示。
图7 高校图书馆行为调整对科研数据管理服务水平的影响
由图7 可知,提升数据发布和开放存取水平、增加RDMS 种类可以有效提高高校图书馆RDMS水平,但增强科研数据存储规范程度的效果相对有限。这是因为数据的开放和利用阶段处于数据生命周期的末期,对下一个周期的数据循环影响更为直接。而且高校图书馆针对数据开放和利用的行为可以对科研人员产生更明显的反馈,从而对高校图书馆的研究数据管理水平变化产生更显著的影响。
提升数据发布和开放存取水平、增加RDMS种类以及增强科研数据存储规范程度分别对高校图书馆的数据开放效率、数据利用效率和数据存储效率产生影响。图7 中展示的高校图书馆行为对RDMS 水平的影响变化幅度与之前进行的灵敏度分析结果相吻合。同时,通过对比图5、图6、图7,可以发现高校图书馆行为调整对RDMS水平变化的影响最为显著,这也符合实际情况中对高校图书馆作为科研数据管理服务主体的期望。因此,本文的实验设计及仿真结果存在一定的内在逻辑一致性。
6 研究发现与建议
6.1 研究发现
通过上述实验,本文得到以下几点主要发现:
(1)RDMS 系统作为一个庞大的系统,有多个利益相关者参与,存在滞后期。这意味着任何改进措施的有效性需要长时间实践验证。因此,利益相关者在调整行为和策略时需要保持一致,以最大程度发挥影响力。
(2)科研数据的总量随着科研水平的增长而增加,更多的科研数据可以使高校图书馆提供更好的数据服务体验。因此,高校图书馆的RDMS水平也会自然增长。
(3)敏感度分析发现,提升数据获取、存储、开放和利用效率都可以有效提升高校图书馆的RDMS 水平。在横向比较中,数据管理服务对数据开放和利用效率的变化最为敏感,其次是存储和获取效率。因此,提高科研数据的开放、利用效率是提升高校图书馆RDMS 水平最有效的方法。
(4)从政府政策行为的角度来看,增加数据开放和数据保护政策的支持都对RDMS 水平有正面效果,差异不大。政府政策对RDMS 水平存在一定影响,但相对于高校图书馆自身所能够带来的影响而言,其作用相对有限。这可能是因为政府政策主要在整体环境和趋势方面发挥作用,而不直接干预RDMS 行为。
(5)从第三方机构行为的角度来看,提高资助机构的DMP 要求和数据存储服务供应商水平都能提升RDMS 水平。提升数据存储服务供应商水平的效果更为明显,应作为第三方机构开展服务的主要方向。然而相对于政府和高校图书馆行为,第三方机构的影响仍然较弱,因为他们在RDMS 系统中主要起辅助作用。
(6)从高校图书馆行为的角度来看,增加RDMS 的种类、提升科研数据的存储规范程度以及提高数据发布和开放存取水平都能提升RDMS水平。不过,提高数据发布和开放存取水平以及增加RDMS 种类对RDMS 水平的提升效果最高,应该是高校图书馆后续发展的重点。相对于政府和第三方机构行为,高校图书馆的影响效果更为明显,因为他们直接参与数据生命周期的各个环节,直接影响RDMS 水平的变化。
6.2 建议对策
基于此,本文提出以下几点建议对策:
(1)整合数据资源,拓展数据开放共享渠道。开放数据对于加速研究进程和最大程度利用公共预算来支持研究数据生成具有重要意义[36]。目前,国外高校图书馆已经采取了多种形式的数据开放服务[37],而国内高校图书馆在数据开放方面还存在一些不足。因此,高校图书馆需要展开合作,拓展数据共享渠道,整合数据资源。同时,第三方机构如高校机构知识库联盟和科学数据银行等也应发挥作用,打破数据共享壁垒,构建跨高校、行业和领域的数据开放共享平台。
(2)制定政策明确责任分配标准,创造良好的数据开放和保护环境。政府行为对于数据开放和保护领域的长期发展至关重要。尽管我国在宏观层面已经提出了一系列政策,如《科学数据管理办法》《科学数据共享条例》等[7],但在《数字版权保护法》等更为严格的法律法规下,仍存在一些责任分配不够细致、对数字资源特殊性认识不足等问题[38]。因此,政府需要稳定政策环境,明确侵权情形和责任分配标准,积极推动数据共享和数据保护意识的增强。此外,政府还需要详细规定侵权行为的责任分配标准,以减少数据滥用,保障数据共享权益,营造良好的数据开放和保护氛围。
(3)为了促进数据管理和共享的发展,需要从第三方机构的角度进一步拓展数据存储服务商的渠道,并制定标准化的DMP 要求。当前,我国高校图书馆尚未形成有效的第三方机构参与RDMS 的监督机制。虽然部分高校图书馆在网站页面提及了由中国高等教育文献保障系统(CALIS)主导的RDMS 规范,但并未详细介绍其具体内容[39]。然而,高校主导的数据共享行为很可能导致不同高校之间存在天然的壁垒,不利于数据资源的整合和开放共享。斯普林格·自然与中国科学院文献情报中心的一项社会调查显示,35%的国内受访研究者认为,缺乏期刊等机构对DMP 的要求是导致研究人员不愿共享数据的主要原因[40]。因此,强化第三方机构的参与,进一步拓展数据存储服务商的渠道,并标准化DMP 要求,对于整合数据共享资源、提高数据共享积极性具有积极意义。
(4)从高校图书馆的角度来看,推动RDMS的发展进程首先需要增加RDMS 的种类,优化开放存取等数据共享渠道。目前,我国高校图书馆在RDMS 的种类上与发达国家存在较大差距。例如,发达国家高校图书馆通常提供科研数据管理、开放存取、学术出版、研究影响力测量、研究导航、研究咨询、研究工具推荐等七类RDMS,而在国内高校图书馆中,北京大学提供了其中的四类RDMS,清华大学提供了其中的两类,复旦大学仅提供了研究导航服务[41]。此外,我国高校图书馆与国外在RDMS 深度上也存在明显差距。例如,开放存取作为上述七类RDMS 中开展比例最高的一类[41],在国外高校图书馆中已经形成了较为成熟的应用体系,包括开放存取政策指导、开放存取系统建设等。相比之下,我国大多数高校还处于信息咨询阶段[42]。
因此,我国高校图书馆可以借鉴发达国家的先进经验,探索个性化、差异化的服务模式,通过增加RDMS 的种类、优化开放存取等数据共享渠道,构建能充分满足我国科研人员需求的RDMS系统。