APP下载

基于文献计量的我国科学数据共享研究态势分析*

2022-11-11赵丽梅

图书馆研究 2022年5期
关键词:数量论文领域

赵丽梅,刘 雯

(1.黑龙江大学信息管理学院,黑龙江 哈尔滨 150080;2.黑龙江大学信息资源管理研究中心,黑龙江 哈尔滨 150080)

1 引言

科学数据是对科学研究进程和结果的直接表征之一,是反映人类科技文明发展记录的重要组成部分[1]。随着互联网技术的发展和信息化社会的来临,科学数据得到了深入的内容分析和挖掘,产生再生数据,形成了一种新的研究范式[2]。在大数据时代,科学数据已经成为战略资源,公众对于科学数据的共享和研究成果的获取更为迫切。我国“科学数据”首次出现在1981年的地质领域论文中[3],1996 年,中国科学院从地球科学、资源与环境科学研究领域开始了数据共享的研究[4]。充分表明我国从20世纪末就已经开始关注科学数据及数据共享,并逐渐展开了一系列的研究和实践。目前,国内已有不少学者解读了科学数据共享政策及细则,研究了科学数据共享平台发展现状和策略,分析了科研人员的共享意愿和分工合作框架,探讨了科学数据共享机制和保障体系。也有学者深入系统地从共享过程中利益平衡和激励机制、共享行为演化博弈等方面展开研究。

科学数据共享已然成为目前众创时代知识创新的战略保障,与科学共同体的集体意向乃至国家利益紧密关联,该研究领域已经引起学者们的广泛关注,并从多个维度对其进行了阐释和解读,但对其主流研究范式及前沿热点,尚缺乏综合测度分析。本文以我国科学数据共享领域为研究对象,利用文献计量的方法,揭示国内科学数据共享领域的主流研究范式和前沿热点,为系统知悉国内该领域的研究态势和优化理论体系及完善实践应用提供有效的参考依据。

2 数据来源与分析方法

2.1 数据来源

本文以CNKI 期刊数据库(CSCD、CSSCI)为数据源,检索主题为“科学数据”OR“科研数据”AND“共享”,检索日期为2021年7月2日,检索时间截至2020年12月31日,剔除一些报道、序言、会议等噪音文献后,得到有效文献478篇。

2.2 研究方法

(1)矢量动态模型法。所谓矢量动态模型法,是将统计数据模型化,从而更加直观地观察技术的发展动态,是由美国专利与商标局专利技术评价和预测办公室提出的一种方法[5]。矢量动态模型法最初主要用于对专利技术发展状况的分析、评价和预测。本文将该种方法进行衍化应用,将文献数量与参与主体及研究主题领域予以结合以揭示科学数据共享的总体进展情况。

(2)科学知识图谱绘制。以科学知识图谱绘制为主要分析框架,以共现分析为主流方法根据关键词之间共现情况构建共现矩阵并绘制成共现图谱,以展示关键词所代表的研究主题之间的语义关联以及语义关系所揭示的知识结构和所彰显的该领域的研究范式。

本文利用文献计量方法,对我国科学数据共享研究的发展状况、核心作者、机构分布、学科分布进行分析。通过筛选并合并高频关键词,利用Vosviewer 软件绘制关键词共现网络图,并通过SATI3.2软件构建高频关键词的相异矩阵,从而利用聚类分析、多维尺度分析等方法来揭示我国科学数据共享领域的研究热点和前沿趋势。

3 总体状况分析

3.1 基于矢量动态模型的总体进展分析

本文主要用矢量动态模型的分析方法来分析我国科学数据共享研究的总体进展情况。具体来说,以文献发表量(即论文数量)代表研究活动,所发表文献的作者数量、参与机构数量、文献所涵盖的关键词数量等代表对科学数据共享领域研究活动的参与状况(见表1),分别统计科学数据共享研究领域文献的发表量与上述其他变量的数据随时间变化的情况。

以文献发表量为X 轴,所发表文献的作者数量、参与机构数量、文献所涵盖的关键词数量等为Y轴,将统计数据用矢量形式绘制在坐标中,求其矢量和,并以矢量和的起点为相对坐标的原点,判断矢量和所在象限,据此确定我国科学数据共享研究所处的发展时期,如图1、图2、图3所示。

图2 论文数量-机构数量矢量图

图3 论文数量-关键词矢量图

通过对有效文献的数量进行统计分析,结果如表1 所示。数据表明,1999 年出现了科学共享方面的第一篇论文,直到2004 年才再次出现该领域的论文。1999年科技部启动了一批急需的科技基础数据库的建设,在实践初期发现了实现数据资源共享的必要性,并在之后的几年时间里陆续启动了数据共享试点和开通运行“中国基础科研研究网”[6]。因此,数据共享的问题被我国学者们开始关注和研究。1999-2008 年,论文数量无明显的增长现象,呈现出缓慢发展的态势。可以说,这一阶段是我国科学数据共享研究的萌芽期。2009-2011 年整体出现了一个负增长的现象。从 2009 年的 24 篇到 2011 年的 12 篇,可以说是该领域处于孕育期,一个研究的累积过程。2008 年大数据的提出,给该领域的研究和发展带来了新的机遇和挑战,学者们在探索大数据的同时,继续研究科学数据共享,使该领域能更好地适应时代的发展。2012-2016 年的4 年间相关论文数量迅速增长,从2012 年的18 篇到2016 年的76篇,该阶段科学数据共享研究开始快速增长。2016年以后,从刊载的论文数量来看,进入了稳步发展时期。

依据表1和图1,我国研究科学数据共享领域的作者数量一直呈现着增长状态。2004-2012 年之间,除了 2009 年的 23 位作者和 2010 年的 25 位作者以外,作者数量一直保持在15位以下,可见该领域的研究处于萌芽发展阶段。出现此现象的原因有:一是2008年9月,美国《自然》杂志正式提出大数据概念[7],二是2009年10月,微软公司在发布的《e-Science:科学研究的第四种范式》中首次全面描述了数据密集型科学研究[8]。大数据时代的到来和第四研究范式的提出,使得科学数据成为关注热点,引起众多学者的研究兴趣。因此,2009年和2010 年的作者数量出现明显的增长变化,但当人们慢慢接受和适应大数据和第四研究范式后,学者们对于该领域的关注也有了一定程度的减弱。2013-2018 年作者数量显著增长,数据表明,2013年作者数量较2012年直接增长5倍,并且2013 年以后的作者数量都在此基础上不断增长,这说明科学数据的研究进入了快速发展阶段。2019-2020 年,无论是发文量还是作者量都很接近,无显著变化,由此看来,此阶段该领域进入了稳步发展时期。

表1 论文、关键词、作者逐年分布量

图1 论文数量-作者数量矢量图

根据表1和图2的数据表明,参与机构的数量呈现出不断增长的趋势。2004-2012 年的参与机构较为平稳,除了2009年之外,无明显的增长和降低现象,足以印证这一阶段,我国科学数据共享领域处于起步阶段,研究群体较为固定。2009 年的参与机构数量明显增多,在于大数据时代给科学数据共享带来了新的研究方向,受到不少学者的关注,从而使得参与机构数量增多,但总体的论文数量没有发生变化,这一现象说明作者的合作意识在不断增强。自2013 年开始,参与机构的数量快速增长,但2015 年论文数量较2014 年无变化,参与机构却出现减少趋势,已经出现较为稳定的研究团队和研究方向。总体来看,科学数据共享研究受到了越来越多的关注和重视,正处于发展阶段。2019-2020年的数据表明,无论是发文量还是参与机构数量都趋于稳定,无明显增减,该领域已经形成稳定的研究成果。

从图1-图3 的分析结果(图中虚线表示矢量和)可以看出,无论是“论文数量-作者数量”“论文数量-机构数量”的统计矢量和还是“论文数量-关键词数量”的统计矢量和,都显示出2004-2012 年之间的该领域研究处于初期发展阶段,参与主体(作者和机构)和研究的主题领域都还处于萌芽发展阶段;从2013年开始,无论是文献数量还是参与主体以及研究主题都呈现出强劲的发展势头,2015年是比较特殊的一年,论文数量较2014年并未增长,但是作者数量增长幅度较为明显,而机构数量和关键词数量均呈现下降趋势。机构数量减少而作者数量增多,说明该领域在2015 年呈现出大科学时代的研究特征,有稳定的研究队伍,但是作者的合作程度增加。而关键词减少,说明相对于2014年其研究主题相对集中;2018年所检索的文献是在该年7月份之前,检出论文相对较少,出现了一定的回落情况,但是2016年和2017年相对于2015 年各个研究维度均呈现上扬的研究态势。因此,从虚线所代表的矢量和来看,我国科学数据共享研究领域正处于稳健的发展阶段。

3.2 核心作者分析

文献产出与学科带头情况。根据普赖斯定律的表述,可知杰出科学家中最低产作者发表的论文数量等于最高产科学家发表的论文总数的平方根的0.749倍[9]。即判断核心作者的论文下限数可以表示为:m=0.749(nmax)0.5,其中nmax表示最高产作者的发文量。在筛选的578篇文献中,第一作者发文量最多的是17 篇,所以代入公式,计算可得m=3.09,取临近最大整数4,因此发文量为4篇以上的作者有17 位,发文量共97 篇,仅占研究论文总数的16.8%,远低于普赖斯定律所描述的核心作者发文量应占总论文的50%这一规定值。从占比情况可以看出,这些作者在我国科学数据共享领域并不具备较大的影响力,没有形成稳定的研究群体和核心作者群体。这也恰恰验证了该领域正处在发展阶段。本文按照发文量的高低排序列出了部分高产作者,如表2所示。

表2 高产作者(部分)

3.3 主要研究机构分析

论文作者的所属机构分布信息能够帮助了解对于该领域的关注度和研究现状的区域差异情况。根据研究文献的作者机构信息,统计出第一作者所在机构的发文量情况,发现发文量10 篇以上的机构只有7 所(见表3),发文量仅1 篇的机构有273所。

表3 发文量10篇以上的机构

其中,武汉大学信息管理学院位于第一位,共发表54篇论文。其次是中国科学院、武汉大学、江苏大学等知名高校和各级重点研究所。可以看出,科学数据共享领域的研究机构分布比较分散,没有核心和稳定的发文机构,这与核心作者的分布情况类似,这足以说明科学数据共享在整个科研活动中发挥着重要的作用,吸引庞大的研究群体去分析,该领域的研究在一定程度上处于上升时期.

3.4 学科分布分析

某领域的学科分布信息,有助于进一步了解问题研究的理论基础和观察视角。机械地根据期刊的学科类别来判断文献所属学科存在一定的片面性[10]。因此,笔者通过综合期刊的学科类别、作者的研究方向以及文献的中图分类号,判断科学数据共享领域研究的学科分布情况。如表4所示,图书情报与档案管理的文献数量已经达到总数的68.5%,成为该领域研究的核心学科,也有部分学者从医学信息、地质、农业等方面开展了对数据共享的研究。

表4 我国科学数据共享研究的学科分布

4 研究热点分析

4.1 高频关键词分析

根据帕累托的二八定律,在任何一组统计对象中,最重要的只占其中一小部分,约20%,其余80%尽管是多数,却是次要的。该理论已成功应用于高频词界定中,因此以20%累计词频覆盖率作为该领域的核心关键词是合理的[11]。按照此类方法筛选高频关键词,需要先将关键词按照词频从高到低进行排序,统计各自与总词频的占比和累积占比,统计发现应选择频次39 以上的关键词。但是本文数据中词频大于或等于39的只有5个关键词,范围过小,无法代表该领域的研究热点。因此,本文根据孙清兰的高频词分解标准N=D0.5(D 是指不同的关键词个数)[12],来判断高频关键词的范围。本文中D=1069,代入上述公式,N≈32.70,取最大整数,即选取33 个高频关键词。对同义关键词进行合并后,选择频次前33个关键词,结果如表5所示。

表5 高频关键词及频次

利用VOS viewer软件构建这33个关键词的共现网络关系图。将478 篇该领域文献的题录信息导入VOS viewer,规定最小关键词的出现次数为8,即获得33个关键词,对其进行可视化,如图4左图所示。图中圆点和标签越大,节点越重要,同一颜色的标签属于同一聚类[13]。然后利用Gephi 对所有关键词进行共现图谱绘制,选取K-core 不小于2的关键词共现图谱,再进行最大成分抽取,获得图4右图,辅助左图对科学数据共享研究热点进行综合分析。

图4 关键词共现图谱

用数据说话已经成为认知世界的一种方法和理念[14],围绕科学数据的核心概念是数据政策(包括政策)、科学数据的相关建设技术标准(元数据、大数据)、数据管理以及相关应用背景,科学数据共享概念得以彰显,科学数据共享中的监管政策、数据监管通过数据生命周期和知识产权为科学数据共享提供了可持续的保障机制;科学数据管理与服务、开放获取、基于数据期刊的数据出版为数据引用提供了实践平台,进而实现更大化的数据共享,图书馆作为人类文明存续传承的重要载体,在科学数据管理中发挥着不可或缺的作用。以美国为例,科学数据共享主要两种运行机制:政府主导生产和投资生产的科学数据纳入“完全与开放”共享管理机制,私营公司投资而产生的科学数据纳入“平等竞争”市场化共享管理机制。科学数据监管是为了降低科学数据利用过程中主体们所面临的不确定性,保障科学数据生产主体和科学数据服务中消费主体的权益。

4.2 聚类分析

通过SATI3.2 软件对高频关键词的词频进行统计后,生成相异矩阵,如表6所示。相异矩阵中两个关键词之间的数据越接近1,表明这两个关键词之间的距离越大、相似度越小;反之,两个关键词之间的数据越接近0,表明这两个关键词之间的距离越小、相似度越大[15]。

表6 关键词相异矩阵(部分)

聚类分析能够使同一类别的个体具有尽可能高的同质性,而类别之间则具有尽可能高的异质性。共词聚类分析,可以使距离相对较近的关键词聚集在一起,形成相似类团,从而清晰地呈现出该领域的研究热点[16]。将相异矩阵导入SPSS25.0软件中,在“系统聚类”中选择“组间联接”和“块”,得到图5。该树状图更直观地显示出了高频关键词聚类的整个过程,上边的横轴方向,代表了各类别之间相对距离的大小[17]。由图 5 可知,33 个高频关键词分成了六大类别,分别是数据出版、科研模式变革、科学数据共享与管理、科学数据监护、科学数据共享服务平台和科学数据共享政策,具体分布如表7所示。数据出版模式和科研研究范式的研究较少,说明技术发展速度较快,在该领域中已成为稳定状态,无需深入探究。科学数据的共享、管理和监护属于研究热点,已涉及该领域的诸多方向,并且未来有着深入研究的趋势。

4.3 多维尺度分析

多维尺度分析(MDS)是一种利用研究对象之间的相异数据(距离)或者相似数据,拟合得到包含所有研究对象在低维空间中的位置结构关系的分析方法。基于位置机构图(关系),可以进一步对研究对象进行分析和归类。将相异矩阵导入SPSS25.0软件中,在“标度”中选择“多维标度”,将数据视为距离,结果显示stress=0.370,RSQ=0.250(stress〉 0.2,RSQ<0.6),说明模型拟合度较差,因此对路径进行改正,将“数据为距离”改为“根据数据创建距离—欧氏距离”,结果显示stress=0.175,RSQ=0.949(stress<0.2,RSQ〉0.9),说明度量模型拟合度较好,结果如图6所示。图6中高频关键词的分布反映了彼此之间的关系和强度,有高度相似性的词语会簇拥在一起,形成学术共同体,距离越近表明二者之间的研究方向越接近,处于边缘或者没有归入研究团体的词语则说明其研究方向狭小,或者正在过渡到其他方向[18]。

图6 多维尺度分析结果

4.4 图谱解析

结合聚类分析和多维尺度分析的结果,将我国科学数据共享领域的研究分为四个研究范式:科研模式的变革、科学数据出版、科学数据开放共享政策、科学数据共享与数据共享平台。虽然聚类结果显示6个类别,但是仔细观察后发现,科学数据的监护与管理属于科学数据研究的另一个领域,只是少数学者在研究数据共享或者共享平台的时候对数据监护和管理的问题有所提及,才会出现此类关键词。因此,可以将这两类一并归入科学数据共享与数据共享平台主题中。接下来就从四个方面对我国科学数据共享领域的研究进行深一步的分析和探讨。

(1)科研模式的变革。随着社会对于知识需求的不断改变和网络信息的快速发展,科学知识生产范式发生了重大的变革和转型,从开放获取、开放数据,再到开放科学时代,科学社区正在经历着从传统闭合式科学向高度开放科学范式的根本转型[19]。赵艳枝等[20]总结了三者的关系:开放数据是对开放获取的补充,开放获取、开放数据是开放科学的前提和基础,开放科学是目标、是愿景。黄磊等[21]采用文献计量方法分析了开放获取和开放科学的转变过程,发现开放科学具有比开放获取更广泛的适应性,包括的内容和参与主体也更多。开放科学已经成为一个不断发展和较为广泛的研究范式,促使研究人员可以将自己的研究成果中的每个要素与他人共享,增进科研人员之间的合作关系[22]。但在开放科学的发展进程中,需要科研人员转变“要么发表成果,要么淘汰出局”的传统科学思想,需要相关主体制定相关政策法规去强制和激励科学家们开放共享的行为,还需要设计和开发能满足相应需求的软件工具,以其推动开放科学的发展[23]。

(2)科学数据出版。科学数据出版是指将数据跨越时间和空间实现数据集成,即在互联网上公开数据,并且支持原始数据提供者之外的研究人员或者组织机构下载、分析、再利用以及引用数据[24]。数据期刊和数据论文便是数据出版的两种形式。何琳等[25]从科研人员、科研机构、期刊等3个方面阐述了科学数据出版的发展现状、出版模式、关键问题和改善建议。王丹丹[26]通过分析不同出版模式下的3种数据质量控制情景,认为推荐或者制定数据知识库能够进一步保障数据质量。吴立宗等[27]从数据中心和传统出版系统两个角度出发,提出和完善了科学数据出版体系包括数据提交、同行审议、数据发布和永久存储、数据引用和影响评价5个环节。邢文明等[28]提出增强出版驱动的科学数据出版主要存在5 种模式:基于纸质、基于网页、基于数据库/平台、基于微信和基于App的增强出版。

国内学者们高度重视数据出版。科学数据出版是目前实现科学数据开放共享的最根本途径,它离不开科研机构、科研人员、出版机构、资助机构和数据仓储等主体的共同参与。数据出版虽能够在一定程度上保证数据的真实性、完整性,避免时间和资金的二次投入等问题,但如何高效合理地对这些数据进行描述、传播、存储仍是需要研究的难题。

(3)科学数据开放共享政策。开放数据共享离不开相关政策的引导和支持,从结构层次上看,该领域的政策体系由三个层面共同组成:国家层面的宏观政策、科研资助机构层面的中观政策和科研机构、高校、出版机构等层面的微观政策。近年来,我国政府非常重视科学数据共享活动,编制了“科学数据共享工程建设规划”,制定了《科学数据共享条例》《国家科技计划项目科学数据汇交方法》《科学数据共享工程管理办法》《科学数据分类分级共享及其发布策略》和《科学数据管理办法》等一系列的数据共享政策法规[29],但是这些政策法规都是指导性质的,没有要求强制实施科学数据的开放共享。

国内不少学者从不同角度解读相关政策法规,旨在推动我国科学数据共享实践,更好地提高和规范其开放共享的水平和程度。如司莉等[30]从科研管理机构、高校制定的数据管理政策以及政府制定的数据公开政策等方面考察了美国、英国、澳大利亚三个国家的政策特点,认为我国政府也应制定完善的科学数据开放共享政策,从而推动对科学数据共享领域的指导和规范。张洋等[31]从生命周期的视角解读了《科学数据管理办法》的科学数据采集汇交、增值处理与分析、长期保存和共享利用四个方面,认为我国缺乏与《科学数据管理办法》为之相配套的实施细则。也有学者基于政策层面去分析科学数据共享中存在的现实问题。如李秋月等[32]从多个政策出发分析了科学数据共享的权益主体、权益分配机制、救济途径及安全与质量保证问题。郭仕林[33]基于政策的角度从经济、科研和法律三方权益关系构建出利益平衡机制,并提出相应的建立原则和建议。

我国的科学数据共享研究相对于国外起步较晚,目前出台的政策也不够完善,以至于不少学者选择对国外发达地区的政策进行研究并总结经验。近几年,基于我国政策文本分析或者基于我国政策视角的研究有所起步,但数量较少,深度较浅,且理论研究远多于实践。我国应该加大学习国外的实践经验,基于实际发展现状,制定和完善相应的科学数据开放共享政策。

(4)科学数据共享运行模式与机制。从个体的科学数据共享意愿到整体运行模式归纳以及利益均衡探讨,从理论研究到调查分析和实证研究,加之大数据时代的到来和信息技术的发展,科学数据共享此方面的主题领域处于一个由浅入深的快速发展过程,成为学者们关注和研究的话题。

该类主题研究主要包括以下三个方面:(1)科学数据共享的驱动因素研究。何琳等[34]采用调查问卷收集数据,通过结构方程模型分析和验证了影响我国科研人员数据共享行为意愿的因素。陈欣等[35]以扎根理论方法为指导,发现了社会科学数据共享中的新现象和新问题,并得出了社会科学数据共享驱动因素。(2)科学数据共享的模式和机制研究。如陈湘[36]提出大数据背景下我国科学数据共享的五种模式:大科学装置模式、开放平台模式、检测网络模式、联邦服务模式和科学数据出版模式。张艳菊[37]分析了E-Science 环境下高校图书馆科学数据共享的需求问题和模式框架。张旺等[38]从心理契约和合同契约的角度,研究了科学数据共享策略演化机制和共享策略激励机制,得出科学数据开放共享策略选择的最优路径。(3)科学数据共享平台与项目研究。如今,我国已经有了诸多类型的科学数据共享平台:科学数据开放注册平台,科学数据开放存储与服务平台和科学数据开放出版平台[39]。如国家人口与健康科学数据共享平台的架构研究,中国草地和草业科学数据库的应用、各省份科学数据共享平台的建设等设计问题。还有我国科学数据共享平台的服务效能分析和绩效评估研究等实际问题。

综上可以看出,我国开放数据共享领域研究主题广泛,涉及范围较广,涌现出了不少优秀的研究成果,但无论从理论还是从实践而言,都处于起步发展阶段,仍存在一些问题:一是缺乏我国科学数据政策的深度剖析,基于政策的文本研究较少,这样不利于数据共享的发展;二是对于数据共享的利益权衡、激励机制、协作机制等研究不足,缺乏深度;三是我国科学数据共享的理论研究偏多,缺乏实践的调查分析和实证研究。因此,这也是该研究领域未来需要努力的方向。

5 结语

本文以478篇论文为研究对象,基于文献计量和共词分析的方法,借助SATI3.2、Vosviewer、Gephi、SPSS25.0 等软件构建高频关键词的共现图谱以及相异矩阵,通过聚类分析、多维尺度分析等方法,揭示和分析了我国科学数据共享研究领域的主要研究主题,对了解国内该领域的研究现状和未来方向具有一定的参考意义。其中,科学研究模式的变革是时代发展推动和科研人员能动性选择的双重结果,科学数据出版是科学数据共享实现模式,科学数据开放是科学数据共享的政策支持和引导,这三个方面都是宏观维度的驱动要素,而微观的驱动要素——个体层面的科学数据共享是目前需要攻克的难题,将宏观背景驱动和政策支持与个体的主观意愿以及权益融合是科学数据共享研究领域未来需要着重考虑的议题。

猜你喜欢

数量论文领域
电子战领域的争锋
将现代科技应用于Hi-Fi领域 Perlisten S7tse
2020 IT领域大事记
领域·对峙
统一数量再比较
本期论文英文摘要
角:开启位置与数量关系的探索
本期论文英文摘要
头发的数量
本期论文英文摘要