APP下载

基于文献计量与知识图谱的我国科研数据开放研究*

2023-10-23

图书馆研究 2023年5期
关键词:发文聚类领域

刘 鹏

(阜新高等专科学校,辽宁 阜新 123000)

随着数据密集型科研范式的兴起与迅猛发展,科研人员在研究过程中产生了大量数据,这些数据被称为科学数据或科研数据,这些数据除了在初始研究目标中产生了重要的价值外,本身还具备很高的再利用价值。因此,关于科研数据的开放问题在国内外均得到广泛关注。我国从2002年以后开始关注科研数据开放问题,现在已经走过20多年的研究历程,并积累了丰富的研究成果。本文将对与数据开放研究主题相关的研究成果进行全面梳理,分析数据开放研究的现状、总结研究热点,并对其研究趋势进行预测,从而为相关研究人员在研究内容上提供一些借鉴,在研究方向的选择上提供一定的指导。

1 数据统计源与分析工具

本研究以中国知网的期刊数据库作为统计源,并以“(TI=(‘科研数据’+‘科学数据’+‘科学研究数据’)and TI=(‘开放’+‘共享’+‘公开’+‘复用’+‘重用’+‘再利用’))or((KY=(‘科研数据’+‘科学数据’+‘科研人员’+‘科研机构’+‘科学研究数据’)and KY%(‘开放科学’+‘数据开放’+‘数据共享’+‘开放数据’+‘共享数据’+‘数据公开’+‘公开数据’+‘开放获取’+‘开放存取’+‘共享’)) or KY%(‘科研数据共享’+‘科研数据开放’+‘开放科研数据’+‘共享科研数据’+‘科学数据共享’+‘科学数据开放’+‘共享科学数据’+‘开放科学数据’))”作为检索式进行检索,期刊类型设定为全部期刊,时间限定为不限至2022年12月31日,对检索结果进行手动清洗后,得到符合条件的结果968 条。检索结果数量适中,能够满足分析需求。本文对于现状分析部分,将采用文献计量法,主要利用EXCEL 的数据统计、制图及回归分析功能来进行分析;对于研究热点和研究趋势分析部分将采用可视化分析法,主要利用CITESPACE的聚类、时区图等功能进行分析。

2 我国科研数据开放研究现状分析

2.1 发文量统计分析

一个研究主题的相关发文量可以反映此主题的受关注程度,不同年份相关发文量的差异也可以在一定程度上反映出此研究主题的发展趋势。我国科研数据开放研究的年发文量统计结果如图1 所示。从图1 中可以看出,我国关于科研数据开放最早的论文的发表于1999年,但是此主题并没有引起研究人员的关注,直到2002年以后,此主题再次走进研究者的视野,2003 年以后此主题发文数量开始迅速增长,2009年发文量达到49篇,达到第一个阶段性峰值后此研究主题进入一个较短的低迷期,年发文数量开减少。直到2013 年,此主题再一次成为热门研究主题,发文量再次呈现迅速增长迹象,于2020年发文量达到峰值,已经达到80篇。再从2020—2022年这3年的发文量数据来看,这三年每年的发文量均超过70 篇,这表明,我国科研数据开放研究仍然是一个热门研究主题。

图1 我国科研数据开放研究年发文量统计图

2.2 核心研究作者分析

根据普赖斯定律,半数的相关论文为一群高产作者所撰写。而高产作者发文最少篇数的计算公式为:M=0.749,其中Nmax是指此研究领域内发文量最高作者的发文篇数。[1]在我国科研数据开放研究领域,Nmax=17,因此,M≈4。即高产作者的发文数量最少为4 篇。根据统计可知,发文量超过4篇的作者共有59位,这59位高产作者的发文总量为419 篇,这一数据与相关论文总量的一半441 篇较为接近,表明我国科研数据开放研究领域的高产作者群体已经基本形成。

本研究采用综合指数法来判定数据开放研究领域的核心研究作者。综合指数法是指将与研究主题相关性较强的因素赋予相应的分值和权重,并转换成特定指数,最后汇总成综合指数并排序,利用排序结果来对判定对象进行判定的方法。笔者通过专家访谈法得出,与核心研究作者判定相关性较强的因素分别是相关发文总量(A)、以第一作者身份发表相关论文的数量(B)、相关发文的总被引次数(C),作者在此研究领域的H指数(D)、发表的相关论文被核心期刊收录的数量(E),其权重分别为:25%、20%、25%、20%和10%。核心研究作者(H)的判定公式为:Hi=(Ai/A均*25%+Bi/B均*20%+Ci/C均*25%+Di/D均*20%+Ei/E均*10%)*100,其中i=(1,2,3,…,59),A均、B均、C均、D均、E均分别是相应因素得分的均值,根据计算可知:A均=7.34、B均=3.91、C均=131.50、D均=5.24、E均=4.96,利用判定公式可到核心研究作者列表,如表1。核心研究作者判定的阈值一般采用将平均值代入公式,得到的数值作为阈值,此数值为100。因此,综合指数大于100 的高产作者可以被认定为此领域的核心研究作者。

表1 我国科研数据开放领域核心研究作者综合指数表(前10位)

根据统计结果可知,我国科研数据开放研究领域的核心研究作者共有23 位,考虑到人数较多,因此笔者只针对前十位核心作者进行重点分析。根据综合指数排名,可将核心研究作者分为三个梯队,排在第一梯队的作者是司莉,她是唯一一位综合指数超过300 的作者,且五项指标均排在第一位,表明其是此研究领域的标杆式领军人物。排在第二梯队的核心研究作者分别是邢文明、顾立平、盛小平、刘桂锋和王卷乐,他们的综合指数都达到了200 以上,他们在五项评价指标中,虽然没有像司莉一样各项指标都达到优秀,但是综合表现也非常突出,这些核心研究作者的研究成果值得重点关注。排在第三梯队的核心研究作者是综合指数在100以上的作者,共有17 位,他们在某一项或几项指标中表现较好,在科研数据开放研究领域中的某个研究方向上有突出贡献,他们更专注于某一研究方向或主题,相关研究者可以根据自身的研究兴趣选择相应核心研究作者的成果进行深入研究和学习。

2.3 核心研究机构分析

很多研究机构因为地域、资源、经济、人才等因素,在某些研究领域具有明显的优势,从而在科研产出上要优于其他机构。因此,对于核心研究机构的确定同样值得研究。本文对核心研究机构的判定同样采用综合指数判定法。具体判定流程与核心研究作者的判定过程相似。判定核心研究机构的重要指标分别是发文总量X、总被引次数Y和发文被核心期刊收录量Z。其权重分别为40%、40%和20%。核心研究机构综合指数W 的计算公式为:Wi=(Xi/X均*40%+Yi/Y均*40%+Zi/Z均*20%)*100,其中i=(1,2,3,…,31)。根据综合指数排序,可知入围核心研究机构的单位共有6个,如表2所示。

表2 我国科研数据开放核心研究机构综合指数排序表

从表中可以看出,我国科研数据开放研究领域的核心研究机构一共有6个。其中排的第一梯队的分别是中国科学院大学(含文献情报中心)和武汉大学,二者综合指数都超过400,遥遥领先于其他机构,表明这两个机构在我国科研数据开放研究领域有较高的权威性。排在第二梯队的是中国科学院地理科学与资源研究所,其围绕地理科学数据开放的政策、平台、服务与评价等内容进行深入的研究,这种针对某一主题进行专深研究的方式,更容易形成高价值的研究成果,同时也是更值得借鉴的研究方式。排在第三梯队的是中国科学技术信息研究所、中国农业科学院农业信息研究所和上海大学,这三个机构虽然在综合指数上得分并不高,但是他们在科研数据开放研究领域同样表现非常突出,分别针对特定领域的科研数据展开深入研究,对于特定研究方向的研究者来说,是非常重要的借鉴对象。

2.4 学科分布分析

根据期刊分布分析可以看出,我国科研数据开放研究具有明显的多学科交叉性,其具体的学科分布亦需要明确。笔者对于每一年发表的论文进行学科统计,学科分类采用的是中国知网提供的学科分类体系,分类级别采用二级学科。据统计,相关论文所属的学科共有65 个,再一次证明科研数据开放研究的交叉主题属性。对每个学科的相关发文量进行统计后,将相关发文量超过10 篇的学科进行降序排列,得到表3。从表3中可以看出,图书情报与数字图书馆、计算机软件与计算机应用、科学研究管理这三个学科的发文量最多,均超过了150篇,表明这三个学科是科研数据开放的主力研究学科。新闻与传媒、医学教育与医学边缘学科两个学科的发文量也超过了50篇,表明这两个学科对于科研数据开放研究也较为重视。在统计过程中发现,新闻与传媒学科关于科研数据开放研究的发文量也在逐年增加,且发展势头较好。未来,该学科有可能成为此领域的主力研究学科。另外,从表3 中呈现的其他学科也可以看出,高等教育和出版学科的相关发文量也都超过了30篇,表明其有可能是此研究领域的潜在主力学科。

表3 我国科研数据开放研究相关学科统计表(部分)

为了更清晰的展示我国科研数据开放领域的学科分布与增长趋势,笔者对于每年的累计学科数量进行统计,并对统计结果进行曲线拟合,具体结果如图2所示。从累计学科数量结果可以看出,相关的研究学科数量几乎每年都在增加,而且从曲线拟合的结果可以看出,其与三次曲线的拟合结果较好,R2=0.994。从拟合曲线的趋势可以看出,在未来五年内会有更多的学科加入科研数据开放研究领域,而且学科数量的增速会加快,到2027年,相关学科有可能会超过90个。

图2 我国科研数据开放领域累计学科统计及趋势图

3 我国科研数据开放研究主题分析

Citespace的关键词聚类功能可以很好地展示特定研究领域的研究主题。笔者将与科研数据开放相关的955 篇论文的关键词进行聚类分析,聚类节点采用g-index(k=20)方式,聚类算法采用LLR 法,结果如图3 所示。从图3 中可以看出,核心聚类簇共有10 个,每个聚类簇对应不同的颜色,标签和大小。颜色反映的是相关聚类的活跃时间段;标签代表聚类簇中最核心的关键词,同时也能大致反映聚类簇的主题内容;大小代表聚类簇中关键词数量多少等信息,聚类簇详细信息可通过软件中的“Cluster Explore”功能获取,具体信息如表4所示,其中聚类规模数值越大,代表此主题研究越活跃。平均轮廓值代表聚类簇的有效性,一般认为,当数值大于0.5 时,说明此聚类合理,大于0.7时,说明聚类令人信服。核心关键词后的数值,LLR代表对数最大似然率,该数值越大,表明其与聚类标签关系越紧密,p-level 代表显著性,该值<0.05,即为合理。综合分析图3 和表4,并结合相关文献进行分析,可以得到我国科研数据开放的研究主题如下:

表4 我国科研数据开放相关论文关键词聚类详情统计表

图3 我国科研数据开放相关论文关键词聚类图

3.1 科研数据开放理论与方法研究

想要对某一个研究领域进行深入研究,其相关的基本理论研究一般在研究起步阶段会非常受重视,同时随着研究的不断深入,相在的理论研究也会不断丰富。此主题的典型聚类为#0、#1、#2、#6和#8,从活跃时间跨度来看,该研究主题从研究起步阶段到现在,一直都是一个备受关注的主题。而且研究范畴较广,相关理论的研究既包括对于科研数据的定义、范围、分类和描述等,也包括科研数据开放的运行模式、保障机制、实现路径、影响因素、开放机理等内容[3]。同时,利益相关者理论、博弈论、系统动力学等理论与模型[4],以及质性文本分析、层次分析法、元人种志分析、合作网络分析、可视化分析等[5]多种研究方法都被应用到我国科研数据开放的研究当中。由于国内对于科研数据开放研究起步较晚,所以未来很长一段时间内,科研数据开放的基本理论及其分析方法研究将会是一个长久性的研究主题。

3.2 科研数据开放政策研究

严谨规范的政策法规体系可以为各项事务的持续健康发展提供指导和保障,我国的科研数据开放研究领域也非常重视相关政策的研究。该主题的典型聚类是#3。从研究的活跃时间跨度看,此研究主题有较强的研究生命力,从研究早期到现在一直备受关注。相关学者特别重视对国外科研数据开放政策的借鉴与推广研究,利用多种分析方法对于国外相关政策文本和案例进行多维度分析,包括相关要素、主体责任、框架设计等[10],为我国科研数据开放政策的制定提供大量可借鉴的素材。同时,对于国内的科研数据开放政策研究,既包括热点趋势、动向研判、环境建设、体系构建等[11]宏观性问题的分析,也包括个人数据保护、政策量化评价、利益平衡机制、政策议程设置等[12]微观性问题探讨。国内科研数据开放的相关政策法规较少,而科研数据开放的发展又亟须完善的政策体系的支持,因此对于科研数据开放政策的相关研究将会是一个热门研究主题。

3.3 科研数据开放评价研究

为了促进研究领域的健康可持续发展,对其进行相应评价是非常必要的。我国科研数据开放研究领域也十分注重对领域内不同主题和整体的评价。该主题的典型聚类为#4。从研究的活跃时间跨度看,此研究主题在此研究领域的前期开始受到重视,并且持续受关注到现在。盛小平[13]等对于我国科研数据开放的整体性评价进行综合性阐述,刘桂峰[14]等对领域内的数据质量的评价对象、体系、方法、技术及其进展开展深入分析。部分学者也分别针对科研数据开放的政策、平台、影响力等[15]构建相应的评价指标体系。同时,相关学者也针对用户注册协议的合规性、新型研发机构的运行绩效、共享政策量化等[16]细节性问题的评价进行分析。另外,不同学科的学者分别从数据引证、替代计量、层次分析等多重视角下,对特定领域数据开放中的元数据质量、利用效率等[17]内容进行评估分析。这些评估与评价研究对于我国科研数据开放的理论与实践起到了重要的修正与指导作用。

3.4 科研数据开放技术与平台研究

科研数据得以有效开放的重要载体是数据开放平台。该主题的典型聚类是#5,从活跃时间跨度来看,此研究方向在科研数据开放研究的早期和中期更受重视。农业科学、海洋科学、环境与生态、交通运输等多个领域已经构建相应的数据开放共享平台。平台建设的好坏直接关系到科研数据开放的范围、质量和效率,因此,科研人员非常重视科研数据开放平台的研究,包括对于平台的系统选型、功能定位、优化策略、综合评价、典型案例等[6]内容的理论性探讨,也包括虚拟化、元数据、GIS、中间件等[7]技术在平台构建中的应用研究。同时,相关研究人员也对包括DSPACE、CKAN、P-CUBE,Hadoop 等[8]在内的常用科研数据开放平台的基础软件或系统架构进行深入分析,包括其优缺点及其适用范畴等。另外,相关研究人员也对于我国科研数据开放平台建设过程中所面临的问题进行深入的分析,并积极地寻求相应的对策[9]。 随着技术的进步与需求的改变,科研数据开放平台也会随之不断升级,因此,围绕科研数据开放平台的相关研究也将成为持续性较强的研究主题。

3.5 科研数据开放安全问题研究

科研数据开放面临的最大问题,就是开放数据及平台的安全问题。很多科研人员或机构不愿意将科研数据进行开放共享的重要原因是担心数据能否被安全存储和合理利用,同时也担心个人隐私泄露和知识产权受到侵害。该主题的典型聚类为#7。从研究的活跃时间跨度看,此研究主题在此研究领域一直备受关注。相关人员对于科研数据开放安全的相关基础问题进行全面分析,包括科研数据开放安全的边界概念、影响因素、责任承担、内容框架、保障路径等[18],并着重对于科研数据开放安全的相关政策和行为[19]进行深入探讨。在借鉴国外先进经验的基础上,提出基于区块链、智能合约、可信云计算等[20]方案的科研数据开放安全解决策略,构建相应的监管平台。在个人隐私防范方面,研究人员对于国内外相关隐私防范政策进行对比,并制定符合我国国情的科研数据开放隐私治理路径[21]。另外,也有部分学者对于科研数据开放过程中的知识产权保护和许可机制进行探讨[22]。

3.6 科研数据开放国际经验借鉴

由于我国科研数据开放研究起步晚于国外,因此相关学者非常重视对国外科研数据开放相关研究的推广与借鉴,该主题的典型聚类为#9。从活跃时间跨度看,此研究主题在研究起步阶段更受关注。相关学者从整体视角对于国外科研数据开放共享的现状和研究进展进行全面分析。也有部分学者从更加深入细致的角度对国外科研数据开放研究进行推介,例如,从国别的角度分别对美国、英国、澳大利亚、欧盟等国家和地区的科研数据开放进行了分析;从研究主题角度分别对国外科研数据开放的原则、方案、隐私、政策等[23]内容进行了分析;从开放主体的角度分别对世界一流大学、相关国际组织、典型开放机构[24]等的科研数据开放实践进行了深入探讨。科研数据开放问题已经引起了世界各国的足够重视,因此,对于国外科研数据开放相关成果的推介研究将会是一个非常热门的研究主题。

4 我国科研数据开放研究趋势分析

笔者利用Citespace 的Timezone功能对于近5年内科研数据开放相关论文的关键词进行分析,得到图4,结合我国科研数据开放的实际情况,对于图4 中的重点关键词进行逐词分析,可以得到一些出现近几年较为活跃且具有较高研究价值的核心关键词,如图4 中的方框所示。再对这些关键词对应的相关文献进行综合分析,可以得到我国科研数据开放的研究趋势如下。

4.1 科研数据出版由理论转向实践,政策与创新研究热度较高

科研数据出版工作是推动科研数据开放、实现科研数据价值最大化的重要方式之一,虽然国内对于科研数据出版的研究起步不晚,但是相关研究成果在早期并不太多,相关研究内容主要集中在障碍因素分析、出版模式探讨、实现路径规划、体系框架构建等[25]理论研究层面,近几年相关发文量开始大幅增加,研究内容也不断深入,相关的实践也取得突破性进展,Nature 出版集团已经推出同行评议期刊《科学数据》,主要描述价值较高的科研数据集,并提供开放获取[26]。国内的《图书馆杂志》也依托其所收录的论文原始数据,自建科研数据管理平台,并构建全新的数据出版模式,为我国科研数据出版创新提供借鉴依据。另外,关于科研数据出版的政策研究也开始受到关注。从目前的研究趋势来看,关于科研数据出版相关研究,将是会是此研究领域的重点研究方向。

4.2 科研数据引用研究日益深入,数据重用方式有待拓展

科研数据开放的最直接目的就是促进数据的重复利用,发挥更大的价值。但是在科研数据开放研究的早期,相关研究人员将重点放在如何推动数据开放上面,而忽视数据利用这一原始目的。随着科研数据开放研究与实践的不断发展,对于开放的科研数据如何重复利用,也开始受到关注,相关学者分别从数据复用的研究演化、知识体系、方法工具、过程模型等[27]多个方面进行分析。在科研数据重复利用的众多研究分支中,研究人员最关注的是数据引用这一主题,他们对于数据引用行为的影响因素[28]、作用机理、识别方法、实现路径、评价体系等[29]内容进行深入的分析。但事实上,除了被引用外,开放的科研数据还有很多被再利用的方式值得开发,如对科研数据的计量、影响力评价、深层价值挖掘等。

4.3 开放性与产权专有性冲突明显,科研数据权益问题备受关注

数据作为一种新型的生产要素,已经成为一种重要的资产,科研数据一旦开放,就会面临着数据的知识产权问题,知识产权的专有性与科研数据的开放共享性之间便会产生较大的冲突,如何将这种冲突进行化解是一个非常值得讨论的问题,相关学者从明晰产权界定、健全法规体系、规范产权交易、重视利益协调、加强政府引导等多个角度提出解决策略[30]。同时也有学者提出从科学数据本身出发来化解这一矛盾,如建立数据唯一标识体系等。除了科研数据所产生的知识产权问题外,数据开放后所形成的数据衍生成果的产权归属、利益分配等问题也是非常有研究价值的主题,而且从图4中的关键词分布可知,产权、所有权、知识产权等关键词都集中于2022年,因此可以看出,我国科研数据开放研究中的产权问题在最近一段时间更受关注,从长远来看,科研数据的产权问题也具有较强的研究生命力。

4.4 科研数据开放衍生问题凸显,数据伦理问题存在探讨空间

随着科研数据开放研究与实践的不断深入,相应的数据垄断、数据滥用、数据造假、数据隐私、数据权益等问题也相继出现,这些问题都涉及同一个领域,即数据伦理问题。相关学者从法理学视角对科研数据开放共享是否符合伦理进行探讨,并对科研数据开放伦理的内涵和外延、基本原则及研究框架进行阐述。也有研究者将科研数据开放的伦理困境、关键性问题、发展方向等内容进行分析,并从隐私变迁、知情同意、伦理审核、隐私分类、通用准备等方面制定相应的伦理要求和管理规范。[31]关于科研数据开放伦理的相关研究虽然已经出现,但是整体来看,数量较少且主题零散,然而近几年在研究数量上确有明显的上升趋势,因此,关于此主题的研究很有可能会成为我国科研数据开放研究的下一个热门研究方向。

猜你喜欢

发文聚类领域
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
领域·对峙
校园拾趣
爷孙趣事
以牙还牙
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
新常态下推动多层次多领域依法治理初探
一种层次初始的聚类个数自适应的聚类方法研究
自适应确定K-means算法的聚类数:以遥感图像聚类为例