开放政府数据领域文献计量学相关定律实证分析*
2022-04-07陈晓钰马海群
陈晓钰 马海群
(1.黑龙江大学信息管理学院 黑龙江哈尔滨 150080)(2.黑龙江大学信息资源管理研究中心 黑龙江哈尔滨 150080)
在大数据时代的背景下,开放数据浪潮席卷了全世界[1]。2009年美国政府门户网站的正式启用是开放数据的一个里程碑事件,各国政府、公司、高校等都紧随其后进行了自己的研究。而在这次开放数据浪潮的带动下,由政府信息公开制度嬗变而来的开放政府数据(Open Government Data,简称 OGD)进入到了国内信息管理、法学及相关领域的学者和专家们的研究视野[2]。而伴随着近年来学者们对开放政府数据研究的深入发展,越来越多的研究方向得以显现,例如以开放政府数据为根据研究经济增长模式、研究开放政府数据的理论与体系建设、深入探索国内开放政府数据政策演变路径等。短时间内,大量且驳杂的文献涌入使用户的信息搜集与筛选处理变得更为困难,该领域的真实发展状况也变得模糊不清。因此,运用文献计量法对开放政府数据领域进行全面系统的趋势分析就显得尤为重要。
本文对2004年10月至2021年4月期间发表的有关开放政府数据的研究文献进行了整体分析,以便未来的学者了解这一领域的研究现状,找到研究空白,为开放政府数据的发展打下坚实基础。另外,从整体的角度对开放政府数据领域进行深入研究,还可以提高信息获取利用的高效性与准确性,在当前国家总体安全观的背景下更好地推动我国社会与技术发展。
1 数据来源及研究方法
由于大多数学者或研究人员对中国知网的检索方式与数据库比较熟悉与认同,因此本文所采集到的数据均是来自于中国知网CNKI,采用高级检索方式,检索主题为“主题”=“开放政府数据”,时间一栏的截止日期选取为2021年4月,将匹配设置为“精确”,共检索到符合要求的文献1992篇,包括1576篇学术期刊论文、208篇学位论文及其他相关知识成果。
本文拟采用适当的文献计量方式,结合布拉德福定律、齐普夫定律、洛特卡定律等规律,分析开放政府数据领域的文献增长规律、老化规律等,以期得出该领域的发展趋势。与此同时,本研究还借助了文本挖掘与可视化分析软件——CiteSpace,呈现其相关因素的知识图谱。库恩范式、普莱斯理论、格兰诺维思理论、马尔科夫模型理论、知识单元离散与重组理论是该软件分析与研究的理论基础[3]。与其他可视化软件相比,CiteSpace具有更加清晰的数据处理能力、理想的可视化效果,其清晰明确又简洁大方的界面为用户带来了最大程度的便利,因此更适合描述总结我国开放政府数据领域的演进历程和研究态势。
2 文献增长规律分析
笔者经过筛选,考虑到信息不全的情况,如无作者、无年代等现象,再排除书评、会议记录、图书推介、时论摘要、新闻等无关文献,最终得到有效论文1441篇。
对这些文献的年度发文量和累积发文量进行统计分析可发现,开放政府数据领域相关文献的总体研究趋势基本可以划分成三个阶段。第一阶段,在2004年到2012年之间,有关开放政府数据的论文发行量基本为个位数,说明在这一时期,还很少有人将情报学领域的研究重点放在开放政府数据上,这还是一个尚未形成完整研究体系的研究空白。第二阶段,2013年至2018年,在这近6年的时间里,人们对这一领域的研究探索正在不断地深入。从整体的态势来看,年度发文量稳步增长,甚至是大幅度跃进,都从方方面面显示出了开放政府数据的地位正在逐步加强,人们对这一领域的研究工作也不断地重视。第三阶段,即从2019年至2021年,这一阶段处于该领域的成熟稳定期。2019年后每年的发文量基本都持续稳定在最高点附近,说明近几年相关学者对该领域已经有所建树,建立了一批比较稳定与固定的研究团队,进而推动此领域的成熟发展(见图1)。这样的趋势呈现也与2009年美国建立开放政府门户网站后我国大力推广的数据开放观念有关[4]、与近些年来图书情报及大数据等相关领域技术的高速发展有着密切联系。在技术和相关理论强力支撑的基础上,众多学者关于开放政府数据的研究成果才得以发展产生。
图1 2004—2021年国内开放政府数据研究论文年度发文量趋势图
另外,随着社会的发展,文献发表年代与累积量二者之间逐渐呈现出了一定的规律。普莱斯曾经提出科学文献增长规律,即F(t)=aebt,这就是著名的普莱斯指数,它以指数函数的形式清晰地反映出了当今时代文献发表的增长规律。本文的研究对象的整体趋势基本符合指数增长规律,即研究初期文献发表量极少,且增长速度极慢,2015年后文献增长速率逐渐变大,增长速度逐渐加快,符合普莱斯指数特点。这一趋势说明了现阶段开放政府数据领域的研究正处于发展时期,越来越多的学者涉足该领域丰富了知识成果库。但由于如检索误差和研究领域不同等原因的存在,实际曲线与拟合指数曲线F(t)=0.3814e0.4828t之间还存在着一定的偏差(见图2),但我们也可以以此为依据大致推断出未来开放政府数据领域的研究状况基本呈上升或持平趋势,处于成熟期。
图2 2004—2021年国内开放政府数据研究论文累积增长图
3 布拉德福定律
3.1 布拉德福定律的提出过程
塞缪尔·克莱门特·布拉德福于1878年在伦敦出生,早期是一位化学家,后进入图书馆工作,是英国著名的图书馆员与科学文献分类专家,他创立了英国国际书目学社,并提出了布拉德福定律[5],成为了现在图书情报领域文献计量学著名三大定律之一的提出者。
布拉德福长期从事于文献的研究,在图书馆开展有关科学和技术期刊中文章的收集、分类和摘录统计等具体工作。他在工作中发现,在学科期刊上发表非对应学科文章是一种非常常见的现象。因此,布拉德福假设在期刊发表上的文章分布有某种模式:在某一领域内更具有权威性的文章可能集中在少数专业期刊上,而与这一领域有关的“边缘杂志”和“普通杂志”上发表的文章则占据了该领域研究成果的大部分。为了证实这一想法,布拉德福及其助理琼斯分别选择了两个专题“应用地球物理学”和“润滑学”,对图书馆收藏的期刊中与此专题有关的论文逐一进行统计[6],并顺利得出了结论。这样布拉德福就证实了他最初的猜测,为布拉德福定律的得出打下了最坚实的根基。1934年1月,布拉德福在《工程》周刊的“图书与文献”部分发表了一篇题为《特定学科的情报源》的文章[7],提出了与某一特定主题有关的出版物在期刊上的分布并不均匀,而是显现出集中和离散状况的文献分散规律,即具有里程碑意义的布拉德福定律。该定律可以用文字表述为:如果将科技期刊按其刊载某专业论文的数量以递减顺序排列,则可分出一个核心区和相继的几个区域,每区刊载的论文量相等,此时核心期刊和相继区域期刊数量成1∶a∶a2的关系[8]。布拉德福定律的产生推动了学术界发展,提高了文献信息的利用率。
3.2 期刊分析
笔者将2004年10月—2021年4月开放政府数据领域内所选取的研究论文数据的期刊分布情况,按照布拉德福定律,归纳成三部分,且三部分之间的论文发表数量大致相等。第一部分,选取的是期刊载文量在21—91篇之间的9本期刊,可称为“核心”期刊领域;第二部分,称为“相关区”期刊,即载文量在3—20篇之间的71本期刊;第三部分,可作为“离散区期刊”,期刊载文量为1—2篇,期刊数量为283本。从数量分布规律来看,三个区域之间的关系近似符合布拉德福文献离散规律,即每个区域发表的论文数量基本相等,期刊区域之间的数量成1∶a∶a2的关系(见表1)。
表1 期刊分区表单位:篇
期刊刊载文章的数量可以有效反映和说明开放政府数据领域的研究现状、研究情况和期刊分布状况。开放政府数据领域中的核心期刊大致有以下9种,以《电子政务》为首,紧跟其后的是图书情报领域的各个重要期刊,而位列最后的是《中国行政管理》。从这种现象中不难发现,目前国内关于开放政府数据领域的研究大部分还是集中在图书情报领域的研究学者之中,但仍有其他方向例如政法领域的学者参与涉猎,并提出重要想法建议,推动整个开放政府数据领域的发展。9大“核心期刊”共发表期刊论文386篇,占全部论文的34.526%。这说明开放政府数据研究的文献发表情况相对比较集中,已经形成了相对成熟稳定的重要期刊集合,得到了广大研究学者的充分肯定,获得了国内重要期刊的认可,具有一定的权威性(见表2)。
表2 开放政府数据领域核心期刊载文量分布
3.3 文献数量分散分析
由于本文数据的选取截止到2021年4月,并不是一个完整的年度,所以数据图像仅供现阶段参考。用布拉德福曲线展现开放政府数据领域的文献数量分散情况,横坐标表示期刊数量累计和对数[9],纵坐标代表论文累计数(见图3)。从图3可以看出,开放政府数据领域的文献数量分散曲线基本可以分成两个部分进行归纳:在图像的前半部分,各个数据点之间间隙较大,数据点集合形成的趋势呈上升状,说明该部分期刊数量较少,但各期刊的发文量均较多,研究成果在开放政府数据领域中有一定的分量,属于核心期刊区域;而图像的后半部分,数据点比较集中相互连接,基本呈现直线状,期刊间离散程度较小,分散程度较低,其中有69种期刊发表了2篇论文,214期刊发表了1篇论文,后半部分曲线分别与“相关”和“边缘”期刊区域相对应。从整体来看,数据点之间的离散程度越来越低,论文累计数却在持续增加,这种趋势刚好与布拉德福定律描述的某一专业内期刊论文在期刊信息源上发表不平衡的现象相吻合,并说明现阶段开放政府数据领域正处于成熟发展时期,越来越多的学者参与研究并在不同学科的期刊上发表了研究成果。
图3 开放政府数据领域文献数量分散曲线图
4 齐普夫定律
4.1 齐普夫定律的发展历程
美国哈佛大学教授、著名语言学家和情报学家乔治·金斯利·齐普夫最早提出了“最省力法则”的概念,此理论提出初期强调的是运动和道路的概念,但却为齐普夫定律解释了内在成因,为其创建提供了坚实的基础[10]。早在1898年, 德国语言学家F.W.Kaeding就开始了对词频的研究,并编写了世界上第一部频率词典《德语频率词典》[11],随后,艾思杜、贡东两位学者也分别着眼于词频这一方向进行了自己的研究。齐普夫在前人研究成果的基础上,采用大量的数据系统钻研,经过艰巨的统计计算和结论再验证后,最终确定了常数C的性质, 成功论证了词的频率与等级序号之间关系的定量形式,将文献中词汇出现频率的分布规律以定量的形式表现出来。人们为了向齐普夫表示尊敬,感谢他为揭示这种分布规律而作出的巨大贡献,将这一定律命名为“齐普夫定律”[10]。齐普夫定律的内容可以大致概括为:若用f表示频次,r表示等级序号,则有: f*r=C(C为常数),其中C是一个围绕中心数值而波动的值,并不是恒量。
齐普夫定律作为文献计量领域的三大定律之一,为用户进行信息搜寻、文献检索、文献标引等提供了有效保障,使广大学者在词汇的使用控制方面有了更深层次的理解,为其他学科的进步奠定了良好的理论基础,有效推动社会共同进步发展。
4.2 数据分析
高频词的数量对研究结果有决定性影响。为了排除低频词干扰研究结果,确定一定数量的高频词是进行词频分析的基础。本文共选取了1441篇论文作为原始数据,其中提供关键词的文章共1395篇,检索到有效关键词2354个。由于关键词具有一定程度的主观性,常常会出现一种意义多种表达形式的情况,因此本文对高频关键词进行了合并统计,如将“政府数据开放”“开放政府数据”“政府数据公开”等关键词统一归纳为“政府数据开放”;将“大数据时代”“大数据”合并为“大数据”一词等。经过笔者归纳整合,统计出开放政府数据领域排名前50位的高频关键词,并根据齐普夫定律进行了相应数据的排列整理(见表3)。
表3 开放政府数据领域前50位高频关键词
齐普夫定律主要研究的是关键词的词频,而文章的关键词在某种程度上也反映出了该篇论文的研究主题,能够简要概括此篇论文的研究方向,使读者能够迅速识别获取研究重点。统计某一专业研究领域内的高频关键词更是能很好地反映出目前该领域的研究现状、研究热点,进而有效预测整体发展方向。
由表3可以发现,在开放政府数据领域的研究中,排在前几位的关键词分别是政府数据开放、数据开放、政府数据、大数据、开放政府等词语。政府数据开放是该领域研究成果关键词的首选,能够直接点明主题,其次是数据开放和政府数据二词,二者均是比较广义的类型且覆盖面宽泛,再次是大数据的时代背景和技术支持,然后是电子政务一词,能够与前文中核心期刊的归纳相互呼应。除此之外,从表中可以看出,各组序号和频次的乘积均为上下波动的常数。由此不难发现,开放政府数据领域的关键词词频规律与齐普夫定律基本相符,即f*r=C。表3中的50位高频关键词高度概括了开放政府数据领域的研究热点,若将数据选取的截止时间变动后再进行对比,就能够发现该领域近些年的研究趋势与发展变动情况。
4.3 关键词频次分布分析
以表3中已按照齐普夫定律处理好的数据为依据,以序号r为横坐标,以频次f为纵坐标绘制,可得到开放政府数据领域关键词频次分布曲线散点图图像(见图4)。在图像初期各散点之间离散程度较大,变化较快,说明该部分关键词在领域内出现概率较大,是整个开放政府数据领域的研究主体,热度较高;而图像的后半部分趋势较平缓,因变量随自变量波动变化不明显,表明该领域内研究成果的关键词逐渐变得复杂多样,研究面不断拓宽,吸引了更多学者加入探讨,反映出了开放政府数据领域高速发展并逐渐走向成熟的客观现象。再从图像的整体趋势来看,图像呈递减趋势,频次随着序号的增大而降低。添加拟合曲线后可以发现,该散点图与幂函数y=557.03x-1.06图像基本相近,符合齐普夫词频分布的基本图像走势。
图4 开放政府数据领域关键词频次分布曲线散点
在此基础上,再分别以表3中序号r与频次f的数值取对数作为横纵坐标,绘制开放政府数据领域关键词频次分布对数曲线图(见图5)。由于散点连线与直线y=-1.0598x+2.7459之间的拟合度达0.9646,因此序号r对数与频次f对数之间的关系可以近似地看作线性关系,这就说明开放政府数据领域内的关键词词频规律是基本符合齐普夫定律内容的。
图5 开放政府数据领域关键词频次分布对数曲线图
5 洛特卡定律
5.1 洛特卡定律的发展历史
美国著名学者和科学计量学家洛特卡(Alfred J .Lotka)于1926年首先提出了文献计量领域三大经典定律之一的洛特卡定律,它从文献计量学、科学计量学、图书情报学等角度,深入探讨学者著作的科学文献数量与学者数量之间的定量关系,是一个研究著者生产率频率分布的重要定律[12]。1926年,洛特卡首先研究了科学文献数量与作者人数之间的关系,并创造性地提出了“科学生产率”的概念。在此概念的基础上,洛特卡针对化学和物理学两大领域内的学科专家及其著作情况进行了数据统计归纳,在庞大数据库支撑的背景下才得出了规律性结论, 为洛特卡定律的形成准备好了基石。因此,该定律的形成是以“科学生产率”为基础经大量统计研究而出现的。洛特卡定律可以用文字表示为:在某一段时间内,写x篇论文的作者占作者总数的比例与其撰写的论文数x的平方成反比关系。即,其中f(x)为写x篇论文的作者占作者总数的百分比,x为论文篇数,C为某特征常数[12]。
洛特卡定律反映出了论文数量与论文作者二者之间的不平衡分布现象,即少数作者写出了大量的文献,而大多数作者所著知识成果却只占已发表文献中的一小部分。洛特卡定律的出现,为人们进行信息资源管理与信息有效利用提供了便利条件,能够起到“风向标”的作用,指引领域研究动向,方便该领域内的学者之间相互交流;为研究人才分布、寻找并掌握领域精英学者信息提供理论支撑,便于文献管理,引领发展,共同进步。
5.2 高产作者与核心作者分析
由于洛特卡定律也适用于作者合著的情况,因此在本文的研究中,只要是参与文献发表的作者就被视作单独发表了1篇文章,经统计,在本文所选取的1441篇文献中,剔除掉空白作者等无法统计的情况外,共收集到为开放政府数据领域作出贡献的有效作者1547名。在文献作者分布领域,普莱斯首先注意到高产作者研究的重要性。他发现75%的学者在他的一生中只发表了1篇文章,而另有10%的科学家在其一生中所发表的论文数量占所有论文库的二分之一[9]。在开放政府数据领域仅发表1篇论文的学者占整体著作者的80.2844%,大致符合普莱斯定律,且说明了当前开放政府数据领域的研究作者群体相对庞大,研究人员较分散的现状。普莱斯定律可以定量地用数学公式表示为,其中I代表着该领域内发表论文数量最多的作者的论文数,n(x)代表编写了x篇文献的作者数量,N是该领域内的著者总数,该公式意在表明撰写了论文数据库中一半论文的高产作者数量等于全部科学作者总数的平方根。将本文所选取的作者数量数据代入,则N是1547,则开放政府数据领域内高产作者数量为1547的平方根,可以近似地看作该领域共有40位高产作者。除此之外,普莱斯根据洛氏定律, 借用数学结论, 经推导得出:m≈0.749,因此高产作者最低发文量,其中 maxn代表最高产作者的论文发表数量,将表4数据 maxn=33代入后可得N≈4.30,即发文量在5篇以上的作者属于开放政府数据领域内的核心作者[15],即黄如花、马海群、陈美、翟军、郑磊等人是这个领域的核心作者,如表4所示。
表4 作者发文分布数据
5.3 数据分析
洛特卡定义描述的是在某一段时间内,写了x篇论文的作者总数的比例与撰写数量x平方之间的关系,即,其中c为洛特卡定律常数[14]。为了计算方便减少误差,且能够使图像更加干净简洁,文章将删除核心作者即发文量在5篇以上的作者的相关数据。为了对此定义进行验证,本文采取最小二乘法的方式来求取自变量x的指数n的具体数值。表5所显示的是开放政府数据领域所发表著作作者的分布情况,而表6所显示的是将论文数x与作者数y分别进行对数运算后求得的n的结果。
表5 开放政府数据领域论文作者分布数据
表6 x指数n的计算数据
5.4 论文著作者洛特卡分布分析
图6所示的是开放政府数据领域内发文量不多于5篇的论文作者的洛特卡分布散点图。该图像以论文数x的对数为横坐标,以作者数y的对数为纵坐标,采用表6中的数据绘制而成。散点之间的连线可以拟合成表达式为y=-2.9131x+3.1222的一次函数图像,该函数图像与散点连线图之间的拟合程度高达0.9947,基本重合。其斜率-2.9131的绝对值与5.3数据分析部分中利用最小二乘法求得的指数n值基本无差,均与洛特卡定律给出的数值2相接近,这就说明无论采取什么样的办法,从何种角度对杰出作者进行分析统计后都会得到一样的结果,则可以近似地看作开放政府数据领域论文发表情况与领域内学者之间的数量关系符合著名的洛特卡定律。
图6 开放政府数据领域论文著作者洛特卡分布曲线
6 引文共现分析
6.1 数据来源
由于大多数学者或研究人员还是对中国知网的检索方式与数据库全面程度比较熟悉与认同,因此本部分中所采集到的数据均是来自于中国知网CNKI,采用高级检索方式,标签选择“期刊”,检索主题为“主题”=“开放政府数据”,文献来源为“CSSCI”,时间跨度为2019年至2020年,共检索到相应文献196条,排除书评、图书推介、序等无关文献,最终得到有效论文193篇。
6.2 研究方法
对所选取的数据进行有效引文分析能够从大量的文献中研究开放政府数据的热点与发展趋势,并对其进行归纳分析与深层刨析,总结近几年来此领域的发展,对开放政府数据日后的研究方向预测具有重大意义。
本部分研究采用引文分析法与定性定量法相结合的方式,以Citespace的可视化分析图谱为根据,在JAVA的大环境下,将抽象数据转换为可以生动表明该领域发展热点重点的关键词共现图谱以及研究热点聚类图谱等。采用CitespaceV5.8.R1软件,时间切片中的# Years Per Slice设置为1年,年限为对应年限;节点类型根据研究方向不同而改变;Selection Criteria中的g-index选择k=25;连线强度(Links)选择Cosine;Pruning选择为Pathfinder + Pruning sliced networks + Pruning the merged network;Visualization选择为Cluster View-Static + Show Merged Network[3]。将CNKI中按要求检索出来的文献根据以上参数设置进行可视化处理,研究2019年至2020年两年内开放政府数据领域的共引关键词、共引作者等情况。
6.3 关键词共现分析
关键词图谱中节点的大小代表关键词出现频率的大小;节点的颜色代表着该关键词常出现的年份,节点颜色越深代表这一年与这一关键词相关的文献越多;节点之间连线的颜色代表着产生关联的年份,粗细代表两者的关联性情况,连线越粗,共现频率和关联性越大。图7中灰色代表2019年,黑色代表2020年。
在最终绘制而成的共词网络图谱中,如果文献中关键词共同出现的频次越高说明其关系越密切,同时也证明这一组关键词已经成为了学术界和研究领域内的重要话题。从图7所呈现的信息来看,政府数据、开放政府数据、政府数据开放、数据治理等都是与开放政府数据研究有关的重要关键词。若从量化的视角看文章之间关键词的紧密关系,则如表7所示,以政府数据开放、数据开放、政府数据三个关键词的频次最高。值得注意的是,关键词的频次与中心度并不完全一致,如政府数据的频次为34,中心度为0.59,却高于频次以数据45排在榜首,但中心度仅有0.3的“政府数据开放”一词,这一现象说明政府数据方向在短时期内成为了学术界研究的重点和热点。除此以外,由图7我们也可以清晰地发现,众多关键词不断涌现,研究人员对于开放政府数据以及相似领域研究的涉及面正在不断延伸扩宽。
图7 研究关键词共现图谱
表7 2019—2020年开放政府数据研究的主要高频关键词(排名前8)
6.4 作者共现分析
运用CitespaceV5.8.R1软件,选择“Author”,最终输出研究作者共现图谱。如图8所示,圆圈代表作者发文量,颜色深浅程度代表相应的发文年份,名字字体越大代表着该作者在此领域的研究成果越丰厚、越具有权威性,比如陈美、陈朝兵、翟军等。圆圈之间的连线代表着作者之间的合作关系,颜色的饱和度分别代表其合作的年份,例如以翟军为中心的作者集群为首,多位学者的研究均尝试以合作的方式进行,并不断向新的领域迈进,且翟军的研究在2019年和2020年均取得了一定的知识成果。若将数据库中数据的检索面扩展到2016—2020年这5年,再对其进行作者共现图呈现则如图9所示。通过两张图片的横向对比后可以发现,曾经在开放政府数据领域作出突出贡献的学者,如黄如花团队针对该方向的研究基本遍布在2016—2018年这三年内,并在近两年渐渐脱离此方向的研究,着手更广阔的领域。
图8 2019—2020年研究作者共现图谱
图9 2016—2020年研究作者共现图谱
6.5 机构共现分析
运用Citespace软件,选择“Country”,最终可输出研究机构图谱。当前该领域的主要研究机构以四川大学、华中师范大学、西南财经大学等高校为主,且各高校之间基本独立研究,基本没有机构间的连线合作,缺少机构间的相互配合。研究中发现,华中师范大学在开放政府数据领域的研究基本集中在2020年。上海大学等机构虽然研究的数量不如上文中提到的那些机构,但是也在2019和2020两年内对开放政府数据领域进行了一定数量与质量的研究探索,为丰富CSSCI数据库贡献了力量。从以上这些信息中我们可以得到这样的结论:近年来,以四川大学为首的高校研究机构致力于独立研究,机构间的相互配合合作较少。虽然有的机构在某些年份没有新的理论成品输出,但是从整体的角度来说,在该领域的发展过程中不断地有传统的机构离开也有新的机构加入,所以关于开放政府数据的研究效果成就依旧可观。
6.6 高被引文献分析
高被引文献反映的是文献被引用情况,能够作为这一研究领域的前沿状况高度概括当前领域内的研究热点,能够有效指引该领域的学术发展方向。被引用的文章是丰富该领域知识成果库的重要知识来源,文献被引用频次能够反映出该篇论文在领域内的重要程度,引用频次越高说明在此领域内受到的关注程度越高。如表8所示,在2019—2020年中国知网收录的CSSCI期刊中,被引量最大的一篇论文是由王伟玲和王晶共同著作的《我国数字经济发展的趋势与推动政策研究》,它以45的频次位列榜首,这就说明在开放政府数据的学科范围内,该篇文章所研究的方向是现阶段领域内的研究热点,在众多学者中受到了最广泛的关注并且研究内容观点得到了大部分领域学者们的肯定,能够有效启发研究者的思路,具有十分重要的借鉴参考意义,为开放政府数据领域的建设发展提供了最坚实的理论基础。
表8 前10篇高被引文献
7 文献老化规律
文献和其他有机生命体一样也会涉及到“老化”的问题,会随着时间的推迟而降低使用效果,面临着老旧现象,而文献过时就会大幅度降低其存在价值,影响整个领域的发展动态。1943年高斯纳尔首次提出了“文献老化”一词并于1944年专门针对高校图书馆的文献老化现象作出了具体的研究论述,这就是当今时代文献计量学六大规律之一的文献老化规律的产生期始。目前,备受认同的揭示文献老化程度与速度,定量分析文献过时规律的方式主要有以下两种:(1)文献半衰期指数。1958年,美国的专家贝尔纳就提出了半衰期指数的概念[15],这一计算方式是从某一领域整体的角度来衡量文献老化规律的,即在整个领域内的全部文献中,50%尚存在参考价值的文献的发表时间跨度。时间间隔越短,半衰期越短,就说明该领域文献更迭速度越快,可供参考引用的高价值文献越丰富,大量的论文得以流通,学科进步高速。(2)普莱斯指数。1971年普莱斯针对文献老化现象提出了一个衡量指标,即后人所称的“普莱斯指数”。这一指数的出现同样是为了衡量文献的老化程度与速度,但与半衰期指数相比它更具优势[15],普莱斯指数能够具体地针对某一时期甚至是某一本特定期刊的发展情况作出大致判断,判断该期刊的走向与新陈代谢速度。普莱斯指数可以被具体地表示为在某一知识领域内, 把年限不超过5年的文献的引文数量与引文总量相比较而得到的数值,即半衰期与普莱斯指数呈现反比的关系,半衰期越短,普莱斯指数越大,领域内知识成果更新越快,文献过时的速度越快。因此,不同学科之间的文献老化指数不可以横向比较,领域不同,文献的老化速度就不一致。
对文献老化规律进行统计分析有利于指导文献收藏利用[16],减少用户及图书馆员的检索工作负担,使学者们能够跟随最新的知识成果进行知识再创造,提升研究人员的研究效率,为各行业人才提供更好的服务。此外,对文献进行老化速度统计对文献的价值评价也起到了可靠的参考作用,间接反映出整个领域的科学发展规模与趋势,为更全面彻底地对领域发展现状进行了解提供有效支撑。
8 结论
不同于现有的国内开放数据研究进展与趋势分析成果[17],该篇文章针对中国知网数据库中开放政府数据领域符合要求的相关文献进行了文献计量统计,以期对该主题的文献计量学经典规律进行检验总结。利用Excel和Citespace软件分别从文献增长规律分析角度[18]、布拉德福定律角度、齐普夫定律角度、洛特卡定律角度以及引文共现分析和文献老化规律的角度对开放政府数据领域做出统计研究并得到了以下结论:
(1)现阶段,开放政府数据领域的发展正处于成熟阶段。2019年后发文量波动不大,趋于稳定,领域的发展正处于兴盛时期。
(2)经过数据统计、整理与汇总,开放政府数据领域的发展情况大致符合布拉德福定律1∶a∶a2的规律,有些许偏差但属于误差范围内,产生这种现象的原因可能是数据清洗有出入等主客观方面。
(3)开放政府数据领域的词频分布规律符合齐普夫定律,可以被表达为y=557.03x-1.06的形式。
(4)洛特卡定律详尽地解释说明了论文数量与论文作者之间的数量关系。在经过本文的研究后可以发现开放政府数据领域的发展状况与该定律之间相差不大。
(5)通过引文共现与文献老化规律从关键词等方面对该领域进行全面分析后可以得出:一是该领域的机构与作者之间缺乏合作、缺少配合,多产作者大多都分属不同院校,且研究着力点不太一致,所以作者与机构之间的相互沟通协调就困难重重。二者之间的互帮互助互补或许会是开放政府数据研究领域磨合产生新的探索之路的机会。其二,近年来情报学领域保持高速发展态势,研究范围不断拓广,正在形成独立强大的作者群。其三是该领域的文献更替老化速度与其他学科相比而言比较缓慢。这也与学科性质相关,理科的论文发表需要大量复杂而重复的实验推断,或许会降低其文章的发表速度。