国内开放政府数据研究的知识图谱与发展趋势探析
2021-01-26吕夏兰
黄 莺,吕夏兰
(西南民族大学计算机科学与工程学院,四川成都 610041)
在欧美国家开放政府数据浪潮的带动下、由政府信息公开制度嬗变而来的开放政府数据(Open Government Data,以下简称OGD)进入国内信息资源管理、公共管理领域的学者和专家们的研究视野.在过去的近十年里,围绕OGD的各个方面,大量研究成果涌现,有涉及OGD基础理论的、有深入探析其开放机制和平台技术的、有对国外经验总结后进行对比借鉴的.这些研究成果堆砌在一起,不加梳理和归纳,后续研究就容易出现重复和低效、甚至停滞的状况.所以,对一个研究领域的文献综述和计量分析是把握其研究发展脉络和趋势的必要手段,是推动其研究体系不断完善、研究内容不断丰富的有力工具.
2013年,徐慧娜、付熙雯、郑磊教授从公共管理视视角梳理国外OGD的主要研究内容、并对2006-2013年国内对OGD及相近主题的研究文献进行了系统梳理,这是国内最早对OGD的研究综述.此后,学者们从不同视角对国内外的OGD研究进行了不同数据样本、不同计量方法的梳理.比如,吕红对中国学术期刊网络出版总库中152篇OGD主题的研究文献进了计量分析.赵蓉英教授等以中文核心期刊和CSSCI数据库里的相关研究成果为样本,借助CiteSpaceV及VOSviewer等多种可视化工具梳理出了开放数据的6个研究主题,以及时间维度上的研究演化趋势.最新的研究成果中,陈朝兵和郝文强对国内外OGD的个人隐私保护研究进行了述评;王萍等对国内外的OGD平台研究进展加以述评.这些研究综述和述评主要是对已有成果进行了梳理和归纳,但对OGD研究的趋势发展分析不足.本文将利用文献题录信息统计工具SATI和Citespace软件在分析国内OGD研究发展脉络的基础上,通过可视化聚类和突变词分析对今后的研究趋势加以预判,这有助于研究们更好地定位自己的研究方向、提高研究效率;更有助于该领域研究内容的充实和深入.
1 数据来源及分析工具
1.1 数据来源
本文的分析对象是国内的OGD研究现状,故选择中文社会科学引文索引核心数据库(以下简称CSSCI)为样本数据来源.为了提高检全率,检索主题词为“开放政府数据”、“政府开放数据”、“开放政府”、“政府数据”,检索时间设置为1998年至2019年,检索日期是2020年3月10日到20日,共检索到结果535条.再对535条检索结果进行了剔除汇总、筛选比对,最终确定精确匹配的期刊论文326篇为后续分析的数据样本.
1.2 分析工具
可视化知识图谱的绘制能以最直观、多维的方式展示一个学科或主题方向研究发展的静态概貌和动态变化趋势,借助某种工具来绘制知识图谱以把握某主题研究动态可以帮助后来的研究者更有效地挖掘研究的潜在空间,避免重复研究.SATI即文献题录信息统计分析工具(Statistical Analysis Toolkit for Informetrics),是一种诞生较早、应用广泛的知识图谱工具,其优势在于能导入包括EndNote、NoteExpress、Web of science、CSSCI 4种格式的国内外文献题录数据,最新的4.0网络版还允许用户使用SATI专有格式自行生成题录.它能进行数据格式转换、字段信息的抽取、词条频次统计、构建知识单元共现矩阵,辅助生成聚类图、多维尺度图谱、网络知识图谱等可视化结果.Citespace软件是最近几年被学者们应用地最多的一种知识图谱工具,该软件以中心度作为关键指标来确定关键点作者、期刊、文献,探测出某学科领域研究的前沿、热点、趋势和动向等.相比传统考虑引文量的文献计量分析,Citespace可以发现被忽略的重要节点,比如研究方向的变化.所以,本文研究选择上述两种分析软件来绘制我国OGD研究的科学知识图谱,提取突变词,探究该领域的发展趋势.
2 国内OGD研究的外部性特征分析
文献的外部特征包括发表的年度、所属学科、作者及机构、被引频次等.笔者将从CSSCI中提取的326篇论文的ENDNOTE格式的题录载入SATI软件,设置矩阵大小为50,高频字段显示个数为50,对源数据进行文献去重、词干提取、默认停用词、应用分词、智能清洗等处理步骤,对国内OGD研究成果的外部性特征进行了分析和归纳.
2.1 发文量的年代分布
文献年代分布图在一定程度上可以反映出该领域的发展趋势及学者关注度的变化情况.如图1所示,国内OGD研究的成果从2011年的3篇上升到2017年99篇,7年间呈逐年上升趋势,其中,2015~2017年增长速率最大,为快速成长阶段,2012年以前为起步阶段,2012到2015为发展阶段.2015~2017增速最大的一个外因是国务院2015年发布的《促进大数据发展行动发展纲要》,该纲要的发布体现了国家层面对政府数据管理的重视,刺激了该领域学者们研究的积极性.2017年至数据获取截至日期,发文量开始明显下降,这表明国内的OGD研究经过了最炙热的时期、正步入一个相对稳定时期,即成熟阶段.总体上来说,该研究发文量的增长趋势变化符合文献增长规律,即某主题领域的文献增长是分阶段进行的,经过了一段急剧增长后,增长速度变缓,再趋于平稳.
图1 国内OGD研究的文献增长曲线Fig.1 The literature growth curve of the domestic OGD research
2.2 高产作者和机构分布
由表1可知,国内OGD研究机构是以武汉大学、大连海事大学、中国人民大学、四川大学、华南理工大学等高等院校为主,这些院校的高水平文献占据总体的50%以上,这表明国内OGD研究领域已经形成一批稳定有实力的研究机构.在这些研究机构中活跃着一批研究成果突出、研究方法先进的高产作者,如黄如花、陈美、翟军、周文泓等,这些学者分属不同院校(见表2).把两个表结合起来不难发现,高产作者黄如花、夏义堃、张晓娟、王春迎都来自武汉大学,武汉大学是我国OGD研究的领军机构.大连海事大学、中国人民大学、四川大学也都是推动国内OGD研究发展的重要力量.
表1 2011-2019年发文量前20位的核心机构Table 1 The top 20 organizations from 2011 to 2019
7 8 9北京大学 13 17 山东大学 7华中师范大学 11 18 江苏大学 6黑龙江大学 10 19 电子科技大学 6 10 中山大学 10 20 西南财经大学 6
表2 2011-2019年发文量前20位的高产作者Table 2 The top 20 authors from 2011 to 2019
2.3 高被引文献分布
表3是前20篇高被引文献,其中排在第一和第二位都是来自复旦大学的郑磊教授的成果,第三和第四位的是来自武汉大学的陈美博士生.郑磊教授的研究团队对国内的OGD具有非常重要的引领意义,其成果通过对OGD基础性概念、关键因素、关系的梳理,奠定了国内OGD研究的理论基础,对OGD平台框架的研究、价值创造机制的研究也被其他研究者频繁引用.陈美博士的成果则表明国内OGD研究非常看重对国外、尤其是英美两国OGD实践经验的借鉴和参考.此外表中还有其他高被引的文献是介绍美国、加拿大、法国等发达国家的经验借鉴的,这样的文献共计12篇.表中余下的文献则主要围绕国内OGD平台的建设、政策体系的构建来展开.
表3 前20位的高被引文献Table 3 The top 20 cited articles
?
3 国内OGD研究的知识图谱
3.1 高频关键词分析
利用SATI工具对前文的326篇文献进行词频分析,以挖掘该领域的研究重心,发现关键词总词频为1 400,独立关键词数621.由于很多关键词存在语义高度相关关系、包含关系、等同关系,笔者再对这些独立关键词进行分组、合并,比如将“政府信息公开”和“信息公开”合并为“政府信息公开”、将“数据管理”和“数据治理”合并为“数据治理”,最终得到表4中频数大于等于5的30个关键词,它们代表了OGD研究的热点和核心.
可以看出,OGD领域研究领域热点众多,通过对高频词频次及样本文献内容的综合分析,“政府数据开放”、“政府数据”、“开放政府”、“政府信息公开”、“数据开放平台”是OGD研究领域的基本标签.
表4 OGD的高频关键词词频列表Table 4 The high-frequency words as regards OGD
7 政府数据开放共享 21 17 数据门户 8 27 政府治理 5 8 数据开放平台 17 18 保障机制 7 28 数据服务 5 9电子政务 16 19 关联数据 7 29 法律法规 5 10 地方政府 15 20 数据质量 7 30 评估体系 5
3.2 OGD关键词的共词分析
3.2.1 数据处理方法
LNG在低温储罐中的储存压力一般为常压,温度为-162℃,如需将LNG从低温储罐中送出,必须对其进行增压。传统的气化站增压方式一般分为两种:一种为增压气化器结合气动式增压阀的方式;另外一种为增压气化器结合自力式增压调节阀的方式。这两种常用于中小型LNG气化站,但考虑到空间排布问题,小型撬装式LNG气化站的低温储罐增压方式使用最多的是通过低温增压泵来实现对储罐内的LNG增压。
共词分析的基本原理是对一组词两两统计它们在同一组文献中出现的次数,通过这种共现次数来测度他们之间的亲疏关系.本文采用Citespace工具通过关键词共词网络来展示OGD研究的主题分布状况,具体设定如下,Node Type为Keyword,TopN perslice设定为50,即指提取每个时间切片内频次出现排名前50位的关键词;TopN%设定为10%,即指提取每个时间切片中排名前10%的对象.由于未进行裁剪的关键词共词网络密度较大,因此笔者在生成关键词聚类图谱时采用寻径网络算法对聚类网络进行分割,以降低网络密度,提高网络图的可读性.
3.2.2共词分析
图2 国内OGD研究的关键词共现网络Fig.2 The keywords co-occurrence network of the domestic OGD research
图2是以文献关键词为节点生成的关键词共现网络,由图2可以看出OGD研究的主流脉络和研究重心,该网络以OGD为核心向多个方向延展开来.右上部分聚集的是“数据开放平台”的相关内容,研究主题主要包括“元数据标准”、“平台建设”、“个人隐私”等.右下部分以“开放政府”为核心,周围是“数据政策”、“协同治理”、“政府治理”等内容.左边部分的研究内容多为交叉研究,围绕“政府数据、“大数据”、“政府信息公开”、“电子政务”等主题,还涵盖“隐私保护”、“价值评价指标”、“国外经验借鉴”、“地方政府”等多个方面.再将图2和表4中的高频词进行对比分析,共词网络中的节点词基本覆盖了表4中的高频词,表明用SATI和CiteSpace两种工具得到的研究热点一致,国内OGD研究发展趋于稳定,已经形成了一个稳定的关键词群.
3.2.3 主题聚类分析
图3 国内OGD研究的关键词聚类图Fig.3 The keywordsclustergram of the domestic OGD research
笔者再以关键词作为节点进行聚类分析,得到一个包含13个聚类标签、聚类模块值Q=0.85、聚类结构有效的图谱.但13个标签中“政府数据开放”和“政府开放数据”是内涵相同的不同表达、“北京”和“地方政府”之间是包含关系,因此再对聚类结果根据聚类标签参数和标签语义进行调整,最终得到包含8个聚类标签的关键词聚类图,如图2所示.根据图3的可视化图谱聚类,并结合图2的关键词共现网络,可将OGD研究归为4个主题方向.
第一个主题方向以“数据开放平台”为核心,包括了3号、5号、6号和7号标签,与图2的左上部分一致,是OGD研究的主体部分,成果最丰富.包含了“元数据标准”、“评估”、“关联数据”、“数据质量”、“个人隐私”、“平台建设”、“数据利用”等多个关键词.
第二个主题方向是有关开放政府及其数据治理的相关研究,即2号、9号标签,并与图2的右下部分和部分左下的共现网络对应.这个研究方向关注的重点是开放环境下数据治理、协同治理、多元主体协作、数据服务等问题,是公共管理研究在大数据时代对数据治理相关问题深入推进;并与政府信息资源管理领域融合衍生而成的一个方向.
第三个主题方向是有关政府数据开放政策的研究,即0号标签,与图2左边的中下部分一致.这个方向凸显了OGD中政策体系的重要地位.
第四个主题方向是在大数据背景下展开OGD的研究,即1号标签,与图2左上部分对应.OGD的关键要素是数据,必然与大数据战略密切关联.大数据通常建立在开放数据的基础上,数据的开放共享是大数据竞争战略的基础和核心.因此云计算、Web2.0等大数据技术和方法的应用必然推动OGD的发展.
3.2.4 研究趋势分析
在关键词共现和聚类的基础上,可以通过突发性(Burstness)检测OGD研究的突变关键词.突变关键词是指在特定研究领域的某一阶段使用频次骤增的关键词,它有助于分析研究对象的研究热点和变化趋势.利用CiteSpace工具,笔者通过不断修改参数来探测突变词,最终探测到11个突变词,如图4所示.
图4 国内OGD研究的突变词统计图Fig.4 The top 11 burstness keywords of the domestic OGD research
根据图4可把国内OGD研究演变划分为3个阶段.首先是起步阶段的两、三年里,OGD与电子政务、政府信息公开、关联数据、数据服务、云计算技术密切联系在一起的,表明OGD的研究正逐渐从其诞生土壤中成长起来.第二阶段2014到2017年期间,国内的研究焦点转移到国际比较、国外经验的借鉴,同时“公众参与”体现了国内OGD对开放政府研究主题的一种呼应,成为OGD和开放政府两个研究领域的交叉地带.第三是2018年至今,“数据利用”和“政策体系”两个突变词与图3的0号标签高度吻合,体现OGD研究的发展趋势,即强调对开放数据的开发和利用、政策体系对开放数据利用的重要意义.
4 结论
4.1 国内OGD研究的数量弱化问题
从论文数量时间分布可知,国内OGD研究论文数量,从2017年起呈下降趋势,开始出现研究弱化的迹象.究其原因,可以归纳为两点.
一是从表1和表2可知,国内OGD研究的核心作者和机构分布较为集中,同时机构间的协作有限.笔者使用Citespace进行作者合作网络分析时发现,在高产作者中,形成了三个较为显著的合作网络,一是由黄如花、周志峰、王春迎、李白杨、周力虹等为成员组成的合作网络,他们调查了国内外OGD门户功能、分析了不同国家的政策体系、构建OGD价值体系.二是由翟军、袁长峰、林岩、于梦月等研究者组成的合作网络,主要探析了国外发达国家OGD的元数据标准及信息基础设施建设.三是以郑磊教授为核心,陆建英、徐慧娜、付熙雯等作者构成的合作网络,成果覆盖OGD基础理论、国外经验的借鉴、地方政府的OGD评估.这三个合作者网络均是机构内的合作.再以机构作为节点运行Citespace,也没有得到机构间的合作网络.这均说明目前对于国内OGD研究,各机构之间仍处于独立状态,跨机构的合作还未形成;同时,三个合作网络的研究成果发表年份均较早,成果数量也不多,说明网络中的学者们合作次数有限,新的合作网络尚未形成.这些都在一定程度上阻碍了该研究领域的繁荣发展.
第二,表3高被引文献列表中大量关于国外介绍的成果、图3中由3号、5号、6号和7号标签构成的数据开放平台的研究主体都表明国内OGD研究热点相对集中的问题.这种过于集中的研究主题必然导致后续的研究者很难有大的突破和创新.
4.2 OGD研究的学科交叉与应用不足,促进研究的深入和主题的衍生
再从学科角度看,由表3高被引文献的来源期刊和高产作者机构即知,OGD国内的研究者主要集中在图书情报学、公共管理学,及其个别来自法学、计算机科学.所以当前国内OGD研究的学科范围较小,学科之间缺少交融,研究的方法也就局限,研究主题难以通过学科融合得到衍生.因此就必须通过学科交叉、多学科方法的融合应用来促进OGD研究的主题衍生.
再参考一下国外OGD的研究,其研究已经融合了多学科、多领域的方法,包括探索OGD的反腐价值、改善公共食品安全和社会治安的能力、企业通过OGD实现价值协同创造的案例;利用解释结构模型、模糊层次分析法等来研究OGD的障碍、影响因素等;构建模型来分析利用OGD的不同用户特征.
由此可见,国内OGD研究的发展必须向多学科交叉、多方法融合应用、机构间和机构内合作网络的搭建这些方向发展,通过增强OGD领域与不同学科之间的交互性来促进主题衍生,最终形成更为完整的研究内容体系和方法体系.