APP下载

计量视角下的我国政府数据开放研究动向与热点挖掘

2017-12-15吕红

现代情报 2017年9期

吕红

[摘要]伴随着国家大数据战略实施的推进,政府数据开放相关问题的研究正处于快速发展阶段。本文以CAJD收录的政府数据开放研究论文为研究对象对其研究动向与热点主题进行了分析。首先,从期刊、研究者、研究机构、高被引文献4个层面分别对国内政府数据开放研究的重要期刊、高影響力作者、高产研究机构进行分析。其次,基于共词聚类分析结果显示,目前该领域的五大研究主题分剐是政府数据开放的基础理论研究、面向电子治理的政府数据开放研完、政府数据开放政策研完、政府数据开放共享的保障机制研究、政府数据开放门户平台及其隐私保护研究。最后,指明了当前政府数据开放领域的两大研究热点。

[关键词]政府数据;数据开放;开放政府数据;主题挖掘;信息计量

国家大数据战略的实施需要政府数据开放作为重要支撑,同时政府数据开放也是推进大数据战略的重要切入点。伴随着国家大数据战略实施的推进,如何满足公众对蕴含着巨大经济和社会价值的政府开放数据的需求,已成为政府部门亟须面对的重大挑战。目前政府数据开放问题已经成为大数据时代下政府部门、社会公众与学术界所共同关注的重要话题。为更好地推动国内政府数据开放相关领域的研究工作,本文利用信息计量学方法对国内政府数据开放研究动向及其热点主题内容进行挖掘。

1数据来源说明

考虑到本文是要基于国内政府数据开放研究的期刊学术论文进行分析,数据来源选择CNKI的中国学术期刊网络出版总库(China Academic Journa]Network Publishing Database,简称为CAJD)。为提高论文数据的主题针对性,笔者基于论文题目检索字段在CAJD中进行检索,专业检索表达式为:(TI=政府数据开放。OR TI=政府开放数据OR TI=开放政府数据);TI为论文题目检索字段。不限定论文的发表时间范围,检索时间为2017年4月2日。检索结果为168篇文献,为提高数据分析的可靠性,通过数据清洗进一步删除了12篇学术性不强的新闻报道类、简讯类文献,并进一步删除了由于CNKI优先出版机制、期刊进行论文转载导致的4篇相同篇名的文献,最后得到152篇文献作为数据分析集合。

按年度对数据分析集合进行处理,得到国内政府数据开放研究论文数量及其累计量的年度分布表,详见表1。表1显示基于CAJD数据库来看,国内政府数据开放研究领域始于2010年,2010-2012连续3年的年发文量均为1篇,但从2013年开始,政府数据开放研究的论文量逐年快速增加,从2013年的9篇增加到2014年16篇,2015年的34篇,2016年的75篇,大致表现出逐年翻倍的增加态势。由于本文数据检索时间的原因导致2017年的论文数量更新不全。论文量年度分布显示出政府数据开放作为国内新的研究内容主题在前三年(2010-2012)并未受到研究者的大量关注,国内政府数据开放研究受到学者的高度关注是2013年,且越来越多的研究者对政府数据开放问题展开研究,年度文献量逐年大幅增加。同时,进一步根据表1分别进行论文量及其年度累计量的趋势线模拟分析(由于2017年论文量数据不全,故这里的趋势线模拟不选择2017年的数据),发现国内政府数据开放研究领域论文量及其年度累计量呈现出明显的指数分布,论文量趋势线公式为:v=0.2409e,R2=0.9203;论文年度累计量趋势线公式为:y=0.3572e,R2=0.9884。从拟合值R2可知,这两条趋势线模拟效果和精度具有高的可靠性,趋势线模拟分析结果表明国内政府数据开放研究年度论文及其累计量均呈现出明显的指数型增长态势。可见,从期刊论文数量及其变化趋势上看,目前国内政府数据开放研究主题已成为电子政务与政府信息资源管理领域的热门研究内容之一,且该领域已进入快速发展阶段,笔者相信伴随着国家大数据发展战略的推进和深化,国内对政府数据开放主题的研究热度还会进一步升温,研究内容、研究层次、研究视角等方面也将会得到进一步的深化和拓展。

2来源期刊分布分析

对学科或研究领域来源期刊分布情况进行分析能在一定程度上揭示学科或研究领域的重要期刊情报源。数据分析显示,152篇文献刊载于76本学术期刊上,刊均载文量偏低。超过刊均载文量(>2)的期刊仅12本(约占总期刊数量的15.79%),而占总期刊数量84.21%的64本期刊的刊载论文量≤2篇,其中占总期刊数约7.89%的6本期刊刊载2篇论文,占总期刊数约76.32%的58本期刊仅刊载1篇论文。可见,目前国内政府数据开放研究论文分布较为分散,载文量≥2的期刊共18本如表2所示。

表2中超过50%的期刊属于图书情报学科领域,说明目前政府数据开放研究的重要来源期刊大多属于图书情报学领域,且根据北京大学《中文核心期刊要目总览》(2014年版)可知,表2中超过70%的期刊属于北大最新版的中文核心期刊,这在一定程度上表明当前关于政府数据开放研究的论文质量较高。进一步分析发现,目前政府数据开放研究论文的期刊分布大致上可分成载文量大致相等的3个区,分别是载文量最多的前四种期刊所组成的核心期刊区(期刊载文量≥10),该核心区共载文51篇(约占总论文数量的33.55%)、中间14种期刊所组成的相关期刊区(2≤期刊载文量<10),该相关区共载文43篇(约占总论文数量的28.29%)、末尾58种期刊所组成的非相关期刊区(1≤期刊载文量<2),该非相关区共载文58篇(约占总论文数量的38.16%)。3个区的期刊数量之比(4:14:58)较为接近于1:3.5:3.52,其结果基本服从传统的布拉德福定律,可见,目前国内政府数据开放的研究论文在期刊中的分布是不均匀的,且呈现出较为明显的集中与分散现象。其中,《电子政务》、《图书情报工作》、《情报杂志》、《情报理论与实践》四种期刊是目前国内政府数据开放研究的来源核心期刊,这同时也进一步表征出图书情报学学科研究人员是目前国内政府数据开放研究的重要学科研究群体。政府数据开放作为一个跨学科的研究领域,亟待相关学科的参与以提高该研究领域的综合性和深度嘲。因此,来自公共管理、法律、政治、计算机科学等相关学科对政府数据开放相关的重视和参与显得十分重要。endprint

3研究作者及机构分布分析

在论文量统计不区分研究者署名顺序的情况下,152篇论文共涉及202位研究作者,论文数量≥3篇的研究者共有12位,其中按研究者论文量排名前四位依次是郑磊、马海群、黄如花、夏义垄,且167位研究者(占总研究者的82.67%)仅发表过1篇论文。从论文量仅统计第一作者的发文情况来看,152篇论文共涉及119位研究作者,论文数量≥3篇的研究者共有8位,其中论文量排名最高的是郑磊和黄如花2位研究者,且100位研究者(占总研究者的84.03%)仅发表过1篇论文。研究者论文量统计显示,目前国内政府数据开放领域高产研究者(论文量≥3篇)数量偏少,该研究领域的高产量作者包括郑磊、黄如花、夏义垄、赵润娣、迪莉娅、马海群、岳丽欣、曹雨佳8位研究者。从这些高产作者的研究成果内容来看,其主要围绕政府数据开放的价值创造机理与生态系统构建、国内外政府数据开放政策法规与应用平台建设、政府数据开放网站服务质量与效率评估等问题展开研究。

在不区分研究单位署名顺序的情况下,通过对同一单位下属不同二级机构发文数据进行合并发现,152篇论文共涉及107所一级研究单位,占所有研究单位总数约72.90%的78所一级研究单位仅发表了1篇论文,占所有研究单位总数约12.15%的13所一级研究单位仅发表了2篇论文,论文量≥3篇的一级研究单位共有16所,见表4。可见,政府数据开放研究领域正吸引着大批的研究单位参与研究,且正在逐渐形成该领域的核心研究单位。表4显示,发文量>10篇的研究单位仅3所,分别是武汉大学、黑龙江大学和复旦大学。从发文量来看,武汉大学(主要涉及该校的信息管理学院和信息资源研究中心)、黑龙江大学(主要涉及该校的信息管理学院和黑龙江大学信息资源管理研究中心)、复旦大学(主要涉及该校的国际关系与公共事务学院)是目前国内政府数据开放研究领域的重要核心研究机构,其对该领域的发展和促进具有重要的推动作用。

4高被引论文分析

高被引用论文具有较高的学术参考价值与引领作用,通常会在某研究领域内得到研究者的有效利用。表5是基于CAJD检索结果的被引用频次大于或等于15次的高被引用论文列表。表5显示,9篇论文(占高被引用论文总数的52.94%)都是关于对国外政府数据开放方面的研究,且以美国政府数据开放应用实践分析为主。可见,目前国内对政府数据开放方面的研究十分注重对国外政府数据开放应用实践经验的参考与借鉴,如表5中序号1、序号2、序号7、序号10、序号11、序号13、序号15对应的研究文献。同时,从高被引用论文的主题内容来看,目前国内政府数据开放研究主要關注政府数据开放的门户平台(表5中序号3、序号4、、序号16、序号17)与机制建设(序号5、序号6)方面的研究内容。此外,从高被引用论文的作者分布来看,目前国内政府数据开放研究领域发文量最高的研究者郑磊共有4篇高被引用论文;从高被引用论文的期刊分布来看,目前国内政府数据开放研究领域载文量最多的期刊电子政务共有7篇高被引用论文。可见,从发文和被引两个层面来看,复旦大学国际关系与公共事务学院的郑磊是目前国内政府数据开放研究领域的权威研究者,电子政务是目前该研究领域的权威期刊。

5研究主题及热点分析

对政府数据开放研究领域进行相应的主题识别分析有利于对该领域研究内容框架的设计与创新。目前,基于论文高频关键词的共现聚类分析是从内容研究视角进行研究领域主题识别分析的方法之一。基于CAJD的数据统计发现,国内政府数据开放研究领域论文共涉及398个关键词,篇均关键词2.6(约等于3),且目前该领域的低频关键词较多,表现为约占总关键词数量81.2%的323个关键词仅出现过l词,约占总关键词数量9.8%的39个关键词频次为2,约占总关键词数量23%的9个关键词频次为3,约93.2%的关键词词频≤3。为便于后期研究主题的聚类挖掘分析,本文仅对超过了篇均关键词整数值(约等于3)的27个关键词进行分析,即将词频>3的关键词界定为该领域高频关键词。通过自编VBA程序对高频关键词两两之间在同一篇论文中共现的情况进行数据统计处理,并生成27×27的高频关键词原始共现矩阵,表6是矩阵的部分数据。

表6中同一个高频关键词所处主对角线上单元格对应的是其相应的词频,而不同高频关键词的交叉线上单元格对应着两两关键词在论文中共现的频次。根据共关键词分析方法的基本原理与分析过程,并在一定程度上消除高频关键词自身频次的差异对后期聚类分析结果的干扰,利用Equivalence Index系数将高频关键词原始共现矩阵转换为其对应的相似矩阵。利用IBM SPSS Statistics 19对转换后的高频关键词相似矩阵进行聚类分析,在SPSS中采用系统聚类法进行聚类分析处理,组间连接作为聚类处理方法,计数(卡方度量)作为数据度量标准。图1是经过SPSS系统聚类分析处理后的使用平均连接(组间)的树状图。

从图1可知,基于CAJD的我国政府数据开放研究领域高频关键词聚类分析结果可大致识别出目前该领域的五大研究主题,分别对应着A~E五大类团,分别是:

A类团:政府数据开放的基础理论研究。该类团主要涉及的关键词有政府数据、数据开放、电子政务、信息公开、开放数据、开放政府、大数据,目前的研究主要针对政府数据开放的内涵、相关概念辨析、价值作用、背景特点、进展现状与问题策略等若干理论问题的分析,特别是针对大数据环境下政府数据开放与政府信息公开、电子政务、开放政府之间相互关系的研究。大数据环境下的实现政府信息公开走向政府数据开放是不可阻止的信息化发展过程。政府信息公开对应公众知情权,政府数据开放对应公众的参与权,而对政府数据开放而言,知情权只是前置步骤,两者存在衔接与递进的关系。政府数据开放是公民知情权在大数据时代的扩展和延伸,监督权和行政参与权的充分行使客观上也对政府数据开放提出了时代要求。政府信息公开与政府数据开放两者是在不同信息化发展背景下紧密关联的两个阶段,前者为后者提供现实基础和应用前提,而后者又作为前者的深化发展与全面提升。政府信息公开与政府数据开放两者不存在相互之间的替代关系,二者是在不同背景下为实现各自特有目的而提出的相互关联的不同阶段。电子政务离不开政府信息公开,开放政府离不开政府数据开放,为推动电子政务的深化发展,以及开放政府的实现,这两者都应伴随大数据环境下由政府信息公开迈向政府数据开放而进行必要的变革,以适应信息资源与数据资源增殖化的发展需要。endprint

B类团:面向电子治理的政府数据开放研究。该类团主要有政府数据开放、公共服务、电子治理三个关键词。电子治理作为电子政务发展的新理念、新模式与新趋势,其强调运用信息与通信技术来更好地优化政府管理与支撑公共服务领域电子化,而政府数据开放有利于促进政府与公民的互动性,其对于电子治理目标的实现具有重要作用。政府数据开放是电子治理基础建设的重要环节之一,同时政府对社会公众开放公共数据资源是电子治理的重要议题,完善数据开放有利于提升政府服务质量。从目前的研究内容来看,该类团还仅处于政府数据开放在电子治理中的价值创造机理与作用研究,而针对电子治理视角下的政府数据开放保障体系与机制研究还较为缺乏。

c类团:政府数据开放政策研究。该类团目前主要针对美国、法国、英国、澳大利亚、新西兰等国家的政府数据开放政策及其特点进行分析探讨并提出我国实施政府数据开放的政策化建议。国外发达国家政府信息公开方面起步较早,特别是美国等发达国家在政府信息公开领域经过多年的实践完善为政府数据开放积累了丰富的经验并奠定了重要的基础,这对我国政府数据开放政策法规与模式机制建设具有一定的参考价值。政府数据开放工作的顺利开展离不开相关政策法规层面的保障。完善的政府数据开放政策体系有助于政府数据共享,其中政策要素包括执行方案、权责声明与服务政策。从美国地方政府数据开放政策调研结果来看,在国家层面的宏观政策中对政府数据开放政策法规进行制定完善对于开展政府数据开放工作十分重要。同样,从法国政府数据开放共享政策分析结果来看,国家政府数据开放共享政策的推行能统筹政府数据开放共享进程。从英国政府开放数据政策分析来看,其主要涉及开放数据政策的实施目的与意义、政策制定参与者、条款内容等方面。澳大利亚政府数据开放政策具有领先性、继承性和具体性三大特征,从政策内容来看,其主要包括政府數据的原因和目的、开放数据主体、开放数据的原则和人才培养等方面内容。新西兰政府数据开放政策法规的特点主要包括:政策内容详细完备、政策间关联程度高、重视用户参与、注重修订完善、强调数据保护的重要性。

D类团:政府数据开放共享的保障机制研究。一方面该研究类团主要针对政府数据开放保障机制的建设问题进行探讨,其主要包括关联数据、智慧城市、元数据、英国、政府开放数据、信息资源、政府信息、政府、保障机制等关键词。完备的政府数据开放保障机制有利于对政府数据的开放程度与质量水平进行保障。政府数据开放保障机制包括提供政策和法律保障、构建全国统一的政府数据开放平台、建立完善的执行与合作机制、设立监督机制四个方面。政府数据开放中有关数据集的描述方法、语言、分级、扩展与使用框架等方面缺乏标准规范将影响政府数据集的信息组织与质量保障,进而不利于政府开放数据集的信息增值与创新利用。制定统一的数据开放标准和格式是完善政府数据开放共享机制的策略之一。政府数据开放保障机制的建设既需要加强法律法规建设,又需要积极探索制定与数据资源开放相配套的标准规范。政府数据开放共享的元数据标准及其管理、关联数据技术是政府数据开放的核心技术内容,其是政府数据开放共享保障机制的组成内容。标准规范对实现政府数据开放的重要促进作用,制定统一的元数据标准是建设政府数据开放平台的基础。此外,发现与建立开放数据集的关联有利于数据资源的创新开发利用,因而需要构建关联开放政府数据。而从关联开放政府数据技术框架与实现方法来看,制定规范统一的政府开放数据描述框架是数据描述与发布的主要任务之一。可见,在政府数据开放过程中需要完善的相关数据开放标准规范体系来保障政府数据开放的规范性,政府数据开放共享相关标准规范的建设是政府数据开放共享保障机制的重要推动力和组成内容。

E类团:政府数据开放门户平台及其隐私保护研究。该类团主要包括门户网、开放门户、顶层设计、隐私保护四个关键词。打造国家政府数据统一开放平台,需加强顶层设计和统筹规划,明确各部门的数据管理及共享义务与权力,明确数据共享的范围边界与使用方式,重视数据的信息安全、存储与隐私问题。在数据开放与共享高效便捷的同时,用户隐私与数据保护不可避免地成为政府数据开放实践过程中多方利益主体所关心的问题。政府数据开放门户平台针对用户隐私保护与数据安全进行规定,能在网络平台数据的采集、加工处理、创新管理与利用提供政策制度保障。从美国政府数据开放网络平台Data.gov的数据管理策略来看,该平台十分注重对数据隐私与安全层面的保护。从美、英等8个国家政府数据开放门户网站隐私政策的内容分析结果来看,数据收集和使用、隐私政策与实践告知、选择权和知情许可是目前网站隐私政策最常提到的三项内容类别。从国外政府数据开放门户建设与实践运行经验来看,为保障政府数据开放门户平台的可持续发展,在平台数据管理策略顶层设计时,需重视有关隐私保护与数据安全层面的问题。

基于学科领域的研究主题聚类挖掘结果进一步对其展示出的研究热点分布情况进行分析有利于识别出该领域的研究热点及其发展趋势。科学知识图谱绘制软件工具VOSViewer在聚类图谱可视化显现效果方面表现出一定的优势,笔者借助VOSViewer(Version 1.6.3)绘制政府数据开放研究热点知识图谱。将国内政府数据开放研究领域前27项高频关键词的原始共现矩阵转换为VOSViewer可处理的数据格式。利用VOSViewer提供的关联强度计算方法进行规范化处理,并选择密度视图显示结果。图2是基于高频关键词的国内政府数据开放研究热点密度视图。

图2中高频关键词的字体越大,其对应的权重值越高,越深红的颜色区域反映出较高的研究密度,该区域也包含相对更多的具有高权重数值的高频关键词,并对应着研究领域的研究热点主题。对比分析图2的研究密度视图结果与图1的领域研究主题聚类结果,可知目前国内政府数据开放研究表现出两大研究热点:分别是图1中A类团——政府数据开放的基础理论研究(主要针对大数据环境下政府数据开放与政府信息公开、电子政务、开放政府之间相互关系的研究)、图1中的B类团——面向电子治理的政府数据开放研究。

6结语

以CAJD收录的政府数据开放研究论文为分析对象,对国内政府数据开放的研究动向与热点进行挖掘分析。得出如下结论:①国内政府数据开放研究领域始于2010年前后,2013年开始受到国内学者的高度关注,目前该领域已进入快速发展阶段,期刊论文数量增长态势明显。②目前该领域的研究论文在期刊中的分布是不均匀的,且呈现出较为明显的集中与分散现象。电子政务、图书情报工作、情报杂志、情报理论与实践等是目前国内该领域的来源核心期刊。③目前该领域的高产作者主要有郑磊、黄如花、夏义垄、赵润娣、迪莉娅、马海群、岳丽欣、曹雨佳等学者,且这些高产作者主要围绕政府数据开放的价值创造机理与生态系统构建、国内外政府数据开放政策法规与应用平台建设、政府数据开放网站服务质量与效率评估等问题展开研究。武汉大学、黑龙江大学、复旦大学是目前该领域的重要核心研究机构。④从高被引论文分析结果来看,郑磊是目前国内政府数据开放研究领域的权威研究者,电子政务是目前该研究领域的权威期刊。⑤基于高频关键词的共词聚类分析发现,目前该领域的五大研究主题分别是政府数据开放的基础理论研究、面向电子治理的政府数据开放研究、政府数据开放政策研究、政府数据开放共享的保障机制研究、政府数据开放门户平台及其隐私保护研究。此外,政府数据开放的基础理论研究,特别是针对大数据环境下政府数据开放与政府信息公开、电子政务、开放政府之间相互关系的研究,以及面向电子治理的政府数据开放研究是目前国内政府数据开放的研究热点。endprint