我国数据开放研究现状、热点及态势
2022-05-09赵需要姬祥飞樊振佳刘军峰
赵需要 姬祥飞 樊振佳 刘军峰
随着大数据、云计算、区块链等数据处理技术的不断发展,数据俨然已成为重要的生产要素和原料基石,从企业到政府部门,越来越多的实体开始探寻数据背后所蕴含的巨大价值。其中,政府各部门所收集到的数据是其掌握的核心资产和治国理政的重要依据。[1]整合政府数据资源和加大政府数据开放已成为世界各国政府数据管理的基本共识。[2]数据开放已成为政府治理水平现代化的重要推动力量,截至2020年底,我国省级、副省级和地市级政府数据开放平台已有142个,工作重点由2018年以前的建设与利用兼顾转变为在建设的基础上强调政府开放数据的利用。[3]自2009年数据开放运动以来,世界各地对政府数据开放研究的关注日益增多,该方面的学术研究成果也呈现增多的态势,我国学界和业界也开始探究政府数据开放的价值、模式、利用等。为了鸟瞰我国数据开放研究的热点、主题及趋势,本文使用CiteSpace5.7软件对CNKI平台刊载有关数据开放的文献进行梳理和可视化分析,并对未来研究态势予以探析,希冀能够为数据开放的后续研究提供视角与借鉴。
一、研究工具及数据来源
(一)研究工具
本研究采用CiteSpace5.7作为研究工具。CiteSpace5.7由美国德雷赛尔大学的陈超美教授研发并供学者免费下载使用,[4]该软件基于程序语言JAVA编写,应用于分析某一研究领域的研究热点及趋势。CiteSpace5.7利用信息可视化方法、文献计量学法和数据挖掘算法集成的基本原理,绘制可视化图谱、建立节点之间的关联来分析研究对象之间的共现关系与共引关系等。[5]
(二)数据来源
本文数据来源选自中国学术期刊网络出版总库(CNKI)文献全文数据。在 CNKI的高级检索中以“篇名检索”为检索入口,检索词为“政府数据开放”或含“政府开放数据”,时间跨度为2009年至2021年,去除会议报道、广告等与研究不相关文献,共获得有效文献 521篇(2021年5月7日检索)。将目标文献按 CiteSpace5.7所需参考文献格式导出并转码,得到本文研究的样本数据。
二、 研究现状
(一)文献增长分析
图1为2009年至今我国政府数据开放有关的研究性文献在CNKI发文量随年代变化的情况。由图可得,在 2009—2013年发文量较少,均在10篇以下;自2014年发文量逐渐增多,2017年发文量达到顶峰,为107篇,中国知网给出预测2021年度发文量将回升至107篇。在521篇文献中,包括核心(北大核心、CSSCI等)期刊265篇,占文章总数的50.86%,反映出政府数据开放研究整体质量较高。
图1 发文量随年代变化图
(二)期刊区域划分
文献在期刊上的分布遵循布拉德福定律,它是定量描述科学论文在相关期刊中,集中与离散状况的一个规律。[6]经计算,此次统计的521篇文献分布在180种期刊中,绘制布拉德福期刊分区表(见表1)。分析表明,核心区、离散区和相关区三个区域的论文数量大体相当。核心区的论文来自期刊数量不多但平均载文密度最高的6种期刊。相关区包括期刊数量较少,平均载文密度一般的28种期刊,而离散区包括期刊数量最多而平均载文密度很低的146种期刊。三者的期刊数量之比为6∶28∶146≈1∶5∶25=1∶a∶a2。本例布拉德福系数:a =5。即: 6∶28∶146≈1∶5∶52。显然上述表达式与布拉德福定律相吻合,说明本研究领域的期刊分布规律符合布拉德福定律。
表1 布拉德福期刊分区表
表1与表2列出了论文数量占总文献1/3的核心区载文期刊,6种核心期刊只占期刊总数的3.33%,载文174篇,占总文献的33.40%。所以,可以认定列在核心区的6种期刊,即为本研究领域的核心期刊。
表2 各区载文期刊分布
为进一步直观描述期刊的集中与离散现象,根据上表的相关数据,以lgC为横坐标,以每种期刊载文量的累计和R(n)为纵坐标,拟合布拉德福曲线。由图2可见,首先曲线前半段是一条上升的指数曲线,它对应为核心区;坐标为(0.7782,174)的点为核心区的拐点,拐点之后是一段线性上升的直线,分别为相关区、离散区。充分说明本研究领域的期刊分布规律存在着较为明显的集中与离散现象。
图2 布拉德福曲线
应用布拉德福定律,建立了期刊区域划分模型和布拉德福曲线,数据拟合较为理想。无论是布拉德福期刊分区表,还是布拉德福曲线图,均验证了期刊的集中与离散现象。其次,布拉德福系数a是反映任一学科期刊分布情况的重要参数,a的值越大,核心效应越强,反之越弱,本领域内a≈5,a值相对较大,可以说其核心效应是显著的。
(二)核心作者群
运行CiteSpace5.7,设置时间跨度为2009-2021年,时间切片为1year,节点类型为“author”,参数为默认设置,得到节点数N=248,连线数E=119,密度为Density=0.0039的作者共现网络知识图谱(见图3)。
从图3中可以看出节点数最大的学者为黄如花,陈朝兵、周文泓、郑磊、陈美、马海群、赵需要、段尧清等人位列其后。由于各个学者相互交流与合作,在图谱中形成了几个作者子网络结构,较为显著的是以黄如花为中心的一个网络结构、以陈朝兵为中心的网络结构。其中,以武汉大学黄如花为中心的学者群体研究成果较多,团队内其他成员包括刘龙、周志峰等。此团队主要采取国内外政府数据开放现状进行对比分析的研究方法,将目光聚焦于政府数据开放的政策制定、价值体系构建和个人隐私问题保护等方面。[7][8][9]以西南财经大学陈朝兵为中心的学者群体内其他成员包括郝文强等。他们主要应用理论模式(力场模型、轮流出价博弈模型等),聚焦于我国政府数据开放的路径选择及其优化等方面。[10][11][12]
图3 作者共现网络知识图谱
此外,图中显示几位高产作者合作较少,主要表现为学者黄如花、刘龙、周志峰之间存在学术交流与联系,但与其他发文量较大的学者(如陈朝兵、周文泓等人)合作较少;单独节点的学者较多,如陈美、郑磊等人,以上表明我国学者在数据开放的研究上沟通合作意识不足,学者之间并未形成紧密的学术团队,学者们的学术交流与合作亟待加强。
(三)发文机构分析
运用CiteSpace5.7对文献发文机构进行可视化呈现和分析,汇总得到数据开放研究核心机构排名(见表3),挑选出国内发文量五篇以上的机构,可以看到国内机构主要分布在信息管理综合实力较强的几家高校的管理学院及其研究机构。武汉大学信息资源研究中心和信息管理学院以发文22篇位列发文机构第一名,四川大学公共管理学院以18篇的发文量紧随其后。研究机构之间也并未形成较为紧密的合作,从地域上来看较为分散。
表3 数据开放研究核心机构
三、研究热点
研究热点反映了某一研究领域的研究重点及方向,对于深入了解与分析这一领域的研究内容具有十分重要的意义。关键词作为一篇文献中内容的核心凝练,某一领域关键词出现频率较高就反映了这一领域的研究热点。[13]关键词聚类分析是以关键词共现分析为基础,将关键词共现网络关系通过聚类统计学的方法简化成数目相对较少聚类的过程。[14]本文通过关键词聚类分析的方法对数据开放的研究热点进行分析,以探求我国数据开放的研究热点主题。运行CiteSpace5.7,设置节点类型为Keywords,其它参数设置与作者参数相同,在关键词知识网络图谱的基础上,选取LLR算法,得到如图4所示关键词聚类网络图谱,反映了我国数据开放领域的研究重点和热点。
图4 关键词聚类网络图谱
在关键词聚类知识图谱基础上,在“ClusterExplorer”中得到对数似然率(聚类标签词提取算法之一),得到关键词共现网络聚类表(见表4)。
表4 关键词共现网络聚类表
对各聚类中的关键词进行分析发现,各聚类研究内容存在相互交叉现象,因此可将我国数据开放研究归纳为以下七个主题领域:
(一) 数据开放政策与法规的研究
政府数据开放政策与法规领域包含“政策研究”“政策体系”“法律法规”等关键词。数据开放是国家和政府进行民主化建设的有效方式之一,能够最大程度实现全社会数据资源的有效配置和充分再利用。[15]陈朝兵等人选取美、英、澳、新四国为研究对象并运用文献分析法,提出了适用于我国政府数据开放监管的四条路径。[16]黄如花等人以我国各部委政府数据资源管理政策文本为研究对象,采用质性研究方法,提出了基于生命周期的政府数据资源管理政策体系。[17]目前,我国学者对数据开放的研究多是对国外发达国家的政府数据开放制度法规的对比研究,相对来说其他视角下的政府数据开放政策法规研究还较为缺乏。其次,另有部分学者也开始聚焦国内现有的数据开放政策并对其进行分析探究,来提出对策建议。从国外到国内,对于数据开放相关制度法规的多方位研究,使我国政府未来相关政策的制定更加科学和本土化。政府数据开放政策制度的完善与改进对数据开放的可持续发展具有重要意义,并将进一步推动政府数据开放工作的发展。
(二)个人隐私保护的研究
个人隐私保护领域包含“信息安全”“隐私保护”“个人隐私”等关键词。在数据开放工作进程中,信息安全是不可忽视的一环,安全性的高低将直接影响到数据开放的价值及可利用性。杜荷花从隐私政策角度构建了我国政府数据开放用户隐私保护评价指标体系,发现政府数据开放平台的隐私保护整体较差,用户隐私安全还面临着严峻的挑战。[18]侯晓丽等人从政府角度出发,通过对当前较为典型的政府数据开放平台进行调研,重点探讨了数据开放过程中还存在的国家秘密泄露风险点。[19]众多学者从不同角度出发,探究数据开放过程中的隐私保护和信息安全等问题,以期为数据开放营造更加良好的环境与氛围,为未来更多地方政府的数据开放提供前提条件。因而,如何保障“数据开放”中信息的安全性成为数据开放研究的热点主题。
(三)生态学视角的研究
生态学研究视角领域包含“信息生态链”“众创空间”“利益相关者”等关键词。随着数据开放研究的火热开展,学者陆续从不同的理论角度对数据开放进行深入的剖析与研究,其中政府数据开放生态体系作为一个概念被各界多次提及。陈姗姗等人基于众创空间的背景,从价值理论出发构建了实现政务数据价值的生态系统模型。[20]赵需要等人从生态学和生态链视角出发,对政府开放数据生态链的概念、本质和类型进行了分析与阐述,明确了政府数据开放链及链上各主体之间的相互关系。[21]生态系统视角下的研究更加宏观和注重实践,更能发现政府数据开放实际工作中所出现的问题。生态系统已成为一个热点研究方向,在上述学者对生态系统与数据开放交叉理论研究的基础上,在未来会得到进一步的发展,提升数据开放的价值,促进各产业的转型升级以及创新等。
(四)实证研究
“实证研究”领域包含“政策量化分析”“实证研究”“层次分析法”等关键词。实证研究可以有力地支撑定性理论。吴金鹏等人基于生态系统理论,构建了数据“供应—创新—消费”分析框架,经实证研究发现:治理能力、创新能力、公众参与是促进政府数据开放发展的关键因素。[22]齐艳芬等人构建了城市政府开放数据行为的影响因素模型并选取部分城市政府的开放数据行为进行实证分析,发现企业、媒体、政府内部监管要求和其自身技术能力等对数据开放行为有较强的影响。[23]但在目前有关数据开放的研究中,实证研究还尚未得到较为广泛的应用,更多是基于理论的定性研究。但就本领域已有的实证研究发文年代来看,主要集中于近两三年(2019年至今),加之由于大数据分析等技术的应用导致激增的数据量,可以推断实证研究在未来将会成为一个热门研究领域。
(五)新兴技术应用的研究
新兴技术领域包含“大数据”“区块链”“关联数据”等关键词。数据获取、处理及分析是推动数据开放的重要技术基础,技术发展与理论研究相辅相成,彼此促进。李文彬等人在对我国国内省级政府大数据应用进行调查的基础上,提出数据开放与共享是大数据应用的前提,是政府最应该推动的领域。[24]郑旭东等人应用区块链技术,从宏微观两个方面对区块链技术在教育系统政务数据开放平台建设的运行与应用进行了探讨,得出区块链技术在数据开放中的重要地位。[25]赵龙文等人对政府数据开放的模式和方法进行了探究,提出了基于关联数据和“先发布、后关联”的两步式政府数据开放模式,该研究为关联开放政府数据的研究和实践提供了可行的模式和方法参考。[26]大数据等新兴技术及其配套硬件设备的升级与研发在政府治理升级和社会进步的过程中起着重要作用。众多学者就数据开放研究中存在的问题及桎梏,应用新兴技术对其进行探讨,以期破解数据开放过程中的实际难题,对政府数据开放工作起到帮助。因而,大数据成为数据开放领域中的一个研究热点,进而笔者认为在未来,大数据等先进技术依然有很大的发展前景,在数据开放领域内有关大数据等新兴技术应用的研究将会持续火热。
(六) 数据资产管理的研究
“数据资产管理”领域包含“数据资产”“信息消费”“数据治理”等关键词。数据资产被认为是数字时代最重要的资产形式之一。不仅对于企业,对于政府而言,数据资产也是十分重要的,数据是数字城市的智慧源泉,是助推政府数字化转型、提升政府治理能力的核心和关键。宋晶晶的研究认为当前政府数据开放在应用方面的研究侧重于资源管理的角度,缺乏资产管理的视角,并在此基础上,提出了完善我国政府数据资产管理的四条建议。[27]盛小平等人运用比较分析法,解析了数据管理与数据治理在定义等五个方面的异同,为完善科学数据管理办法提供参考,从而规划与制定使用的科学数据开放共享原则。[28]优化我国政府对于数据资产的管理,有助于被开放数据的价值提升与最大化利用。但就已有研究来看,对于数据开放与数据资产管理两者融合的研究不尽完善。以数据资产管理为视角对数据开放进行研究,可在一定程度上填补已有研究的缺位。
(七)科学数据开放的研究
科学数据开放领域包括“科学数据”“科研数据”“科学大数据”等。大数据时代,科技创新越来越依赖于对科学数据的深度挖掘与综合利用。欧美等发达国家都建立了国家级的科学数据中心或数据库,比如美国国立生物信息技术中心建立维护的GenBank(基因银行),美国伊利诺伊州立大学厄巴纳——香槟分校建立维护的DataBank(数据银行)等。2017年,国家标准化委员会相继发布《信息技术数据溯源描述模型》(GB/T 34945-2017)和《信息技术科学数据引用》(GB/T 35294-2017)国家标准,标志着科学数据可以像学术论文一样被学术同行标准化引用,对于保护数据生产者的知识产权以及促进数据拥有者开放共享其数据具有重要的意义。2018年3月17日国务院办公厅发布《科学数据管理办法》,标志着科学数据共享与开放工作已进入法制轨道。科学数据即主要包括在自然科学、工程技术科学等领域,通过基础研究、应用研究、试验开发等产生的数据,以及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据,贯穿于科技创新活动的全过程。科学数据是政府开放数据的延展,通过科学数据的开放与共享来推动科学研究实践的深化,同时也减少科学研究中不必要的数据资源获取方面的重复性工作,势必会推动科学研究向更加快速化、国际化、前沿化等方向发展。
四、研究趋势
(一)研究主题变化的时间拐点
突现词是某一个时间段内被引频次突然增多的关键词,可以用来反映某一时间段内的研究趋势。鉴于此,为进一步研究我国数据开放研究的发展趋势,运行CiteSpace5.7,参数设置“Burstterms”,得到关键词突现图(见图5)。
图5 关键词突现图
由图5可看出,在2011—2016年间的突现词为“电子政务”;2011—2015 年间的突现词为“数据门户”;2018—2021年间突现词为“政府数据开放平台”;2019—2021年间突现词为“数据开放平台”。其中“数据门户”“政府数据开放平台”和“数据开放平台”突现率一直延续至今,可说明三者为我国数据开放目前研究的主要发展趋势,也是政府数据开放工作最直观地展现。
(二)研究主题变化的演进历程
除此之外,关键词时序图可以用来反映某一研究主题随时间变化的主要研究内容,也能够在一定程度上反映某一时间段内的研究趋势,因此运行CiteSpace5.7,在关键词共现分析基础上,按时间片段生成关键词时序图谱,如图6所示。从图中可看出在不同时期学者的关注点不同,因此,可以把我国数据开放研究的演变划分成初期探索性研究期、多元化扩展研究期、深入精细化研究期三个发展研究阶段,以更好地分析我国政府数据开放研究的发展阶段。
图6 关键词时序图谱
初期探索性研究期(2009—2013年)。从图1、图5可见,在2009年至2013年,关于政府数据开放的篇名检索,其研究与发文量较少,关键词类别较为单一。说明在此阶段,仅有少数政府有关部门、高校学者以及科研机构开始对数据开放有关问题进行了研究。初期主要围绕“数据开放”“公开”等进行探讨。由于技术上不成熟、观念落后、专业人才短缺等众多问题的存在,对数据开放的重视度不足,此时市场上也鲜有企业提及开放数据的重要性,造成研究内容单一,未成系统化。[29]
多元化扩展研究期(2014—2018年)。由图1、图5可得,在此阶段,发文量猛增,关键词类别逐渐丰富,数据开放已经受到学界的重视并陆续加大了研究力度。此阶段,众多学者开始从不同的学科领域对数据开放进行探讨,主要关键词类别有“开放政府”“大数据”“英国”“云计算技术”和“平台建设”等。白献阳等人基于大数据视角,根据政府数据开放政策体系框架对数据开放相关政策进行梳理,探析其中的问题并给出了改善建议。[30]郑振宇以英国、美国等发达国家政府数据开放活动为研究对象,运用比较分析法,提出了推进我国政府数据开放的若干建议。[31]杨瑞仙等人针对我国当时现有的数据开放平台进行分析与研究,提出我国政府数据开放工作的若干建议和对策。[32]总之,这一阶段的研究实用价值导向明显,重点关注我国数据开放的可行性,研究主要围绕数据获取与分析处理技术、国外政府数据开放建设、我国数据开放政策制度的制定等方面,但数据安全、公众参与等问题开始受到了一定的关注,数据开放研究领域逐渐多元化。
深入精细化研究期(2019年至今)。这一阶段,数据开放研究进一步拓展,快速多元化,发文量均在120篇以上。这一时期的研究关键词主要类别有“实证研究”“政策与立法”“信息安全”和“突发公共卫生事件”等。朱晓峰等人运用logistic种群演化模型,选取武汉市政府数据服务网为研究对象,发现其和数据使用者之间存在相互关系。[33]侯晓丽等人从信息安全角度出发,对国家秘密泄露的风险点进行了识别,并提出了相应的保护策略。[34]陈朝兵等人运用文献分析法,选取美英澳新四国为研究对象进行研究,提出了我国政府数据开放监管应从加快顶层设计、整合监管机构、打造多元协同监管格局、强化评估问责机制建设四个方面抓起。[35]相雅凡等人构建了突发公共卫生事件地方数据开放评估体系,对30个地区在疫情防控期间的政府数据开放工作进行评估,发现疫情严重性成为政府数据开放工作的阻碍等。[36]与前一时期相比,这一时期的政府数据开放工作已成为政府的一项日常议程,并且在实践领域和理论研究层面都呈现多元化。众多学者的研究不仅关注到了政府数据开放的立法与政策的制定,也就其安全性和隐私性等进行了讨论,注重系统性的分析与研究。
(三)研究态势
政府数据开放实践源于政府信息公开的扩展和延伸,对于信息公开的研究最早源于公众知情权,而对于知情权的关注最初源于新闻媒体,逐渐转移至从法学角度探索如何从立法层面保障该项工作的强制实施,所以法学界对信息公开的法律框架、信息公开与信息安全之间的平衡等领域开展了丰富的研究。美国于1966年正式颁布《信息自由法案》,我国也于2008年正式颁布实施《政府信息公开条例》。随着信息公开制度的完善和实践的推动,人们发现单公开行政机关掌握的经过加工处理的信息远远不能满足数字经济、数字社会对原始数据的需求,为了促进社会各利益相关者更加深入、全面地开发利用潜藏在数据背后的价值,数据开放的研究与实践逐渐提上日程。
2009年美国上线政府数据开放平台,开启了政府数据开放实践的先河。此后,世界各地陆续开展政府数据开放工作,我国最先源于2012年上海市政府数据开放平台的上线,特别是2015年《大数据发展纲要》中对数据开放工作进行了专门规定,从战略层面将数据开放工作提升到了新的高度。学者也纷纷开始了数据开放的研究,目前主要集中在具有信息搜集、处理、分析和利用研究优势与传统的信息管理学(图书情报学)领域,此后行政管理学界主要从行政机关自身的职责与义务,法学界从立法视角,计算机学界从数据开放平台与技术层面,围绕政府数据开放进行了卓有成效的研究。从研究关键词聚类网络可以明显看出,数据开放研究涉及的主题非常广泛,已触及数据治理、科学数据、政策法规、技术平台、公共服务、信息消费、政府公信力等,所以研究机构也逐渐扩展至社会学界、行业领域、经济学界以及政府机关等。未来随着智慧交通、智慧物流、智慧医疗等各个行业的深入发展,数据开放的研究必将扩展至各个领域,与各个学科之间的交叉融合将会愈加显著,从而引领各学科围绕数据开放的各个研究细化领域开展深入细致的研究。随着数智赋能时代的推进,社会各界对数据的认识越来越深刻,政府数据开放未来将会以更快的速度发展,并快速扩展至公共数据开放。同时,随着数据开放氛围的形成以及用户参与度的逐步提高,数据开放与人们生活实践的结合将更为紧密细微,渗透至人文、艺术、交通、安全等各个角落,真正实现“Open Data for All”的愿景。
五、结束语
本文采用CiteSpace5.7软件及文献计量学方法对政府数据开放研究的现状、热点及态势进行了系统化梳理与总结。数据开放领域的研究主题经历了由宏观性研究向具有可操作性的微观研究方向发展,从关注政府组织中的网络技术架构与管理衔接到以市场社会的用户需求导向,以解决我国政府数据开放的内在需求为起点和归宿的变迁过程。目前我国政府数据开放研究依然属于新兴领域,处于起步发展阶段,研究文献总量还较少,学术关注度仍相对较低。