我国教育数据开放现状分析与评价*
——以23 个地方政府数据开放平台教育数据为例
2019-09-04吕红
吕 红
(湖北医药学院 公共卫生与管理学院,湖北 十堰 442000)
教育领域公共数据资源共享开放是政府数据资源共享开放工程的重要组成部分,伴随着教育大数据及其应用的推进,教育领域数据开放受到越来越多的关注。有研究通过地方政府数据开放平台热门数据集词频分析发现,用户需求量大的数据集主要集中在民生相关数据集,包括大中小学等教育机构数据、医疗机构数据、食品药品数据、道路交通数据等。[1]
一、确定调研平台列表
以2018 年5 月26 日由复旦大学、提升政府治理能力大数据应用技术国家工程实验室、国家信息中心数字中国研究院联合发布的 《2018 中国地方政府数据开放报告》(以下简称《报告》)中提供的纳入地方政府数据开放平台评估范围的条件为基础(《报告》中包含8 个省级政府数据开放平台、7 个副省级政府数据开放平台)[2],再结合搜索引擎检索、门户网站访问、相关论文调研等方法增加了8 个地方政府数据开放平台,共确定23 个地方政府数据开放平台作为调研对象。为保证数据采集工作的正确、可靠与有效,笔者分别利用两个不同的时间段进行数据采集并进行相互核查,第一次数据采集时间段为2018 年12 月13 日至2018 年12 月30 日,第二次数据采集时间段为2019 年3 月18 日至2019 年4 月2 日。这里需要特别说明的是,若第二个时间段相关数据信息有所变化则以第二次采集的最新数据为准。
通过两次不同时间段数据采集的对比核查,主要有三点变化:①23 个平台中仅浙江省数据开放平台变化最大,表现为在第一次数据采集中,浙江省数据开放站点名称为“浙江省公共数据开放目录”,其政府数据开放站点作为浙江政务服务网的一级导航栏目进行嵌入并在该网站平台进行显示,从平台建设模式来看,第一次数据采集中的浙江数据开放平台属于“嵌入政务服务平台模式”,其政府数据开放平台教育数据集数量为1,同时平台的数据开放部门分类中有浙江省教育厅;而在第二次数据采集中发现,浙江省数据开放站点名称为“浙江·数据开放”,尽管同样是在浙江政务服务网的网站导航栏中设置“数据开放”一级栏目,但点击该栏目后发现,其平台建设模式已产生变化,即第二次数据采集中的浙江数据开放平台属于“建设专有平台模式”,其政府数据开放平台教育数据集数量为0,同时其平台的数据开放部门分类中没有浙江省教育厅。通过两次数据采集的对比发现,进入浙江省数据开放平台的链接方式与访问网址均没有变化,但在平台建设模式与内容管理上发现了较大变化,体现出从“政府开放数据目录指引”到“政府开放数据本身”的转变,笔者认为这样的转变更加能体现政府公共数据资源开放的发展要求,进而更有利于释放政府公共数据资源能量,有利于提供公共数据资源创新源动力,有利于实现公共数据资源的增值开发与创新利用。②与第一次数据采集相比,有3 个平台(河南省公共数据开放平台、济南市公共数据开放网、深圳市政府数据开放平台)的教育数据集数量比第一次数据采集期间有所增加,同时有1 个平台(广州市数据开放平台)的访问站点网址发生了变化(第一次数据采集时站点网址为:http://www.datagz.gov.cn/,第二次数据采集时站点网址为:http://data.gz.gov.cn/)。③还有2 个平台的站点名称发生变化,如福建数据开放平台站点名称由“福建省公共信息资源统一开放平台”更名为“开放福建·福建省公共信息资源统一开放平台”、“厦门政府数据服务网”更名为“厦门|开放平台”。
基于前期的调研分析工作,笔者最终确定了23 个地方政府数据开放平台作为本文的调研对象,(见表1)其中包括14 个省级政府数据开放平台、9 个副省级政府数据开放平台。本文通过对这23 个地方政府数据开放平台教育数据开放现状进行调研分析与评价,以期能为我国各级政府数据开放平台特别是教育数据资源开放的建设工作提供相应的参考与借鉴。
表1 23 个地方政府数据开放平台列表
二、结果分析与评价
1.基本情况说明与简评
通过平台调研发现,目前表1 的23 个地方政府数据开放平台均为“建设专有平台模式”,将各类政府公共数据统一纳入单独建设的政府数据开放网络平台进行资源开放,同时将政府数据开放平台独立于地方政府的政务服务门户类网站,其常见访问网址形式为http://www.*data.gov.cn 或者http://www.data.*.gov.cn,前者如广东省政府数据统一开放平台(访问网址为http://www.gddata.gov.cn/),后者如海南省政府数据统一开放平台(访问网址为http://data.hainan.gov.cn)。为便于地方政府数据开放平台的推广以及方便公众对平台网址的记忆,笔者建议可用后一种网址形式来设置地方政府数据开放平台的网址构成。两个不同时间段数据采集的对比发现,广州市数据开放平台的访问网址已由前一种网址形式(第一次数据采集时站点网址为http://www.datagz.gov.cn/)变化为后一种网址形式(第二次数据采集时站点网址为http://data.gz.gov.cn/)。从地方政府数据开放平台的后期运行与管理等角度来看,笔者认为“建设专有平台模式”比“嵌入政务服务平台模式”(将政府数据开放平台作为政务服务网的一级导航栏目)更为适合作为地方政府数据开放平台的建设模式。从两次不同时间段的数据采集对比来看,尽管两次对应的浙江省数据开放平台访问网址没变(均为http://data.zjzwfw.gov.cn/),但该数据开放平台的建设模式发生了相应变化,即由“嵌入政务服务平台模式”发展为“建设专有平台模式”,同时其平台名称及内容建设方面也发生较大变化,这也体现出地方政府数据开放平台建设模式的发展方向。
2.地方政府数据开放平台中教育数据资源开放情况
社会公众看得懂数据集和主题分类的设置是政府数据开放平台“以人为本”用户视角的体现之一。[3]根据笔者对23 个地方政府数据开放平台所提供的数据分类设置来看,平台基本上都提供两种方式,分别是按主题进行数据分类、按机构/部门进行数据分类。根据实际调研情况,目前地方政府教育数据资源开放的主题分类存在如下特点:①较多的地方政府数据开放平台将教育数据资源与科研(科技)数据资源进行同一主题归属,表现为23 个平台中较大比例的地方政府数据开放平台都将教育与科研(科技)两类主题数据资源进行合并作为教育科研或教育科技类主题进行数据资源开放,如北京市政务数据资源网、江西省政府数据开放网站等。②也存在少部分的地方数据开放平台(23 个平台中有6 个地方政府数据开放平台)将教育与文化两类主题数据资源进行合并作为教育文化类主题进行数据资源开放,如贵州省政府数据开放平台、开放福建·福建省公共信息资源统一开放平台、四川公共数据开放网、成都市公共数据开放平台、浙江·数据开放、厦门|开放平台。③单独设置教育数据资源主题分类的平台很少,从本文调研对象来看,目前仅有2 个平台(河南省公共数据开放平台、山东公共数据开放网)提供单独的教育数据资源主题分类,有1 个平台(宁夏开放门户网站)的“科技、教育”主题下细分了教育的二级主题(目前有2 个教育数据集,但数据资源的提供部门为宁夏回族自治区人力资源和社会保障厅),同时宁夏开放门户网站的数据提供部门中无教育厅;还有1 个平台未设置教育科研(科技)类或教育文化类主题,如陕西省公共数据开放平台,该平台目前有1 个教育数据集(数据发布机构为陕西省教育厅),但该数据集同时被划归于该平台的“公共服务”主题与“社会保障”主题。因此,考虑到调研过程中发现的实际情况,为较为方便准确地获取地方政府数据开放平台中教育类数据资源的实际情况并进行平台之间的横向对比分析,本文根据机构/部门数据分类中的机构/部门目录查找省(自治区)教育厅或市教委提供的数据资源作为地方政府数据开放平台中的教育数据资源,表2 是23个地方政府数据开放平台中教育数据资源开放情况。
由于目前地方数据开放平台建设缺乏统一标准,导致平台相互间的差异性较大,针对本文数据调研采集结果(见表2)有以下几点需特别说明:①若开放平台的数据提供部门暂无省(自治区)教育厅或市教委(市教育局),则通过查找是否提供教育类主题并根据分类主题进行查找教育数据资源集,即若数据开放平台暂无省(自治区)教育厅或市教委(市教育局)作为数据提供部门但有教育(教育科技、教育文化)等主题分类并且有相应的教育数据资源开放,本文视同此平台有教育数据资源集。②若平台既没有提供省(自治区)教育厅或市教委(市教育局)作为数据提供部门,同时也没有提供教育(教育科技、教育文化)等主题分类,则视同该平台目前暂无教育数据资源集合。③宁夏开放门户网站平台中的数据提供部门暂无自治区教育厅,但目前该平台提供“科技、教育”主题分类(下设教育二级分类主题)且有2个宁夏回族自治区人力资源和社会保障厅提供的教育数据集,故表2 中显示宁夏开放门户网站有2 个教育数据集。④山东公共数据开放网平台各个数据资源主题的数据资源包含有山东下辖地级市的相应数据资源(在第二个时间段的数据检索发现,山东公共数据开放网下共有1335 个数据集,其中山东省教育厅发布的数据资源共有56 个),为便于比较,故表2 中仅统计显示了山东省教育厅发布的56 个教育数据集。⑤河南省公共数据开放平台提供单独教育主题分类(目前共有89 个教育资源数据集,其中68 个为河南省教育厅发布、20 个为省统计局提供、1 个为省财政厅提供),故表2 中仅统计显示了河南省教育厅发布的68 个教育数据集。
表2 显示,截至2019 年4 月2 日,本文调研范围所覆盖的23 个地方政府开放教育数据集581 个,其中教育数据开放最多的地方政府数据开放平台是济南市公共数据开放网(76 个),地方政府开放平台中教育数据集超过60 个的平台还有上海市政府数据服务网(70个)、河南省公共数据开放平台(68 个)、青岛市公共数据开放网(62 个)。从地方政府开放平台中的教育数据集数量来看,前8 个地区(济南、上海、河南、青岛、山东、北京、广州、武汉)的数据开放平台中开放的教育数据集累积之和(共计469)占教育数据集总样本量的80.72%。占总调研平台样本数量约50%(实际值为47.83%)的11个地方政府数据开放平台中教育数据集数量小于9 个,且有3 个平台(海南省政府数据统一开放平台、四川公共数据开放网、陕西省公共数据开放平台)的教育数据集目前为1 个,还有3 个平台(浙江·数据开放、新疆维吾尔自治区政务数据开放网、厦门|开放平台)未开放教育数据集。可见,从教育数据集数量来看,目前大部分地方政府数据开放平台对教育数据资源的开放力度还不够大。值得注意的是,还有部分地方政府数据开放平台的数据提供部门中暂无省(自治区)教育厅或市教委(市教育局)。从调研情况来看,很少有地方政府数据开放平台单独设置教育数据资源分类,而更多的是将教育数据资源与科技(文化)等数据资源合并在一起。对开放数据平台数据资源进行科学的数据组织分类有利于用户更有效率地查找并定位其所需求的开放数据资源。为更好地推动教育数据开放,地方政府数据开放平台一方面可考虑在教育科技或教育文化主题类别下设置二级主题分类或者单独设置教育领域数据资源的分类,以便将教育数据资源集与科技(文化)类数据资源集进行区分;另一方面平台应将省(自治区)教育厅或市教委(市教育局)作为地方政府教育数据资源的提供部门与管理部门。此外,地方政府数据开放平台可针对教育领域数据资源特点如增加高等教育、职业教育、基础教育、学前教育等不同层次与类型的教育数据资源描述项或者在教育领域主题下进一步细分出相应的二级(三级)目录,以便用户快速定位相应的教育数据资源。
表2 23 个地方政府数据开放平台中教育数据资源开放情况
从23 个地方政府数据开放平台中所开放教育数据资源的数据格式来看,有9 个地区(济南、河南、青岛、山东、广州、哈尔滨、江西、福建、宁波)的地方政府数据开放平台所开放的教育数据资源集提供四种数据格式(xls、xml、csv、json),仅有成都市公共数据开放平台的所有教育数据资源集提供五种数据格式(xls、xml、xlsx、csv、json),深圳市政府数据开放平台中35 个教育数据集中有29 个数据集均提供五种数据格式(csv、json、rdf、xlsx、xml)下载,但有6 个数据集仅提供一种数据格式(xlsx 或者xls)。有少部分地区的地方政府数据开放平台中教育数据集仅提供一种或两种数据格式(xls 或者xlsx或者csv 三种格式之一或之二)。从整体上看,目前地方政府数据开放平台所开放的教育数据资源集大部分都提供可机读格式。可机读格式是数据利用主体进行数据开发利用的重要保障,各数据平台应提高可机读格式数据的比例。[4]因此,为提高教育数据资源利用率,各个地方政府教育数据开放应尽可能提供多种可机读格式以便满足教育数据利用主体的多样化需求。成都、深圳等地区的地方政府数据开放平台所提供的多种可机读数据格式值得政府数据开放平台借鉴。从23 个地方政府数据开放平台中所开放教育数据集的最新发布(更新)时间来看,大部分地方政府教育数据资源发布(更新)频率不高,超过总调研平台样本数量50%的12 个地方政府数据开放平台中的教育数据集发布或更新时间停留在2018 年11 月1 日之前。可见,目前地方政府教育数据开放的数据提供与更新频率不容乐观。政府数据开放平台不能及时地开放相关教育数据资源将很大程度上阻碍相关教育大数据分析与应用开发,从而不利于实现教育数据资源增值。笔者认为,地方政府数据开放平台应加强相关数据资源提供与更新频率方面的监管工作。为更好地满足各类教育数据分析与应用,更好地激发教育数据资源的“数据活力”,一方面,针对陈旧过时的教育数据资源应及时在地方政府数据开放平台中进行更新;另一方面,应及时开放教育大数据分析与应用开发过程中需求量较大的各类最新教育数据资源。
3.地方政府数据开放平台中教育数据接口提供与应用程序开发情况
政府开放数据平台的落脚点在于政府数据的增值开发利用,政府开放数据平台通过数据集API 应用编程接口的提供有利于更好地实现对开放数据的相关开发与利用。[5]政府数据开放平台中的各类数据集最终被增值开发与利用才能达到政府数据开放的目的。表3 是地方政府数据开放平台中教育数据接口提供与应用程序开发情况。调研数据显示,截至2019 年4 月2 日,23 个地方政府开放教育数据类API 接口服务数量共计418个,其中从各地方政府数据开放平台的数据API 接口数量来看,共有5 个平台提供了超过50 个教育数据API接口,分别是济南市公共数据开放网提供了76 个教育数据API 接口、河南省公共数据开放平台提供了68 个教育数据API 接口、青岛市公共数据开放网提供了62个教育数据API 接口、山东公共数据开放网提供了56个教育数据API 接口、北京市政务数据资源网提供了52 个教育数据API 接口。同时,占总调研平台样本数量47.83%的11 个地方政府数据开放平台未提供教育数据API 接口。通过提供应用程序编程接口有利于促进更多开放数据的应用开发,为提高政府各类数据资源开放的有效性,各政府数据开放平台应进一步加大各类数据API 应用编程接口的数量,各平台应争取做到开放一个数据资源集,就给出相应开放数据调用的API 接口。
数据服务是政府数据开放平台的重要功能,应用服务功能是政府数据开放平台提供的数据服务之一,政府数据开放平台建成的最终目的是通过各类数据服务功能的实现来满足公众对数据的需求。[6]数据应用服务也是政府数据开放资源利用的重要表现形式,政府数据开放平台中数据资源的利用绩效情况是政府数据开放理论研究与实践工作都关注的重点。目前利用政府开放数据最主要的方式之一就是用户根据实际需求利用政府开放的各领域数据开发相应领域的APP 并上传政府数据开放平台供各类用户使用。[7]基于政府开放数据资源所开发的APP 及其数量作为政府数据开放用户利用效果观察指标之一,其可间接反映用户对数据资源利用的效果。[8]政府数据开放平台中基于各类开放数据资源的应用程序数量可在一定程度上表征出相应开放数据资源的利用情况。表3 显示,截至2019 年4 月2 日,本文调研范围所覆盖的23 个地方政府数据开放平台中应用程序总数量为500 个,而地方政府数据开放平台中教育类应用程序数量仅为9 个。目前地方政府数据开放平台中应用程序总数量较多的平台有上海市政府数据服务网、开放广东-广东省政府数据统一开放平台、武汉市政务公开数据服务网、山东公共数据开放网、北京市政务数据资源网、四川公共数据开放网等。仅占调研平台总数量的21.74%,5 个地方政府数据开放平台中提供了教育类应用程序,如北京市政务数据资源网应用栏目下的“E 上学”和“我的校园”、武汉市政务公开数据服务网APP 应用栏目下的“武汉大学”和“湖北省招办”、上海市政府数据服务网应用栏目下的“上海市中外合作办学机构/项目查询应用”和“上海市民办教育机构查询应用”、开放广东-广东省政府数据统一开放平台数据应用栏目下的“广东省教育管理公共服务平台”、河南省公共数据开放平台应用中心下的“河南省安全教育平台”。从这些应用程序的类型来看,既有Android 应用程序,也有Web 应用程序。调研过程发现,有的平台APP 应用并未给出其应用的教育数据集,从加强数据利用的角度出发,基于地方政府教育数据开放的APP 应用应在APP详细信息介绍中明确其所利用地方政府数据开放平台中对应的教育主题类开放数据资源。从本文调研样本数据来看,目前地方政府数据开放平台中教育类应用程序偏少(仅占平台应用程序总数量的1.8%)。笔者认为,导致该现象出现的原因可能主要有如下几方面:一是目前地方政府数据开放平台中教育类数据资源集偏少,同时相应的教育数据类API 接口服务提供偏少,从而导致基于相应开放数据集的应用程序开发存在困难;二是目前地方政府教育数据开放资源质量不高,各地方政府数据开放平台中已开放的教育类数据资源集未能较好地引起社会公众在利用方面的普遍关注和重视;三是地方政府数据开放平台进行教育数据资源开放过程中未很好地进行诸如社会公众对教育数据资源需求情况等方面的前期调研,未能很好地与社会公众对相关教育数据资源的需求相吻合;四是教育数据资源管理方主动开放并提供教育数据资源的主动性不强,各类社会公众针对政府教育数据开放资源的利用意识不强。
表3 23 个地方政府数据开放平台中教育数据接口提供与应用程序开发情况
三、结束语
从本文调研情况来看,各地方政府教育数据开放在教育数据集数量、开放数据格式、API 接口服务数量三方面表现出较大的差异性,目前大部分地方政府数据开放平台对教育数据资源的开放力度还不够大,个别地方政府数据开放平台还未开始教育数据开放工作。目前地方政府教育数据开放的数据提供与更新频率不容乐观,地方政府数据开放平台应加强教育数据集数量上的积累与更新管理,同时还要注重所开放教育数据集的质量管理。地方政府教育数据开放的基本运行模式表述为“各级教育主管部门定期按平台的数据格式要求提交数据——平台进行相应教育数据集的审核与开放管理——教育数据资源应用与开发”。从上述基本运行模式来看,地方政府数据开放平台应大力加强与用户的交流互动工作,及时掌握用户对教育数据资源方面的需求,特别是要能积极回应教育数据应用开发需求方提出的相应教育数据资源开放申请。地方政府教育数据开放资源价值的实现在于平台用户对相关资源的使用,因而地方政府教育数据开放应以教育大数据应用需求为导向,从教育数据质量管理(数据格式、API 接口、元数据描述、数据分类管理等)和用户利用数据程度的角度(如教育数据集的访问量、下载量、应用程序调用频次与申请回应度等)来加强教育数据开放服务绩效评估。