广州智慧城市建设中开放数据平台数据质量的多维研究
2020-12-07王玉
王 玉
智慧城市建设是城市发展进入新阶段运用新技术寻求变革的产物,目的在于通过技术赋能,实现信息化、工业化与城镇化的深度融合,缓解和治理城镇化过程中出现的“大城市病”,提升城市发展质量,让城市更宜居宜业。2018年,德勤会计事务所发布了《超级智慧城市报告》,报告显示全球已经启动或在建的智慧城市数量为1000 多个,其中中国名列第一,在建数量为500 个,截至2019 年上半年,我国目前提出或在建的智慧城市已经达到700多个(含县级市),国家智慧城市试点数量达到290个,初步形成珠三角、长三角、环渤海、中西部四大世界级智慧城市群[1]。其中,部分智慧城市建设进展较快,取得显著成绩,也有部分城市尚在探索中缓慢前进,广州智慧城市建设成绩与问题并存。
一、智慧城市与政府开放数据研究概述
2008年底,IBM提出“智慧地球”概念,2009年,IBM又提出“智慧城市”愿景[2],美国政府肯定了智慧城市的建设思路,将其上升到美国国家战略层面,并很快采取一系列措施建设新一代智慧型信息基础设施。之后,智慧城市概念在全球范围内迅速升温。智慧城市建设的实现依赖于数据的开发利用,总体框架以数据为核心,划分为五个层次,分别为数据收集层、数据传输层、数据存储层、数据开发层、数据应用层[3],建设前提是开放政府,切入点是政府开放数据[4],可以说,智慧城市的本质是数据城市,以城市各个领域数据资源的充分整合利用为基础,开放数据程度越高,城市的“聪明度”越高,“智慧性”越易实现,没有开放数据,就没有智慧城市。关于开放数据的概念,网络解释为“其他开放运动的扩展形式,可以被任何人自由获取”,世界银行的定义为“可以被任何人自由免费地访问、获取、利用和风险的数据”。
李克强总理指出,“政府的数据是钻矿石”。政府开放数据平台在智慧城市建设中发挥基础性支撑作用,它能推进数据的利用、再利用,实现数据的增值开发及创新运用,充分释放数据集的能力。最终解决城市发展存在的问题,达到提升城市运行效率、提高城市发展质量、构建宜居环境的目标[5],让智慧城市愿景成为现实。
二、广州开放数据平台数据质量现状与存在问题
广州市政府数据统一开放平台网址为www.datagz.gov.cn/data,本文结合广州和其他地方政府开放数据平台显示的数据,选取2018年3月—2019年上半年之间的数据,从数据层、平台层两个维度对广州开放数据平台数据质量进行综合分析,
(一)广州开放数据平台数据质量现状
国外学者C.Alexopoulos(2012)[6]等人立足数据提供方、数据用户构建政府开放数据平台多元价值模型,提出从政府开放数据提供效率、运用效能、用户未来行为三个评价维度对政府开放数据平台进行评估。Natasa(2014)[7]等人提出从政府组织、数据本身两个角度构建评价框架。国内学者岳丽欣、刘文云(2016)[8]提出从数据管理、数据服务、交流共享三个评价维度对国内外政府开放数据平台进行对比评估,吴刚、曾丽莹提出从资源组织与检索、资源现状、服务方式三个维度对政府开放数据平台现状进行评估,郑磊 (2017)[9]等人提出从“基础”“平台”“数据”三个维度构建政府开放数据质量评价框架。
通过分析国内外关于开放数据质量和政府开放数据平台质量的评估项目,总结得出现有评估内容主要围绕“基础”“平台”“数据”“使用效果”等开展评估。“基础”指的是政府开放数据政策环境、开放数据基础设施,“平台”指的是面向社会大众提供开放数据的政府统一平台或政府门户网站,“数据”指的是包括政府、企业、社会组织等多个部门在履职和开展工作中获取的、与人们生活存在密切关系的各种数据,“使用效果”指的是使用者的使用情况、满意度等。考虑到我国政府开放数据平台运行时间较短,暂时很难获得“使用效果”方面的反馈,所以将“数据”和“平台”作为评价政府开放数据平台质量的主要因素,对广州政府开放数据质量分析如下:
1.数据建设
一是数据集总量,反映政府开放数据平台提供数据的覆盖面,数据集总量越多,说明覆盖面越广。截至2019 年上半年,各地方政府数据开放平台的数据集总量统计显示,武汉为3020 个,贵阳为3012个,上海为2000个,广州为1363个。广州开放数据集总量有待提升;二是数据分类方式,反映政府开放数据平台为用户提供的检索方式的便捷程度,数据分类方式越多,说明政府开放平台对用户检索便捷性需求的满足度越高。政府开放数据平台上数据分类方式大致包含11种,目前广州市政府开放数据平台提供的数据分类方式偏少,仅有3种,包括按主题分类、按机构/部门分类、按数据类型分类;三是开放数据部门数量,反映政府数据开放的覆盖程度,开放部门数量越多,说明各个部门参与积极性越高,开放数据覆盖面越广。截至2019年上半年,广州开放数据平台参与部门总数量为68个,其中,只有市统计局、环保局提供的数据集数量较多,其他如广州供电局、市协作办、市国税局等部分提供的数据集数量较少;四是开放数据主题的覆盖率,反映政府开放数据平台对不同领域数据挖掘、收集的程度。《中国地方政府数据开放平台报告(2017)》中将开放数据主题归纳为14大类,截至2018 年3 月,广州在这十四大类开放数据主题方面的覆盖情况如下图1 所示,开放主题覆盖率达到92.90%,只有城建住房这一主题下出现了数据“空仓”现象,但广州市数据开放领域存在不均衡问题,机构团体、教育科技、医疗卫生、资源环境、社会民生、经济建设等领域开放数据多,其他领域开放数据较少;五是数据更新频率,反映政府开放数据平台提供数据的时效性。北京、上海、贵州等地都在数据页面发布了数据信息的发布时间和更新时间,但广州并未在数据页面标注更新时间,许多数据集也没有明确注明具体的更新频率;六是数据格式的可机读性,反映政府开放数据平台数据格式的开放程度。广州市政府开放数据平台提供的可机读格式包含XLS、XML、JSON、CSV四种,提供的可机读格式和开放格式较多;七是检索结果排序方式的多样化程度,检索结果排序方式越多,越能满足不同用户的精细化检索需求。广州目前提供的检索结果排序方式有五种,分别为按浏览次数、下载次数、更新时间、用户评分、数据量,广州目前提供的检索结果排序方式较为多样;八是元数据条目数量和元数据准确性,反映政府开放数据平台提供数据的完善性。截至2018 年3 月,广州提供的元数据数量为18个,与《中国地方政府数据开放平台报告(2017)》要求政府开放数据平台元数据条目数量要达到24个的标准还存在一定差距,对重要的元数据也缺乏相应的准确描述。
2.平台建设
一是接口开放率,指的是平台提供的API接口数量与平台数据集总量之间的比率,接口数量越接近平台数据集,说明接口开放率越高,意味着平台上的数据集可以被用户快速调用,利于最大程度发挥数据价值。接口开放率低,意味着企业、社会公众和开发者无法快速调用政府开放数据平台上的数据,会降低数据的实际应用价值。截至2019 年上半年,广州开放数据集总量为1363,但提供的数据接口仅为782个,接口开放率为57%;二是接口调用次数,平台接口调用次数越多,说明该接口实际利用率高,用户对该接口有较大需求;三是平台提供的应用数量及应用下载量,反映平台的完善程度和利用程度,应用数量及应用下载量越多,说明平台功能越完善,利用率越高。截至2019年上半年,广州政府开放数据平台提供的应用数量为8个,应用分为财税金融、道路交通和民生服务三类,“广州出行易”的应用下载量达到8475次,“行讯通”、“广州市民网页”等应用下载量不高;四是平台提供的互动形式的多样化程度。截至2019 年上半年,广州政府开放数据平台提供的互动服务主要包括四项,分别为资讯动态、咨询建议、调查问卷和用户帮助。“开发者社区”功能的欠缺,难以满足用户的交流共享需求。
图1 广州政府开放数据平台数据主题覆盖情况
(二)广州政府开放数据平台数据质量存在的问题
1.数据资源有待进一步扩展完善
广州市政府数据统一开放平台数据集总量虽然保持快速增长势头,但与国内的上海、武汉、贵阳相比,还存在明显差距,开放数据相对较少。同时,开放数据资源过于简单,不够完整,不能满足人们完整获取可用信息的需求。如“财税金融”这一主题下只有“广州市行政事业性收费”一个数据集,这样一个数据集缺乏不同行业相关数据资源的具体情况,信息完整度差,无法覆盖这个类目涉及的住宿餐饮、租赁和商务服务、居民服务、科学研究和技术服务业等内容,并非民众所需。这一情况说明广州市的开放数据理念亟待优化提升。
2.数据开发的标准有待进一步细化
我国政府开放数据政策文件主要有《促进大数据发展行动纲要》(2015)和《政务信息资源共享管理暂行办法》(2016),后者规定了政务信息资源的共享原则、分类、监督、保障等。2016年4月,广东省颁布《广东省促进大数据发展行动计划(2016—2020年)》,参考IOS8000数据质量系列标准列出了共享数据建设的技术类标准,对共享数据的范围、边界进行界定。2018年5月,广东省颁布《广东省大数据标准体系规划与路线图(2018—2020)征求意见稿》,给出了大数据标准体系的编制原则。这些国家层面和地方层面的文件为广州市开放数据建设提供了指导意见和行动规范,广州应以此为指导,结合自身发展实际,细化数据开发的具体标准。
3.数据开放程度有待进一步提高
由前文的开放程度对比可以看出,数据开放程度受政府数据更新频率、开放数据主题、开放数据部门数量、API 接口数量和平台应用数量等诸多因素的影响。广州市政府数据统一开放平台数据开放程度不高表现在几方面:数据更新不固定,采用不定期更新办法,也未明确数据更新的具体时间,数据集中的数据以静态数据为主,只有少量动态数据;开放数据主题有缺失,覆盖面不够,未能覆盖社交网络数据、视频数据等新型数据;开放机构不够充分,还有部分政府职能部门未能参与到政府开放数据平台中;数据集总量在不断增长,但API接口数量和平台应用数量与数据集总量不匹配;元数据条目数量有待增加,元数据描述的准确性不高;数据开放平台缺少数据开放授权协议,没有明确授予用户免费获取数据、自由使用及分项数据的权利。
4.数据利用效果有待进一步提升
政府开放数据平台,当前,广州市政府数据统一开放平台的活跃度较低,主要表现在几个方面:平台数据下载量较低,有很多数据上传到平台之后就处于“静默”状态,无人问津,广州开放数据量已经达到102564663,但下载量仅为96771,下载率约为0.09%;数据易用性不高,检索结果排序方式有待进一步丰富,用户在不了解数据的情况下,需要耗费不少时间才能获得理想的检索结果;平台接口功能、应用功能不够完善,不能为用户提供便捷的下载服务和供多样化的互动形式,难以满足用户下载、使用数据的需求。
三、广州政府平台开放数据质量提升的建议
根据广东省人民政府办公厅印发的《实施珠三角规划纲要2016 年重点工作任务》,广州计划到2018 年基本完成“智慧广州”框架建设,到2020 年基本形成智慧广州体系,但目前来看,广州市开放数据建设与广州智慧城市建设还未充分契合,需要提升数据开放质量、
(一)夯实广州政府平台开放数据基础能力建设
广州政府平台上开放数据的提供以广州市政务信息化服务云平台、“穗好办”、穗智管”及广州市人机协同开放平台等为依托,这些基础平台建设的水平高低直接影响到所提供的数据质量的高低。因此,必须要“全市一盘棋”,统筹推进这些基础平台的建设。一是要以提升政务云的一体化服务能力、精细化运营为目标,推动广州市各区、各部门的业务系统逐渐迁移到云平台,确保全市的政务数据资源可以实现纵向贯通,并逐步实现向基层共享,为不同部门开放数据的汇聚与共享创造条件。二是要坚持双栈部署,对广州市、区两级的政务外网进行改造升级,提升政务外网的应用支撑能力,为数据开放共享提供保障。三是要推动“穗好办”、穗智管”等政务数据及城市运行数据大脑的建设,积极融入领先的人工智能核心技术,完善人机协同框架,提升广州数字政府的智能化水平。并将政府平台与移动政府应用、微信小程序等信息采集工具有效对接,提升数据采集效率。四是完善广州市各类数据库的建设,由各主管部门牵头,完善包括社会信用、电子证照等在内的基础信息库,覆盖营商环境、扶贫等不同主体的专题信息库。这些数据信息库是开放数据的“摇篮”,为开放数据提供支撑。此外,还应当完善广州政务平台数据安全防范体系,可以建立市级的网络安全罩,对政府各类数据进行监测,在确保开放数据共享的同时,最大程度保护政府的数据安全。
(二)明确广州政府平台开放数据提供的具体标准
一是可参考国际通用政府数据开放许可协议,借鉴我国法律法规中涉及国家安全、商业机密、个人隐私等的具体条款,制定广州市开放政府数据豁免清单。具体应包括个人信息豁免清单(涉及个人隐私的敏感性数据信息)、国家安全信息豁免清单(涉及国防、重大技术、工程、金融、食品等各个领域安全的数据)、商业秘密豁免清单(涉及设计、产品配方、资源情报、客户名单等能为权利人带来经济利益的数据信息)、其他数据豁免清单(涉及刑事审判数据、调查记录等的数据信息)。通过建立开放数据清单统一政府开放数据的标准,除清单之外的数据政府各职能部门要完全向社会开放。
二是构建广州市统一政府数据开放标准。依托市级统一建设开放数据平台,进行数据共享,有条件的区也可以依托自身优势建设区级政务大数据平台,制定统一的政府数据接口及交换共享标准,要求各区、各部门严格按照标准接入,并与广东省政务数据共享平台对接,确保海量数据在安全合规的前提下开放共享。确保各部门提供的数据的统一性,便于利用开发。
三是在免费原则的基础上实施数据定价政策。数据价值实现的关键在于数据流通,为了促进数据流通,各地陆续出台了相关政策,但这些政策偏重于从技术层面促进数据流通,对此,清华大学计算机系朱小燕教授提出了“开放和共享不等于免费”的观点,指出数据流通必须通过合理的权益分配让数据的拥有者、持有者、开发者都得到满意权益分配。开放数据过程中的成本负担削弱了广州市部分政府职能部门开放数据的积极性,也无形中影响了政府开放数据平台的数据质量。为了有效调动政府各个职能部门数据开放的积极性,提高开放数据质量,必须要体现数据的经济价值,在免费和效率公平原则的基础上让政府获得“数据受益权”[10]。目前,我国各省市政府尚未建立政府开放数据的定价体系,也尚未出台明确的收费标准,广州市可积极探索新型定价体系,根据数据属性、利用目的、价值竞争性、用户消费能力、数据加工难度与应用场景五个要素建立逐层定价评估体系,以这个定价评估体系为框架,对政府开放数据进行合理收费。
(三)建立广州政府平台开放数据管理机制
一是要在全市范围内建立统一的事项目录以及与之相对应的各种开放数据资源目录,并明确各部门的数据责任,形成广州市各部门开放数据责任清单,尽可能提升两个目录的规范率,让政府提供的开放数据,真正是百姓所关切,为百姓所需。二是要建立开放数据的汇聚机制。对于广州市各部门及重点行业进行全面数据采集,尽可能保证基本数据的完整性。三是建立广州市开放数据更新机制。提升各部门开放数据的挂接率和数据鲜活率,使之与国垂系统里的高频数据有效对接,确保数据鲜活率可以达到90%,提高开放数据的使用质量。四是建立广州市开放数据综合评价机制,明确开放数据的上报流程和检查办法,设计具体的考核内容和相应的考核标准,加强对各部门数据开放情况的评价和稽查,确保数据共享开放程度能够达到要求。
(四)提升广州政府平台开放数据的使用体验
一是在各政务平台上引入数据清洗技术,解决平台数据混乱问题。对要上传到开放数据平台的数据进行预处理,避免标题相同、数据文件相同的重复创建数据及数量容量为0的无效数据的出现,确保数据格式统一、数据条目完整、数字日期准确。二是要完善广州政府开放数据平台的检索功能、接口功能、互动功能等。在现有检索方式的基础上,拓展检索方式,为用户提供高级检索、交叉检索工具,并丰富检索结果排序方式及呈现方式,提高检索结果的直观性、易读性。给平台配置免费版、专业版、特定版等针对不同群体的用户接口,为普通群体提供免注册和免下载的免费版接口,为企业、高校及专业社会团体提供专业版的接口提供数据、程序接口,为需要技术支持的特定用户提供特定版接口。此外,在平台现有功能基础上增加开发者社区、跨平台分享等互动功能,为应用开发者创建、测试、发布和推广数据及数据在微信、微博等社交媒体上的分享提供便利。三是优化平台引导服务,通过在数据集页面插入接口链接等方式引导用户调用接口,提高接口调用活跃度,使接口真正发挥效用;对平台应用进行宣传推广,鼓励引导用户主动下载应用,发挥平台应用的价值。
综上所述,智慧城市已被纳入国家级战略规划,随着我国政策红利的不断释放,智慧城市建设步伐将进一步加快。智慧城市建设会产生各类数据,包括金融数据、经济建设数据、政府投资数据、交通数据、行业服务数据、农业数据、教育数据等,这些数据汇聚在政府平台上,由政府向社会公布。政府所提供的开放数据可以为一些机构团体、公司或个人所用,经过其加工之后,会产生巨大的商业价值。广州市政府十分重视开放数据的价值,未来会在数字政府建设的框架下,持续推动政府数据开放,全面提升政府开放数据的质量,使开放数据转化为更大的社会生产力。