公共数据精细化治理的浙江实践
2021-10-16陈鹏宇
文|陈鹏宇
今年是浙江省数字化改革元年。2月18日,浙江召开全省数字化改革大会,省委书记袁家军强调,数字化改革要从整体上推动省域经济社会发展和治理能力的质量变革、效率变革、动力变革,在根本上实现全省域整体智治、高效协同,努力成为“重要窗口”的重大标志性成果。
数字化改革提出了“1+5+2”工作体系。其中,“1”即一体化智能化公共数据平台,是实现数据跨地区、跨部门、跨层级高效共享的承载设施。“5”即党政机关整体智治、数字政府、数字经济、数字社会和数字法治五大领域综合应用,离不开“1”的基础性作用。
为不断夯实省市县三级公共数据平台,充分释放数据价值,浙江在公共数据精细化治理方面进行了一系列理念创新、实践创新并取得明显成效,有力支撑数字化改革走向纵深。
一、因数施策:浙江首创“GPS”分域管理
一般而言,公共数据平台只是政府内部数据共享体系的组成部分。它犹如一个数据“中介”——归集来自数源单位的数据,通过平台共享给使用单位。
伴随着数字化改革的实施,数据应用的广度、深度都发生了深刻变化,应用创新的场景层出不穷,多样化、个性化的数据需求不断涌现。这些新变化,对数据供应链提出了新期待、新要求。公共数据平台过去那种将不同需求“混”在一起的、对象无差别的单一数据供给模式,已经难以适应新时期的需要。
为此,浙江主动求变,“因数施策”,对公共数据实施精细化管理,将公共数据平台划分为“GPS”三个不同的域,以满足不同场景下的数据需求。
(一)划分“G 域”,满足政府侧内部共享需求
“G 域”即共享域,它仅提供政府(Government)内部共享使用的公共数据。各级政府部门数据需求的多样化、个性化,对数据供给提出了更高要求。
首先,数据使用单位的需求更加多样。原先,公共数据平台内只按照业务职能部门分类而设置了不同的部门仓。随着数据使用的深入,使用单位不再满足于被动地从公共数据平台调取数据,进而希望能在平台内搭建一个个细分的专题数据库,以实现对数据的深度分析和应用。
其次,政府内部数据的纵向共享,要求公共数据平台采用多层多域的细分管理模式。“多层”即实现省市县三级数据的高效归集、回流,“多域”即区分并满足不同市县、不同部门的数据需求。如此一来,省市县三级的数据完整性均得到了提高,有利于激活不同层级、不同部门的应用创新积极性。
总之,政府侧的需求变高了,是划分“G 域”的原因。
(二)划分“S 域”,满足社会侧开放融合需求
有别于“G 域”满足了政府内部的数据需求,“S 域”满足的是公共数据面向社会(Social)的开放和融合需求。
公共数据平台不仅要为政府数据应用提供支撑,还要为社会化应用提供支撑。但是,公共数据在政府内部和面向社会使用是两种截然不同的场景,尤其是后者还涉及复杂的数据隐私、数据融合问题,数据管理的制度流程、安全规范存在巨大差异,政府内部数据的共享体系无法为数据开放提供支撑。面对新的场景需求,有必要在公共数据平台中开辟出一块新的“S 域”,为公共数据的开放和融合提供一个安全、好用的环境。
“S 域”中的数据分为三类:一是可公开的数据,二是受限开放数据,三是为满足融合应用而导入的社会数据。从这个角度看,“S 域”搭建了政府公共数据和社会数据的融合的桥梁。
(三)设置“P 域”,实施数据治理
“G 域”和“S 域”分别满足了政府侧、社会侧的数据需求。而源源不断地为这两个域提供数据的,则是公共数据平台的基础数据域即“P(Public)域”。
原先,公共数据从数源单位归集到公共数据平台后,共享给了使用单位。但是,共享数据质量如何,能否满足使用需求?这些问题常常不得而知。“P 域”为实施数据治理提供了空间,为解决数据完整性、时效性、准确性等数据质量问题创造了条件。
公共数据平台实施“GPS”分域管理,是浙江在数据管理探索实践中的首创。“因数施策”的结果,是平台更能精准地满足不同需求。“GPS”三个域各有分工、各有侧重:“G 域”满足了政府内部多样化的数据需求,为省市县数据纵向贯通提供了载体;“S 域”保障了公共数据安全地开放和融合;“P 域”为提升数据质量、精细化治理数据提供了载体。
二、多点发力:浙江公共数据治理显成效
以公共数据平台“GPS”分域管理为基础,浙江又围绕数据精细化治理、数据高效利用方面发力。通过“数据高铁”、数据回流和数据开放等举措,有力提升数据归集效率,满足各级部门的数据需求,充分释放公共数据的价值。
(一)“数据高铁”提升数据归集效率
当前,浙江不少地方已经用“数据跑路”代替“群众跑腿”。但是,如果数据本身“跑”得不够快,会发生什么?我们曾在实际调研碰到一个真实案例:浙江台州一对夫妻在民政局登记结婚一周后,去公积金中心办理公积金贷款,却被告知暂时查不到结婚数据,无法办理贷款。究其原因,可能是登记在民政系统的数据,未及时共享到公积金系统所致。
数据从“娘家”到“婆家”要翻山越岭,数据共享不及时、数据丢失成为棘手挑战。数据从数源单位到使用单位,不仅慢得像坐“绿皮火车”,而且整个过程如同“黑盒子”。一条数据在传输时平均要中转六七次,任何一个环节出故障都会导致数据错误或丢失。
为从根本解决上述问题,2020年浙江启动了“数据高铁”建设。“数据高铁”消除了数据供应链中间环节,让数据从“起点站”直达“终点站”,保障数据供应一条不漏、一条不差,实现秒级、分钟级的数据更新。
“数据高铁”是对数据供应链的一次重塑。原来,数据归集链路是从数源单位逐级“推”到公共数据平台,越到下游越难把关,出现问题时易推诿扯皮。如今,数据高铁直通数源,需求侧可直接从数源单位“拉”数据,权责简单明了,实现全链路数据可量化、问题可定位、责任可追溯。截至目前,浙江已经开行了36 条数据高铁,“发车”8 亿多次,建成了覆盖全省的数据资源实时调度的网络。
(二)数据回流满足基层数据需求
数据大规模归集到省或市公共数据平台后,还面临一个问题——基层的数据完整性受影响。为解决该问题,浙江实施了“数据回流”。
数据回流是一种自上而下、批量回流的数据共享模式,具体而言,是基于数据分域管理机制,将归集于省公共数据平台的地域数据分批次回流共享至市县公共数据平台,以提高市县公共数据的完整度。浙江在推行数据回流工作之初,曾形象地描述为“数据回家”。
数据回流的操作路径是:各地市在省公共数据平台上建设数据仓,从而共享省平台数据。各地市在省平台上获得的一块供自己使用的空间,可称之为“数据飞地”。
以衢州为例,衢州市为了调用省平台的数据,在省平台上建设“数据飞地”。该“数据飞地”相当于快递中转站,省平台把要寄的包裹(数据)批量放到快递中转站(数据飞地),再寄回衢州分发到客户(数据使用单位)。衢州“数据飞地”与当地公共数据平台互通,衢州也可将本地数据传输至“数据飞地”并进行数据采集任务配置、数据加工。这样,市本级数据又和省平台数据做了一次融合。同理,衢州市下属的柯城、开化、龙游等均可到衢州市公共数据平台建“数据飞地”,实现市域的数据融合。
数据回流很好地满足了市县基层的数据需求,激活了基层的应用创新活力。截至目前,浙江省公共数据平台已向11 个设区市市级平台回流220 个类、累计7.12 亿条数据,同期省大数据局指导各地市按需开展数据向县级平台回流工作。
(三)推动公共数据面向社会开放
数据开放围绕“GPS”中的“S 域”展开。将公共数据开放给社会使用,是推进公共数据开放和应用创新,赋能经济社会高质量发展的手段。浙江在数据开放方面起步早、成效多。截至目前,浙江省已开放公共数据集近2 万个、数据项超9 万个。
为更好地推动数据开放,浙江在制度建设、技术应用、服务支撑等方面进行了系统实践。
首先,完善配套制度。2020年8月1日,《浙江省公共数据开放与安全管理暂行办法》实施,它是全国首部省域公共数据开放“立法”,提出了数据分类分级开放的要求。今年,浙江正在加快制订《浙江省公共数据条例》,进一步完善数据共享和开放制度。
其次,突出技术应用。浙江在省公共数据平台上,基于“S 域”开发了数据“开放域”系统,让数据在脱敏环境下,以“可用不可见”的方式,支撑政府公共数据安全、合规地向社会开放,实现公共数据和社会数据的融合应用。
再次,强化服务支撑。继去年举办首届大赛后,“2021 浙江数据开放创新应用大赛”已鸣锣开赛,大赛以“助力改革· 赋能创新· 智绘未来”为主题,设置了数字经济、数字社会和乡村振兴等七大赛题,目前正在报名阶段。此外,2020年成立的浙江省数字创新实践基地,则是一个集孵化、开发、交流、培训等于一体的众创平台。
三、展望未来:“数据温饱”到“数据小康”升级数据提质
以2021年2月18日正式启动的浙江全域数字化改革为界,可以将浙江省公共数据平台建设可分为两个阶段:
第一阶段,数字化改革启动前,初步解决了公共数据的流通性问题。通过跨地区、跨部门、跨层级共享,让各地政府部门有数可用。如果将数源单位(上游)、公共数据平台(中游)和使用单位(下游)的数据流通链路看成一条“河流”,那么河流的上、中、下游均“有水可喝”,基本实现“数据温饱”。
第二阶段,数字化改革启动后,公共数据的主要矛盾从解决数据流通性转变为提升数据质量。仅实现“数据温饱”已不能满足需求——上、中、下游除了关注是否有水可喝,更关注水质的优劣——数据不仅要有,而且要可用,更要好用、易用。这对公共数据的时效性、准确性等要求更高,数据提质成为普遍需求,“数据小康”的实现势在必行。
提升公共数据质量,是一个上、中、下游合力参与数据治理的过程。放眼未来,数据提质需要以下两个抓手:
(一)设置数据质量认定标准
实际的使用场景,是检验公共数据质量的试金石。为保证公共数据的质量,需要有一整套的评定认证标准并动态、持续监管。这套标准不仅要考虑数据产生的规则,还有考虑数据的使用需求。例如,人口的性别,不能有男、女之外的取值;公民新版身份证号码必须是18位,位数多或少意味着数据质量不过关。
理想的状态是,上游的数源单位在提供数据的时候需附带一份“自测报告”,中游的公共数据平台需提供一份“检测报告”,下游的使用单位在接收到数据后需提供一份“验收报告”。由此一来,数据共享的上、中、下游对数据质量层层把关,形成质量管理闭环。
(二)为公共数据打“质量分”
数据质量究竟如何,可以通过“质量分”来体现。高质量数据应该是真实的、准确的、鲜活的、完整的。因此,数据的质量分也至少应该将这些特点纳入评估的范畴。
例如,某一类本应按天更新的数据,有次过了3 天才恢复更新,影响了数据的鲜活度,就需要扣除相应的分值。再如,一个名为“浙江省近5年婚姻登记数据”数据集,既缺失了台州市数据又不包含宁波市3年以前的数据,那么该数据集的质量分就不及格。
建议政府赋予相关的大数据主管部门以数据“质量分”的打分权限和数据质量监管的职能。类似市场监管局,打造专业的数据质量监管部门。同时,将数据质量分纳入政府部门的考核体系中,实行质量分“晾晒”,鞭策政府内部各数源单位从源头关注并保障数据质量。
数据质量认定标准和“质量分”,组成了数据质量管理和保障的两个抓手。犹如政府对河流的管理,将水质划分为Ⅰ-Ⅴ类标准并实施监测,以促进污水防控、提升水质,实施数据质量认定标准和打“质量分”,也将有效促进数据质量提升。这样,一些高频高质的数据将被筛选出来,数源单位的数据供给模式也将从过去发现问题后进行整改,转变为主动地保障数据质量。
经过持续的公共数据精细化治理,数据质量得到逐步提升,数据供应链将被锤炼得更强。