蒋汝忠:浙江省公共数据资源建设和利用
2023-10-25浙江数字经济百人会,浙江省大数据发展管理局
近年来,浙江省全力推动一体化智能化公共数据平台建设,形成省市县三级贯通,并与国家平台实现互联的数据平台体系。通过统一的数据平台实现了数据生产、存储、加工、治理、共享、开放的一体化,促进公共数据资源“用起来”“动起来”“活起来”
促进公共数据资源“用起来”“动起来”“活起来”
近年来,浙江省全力推动一体化智能化公共数据平台建设,形成省市县三级贯通,并与国家平台实现互联的数据平台体系。通过统一的数据平台实现了数据生产、存储、加工、治理、共享、开放的一体化。
强大的数据平台是数据“用起来”的支撑。目前,数据平台有40 万—50万台PC 机用户,它们既是数据来源,也是数据用户。后台有接近万台物理服务器,整个服务体系服务超过1 亿用户,包括205 万名浙江省有关工作人员,包括党委、人大、政府、政协、公共服务单位人员等。平台归集了全省的公共数据,成为数据要素“用起来”“动起来”“活起来”的基础。数据服务,更多是数据流服务,是动态服务,也有静态的数据产品。但动态化的数据流服务是数据服务的主流。研究分析数据产品和数据服务时,要摒弃传统静态化思维,要有数字化、网络化的线上思维。
统一的目录管理体系是数据“用起来”的保障。构建全省统一的公共数据目录,将党委、人大、政府、政协、两院、公共事业等所有单位的数据进行归集,形成“一套目录、两级建设、三级运营”数据资源管理系统,已累计编制目录数据项287.3 万项,其中省级28.4 万项、市县级258.9 万项,基本实现应编目尽编目,实现全省公共数据资产“一本账”管理。
批量归集和“数据高铁”是数据“动起来”的两大路径。一是通过批量共享,按时间、分批量将每个单位的数据都归集到一个数据仓库里,目前集中共享数据占数据使用场景的一大半。二是建设“数据高铁”,即数据实时交换系统,任何一个系统出现数据变化(包括新增和变化)时,都通过“数据高铁”实现同步更新,有效促进数据“动起来”。需要强调的是,数据的集中并不一定意味着安全风险的上升,分散的数据更容易产生风险。
分级分类是数据“用起来”的基础。数据产品与一般产品不同,归集后不能直接使用,需要针对不同数据产品进行分级分类管理。按照全国信安标委《网络安全标准实践指南——网络数据分类分级指引》,浙江制定了《数字化改革 公共数据分类分级指南》地方标准,将所有字段按照L1、L2、L3、L4 分成四类。比如人口户籍数据表(如图1),身份证号码、姓名等字段列为敏感(L4),泄露之后可能对人的名誉造成伤害的字段列为较敏感(L3)。
图1 人口户籍数据表
数据共享与开放是数据“用起来”的核心。数据共享主要包括批量共享、接口共享等两种方式,其中批量共享是定时把更新的数据批量共享数据需求方,接口共享可以实现数据的实时调用。截至目前,浙江省平台开发接口5007 个,2022 年1 月至今被调用801.1 亿次。数据开放主要是依托一体化智能化公共数据平台建设全省统一数据开放网站,11 个地市建立数据开放分站点,包括注册实名后即可申请直接下载或接口服务的无条件开放,以及需要申请审核的有条件开放两种方式。
授权运营是公共数据发挥价值的重要方式。制度层面,浙江省大数据局正在积极推动《浙江省公共数据授权运营管理暂行办法》制定工作,将着力解决“谁来授权、授权给谁、怎么授权、授权什么、授权数据怎么用、如何安全监管和激励评价”等六方面问题。技术层面,在线使用是数据要素与其他商品的重要区别,目前浙江正在一体化平台架构体系里开发建设授权运营域系统,包括省、市两级授权运营域。数据交易场所可以在授权运营域中建设节点,从而实现交易所、用户与公共数据平台之间的数据流通。
数据安全是数据“用起来”的底线思维。整个数据价值利用中最重要的是底线思维,即确保数据安全。目前,浙江省大数据局正在围绕“进不来、拿不走、看不懂、改不了、赖不掉”等“五个不”,进行技术能力、管理体系和运营体系的建设。聚焦“五个不”,通过重点数据表设置分类分级、权限管控、数据加密、数据脱敏、数据水印等七大能力,推进重点数据表全链路防护。
公共数据平台和政务服务大模型的关系
公共数据平台在确保公共数据安全前提下,实现高质量数据供给,促进数据受控高效流通使用,推动可信数据赋能,激活数据要素价值。公共数据平台通过数据知识化管理,为政务大模型提供海量高质量数据支撑。政务大模型通过提供智能化、多样化服务,提升公共数据平台智能化水平。
现在大模型火爆发展,但真正用起来需要解决两大问题,一是价值观的对齐,使用不同数据训练出来的模型可能会具有完全不同的价值观。二是确保数据安全,需要进行私有化部署,这其中既涉及新开发大模型的产权归属问题,还涉及公共数据运营需要破解的问题。当前的大模型基本都是语言模型,需要经过一定时间训练应用才能真正发挥作用。直接依据互联网数据新开发的大模型,没有精准优质数据的支撑,是无法直接支撑严肃的业务活动的。
下一步,围绕激活数据要素价值,浙江省大数据发展管理局将主要开展两方面工作。一是以“一机制、四清单”为抓手,完善需求征集分析机制,做好回流数据质量治理清单、数据产品开发清单、重点开放数据需求清单、数源单位数据治理及业务数字化建议清单等“四清单”管理;二是建立健全公共数据全链路防护体系,依托浙江省公共数据平台建设自然语言处理、知识图谱两大能力中心,探索建设政务大模型,提升平台智能化水平。