城市自然人公共数据资源体系建设
2022-07-07刘辰昀潘佳
刘辰昀 潘佳
(上海市大数据中心 上海市 200072)
1 引言
当前,数据已成为国家发展的战略性资源,而城市公共数据记录了城市运行过程中各主体的属性和行为信息,包括人、机构组织、地理空间等,在公共服务和社会治理工作中具有重要价值。为此,各地方展开相关探索与建设,如深圳市构建城市整体公共基础信息资源库,其中,人口基础信息资源库,汇聚了教育、人社等部门数据,实现个人从出生到死亡相关数据大融合;浙江省构建实有人口基础信息资源库,并通过政务服务平台为社会管理、政务服务等提供人口数据基础服务、数据共享及决策支撑。
虽然各地建设取得了一定成效,但仍然存在数据价值未充分发挥、多元化场景需求响应不足、公共服务精准水平待提升等问题,且随着公共服务、城市治理多样化场景需求的不断演变,对于探索城市公共数据资源体系及应用建设模式也提出了全新的挑战。
本文以上海市大数据中心(下简称“市大数据中心”)实践为例,从自然人全生命周期角度出发,探索城市自然人公共数据资源体系及应用赋能建设,为促进公共数据高质量治理,提升公共服务、城市治理精细化水平,提供可复制、可推广的思路经验。
2 建设思路
上海市为加快城市公共数据资源整合、治理及应用,进一步加快政府部门数据开放共享,出台系列政策措施。2021年出台《上海市数据条例》,明确提出公共数据定义,并对自然人等公共数据权益保障、共享开放、开发利用等进行规定。上海城市数字化转型要求推动公共数据与社会数据融合应用,实现跨行业、跨层级、跨系统数据互联互通。2021年公共数据治理工作要求进一步健全数据治理体系,提升公共数据治理能力,深化自然人等3大综合库及公共信用等主题库建设及应用。市大数据中心作为上海市城市公共数据管理主要单位,围绕自然人全生命周期,为构建自然人数据体系,提出以下思路:
2.1 面向场景化需求驱动,丰富自然人数据资源
结合场景需求,如免审即享,开展数据资源查漏补缺工作,推进数据应归尽归。基于自然人生命周期属性特征和行为信息,进行资源编目、资产梳理、业务分域等工作,开展顶层规划,理清自然人数据体系归属和权责。
2.2 构建规范化治理体系,实现数据高质量生产
基于DAMA数据治理相关方法论,规范数据治理体系,形成从资产编目、归集清洗、融合加工到共享开放的全流程治理服务,将原始、分散、多样化自然人数据形成可利用、可分析的自然人数据资产。
2.3 开展数据标签化建设,深度挖掘数据价值
提炼业务场景数据需求,将共性、通用数据集合融合开发为数据标签,促进数据从“可用”向“好用”、“易用”转变;构建自然人画像,实现人群自动化匹配,变数据服务“被动”为“主动”,提升公共服务精准性和高效性。
2.4 打造高效多元共享服务,赋能多元化应用场景
梳理数据权责归属,构建市/区两级互动机制,规范数据共享流程,提升共享效率,实现数据属地返还。探索涵盖数据交换、订阅、应用服务等多样化数据服务模式,为自然人多元化应用场景提供精准、高效数据赋能支撑。
2.5 形成常态化运管机制,为数据赋能保驾护航
提供质量、安全、标准、运营等管理支撑,并形成数据从需求、到治理、到应用的闭环运营机制,正向以需求为驱动,为场景提供高质量、高效能数据赋能支撑;反向以使用成效为依据,促进自然人数据体系完善优化。
3 建设框架
打破传统分散数据资源建设方式,采用统一规划、按需驱动、多级建设、闭环保障等原则,形成从资产管理、归集清洗、融合开发到共享服务、运营保障的端到端的数据体系及治理模式。如图1所示。
图1:端到端自然人公共数据资源体系建设框架
首先,围绕自然人从出生到身故的全生命周期场景,梳理资源目录;其次,归集数据提供方相关数据,并清洗加工形成自然人基础数据;然后,基于场景驱动,规范数据标准,进行数据融合和分层分域,建成婚姻、死亡等系列专题库;同时,开展自然人标签建设,形成基于“一人一档”的标签服务和群体画像,提升数据易用性、挖掘潜在价值;最后,确保数据安全规范,提供多样化共享服务,实现数据属地返还、共享共建。此外,更加强调运营保障机制建设,重点提供需求主动挖掘、评价反馈、数据安全、质量管理等措施,以提升自然人数据体系在供需流通过程中的高效、安全、精准服务能力。
4 建设路径
4.1 数据资产管理
通过统一规划和常态化管理,提升自然人数据体系共享开放价值,实现混沌资产向可共享、有价值资产转化。如图2所示。
图2:自然人数据资产管理体系
4.1.1 数据资源编目
公共数据资源目录是实现信息资源共享、业务协同和数据开放的基础,通过数据资源编目,开展信息资源分类、元数据描述等工作,实现政务数据资源目录的集中管理、统一发布、动态更新、共享使用。数据资源编目具体包括做好待归数据准备、新增资源目录新增、资源目录审核等流程。
4.1.2 数据资产梳理
基于城市公共数据资源统一纳管,进一步开展自然人数据盘点,摸清自然人数据范围、业务归属,便于数据使用和价值挖掘。
(1)自然人资产梳理。梳理1.9万条公共数据资源目录,并结合自然人业务关键字做进一步排查,提取6000+条自然人数据资源,依据业务属性,将自然人数据资产划分为如表1中的5大一级分类、18个二级分类、62个三级分类。如表1所示。
表1:自然人数据资产主题分类
(2)核心资产梳理。针对自然人数据高频共享需求目录,梳理TOP 50数据资源,作为核心资产目录。如职工参保情况等。
(3)基于事项场景梳理。梳理自然人重点事项,重点关注办事事项、服务对象、材料目录、关联标签目录等信息,以丰富标签体系。
4.1.3 数据资产治理
开展常态化治理工作,围绕数据资产“发现、登记、归集、使用”生命周期,针对资产信息变更,如元数据模型、数据标准、目录标签、数据字典等,持续优化数据资产管理能力,实现数据资产价值社会化。
4.2 归集清洗
基于数据归集系统,对各委办推送数据开展采集,同时制定归集策略、归集方式、入库后命名规范等,并开展数据归集任务。
数据入湖后,存入采集存储层(ODS),与源端数据保持一致,开展数据清洗加工,基于系列规则重点解决数据重复、缺失、不准确、不一致等问题,清洗完成数据存入清洗转化层(DWD)。如图3所示。
图3:数据归集清洗业务流程
同时,针对数据多源导致数据统计结果不一致、权责不清、数据更新不及时等问题,重点开展数据源工程和数据质量监控等工作。
(1)开展数源工程。按照“一数一源、一源多用、多元校核”原则,除人口办人基本信息为唯一主体数据外,引入其他数据源对数据进行校验,同时明确数据业务权威性,确立业务协调机制(如婚姻状态权威等级,民政>国家接口>高院>公安),实现数据源信息精准有效。
(2)归集时效性。数据源部门按要求及时推送数据。业务数据汇聚有三个时间节点,即业务发生时间、数据录入及推送时间,业务发生后至完成推送间隔应小于2小时,每批次数据到达时间偏差小于5分钟。
(3)数据质量监控。建立事前质量监控机制,开展数据异常监控及告警工作。如波动性监控,判断数据归集时的波动情况;及时性监控,对数据归集是否及时完成进行监控;一致性监控,对采集与入库的数据记录数进行一致比对。
4.3 综合库开发
4.3.1 专题库建设
为更好地提供高质量数据支撑,开展基于业务专题数据模型建设,是自然人数据体系价值挖掘核心成果。如图4所示。
图4:专题库建设内容
(1)建设内容。基于自然人生命周期相关数据,按照急用先行原则,逐步构建照片信息等3大基础专题库,婚姻、死亡、疫情防控等9大业务专题库,并持续探索更多专题库,如涉事涉法、奖励荣誉等。
(2)建设模式。通用类专题,市大数据中心主导,建设面向通用数据资源专题库,如自然人基础信息;业务类专题,鼓励委办或区参与建设,依据特定场景需求,自主主导专题库建设,市大数据中心提供技术和规范管理保障。
(3)数据模型。专题数据分为业务数据和分析数据两类,业务数据是指应用系统产生的源头业务数据;分析数据则是指依据场景需求对业务数据进行加工衍生出的高价值分析数据。如图5所示。
引理 5 当9-点v关联4个三角形,且它的邻点均为3-点,则这4个三角形中如果有3个为穷的,第4个三角形一定为富的。
图5:专题库的数据组成及衍生关系
4.3.2 自然人标签建设
围绕个人属性和行为特征,整合形成具象知识,形成自然人系列标签,标签基于原始数据融合加工得来,为业务所用并产生价值。
(1)架构设计。基于数仓方法论,依据不同属性,对数据湖、专题库等数据进行分类形成明细数据层;并完成定性、定量标签建设,形成基础模型层;最后,根据业务规则进一步提炼,形成标签数据层;并通过共享层对外提供服务。如图6所示。
图6:自然人标签体系数据架构设计
(2)体系与分类设计。围绕自然人生命周期,整合沉淀相关主体(人/事/物)特征知识,形成标签体系(如图7),其中,属性标签是某一类对象属性、特征、信息的直接描述;计算标签是原始数据基于一定公式的函数运算,如规则运算、正则表达;业务标签是基于业务需求对原始数据的深加工,或将属性标签、计算标签组合嵌套,面向具体场景业务需求的高抽象类标签。
图7:自然人标签体系建设与分类
(3)生命周期管理。自然人标签生命周期主要为标签探索、开发、上线、下线。标签探索研究标签如何生产,一是基于需求,对现存专题库进行标签开发;二是主动挖掘,结合服务事项开展政策研究,探索并丰富标签体系。标签开发是依据业务规则进行数据融合开发,并完善相关元数据信息,如存储字段与表名、标签状态与分类等。标签上下线由业务人员和开发人员基于规范完成标签的审核、测试、上下线、维护、监控等工作。如图8所示。
图8:自然人标签生命周期管理流程
4.4 共享服务
针对供需匹配不佳、共享时间长、流程冗余、服务方式单一等问题,创新提出“三清单一目录”需求管理机制、以场景为基础的1515授权共享机制,基于自然人标签,打造多元化应用及场景服务,提升数据服务易用、好用性,实现数据高效赋能公共服务、城市治理。如图9所示。
图9:自然人数据资源共享服务体系
(1)共享服务机制。需求管理方面,依据需求、责任、负面三清单,推动数据源单位主动归集数据。开展属地返还工作,将各单位推送数据或标签,通过标准化处理后,返还给各单位,实现市/区两级数据共享共建。共享服务效率方面,围绕“高效办成一件事”、“一网通办”等应用,打造1515授权共享机制,实现高效共享。
(2)共享服务模式。提供数据交换、标签服务、场景服务三种服务模式。提升数据共享效率和有用性,结合一人一档、用户画像服务理念,打造自然人标签共享服务,包括标签查询,提供当前个人状态核验、属性数据查询等,如购房资格是否符合;客群推送,通过个性化业务条件筛选目标人群,推送需求部门,如帮扶人群推送等。此外,基于通用需求和案例场景沉淀思路,构建场景化服务共享能力、打造场景模板、固化通用能力,为新增场景需求提供快速支撑。
4.5 管理运营保障
基于高价值数据治理和需求场景运营,提出对数据开发全周期常态化服务保障,是实现自然人数据体系开发规范化管理、促进质量提升、精准触达业务需求,以及保障数据对外安全服务的关键举措。如图10所示。
图10:运营管理保障服务
(1)数据质量。提出多方驱动质量提升举措,一是通过质量工具,对数据归集、共享全过程开展主动质量稽核;二是构建异议核实机制,面向各区、委办提供问题反馈渠道,并由中心统一进行处理;三是输出运营报告,按月梳理全市大数据资源体系建设情况,构建数据质量评估模型,对各委办数据质量优劣进行评分、排名、公示,促进源端数据质量提升。
(2)标准规范。开展标准规范编制,规范各单位、各团队数据治理规范性。一是完善自然人系列工作流程与规范,全面提升各环节工作规范性;二是基于上海市数标委相关要求,编制专题库配套数据标准。
(3)数据安全。严格遵照市大数据中心安全规范,保障数据全生命周期安全管控,重点针对数据明文流转、易暴露等风险,引入xID技术,实现核心、重要数据字段全流程密文传输,实现数据去标识化、匿名化。
(4)场景运营。建立场景运营机制,组建专业团队开展政策分析、需求调研、服务分析等工作,提升业务领域认知,输出多类型数据服务能力,为多样化场景提供数据赋能支撑,同时形成数据责任清单、查漏补缺,反推数据源部门未归数据的应归尽归,促进自然人数据体系完善。
5 实践成果
基于本文所提建设框架与路径,结合上海市当前实践,为城市公共数据资源体系发展,数据高效、高质量赋能公共服务、城市治理等提供思路与经验。
5.1 自然人公共数据端到端治理机制
以自然人数据体系高质量输出为驱动,形成常态化端到端治理机制,包括资产编目、归集清洗、融合开发、共享开放等,支撑自然人数据体系构建与完善,确保数据规范管理、促进质量提升及对外提供服务的运营保障。
5.2 自然人公共数据资产体系的构建
形成包含数据资源、专题库、标签库的自然人数据资产体系。完成全市30余个部门近350亿条数据的汇聚治理,编制近7500个资源目录,建成死亡、婚姻等10余个专题库,生产基本信息、社会活动两大类300+个数据标签。
5.3 自然人相关业务场景及应用赋能
为上海市一网通办、一网统管等公共服务、城市治理场景提供数据服务,助力城市高效能、稳定、安全数字化转型。目前已为上海市全市近50个部门的社保、教育、税务、民政、交通、住房、金融及一网通办、疫情防控等方面的360余个场景提供数据支撑,开发完成9700余项自然人数据资源、近百个数据接口服务,实现数据接口服务调用20000多万次。
6 结论建议
本文以自然人生命周期行为及政务需求为驱动,提出端到端自然人公共数据体系建设模式。实践表明,高价值数据资源、多元化数据服务模式、可持续闭环运营保障机制,是政府数据推进公共数据资源开放、提升政务公共服务体验的关键保障。未来建议从以下三方面开展持续建设:
6.1 持续丰富自然人数据资源与专题库的建设
自然人数据体系建设是一个长期持续、逐步完善、常态化开展过程,且自然人数据也会持续产生,因此,需以“需求-应用”与“场景-需求”两方向互动机制,持续推进资源体系的完善建设。同时,在当前12个专题库基础之上,挖掘更多场景需求,实现更多专题库建设,如奖励专项、救助专项等。
6.2 持续探索数据服务模式及多类型场景应用
持续为场景提供赋能才能发挥自然人数据体系的真正价值,未来应更加重视场景赋能价值、营造城市服务新体验,第一,应探索更多类型数据共享模式,如自然人指标体系,为多元、多变场景需求提供高效、便捷的数据服务;第二,基于现有已支撑场景,挖掘其他更多场景,如免审即享、一件事办理等。
6.3 持续开展自然人数据治理保障能力的提升
数据治理能力提升,是自然人数据体系高质量、高标准、高稳定输出的保障,应持续加强数据质量、标准、安全管理能力建设,促进自然人数据质量的持续改进,为自然人场景服务高效运转提供坚实数据基础,确保自然人数据全生命周期的安全流转。