省级民政大数据平台设计与研究
2022-07-18李烽谢颖
李烽 谢颖
近年来,中国进入了经济高速发展的阶段,全面深化改革取得重大突破,人民群众的生活条件得到了极大的改善。但是,由于社会发展的不均衡,贫富差距较大等问题依然存在,老年人口增长快、规模大,老龄问题愈发凸显。当前,民政部门主要负责人民群众的民生保障、基层社会治理、社会福利、养老服务等方面工作,民政业务涉及面广,数据资源分散在众多业务系统中,民政部门手握重要的基层数据资源,但是未能有效利用和发挥数据资源的价值。因此建立民政大数据平台,通过大数据技术有效利用民政数据资源,发挥数据要素在民政部门的价值,为民政部门“十四五”信息化业务的开展提供支撑手段,是智慧民政建设的当务之急。
(一)数据格式多样,数据标准未统一
民政部门涉及基层社会治理、救助、福利、组织及养老机构管理等多种关系民生的业务,数据资源种类较多,数据格式未统一,需在省、市、县、区、镇、村纵向条线,根据国家部委的数据标准,建立统一数据标准规范体系,为民政业务的持续发展提供基础数据标准支撑和依據。
(二)数据口径不一,数据质量待提高
现有民政业务系统基本属于烟囱式建设,存在数据来源不唯一、不完整、更新不及时等问题,导致数据质量整体不高,缺乏整体的数据服务能力,需建立统一的大数据平台,打破数据孤岛,加强数据质量的管理和优化,为民政大数据应用提供高效的数据服务能力。
(三)数据联通不畅,数据共享需加强
民政内部业务系统较多,由各部门管理和使用,系统之间交互越来越频繁;随着民政业务的发展,与其他委办厅局的业务交互也逐渐增多。随着民政部门内外部数据资源共享交换的需求越来越多,需通过大数据技术,打通内外部数据共享交换的通道,建立统一的数据共享交换系统,有效拓展数据采集深度和广度,不断提升民政数据共享交换能力。
随着民政业务数据规模越来越大、类型越来越多、范围越来越广,为满足民政内外部数据资源的互联互通,实现数据资源的有效管理和维护,需建立民政统一大数据平台,实现民政业务数据化、数据业务化的目标。大数据平台的设计主要包括数据源的分布、大数据支撑平台的建设及大数据应用等方面。
(一)数据源
数据源主要是省、市、县民政部门内部业务数据,以及其他委办厅局、企业、组织等接入的外部共享数据,包括社会组织信息、婚姻信息、殡葬信息、养老机构信息、福利机构信息及留守儿童信息等。
(二)大数据支撑平台
大数据支撑平台是整个大数据平台的基础工具,采用基于Hadoop的大数据技术,包括数据采集、数据存储、数据分析等关键技术,以处理民政相关规模较大的结构化和非结构化数据。民政的数据资源主要分布在各业务系统中,数据来源于多种类数据库,Hadoop工具适用于将关系型数据库的数据导入到分布式文件系统HDFS中。对数据时效性要求不高的数据,可采用Sqoop/DataX等工具,将数据采集到大数据平台中;对于需要实时计算的数据,可采用kafka消息中间件,通过消息队列的方式采集到大数据平台。
(三)数据共享交换平台
数据共享交换平台是省级民政部门横向与其他委办厅局,纵向与部、市、县等民政内部部门数据共享交换的主要通道,主要包括资源目录管理系统和数据共享交换系统。资源目录管理系统是通过对全省民政数据资源进行梳理、编目、注册和管理,让数据需求方能够通过数据资源目录及时了解已有的数据资源,并提供相应的数据查询、订阅等功能。数据共享交换系统是根据数据资源目录的注册情况,以及订阅的数据情况,将通过审核的数据及时共享给其他部门,实现对内对外数据互联互通。
(四)数据仓库设计
数据仓库是将民政业务数据归集后进行加工处理,根据业务数据的发展规律、时间变化以及与其他相关数据之间的关联分析等,为民政大数据应用分析提供数据支撑。民政数据仓库的设计主要分为ODS层、DM层和DIM层:
ODS层与民政内部业务源数据保持一致,主要包括社会救助、基层社会治理、社会福利与慈善、养老机构等数据,以及公安、卫健、人社等有关人口、社保、收入、健康等数据。
DM层是基于ODS,根据统一的数据标准规范,对原始业务数据进行整理加工,梳理、分类和整理成基础的数据资源宽表,主要包括民政机构、行政区划、家庭成员、电子证照等几大类数据,为后续DIM层设计提供支撑。
DIM层是基于DM层基础上进行二次加工,根据业务主题需求进行设计和建模,主要包括婚姻信息、死亡人口、民生保障、未成年人保护及养老机构等主题。
(五)数据资源管理
数据资源管理主要是针对省级民政大数据平台建设过程中,对大数据收集、处理、分析等数据要素全生命周期的管理,包括元数据管理、数据质量管理、数据标准管理及数据安全管理等内容。
元数据管理贯穿整个大数据平台建设全过程,包括技术元数据、管理元数据、业务元数据,制定统一的元数据标准,登记元数据的来源,并能够支持元数据入库、浏览、查询和统计等功能,当发现数据质量问题时,能够追溯数据的来源,并对所有数据资源建立血缘关系。
数据质量管理主要是明确入库的数据资源是否满足完整性、一致性、及时性、准确性等,通过及时发现数据质量问题、反馈数据质量问题,并形成数据质量报告,对有问题的数据进行反馈和纠正,不断提升和优化数据质量,为多源数据融合的分析和挖掘提供保障。
数据标准管理:统一的数据标准规范体系是建设民政大数据平台的先行条件和基础,通过数据标准的管理,确定数据来源的唯一性,消除一数多义的现象,并逐步将数据标准纳入规范的流程,持续对数据标准进行更新、发布和使用监督等。
数据安全管理是在数据归集、处理和分析等全生命周期中的安全进行事前预防、事中保护、事后响应,对数据敏感性进行分级分类梳理,增加用户的数据权限管理,对共享的数据进行脱敏和隔离处理,防止数据泄露,保障数据资产的可控和可信。
(六)大数据应用
大数据应用主要包括社会救助对象用户画像、家庭收入分析、民生问题跟踪分析等。社会救助对象用户画像是根据全省所有救助对象救助情况,对各市、县、区、村的救助对象分布情况,对每年救助资金的额度、救助对象的变化、救助人员的家庭情况等进行多维度的分析和统计,为后续社会救助的补助力度、补助方式等提供有力支撑。家庭收入分析是对家庭成员之间进行关联分析,包括家庭主要成员、工作单位、个人收入、家庭救助情况等信息,将家庭成员的总体收入、家庭收入分布、工作稳定、家庭救助原因、是否存在大病返贫、是否存在留守儿童和老人等进行关联分析,让民政部门更有效的了解全省家庭收入情况。民生问题跟踪分析是基于全省各地区人员、家庭、养老机构、福利机构、救助机构等相关信息,根据微博、微信等公众平台相关民生热点信息,针对群众关心关切问题,通过大数据平台进行多维度统计分析,了解是否存在民生利益未得到保障、基层服务不到位及救灾物资配置失衡等现象,及时对民生问题进行跟踪分析。
省级民政大数据平台的建设是民政部门数据资源有效利用的根基,通过建立规范的数据标准体系,不断加强数据质量的提升,确保数据资源的整体安全有效,实现内外部数据资源互联共享,为民政业务数据化提供大数据服务能力,丰富和提升民政数据资源的资产价值化进程,实现民政业务的大数据应用有效落地。
作者单位:湖南省邮电规划设计院有限公司