APP下载

智慧城市中政务数据清洗融合系统设计

2020-03-15田淼田继亮

电子技术与软件工程 2020年23期
关键词:数据源政务标准

田淼 田继亮

(1.兰州理工大学 甘肃省兰州市 730050 2.深圳市华傲数据技术有限公司 广东省深圳市 518110)

大数据时代的到来,全球数据规模呈现爆发式增长,据国际数据资讯(IDC)公司监测,全球数据量大约每两年翻一番[1]。随着互联网技术的不断发展和社会治理要求的不断提升,世界各国政府和组织对此有着高度的认识,纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手,积极推动实施大数据技术的研发和应用落实[2]。因此,深入探究政务数据清洗融合技术,构建政务大数据环境下的数据标准体系,对解决政务数据清洗融合的难题,贯彻国家政务大数据战略具有重要的实践意义[3]。

1 政务数据融合需求分析

建立政务数据标准规范体系。基于智慧城市中各类专题库,对现有的国家、地方、行业等标准,结合省、市等地方标准进行标准编码。对于当前尚无标准的政务数据,根据具体项目的建设要求,制定对应的数据标准规范,以确保数据标准的统一,保证数据在不同政府部门间的共享、交换。

建立数据质量管控体系。对政务数据做到全生命周期的质量管控,完善数据质量稽查规则,借助数据稽查、数据质量评分和质量工单等功能,对问题数据进行“及时发现—快速反馈—高效修复”的数据回路管理[4]。

完善技术支撑体系。针对政务数据结构多样、数据量庞大、质量低下、敏感性强等特点,选取专业的大数据领域数据仓库代替传统的数据库优化数据存储,在数据抽取(Extract)、转换(Transform)、加载(Load)的过程中优化ETL 过程提升融合效率,运用加密算法对敏感数据进行数据加密保证数据的安全性。

2 政务数据清洗融合系统设计

根据智慧城市政务数据融合需求,结合实际业务场景,从政务数据创新应用的角度,提出了政务数据清洗融合系统的设计框架(图1 所示)。

2.1 政务数据全生命周期管理

政务数据的生命周期是数据融合的时间标尺,数据融合服务于政务数据的全生命周期,有效进行政务数据的全生命周期管理,是保障政务数据有序梳理、高效融合的基础。全生命周期管理分为技术域管理和业务域管理两方面,技术域管理按照数据建模、数据清洗、数据集成、数据调度等数据融合的流程建立时序里程管理;业务域管理按照政务业务流程建立业务里程管理。

2.2 技术支撑

相对于某一特定领域的数据,政务数据具有结构多样、数据量庞大、质量低下、敏感性强等特点。针对政务数据的特点,相较于传统的数据融合技术,采用Hbase、Hive 和Mppdb 等大数据领域的数据仓库来代替传统的Mysql、Sql Server 等轻量级数据库,提升海量结构化、非结构化和半结构化政务数据的存储和查询效率;引入Kettle 等ETL 工具,针对不同的数据格式,运用分布式并行流程代替传统的串行流程,提高数据抽取、转换、加载过程中的效率;对例如身份证号等敏感数据,借助Base64 和MD5 等加密算法,在保证数据唯一性的同时,对敏感数据进行脱敏处理。

图1:政务数据清洗融合系统框架

图2:政务数据融合流程

2.3 数据源管理

由于政务业务部门众多,业务系统繁杂,导致各个业务系统数据源的多样性,存在结构化、半结构化和非结构化等结构各异的数据。清洗融合系统根据不同数据源的情况,选择不同的数据对接方式,通过库-库对接或库-表对接等方式,有效对数据源进行管理,完成数据归集,从而解决不同数据源的数据异构问题。

2.4 安全标准规范

政务数据有极高的敏感性和保密性,且蕴含着巨大的价值,数据安全问题也掣肘着电子政务的发展。在智慧城市数据融合项目的实际建设中,安全标准规范主要包括以下几点:

(1)按照国务院办公厅电子政务办公室发布的《国家政务服务平台安全接入检测要求》,构建等保三级以上的数据安全防控体系。

(2)根据实际业务需求,针对不同系统用户,分配相应的操作权限。

(3)对系统用户的所有操作实时监控,并对删除等高危操作进行告警,所有的操作均形成系统审计日志,完善数据溯源问责机制。

(4)对系统进行高可用双机部署,定期对数据进行备份,谨防突发情况下的数据丢失。

(5)提供数据脱敏、水印功能和数字签名功能,确保敏感数据的隐私安全。

2.5 数据标准规范

政府业务部门众多,存在跨层级、跨地域、跨系统、跨部门、跨业务的各种业务系统,数据间的异构现象严重,数据质量参差不齐,因此构建统一的数据标准体系,是各级政府部门实现信息互通、数据共享、协同办公的基础。在智慧城市的数据融合过程中,需做到以下数据标准规范:

(1)元数据标准。采集全生命周期的元数据,针对全域元数据,按照建设需求和实际情况,进行长度、唯一性、重复性、非空性、最大/小值、数据结构的标准核查,并生成数据表之间的元数据地图,对元数据质量和走向进行集中管理。

(2)数据编码标准。对现有的国家、地方、行业等标准,结合省、市等地方标准以及实际建设需求,进行标准编码,形成数据编码字典,确保数据编码标准的统一。

(3)数据质量标准。针对不同数据,配置相应的SQL 规则、值域规则、正则规则等数据质量稽查规则,对数据的重复性、唯一性、准确性、时效性等指标进行数据稽查,生成质量评分。对于可用技术手段修复的数据,借助数据清洗规则和ETL 工具等技术方法进行数据修复;对于不可用技术手段修复的数据,通过数据工单形式进行数据溯源的人工修复。

(4)数据流程标准。按照时序的先后,政务数据融合主要遵循流程如图2 所示。

2.6 历史层融合

历史层在最靠近数据源的位置,在不对历史数据进行任何处理、保证政务数据全生命周期完整性的情况下,对源数据进行数据分析与建模,要点如下:

(1)在对历史数据进行建模前,需参考业务属性,分析数据对于智慧城市建设的重要程度。对于公安局、民政局、住房和城乡建设局、市场监督管理局、经济发展局等包含大量人口、法人、房屋、经济指标的数据,划分为核心数据;其余数据划分为辅助数据。按照数据的重要程度,为每个业务数据分配属性权重,确保对于数据质量的控制需求。

(2)在对历史数据进行建模时,针对不同数据,确定数据的数据类型、长度、增量/全量抽取、数据更新频率,在合理分配存储空间的前提下,保证数据的时效性。

2.7 清洗层融合

清洗层是数据清洗融合的核心部分,清洗融合的数据与政务业务紧密相关,包括数据字典映射、数据格式转换、潜在数据提取、业务数据核检、数据关联。要点如下:

2.7.1 数据字典映射

根据数据编码规范,建立数据字典编码,形成数据与编码的键值对(key-value)映射,通过数据字典关联出与代码数据项对应的数据。例如,我们想要将表示性别“女”的数据都转化成国家标准编码“02”,需建立一个数据字典映射,其中“键”的取值是所有性别“女”不同表示方式的集合,“值”是最终需要统一的“02”:

“女性” → “02”

“女” → “02”

“woman” → “02”

“famale” → “02”

2.7.2 数据格式转换

将同一类型、不同格式的数据,配置清洗规则,通过ETL 过程,转换形成相同的数据格式,以时间类型数据为例:

“2000年1月1日” → “2000-01-01”

“20000101” → “2000-01-01”

“2000.1.1” → “2000-01-01”

2.7.3 潜在数据提取

针对源数据,通过技术手段提取数据中心存在的潜在数据,提升数据的完整性。以身份证号为例,1-6 位可提取区划代码,7-14位可提取出生日期,第17 位可提取性别。

2.7.4 数据关联

根据专题库的模型,将清洗标准化后的来源数据基于核心数据进行关联,根据数据的业务属性汇聚形成多个窄表,每一个表只存储某个业务属性的数据。此时表与表之间的数据不冗余,源与源之间的数据是冗余保存的,这样既保证了灵活性,又使得数据溯源变得非常方便。

2.8 专题库

专题库在智慧城市的建设中起到了承上启下的作用。专题库根据建设需求,构建人口、法人、房屋、网格、宏观经济等主体指标,基于清洗之后的核心数据关联,结合UC 矩阵的思想进行数据合并和去重的处理,针对各个政务部门数据的权威性进行优先级的配置,减少数据冲突,解决了数据的多义性,提升数据的准确性,是政务数据清洗融合后按专题指标进行的集中展示,也为数据下一步使用做好铺垫。

3 结语

政务数据清洗融合系统的设计,运用大数据仓库、数据可视化、数据挖掘等前沿技术,对各个政务部门数据资源进行有效整合,针对存在的问题,将大数据技术与政务业务相结合,提出了政务数据清洗融合平台的设计框架,该框架紧密联系实际业务需求,优化了数据的存储、抽取、加载过程,明确了数据流程走向,有助于建立“用数据说话、用数据决策、用数据管理、用数据创新”的管理机制[5],对智慧城市中的数据融合具有实践价值和参考意义。

猜你喜欢

数据源政务标准
2022 年3 月实施的工程建设标准
忠诚的标准
美还是丑?
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
政务
政务
政务
政务
一家之言:新标准将解决快递业“成长中的烦恼”