多源异构数据时空融合关键技术研究与应用
2021-11-14李仕峰
李仕峰
(1.重庆市地理信息和遥感应用中心,重庆 401121)
信息技术与经济社会的交汇融合引发了数据迅猛增长,数据已成为国家基础性战略资源,大数据正日益对全球生产、流通、分配、消费活动以及经济运行机制、社会生活方式和国家治理能力产生重要的影响。随着社交网络、在线购物、外卖配送、工业互联网、网络游戏等数字空间形态快速迭代[1-2],以及政务信息化建设和数据开发工作的不断推进[3],为各行各业积累了海量的多源异构数据。在形式上包括数据库、文本、图像、语音和视频[4-5]等,在内容上覆盖经济社会发展的方方面面。如何将这些数据进行有效整合,发挥数据的倍增效益是业界关注的重点。国家及各级地方政府也对相关技术提出了明确的技术需求,特别是对异构数据融合、大数据提取整合、大数据开放服务等。
基于上述背景,本文针对时空大数据多来源、多粒度、多模态、海量和时空关联复杂等特点,通过对多源异构数据汇聚技术、时空数据融合技术的研究,构建一整套多源异构数据从汇聚-融合-应用流程,以推动多源异构数据在政府决策、行业管理和社会公众等领域的应用,提升政府数据分析和治理能力、提高行业管理的经济和社会效益、增加多源异构数据的社会应用价值。
1 研究技术路线
本研究设计了一套涵盖“源数据获取-数据质量评估-数据清洗-数据转换”全过程的多源异构数据时空融合的技术路线,如图1所示。
图1 技术路线图
1)源数据获取是开展多源异构数据应用的基础,需要在了解源数据基本情况的基础上,建立支撑多源异构数据汇聚与采集的技术和工具,保障数据 来源。
2)数据质量评估是在获取数据资源的基础上,参照相关行业标准和实际应用需求,建立数据质量评估的依据,基于此对数据质量进行评估,形成评估结果,指导后续的数据融合与清洗。
3)数据清洗是在质量评估的基础上,针对不同数据的应用需求,建立数据清洗规则和模型,对数据进行清洗,以得到正确的数据。
4)数据转换是针对非空间数据进行空间化处理,形成时空数据。
基于上述技术路线,将源数据获取转化为多源异构数据汇聚技术的研究,数据质量评估、数据清洗和数据转换转化为时空数据融合技术的研究。
2 多源异构数据汇聚技术研究
建立一种多源异构数据共享交换引擎,提供文件、数据库、服务接口等多源异构数据的共享汇聚能力[3-4],实现数据在线汇聚、自动解析入库、数据标准化处理、在线编辑审核、资源化发布等。数据需求方直接从数据提供方实时获取所需的数据,不再从传统的数据集中获取,以API数据接口为载体,实现数据按需响应、按需服务、按需获取,如图2所示。
图2 数据交换引擎
共享交换引擎支持数据库、数据服务、数据文件等多种共享方式,建立起支持多源异构数据共享交换的高速通道,具备无障碍的数据接入能力,适配各类政务数据资源类型。支持Oracle、MySQL、SQLServer、PostgreSQL等主流数据库;支持Webservice、Http、Rest等多种类型服务接口;支持OGC、ArcGIS等多种类型空间数据服务;需支持各类表格、文档、图片等文件格式。
1)数据库交换通道。基于数据提供方开放的数据库地址、端口、用户、密码等连接信息,利用JDBC技术,建立数据共享交换通道,数据需求方直接从数据通道内连接获取所需的数据,不再从传统的数据集中获取存储,实现数据按需响应、按需服务,支撑业务协同,支持Oracle、MySQL、SQLServer、PostgreSQL等主流数据库。
2)数据接口交换通道。利用WebService接口技术,基于数据提供方开放的数据接口地址、调用参数、返回接口等服务调用信息。通过XML、Json数据获取与解析,建立数据共享交换通道,数据需求方直接从数据通道内接口调用所需的数据,不再从传统的数据集中获取存储,实现数据按需响应、按需服务,支撑业务协同。支持WebService、Http等多种类型服务接口,同时支持OGC、ArcGIS Services等多种类型空间数据服务,支撑地理信息数据共享 交换。
3)数据文件交换通道。对应采用文件离线共享方式的数据,通过文件上传、文件FTP、文件HTTP等方式,基于数据提供方准备上传文件、FTP服务地址、HTTP文件URL等信息,建立数据共享交换通道,数据需求方直接从数据通道内获取所需的数据,不再从传统的数据集中获取存储,实现数据按需响应、按需服务,支撑业务协同。需支持各类表格、文档、图片等文件格式;支持文件上传、FTP文件共享、HTTP文件服务等多种方式。
3 时空数据融合技术研究
数据可能于某一时间、空间、人物、事件或者对象是相互关联的,现有的数据组织和处理并未充分体现这些关联性,而这些关联性往往对解决城市的管理与服务问题具有重要价值[6-7]。为此,本文提出了一套时空数据融合技术架构,由数据集成引擎、数据集成组件库、数据集成建模工具、数据集成模型治理、元数据仓库等组成,如图3所示。
图3 数据融合系统架构
1)数据集成引擎:是数据融合的核心,负责解析数据集成模型定义、处理请求、处理引擎自身的模型调度等。数据集成引擎基于数据流的数据结构处理,可以满足大规模数据的并发处理。
2)数据集成组件库:包括一组与数据集成相关的服务构建,通过丰富的组件,开发人员可以在集成开发环境下基于可视化的组件图元快速开发出高效的数据处理模型。具体包含数据抽取组件集、数据装载组件集、数据转换组件集、数据质量检查组件等。
3)数据集成建模工具:基于SWT技术开发的可视化流程设计器,提供可视化数据模型定义与调试、可视化的模型性能监控、元数据管理以及数据处理模型部署等功能。
4)数据集成模型治理:是系统管理监控与任务调度工具,可以通过它对数据处理模型以及数据处理引擎进行配置和管理,对开发过程实现规范化、调度管理统一化、监控可视化等。同时也可以与第三方处理引擎实现互补,增强其统一调度、全局监控等 功能。
5)元数据仓库:用于保存通过数据集成建模工具构建的数据处理模型,支持Oracle、DB2、Syabase、MySQL、MS SQL Server等多种关系数据库,同时可以基于文件形式进行模型存储。
3.1 基于增量的数据抽取技术
1)基于触发器的增量数据抽取。需要在业务数据库中针对增、删、改三种操作建立触发器,并由触发器将变化的数据写入临时表中,最后从临时表中读取数据,实现增量数据抽取。
2)基于日志文件的增量数据抽取。使用数据库本身的日志系统,读取并解析数据库的日志文件,然后在目标数据库中进行相应操作。
3)基于时间戳的增量数据抽取。在源数据库与目标数据库都必须有时间戳字段的前提下,先读取目标数据库中的最大时间,然后以这个时间作为参数从源数据库中读取大于这个时间的所有数据。
3.2 基于业务模型的作业调度技术
基于业务模型的作业调度技术逻辑架构图如图4所示。
图4 作业调度逻辑架构
1)监控和管理控制台。管理控制台是用户设计调度作业、进行调度监控和资源监控的控制界面,有两种用户角色:管理员和操作员,管理员具备平台所有的操作权限,操作员只能监视系统运行状态,以及作业异常时允许有限的管理功能。
2)调度引擎。调度引擎接收作业触发监控接口的作业输入,然后检查作业的依赖关系,通过资源管理器的资源分配将作业分发到调度代理执行作业。
3)作业触发监控接口。是调度引擎的输入组件,它以控制文件的方式对外提供服务,接收器定时扫描接收目录中的控制文件,并且扫描间隔可以定制。
4)作业流执行策略。作业流定义了一组具有相互依赖关系的作业。作业流执行策略定义了作业失败后的执行策略,包括作业失败后的重试策略(失败后从断点执行还是从头执行,失败重试间隔,失败重试次数)和是否检查上次状态(如果检查,失败后不能自动运行,需要干预后重置状态)。
3.3 数据质量评估技术
针对数据质量的重复性、关联性、正确性、完整性、一致性、规范性6个维度,从数据本身的特性及业务角度,对数据进行标准符合性检查,并输出质量评估报告,如图5所示。
图5 数据质量评估体系
3.4 数据转换技术
采用地址匹配、数据关联、实体融合、位置转换 4种方式,开发数据处理、清洗、转换等多类组件,构建起了多模式组件化时空数据自动转换技术,如图6所示。
图6 数据转换技术流程
4 成果应用
本研究依托于重庆市时空大数据服务平台,开展了面向全市智慧城市建设的诸多应用,累计为全市60多个市级部门提供时空大数据服务,取得了良好的经济和社会效益,有力推动了重庆市新型智慧城市建设。
1)服务于第七次人口普查工作。在全国第七次人口普查工作中,利用时空大数据服务,为在短短一个月时间内完成全市人口普查小区划分与标绘工作,并支撑了10万普查人员基于地图开展普查工作。
2)服务于全市“放管服”改革。在全国上下开展“放管服”改革工作中,重庆市结合实际需要,为企业提供自贸区范围识别,支撑企业开办和运行中精准掌握优惠政策,提升全市营商环境。
3)服务于新冠疫情防控。在新冠疫情防控工作中,平台利用强大的时空数据融合和转换能力,快速将多源异构的病例文本信息进行空间化处理和表达,为全市主管部门和市民疫情防控工作提供科学的数据支撑。
5 结 论
本文针对智慧城市中多源异构数据融合与应用的关键难题,从实际需求出发,建立了一套涵盖“源数据获取-数据质量评估-数据清洗-数据转换”的技术流程。基于此,进一步研究了多源异构数据汇聚、多源异构数据时空融合等技术,形成了系列关键技术和工具成果,并结合重庆市新型智慧城市建设的实践,在智慧行业应用中得到应用实践,取得良好的经济效益和社会 效益。