时空数据转换服务系统设计与应用
2021-09-27程宇翔梁均军刘洪波赵翔宇
程宇翔,梁均军,刘洪波,赵翔宇
(1.重庆市地理信息和遥感应用中心,重庆 401121)
随着信息技术的快速发展以及互联网、物联网等新兴数据的高度发达,新型智慧城市建设已离不开大数据这个核心引擎[1]。时空大数据是大数据的重要组成部分,是时间、空间、专题属性相结合的三维信息,与地理位置有着直接或间接的关系。通过集成基础地理信息数据、实时数据、公共专题数据和空间规划数据,并将其时空化,形成时空大数据[2]。应用多源时空大数据开展城市的感知、分析、模拟、预测已成为重要的研究方向,时空大数据所具有的高时空粒度与跨度、多源样本覆盖、人本特征显著等属性为城市发展研究带来了新的契机[3]。同时,结合时空大数据开展城市的编制、审批、管理、优化、动态监测、评估预警也成为规划实践的核心内容,改变了传统规划的思维模式[4]。从对象尺度来看,时空大数据的应用分析包括建筑、社区、城市、城镇群(区域)、全国乃至全球等不同尺度。在针对大尺度空间、长时间跨度区域的国土空间分析中,时空大数据的应用具有极大的优势。然而,现阶段在生产时空数据的工作中还面临着两个方面的挑战:①目前仍采用传统的人工处理方式将海量、异构的各类数据转换为统一基准的时空数据,转换模式单一,时间成本高昂,数据转换效率低下[5-6];②面对不同来源、不同类型的千万级甚至亿级时空数据的存储和计算,传统基础设施难以有效 支撑[7-8]。
鉴于此,本文重点研究了数据转换方法、流程转换自动化技术、时空大数据存储等关键技术,建成了智慧重庆时空数据转换服务系统,实现了海量、异构数据从接入、转换、管理、分析、服务到应用的全流程服务。
1 系统总体框架
时空数据转换服务系统基于大数据平台建设,利用面向服务的架构(SOA)理念,采用层次化结构建设,包括基础设施层、平台层、数据层和应用层,如图1所示。
图1 时空数据转换服务系统总体架构图
1)基础设施层负责构建系统所需的数据处理、存储和服务等硬件基础设施和网络基础设施。
2)平台层负责支撑时空转换流程的构建。该层包括时空转换模型和时空转换组件,其中时空转换模型包含地址匹配模型、数据关联模型、实时匹配模型和实体匹配模型;时空转换组件包含地址匹配、建筑物转换纠偏、道路转换纠偏、实时数据转换等。
3)数据层利用HDFS、PostgreSQL、ElasticSearch等存储环境实现时空大数据的存储与访问,支撑平台的运行。针对不同的时空数据类型,采用不同的方式存储时空数据转换成果。
4)应用层面向不同业务应用方向,提供企业、人口等时空主题分析应用以及个性化主题分析应用功能,以快速实现主题分析应用搭建。
2 时空数据转换模式设计
通过不同类型的数据采集系统获得的非空间数据,根据数据产生方式和描述的业务不同,在空间位置也有不同的描述,如统计数据常以行政区划名称描述其空间内容、企业常以注册地址描述其空间关系等,因此对非空间数据的空间化转换,也存在不同的转换模式,主要包括地址匹配、关联匹配、实时匹配和实体匹配4种方式。
1)地址匹配主要借助于地名地址数据库成果,通过地址匹配服务引擎建立地名地址与空间坐标的对应关系,能对带有地名地址描述的数据进行空间转换,赋予非空间数据坐标信息。
2)关联匹配主要针对数据本身没有空间描述信息,但与其有关的其他数据存在空间描述信息或已赋予坐标的情况,可通过关联数据进行时空转换,赋予其相关数据的坐标信息。例如,社保数据属性信息中没有空间描述信息,但社保与人口数据有关联关系,可通过将人口坐标赋予社保数据的方式,实现社保数据的空间化转换。
3)实时匹配主要用于实时位置数据的接入与数据提取转换。实时位置数据的处理存在特殊性,其本身已具备坐标信息,但还附属了设备信息以及与设备相关的业务信息,在位置数据转换时,需要同步获取设备信息或相关业务状态信息,并对设备数据的空间位置和状态进行更新处理。例如,在出租车实时位置数据转换中,需要同步获取出租车信息以及是否空载信息,更新出租车专题数据。
4)实体匹配主要用于描述地理实体数据相关业务的非空间数据的空间化转换,需要将非空间数据与实体数据进行融合,赋予非空间数据地理实体坐标。例如,道路施工进度信息包含道路实体描述信息,可通过道路实体融合施工进度信息,形成道路施工数据的空间化转换。
3 时空数据转换服务流程设计
在进行非时空数据向时空数据的转换过程中,不仅面对的数据种类多、类型复杂,而且各类数据均有不同的更新频率和更新方式,采用传统匹配或人工处理等空间化处理方式,工作效率低,实施成本高,无法持续投入建设,因此实现数据时空化转换处理的自动化运行是时空数据转换服务系统建设的核心。
数据时空化处理包括数据接入、清洗、转换、存储等多个阶段,为了满足处理流程自动化运行要求,需完成数据接入标准化、数据处理流程化、流程运行任务化、任务执行可监控等内容的设计与建设,如图2所示。
图2 时空数据转换服务流程图
1)数据接入标准化主要是指进行时空化转换的数据需要建立数据描述标准,包括元数据标准和数据内容标准。元数据标准主要用于建立数据访问方式、数据更新频率、数据关联关系等信息标准;数据内容标准主要用于建立数据唯一标识、数据空间描述字段等信息标准,为数据时空化处理提供可自动读取的信息基础。
2)数据处理流程化主要是指非时空数据时空化处理过程需要建立一个可执行且固化的数据处理流程,但不同的数据时空化处理流程也有各种差别,因此该数据处理流程支持自定义,即支持对不同数据采用不同的时空化处理流程进行定义。本文将在Geo-ETL建设成果的基础上,扩充各类数据转换组件,实现数据时空化处理流程的可视化定义与管理,达到不同数据时空化处理流程化的目的。
3)流程运行任务化主要是指已建立的数据时空化处理流程需根据不同的更新频率进行任务化执行,能够任务化执行的流程通过任务调度技术,可实现流程的自动化运行。本文将借助在线任务调度技术,融合时空数据处理组件,实现数据时空化处理流程的自动化运行与可视化调度管理。
4)任务执行可监控。由于自动化执行的数据时空化处理任务的稳定性是任务能够常态化运行的关键,因此需要实现流程执行任务的可视化监控与异常排查能力。本文将通过分布式日志收集技术实现所有任务日志的采集、存储、分析和可视化建设,进而实现自动化执行任务的可视化监控、自动化异常告警、处理异常日志分析等功能,保障任务的常态化可持续运行。
4 时空数据转换成果存储设计
通过时空数据转换服务系统得到的海量成果数据,日积月累已形成时空大数据规模,传统的集中式关系型数据库已无法对TB甚至PB量级数据进行高效存储管理,特别是无法对单表亿级数据进行高效处理。传统的计算能力一般为单机单进程或单机多进程处理方式,无法应用多集群并行计算的能力。此外,传统模式中的多终端访问很多仍以专题地图、符号化来表达正常的数据规模,没有对大数据量、多类别、实时数据有更直观、更友好的大数据展示方式。因此,需要一个强有力的数据处理和承载平台为大数据级别的时空数据提供支撑。基于时空大数据的数据类别、数据特征、数据时效性以及数据采集的多种接入方式,本文通过融合多种时空大数据存储技术,实现了对多源异构数据的统一存储和管理。
针对时空大数据体量大、更新频率快等问题,本文通过大数据技术对时空大数据进行分布式存储,通过地理信息技术实现了对ElasticSearch、PostgreSQL、MongoDB以及HDFS等数据存储引擎的扩展,使其支持时空数据的存储与计算。系统可根据不同的数据类型选择不同的数据存储方式,以满足更多数据接入场景与应用场景的需求。时空大数据存储引擎通过统一的分布式集群管理方式对多源异构数据类别进行高效管理;同时通过标准的服务接口和数据API为时空大数据交换、分析、应用提供高效的存储技术支撑。
在实际应用中,结构化数据可采用分布式关系型数据库PostgreSQL等进行存储,半结构化数据可采用ElasticSearch、HBase进行存储,非结构化数据可采取文件型数据库HDFS进行存储,以此保障不同类型数据能根据其数据特性和应用场景,采用合适的存储介质,实现数据的便捷管理与高效应用。其中,PostgreSQL数据库主要用于存储千万级以下的时空专题数据,这样既能满足其对外提供SQL查询等正常需求,又能满足海量数据分布式存储和快速查询的需求;ElasticSearch主要用于存储实时动态数据,以满足其数据量较大、更新频率快、聚合统计查询要求高等需求。
5 成果应用
时空数据转换服务系统形成了一套自动化的数据转换流程,实现了对多个行业部门业务的有效空间落地,累计完成1 030余万条数据的时空转换,已广泛应用于应急管理、城乡规划、市场信用监管、教育、医疗、市政管理、地理国情普查、水利、交通、航运、生态环境保护等领域的经济建设与科学研究中,为全市地理信息应用建设工作提供了高水平的数据转换服务,解决了传统空间化过程对人工操作依赖程度较高、转换工作费时费力的问题,极大地提高了工作效率。
6 结 语
本文从构建智慧重庆时空数据转换服务系统的工作实际出发,研究了非空间数据的自动时空化模式,设计了时空数据转换服务系统的总体架构和转换流程;并利用流程转换自动化、时空大数据存储、时空大数据计算、个性化主题分析等关键技术实现了数据从接入、转换、管理、分析、服务到应用的全流程服务,有效解决了目前非空间数据时空转换人工依赖程度高、传统大数据环境无法有效支撑时空大数据的高效存储与计算以及时空数据的快速可视化应用等问题。目前已开展了人口、企业、交通等数据的时空化转换,取得了显著效果,为下一步开展时空数据分析决策奠定了技术基础。