APP下载

高速公路大数据资产管理平台的研究与设计

2018-11-27秦曙光吴文茂

西部交通科技 2018年8期
关键词:结构化架构高速公路

秦曙光,吴文茂,梁 晖,杨 程

(广西交通投资集团有限公司,广西 南宁 530022)

0 引言

在大数据时代,大数据正被越来越多的企业视为重塑及打造核心竞争力的重要战略资源,“数据即资产”被广泛认可,但数据本身并不具有资产属性。依据财务上的资产定义,数据资产可理解为企业或组织拥有或控制的,能带来未来经济利益的数据资源,即数据资产应具备可控制、可计量、可变现的属性。因此,从数据到数据资产必然需要一个有效的数据资产管理系统来支持完成数据的采集、处理、分析、应用、开放、连接、整合等一系列流程,有效支持企业利用数据资源创造业务价值和企业效益。对于高速公路运营企业来说,利用已建立的规模庞大的高速公路网以及支撑路网建设、运营、管理的大量信息化基础,已积累和形成PB级规模的多源异构数据,数据本身蕴含着巨大的应用和分析价值,迫切需要对这些数据进行科学高效的资产化管理,以便更好地利用大数据分析支持日益繁重的高速公路运营管理工作。

1 高速公路数据资产管理现状

随着高速公路信息化基础设施建设日益完善,高速公路数据的采集手段和来源也日趋丰富。其包括气象、卡口及服务区的监控视频数据及道路巡检车定期采集的路面数据、工程项目建设进度数据、出入口收费数据等,具体可梳理归纳为公众出行、养护、应急救援、收费、监控五大类型数据(见图1),呈现海量、多源、异构的大数据特征以及很强的时空特性、采集多样性、记录格式多样性、展现形式多样性的高速公路行业特征。

图1 高速公路数据类型图

在管理这些数据的过程中,笔者对广西和区外主要的高速公路企业进行调研后发现:高速公路信息化建设受制于不同的发展时期,并非一蹴而就,而是长期不断地积木式迭代演进,缺乏企业级的整体架构和整体数据规划,导致在管理高速公路数据管理过程中,普遍存在数据架构失控、元数据管理混乱、数据标准缺失、数据质量参差不齐、数据增长无序、数据安全问题突出等问题。在利用大数据进行高速公路运营管理的相关分析决策时,缺乏高质量、可靠有效的数据支持。

2 高速公路数据资产管理目标

高速公路数据资产管理的目标是要实现高速公路数据的资产化管理,为高速公路大数据增值应用以及变现提供充足有效的支持和保障,具体包括两层含义:

(1)打通数据连接,数据融合共享。打通数据是数据资产管理的前提。在分析现有的信息系统及数据类型的基础上,重点梳理系统数据架构、理清数据分类和制定统一数据标准与接口,打破高速公路数据壁垒,打通数据连接,实现数据的互联互通、血缘管理及全程可控,有效盘活企业数据资产。

(2)高效治理数据,提供可用数据。数据治理是数据资产管理的核心。明确高速公路数据治理战略,开展全方位数据治理,包括数据安全、数据质量、数据生命周期、数据标准、数据架构等,实现数据由全局到局部的精细化管理,提升数据质量,确保能为高速公路大数据的挖掘分析提供充足可用的数据资源。

3 高速公路大数据资产管理平台

3.1 应用架构

从高速公路大数据的全生命周期出发,设计了包括数据采集、数据存储、数据治理、数据挖掘应用的高速公路大数据资产管理和应用平台总体架构(见图2),高速公路大数据资产管理平台应用架构主要集中在数据采集、数据存储、数据治理三个模块。

图2 高速公路大数据资产管理和应用平台总体架构图

3.1.1 数据采集模块

通过封装关系数据库数据采集、实时数据采集、文件数据采集等采集接口,构建分布式、多源的数据采集能力,满足高速公路摄像头、传感器等感知设施数据以及传统数据库数据的实时和离线采集。针对高速公路工程项目纸质文档数据采集需求,通过数字化业务系统对各类图文纸质文档进行大规模的扫描加工和抽取。

3.1.2 数据存储模块

通过构建Hadoop集群、关型数据仓库、MPP集群等数据集管理工具,对HDFS下的待处理高速公路数据集进行管理和处理调度,能有效支持TB级的结构化、半结构化和非结构化数据存储,并提供数据的安全管理、备份、访问权限控制等。

3.1.3 数据治理模块

数据治理包括两个方面:(1)提供数据标准、数据调度、数据生命周期、数据共享(发布)、数据质量、数据安全以及数据操作等管理功能;(2)支持数据抽取、转换、分类、清洗等预处理,将半结构化、非结构化数据转化为结构化、高质量的可用分析大数据集,向上支撑高速公路大数据挖掘应用。

3.2 技术架构

高速公路大数据资产管理平台以Hadoop+Spark生态圈开源技术为主,采用Sqoop+Flume、Kafka+Socket数据采集框架及HDFS、HBase、Hive等分布式存储以及MapReduce分布式计算框架等开源产品或技术,并且采用统一监控及配置管理平台。高速公路大数据资产管理平台技术架构设计见图3。

图3 高速公路大数据资产管理平台技术架构图

3.2.1 数据采集层

数据采集层采用Sqoop+Flume和Kafka+Socket的大数据采集框架,分别解决离线数据采集和实时数据抽取、采集的问题,满足高速公路多源、异构数据快速接入、采集的需求。

3.2.2 数据存储层

数据存储层采用传统关系数据库(RMDB)MySQL、Oracle等存储结构化数据;采用分布式存储架构Hadoop、Hive、HBase等存储非结构化数据。满足高速公路视频、图像、表格、文本等异构数据海量存储、访问以及存储拓展等需求。

3.2.3 数据治理层

数据治理层采用MapReduce、Hive、Impala、Pig实现分布式并行数据分析,以及基于内存计算的处理框架Spark、任务调度框架Oozie和大数据Web工具Hue进行处理。数据处理技术提供可视化的操作界面,提供类SQL查询海量数据的功能,满足海量数据快速处理、实时处理的要求,允许用户自定义工作流及对工作流调度的定制。同时提供数据的假设检验、分类和回归、线性模型、朴素贝叶斯、决策树、随机森林和Gradient-Boosted树、主成分分析(PCA)、特征提取和转换、频繁模式挖掘、FP-growth等机器学习相关算法,充分挖掘数据价值。

4 结语

当前,无论是国家的交通强国建设,还是高速公路企业自身的业务拓展和企业转型升级,都迫切需要大数据驱动,而大数据驱动的必要前提是数据的融合共享和高效治理。高速公路大数据资产管理平台能加速高速公路数据资源的创新管理和共享开放,并通过深度且综合地采集、融合、治理、共享高速公路各类数据,为挖掘分析高速公路大数据、将数据分析结果转化为目标应用提供可靠有效的数据,为高速公路企业的运营管理降本增效、战略决策以及产业的转型升级带来现实意义。

猜你喜欢

结构化架构高速公路
基于FPGA的RNN硬件加速架构
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
功能架构在电子电气架构开发中的应用和实践
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
基于云服务的图书馆IT架构
为什么高速公路上不用路灯照明
WebGIS架构下的地理信息系统构建研究
高速公路与PPP