APP下载

大数据在危废运输车辆GPS监控中的应用

2016-08-29媛徐洁江苏省生态环境监控中心

中国科技信息 2016年12期
关键词:危废危险废物分布式

陈 媛徐 洁江苏省生态环境监控中心



大数据在危废运输车辆GPS监控中的应用

陈 媛1徐 洁2
江苏省生态环境监控中心

link

评估值120万

appraisement

行业曲线

industry

本文提出了将HBase应用于存储危废运输车辆监控大数据的方案,本文通过将该技术应用在危废运输车辆监控系统中的实现过程,并对系统做了测试分析方法,论证了基于HBase构建在 Hadoop的 HDFS之上,实现对海量数据随机、实时的访问;基于HDFS分布式文件系统,数据库不用再去考虑分布式的问题,能够存储(压缩与扩展)和管理海量数据。得出了HBase应用于车辆监控系统有很高的吞吐率,并且具有很好的扩展性。

危险废物运输是危废管理的一个重要环节,对危废运输车辆实行GPS监控是一种行之有效的监管手段。江苏省环保厅自2013年开始建设全省统一的危险废物动态管理系统,通过对全省危险废物产生、转移、处置信息的全面采集和全程跟踪,使危废管理部门及时、准确掌握区域内危险废物的动态信息,采用智能化的数据分析手段,自动发现各类弄虚作假现象,加大对危险废物产生、交换、转移、利用、处理处置全过程的监管力度,防止和减少违法事件。为实现对危废运输过程的监控,江苏省环保厅利用江苏省交管局在危险运输车辆上已安装的GPS定位设备,实时获取全省所有危废运输车辆的行进轨迹,并与每笔转移联单进行关联,实时分析转移过程是否存在异常。随着监控对象数量的不断增加,在海量监控对象的环境下,设计实现高效的GPS危废车辆监控系统,成为危险废物运输管理面临的新的问题。

但国内外相关研究在设计上对大数据环境下的GPS车辆监控数据库设计和系统设计没有进行深入的探讨与研究,在传统的关系型数据库环境下处理全省上千辆危废运输车辆的实时GPS数据,数据库的压力将非常大,查询性能也随之降低,达不到实时性要求。本项目采用Hbase替代了传统的关系型数据库来存储和处理数据,研究在大数据环境下的系统设计来满足应用需要。

关键技术综述

HDFS分布式文件系统

HDFS主要用于对危废车辆监控数据为主的海量数据提供分布式存储与管理,以利于数据规模不断增加的情况下的分布式并行存储调用。

在HDFS分布式文件系统中,大文件被拆分为若干块存储,并实现并行读取,其对数据的管理呈现以下特点:

支持大量GB级至TB级的海量数据的分布式存储;

文件具有一次写多次读的特点;

系统支持大规模流式读取和随机读取;

通过分布式读取方式实现高I/O吞吐率。

Hbase介绍

HBase 是一个开源、分布式、面向列存储、可伸缩的非关系数据库,HBase构建在 Hadoop的 HDFS之上,用于对海量数据随机、实时的访问。HBase 存储的超级达标可以有上亿行,百万列。在 HBase 中创建的一张表可以被拆分成多块,每一块称为一个 HRegion,一张完整的表可以保存在多个 HRegion 上,如图所示。每一个 HRegion 在物理上会被分为三个部分:HMemcache(缓存)、HLog(日志)、HStore(持久层)。

HBase 以表的形式存储数据。表由行和列组成。列划分为若干个列族(Column family), 一行由 RowKey,时间戳和若干个列组成。除了 RowKey 和时间戳外,其他的列称为列族。HBase 表中的每个列,都归属于某个列族。列族是表的 schema 的一部分,必须在使用表之前定义。列名都以列族作为前缀。RowKey 就像关系数据库的主键,用来检索记录。表中所有的记录按 RowKey 来排序,访问HBase 表的记录有三种方式,分别是:

图1 Hbase技术关系图

图2 系统整体架构图

通过单个 RowKey 访问;2)通过 RowKey 的range;3)全表扫描。

同时HBase采用稀疏存储结构存储数据,将类型相同或逻辑上相关的列存储在同一个列组中,使数据在实际的存储位置上路径相近,从而加快系统的读写性能。

根据车辆监控系统的数据特点,以及HBase的自身特点,不难发现HBase应用于车辆监控系统的优势,有如下几点:

适合大量插入,有很高的吞吐量;key-value查询,可以输入一个key查询一个value,还可以输入一组key查询一组value。

实时的按时间键值做查询,响应速度非常快。

列式数据库会把相同列的数据都放在一块即列为单位存储,当查询某一列的时候只需要调出相应的块即可,这样可以减少很多 I/O,提高了系统的性能。

列族里的列可以动态扩展,能够满足监控系统监控项目增多的要求。

列族里的列可以动态扩展,能够满足监控系统监控项目增多的要求。

MapR educe分布式编程框架

MapReduce是由Google提出的一个软件架构。HDFS和HBase实现了在此基础上的由编程框架自动控制的、对用户透明的计算资源的并行调度和数据同步机制,一个典型的MapReduce计算可以处理上千个计算节点中的GB级至TB级数据。

因此,Hadoop 的 MapReduce 支持 HBase 作为InputFormat,可以支持后期的数据分析;监控系统运用它可以用来作交通状况的分析。

系统设计

总体架构设计

车辆监控系统总体上可以分为三个部分:车载终端、GPS 网关和车辆监控服务平台。

车载终端是安装在车辆上的终端设备,定时将车辆的位置信息和状态信息发送给服务器,通过运营商基站与网关通信。

网关是车辆监控服务平台和车载终端之间的信息中转站,负责接收车载终端发送的定位信息和车辆状态信息等,在网关进行缓存,并同步转发 到数据库服务器上。

车辆监控服务平台负责提供后台管理,并根据从网关接收的车辆位置信息和状态信息,为客户提供车辆信息监管、定位跟踪和历史轨迹等综合性的服务功能,该平台部署在平台服务器上。

车辆监控GPS数据特点

在车辆管理中,系统对车辆的监控数据呈现如下特点:

需要不断采集车辆的运行信息,如经纬度、里程数等。这些参数在车辆内的采集频率非常高,如果 10 s采集一次,一共有 10 万辆车需要管理,那么平均每秒要插入10000 条数据,以车辆每天运营 8 h,每天 的数据量将达到 1000083600=2.88 亿。日积月累,数据量变的非常庞大。

在高峰时期,当有上万辆车同时运行时,瞬间写入量非常大,要求系统有非常高的吞吐量。

在对车辆实时监控过程中,系统的响应速度要非常快,对系统的实时性要求很高。

系统对数据的操作主要是两种:插入和查询;很少用到删除和更新。

随着车辆采集的数据项会越来越多,要求系统有很好的扩展性。

Hbase表结构设计

建立一张大表,表名为GPS809REAL,包含车辆的所有信息,为了便于用户的查询,以车牌号码+时间作为为RowKey。

设备号主要用于管理员来查询数据,车牌号方便普通用户查询。定义一个车辆信息info的列族,该列族主要有以下几列:车辆品牌(brand),车型(model),颜色(COLOR),服务状态(STATE),速度(SPEED),SPEEDR,MILES,方向(DIRECTION),ALTITUDE,ALARM等等。

表2 集群节点配置

实验环境及实验结果

实验环境

本文实验运行在一个6个节点的Hadoop集群上,DataNode节点5个,NameNode节点1个,HMaster节点1个,RegionServer节点5个,Zookeeper节点3个。具体配置如表2所示。

实验结果

为测试环境监测数据的数据导入及数据查询性能,对数据总记录数10亿条,单行记录大于1Kb的情况进行了导入测试及数据查询的性能测试,性能测试的结果如表3所示。该实验结果表明,本文提出的基于HBase的数据存储模型具有高效的存储效率和查询效率,满足实际需求对数据存储和访问的性能要求。

表3 性能测试结果

结语

本文提出了一种新的存储车辆监控数据的方案,重点阐述了HBase数据库用于车辆监控系统的优势以及把它应用在系统中的实现过程,并对系统做了测试分析,结果表明,该系统有很高的吞吐率,并且具有很好的扩展性。在未来的工作中,我们将不断丰富该系统的功能,添加更多的监控项目,不断优化集群节点的数目以找到使系统达到最佳性能的节点数。当系统运行到一定阶段,我们将对收集到监控数据作数据分析,以便为用户提供个性化服务,给企业在未来的工作中提供更好的决策。

10.3969/j.issn.101- 8972.2016.12.030

猜你喜欢

危废危险废物分布式
“非法处置危废”与“无证处置危废”如何区别?
分布式光伏热钱汹涌
分布式光伏:爆发还是徘徊
产能不足、去向不明,危废监管盲区依然存在
严防实疏重管 保障危废环境安全
危险废物管理亟待改进
危险废物综合利用需规范
政策引擎作用凸显 危废处理迎崛起时刻
“废电线电缆是危险废物”为误解
危险废物处置需依法而为