面向高速公路逃费车辆甄别的实时检测方法
2019-07-23马千惠丁维龙
马千惠,徐 扬,丁维龙,邹 杰
(1.北方工业大学 数据工程研究院,北京 100043;2.大规模流数据集成与分析技术北京市重点实验室,北京 100043;3.北京易华录信息技术股份有限公司,北京 100043;4.交通运输部公路科学研究院,北京 100088)
0 引 言
高速公路偷逃费行为主要分为三类:假冒政策性车辆逃费、缩短通行距离逃费法、非正常驶离通道逃费。假冒政策性车辆逃费主要采取假冒绿通车、假证/假卡逃费、假牌逃费。采用恶意屏蔽标识路径逃费,以达到按照最短路径或者最小收费额收费偷逃费是最新的逃费手段。传统的换卡、倒卡逃费等仍是逃费的主要手段,但随着收费系统的完善,高速公路高清摄像设备的发展,增加了“车牌校对”程序,自2007年开始,出现了一种新型的“套牌车换卡”逃费现象,套牌车换卡有效规避了“车牌校对”预警系统。
结合上述高速公路逃费行为的特征,针对高速公路假冒军警牌车辆、倒卡逃费、套牌车逃费车辆的在线自动甄别问题开展研究。车辆收费数据由高速公路联网收费系统高清摄像头拍摄采集,由车牌号、车辆进入收费站、进出时间、车道、车型等11个属性构成,体现了收费数据的时空特征性。通过单条收费数据,可甄别假冒军警牌车辆和倒卡逃费车辆,通过全省收费数据的融合,可形成车辆行驶轨迹,可利用时空矛盾规则甄别套牌逃费嫌疑车,即同车牌车辆不可能在一定时间阈值范围内同时出现在高速公路上。
现有的技术大多以事后稽查为主,少有车辆出口实时检测甄别偷逃费车辆,利用海量的高速公路联网收费数据稽查高速偷逃费车辆目前存在两个主要问题:
(1)对大量离线历史数据进行数据挖掘,会产生高延时,不利于及时处理逃费车辆。
(2)传统方法如通过车流量预测通行费和实际产生通行费对比,分析挖掘当中可能存在的逃费行为,并预测嫌疑车辆,错误样本会使预测结果产生不准确性。
对此,文中基于某省高速公路真实收费数据模拟实时收费收据流,利用高速基础数据计算的站点阈值表,在Storm[1]大数据平台的实时技术手段[2-4]下,解决了实时性和准确性的难题,并在稽查套牌嫌疑车辆时,设计时间滑动窗口,实现了对高速公路收费数据流的偷逃费车辆检测,并且单条数据项的处理时间达到毫秒级计算。
1 相关工作
随着高速公路通车里程的迅猛增长和联网规模的不断扩大,部分不法分子采取各种手段偷逃通行费,针对高速逃费的研究受到了广泛关注。目前为止,已经有许多理论和方法应用于稽查高速逃费行为的研究[5-8]。
近年来,国内出现了一些基于SQL Server2008[9]提供的数据挖掘功能,以数据仓库技术、联机分析处理技术以及数据挖掘技术为基础预测偷逃费的方法,目的是为了充分利用已有数据挖掘算法,以求得更加理想的稽查效果。陈波[10]构建了收费站车流量预测及通行费预测系统,采用时序算法预测车流量,线性回归预测算法预测通行费,实现通过车流量及通行费预测和实际情况的对比,分析挖掘当中可能存在的逃费行为。邓如丰[11]建立了以交通流量、通行费金额、OD旅行时间和超时车辆分类为主题的数据仓库,利用时序算法进行交通流量预测,采用神经网络算法进行OD旅行时间的预测,并在预测模型的基础上,提出一种改进的动态超时判断模型,并运用该模型对历史数据进行了是否超时的判断。李小运[12]选取决策树算法预测OD定向时间进行动态超时设置和关联规则算法挖掘出团伙性逃费嫌疑的异常流水数据。王涛等[13]基于关系数据库和MapReduce算法模型[14],提出通过套牌车并行检测算法,同时,采用基于动态旅行时间实时的时空窗口计算技术,能够进一步检测套牌可疑车辆。
根据以上研究可知,现有的预测偷逃费车辆的方式大多数以离线为主,通过一段时间内累积得到的大量高速公路收费数据进行数据挖掘,排查可疑车辆。这样每次都要针对一段时间内的收费数据挖掘,数据量大,计算时间远不如实时计算的并行处理计算快,时效性上也存在不足,而且利用车流量预测通行费和实际通行费相比,再根据数据挖掘算法分析逃费行为挖掘嫌疑车辆,准确性上不能做到逐条检测,精度不够高。因此实时计算检测收费数据识别逃费车辆,无论是在速度上,还是准确性上,都要好于离线数据挖掘。
2 整体设计与数据预处理
本课题来源于某省交通运输部公路科学研究所,该省高速公路收费站点数量达到300余个,出口收费站各个车道摄像头实时采集上报收费数据,日常收费数据量每小时产生上万条数据,收费数据项包含车牌号、车辆进入收费站、进出时间、车道、车型等11个属性,包含了时间特性和空间特性。偷逃费车辆稽查系统对收费数据进行实时分析,用于检测高速公路上存在假冒军警牌车辆、倒卡逃费、套牌车逃费行为的可疑车辆。
2.1 整体设计
高速公路上不同的逃费手段特征也不同,为了更准确地甄别逃费车辆,需要针对不同逃费手段进行分析,整理思路逻辑设计算法。针对现有逃费手段和已有数据,假冒政策性车辆逃费、缩短路径逃费法均能通过数据分析甄别可疑车辆。缩短路径逃费法有多种,常用的为倒卡逃费、换卡逃费,但两种方式的逃费特征不同,前者为严重超时特征,后者为套牌特征。因此,文中设计了三种在线计算识别逃费车辆,分别为假冒军警牌车辆、倒卡逃费、套牌车逃费。
系统架构设计如图1所示,分三个层次,分别是数据层、大数据分析支撑层和分析应用层。数据层存储了计算逃费车辆所需的基础数据,包括判别逃费车辆所需的站点阈值表和军警牌数据,计算完成后将结果数据也存在数据库中,同时发射收费数据形成的实时数据流;大数据分析支撑层中,收费数据形成实时数据流,收费数据包括出入口收费站、出入口时间、收费卡号等,三种在线计算作业接收到实时数据流后,实时监测,以并发执行的方式通过假冒军警牌识别计算、倒卡逃费识别计算、套牌车识别计算识别车辆是否存在逃费行为,进行任务监控和日志登记;最后,分析应用层在线稽查逃费车辆。
图1 系统架构设计
2.2 数据预处理
高速公路静态基础信息是那些变化少更新频率低的数据,包括收费站站点信息、高速公路路段信息等,动态业务信息包括收费站过车收费记录、道路养护信息、事故处理信息等。高速公路联网收费系统收集了大量的动态交通流数据,包括车辆、车辆进入收费站、进出时间、车道等信息。
由于收费数据多存在空缺、不一致,例如司机进入高速公路后从入口掉头、司机卡丢失、司机冲卡产生异常数据,机器故障产生坏卡或收费员发卡时误操作产生异常数据等。为了更准确地进行数据挖掘,更充分地利用有价值的高速公路基础数据与业务数据,需要对高速公路产生的原始动态数据进行预处理,方法为对缺失字段的数据,如没有出入口时间,选择剔除;对数据格式不规范的数据,如出入站站点编号“0”自动省略,进行转化统一,统一为站点编号为5位数字,少于5位的收费站编号,前面自动加“0”。
实现倒卡逃费车辆与套牌车的在线稽查,需要处理相关基础数据,构建站点阈值表,站点阈值表中需要包含进站站点编号、出站站点编号、距离、车辆类型、通行时间等。通过百度地图WEB服务API中批量算路服务,根据基础数据中站点的经纬度可计算出站点间距离,再根据不同车型下限速度,求得最慢通行时间。由于高速公路规定最右车道行使速度在60 km/h到80 km/h之间,货车只能行使在最右车道,所以货车行驶下限速度为60 km/h;同方向2条车道以上,中间或最左车道行驶速度则需要大于80 km/h,所以小客车下限行驶速度为80 km/h。
3 逃费车辆行为模式的在线识别
3.1 假冒军警牌逃费
假冒军警牌车辆判别计算的流程计算作业首先加载了2.2节所提到的军警牌车辆数据到内存中,加载频率设置为每24小时更新一次数据库中的军警牌数据,然后接收一条高速公路实时收费数据,对收费数据中的车牌数据进行判别检测,判别车辆车牌是否为军警牌,若不是,直接接收下一条军警牌数据,若为军警牌,并且在军警牌基础数据表中,则该车辆并未假冒军警牌,接收下一条数据;若车牌为军警牌车辆,并未在军警牌车辆数据表中,则该车为假冒军警牌嫌疑车辆,将结果数据保存到数据库中,结果数据包括车牌号、车型、出入站站点编号、出入站时间。
3.2 倒卡逃费
定义1:倒卡行为。高速公路上,车辆倒卡,通过手中多张通行卡互相交换使用,例如在车辆出站时,选择与进站距离较近的通行卡,达到缩短距离缴纳少量通行费的目的,但是一般会出现超时现象。倒卡超时时限一般为两个站点单程行驶时间的2.5倍[11],因此超时是判别筛选逃费的有效手段之一。现有收费系统设置超时功能称为静态超时,超时时间不变,在联网区域内无论通行距离长短一律使用一个超时时间,一般静态超时时间设置相对比较大。而动态超时根据站点间的通行距离和车辆车型进行计算,通过超时技术准确地识别真正的逃费车辆。动态超时判别公式为:
t.ExitTime-t.EntryTime=time>2.5(distance/lower speed)
其中,t为收费数据;ExitTime为收费数据的出站时间;EntryTime为收费数据的入站时间;time为实际通行时间;distance为出入站站点的距离;lower speed为下限速度。
动态超时的判别即为用出站时间减去入站时间得到的实际通行时间后,判断实际通行时间是否大于2.5倍的站点间距离除以不同车型的下线速度得到的最慢通行时间。若大于,则该车辆超时,为嫌疑车辆。
针对倒卡的超时特征与动态超时判别公式,提出动态超时逃费判别技术。首先加载2.2节所提到的预处理的站点阈值表到内存中,加载频率设为每24小时更新一次数据库中的站点阈值表数据,然后接收实时上报的高速公路收费数据,将收费数据出入站时间相减得到实际通行时间,判断车辆是否满足动态判别公式,若满足则该车为倒卡嫌疑车辆,将结果数据保存到数据库中。结果数据包括车牌号、车型、出入站标号、出入站时间。
3.3 套牌逃费
高速公路上,套牌逃费最为常见。由于收费数据不同于标识站数据,记录车辆出入站时间间距较大,为防止稽查套牌逃费车辆遗漏,文中在稽查一定时间段内高速公路上同时出现的套牌车基础上,又给出一种常用的以套牌换卡逃费为特例的识别方法。两种套牌逃费行为模式需基于构建车辆行驶轨迹后进行计算,定义如下车辆行驶轨迹、套牌车行为、套牌换卡行为:
定义2:车辆行驶轨迹。高速公路联网收费系统中,每条收费数据记录包含车辆信息、出入站站点、出入站时间,当车辆驶出收费站时,收费数据被完整写入文件中,因此以出站时间为序,将每条收费数据出入信息按顺序加入到车辆行驶轨迹中,线性结构表示为:
(EntryTime1,ExitTime1,EntryStation1,ExitSta-tion1,EntryTime2,ExitTime2,EntryStation,ExitStation2,…,EntryTimen,ExitTimen,EntryStationn,ExitStationn)
其中,EntryTime表示进站时间;ExitTime表示出站时间;EntryStation表示进站站点;ExitStation表示出站站点;下角标1到n表示该车辆第一次到第n次出入高速。
定义3:套牌车行为。通过利用套用他人合法牌照行驶的车辆,挖掘套牌车即为挖掘车辆异常行驶轨迹,可根据定义2中的车辆行驶轨迹得到如下套牌车行为判别公式:
distance/(ExitTimen-1-EntryTimen)=speed>150 km/h
其中,distance为定义2车辆行驶轨迹中ExitStation(n-1)到EntryStationn的距离,根据查询站点阈值表可得到distance;ExitTimen-1为第n-1次出站时间;EntryTimen为第n次进站时间。ExitTimen-1-EntryTimen得到车辆行驶轨迹中第n-1次出站时间到第n次进站时间差,进而得到出站后到再次进站时间段内的行驶速度speed,判断speed是否超过极限速度150 km/h,若大于极限速度,则车辆存在套牌行为。
定义4:套牌换卡。车辆换卡逃费会出现出入站车牌不符的现象,并且出入站距离短,伴有略大于单程时间的超时现象。略大于单程时间的超时是很难被甄别出来的,所以在当时换卡是一种流行的逃费手段,但“车牌校对”系统正式运营后,卡牌不符被识别出来后,于是出现了这种新型的“套牌车换卡”逃费手段。“套牌车换卡”逃费即两辆车套有相同车牌的机动车相向而行,在行驶途中,双方交换通行卡,在对方进站站点附近出高速,即可逃费大量通行距离。根据套牌换卡行为特征,定义套牌换卡判别公式:
EntryTimen 其中,EntryTimen为第n次进站时间;ExitTimen-1为第n-1次出站时间。若EntryTimen小于ExitTimen-1,则前一车辆未驶出高速便又有一辆同车牌的机动车驶入高速,该车一定存在套牌行为。 由于需要记录车辆行驶轨迹,套牌逃费稽查需要设定计算频率和窗口长度,例如每过5分钟计算4小时内的车辆收费信息。套牌车辆判别流程如图2所示。 步骤1:首先加载2.2节提到的预处理的站点阈值表到内存中,得到站点间距离数据,加载频率设为每24小时更新一次。 步骤2:接收收费站上报的实时收费数据,判断是否到达设计的计算频率,若没有到达计算频率,将收费数据以车牌号为键(key),同一车牌进出口时间数据和进出口站点数据累加到Map集合的值(Value)中,构建车辆行驶轨迹。 步骤3:若到达计算时刻,对车辆行驶轨迹判断是否满足定义3或定义4,满足其中任一条则存在套牌行为,将结果数据保存至数据库。结果数据包括车牌号、车型、出入站时间。 步骤4:当到达下次计算频率后,再将下一个窗口长度内的全部数据利用套牌车逃费判别算法进行检测。 实验使用3台CentOS 6.6版本的Linux操作系统搭建了Storm1.1.1环境,Strom集群由1个nimbus主节点、2个supervisor从节点构成,配置均为4核CPU、16 GB内存。Kafka作为消息中间件,LoadRunner模拟收费站车道采集收费数据,自行研发的数据接入服务CCS(concurrent connection stream)用于接收LoadRunner发送的收费数据并传输给Kafka消息中间件,充当Kafka和LoadRunner之间的通信服务器。 图2 套牌车辆判别流程 实验中采用的原始数据为某省所有收费站2017年7月1号到31号的真实收费数据,基础数据为某省高速公路站点数据、军警牌数据,通过LoadRunner模拟成实时数据。 目前,Storm集群上已经运行了三种逃费判别方法的拓扑(Topology),三种逃费车辆在线识别技术拓扑逻辑相同,拓扑逻辑如图3所示,主要由三部分组成:数据源(Spout)、逃费车辆识别计算(T_Bolt)、数据存储(DB_Bolt)。 上述三种拓扑的T_Bolt分别实现了假冒军警牌识别计算、倒卡逃费识别计算、套牌车逃费识别计算。Topology中组件间的数据传递方式为随机分组(Shuffle Grouping)传递,设置工作进程(worker)数为2,并行度(parallelism hint)设置为2。将LoadRunner并发数量设置为2 500,发送频率设为1条/秒,用来模拟收费站车道采集收费数据数量为2 500条,采集频率为1条/秒。套牌车逃费判别作业相比于假冒军警牌车辆判别方法和倒卡逃费车辆判别方法,还利用了Storm类自带的滑动窗口功能计算偷逃费,由于套牌车判别算法计算时间因数据量而定,LoadRunner并发数量设为2 500时,计算时间为30秒,并且依据《道路交通安全法实施条例》第六十二条:连续驾驶机动车超过4小时应停车休息,停车休息时间不少于20分钟,因此设定每经过1分钟计算4小时20分钟高速公路联网收费系统上报的实时数据。 图3 逃费车辆识别Topology 在时效上,假冒军警牌车辆判别算法和倒卡车辆判别算法的计算时间达到毫秒级处理,是离线计算速度的三十万分之一,单条数据检测时效性远大于离线数据事后稽查。套牌车判别算法计算时间依据收费数据量而定,在LoadRunner并发数量为2 500时,计算时间控制在1分钟之内,做到了低延时、高效率的在线实时收费数据检测。 在准确率方面,假冒军警牌逃费判别作业,可以达到准确率99%的有效稽查,不准确情况出现原因可能由于数据更新不及时导致。假冒军警牌车辆一旦经过高速收费站车道,车牌识别系统判别出该车牌未在军警牌数据库中,即可准确稽查可疑车辆;倒卡逃费判别作业,对于实际通行时间大于超时时限的车辆,可以做到全部稽查,经过交通部门的管理人员通过标识点车牌图像信息核验逃费车辆,倒卡的批量检测计算准确率平均达到98%,剩余2%可疑车辆人工核验未找到相关监控信息;针对套牌车逃费判别作业,事先通过离线作业,检测了实验所需的全部数据,得到了具体的套牌车逃费收费数据,并经过人工核验。根据与已经计算出的套牌车逃费收费数据进行比较,在分别限制窗口长度和计算频率下,不同计算频率和窗口长度的套牌车在线识别准确率如图4所示。 (a)不同计算频率准确率 (b)不同窗口长度准确率图4 准确率对比 由图4可得出结论,计算频率和窗口长度直接影响计算准确率。根据图4(a),当窗口长度一定时,准确率随着计算频率的减小而增加;根据图4(b),当计算频率一定时,准确率与窗口长度成正比。理论与实验结果相结合可知,滑动窗口的计算频率越小、窗口长度越大,稽查套牌逃费车辆力度越大,计算越精确。为了提高套牌车稽查的准确率,可以根据实验环境的配置高低,适当调整窗口长度和时间间隔。 针对高速公路联网运行收费下多种逃费手段进行分析,根据倒卡、假冒军警牌、套牌换卡三种逃费方式的时间和空间特征,提出了基于Storm环境下的假冒军警牌逃费判别方法、倒卡逃费判别方法和套牌车逃费判别方法。利用预处理的站点阈值、军警牌数据和实时收费数据,应用Strom流处理技术,在线实时稽查偷逃费车辆。经过实验证明,三种逃费稽查方法共享同一份收费数据,能分别高效地排查不同逃费手段的可疑车辆,达到了低延时、高精确地稽查逃费车辆的目的。4 实 验
4.1 实验环境与数据
4.2 实验效果
5 结束语