APP下载

联网收费模式下高速公路ETC防逃费技术的应用

2022-10-20王玲

运输经理世界 2022年11期
关键词:稽查数据仓库样本

王玲

(山东省交通运输厅工程建设事务中心,山东 济南 250014)

0 引言

自2015年至2022年,国内高速公路联网收费模式已经实行了7年。随着信息技术的广泛应用,高速公路收费系统持续升级,相较于独立收费模式,联网收费模式实现了对高速公路交通信息由点到面的控制。现阶段国内各省市地区大多已经完成“一张网”铺设,但联网收费系统复杂度较高,系统一日所收纳的交通数据量较大,车辆的流水数据量大多随着车辆在高速公路上行驶的里程增加而增大,加之高速公路收费数据存在错误,部分车主的ETC 逃费行为会导致卡点的流水数据不完整。由此,在联网收费模式下,如何应用ETC 防逃费技术维护高速公路交通环境,就成为高速公路逃费稽查工作的重点,本文将基于这一重点,针对逃费行为与防逃费技术展开理论分析。

1 高速公路ETC 逃费行为

现阶段,高速公路ETC 逃费行为涵盖典型的逃费行为与新型的逃费行为,从理论分析的角度上分析逃费行为的原因,一方面在于车主存在不愿意承担高速公路通行费的心理,面对高额的通行费,部分车主选择铤而走险;另一方面则在于高速公路的联网收费系统复杂、数据流量大,甚至联网收费系统存在漏洞。除此之外,逃费稽查工作大多以人工稽查为主要工作方式,即利用联网收费系统中的监控子系统所收录的车辆监控信息,通过人工对比车牌号,分析车辆是否存在逃费行为,逃费稽查的工作效率相对较低。

2 车辆识别技术

车辆识别技术的原理为:在ETC 车道上方或收费站点侧面的区域设置高精度图像传感器,利用图像分析算法识别车辆信息,判别车辆的收费类型,将其与车辆流水数据做对比,最后从数据库中筛选出存在逃费行为的车辆。

车辆识别技术的应用流程如下:其一,对车辆品牌型号特征的检测,利用高精度图像传感器获取车辆特征。现阶段国内的车辆品牌型号特征识别方法涵盖车牌定位与车辆整体特征两种。一般情况下,先应用车牌定位检测方法,在确定车牌位置后,应用车辆整体特征,将两种检测方法结合后,能快速提取车辆所在区域,最后利用神经网络对所提取的车辆图片样本进行对比,分析车辆特征与车辆流水信息是否一致。其二,对车辆品牌型号特征的识别,基于所抓取的车辆图片,利用图像识别技术中的识别算法对车辆号码、型号、车灯、雾灯、保险杠以及车辆的天窗等进行识别,通过检测与识别,系统将会自动预测出车辆的缴费类型。其三,车身颜色的识别。车身颜色的识别应用图像识别技术,需经过特征提取、颜色识别两个环节,一般情况下车头相对平坦的区域为特征提取区域,待车头图像提取完成后,利用Low-level 像素颜色值进行车身颜色的识别。但此方案在夜间的应用效果一般,无法保证准确性。其四,图像结构化信息,为提高图像库车辆信息检索的效率,需要对抓取的车辆图像信息进行特征分析,现阶段应用较为广泛的方法为Gabor、SLFT 等,应用图像局部特征分析法可以将纸巾盒、车辆挂坠、车检标志等提取为结构化信息,为逃费稽查工作追根溯源提供信息支撑。

车辆识别技术在ETC 逃费稽查工作中的应用主要在以下几个方面:其一,在ETC 车道的车辆入口位置抓拍车辆信息,如型号、车牌号、颜色等,当车辆驶入ETC 收费通道后,车辆识别系统将对驶入的车辆进行自动化识别,而后将所识别的信息利用二值化的图像展现出来,收费系统对车辆图像数据做进一步处理,记录车辆信息,将车辆信息传送至收费站的服务器终端。其二,在ETC 车道车辆出口位置二次抓拍车辆信息,核实两次信息是否一致,若两次抓拍信息一致,将依照常规流程进行下一环节的操作,若两次抓拍信息存在差异,则需从收费站服务器终端中调取车辆流水信息,核对后判定车辆的逃费行为。其三,建立车辆特征预警,将逃费行为记入信息库,将信息库与ETC 收费站的收费系统联动,一旦嫌疑车辆进入ETC 收费站,车辆识别系统的外接预警设备将亮起、鸣笛。

3 数据仓库技术

3.1 逃费稽查数据仓库设计

数据仓库技术的应用原理为:从数据源中抽取ETC 出入口车辆流水表,将流水表转换、重新装载,使其形成具备分析价值的出入链信息,而后经过数据的采集与整合,为逃费稽查工作人员判断车辆是否存在逃费行为提供依据。逃费稽查数据仓库的设计,需要从以下四个环节入手:

3.1.1 需求分析

逃费稽查数据仓库的设计需求涵盖以下几点内容:其一,针对性地处理联网收费系统中的出入车辆数据流;其二,科学主动刻画出存在逃费行为的车辆特征;其三,提前预测某一车辆于某一地点可能故意逃费;其四,动态识别逃费车辆的记录,并自动报警。

3.1.2 构建概念模型

在逃费稽查数据仓库设计实践中构建储存逃费车辆信息的概念模型,是最高层设计内容,因概念模型与联网收费模式下高速公路ETC 收费业务存在直接联系,所以在设计概念模型前期需要充分了解相关的ETC 收费业务,概念模型的构建流程如下:

第一,根据高速公路联网收费系统的详细说明对出行链与逃费信息进行梳理,在了解逃费行为的基础上确定概念模型的大主题域为通行卡逃费出行链主题域。第二,根据逃费车辆数据流筛选重要指标,涵盖车辆信息、收费信息、时间信息、载重信息、客户标识信息、出行链信息,并将这六项指标作为大主题域下的子主题,形成概念模型。

3.1.3 逻辑模型设计

基于逃费出行链主题域进行逃费稽查数据仓库逻辑模型设计,逻辑模型的设计方法分为星型与雪花型两种,本文选取了星型逻辑设计方法。首先,进行事实表设计,将逃费出行链主题与概念模型作为基础,构造逃费出行链事实表:一级标题为出行链事实表;二级标题为车辆维度表、收费维度表、时间维度表、出行链维度表、客户标识维度表、载重信息表;三级标题为二级标题的细化,其中车辆维度表的三级标题为出入口车牌、出口车型、出口车种、车牌是否相符以及出行费用。收费维度表的三级标题为总载重、轴重、计重标识、超限重量、轴型。时间维度表的三级标题为日期关键字、日分时段、季度、半年度、节假日指示符、星期指示符、重大事件。出行链维度表的三级标题为出行频数累计、入口、出口、入口时间与上次出口时间差、距离差,是否闭环、入口或出口时间是否黑夜出行,是否高峰小时、入口时间是否工作日、出行路径是否有服务区或开口、出行链速度、当前时段车辆平均车速、超时时长。收费维度表的三级标题为时间信息、车辆信息、总收费金额、收费金额非现金、(通行卡)金额、免费车金额、公务车金额以及未付金额。载重维度表的三级标题为轴组数、总轴数、总轴限轴型、各轴轴重、超限重量、修改前轴型、超限重量是否超重、超重比例、修改前总轴重、每月超重数、超重次数。客户标识度维度表的三级标题为通行收费卡号、注册车牌号、注册车型。其次,进行维度表设计,在事实表基础上对每一个通行卡进行逃费维度预测,并将高风险通行卡提取出来,作为下一个数据仓库运行周期的预警通行卡。

3.1.4 物理模型设计

物理模型设计的意义在于进一步确定逃费稽查数据仓库的性能,基于I/O 设计构建逃费出行链主题域各个子域的物理模型,并为各子域的三级标题从“字段/数据类型/数据长度”三个方面配置数据属性,例如为车辆维度表配置数据属性:入口车牌En-VehiclePlate/Char(12)/12;出口车牌号 码ExVehiclePlate/Char(12)/12;入口客货标识EnVehicleFlag/TinyInt/1。为载重维度表配置数据属性:总轴重TotalWeight/BigInt/8;总轴限 TotalWeightLimit/BigInt/8。为通行卡维度表配置数据属性:出口流水号LaneExSerialNo/Char(16)/16;入口流水号LaneEnSerialNo/Char(16)/16;IC 卡 编 号ICInCardID/BigInt/4。

3.2 逃费稽查数据仓库实现

3.2.1 数据处理

由联网收费系统中抽取源数据—根据数据的转换规则按照上文所配置的数据属性转换所抽取的源数据,并确定数据格式统一—按照逃费稽查数据仓库既定的数据呈现方式将数据存储至数据仓库之中。

3.2.2 ETL 开发流程

Repository—创建Project 数据仓库平台(Microsoft SQL Server 2008)—Data Store 源和目标定义—某省某地高速公路路段数据—Job1 数据整合—Work Flow1 数据清洗转换—Data Flow1 数据清洗—Data Flow2 数据转换—Work Flow2 记录合并—Project2 出行链主题事实表—Job2 提取数据—Data Flow—各维度数据录入—Job 部署—Job 执行—运行监控。

3.2.3 结果分析

上述设计所建立的逃费稽查数据仓库能够为逃费稽查决策提供依据,在数据仓库各层业务准则的指导下,源数据经ETL 处理后可用于工作人员查询异常流水数据。

4 数据挖掘技术

高速公路车辆流水数据是复杂的、异构的、海量的,所以在逃费稽查工作中,如何提取高速公路车辆流水数据中的价值信息,成为逃费稽查工作的重点。数据挖掘技术能够利用不同的数据分析方法与模型,根据用户的目的对源数据进行分析,所以数据挖掘技术被作为高速公路ETC 防逃费技术。该项技术在逃费稽查中的具体应用如下:

4.1 算法框架设计

基于高速公路ETC 防逃费目标设计预测模型:数据仓库数据源—确定目标数据—系统聚类分析+Kmeans 聚类分析—逃费行为判别分析—聚类判别结果—逻辑回归分析—建立预测模型—防逃费应用。

该算法框架设计中采取两种聚类分析相结合的目的主要在于提升算法实现的效率,使数据挖掘过程能够满足逃费行为的预测需求。

4.2 聚类分析方法

4.2.1 系统聚类

最短距离法见式(1):

式(1)中:d表示g和g样本之间的距离差;D(a,b)表示G和G不同总体中任意2 个样本点g和g之间最小距离。

最长距离法见式(2):

式(2)中:D(a,b)表示G和G不同总体中任意2 个样本点g和g之间最长距离。

4.2.2 K-means 聚类

K-means 聚类中的k 为K-means 最初的聚类数,于算法初始化环节一组样本数据需根据k(k≤n)找出各个样本的聚类中心,而后将样本归并于差异值最小的集群之中,计算出平均值,重新确定样本的聚类中心。经过循环往复直至样本于式(3)收敛:

式(3)中:m表示类C的样本均值;x表示单个样本数据;k 表示输入参数。

4.3 Fisher 判别分析

Fisher 判别模型的具体内容如下:

假设在k 个总体G,G,…,G中选取n,n,…,n个数据,且令总数为:

4.4 逻辑回归分析

逻辑回归分析模型见式(5):

在逻辑回归分析实践中应重视筛选变量,同时保证建模的车辆流水数据样本数量满足要求。

4.5 建立预测模型

建立预测模型的流程为:抽取高速公路源数据—数据处理—逃费变量分析—确定存在逃费行为的车辆集—建立预测模型—验证与评估车辆的逃费行为。

4.6 防逃费应用

首先,选取A 省高速公路联网收费系统中S 路段,所选取的路段全长223km,设有12 个ETC 收费站。选取时间为2021年5月6日~2021年8月14日,24h不间断采集数据,在选取的时间内,ETC 卡数量为20351 张、车辆流水记录为207852 条。其次,将SAS 软件与逃费稽查数据仓库相连,获取样本数据,提取每一个ETC 出行链信息并处理,例如,按照ETC 车道的入口时间构建车辆每次驶出的速度时序,找出速度时序图中波动较大的样本,将其判定为出行链异常车辆,将该车辆信息上传至程序,由系统执行逃费业务判断,如该车辆符合系统所制定的逃费规则,则该车辆属于“可疑逃费车辆”。再如,将60km/h 作为判定指标,对车辆ETC 出入口最大行驶时间进行计算,结合出行链信息中给出的实际行驶时间,判定车辆是否存在逃费的嫌疑,或结合出行链出入口车辆基本信息,如车牌、车型等,若存在多次对比不匹配,则判定该车辆为“可疑逃费车辆”。最后,将目标样本数据进行聚类分析,根据聚类分析结果确定可疑逃费车辆。

5 结语

综上所述,本文基于联网收费模式下高速公路ETC 防逃费问题,阐述了高速公路ETC 逃费行为的分类与原因,分析了防逃费技术,涵盖车辆识别技术、数据仓库与数据挖掘技术。通过理论研究可以明确:数据仓库技术与数据挖掘技术相辅相成,两项技术不仅是联网收费模式下高速公路逃费稽查工作效率得以大幅度提升的关键,还是通行费作弊逃费问题得以有效解决的根基。所以,在联网收费模式下,高速公路管理部门应对ETC 防逃费技术的应用予以高度重视,积极利用现代信息技术解决ETC 逃费问题。

猜你喜欢

稽查数据仓库样本
基于数据仓库的数据倾斜解决方案研究
深化税务稽查体制机制改革的若干思考
优化税务稽查职能定位的思考
浅析云南省非税收入稽查机制
直击高考中的用样本估计总体
随机微分方程的样本Lyapunov二次型估计
试析税务稽查管理中的问题及对策
数据仓库系统设计与实现
基于支持向量机的测厚仪CS值电压漂移故障判定及处理
七年级数学下册期末检测题(B)