APP下载

基于车牌识别的卡口数据质量监测方法研究及应用

2024-05-15谢海莹

黑龙江交通科技 2024年4期
关键词:卡口车牌识别率

谢海莹

(广州方纬智慧大脑研究开发有限公司,广东 广州 511458)

1 卡口数据质量监测的内容

卡口数据是指通过公路车辆智能监测记录系统(简称卡口系统)采集获得的数据。卡口数据包括但不限于车辆号码、车辆类型、号牌颜色、过车时间、入库时间、设备信息、行驶方向、车道编号等信息,如表1所示。

表1 卡口数据详细信息示例

由于车牌识别系统在处理过程中不同环节、不同的应用类型,对卡口数据的质量要求不同,并影响到最终输出的数据质量,因此依据车牌识别系统原理以及卡口的应用需求,可选取数据的有效性、稳定性、准确性和实时性作为数据监测的内容,并进一步确定指标进行监测[1-3]。

1.1 有效性

有效性是指满足一定的可用性判别标准的数据所占比例。评估卡口数据的有效性主要是评估卡口数据在时间上、信息上的有效性。具体是指经剔除重复记录、时间无效后的可以被使用的记录。内容包括:(1)时间有效性判别,即剔除相同的设备编号、抓拍时间、车牌号码、车辆类型的数据记录;(2)剔除时间戳无效的数据记录,即时间日期是很久以前的或者超出当前时间很久的数据;(3)剔除车牌号码无效的数据。

1.2 稳定性

数据稳定性是衡量数据波动性与离散性的指标,数据波动越小,离散程度越小,则稳定性越高。而卡口数据的稳定性是指统计周期内,卡口数据在时间维度上的变化程度和持续程度。卡口数据的稳定性判断,主要有以下几种方法:最值差值法、统计学方法、百分数衡量法[4]。

1.3 准确性

准确性又称为精度,表明系统接收到的数据与真实情况的接近程度。准确性越高,表明系统输出的数据质量越高,对数据后续的应用越有利。卡口数据的准确性,主要包括:(1)数据量上的准确性,即卡口识别的车辆数量与实际通行的数据越接近,则准确性越高;(2)卡口识别的车牌号码、种类、号牌颜色、经过时间等与实际通过的车辆保持一致,尤其是车牌号码和车辆种类,两者合并作为车辆身份的唯一标识,错一字则差之千里,更应该准确,大部分的应用如违法布控、个体轨迹出行分析等都需要准确的车牌号码才能进行下一步的计算。

1.4 实时性

实时性,是指卡口数据从前端抓拍经过图像识别后,形成的识别结果进入到对应系统的时间足够短。时间越短,实时性越好。目前,关于卡口信息采集的实时性,根据资料,在各标准中只规定了完成一辆车的车牌识别时间在0.5~1 s以内[5],图像捕获、图片合成的耗时,以及传输到终端系统数据库的时间等均未有规定,因此对于整个完整采集、识别、传输、入库的总过程的耗时缺乏参考标准。在实际应用当中,例如利用卡口数据进行交通运行评价、流量预测、信控评价、违法布控等均对卡口数据的实时性有着较高的要求,因此对卡口数据的实时性监测也十分重要。

2 卡口数据质量监测指标方法

2.1 有效性监测方法

数据冗余、数据不符合标准的比例越高,说明数据的质量越差,不但占用了数据存储空间,还会影响数据的应用和效率,因此需要对数据有效率进行分析和监测,有效率低说明前端设备存在异常,应当及时排查。可以针对每个设备,选取不同的统计时段,初步统计数据的有效率。具体计算公式如下

(1)

式中:Pe为统计时段内数据记录有效率,%;o为统计时段内入库记录总数,条;b为统计时段内入库记录数据中,车牌号码、时间重复的记录以及时间戳无效、车牌无效等数据记录总数,条。

2.2 稳定性监测方法

卡口数据因不同时段、不同设备、不同位置的车辆流量不同,短周期内数据量可能变化较大,如果直接采用传统的三种方法计算,误差较大。在参考百分数衡量法的基础上,增加持续判断的方法,来减小数据的误差影响。根据卡口数据的特点,利用历史数据计算出合理的历史经验均值,并将当前统计周期内的数据与历史均值进行对比。具体计算公式如下

(2)

式中:μ为用于判断单个时间节点数据异常、不稳定的指标,可通过分析历史数据和经验设置,在0到1之间;oi为第i个时间节点在统计时段内的入库记录总数,条;Vavg为相同日期、相同时段下的,相同统计区间内的历史均值数据量,条;fi为第i个时间节点的异常结果,1表示正常,0表示异常;n为从第i个时间节点往前推的n个时间节点,n≥1,n说明需要连续n个连续的时间节点出现满足不稳定指标的情况时,才会被判断为数据不稳定,作为异常进行报警,此值的大小根据实际需要按经验设定。

Vavg可以采用历史一个星期内的数据平稳的卡口数据,分日期、分时段、分设备求得的历史平均值,保存在数据库中作为历史均值表,该表可以定期更新。统计时段可以按照一个小时、半个小时、十五分钟等划分,由于夜晚流量少,不具有参考性,可以不分析夜晚时段,时段长度可以根据实际数据分析评估确定。日期按照周一至周日来划分。如果有节假日,还需要根据节假日划分。统计节点可以按照五分钟统计一次,则一个小时统计12次,统计长度由统计时段确定,采用滑动统计的方式。如果当前统计时间段内的数量与历史均值之比低于指定的阈值μ,并且持续n个时间节点,则说明数据不稳定,出现了异常,应当及时报警排查,以免影响数据应用。

2.3 准确性监测方法

实践中,数据的准确性评价采用抽样、视频帧人工对比法、大数据量化计算分析法进行监测。不同的设备等级,由于其建设标准和技术不同,例如电警卡口、治安卡口、视频结构化三种不同类型的设备,其对设备的识别精度要求就不尽相同,电警卡口要求最高,视频结构化最低,但是都可以作为卡口数据为系统所用。因此不能要求所有的卡口设备其流水数据都使用一致的检测标准,而是应当根据不同类型设备采用不同的阈值进行判断。

(1)车牌检测率。

车牌检测率是指车辆经过卡口检测路段时,车辆能够被卡口设备抓拍到图片,同时进行图像识别、获得一条信息记录的数据传输到相应的数据存储中,即车辆图像捕获识别后所记录的有效车辆数与实际通过车辆数的百分比。正常情况下,每一辆车的经过都应当有一条数据记录,但是由于环境、系统等因素复杂,可能会存在车辆经过后,没有被抓拍到的情况。其中原因可能是卡口捕获不到车辆图像,也可能是系统传输过程数据丢失等,即车辆漏检。对于卡口数据使用方来说,没有在系统中生成对应的车辆通过记录的就应当视作车牌漏检。由于车牌检测率需要对比实际通过的情况才能获得结果,故而需要采用抽样、人工统计的方式进行。可以抽样选取具有监控视频的卡口设备,通过视频帧人工分析统计出实际通过该路口的车辆次数,然后与相同时间段内的入库系统的记录总数进行对比。

(3)

式中:Pdet为车牌检测率,%;Nr为通过视频帧人工分析出的统计时段内实际车次数,车次;Ol为通过对比视频,在统计时段内在接收的数据库中,未能生成数据记录入库的车次数量,车次。

(2)车牌识别率。

车牌识别率是指系统在抓拍图片后,经过图像处理,能够准确地将图中的车牌号码识别出来的比率。可以采用抽样、人工对比的方式统计车牌识别率。但是,抽样获得的车牌识别率具有明显的局限性,一个中小城市,少则几百个卡口设备,多则几万个设备,而且每个设备识别率的高低会受到类型、光线、角度、遮挡、比例、形变、背景等因素影响,通过抽样、人工的方式,无法将识别率差的设备及时排查出来。随着大数据技术应用,可以使用全量的方式,采用自动化的方法计算车牌的识别率。《中华人民共和国机动车号牌》(GA 36—2018)[6]中,对车牌有严格的规定,因此可以根据已有规定建立车牌合法性统计,例如从车牌长度、车牌第一个文字字符、第二第三个数字规律等进行合法性判断,随着新能源车牌照越来越多,历史的车牌识别系统对新能源车牌的识别支持不够,就更加有必要对车牌识别率进行监测。

(4)

式中:Prec为车牌识别率,%;n为根据车牌的规则判断的不合规车牌记录数,条;o为统计时段内入库记录总数,条。

这种方法计算的车牌识别率并不能百分之一百地等于实际,但也比较靠近实际,甚至可以将识别车牌与车驾管数据进行比对判断,从而进一步提高车牌识别率的准确度。实际使用中可以按照不同设备进行计算,达到全量、全域、全时监测,能够有效筛选出问题设备,以便及时修复和升级卡口设备,为后续应用提供保障。

2.4 实时性监测方法

影响数据实时性,导致延迟的原因非常复杂,各环节均可能存在延迟。各环节衔接过程、软件的稳定性、软硬件运行环境、网络传输等都可能造成延迟。但对每个环节逐一检测非常困难且没有必要,为了尽可能简单明确、实时、持续地对数据进行监测,以整个采集传输过程作为整体监测指标,采用接收数据时间(即入库时间)与实际采集时间(图像抓拍时间)的延误值作为监测数据实时性的指标。具体可以分为单样本延迟时间和单设备平均延迟时间两种。

(1)单样本延迟时间。

Δt=tr-tc

(5)

式中:Δt为当前记录入库时间与抓拍时间差,s;tr为当前记录的入库时间;tc为当前记录中车辆通过路口时的图像抓拍时间。

(2)单设备平均延迟时间。

对于大规模数据,一条记录的延误值并不能很好地反映数据是否出现问题。一般地,会针对同一设备统计一定时间段内的平均延误时间,作为该设备是否存在延误的标准。

(6)

式中:Tt为统计时间段内,该设备所有入库记录的平均延迟时间,s;Δt为单个样本的入库时间与抓怕时间差,s;n为统计时间段内入库记录总数,条。

3 实例应用

在安徽省宣城市的交通大脑系统中,基于卡口数据进行质量监测的环节本属于其中一个应用模块,名称为设备数据监控模块,主要是在后台每五分钟计算每个卡口设备的指标数据,并实时对比指标的合理范围阈值,如果不符合阈值范围,则生成一条异常记录,并将异常记录推送展示在系统界面,从而及时提醒数据管理人员,及时排查问题。

阈值需要根据实际在后台配置文件中设置,可根据不同地市不同的设备类型进行实际分析后设置。一般地,默认识别率阈值为80%,触发不稳定的流量比值为50%,触发报警延误严重的阈值为120 s。可靠阈值需要根据实际情况设置,并且与统计的流水范围匹配。默认情况下设置为50条。主要是为了减少因数据量偏小出现的计算误差偏大的情况。表2为宣城大脑系统中部分设备的卡口监测数据结果,后台每五分钟对相关指标进行统计并保存到数据库中。

表2 部分卡口设备监测数据

同时,后台将指标数据与设定的阈值进行比较,如果不满足合理范围,则被推送到系统界面,进行实时预警。

系统用户可以在系统上及时发现存在异常的设备,从而及时排查和修复设备。

4 结 语

基于车牌识别的卡口设备数据质量监测方法已经在多个地市的基于卡口数据应用的系统中得到使用,如上海、广州等。项目前期,该方法可以利用历史数据对项目使用的卡口设备进行质量分析,排查当前阶段卡口是否存在质量问题,分析卡口数据应用的可行性,同时反馈有问题的卡口设备以便及时维修。项目运行中,可以实时监测卡口数据是否异常,例如是否出现数据中断、识别率过低、数据不稳定、数据延误等问题,采用实时报警的方式提醒厂家进行修复,缩短数据异常的时间,为后续系统的实时应用以及数据分析提供更好的支持。

猜你喜欢

卡口车牌识别率
基于类图像处理与向量化的大数据脚本攻击智能检测
数字图像处理技术在车牌识别系统中的应用
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
L卡口“马拉松”联盟的前世今生
提升高速公路MTC二次抓拍车牌识别率方案研究
第一张车牌
基于MATLAB 的车牌识别系统研究
高速公路机电日常维护中车牌识别率分析系统的应用
高速公路车道高清卡口系统实施方案
基于高清卡口识别的高速公路长隧道安全比对系统