浅谈基于视频识别的交通事件检测算法性能评估

2023-08-25文图张奇赵洹琪胡伟超

道路交通管理 2023年8期

文图｜张奇赵洹琪胡伟超

异常检测在计算机视觉研究中处于重要地位，目前已有多种方法被用于视频和图像等异常的检测与定位。基于视频识别的交通事件检测性能评估的目标是选出泛化能力强的模型完成事件检测任务。实际的事件检测任务往往需要进行大量的实验，通过多次调整参数、融合多种模型算法（多重融合策略）来解决视频识别问题，并观察哪种模型算法在什么样的参数下能够最好地完成任务。通常情况下，基于已有的数据进行切分来完成模型训练和评估，可以很好地判定模型状态是过拟合还是欠拟合，进而不断优化。不同的交通事件场景强调不同的分类能力，视频识别得到的分类器或者模型，需要有不同的指标。本文选取了一些符合视频识别交通业务情况或者可以表现视频识别模型波动的评估指标，通过观察评估指标可以判断模型算法的效果，从而对模型算法进行升级与迭代。

一、交通事件检测算法模型学习方法

交通事件检测算法模型学习方法可以分为离线学习和在线学习。离线学习也称本地学习，是指使用测试数据集反复训练一个或多个算法模型来解决不同交通事件类型的检测。该方法的优点在于通过对数据进行预处理，可离线快速生成模型，不会因为个别数据的更新错误把模型带向极端。缺点是无法动态更新模型，需要重新生成模型以适应新数据。因此，该方法不适用于需要频繁更新模型的场景。相比之下，在线学习可以随着输入数据的变化动态更新模型，具有实时性，可以快速适应新数据的特征变化，而且可以避免离线学习需要重新生成模型的问题。但是，由于在线学习需要实时计算，因此对测试系统的性能有着较高要求。

二、交通事件检测算法模型评估指标

在视频识别领域，混淆矩阵（Confusion Matrix）又称为可能性矩阵或误差矩阵，是性能评估的一种标准格式，用n×n 的矩阵形式来表示。混淆矩阵是机器学习中一种可视化工具，主要用于比较分类问题的预测结果和实际值，同时可以将分类结果的精确程度反映在矩阵中。矩阵的列总数表示预测为该类别的数据数量，每行代表数据的实际归属类别，行数据的总数表示该类别的实例数量。矩阵中每个元素的值表示实际属于该类别但被错误预测为其他类别的数量，如图1 所示。

图1 混淆矩阵

基于视频识别的交通事件检测算法性能的4 个基础统计数值分别为：TP（正样本检测正确数）、TN（负样本检测正确数）、FP（假正检测数）、FN（假负检测数）。根据混淆矩阵，可以计算出一些用于评估检测算法性能的指标，如Accuracy（准确率）、Precision（查准率）、Recall（查全率）和F 值（Precision 和Recall 的调和均值）等。这些指标可以帮助了解模型的检测算法能力以及对于正负样本的识别效果。

TP（正样本检测正确数）：正确检测出交通事件类型且检出时间与事件起始时间误差在规定时间以内的视频样本数量。

TN（负样本检测正确数）：无交通事件发生且没有检测出交通事件。

FP（假正检测数）：检测出的交通事件类型错误，或检出时间与事件起始时间误差超过规定时间的视频样本数量。

FN（假负检测数）：未检测出交通事件类型的数量。

GT（真值数量）：真实发生交通事件的视频样本数量（由人工筛选标注）。

Accuracy（准确率）：表示正确检测出交通事件的数量占所有检测的视频样本的比例。

Accuracy（准确率）虽然可以衡量机器学习模型的总体正确情况，但在样本不均衡的情况下，其并不能很好地衡量结果。因此，为了评估模型的表现，还需要采用新的指标。

Precision（查准率）：表示正确检测到的交通事件数量占所有检测发生交通事件的视频样本的比例。

TPR（真正例率）：表示正确检测到的交通事件数量占所有真实发生交通事件样本数的比例。

FPR（假正例率）：检测出的交通事件类型错误数量占所有错误事件样本数的比例。

Recall（查全率）：表示正确检测到的交通事件数量占所有真实发生交通事件样本数的比例。

交通事件检测是一个非常追求查全率，同时也强调查准率的领域，但事实上两者在某些情况下是有矛盾的。根据算法模型的预测结果进行排序，以查准率为纵轴、查全率为横轴作图，得到了查准率－查全率曲线，简称PR 曲线，如图2 所示。

图2 PR曲线

从图中可以看出，B 的性能优于A，而与C 发生交叉，则难以一般性地判断谁更优秀，只能在具体的条件下进行比较，需要综合考虑，最常见的方法就是使用F 值（Precision 和Recall 的调和均值）。

F 值（Precision 和Recall 的调和均值）：结合Precision 和Recall 的优势，用于综合衡量单类交通事件的基本检测性能。公式为：

AUC（曲线下面积）：是分类问题中最重要的评估指标之一，计算的是ROC（受试者工作特征）曲线下的面积，以FPR（假正例率）为横轴、TPR（真正例率）为纵轴作图，得到ROC 曲线下的AUC，如图3 所示，表示正确判断正样本的得分高于负样本的概率，AUC的取值范围一般在[0.5，1]，数值越大模型效果越好。其中rankinsi代表第i 条样本的序号，概率得分从小到大排序，排在第rank 个位置。M、N 分别代表正负样本个数，然后只取正样本序号累加。但有时候两个模型的AUC 相等并不代表模型的效果相同，所以要综合考虑其他评估指标。公式为：

图3 ROC曲线

MCC（马修斯相关系数）：其综合考虑了TP、TN、FP、FN，是一个比较均衡的指标，对于样本不均衡情况下也可以使用。MCC 的取值范围在[-1，1]，数字越大越接近真实样本。公式为：

F 值（Precision 和Recall 的调和均值）、AUC（曲线下面积）、MCC（马修斯相关系数）可以说是二分类问题的最佳评估指标，调和均值在交通事件样本数平衡的情况下可以帮助我们更好地协调查准率与误报率的关系，马修斯相关系数在针对交通事件样本类别不平衡情况下的鲁棒性是更好的评估指标。

T（检测时间误差）：正确检测事件起始时间误差的折减系数。

其中，为事件的检出时间（精确到毫秒）；S 为事件的起始时间（精确到毫秒）；NORM 为归一化系数，取一个约束值；N 为正确检测数；MIN 将误差范围归一化为（0，NORM）之间。

三、交通事件数据集划分方法

机器学习的目的是使学习模型对已知数据和未知数据都能有较好的预测能力。通过比较不同模型在测试集上的表现，可以选择出最佳模型。理想的解决方案是对候选模型的泛化误差进行评估，然后找出泛化误差最小的模型。在实际应用中，通常会将数据集划分两类，一类用来训练模型，一类用来评估模型，分别称为训练集和测试集，以测试误差作为泛化误差的近似。常用的方法有以下几种。

留出法。通过对数据集D 进行适当的处理，从中分出训练数据集S 和测试数据集T。其中S ∪T=D，S ∩T=Ø。在S 上训练出模型后，用T 来评估其测试误差，作为对泛化误差的估计。可以选择三分之二至五分之四的样本用于训练，剩余样本用于测试。留出法的缺点是需要保证测试集与训练集的数据分布相似，否则可能会导致测试结果不准确。

交叉验证法。先将数据集D 划分为k 个大小相似的互斥子集，每个子集都尽可能保持数据分布的一致性，即从D 中通过分层采样得到。然后，每次用k-1个子集的并集作为训练集，余下的那个子集作为测试集，这样就可以进行k 次训练和测试，最终返回的是这k 个测试结果的均值。交叉验证可以更好地评估模型的预测性能，并减少模型过拟合的风险。

自助法。对于包含m 个样本的数据集D，进行有放回抽样m 次后得到数据集D'。将D'作为训练集，D与D'的差集用作测试集。这样，实际评估的模型与期望评估的模型都使用m 个训练样本，而没在训练集中出现的样本用于测试。该方法可以减少训练样本规模不同造成的影响，有效地利用数据集，可以不断划分初始数据集，形成不同的训练集，但可能会导致模型的方差过大。

四、最终模型的调参

大部分的算法模型都有一些参数需要设定，不同的配置参数对模型的性能影响有着显著的差别。而这个配置参数的能力是需要长期积累才能形成的，因为每一种数据库和每一种网络结构都需要不同的参数设定以达到最佳效果。因此在进行算法模型评估时，除了对算法模型进行选择，还需要对算法参数进行设定。参数其实是个比较泛化的概念，因为它不仅包括一些数字的调整，也包括了相关的网络结构的调整和一些函数的调整。数值计算由一整套数学过程决定，在选定方法后，其计算过程基本不需要人工参与。因此，常说的模型调参实际上是调整模型超参数。超参数种类繁多，而且无法通过一个严谨的数学流程给出最优解，需要人工参与进行调节。调参过程主要通过两种方式来进行：手动调参与自动调参。手动调参是指人工设定并调整超参数的过程，这种方式通常需要对问题和模型有深入理解，过程耗时且效率低下。自动调参则是通过算法自动搜索最优超参数的过程，如网格搜索、随机搜索、贝叶斯优化等。调参的最终目的是要使训练之后的模型检测事件更精确。

五、结论

本文介绍了几种适用于交通事件典型场景检测算法的评估指标和评估方法，对数据采用不同的选取方法和划分策略，会对算法模型评估指标产生不同的影响，因此,需要选择合适的方法和划分策略来正确地反映模型的效果。通过分析可以得出，自助法在数据集较小，难以划分训练数据集、测试数据集时很有用，但自助法产生数据集改变了初始数据集的分布，这会引入估计偏差。所以，在初始数据量足够时，可使用留出法和交叉验证法评估测试算法模型的性能。如果测试集中的交通事件类型数据不均衡，可根据实际应用将各个事件类别评估指标加权计算。