基于优化卷积神经网络的车辆特征识别算法研究

2023-11-14陈暄吴吉义

电信科学 2023年10期

关键词：池化识别率卷积

陈暄，吴吉义

研究与开发

基于优化卷积神经网络的车辆特征识别算法研究

陈暄1，吴吉义2,3

（1.浙江工业职业技术学院，浙江绍兴 312000；2.浙江省人工智能学会，浙江杭州 310027；3.浙江大学智能教育研究中心，浙江杭州 310027）

针对道路场景图像中不同距离目标车辆特征存在识别效果弱、精度低的问题，提出一种基于优化卷积神经网络的车辆特征识别算法。首先，采用基于PAN模型的多尺度输入获取不同距离的目标车辆特征；其次，在卷积神经网络结构中加入多池化、BN层和Leaky ReLU激活函数改进网络模型的性能，通过引入混合注意力机制，集中关注车辆图像中的重要特征和区域，从而增强了网络模型的泛化能力；最后，通过构建多层次卷积神经网络结构完成对车辆的特征效果识别。仿真实验结果表明，在单一场景的BIT-Vehicle数据库中，本文算法相比CNN、R-CNN、ABC-CNN、Faster R-CNN、AlexNet、VGG16和YOLOV8在单一目标和多目标识别率方面分别提高了16.75%、10.9%、4%、3.7%、2.46%、1.3%、1%和17.8%、10.5%、2.5%、3.8%、2.7%、1.1%、1.3%，在复杂场景的UA-DETRAC数据库中，本文算法相比其他算法在不同距离目标车辆识别中获得了更加精确的效果。

车辆识别；卷积神经网络；多尺度输入

0 引言

随着信息技术和车联网技术的快速发展，车辆自动驾驶系统和交通管理系统都需要高效准确全天候的车辆识别系统进行辅助和管理。而卷积神经网络（convolutional neural network，CNN）凭借出色的性能在车辆特征图像识别领域获得巨大的成功[1-2]。学者以CNN为主要技术手段在车辆识别方面展开深入的研究。有的学者关注CNN应用结果方面的研究，如文献[3]提出基于背景分割法卷积神经网络的车辆识别方法，它将输入视频分割成与前景或背景相对应的区域降低CNN的计算量并提高识别精度；文献[4]提出基于CNN的车牌识别系统，该系统在多行、倾斜和多字体车牌方面识别率达到了98.13%；文献[5]提出基于CNN 的自动驾驶车辆的多模态融合识别系统，在高精度和适应性方面具有不错的效果；文献[6]提出无须标注车辆样本的CNN车辆检测和分类方法，该类方法的检测准确率约为98.5%。以上方法获得了较好的识别率，但是如何降低识别模型的复杂度，优化识别时间依然是当前应用领域的主要问题。有的学者针对CNN自身性能提升开展研究，如采用粒子群算法[7-8]、人工蜂群算法[9]、鲸鱼优化算法[10]等对CNN的参数进行优化，虽然能够提高网络性能，但这些元启发式算法自身性能有限，增加了模型计算量。还有的学者针对快速区域卷积神经网络（Faster R-CNN）开展研究，如文献[11]对Faster R-CNN模型在车辆特征识别方面的应用进行了综述，肯定了该模型的识别效果；文献[12]提出在不同的天气环境中使用该模型进行车辆目标识别检测，实验结果表明该算法在真实环境中也具有较为不错的效果；文献[13]采用该模型进行车辆特征识别，通过VTTI数据库展示较好的识别效果，但消耗了大量的计算时间；文献[14]采用Faster R-CNN模型解决部分外形相似的车辆之间的误检问题，该算法具有较高的精确度、较小的误检率和更好的鲁棒性；文献[15]使用Faster R-CNN模型对车辆目标图像进行多尺度的特征提取，实验结果表明能够获得较为精确的识别效果但需要较多的时间。以上方法的识别率均获得提升，但依然存在训练复杂、无法适应不同尺寸目标的问题。

基于此，提出一种基于优化卷积神经网络的车辆特征识别算法，它使用多尺度图像处理技术获取不同尺度的车辆图像特征，利用多池化（multi-pool）、批归一化（batch normalization，BN）层和Leaky ReLU激活函数优化网络结构，引入混合注意力机制提高模型的泛化效果，通过仿真实验验证不同场景的车辆特征识别性能。

1 卷积神经网络

传统神经网络在图像处理过程中数据量较大，图像数字化处理无法保留原来的图像特征，使得图像识别率降低。CNN凭借特有的权重共享、权重数量较少等特点能够有效地提升图像处理的识别率而受到广泛应用。它主要包括输入层、卷积层、池化层、全连接层和输出层。本文仅对中间3层进行简单介绍。

（1）卷积层

卷积层的作用将原始图像输入CNN中进行图像特征提取。在卷积层中设置多种卷积核，按照设定的卷积核大小对原始图像进行窗口滑动提取图像特征，再利用激活函数对输出结果进行非线性变化，从而获得非线性特征图。

（2）池化层

池化层的作用是对卷积层输出的特征图像进行降维，减小特征图的空间尺寸，降低信息的数据维度，从而减少计算量。

（3）全连接层

全连接层的作用是将一个特征空间线性变换到另一个特征空间中。它将经过卷积层、池化层处理获得的特征整合在一起，然后根据非线性激活函数自由调节学习过程，从而完成对目标的识别分类。

2 优化卷积神经网络

针对现有CNN在车辆特征识别中存在不同距离目标车辆识别精度低、图像鲁棒性弱的问题，从4个方面进行优化，首先通过多尺度图像处理获得精确的车辆图像特征，其次利用改进的卷积神经网络结构提升模型识别能力，接着引入混合注意力机制加强模型泛化能力，最后构建多层次卷积神经网络结构用于车辆特征识别。

2.1 多尺度图像处理

传统的CNN主要通过逐层抽象方式提取目标特征，其中感受视野范围是获取目标特征的关键。但是在复杂道路场景下的车辆识别中，如果视野太小，则只能观察到局部特征，存在丢失车辆关键信息的可能；反之，可能会观察到周围场景很多无效的信息，增大图像特征提取的难度。采用多尺度图像处理能够使得网络对不同尺度的物体的体积、纹理、结构等进行感知，极端天气、街道建筑物、光线等复杂场景会增大车辆图像提取难度。采用多尺度图像处理能够对不同距离的车辆目标实现较好的识别效果。本文使用路径聚合网络（path aggregation network，PAN）模型[16]获取车辆图像特征信息，利用该模型自下而上的路径技术增加整个特征层次结构，从而获得不同尺度的图像大小特征，提高模型的鲁棒性。PAN模型如图1所示。

图1 PAN模型

图2 改进的卷积神经网络结构

2.2 改进的卷积神经网络

为了能够更好地发挥CNN在车辆识别中的效果。本文在卷积层依次加入多池化、BN层和Leaky ReLU激活函数，通过这些措施提升CNN的性能和识别准确率。改进的卷积神经网络结构如图2所示。

（1）采用多池化结构

在车辆特征识别中，为了更好地获得目标特征及感知能力，本文借助了YOLOV3中空间金字塔池化（spatial pyramid pooling，SPP）架构的设计思想。在SPP架构的4个分支结构中，第一个分支保留原始输入的信息，即不进行池化或降采样，第二、第三、第四分支池化核分别设定为5×5、9×9及13×13的最大池化，经过池化处理后的特征图像尺寸和深度保持不变。通过池化层的设置方式能够避免CNN中需要固定尺寸的滤波器，对不同任意尺度的特征进行采样和池化以获得不同尺度目标的信息。结合复杂场景中的车辆特征信息，本文利用SPP架构对多尺度的输入图像进行处理，为当前的网络模型提供更高的灵活性和鲁棒性。

（2）引入Leaky ReLU激活函数

传统CNN一般使用Sigmoid 或者ReLU激活函数，但是这些函数在训练过程中容易出现神经元“死亡现象”，导致在反向传播中出现梯度消失的情况。因此使用Leaky ReLU激活函数()，它是一种修正线性单元激活函数的变体，它解决了传统激活函数的零梯度问题。

（3）加入BN层

为了能够更好地在模型后期获得分类结果，在CNN中加入BN层用来处理训练过程中特征数据分布发生改变的问题。它通过对卷积层的输入进行归一化，使输入数据的均值接近0、标准差接近1，从而减少内部协变量偏移的影响，使得网络更容易训练，有助于梯度的传播和提高反向传播过程中的数值稳定性，从而加快了模型的收敛速度。

2.3 混合注意力机制

传统的CNN主要以大量的训练样本为基础，但训练数据较少导致无法有效地提取样本特征，造成网络性能下降。为了提高输入特征数据的感知和理解能力，增强网络对重要特征和区域的关注，将通道注意力机制和空间注意力机制组成混合注意力机制引入车辆识别中。

（1）通道注意力机制

通道注意力机制主要利用特征通道间的关系生成通道注意图，并为显著目标分配更大的权重，从而提高模型的性能。其过程是对输入图像特征进行最大池化和平均池化操作，并通过聚合获得特征映射的空间信息。

（2）空间注意力机制

空间注意力机制是一种用于图像或特征图处理的注意力机制，它的主要目标是加权关注图像或特征图中的重要区域，以便更有效地处理视觉信息，它通过计算每一个空间位置的注意力权重，使得网络聚焦在图像特定区域重要部分。

2.4 多层次卷积神经网络结构

结合以上对卷积神经网络的改进措施，本文提出一种多层次卷积神经网络结构，如图3所示。

图3 多层次卷积神经网络结构

图3所示的多层次卷积神经网络由3个相对独立的改进卷积神经网络、1个混合注意力机制、1个全连接层和1个分类层组成。第一个改进卷积神经网络感受野的大小为67 pixel×67 pixel，采用3×3、5×5、7×7的池化核；第二个改进卷积神经网络感受野的大小为131 pixel×131 pixel，采用5×5、7×7、9×9池化核；第三个改进卷积神经网络感受野的大小为195 pixel×195 pixel，采用7×7、9×9、11×11池化核。3个改进卷积神经网络结构与混合注意力机制的融合关系采用文献[17]的设计思想进行构建，表达式如下：

3 仿真实验与分析

为了更好地验证本文算法的识别效果，搭建了基于TensorFlow深度学习框架，实验硬件方面采用酷睿I5的CPU，内存为16 GB DDR，硬盘为1 TB，软件环境为Windows10操作系统，利用Spyder编译工具进行Python编程。对比算法为CNN、区域卷积神经网络（region- CNN，R-CNN）、人工蜂群优化卷积神经网络（artificial bee colony-CNN，ABC-CNN）[18]、Faster R-CNN[19]、AlexNet、VGG16和YOLOV8。在单一和复杂两个场景下验证本文算法的性能。

3.1 本文算法性能

为了验证本文算法的性能，将8种算法的精度进行了对比，8种算法的训练精度对比如图4所示。图4显示随着训练次数逐渐增加，8种算法的训练精度都呈现不同程度的上升趋势。当训练次数达到400时，本文算法率先趋近稳定并始终保持平缓状态。而CNN的训练精度在整个训练过程中一直处于上升趋势且具有较为明显的震荡；R-CNN和ABC-CNN的精度上升趋势较为平缓，且出现了微弱的震荡；Faster R-CNN的精度在训练次数达到500后才出现较为平缓的现象；AlexNet和VGG16的精度在训练次数达到450后出现了较为平缓的现象；YOLOV8大致与本文算法的精度结果相当，但稍微低于本文算法。因此，纵观整个训练过程，本文算法的精度优于其他7种算法，证明了本文算法具有较为明显的识别效果。

图4 8种算法的训练精度对比

3.2 单一场景车辆特征数据库对比

为了说明本文算法在单一车辆场景中的识别效果，使用文献[20]提供的BIT-Vehicle数据集中的车辆图片作为验证本文算法的图片库，该数据库一共包含轿车（sedan）、运动型多功能汽车（SUV）、卡车（truck）、公交车（bus）、小型公交车（microbus）和小型货车（minivan）6种不同类型的车辆。将该数据库中的9 850张图片分为两个部分，按照6:4分为训练数据集（5 910 张车辆样本图片）和测试数据集（3 490 张车辆图片）。部分BIT-Vehicle数据集样本如图5所示。

图5 部分BIT-Vehicle数据集样本

8种算法的单一车辆识别率对比见表1。从表1发现这些算法对6种类型车辆的识别率都不相同，但是本文算法的优势较为明显。从这6种类型的车辆图片来看，周围场景的颜色对车辆具有一定的影响，而本文算法的多尺度图像处理降低了这些无效元素的影响，从而使得车辆的特征提取更加准确，它相比CNN、R-CNN、ABC-RNN、Faster R-CNN、AlexNet、VGG16和YOLOV8识别率分别提升了16.75%、10.9%、4%、3.7%、2.46%、1.3%和1%。8种算法的多目标车辆识别率对比见表2，本文算法相比单一车辆的识别率有所降低，主要是由于不同车辆处于同一个场景中使得特征提取过程受到了影响，同时外界光线、摄像角度、多目标车辆的重叠降低了识别率，但本文算法保持一定的优势，它相比CNN、R-CNN、ABC-RNN、Faster R-CNN、AlexNet、VGG16和YOLOV8识别率提升了17.8%、10.5%、2.5%、3.8%、2.7%、1.5%和1.1%。8种算法对随机的1 000张数据库图片的识别时间对比见表3。从表3可以发现，本文算法相比CNN、R-CNN具有明显优势，相比ABC-CNN、Faster R-CNN、AlexNet和VGG16算法优势较为一般，而和YOLOV8算法时间几乎相当，这说明了优化卷积神经网络由于结构优化导致识别时间有所增加，但总体效果影响不大。

表1 8种算法的单一车辆识别率对比

表2 8种算法的多目标车辆识别率对比

表3 8种算法对随机的1 000张数据库图片的识别时间对比（单位：s）

召回率和准确率是衡量模型识别的重要方法，本文使用4种条件下的本文算法计算BIT-Vehicle数据集中6类不同车辆的准确−召回率PR进行对比。其中召回率和准确率的计算式如下：

图6 不同条件下本文算法的6种车型PR

图7 8种算法的6种车型PR

3.3 复杂场景下的车辆目标验证

为了验证复杂场景下的识别效果，选取交通数据集UA-DETRAC[21]作为本文模型的训练测试样本，该数据集中包含了基于不同路侧视角、不同时段和不同车辆拥堵度的车辆图像。它满足了场景复杂、数据规模大的要求。本文选取白天正面和夜晚侧面作为识别场景进行研究。8种算法的白天和夜晚识别效果分别如图8、图9所示。

图8和图9分别展示了白天和晚间场景下的8种算法对车辆目标的识别效果，方框代表不同算法的识别效果。在白天道路正面图像中，所有算法基本上都能够检测出车辆特征，但是本文算法相比其他算法能够明显获取不同位置的车辆特征，降低了漏检率和误检率，特别是道路图像中的密集车辆，本文算法的识别优势比较明显，如图8（h）中远处的目标依然能够被识别，验证了本文模型性能的优越性。在晚间道路侧向图像中，8种算法的识别效果都呈现了不同程度的下降。从总体上看，本文算法在识别方面具有明显的优势，当目标与周围的场景存在较小的差异，如图9（h）中公共汽车左上角出现的5辆小轿车时，采用本文算法依然能够获得较好的识别结果。

图8 8种算法的白天识别效果

综上所述，通过理论阐述和仿真实验说明了本文算法能有效提升车辆特征识别的效果。该模型能够捕获图像中不同距离目标车辆的特征，降低交通场景对图像特征的干扰，同时实现了对不同尺度的图像特征进行采样和池化，有效避免了神经元的消失和梯度为0的缺点，提高了模型泛化能力，该网络相比普通的卷积神经网络，无论在应用范围还是自身性能结构上都具有较好的优势。

图9 8种算法的夜晚识别效果

4 结束语

本文提出了一种优化的的卷积神经网络算法。该算法结合多尺度图像处理、多池化结构、BN层、Leaky ReLU激活函数、混合注意力机制等多种方法提高道路场景图像中不同距离目标车辆特征的识别精度。目前，有关CNN在下一步研究主要体现在：模型结构设计、跨域和跨模态应用、弱监督和无监督学习、可解释性和鲁棒性、轻量级和移动端应用、联合学习和多任务学习等方面。笔者将在模型结构设计和多任务学习方面继续开展研究。

[1] ZHANG J P, WANG F Y, WANG K F, et al. Data-driven intelligent transportation systems: a survey[J]. IEEE Transactions on Intelligent Transportation Systems, 2011, 12(4): 1624-1639.

[2] COLLINS R T, LIPTON A J, KANADE T. Introduction to the special section on video surveillance[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(8): 745-746.

[3] CHAROUH Z, EZZOUHRI A, GHOGHO M, et al. A resource-efficient CNN-based method for moving vehicle detection[J]. Sensors, 2022, 22(3): 1193.

[4] RANJITHKUMAR S, CHENTHUR PANDIAN S. Automatic license plate recognition system for vehicles using a CNN[J]. Computers, Materials & Continua, 2022, 71(1): 35-50.

[5] SHI R W, YANG S C, CHEN Y Y, et al. CNN-Transformer for visual-tactile fusion applied in road recognition of autonomous vehicles[J]. Pattern Recognition Letters, 2023, 166: 200-208.

[6] SATYANARAYANA G S R, DESHMUKH P, DAS S K. Vehicle detection and classification with spatio-temporal information obtained from CNN[J]. Displays, 2022, 75: 102294.

[7] SOON F C, KHAW H Y, CHUAH J H, et al. Hyper-parameters optimisation of deep CNN architecture for vehicle logo recognition[J]. IET Intelligent Transport Systems, 2018, 12(8): 939-946.

[8] 王上, 唐欢容. 一种基于混合粒子群优化算法的深度卷积神经网络架构搜索方法[J]. 计算机应用研究, 2023, 40(7): 2019-2024.

WANG S, TANG H R. Deep convolutional neural architecture search method based on hybrid particle swarm optimization algorithm[J]. Application Research of Computers, 2023, 40(7): 2019-2024.

[9] KIYMAÇ E, KAYA Y. A novel automated CNN arrhythmia classifier with memory-enhanced artificial hummingbird algorithm[J]. Expert Systems With Applications, 2023(213): 119162.

[10] GHASEMI DAREHNAEI Z, SHOKOUHIFAR M, YAZDANJOUEI H, et al. SI-EDTL: swarm intelligence ensemble deep transfer learning for multiple vehicle detection in UAV images[J]. Concurrency and Computation: Practice and Experience, 2022, 34(5): e6726.

[11] MAITY M, BANERJEE S, SINHA CHAUDHURI S. Faster R-CNN and YOLO based vehicle detection: a survey[C]//Proceedings of 2021 5th International Conference on Computing Methodologies and Communication (ICCMC). Piscataway: IEEE Press, 2021: 1442-1447.

[12] GHOSH R. On-road vehicle detection in varying weather conditions using Faster R-CNN with several region proposal networks[J]. Multimedia Tools and Applications, 2021, 80(17): 25985-25999.

[13] HSU S C, HUANG C L, CHUANG C H. Vehicle detection using simplified Fast R-CNN[C]//Proceedings of 2018 International Workshop on Advanced Image Technology (IWAIT). Piscataway: IEEE Press, 2018: 1-3.

[14] 宁俊, 王年, 朱明. 基于改进Faster R-CNN的车辆类型识别算法[J]. 安徽大学学报(自然科学版), 2021, 45(3): 26-33.

NING J, WANG N, ZHU M. Vehicle type recognition algorithm based on the improved Faster R-CNN[J]. Journal of Anhui University (Natural Sciences), 2021, 45(3): 26-33.

[15] LUO J Q, FANG H S, SHAO F M, et al. Multi-scale traffic vehicle detection based on Faster R-CNN with NAS optimization and feature enrichment[J]. Defence Technology, 2021, 17(4): 1542-1554.

[16] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 8759-8768.

[17] GAO X, WANG J F, ZHOU M Z. The research of resource allocation method based on GCN-LSTM in 5G network[J]. IEEE Communications Letters, 2023, 27(3): 926-930.

[18] ERKAN U, TOKTAS A, USTUN D. Hyperparameter optimization of deep CNN classifier for plant species identification using artificial bee colony algorithm[J]. Journal of Ambient Intelligence and Humanized Computing, 2023, 14(7): 8827-8838.

[19] ZHANG X L, CUI J, LIU H J, et al. Weed identification in soybean seedling stage based on optimized Faster R-CNN algorithm[J]. Agriculture, 2023, 13(1): 175.

[20] DONG Z, WU Y W, PEI M T, et al. Vehicle type classification using a semisupervised convolutional neural network[J]. IEEE Transactions on Intelligent Transportation Systems, 2015, 16(4): 2247-2256.

[21] WEN L Y, DU D W, CAI Z W, et al. UA-DETRAC: a new benchmark and protocol for multi-object detection and tracking[J]. Computer Vision and Image Understanding, 2020(193): 102907.

Research on vehicle feature recognition algorithm based on optimized convolutional neural network

CHEN Xuan1, WU Jiyi2,3

1.Zhejiang Industry Polytechnic College, Shaoxing312000,China 2.Zhejiang Federation of Artificial Intelligence, Hangzhou 310027, China 3.Intelligent Education Research Center,Zhejiang University, Hangzhou 310027, China

To address the issue of weak identification and low accuracy in recognizing features of target vehicles at different distances in road scene images, a vehicle feature recognition algorithm based on optimized convolutional neural network (CNN) was proposed. Firstly, a multi-scale input based on the PAN model was employed to capture target vehicle features at varying distances. Subsequently, improvements were made to the network model by incorporating multi-pool, batch normalization (BN) layers, and Leaky ReLU activation functions within the CNN architecture. Furthermore, the generalization ability of the network model was enhanced by introducing a hybrid attention mechanism that focuses on important features and regions in the vehicle image. Lastly, a multi-level CNN structure was constructed to achieve feature recognition for vehicles. Simulation experiment results conducted on the BIT-Vehicle database within a single scene show the proposed algorithm’s significant enhancements in single-object and multi-object recognition rates compared to CNN, R-CNN, ABC-CNN, Faster R-CNN, AlexNet, VGG16, and YOLOV8. Specifically, improvements of 16.75%, 10.9%, 4%, 3.7%, 2.46%, 1.3%, and 1% in single-object recognition, as well as 17.8%, 10.5%, 2.5%, 3.8%, 2.7%, 1.1%, and 1.3% in multi-object recognition, have been demonstrated by the proposed algorithm, respectively. Over the more complex UA-DETRAC datasets, more precise results have been also achieved by the proposed algorithm in recognizing target vehicles at various distances compared to other algorithms.

vehicle recognition, convolutional neural network, multi-scale input

The National Natural Science Foundation of China (No.61702151, No.61702320, No.61772334), The National Key Research and Development Program of China (No.2018YFB1003800), Zhejiang Provincial Philosophy and Social Sciences Planning Project (No.23NDJC369YB)

TP391.14

10.11959/j.issn.1000−0801.2023188

2023−06−25；

2023−10−10

吴吉义，cloudLab@139.com

国家自然科学基金资助项目（No.61702151，No.61702320，No.61772334）；国家重点研发计划项目（No.2018YFB100 3800）；浙江省哲学社会科学规划课题（No.23NDJC369YB）

陈暄（1979− ），男，浙江工业职业技术学院副教授，主要研究方向为云计算、人工智能。

吴吉义（1980− ），男，博士，浙江大学高级工程师，主要研究方向为服务计算、人工智能。