基于卷积神经网络车身颜色识别技术研究

2018-04-13管德永鞠铭安连华

山东建筑大学学报 2018年1期

管德永，鞠铭，安连华

（山东科技大学交通学院，山东青岛266590）

0 引言

近几年，随着从“平安城市”到“智慧城市”的推广，很多科研项目陆续开展，取得了不错的成果，提出了“3111工程［1］”、“立体化社会治安防控体系”等概念。权威电子行业研究机构IMSResearch研究表明，全球摄像头每年呈指数增长，并且摄像后端的数据存储十分庞大。据统计，2011年安装摄像系统260多万台，一天的数据存储达100 PB，而在2015年摄像设备增加到5454万台，相应的一天储存数据也高达2000 PB。在这个大数据的时代，面临着以下2大瓶颈：（1）提取结构化信息，缩减监控摄像头产生的海量冗余视频数据；（2）建立监控平台网络，更好的实现监控各子系统之间的连接，达到监控资源共享。如何解决这些问题成为近几年的研究热点，即视频特征信息提取服务器的研究。车身颜色识别技术是一个重要研究方向，而其对车辆的识别与搜索、并为公安部门打击套牌车辆具有重要的意义。

目前，深度卷积神经网络的应用，在车型识别、图片识别、车身颜色识别等方面取得了较高的识别率。邓柳基于其建立的车型数据库，从车型识别的提取速度和效果方面，进行卷积神经网络的深度研究［2］。随婷婷提出一种深度卷积网络CLMF模型，从多目标角度提取特征，利用加融融合进行目标识别［3］。王茜等建立多角度拍摄的图片数据库，利用深度学习进行图片识别，VGG16模型准确率达到97.58%［4］。杨楠利用 CIFAR-10神经网络，自己搭建网络的训练方法，提高了网络训练的正确率［5］。

车身颜色识别技术的研究大致分为2类：（1）基于颜色空间的色差方法；（2）构建颜色模板，提取颜色特征，通过分类器进行分类、识别。赵红波等提出了一种新的车身颜色识别算法，提取车辆颜色特征，这种新算法把白色分成白色和银白色2种，把车身颜色数据库分为7种，进行识别且精度较高［6］。Michelel建立了15种颜色数据库，采用K近邻算法进行颜色识别［7］。宋晓红通过联合共享技术对车身颜色识别技术研究，对图像先进行图像预处理，采用算法进行颜色特征提取，最后通过支持向量机SVM分类器进行分类识别，得到较高的车身颜色识别率［8］。Fang等将车身颜色数据库分为7种，在HIS的3个通道中提取车身颜色中每个像素的微观特性值，利用这些特征来进行颜色分类识别［9］。Wu等首先通过获取车辆前景图，去噪得到识别区域，采用SVM分类器进行分类识别，总体识别率得到提高，但黑、银、绿颜色识别误差大，识别率较低［10］。胡焯源等针对传统的HSV模型中的局限性，即光线变化对车身颜色识别的影响，改进了模型颜色的量化模板和判别原则，提高了颜色的识别效果［11］。

从上述研究可以看出，复杂环境因素对于汽车车身颜色的识别影响并没有得到很好的解决，车身颜色的识别率比较低，而且围绕车身识别技术的研究，受到光照、环境等方面的噪音影响，研究结果不理想，造成的识别误差也比较大。车身颜色识别模型的建立，需要克服复杂的数据库中的噪音，避免因环境因素造成的识别错误。基于以上车身颜色识别技术的研究现状，文章利用深度学习技术，在AlexNet［12］网络模型的基础上，并搭建 caffe深度学习框架，通过车身颜色的数据库，进行自主学习，提出一种基于深度卷积神经网络的车身颜色识别技术的研究方案。

1 车身颜色识别技术理论基础

1.1 深度学习—caffe框架概述

深度学习是一个自主学习的过程，从底层到高层，类似于人体的神经网络系统。学习过程由低到高，层层挖掘数据的本质信息。在图像识别领域，HoG［13］、SIFT［14］等特征识别应用比较多，但这些特征有着各自的限定条件。深度学习一开始应用于图像分类，在深度学习技术中，caffe框架是常用框架。2014年，caffe框架由伯克利大学发布，后来贾扬清团队开发并由C++编译caffe框架，搭配计算机GPU，其计算速度得到了很大的提高，Caffe所提供的测试单元在实际中广泛应用［15］。

1.2 卷积神经网络理论

随着神经计算模型［16］的提出，第一代感知机的神经网络［17］取得了良好的识别效果，特别是近几年，深度学习模型优化迅速发展，卷积神经网络CNN（Convolutional Neural Network）模型［18］应用于图像识别、人脸识别中效果较好，受限于莫尔兹曼RBM（Restricted Boltzmann Machines）模型和堆栈式自动编码机SAN（Stacked Auto-encoder Network）模型同样是深度学习的重要应用模型。卷积神经网络模拟人的神经网络，成功训练多层（输入层、卷积层、降采样层、全连接层）神经网络，此算法省去了图像预处理，直接通过图片输入，自主学习图像特征。最重要的是模型结构、参数配置得到优化，提高了模型训练测试速度和效果［19］。神经网络结构如图1所示。

图1 卷积神经网络结构示意图

（1）输入层卷积神经网络避免了图像预处理，直接输入原始图片、多通道图像或者图像序列。

（2）卷积层是卷积神经网络的关键。卷积层对原始图像进行卷积运算，获取特征图特征，得到卷积特征图，其结果经过激励函数作用，最终输出为卷积层的输出神经元，从而构成此层的特征向量表达式由式（1）表示为

式中：f为激活函数；t为卷积层数；kij为卷积核；*为2D的卷积操作；btj为偏置。

（3）降采样层可以得到抽样特征，利用图像局部相关性，对图像进行子抽样，减少数据处理的工作量，由式（2）表示为

式中：w为权重；down（·）为降采样函数。

（4）全连接层神经网络的输入层、卷积层、降采样层的神经元都与全连接层的各个神经元连接。

利用卷积神经网络进行车身颜色识别，输入层输入原始图像，卷积层通过卷积运算，得到特征单元，降采样层提取抽象特征，通过全连接层进行分类，输出层进行输出。卷积网络中的各层相邻神经元之间互相连接。首先在图像中获取最原始的特征，特征提取的方法和位置无关，这些特征可以为更高层的神经元所用［19］。特征图的组成部分是模块元，具有相同的权值，但位置不同。这些特征图通过多次卷积，得到结果，再通过降采样并反向调节，最后通过全连接层，实现对图像的特征获取，得到图像的本质信息。

2 车身颜色识别技术方案设计

研究方案可以分为2个模块：样本训练模块和样本测试模块。方案设计的原理：（1）样本训练模块是通过机器学习来提取已知的车身图片颜色特征，确定车身颜色的识别模型；（2）样本测试模块的处理过程利用样本训练模块得到的模型进行特征提取，通过自主学习，得到车身颜色的识别最优模型。总体设计方案如图2所示。

图2 车身颜色识别研究方案图

研究方案表述的识别过程，（1）建立车身颜色数据库，对数据库进行标准化处理，分类出实验所需要的车身颜色的训练样本和车身颜色的测试样本，通过车身颜色训练样本来提取特征，确定研究的车身颜色识别模型；（2）利用车身颜色训练样本得到的车身颜色识别模型，对测试样本进行测试，得到测试样本的图片特征，完成测试分类，识别出最终的车身颜色。

2.1 实验环境

实验选取的caffe框架在科研项目中应用广泛，其优势在于利用计算机的GPU来进行训练，速度快、框架完整、兼容性强，并且容易搭建测试环境。因此，利用caffe框架来实现卷积神经网络模型。

计算机的处理器要求比较高，选择Intel（R）Core（TM）i5-3210M＠2.5GHZ；运行内存比较大，以满足caffe框架的运行，选择4.00 GB RAM；操作系统类型，要求兼容性强，选择64位；实验需要搭建环境，配置Microsoft Visual Studio 2010软件。

2.2 实验数据库

实验过程中，统计了近几年中国国内车辆车身颜色比例。将颜色分为8种并进行样本训练和测试，按照标准分为白、黑、灰、红、蓝、黄、绿和紫，其比例各占22%、20%、12%、9%、6%、3%、3% 和1%，如图3所示。

图3 国内车身颜色的比例统计图

训练和测试的车辆颜色样本是高清监控或者卡口图片，构建的数据库主要选取正常光照下的车辆图片，包括少量逆光、顺光、傍晚等背景下的车辆图片。实验中建立车身颜色数据库，包括白、黑、灰、红、蓝、黄、绿和紫各为1000张。数据库中的样本标准：车身颜色图片具有唯一性，不可重复地存在于一个数据库中；车身颜色肉眼可识别出结果，即颜色无明显的颜色偏差；车身颜色图片具有统一性，需要对图片进行归一处理（高宽比大小256×256），得到输入层要求的图片尺寸；车身颜色图片的复杂性，即车身颜色数据库中包括黑天、白天、雾天、雨天等情况，增加数据库的复杂性。实验需要进行样本训练和样本测试，因此需要把车身颜色数据库分为训练样本数据库和测试样本数据库，训练样本数据库包括白、黑、灰、红、蓝、黄、绿和紫各900张，其余的100张车身颜色图片作为模型的测试样本。

2.3 模型的训练及优化

利用卷积神经网络能够提取良好的特征，基于AlexNet网络，搭建caffe深度学习框架进行训练，配置好基本参数之后，需要进行参数的微调才能得到较好的分类结果。识别精度由式（3）表示为

式中：Prei为第i类车身颜色图片的识别准确度；PTi为车身颜色图片识别的正确样本数；PFi为车身颜色图片识别的错误样本数。

2.3.1 模型的训练

运用训练样本进行CNN网络的训练，模型的训练过程需要进行层层特征提取，得到特征图。模型训练之前，把样本分成N组，样本个数设为m，这样就需要训练N次，每一次需要选取m／N个样本。

（1）正向传播

正向传播需要将车身颜色的训练样本的原始图片通过输入层输入CNN网络，通过卷积运算，得到基本特征信息的特征图。特征图的大小为A×A，滤波器w的大小为n×n，最终提取的车身颜色特征图大小（A-n+1）×（A-n+1）。卷积层中每个特征图的非线性输入的结果，由式（4）表示为

卷积过程Conv在Matlab中由式（5）表示为

把式（5）中的卷积层计算的结果，通过激活函数作用，得到非线性的卷积结果由式（6）表示为

其下采样过程不需要自身的学习过程，输出f×f的区域值。如果经过一个最大值的变换，即输入层大小为N×N，由于每一个f×f的区域都要经过最大值函数变化，变成一个值输出，因此整个下采样层输出的大小为

（2）反向传播

反向传播是正向传播的逆过程，过程中需要逐层计算，把实际输出值与理想值进行计算，得到误差值。在卷积过程中，通过方差函数E来计算方差值，然后通过反向计算得到函数值，进而来计算权值的梯度。在计算权值梯度的过程中，可以得到每一层的每一个神经元输出的方差为

根据链式法则，误差值反向传播到前一层，具体的实现过程由式（9）表示为

根据式（7）～（9），通过反向传播的逐层计算，误差值逐层向上一层反馈，得到首层的误差值。

2.3.2 模型的优化

模型优化关系到最终模型的优劣。从模型的网络层数、迭代次数、学习率三方面优化卷积神经网络，通过自主提取特征，得到识别率较高的最优模型。

（1）确定最优的网络层数

网络层数的选取关系到模型的处理速度和图像的信息效果。网络层数过少，车身颜色的信息提取速度快，会失去有效信息。网络层数过多，特征信息提取精度高，但训练速度慢。

根据实验构建的数据库，最优的网络层数需要识别效果来反馈。学习率设为0.001，迭代次数为30000次，通过控制变量法，设定不同的网络层数，即网络层数分别为7、8、9，各颜色样本数为900张时的车身颜色识别正确率的变化，见表1。

表1 网络层数的选取与识别正确率之间的关系表

从表1的识别效果来看，8层网络的效果最好，而9层网络的准确率最低。

（2）迭代次数的确定

迭代次数在一定范围内，识别率与迭代次数成正比，当迭代次数超过这个范围时，模型训练时间会增长，迭代次数对识别正确率的提升作用会减弱。

针对于相同的数据集，迭代次数的确定需要根据最终的分类识别效果来确定，假设卷积神经网络为8层，学习率初设为0.001，迭代次数分别取值10、20、30、40万次，各颜色样本数为 900张时的识别率变化，见表2。

表2 迭代次数的选取与识别正确率之间的关系表

从表2的识别效果来看，随着迭代次数的增加，识别正确率也增加，迭代次数与识别正确率关系中来看，随着迭代次数的增加，识别正确率的增加幅度越来越小，趋于平稳。结果表明：迭代次数为30万次是识别准确率变化的转折值，而迭代次数超过30万次时，识别效果趋于稳定，但不会出现过拟合现象。

（3）学习率的确定

学习率是深度学习中的一个重要的参数，学习率太大，会跨越识别率的极值点，设置太小，造成跨度太小，容易出现局部最优。

采用基于经验的手动调整。通过控制变量法进行训练测试，设网络层数为8，迭代次数为30万，尝试采用不同的固定学习率进行模型优化，即0.1、0.01、0.001、0.0001。各颜色样本数为 900张时，学习率的选取与识别正确率之间的关系见表3。

表3 学习率的选取与识别正确率之间的关系表

从表3中可以看出，当学习率为0.1和0.001时识别正确率为92.7%，在其它参数一致的情况下，增大学习率，识别准确率也会相应下降。通过分析变化过程，发现识别准确率变化波动较大，当学习率过大时，准确率开始不稳定。因此，根据学习率与识别正确率的关系，学习率设为0.001，进行模型训练和测试。

（4）确定最优网络

实验表明，在深度卷积神经网络中，网络层数、迭代次数、学习率影响车身颜色特征提取的速度和精度。同样，滤波器的选取、特征维度和激活函数等，也是影响卷积神经网络模型的重要因素。

针对搜集的车身颜色数据库，基于AlexNet网络模型，确定的最终模型为卷积神经网络CNN模型层数为8，最大迭代次数为30万，学习率为0.001。模型包括5个卷积层，以及3个全连接层，在每一个卷积层中都包含了激励函数RELU与局部响应归一化LRN处理，之后再经过降采样处理。各颜色样本数为900张时，模型的训练优化结果，见表4。

表4 模型训练优化结果表

3 实验结果及分析

3.1 识别结果效果分析

通过测试白、黑、灰、红、蓝、黄、绿和紫各100张车身颜色图片，判断卷积神经网络模型的性能优劣。将卷积神经网络CNN模型与改进后的HSV模型［20］、支持向量机 SVM进行测试，对结果进行对比。基于建立的车身颜色数据库，卷积神经网络模型的识别率达到93，2%，明显优于支持向量机SVM、改进后的HSV模型的识别率，见表5。

表5 SVM、改进后HSV模型、CNN模型结果对比表

由表5可以看出，SVM分类器、改进后的HSV模型、卷积神经网络CNN模型的识别率都＞80%，改进后的HSV颜色空间量化模板车身颜色识别率达到85.25%，略优于传统的SVM方法。利用深度学习技术，通过卷积神经网络CNN模型自主提取车身颜色特征，识别率远远高于前两种方法，故满足实时的要求。

3.2 测试结果原因分析

通过分析原始样本图像可知，车身颜色数据库中的样本被识别错误的原因主要是背景的多样性，逆光会让颜色变暗，顺光会增加光线强度，夜晚远光灯会让颜色增强，失去车身颜色的原色，在识别过程中，出现了如图4所示的情况。

（1）傍晚绿车识别为黑色，这是由于在学习的过程中，夜间光线灰暗，再加上车灯照射，造成光线混乱，部分颜色偏暗，车身部分背光。

（2）逆光黑色识别为蓝色，这是由于在学习的过程中，正常光线下，深蓝与黑色的色差较小，加上白天逆光状态，光线灰暗，颜色混淆。

（3）顺光灰色识别为白色，这是由于银色、灰色与白色颜色相近，在学习的过程中，白天顺光情况下，白天强光的照射，造成车身部分反光，颜色混淆。

图4 车身颜色识别错误样本代表图

4 结论

通过上述研究可知：

（1）基于车身颜色数据库，对卷积神经网络网络模型进行训练，网络层数为8时，模型识别率为89.5%；迭代次数为30万次时，模型趋于稳定；学习率为0.001时，识别率为92.7%。因此，卷积神经网络最优模型的神经网络层数为8，最大迭代次数为30万，学习率为0.001。

（2）卷积神经网络颜色识别模型与改进后的HSV颜色识别模型、支持向量机（SVM）颜色识别模型进行测试对比，支持向量机SVM模型颜色识别率为80.05%、改进后的 HSV模型颜色识别率为85.25%，卷积神经网络模型颜色识别率为90.20%，卷积神经网络模型颜色识别效果最好。

参考文献：

［1］顾长海.公共安全中的视频结构化［J］.中国公共安全，2016（17）：141-143.

［2］邓柳.基于深度卷积神经网络的车型识别［D］.成都：西南交通大学，2015.

［3］随婷婷，王晓峰.一种基于CLMF的深度卷积神经网络模型［J／OL］.自动化学报，2016，42（6）：875-882［2018-01-05］.

［4］王茜，张海仙.基于深度神经网络的汽车车型识别［J］.现代计算机（专业版），2015（35）：61-64.

［5］杨楠.基于Caffe深度学习框架的卷积神经网络研究［D］.石家庄：河北师范大学，2016.

［6］赵红波，张涵.车辆颜色识别方法研究［J］.电视技术，2013，37（23）：207-209，233.

［7］Merler M.Car Color and Logo Recognition［C］.CSE IM90A Projet in Vision and Learning，2006：46-49.

［8］宋晓红.车身颜色识别在高速公路卡口中的应用［J］.中国交通信息化，2014（3）：87-90.

［9］Fang J，Yue H J，Li X Z.Color identifying of vehicles based on color container and BP network［C］.Proceeding of IEEE Conference on Business Management and Electronic lnformation，2012：226-229.

［10］Wu Y T，Kao JH，Yu M.A Vehicle color classification method for video surveillance system concerning model-based background subtraction［C］.Advances in Multimedia Information Processing-PCM，2010：369-380.

［11］胡焯源，曹玉东，李羊.基于HSV颜色空间的车身颜色识别算法［J］.辽宁工业大学学报（自然科学版），2017，37（1）：10-12.

［12］Krizhevsky A，Sutskever I，Hinton G E.ImageNet classification with deep convolutionalneural networks［J］.Commun ACM，2017，60（6）：84-90.

［13］Dalal N，Triggs B.Histograms of oriented gradients for human detection［C］.IEEE Computer Society Conference on Computer Vision and Pattern Recognition，2005：84-90.

［14］Lowe D G.Distinctive image features from scale-invariant keypoints［J］.International Journal of Computer Vision，2004，60（2）：91-110.

［15］Jia Y，Shelhamer E，Donahue J，etɑl.Caffe：Convolutional architecture for fast feature embedding［C］.Proceedings of the ACM International Conference on Multimedia，2014：667-675.

［16］Mcculloch W S，PittsW.A logical calculus of the ideas immanent in nervous activity［J］.The Bulletin of Mathematical Biophysics，1943，5（4）：115-133.

［17］Rosenblatt F. The perceptron： A probabilistic model for information storage and organization in the brain［J］.Psychological Review，1958，65（6）：386.

［18］Hinton G E，Salakhutdinov R R.Reducing the dimensionality of data with neural networks［J］.Science，2013，313（5786）：504-507.

［19］贾世杰，杨东坡，刘金环.基于卷积神经网络的商品图像精细分类［J］.山东科技大学学报（自然科学版），2014，33（6）：91-96.

［20］敖道敢.无监督特征学习结合神经网络应用于图像识别［D］.广州：华南理工大学，2014.