基于CNN深度学习模型的交通图像拥堵识别

2018-01-31崔华刘云飞宋鑫鑫李盼侬

科技创新与应用 2018年4期

崔华　刘云飞　宋鑫鑫　李盼侬

摘要：卷积神经网络（CNN）在诸多图像分类（如数字识别，人脸识别）方面都被证明有着非常出色的表现，复杂图像的分类识别需要经过多个层次的信息特征认识整合以及加工。另一方面对交通状态进行准确识别，是科学制定主动交通管理决策的基础，有利于及时疏导拥堵，提高道路运行效率。文章在TensorFlow上使用了基于CNN的分类模型对图片进行交通拥堵识别，其是在国际大赛上较为出名的Cifar-10模型，并对网络结构和参数进行了调整优化，有较高的准确率和效率。

关键词：CNN；交通图像分类；TensorFlow；Cifar-10；二分类

中图分类号：TP391.4 文献标志码：A 文章编号：2095-2945（2018）04-0019-03

Abstract： Convolutional Neural Network （CNN） has proved to be very good in many kinds of image classification （such as digital recognition， face recognition）. The classification and recognition of complex images need to go through multiple levels of integration and processing of information feature recognition. On the other hand， the accurate identification of traffic state is the basis of scientifically making active traffic management decisions， which is conducive to the timely relief of congestion and improve the efficiency of road operation. In this paper， a classification model based on CNN is used to identify traffic congestion in TensorFlow. One is the famous Cifar-10 model in international competitions. The network structure and parameters are adjusted and optimized， so it has high accuracy and efficiency.

Keywords： CNN； traffic image classification： TensorFlow； Cifar-10； binary classification

1 概述

近年来，私家车数量剧增，道路交通负荷日益增加，道路拥挤、行车困难现象非常严重，是国内外各大中城市所面临并亟待解决的问题。目前国内外对道路交通运行状态的研究主要依据移动型检测器获得的数据以及多源数据。移动检测器主要是GPS技术[4]和车载自组织网络技术[5]。GPS技术可以获取全面的车辆信息，但该技术需要的成本较大，并且有可能暴露个人隐私；车载自组织网络技术可以获得自身和所在区域的位置信息，但密集的车流环境下，控制信道不能保证安全信息的传送；为了数据的互补性和全面性，交通部门采用多源数据融合技术[6]，但多源数据的冗余性较严重。

图像监控的普及以及图片具有可视化、监控相机安装维修不影响交通运行等优势，基于静态和动态图像的交通状态识别成为研究主流。本文提出了用图像处理技术来确定道路拥堵的方法。

2 Cifar模型的介绍

2.1 模型内容

Cifar-10数据集总体由60000张32*32的RGB彩色图片构成，共10个分类。50000张训练，10000张测试（交叉验证）。这个数据集最大的特点在于将识别迁移到了普适物体，而且应用于多分类（姊妹数据集Cifar-100达到100类，ILSVRC比赛则是1000类）。同已经成熟的人脸识别相比，普适物体识别挑战巨大，数据中含有大量特征、噪声，识别物体比例不一。因而，Cifar-10相对于传统图像识别数据集，是相当有挑战的。Alex在2012年的AlexNet中，把所有Tanh/Logistic全换成了ReLu（卷积+隐层，Softmax要取概率）ReLu为网络引入了大量的稀疏性，加速了复杂特征解离。非饱和的宽广映射空间，加速了特征学习。

2.2 模型结构

tensorboard显示如下：

输入层→卷积层→池化层→规范化层→卷积层→规范化层→池化层→全连接层→全连接层→softmax输出层（如图1）。

3 模型训练

3.1 模型训练的实质

训练就是一个“特征学习”“参数寻优”的过程，最常见的优化算法是mini-batch的随机梯度下降法（mini-batch是相对于online learning而言的），寻找使得损失函数值最小的模型参数。为了防止过拟合，这里的损失函数包含了正则化项。我们将Cifar-10最后输出由10变为2。

利用各高速路，城市道路的視频中采集样本，在训练前将数据库的交通图片加上了0（畅通）与1（拥堵）的标签。分别各25000张，如图2与图3所示。

3.2 图片的预处理

（1）统一裁剪到32*32像素大小，裁剪中央区域用于评估或随机裁剪用于训练；（2）对图像进行翻转；（3）变换图像的亮度；（4）变换图像的对比度；（5）图片会进行近似的白化处理。endprint

其中，白化（whitening）处理或者叫标准化（standardization）处理，是对图片数据减去均值，除以方差，保证数据零均值，方差为1，如此降低输入图像的冗余性，尽量去除输入特征间的相关性。

3.3 简述CNN特征提取原理

对图像（不同的数据窗口数据）和滤波矩阵（一组固定的权重：因为每个神经元的权重固定，所以又可以看做一个恒定的滤波器filter）做内积（逐个元素相乘再求和）的操作就是所谓的“卷积”操作，也是卷积神经网络的名字来源。

比如图4中，图中左边部分是原始输入数据，图中中间部分是滤波器filter，图中右边是输出的新的二维数据。

中间滤波器filter与数据窗口做内积，其具体计算过程则是：4*0+0*0+0*0+0*0+0*1+0*1+0*0+0*1+-4*2=-8

训练完成的模型會以model和enents的类型保存在logs的指定文件夹。

除了卷积部分该模型还用到了tf函数库中的sess，ratio，training，resize，labels等函数。

3.4 模型性能评估部分

机器学习模型训练好之后，要在测试数据集上进行测试，从而判断模型的性能，常见的性能指标有准确率、损失率等。顺便提及一下，有的机器学习模型在训练时，会把数据集分成三部分，训练集（training dataset），正则集（validation dataset）和测试集（test dataset），正则集的作用也是为了防止过拟合，但我们这里通过对模型参数正则化来防止过拟合，因此就不用像这样划分数据集了。用5000张测试样本约为96%。

4 结束语

卷积神经网络（CNN）是当前图像识别领域的研究热点，利用预训练的CNN网络提取的图像特征展示出了较强的图像识别能力。该模型使用级联2*2的卷积核降低参数数量防止过拟合。采用跨连卷积层和使用1*1卷积核的方法，融合不同尺度图像特征。在下一步工作中，将进一步选取其他模型和改变现有模型的参数，以进一步提高交通拥堵图像目标识别的准确率。

参考文献：

[1]Yi Sun， Xiaogang Wang， Xiaoou Tang. Deep Learning Face Representation from Predicting 10，000 Classes. The IEEE Conference on Computer Vision and PatternRecognition（CVPR），2014，pp.1891-1898.

[2]He K， Zhang X， Ren S， et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2016：770-778.

[3]曲景影，孙显，高鑫.基于cnn模型的高分辨率遥感图像目标识别[J].国外电子测量技术，2016，8.endprint