APP下载

基于决策树模型的车牌数字识别

2021-12-11朱瑶

汽车实用技术 2021年22期
关键词:结点特征值增益

朱瑶

基于决策树模型的车牌数字识别

朱瑶

(长安大学汽车学院,陕西 西安 710064)

随着汽车普及的广泛化,车辆在为我们带来便捷和舒适的同时也带来了极大的挑战。城市的交通问题、交通压力、交通风险,都迫使着智能交通系统(Intelligent Transportation System, ITS)的提出,以此缓解汽车普及化带来的交通问题、压力及风险。智能交通系统中,最核心的内容便是车牌识别系统。为使智能交通系统更好的发挥作用,增强车牌识别系统是目前研究设计优化的重点,且具有极大的现实意义。文章车牌识别软件识别对象仅为车牌中的数字字符,识别过程采用了决策树模型,并使用MATLAB进行图像预处理操作及车牌数字的识别。

决策树;ID3算法;车牌识别;MATLAB

引言

据中华人民共和国公安部的统计,截止至2021年5月,我国的机动车保有量突破了3.8亿辆。我国经济社会的持续发展不单单意味着我国社会经济水平的高速提升,还象征着我国人民生活水平的快速提高,因此,机动车保有量的持续快速增长似乎成为必然。但事实上,如果按我国人口数为14亿,机动车保有量3.8亿辆计算,我国的千人汽车保有量仅有271辆,远不及美国千人汽车保有量758辆(人口3.3亿,机动车保有量2.5亿辆)和日本千人汽车保有量584辆(人口1.268亿,机动车保有量0.74亿辆)[1]。尽管如此,由于我国交通基础设施的建设速度远不及交通工具的增长速度,导致与别国相比,我国所面临的城市交通压力更大,道路交通风险更高,道路安全隐患更多。

为了在道路等硬件设施条件的约束下,短时间内有效缓解城市交通压力、降低道路交通风险、避免道路交通安全隐患;保证人、车辆、道路三者间的和谐关系,并以道路为对象,实现人、非机动车辆、机动车辆的统一管理;尽可能降低人工成本,最终实现交通运输系统安全、节能、准确、高效的美丽愿景,智能交通系统(Intelligent Transportation System, ITS)的概念被提出了[2]。

截至目前,我国ITS发展已经实现了大幅飞跃。智能交通系统作为一种综合性系统,具有一定的复杂性,从该系统的系统组成方面看,可以将其分为七个子系统[3]。能够实现对指定监控路面上的过往车辆进行包括中英文字符和阿拉伯数字的字符识别的技术,被称为车牌识别技术(VLPR)。该项技术在ITS的多个子系统中均得到了运用,是ITS中的一个基本且关键的组成。车牌识别系统的应用极为广泛,开展车牌识别的研究,逐步提高车牌识别的准确性和高效性,具有极高的应用价值。

1 车牌识别系统研究现状

1.1 国外研究现状

早期,车牌识别技术受到了基础理论知识和技术设备条件的限制,研究水平只能够停留在简单的图像处理技术层面,车牌识别的结果离不开人力操作进行干预处理,并未形成完整的体系。当数学形态学越来越多地运用于图像处理应用中,J.C.H.Poon和M.Ghadiali等人提出了一种基于灰度形态学运算的算法用于检测图像中的车牌位置,虽然图像复杂度高且噪声大,但该算法对输入图像没有限制。T.Sirithinaphong和K.Chamnongthai[4]提出利用机动车调节和字符模式识别进行车牌提取,该方法进行实测后的结果显示,车牌提取率为84.29%,识别率为80.81%。Kaushik Deb和Kang-Hyun Jo[5]提出了一种基于HSI颜色的车牌检测方法,该方法在应对如照明不良或天气变化等不良条件时非常有效。Hitesh Rajput和Tanmoy Som[6]等人提出基于单级小波变换的方法在不同照明条件和距离下对40种不同型号的汽车进行试验,字符识别率达95.6%。

经过世界各国科研人员数十年的努力,车牌识别系统已取得重大进展,其准确性和高效性日益增强。如果将车牌识别系统的运行概括为图像捕捉、车牌定位、车牌分割和字符识别的依次进行[7]。车牌定位的方法可以高达七种[8],车牌分割的方法有五种,字符识别的方法也不止一种。

1.2 国内研究现状

由于各个国家的汽车牌照各不相同,国外的汽车识别系统并不能直接适用于我国的车辆牌照识别。根据我国车牌的不用分类、规格、构成等,我国必须研发出适用于识别本国汽车牌照的识别系统。虽然中国的车牌识别系统相比于国外起步稍晚,但取得的研究成果相当可观。

早在1988年,西安交通大学人工智能与机器人研究所的研究人员就已经提出了一种利用汉字投影直方图对中国省名进行识别的系统,该方法具有较强的抗噪性和较高的处理速度,对模糊字符的识别率超过90%,且识别时间不到1秒。而后,大连海事大学信息工程学院的研究人员提出了一种基于改进反向传播神经网络的中国车牌识别算法,为严重退化的车牌识别提供了解决方案,且取得了不错的效果[9]。王伟华提出了一种基于径向基函数神经网络的车牌识别算法,与反向传播神经网络相比,径向基函数神经网络可以降低6%以上的误差识别率,缩短识别时间约0.5秒[10]。邢建军、李俊[11]等人采用模板匹配处理车牌图像并用Radon变换进行校正,识别率可达95%以上。

2 决策树原理

2.1 决策树模型

决策树又称为判定树,是一种基本的分类与回归方法,顾名思义其结构呈树状。决策树模型作为一种用以描述对实际例子进行分类判别的树状结构,其组成包含了结点和有向边。其中,结点又有内部结点和叶结点两种类型。如果将决策树从根节点到叶节点的每一条路径都建立一种规则,让每个内部结点都一一与规则条件相对应,并让叶节点分别代表对应规则的结果,那么此时的决策树可以视为−规则的集合[12]。在−集合中,每一个实际例子都可以找到唯一一条与之相对应的路径,即−集合中的规则具有互斥且完备的性质。

2.2 特征选择

特征选择是对给定的训练集进行数据分类特征的选取过程,正确的特征选取可提高决策树的学习效率并增加决策树预测的准确性。当选择特征后的数据无法与随机分类时的数据结果产生较大差别时,可以知道该特征不具备足够的分类能力,选取该特征的意义不大,在决策树学习中,可以选择忽略这样的特征,此时,对决策树的精度影响并不大。在进行决策树的特征选择时,通常以信息增益来作为衡量标准,一般会选择具有最高信息增益的特征作为该结点特征,这样会使得分类所需的信息量最小,即使此时的决策树不一定为最简单的决策树。

2.3 决策树构建

ID3算法的核心是对决策树所有结点选择合适的特征以构建决策树。在构建决策树时,应以根节点作为起点开始计算所有结点的所有可能特征的信息增益,并加以比较,根据比较的结果,从中选取信息增益增大的特征作为结点特征,而后,通过对该结点特征的不同取值进行子节点构建,再对子节点递归进行上述方法来构建决策树,当所有特征信息增益均为一定标准之下,或者已经不再存在可选的特征,则决策树的构建至此结束。因此,决策树构建的关键在于选择合适的特征来构建决策树的分支。一般地,我们希望得到的理想决策树标准有三个,分别是叶子结点数量最少、叶子结点深度最小或同时满足上述两个标准。从这三个标准中选择一个作为决策树构建的标准,会更加便于得到理想的简单决策树。

3 车牌数字识别设计及实现

3.1 实验平台

3.1.1软件平台

在车牌识别系统的设计过程中,常选用的编程语言有C语言、Java等,而在本次设计中,采用了MATLAB r2019b进行车牌数字识别软件的设计。MATLAB的优势在于其强大的数学计算功能,对大规模的数据计算可以保证其高效性。MATLAB集众多数学函数于一体,是一个专业且高效的工具。

3.1.2硬件平台

本次软件设计中所使用的硬件平台参数如表1所示。

表1 硬件平台参数

硬件参数信息 操作系统macOS High Sierra 处理器1.6 GHz Intel Core i5 内存4 GB 1600 MHz DDR3 显卡Intel HD Graphics 6000 1536 MB

3.2 实验结果

3.2.1决策树构建

本设计将决策树的ID3算法应用于车牌数字识别软件的设计过程中,为实现车牌数字的成功识别,需构建一个决策树。为了保护车牌信息的隐私性,本设计中采用手写数字图片替代真实汽车牌照图片进行决策树训练集的建立及软件测试。

图1 图像预处理过程效果图像

为获得数字图片,首先使用MATLAB软件进行编程得到可以实现手写板功能的程序,手写输入数字0—9各10个并分别储存为.jpg形式的图片,共计图片100幅,并以此作为决策树的训练集。通过对样例图像进行二值化、图像网格化、灰度值统计等一系列预处理过程后,将每幅图像的各子图像作为不同属性进行特征提取,由此,可以得到100行、16列的原始训练集数据。

因为本设计中选用的手写板为白底黑字,故图像二值化过程并不能直观观察出图像的变化,而是改变了表示图像的矩阵数值。本设计中图像二值化的实现是用MATLAB的graythresh函数,使用最大类间方差法计算得到该图像的合适阈值,并利用该阈值将原始图像转换为二值图像。而后找到二值图像中包含该数字的最小矩形区域进行分割。本设计将图像分为面积相等的4×4区域,并对每一区域进行灰度值统计,将每个区域中的图像占该矩形面积的比值作为该区域的特征值。该图像进行计算后得到16个特征值如表2所示。

图2 决策树

为了方便决策树建立过程中的计算,根据过往经验,选取值为0.10的阈值对原始训练集进行简化,可以得到特征值仅存在0和1的新训练集数据,且其大小为100×16。该样例图像特征值进行简化后得到新特征值如表3所示。

根据新训练集及决策树的期望信息量、熵及信息增益的定义公式,可以计算得到所有属性的信息增益,从中选取信息增益最大的属性作为本设计中决策树的根节点。经过计算比较可以得出,该训练集中信息增益最大的属性为属性10,信息增益值为3.265 2。因此将属性10作为决策树的根节点,同时,可以理解为每幅图像的第10块子图像对数字识别至关重要。而后,根据决策树构建方法进一步计算得到决策树的各子节点,直至训练集为空或者所有样本属于同一类为止。最后完成决策树的构建。根据该训练集,本设计所建决策树如图2所示。

表2 样例图像特征值

特征值 0.142 90.281 10.161 30.153 60.129 50.245 50.157 80.117 60000.268 80.164 40.164 40.188 70.227 3

表3 样例图像新特征值

新特征值 1111111100011111

在建立的决策树中,未注明的分支均默认左侧为特征值为0时的路径,右侧为特征值为1时的路径。

3.2.2软件测试

通过MATLAB中的手写板程序进行测试数字图像的输入,对测试图像进行预处理、特征提取,将提取到的特征根据所建决策树进行分类,并输出识别的数字结果。

在软件测试中,输入了数字0—9的数字图像各一个,测试结果显示,准确率为90%,正确识别的数字有:0、1、2、4、5、6、7、8、9;未能正确识别的数字为:3,且识别结果为数字8。

根据本设计建立的决策树对该测试图像进行分类,得到错误地识别结果:数字8。

本次软件测试的结果如表4所示。

表4 软件测试结果

测试数字特征值识别结果 011111001100111110 100110111111011001 211100010011011112 311110111011111118 401101110111101004 511101000111111115 601001000111111116 711110001001000107 811111110110111118 911111111001001009

4 总结

本设计将决策树的ID3算法应用于车牌数字识别软件的设计过程中,为实现车牌数字的成功识别,需构建一个决策树。为了保护车牌信息的隐私性,本设计中采用手写数字图片替代真实汽车牌照图片进行决策树训练集的建立及本设计使用手写数字图像模拟车牌数字图像,并利用MATLAB软件对数字图像进行预处理,依次完成图像二值化、最小矩形确定、图像网格化、灰度值统计几个过程,每幅图像可得到16个特征值。为方便后续工作的进行,保证决策树的成功建立,根据经验选取一阈值,将图像的特征值二值化。本设计中建立的决策树,其训练集包含100幅图片,故训练集矩阵大小为100×16对这16个属性进行信息增益的计算,得到该决策树根节点为属性10,而后继续进行递归计算,可得到一个完整的决策树。

以该决策树作为车牌数字识别的分类依据,进行10次测试,识别准确率为90%,正确识别出数字:0、1、2、4、5、6、7、8、9;未能正确识别出数字:3。

[1] 邓明阳.道路交通事故背景因素数据统计分析系统研究[D].西安:长安大学,2010.

[2] 石峻.智能公交调度系统的优化研究与实现[D].济南:山东大学, 2005.

[3] 李伟杰.基于机器视觉的车道偏离系统的研究[D].北京:北京交通大学,2010.

[4] Microelectronics and Integrating Systems. Proceedings (Cat.No.98 EX242), Chiangmai,Thailand,1998:559-562.

[5] K. Deb and K. Jo, "HSI color based vehicle license plate detection," 2008 International Conference on Control, Automation and Systems, Seoul, 2008:687-691.

[6] H. Rajput, T. Som and S. Kar, "An Automated Vehicle License Plate Recognition System,"in Computer, vol.48,no.8,pp.56-61,Aug. 2015.

[7] 葛二壮.车牌识别系统中车牌定位与字符分割方法的研究[J].科技风,2011,(23):31-31+33.

[8] 黄晓兰.基于改进极限学习机的车牌字符识别方法[D].杭州:中国计量学院,2014.

[9] 谢嘉乐.基于改进的Lm-BP神经网络的车牌识别算法研究与应用[D].广州:广东工业大学,2016.

[10] 裴加强.车牌识别系统中车牌定位方法的研究[J].可编程控制器与工厂自动化,2009(09):72-74.

[11]何兆成,佘锡伟,余文进,等. 字符多特征提取方法及其在车牌识别中的应用[J].计算机工程与应用,2011, 47(023):228-231.

[12] 李世奇.面向文景转换的中文浅层语义分析方法研究[D].哈尔滨:哈尔滨工业大学,2012.

Design of License Plate Number Recognition Based on Decision Tree

ZHU Yao

( School of Automobile, Chang'an University, Shaanxi Xi'an 710064 )

With the continuous development and progress of the economy and society, China's automobile industry is becoming increasingly prosperous, and the popularity of automobiles is becoming more and more profound, which brings us convenience and comfort as well as great challenges. In order to solve urban traffic problems, relieve urban traffic pressure and reduce urban traffic risks, Intelligent Transportation System (ITS) has been put forward. In the intelligent transportation system, the license plate recognition system's core status is beyond doubt. Therefore, the research on license plate recognition system is of great practical significance.The license plate recognition software designed in this paper only recognizes the number characters in the license plate. In the recognition process, a decision tree model is adopted, and MATLAB is used for image preprocessing and license plate number recognition.

Decision Tree; Iterative Dichotomiser 3 Algorithm; Vehicle License Plate Recognition; MATLAB

A

1671-7988(2021)22-222-04

U495;TP391.4

A

1671-7988(2021)22-222-04

CLC NO.: U495;TP391.4

朱瑶(1997—),女,硕士,就读于长安大学汽车学院,研究方向:图像识别。

10.16638/j.cnki.1671-7988.2021.022.057

猜你喜欢

结点特征值增益
“增益”还是“损耗”?挑战性工作要求对工作−家庭增益的“双刃剑”影响*
LEACH 算法应用于矿井无线通信的路由算法研究
基于八数码问题的搜索算法的研究
基于增益调度与光滑切换的倾转旋翼机最优控制
基于扩展FEAST的大规模特征值求解问题研究
伴随矩阵的性质及在解题中的应用
旦增益西的藏戏梦
宽频带增益放大器的设计与测试
求矩阵特征值的一个简单方法
一类非线性矩阵方程组性质的研究