基于云计算平台的图像识别技术研究
2018-06-05康文龙王广桢蒲志新丛佩超
康文龙, 王广桢, 蒲志新, 丛佩超
0 引 言
网络图片的日下载和上传量较大,因而需要一种技术以满足检索需要。随着互联网的逐渐普及,仅仅依靠现有的单机离线识别技术已经无法实现目前所需要的功能,因此,应当采取合适的方法,以云平台为基础研究图像检测系统。近年来,以Hadoop为基础的并行支持向量机(support vector machine,SVM)算法,在人脸识别、垃圾邮件检测以及网络入侵领域中得到了广泛的应用[1,2]。
本文通过应用图像处理技术、SVM算法以及Hadoop处理技术,将云平台与SVM算法结合,以云计算平台为基础对图像检测技术进行研究。在继承云平台高扩展性以及高效性的基础上,对于传统图像检测系统在计算效率以及数据处理能力方面存在的问题予以快速解决[3,4]。
1 基于云计算平台的图像识别技术
1.1 单机平台的图像识别技术
单机平台的图像识别框架如图1所示。
图1 单机平台的图像识别框架
1)图像预处理模块:用于转换彩色图像,并在内存中存储转换后的灰度图像,为后续的计算做准备。
2)利用相关特征提取模块在内存中读入的图像数据进行运算,保证所获取的图像特征与用户需求的一致性;量化用户需求特征。
3)分类器训练分类模块:通过对反向传播(back propagation,BP)算法以及SVM等算法的应用,该模块能够训练获取的训练数据样本。将通过训练得到的分类器储存在本地文件系统中,用于图像的类别判断。
在图像分类时应用传统的图像分类系统,需要耗费较长的时间提取图像特性,同时在计算数据量比较大的特征矩阵时需要对系统内存和硬盘进行读写,这对于程序的正确率产生了消极影响,降低了系统稳定性以及可靠性[5,6]。
1.2 基于云计算平台的图像识别技术
基于云计算平台的图像识别框架如图2所示。
图2 基于云计算平台的图像识别框架
文献[6]给出了Hadoop平台上进行图像识别的过程:
1)用户提交图像分类请求:通过使用Tob client图像分类作业ID从Hadoop的Iob Tracker中获得。工程JAR包可以在图像分类作业中运行,通过应用Job Client在复制程序依赖的配置文件以及图像特征分类数据。 Job Client在完成以上过程以后就可以在Job Tracker中提交作业,Job Tracker首先对作业的相关信息进行检查,输入数据的划分信息,从分布式文件系统(hadoop distributed file system,HDFS)中获取作业,准备好作业的执行工作。
2)初始化和分配图像分类作业任务:Job Tracker在接收到提交的作业以后初始化作业,并将作业放置在内部的任务队列中;通过Hadoop的作业调度器调度该队列中的任务;通过参考Job Tracker的心跳情况Job Tracker可以将作业任务向集群节点上分配,因为一些特征数据存放于Data Node中,所以,Job Tracker在进行MapTask时可以直接获取输入数据,可有效减少数据传输过程中的网络损耗。
3)图像分类Map阶段:当Job Tracker 获取所分配的任务后,程序的相关数据以及JAR文件即可从HDFS中自动获取,在本地的文件磁盘中存储,通过本地虚拟机的执行即可加载JAR数据和文件,这样从运行任务实例的Task Tracker中就能够获取数据块。在执行Map任务时需要计算对特征库中图像和输入图像特征之间的距离,数据结果的键值对就是图像类别,并存储于在本地磁盘中。
4)图像分类任务的Reduce:根据对应的键值Map Reduce框架分类特征向量,如果中间结果的键值相同,则需要充分整理以及合并这些键值对的特征向量,利用Reduce Task对合并之后的结果进行处理。利用Reduce Task进行Map Task的输出排序,得到图像分类的结果,并将结果写入到HDFS中。
5)图像分类任务完成:利用Job Tracker进行识别,同时将完成结果表示出来,可以通过Job Tracker得到作业运行的参数。利用Job Tracker得到所有作业状态,利用Task Tracker删除Map阶段产生的中间结果。在HDFS上用户可对结果文件进行查看。
2 基于云计算平台的 SVM 分类器
1)在Hadoop云平台上上传数据信息,作业完成提交以后从HDFS中获取数据源,通过数据集群配置划分处理数据,并分类处理作业的Reduce和Map,对于Reduce和Map过程中的节点信息可以进行输入;
2)操作过程,在系统中读入储存在HDFS中的图像样本,同时转换数据样本参数类型,使用遗传算法优化转换后的组合参数,进行svm_train函数的调入,通过样本数据的训练来获取支持向量,在Reduce中传入处理结果。
3)实现Reduce的操作过程,用于分类和排序Map函数所转换的数据形式key/value,将处理后的数据输入到实现规定的路径文件中[7]。文献[8]给出了实现过程示意图如图3所示。
3 图像识别实例分析
3.1 图像识别对象分析
以1 000个交通标志的图像为实例进行分析和验证本文方法。
不同的交通标志灯存在着非常大的颜色差距,在对交通标志灯进行分割的过程中通过颜色来实现交通标志的抽取和分离。
当交通标志和自然场景均具有比较复杂的背景时,根据颜色无法保证判定结果的精确性,可根据交通标志以及复杂背景在特殊形状上存在着非常明显的差距进行提取。
交通标志有矩形、三角形和圆形三种类型,当交通标志不同时其属性也存在着很大的差距,这些属性主要包括与边缘的距离、矩形度、圆形度以及伸长度。伸长度、矩形度以及圆形度的计算方法[9]为
C=4πF/L2,J=F/WT,E=min(W,T)/max(W,T)
(1)
本文利用Gabor滤波提取特征性向量:建立核函数模板,实现图像卷积。对应的核函数为[10]
(2)
3.2 实验平台搭建
Hadoop中各个节点和主机以及单机所使用的计算机具有相同的配置:内存为8GB、DDR3 1 333 MHz、1T硬盘以及Intel I5 4950的CPU。Ubuntu 14.10操作系统,clipse-jee-juno-SR2版本以及Hadoop 1.0.0版本IDE平台,JDK1.7.0_07环境下执行Java。
3.3 图像识别结果分析
使用本文的图像特征检测方法得到的3个实例图像处理结果如图4所示。
可以看出:图像特征检测方法处理后图像中杂点更少,更利于图像的分类识别。
分别在单机环境下使用基于SVM算法和在所建立的Hadoop平台上使用基于SVM算法、BP网络算法的图像识别技术对图像样本中的交通标志进行识别。得到各种识别技术的准确率对比如表1。
表1 3种算法的识别结果对比
随着迭代次数的增加,3种检测方法的平均识别率如图5所示。可以看出,3种算法中将云计算平台与SVM分类器进行结合实现图像识别的准确率最优。对于多层神经网络结构,为了保证算法参数最优需要训练和优化多次,直接限制了其在云计算平台中的应用,如果将神经网络识别分类模型建立在云计算平台上会使得计算效率降低,因此,神经网络模型并不适用MapReduce模型。
图5 3种检测方法的平均识别率随迭代次数的变化
3.4 图像识别效率实验研究
分别在单机平台和Hadoop平台上实验,SVM图像分类器识别交通标志的效率对比。在Hadoop平台中设置节点数分别为2,3,4。Hadoop平台中各节点计算机与单机平台计算机配置完全一致。各实验条件下交通标志的识别时间对比如图6所示。
图6 各实验条件图像识别时间对比
通过识别效率对比曲线能够发现,如果在图像识别的过程中Hadoop图像识别平台上只有2个节点,数据交换消耗时间较长,因此,两台计算机图像识别消耗的时间会大于一台计算机消耗的时间;如果Hadoop图像识别平台上具有更多数量的节点,随着节点数量的增加,处理相同图像所消耗的时间逐渐减少。
4 结 论
1)本文通过应用图像处理技术、SVM算法以及Hadoop处理技术,将云平台与SVM算法结合起来,以云计算平台为基础对图像检测技术进行研究。通过交通标志识别实例验证此方法可行性。
2)利用神经网络算法进行图像识别时需要运算大量的矩阵,但为保证算法参数的最优需要训练和优化多次,使得神经网络算法任务无法在MapReduce中一次完成,需要读写操作反复进行,因此,在进行应用的过程中会导致计算效率降低的问题出现,在MapReduce模型中不适合应用神经网络算法。
3)当Hadoop平台中的节点数较少时,由于数据交换消耗了较长时间,使得Hadoop平台的运算效率低于单机平台,所以,Hadoop平台中节点数超过2个后,才能发挥云计算平台的优势。
参考文献:
[1] 王刚毅.交通标志检测与分类算法研究[D].哈尔滨:哈尔滨工业大学,2013.
[2] 张 俨.一种云计算环境下人脸识别系统的设计与实现[D].西安:西安电子科技大学,2013.
[3] 李仕钊.基于云计算的人脸识别系统研究与实现[D].广州:华南理工大学,2013.
[4] 李 洁.基于Hadoop的海量视频的分布式存储与检索研究[D].南京:南京邮电大学,2015.
[5] 陈永权.基于Hadoop的图像检索算法研究与实现[D].广州:华南理工大学,2013.
[6] 李 彬.嵌入式车牌识别系统的设计与实现[D].西安:西安工业大学,2013.
[7] 廖周宇,谢晓兰,刘建明.云计算环境下基于SVM的数据分类[J].桂林理工大学学报,2013(4):765-769.
[8] 牛 科.基于Hadoop云平台的分布式支持向量机研究[D].临汾:山西师范大学,2014.
[9] 鲍朝前.针对圆形和三角形交通标志的检测与识别[D].北京:北京工业大学,2015.
[10] 周 欣.圆形和三角形交通标志分割与识别算法研究[D].上海:华东理工大学,2013.