APP下载

图像识别技术发展与应用

2017-03-27武煜博

电子技术与软件工程 2017年4期
关键词:图像识别深度学习人工智能

武煜博

摘 要 图像识别技术是人工智能研究的一个重要分支,也是人们日常生活中使用最广泛的人工智能技术之一。近年来,随着深度学习技术的发展,图像识别准确率显著提高。本论文研究了图像识别的传统技术和深度学习技术,分析了深度学习技术的几点不足,并给出未来可行的解决方案。

【关键词】人工智能 图像识别 深度学习

1 概述

图像识别技术是人工智能研究的一个重要分支,其是以图像为基础,利用计算机对图像进行处理、分析和理解,以识别不同模式的对象的技术。目前图像识别技术的应用十分广泛,在安全领域,有人脸识别,指纹识别等;在军事领域,有地形勘察,飞行物识别等;在交通领域,有交通标志识别、车牌号识别等。图像识别技术的研究是更高级的图像理解、机器人、无人驾驶等技术的重要基础。

传统图像识别技术主要由图像处理、特征提取、分类器设计等步骤构成。通过专家设计、提取出图像特征,对图像進行识别、分类。近年来深度学习的发展,大大提高了图像识别的准确率。深度学习从大量数据中学习知识(特征),自动完成特征提取与分类任务。但是目前的深度学习技术过于依赖大数据,只有在拥有大量标记训练样本的情况下才能够取得较好的识别效果。本文认为研究如何在标记数据有限的情况下继续利用深度学习完成物体识别任务具有重要意义。这也是未来人工智能研究的重要方向之一。

2 传统图像识别技术

传统的图像识别技术包括:图像获取、预处理、特征提取、分类。在图像输入后,需要先对图像进行预处理。一幅标准灰度图像,如果每个像素的像素值用一个字节表示,灰度值级数就等于256级,每个像素可以是0~255之间的任何一个整数值。一幅没有经过压缩处理的640×480分辨率的灰度图像就需要占据300KB的存储空间。通常我们需要将图片的亮度及对比度调整合适,才能使图片更加清晰、便于观察。

许多采集到的图片带有或多或少的噪声,需要对图片的噪声进行消除。对图片噪声的消除可以使用不同的去噪方法,如中值滤波、算数平均滤波、平滑线性滤波和高斯滤波等。不同滤波器分别适用于不同情况的噪声。如椒盐噪声便适合使用中值滤波器,高斯噪声便适合使用平滑线性滤波和高斯滤波。有时候,我们需要对图像细化处理(如指纹细化,字符细化等),以便获取主要信息,减少无关信息。细化操作,可以得到由单像素点组成的图像轮廓,便于后续特征提取操作。

基本的图像特征提取包括边缘、角点等提取。一般使用不同的特征提取算子结合相应的阈值得到这些关键点。另一类在频域中进行特征提取的方法主要是通过傅里叶变换,将图像基于频率分为不同的部分,从而可以在频谱中反映出原始图像的灰度级变化,便可得到图像的轮廓、边缘。

在完成图像的预处理和特征提取之后,我们便能够对图像进行识别、分类。常用的分类器有K-近邻(KNN),支持向量机(SVM),人工神经网络(ANN)等等。K-近邻算法原理是,当一个样本的k个最相邻的样本中大部分属于某一类别时,该样本也应当属于同一类别。支持向量机是通过寻找支持向量,在特征空间确定最优分类超平面,将两类样本分开。人工神经网络模仿生物大脑中的神经网络结构,通过误差反向传播不断优化参数,从而得到较好的分类效果。

3 基于深度学习的图像识别技术

一般认为深度学习技术是由Hinton及其学生于2006年提出的,其属于人工神经网络分支。深度神经网络模仿人脑的神经机制来分析样本,并尽可能地对样本的特征进行更深度的学习。以图片为例,利用深度学习技术对样本的特征进行学习时,由低层特征到高层特征越来越抽象,越来越能表达语义概念。当样本输入后,首先对图像进行卷积与下采样操作,卷积和下采样操作是为了进行特征提取和选择。以原始像素作为输入,深度学习技术可以自动学习得到较好的特征提取器(卷积参数)。深度学习的训练过程,首先将当前层的输出作为下一层的输入,进行逐层分析,使得每一层的输入与输出差别尽可能小。其后,再联合优化,即同时优化所有层,目标是分类误差最小化。

传统的深度神经网络往往网络中的节点数太过庞大,难以训练。人们构造出卷积神经网络,以权值共享的方式减少了节点数量,从而能够加深学习的深度,使系统能学习到更抽象、更深层的特征,从而提高识别正确率。目前较成功的深度学习网络结构有AlexNet、GoogLeNet、ResNet等。

与传统识别技术相比,深度学习技术具有以下优势:

(1)无需人工设计特征,系统可以自行学习归纳出特征。

(2)识别准确度高,深度学习在图像识别方面的错误率已经低于人类平均水平,在可预见的将来,计算机将大量代替人力进行与图像识别技术有关的活动。

(3)使用简单,易于工业化,深度学习由于不需要领域的专家知识,能够快速实现并商业化,国内较知名的深度学习创业公司有专注人脸识别的Face++、研究无人车的驭势科技等。

4 存在问题与未来展望

虽然深度学习具备诸多优点,但目前来看深度学习仍有许多不足之处。首先,由于深度学习模型为非凸函数,对其的理论研究十分困难,缺乏理论保证。在对数据进行调整时,仍是简单的“试错”,缺少理论支撑。

同时,由于深度学习过于依赖数据量和计算资源。对一个新概念的学习,往往需要数百个甚至更多有标记的样本。当遇到有标记的样本难以获取或者代价太大时,深度学习就无法取得好的学习效果。并且深度学习需要十分昂贵的高性能GPU,这使得深度学习难以平民化。目前深度学习训练速度较慢,往往需要几天甚至一个月。其模型扩展性差,缺少“举一反三”的能力,样本稍加变化,系统性能便会迅速下降。目前的深度学习属于静态过程,与环境缺乏交互。

对其的解决方案目前主要有两点:

(1)针对于模型扩展性差的问题,通过引入迁移学习,研究不同任务或数据之间的知识迁移,提高模型的扩展能力、学习速度,同时降低学习成本,便于冷启动。

(2)与强化学习结合,研究在动态环境下进行深度学习,提高深度学习与环境交互的能力。

参考文献

[1]蒋树强,闵巍庆,王树徽.面向智能交互的图像识别技术综述与展望[J].计算机研究与发展,2016:113-122.

[2]张翠平,苏光大.人脸识别技术综述[J].中国图象图形学报,2000:885-894.

[3]梅园,赵波,朱之丹.基于直线曲线混合Gabor滤波器的指纹增强算法[J].计算机科学,2016.

[4]孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012:2806-2810.

[5]庄福振,罗平,何清,史忠植.迁移学习研究进展[J].软件学报,2015:26-39.

[6]高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004:86-100.

作者单位

山西省榆次第一中学校 山西省晋中市 030600

猜你喜欢

图像识别深度学习人工智能
基于Resnet-50的猫狗图像识别
高速公路图像识别技术应用探讨
图像识别在物联网上的应用
人工智能与就业
图像识别在水质检测中的应用
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望