APP下载

图像识别在深度学习推动下的发展

2020-01-09

科学咨询 2020年6期

徐 畅

(重庆邮电大学 重庆南岸 400065)

一、国内外研究现状

(一)国内研究现状

国内对图像识别的研究最早是在20世纪60年代,跟国外的图像识别开始时间几乎一样。但是,图像识别在研究初期,基本上没有什么太大的进展,而且只是在数字、字母识别上进行了初步的研究,连雏形都不具备。

在80年代,国内的识别技术才第一次登上国际舞台,建立了属于自己的模式识别重点国家实验室。当然,模式识别就是图像识别的父类了。这一段时间大大提高了国人自己的图像识别研究能力。我们查阅资料发现,当时的例子有民德程图像识别、郑南宁计算机视觉等等。到了90年代,我们国人自己已经在高维数据判别分析方面取得了显著进展,包括线性判别分析、立体视觉摄像机标定、立体匹配问题等等。我国以其为基础开发出了属于自己的识别系统。

迈进21世纪之后,我国才是真正地打开了图像识别飞跃发展的大门。国内迅猛发展之势体现在中国团队ImageNet竞赛上的经历。ImageNet提供了一个超过1亿5千万张图片的数据集,让全球的团队针对这一个数据集进行识别和分类。中国团队在2015年之后以巨大的优势夺冠。由孙剑,何恺明,张详雨以及任少卿组成的团队,不仅在神经网络的深度和精度上刷新了世界纪录,而且在ImageNet的三个组别中均夺冠。他们提出的ResNet,深度残差网络达到了惊人的152层,以一个全新的残差规则来指导神经网络进行学习设计,重构了学习的过程。它不再简单地按照反向传播进行学习,而是在其中改变了信息流的传导,解决了深层网络训练困难的问题。在2017年的比赛中,南京信息工程大学所在的BDAT团队、奇虎360所在的团队拿下了冠军。其中,奇虎360提出的DPN也一举成为了2016年后的经典神经网络之一。[1]尽管在2015年之后,没有出现像深度残差网络这样的突破性的网络结构,但依旧可以看出,国内与国际领先机构的距离越来越近,未来甚至会有图像行业领头羊的出现。除了在竞赛上的算法突破以外,国内计算机视觉公司,如矿视、百度、商汤、在图像识别上也已经走到了世界前列。

(二)国外研究现状

国外对于图像识别的研究基本上也可以追溯到20世纪60年代。人工智能的先驱者Minsky给学生布置了一个作业,让计算机明白一幅图像是什么。[2]起初,科学家们认为这不是很难。但50年过去了,这个问题还是没有很好地得到解决。不过,完成这份作业的方法却在人们的研究下不断完善和进步。

而到了上世纪90年代,图像处理有了硬件的支持。有了更快速的匹配和计算的硬件,科学家们也开始尝试用更多的特征来识别。他们在之前“先验知识库”的基础上,增加了更多的特征,其中就包括了多维局部特征。局部特征的加入也使得识别的精度更加准确,不单单可以识别一个物体“是”或“不是”,更可以分类出两个相似的物体“像”或“不像”。[3]这个时期开始使用一些传统的机器学习方法。比如,KNN,BP感知器,SVM等等。

在人工智能蓬勃发展的21世纪,卷积神经网络出现了。第一个用于图像识别的卷积神网络是LeNet-5。像几乎所有其他神经网络一样,它们使用反向传播算法的版本进行训练。LeNet-5是由Yann LeCun于1998年提出的,他的网络结构是早期卷积神经网络中最经典的一种。LeNet-5在手写数字识别上可以得到相较于传统机器学习方法更精准的结果。[4]到了2012年,Alex Krizhevsky实现了卷积神经网络里程碑式的突破,提出了名为AlexNet的网络结构,以15.4%的错误率一举夺得ImageNet当年的冠军。至此,深度神经网络在图像识别领域上完全超越机器学习。转眼来到2014年,Google-Net横空出世,此时的深度学习已经学会在增大网络深度的基础上来获得更好的训练效果,如VGG-NET。但是,Google-net是一种全新的网络结构,其中的inception模块从另外一种角度提升了训练结果,在同样计算量下能够获取更多特征,获得了2014年ImageNet竞赛的冠军。在此之后的ImageNet竞赛一直被国内的优秀团队登顶。[5]

二、总结

深度学习颠覆性的算法,将图像特征的提取、筛选和分类三个步骤融合为一个大模型,取代了传统图像识别的三大步骤。卷积神经网络的出现更是目前图像领域提取特征最好的方式,也因此提升了数据的分类精度。[6]神经网络可以在大规模数据中学习特征,并把结果泛化到同类数据中。笔者认为,深度学习和神经网络最伟大之处,就是受仿生物学的启发,由特征去解释图片。深度越深的网络之所以识别的精确度更高,是因为这一网络不仅仅可以提取出简单的曲线、边缘特征,还可以提取出更高级的特征,如多边形,凸起凹陷,爪子,人脸等等。

总的来说,从传统图像识别方法,到机器学习的崛起,再到如今深度学习的方兴未艾,图像识别技术之所以能够如雨后春笋般地更新,正是因为理论和想法的厚积薄发。这些理论和想法早已提出数年,但由于客观硬件的限制,一直没能付诸实践。在大规模数据和高速运算的基础上,这些理论和想法终于有了他们施展拳脚的平台,进而使得图像识别在近几年飞速发展,甚至使得深度学习在计算机视觉方面有了绝对的主导地位。其结果也是令人难以置信的,有许多神经网络的表现已经超过了人类平均水平表现。但是,我认为,即使目前的这些进展令人鼓舞,计算机视觉与深度学习的搭配依然还处于其萌芽期,深度学习模型仍具有许多未解决的挑战。比如,限制于硬件的发展,对抗样本的研究,学习模式的改变等等。我深信,克服这些挑战后,我们的世界将会真正进化为一个智能化的世界。