深度学习在“嵌入式技术与应用开发”技能竞赛AGV视觉识别上的研究

2018-12-20谭刚林长沙民政职业技术学院

数码世界 2018年12期

谭刚林长沙民政职业技术学院

1. 概述

2015 年，国家提出“中国制造2025”的国家战略，制造业的产业升级已经成为大势所趋。智能物流作为智能制造的一个重要组成部分，受到越来越多的关注，AGV物流运输车作为智能物流的核心环节，也成为国内外众多厂商角逐发力的重点，未来中国将成为机器人和物流设备自动化的主要市场。从图2中可以看出我国AGV市场规模在迅速扩大，AGV在“中国制造2025”中扮演越来越重要的角色。

随着深度学习的技术进步，深度学习已在语音识别、自然语言处理、计算机视觉、图像与视频分析、多媒体等诸多领域的应用取得了巨大成功。深度学习作为目标检测已成为一个主流的研究方向，可以通过端到端训练自动学习任务，实现多层的非线性变换，获取图像高层抽象描述。

全国职业院校技能大赛是中华人民共和国教育部发起，联合国务院有关部门、行业和地方共同举办的一项年度全国性职业教育学生竞赛活动。为充分展示职业教育改革发展的丰硕成果，集中展现职业院校师生的风采，努力营造全社会关心、支持职业教育发展的良好氛围，促进职业院校与行业企业的产教结合，更好地为中国经济建设和社会发展服务。是专业覆盖面最广、参赛选手最多、社会影响最大、联合主办部门最全的国家级职业院校技能赛事。

全国职业院校技能大赛“嵌入式技术应用开发”赛项是集单片机技术、传感器技术、嵌入式技术、无线通信技术、语音识别、图像处理、Android智能设备与控制技术于一体的综合性赛项，赛项重点考察软、硬件结合，可充分培养学生对嵌入式相关技术的综合应用能力。

2. 深度学习

深度学习根据其解决问题、应用领域的不同分为多种深度神经网络模型。目前较为热门的是卷积神经网络（Convolutional Neural Network，CNN）和深度置信网络（Deep Belief Networks，DBN）。深度置信网络DBN是一种贪婪的逐层学习的算法，可以使深度置信网络的权重达到最优化。DBN由若干层神经元组成，其组成元件是限制玻尔兹曼机（Restricted Boltzmann Machine，RBM）。 RBM是一种神经感知器，有两层网络组成，一层叫“显层（”visible layer），用于输入训练数据。一层叫“隐层”（hidden layer），用于做特征检测器。将若干个RBM进行“串联”，则上一个RBM的隐层即为下一个RBM的显层，上一个RBM的输出即为下一个RBM 的输入。

卷积神经网络CNN是一种热门的深层深度学习模型，卷积神经网络核心的关键思想是局部连接、权值共享、池化和多层堆叠。权值共享是CNN相较于其他模型具有独特优越性的关键。它减少了神经网络中参数的个数，从而降低了网络的复杂度，使其更类似现实的生物神经网络。CNN模型一般来说含有三个部分：卷积层、池化、全连接层。卷积层中神经网络不再对图片中的每个像素对处理，而是通过一个滤波器（即卷积核）对图片中每一小块像素区域进行扫描，提取局部特征和其位置关系。在获取了这些特征后，再进一步对这些特征进行分类。

本课题将CNN和DBN两种深度学习模型应用到AGV的视觉导引中，对比两种模型的应用效果，确定一种优化后的网络结构模型，提高AGV视觉识别的准确性和抗干扰能力。

3. 图像识别

图像识别是深度学习最早尝试的应用领域。早在1989年，LeCun和他的同事发表了卷积神经网络。在很长时间里，CNN虽然在小规模的问题上，比如说手写数字，取得当时世界最好的结果，但一直没有取得巨大成功。主要原因是CNN在大规模图像上效果不好，比如像素很多的自然图片内容理解，所以没有得到计算机视觉领域的足够重视。这种情况一直持续到2012年10月，Hinton和他的两个学生在著名的ImageNet问题上，用更深的CNN取得世界最好结果，使得图像识别大踏步前进。在Hinton的模型里，输入就是图像的像素，没有用到任何的人工特征。为什么在之前没有发生？原因当然包括算法的提升，比如dropout 等防止过拟合技术，但最重要的是GPU带来的计算能力提升和更多的训练数据。2012年，百度将深度学习技术成功应用于自然图像OCR识别和人脸识别等问题上，并推出相应的桌面和移动搜索产品。2013年，深度学习模型被成功应用于一般图片的识别和理解。深度学习应用于图像识别不但大大提升了准确性，而且避免了人工特征抽取的时间消耗，从而大大提高了在线计算效率。深度学习将取代人工特征加机器学习的方法，逐渐成为主流图像识别方法。

图1为竞赛需要识别的图像。由于图像旋转角度不一致，加大了识别难度，不能采用传统的图像分割来进行识别。为了增加竞赛难度，拉开队伍的竞赛成绩，2017年识别的图像中又增加了星形，难度就更大了。

只要图像是规则的，理论上来说传统的识别方法还是可以很好地完成识别任务的，但实际情况并不如此，因为竞赛场所的光线强弱不同及干扰，拍出来的图片达不到理想的识别效果。采用卷积神经网络来进行深度学习处理，处理后结果比传统的方法准确率提高了20%。