深度学习在巡检机器人导航中的研究综述

2021-11-15陈缨吴天宝刘小江马小敏罗磊

魅力中国 2021年44期

陈缨吴天宝刘小江马小敏罗磊

（1 国网四川综合能源服务有限公司，四川成都 610072；2 国网四川省电力公司电力科学研究院，四川成都 610041）

一、引言

随着电力无人巡检的发展，变电站机器人巡检成为可能[1]。众所周知，变电站作为电力行业的一个重要组成部分，其巡检十分重要[2]。在机器人技术还未成熟以前，一直采用人工巡检的方式。这项工作内容繁琐、工作强度大、工作时间长，需要时刻保持高度认真，并且耗费了大量人力，因此机器人智能化巡检已经是不可逆的趋势。2015 年5 月,国务院印发《中国制造2025》,明确提出“以加快新一代信息技术与制造业深度融合为主线,以推进智能制造为主攻方向。”[3]。

2017 年7 月,国务院发布了《新一代人工智能发展规划》,将人工智能定位为国家战略,提出到2020 年“人工智能技术应用成为改善民生的新途径”,到2030 年“人工智能理论、技术与应用总体达到世界领先水平。”[4]。随着机器人技术的发展与应用，变电站无人巡检已经成为可能。进一步地，随着人工智能时代的到来，深度学习技术再次兴起，让变电站无人巡检能够成功落地。在2012 年ILSVRC（ImageNet 大规模图像识别）竞赛上AlexNet（以作者名字命名）首次提出了深度卷积神经网络模型（CNN），以top-5 准确率84.6%的成绩获胜[5]。由此引发了第三波深度学习热潮，而其应用最广的就是视觉。机器视觉通常可分为三大类，目标识别、图像分类、语义分割。语义分割在计算机视觉领域中占据十分重要的地位，它是从像素级去识别图像，即标注出图像中每个像素中所属的对象类别[6]。图1.1 为语义分割的一个实例。

浙江大学杨象军提出，巡检机器人使用激光雷达来实现机器人的自护导航[7]。激光雷检测精度较高，但对工作环境要求高，不适用于自然环境[8]。所以，当巡检机器人在复杂多变的自然环境之下时，由于其严重缺乏对环境的理解，无法预判，导致不能有效工作。

2014 年，加州大学伯克利分校 Long 等人提出全卷积网络（FCN）[9]，这使得卷积神经网络在没有全连接层的条件下仍可进行密集的像素预测。该方法可以生成任意大小图像的分割图，且在速度上比图像块分类法要占优势。自FCN 之后，几乎所有的语义分割领域方法都采用了该模型。2017 年，SegNet 问世[10]，该项目可以对图像中存在的任意物体所在区域进行分割，例如树木，交通设施，行人等，并且已经达到像素级别的精确度，该网络模型如图1.2 所示。针对 FCN 中没有 context information，Zhao[12]等提出的 PSPNet 网络嵌入了global context信息来提升分割效果。

西南交通大学刘明春，在2019 年提出RSRNet 网络[13]。该网络提升了巡检机器人对变电站环境的理解能力，通过编码网络提取图像特征，再由解码网络识别出图像目标信息该网络可胜任变电站的简单导航任务。

二、前沿问题探究

机器人移动平台导航方式可分为磁导航、惯性导航、路标导航等[14]。

路标导航指输入信息给移动机器人的内部传感器，并且具有辩别出特殊信息的能力，这种路标的位置固定，可以是几何形状、字母、二维码等。根据机器人所使用路标的不同，也可分为人工路标导航和自然路标导航两大类[15]。

人工路标导航是事先在机器人巡检路线做好标记，但是对环境要求较严格，适用能力较差[16]。

自然路标导航是机器人在自然环境之下，通过识别周围环境的自然特征来实现自主导航。该方法利用地图几何特征，抽取Voronoi 图交叉点作为显著地点。优势在于普适性好，缺点在于算力需求大、鲁棒性不强[17]。

（一）前沿问题

为了解决上述巡检机器人导航方式中存在的不足，深度学习技术的引入已成为必然。

针对目前的变电站巡检机器人道路场景识别的研究现状和表2.1 中变电站网络测试结果，目前存在问题有以下三点：

表2.1 变电站网络测试结果

1.现有网络中采用了多个卷积特征图相融合方式，急需探索出网络特征图提取以及融合方式的内在规律；

2.目前变电站巡检机器人的道路场景识别中，网络识别效率低下，技术并不成熟，需要设计出更为高效的网络结构，提升网络的推理速度，使其能够满足于更多场景；

3.现有变电站巡检机器人对场景理解程度较低，需要提高场景识别结果信息利用率，以提升机器人智能化水平。

（二）解决方案

针对前沿问题一，现有方法是利用多层次的聚合特征连接对图像进行测量。缺点是不能充分利用高层和低层特征的互补性[18]。可以将搜索具有相似语义信息的候选图像集合作为查询图像定义为高层特征，缺点就是细粒度细节描述不足。因此，高层相似性和低层相似性之间的有效性会被削弱，只有当区分开最近邻居之间的细粒度差别时，语义相似。

目前最为有效方法是利用不同层次的CNN 特征的更多互补方面的优势[19]。当查询图像间最近邻相互之间的细粒度的相似性与相似的语义信息时，该方法试图将低层相似性的有效性突出。即低层特征的作用被转换为仅作用于细化高层特征的排序结果，如图2.1 所示，高层特征在细节信息描述方面能力不足，而低层特征则分别来自背景混乱和语义歧义。该方法通过使用映射函数，并进一步地将低层特征信息用作来测量具有相同语义的最近邻图像之间的细粒度相似性。在初步实验中，这种方法的效果比多层连接以及其他基于手工特征的方法更好。

针对前沿问题二，最新的研究是来自美国的一个人工智能实验室，他们提出了 IdleBlock 一种新的卷积模块以及使用该模块的混合组成（HC）方法[20]。作者在网络的各个部分中采用多种类型的模块进行非单调组合。这种组合仅适用于ShuffleNetv1/v2 可以与Bottleneck 模块混合（两者均要求窄输入宽输出）。单调设计原则无法做到利用不同类型模块的属性[21]。相关实验表明这种简洁的新方法在提升网络效率方面成绩显著，在同等计算成本下取得了SOTA 表现，原理如图2.2 所示。

针对前沿问题三，最新的研究成果是使用一个双流CNN 结构[22]。在这个结构中，目标形状信息通过一个独立分支来处理，该形状流仅仅处理边界相关的信息。这是由模型的门卷控积层（GCL）和局部监督来强制实现的。实验证明，在更小的目标上，该模型能够实现IOU 的显著提升。实验结果如图2.3。

在用 Cityscapes 基准测试中，这个模型比 DeepLab-v3 高出 1.4%的mIOU，F-boundary 得分同样比 DeepLab-v3 略高。更为惊喜的是在更小的目标上，该模型能够实现 7% 的 IOU 提升[23]。

三、总结

在如今人工智能快速发展的热潮下，以复杂著称的新一代人工智能技术俨然成熟。同时在ROS 系统、Tensorflow 框架、Caffe 框架下，新一代人工智能技术落地变电站智能巡检机器人显然可行。笔者基于上述变电站复杂环境感知的前沿问题理解与前沿研究探索，得出一个该方向的发展思路。即将新一代人工智能技术应用于变电站巡检机器人导航系统的深度学习中。首先，采用卷积神经网络（CNN）对输入图像的特征进行提取，将提取到的图像特征通过一个双流 CNN 结构进行语义分割、通过卷积模块IdleBlock 以及使用该模块的混合组成（HC）进行目标识别和图像分类。然后，通过反向传播（BP）算法对构建的网络进行优化，使用ImageNet数据集对神经网络模型进行训练。最后，反复评估优化深度学习软件的实际效果，以提高变电站巡检机器人对环境理解的程度。