深度学习在机器人领域的应用进展

2021-11-22仇秋飞周武源雷良育吴叶青崔银江

计算机技术与发展 2021年11期

仇秋飞，周武源，雷良育，吴叶青，崔银江，陈登

(1.浙江省科技信息研究院，浙江杭州 310006；2.浙江农林大学工程学院，浙江杭州 310006)

0 引言

深度学习(Deep Learning，DL)是机器学习的一种，其算法基于对数据进行表征学习，能够发现大数据中的复杂结构，利用反向传播指导机器如何从前一层网络计算表征，从而改变每一层的内部参数[1]。深度学习的目的是让机器人(Robotics)具有与人一样的分析学习能力，因其能够增强机器人的感知、决策与控制能力[2]，在机器人的图像识别[3]、目标识别[4]、姿态估计[5]、路径规划[6]、人机交互[7]等方面具有广泛的应用前景，并取得了很多成果。

随着人工智能(Artificial Intelligence，AI)、大数据、云计算等技术的兴起，机器人技术经历了从预编程式，到自主式，再到智能式的三阶段发展历程，现已进入智能机器人发展时代[8]。深度学习与机器人学的交叉学科(Deep Learning in Robotics，DL-R)是近五年来极其活跃的研究领域，学术成果呈爆发式增长。深度学习技术的发展将进一步推动机器人的智能化发展，已有相关文献对此进行了综述，如Pierson等人[9]介绍了DL在机器人学应用的研究进展，讨论了DL的优点及局限性；王乾铭等人[10]基于DL设计了个性化聊天机器人的对话系统，使用了深度LSTM结构并且加入注意力机制使其能更好地适应不同长度的问句。这些综述主要针对领域内的研究内容进行铺陈式叙述和梳理，未能指出DL在智能机器人中应用的整体发展态势，挖掘出DL-R交叉学科的研究重点与热点。

由爱思唯尔(Elsevier)推出的新一代科研分析管理工具(SciVal)可为科研决策提供循证依据，已见于学科分析、人才绩效评价等方面的应用[11]。文中拟利用SciVal平台分析深度学习在智能机器人中的发展态势，对加强科技发展战略谋划和系统布局，把握大趋势，下好先手棋具有重要意义。

1 研究方法

为研究全球DL-R交叉学科的发展态势，文中以“深度学习”和“机器人”为主题制定检索策略，检索时间为2020年11月25日，共检出8 509条记录，其中2015-2019年为5 922条；接着采用SciVal对2015-2020年发表的科研论文进行进一步分析，获得学术产出现状、研发格局、机构与学者排名，通过文本聚类重点探讨了研究热点与发展趋势，之后提出促进DL-R领域研究发展的对策建议。由于2020年的数据并不完整，本研究部分分析对象为2015-2019年的数据。

2 研究结果

2.1 全球DL-R交叉学科学术产出现状

随着尖端、前沿的研究不断突破单一学科的限制，交叉学科因其能提供更多元的理论基础和视角，更容易产生创造性成果，中国近期新增交叉学科作为新的第14个学科门类，赋予交叉学科与传统学科同等的地位。领域权重引用影响力指数(FWCI)是考察国家、机构、学者等的论文影响力的指标，其平均水平为1.00。DL-R交叉学科2015-2019年的FWCI分别为3.65、4.17、3.07、2.21和1.72，5年平均为2.25，说明近5年本领域出版物的引文表现高出全球同类出版物平均水平125%，这一指标体现DL-R整体研究活跃度水平较高。

重要的深度学习算法依次为深度强化学习、深度神经网络、卷积神经网络(Convolutional Neural Network，CNN)、循环神经网络(Recurrent Neural Network，RNN)、深度机器学习、尖峰神经网络、长短期记忆等，重要的机器人学应用依次为无人机、移动机器人、智能机器人、计算机视觉、抓取、姿势估计、机器人导航、仿人机器人、同步定位和测绘、运动规划等，可以视为深度学习与机器人交叉学科的核心领域。

1．组织投入专门人力物力，服务在院培训学员安装使用。在主要的教学楼宇摆放了印有平台上线消息的易拉宝，吸引学员下载安装；课前进入重点培训班发放宣传册，播放宣传片并协助大家安装使用；精心策划运营了领导力、行动学习、十九大精神解读等主题学习活动，在教室张贴季度主题活动海报，学院师资在平台上与学员互动，通过院刊、学院网站发表活动消息，得到学员热情参与。

古树名木是一种自然资源，也是一种文化遗产，具有重要的经济、生态、科研、历史、纪念等价值。古树名木作为森林资源，可涵养水源、保持水土、除尘抑菌，具有稳固的生态功能[4]；是珍贵的活文物，与城镇和宗教文化发展息息相关，具有深刻的历史文化价值[5]；是自然科学研究的活标本，具有重要的科学价值[6]；具有独特的观赏价值，是自然景观和文化景观的结合，是绝佳的旅游资源[7]。对古树名木的现状进行调查分析，并探讨相应的保护策略具有重大理论和现实意义。

表1 全球DL-R交叉学科学术绩效总览

表2 中国DL-R交叉学科学术绩效总览

2.2 全球DL-R交叉学科学术产出国家排名

分析DL-R交叉学科研究的总体格局(2015-2020年)，如表3所示，前10位的国家排序为中国、美国、英国、日本、德国、韩国、印度、意大利、澳大利亚、加拿大。中国的学术产出以2 497排第一，但FWCI仅为1.71，后续的美国和英国则分别高达3.8和3.15；从被引频次看，美国高达24 258，英国则以580的学术产出，获得了8 279次引用，接近中国的10 277，这让人对中国的学术质量产生一定的忧思。英国、日本、德国分别以五百多的学术产出不分伯仲，但日本的FWCI特别低，为1.19，且被引频次也较低；后续的韩国和印度学术产出相近。

表3 DL-R学术产出排名前10位的国家

此外，其他排名相对靠前的国家中欧洲占据了绝大多数，同时从FWCI可以看出欧洲国家的学术质量普遍较高，如：瑞士和瑞典虽然学术产出数量不多，但平均被引频次高于10次，FWCI也在3以上，体现了高质量的学术水平。反观亚洲国家除排名前十的中日韩外，仅有新加坡排名相对靠前，且亚洲国家学术质量普遍较欧美国家低，平均被引频次5次左右，FWCI也在2以内。

2.3 全球DL-R交叉学科学术产出机构排名

东西部扶贫协作和对口支援，是推动区域协调发展、协同发展、共同发展的大战略，是加强区域合作、优化产业布局、拓展对内对外开放新空间的大布局，是实现先富帮后富、最终实现共同富裕目标的大举措。根据国家东西部扶贫协作部署，福建省福州市连江县对口帮扶甘肃省定西市陇西县，2017年初完善结对、帮扶对象瞄准贫困村和建档立卡贫困人口，精准聚焦于产业合作、劳务协作、人才支援、资金支持等方面开展帮扶工作。

表4 DL-R交叉学科前20科研机构排名

从FWCI指标看，中国机构中仅清华大学为4.46、排名第10的浙江大学为2.02，其他机构均不足2，而国外机构的FWCI值普遍较高，引用次数指标也基本上反映了这一特点，这说明中国机构的学术产出质量仍有较大的进步空间。

此外，学术论文产出机构绝大部分为大学和科研院所，企业仅谷歌母公司Alphabet一家，反映出学术研究与产业领域的不同特点，企业更重视知识产权特别是专利的申请与保护，对发表学术论文兴趣不大。

RNN是一类以序列数据为输入，在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络[15]，主要应用自然语言处理、机器翻译和语音识别。常见的循环神经网络有双向循环神经网络(Bidirectional RNN，Bi-RNN)和长短期记忆网络(Long Short-Term Memory networks，LSTM)。1990年，Jeffrey Elman提出了第一个全连接的RNN，即Elman网络。重要论文：Thuruthel, TG等人[16]基于软传感器和RNN研发了柔性机器人，采用RNN能够实时地学习、模拟软连续驱动器的运动行为，同时对传感器的非线性和漂移具有鲁棒性，展示了该柔性机器人的交互性能。Li等人[17]针对多机械手的拓扑约束问题，研究博弈纳什均衡的隐式形式，设计了一种分布式循环神经网络的动态控制器，使系统达到期望的纳什均衡，达到协同控制的最优解。Li[18]针对CNN-零化神经网络(ZNN)在求解时变矩阵逆问题时抗干扰性能差的缺点，设计一种有限时间收敛、抗噪声的ZNN(FTNTZNN)，在各种噪声下也能在有限时间内完全收敛到理论解，并验证了FTNTZNN模型在求解时变矩阵逆和机械臂运动控制方面具有更好的收敛性和鲁棒性。

2.4 全球DL-R交叉学科学者学术产出排名

表5列出了学术产出前10名的学者，主要来自日本、德国、英国和澳大利亚，总体上呈现出美国学者FWCI指标、h-指数、引用次数特别高、日本学者较低、德英澳学者居中的特点。中国仅华南理工大学张智军排名第8，除前10外清华大学孙富春、兰州大学金龙分列第18、20位，他们均为中国深度学习与机器人交叉学科领域的佼佼者。综上，美国、日本、德国、英国、中国和澳大利亚六个国家在高学术产出学者方面领先，但中国学者在学术产出和影响力方面还有一定差距。

表5 DL-R交叉学科领域前10学者学术产出与影响力

2.5 全球DL-R交叉学科学术发表期刊来源分析

3.3 生成对抗网络(Generative Adversarial Network，GAN)

表6 DL-R交叉学科领域期刊学术产出排名

2.6 全球DL-R交叉学科研究热点分析

通过文本挖掘确定2015-2019年深度学习与机器人交叉学科领域内的重要概念(关键词)，结果按显著程度排序，如图1所示。

在改革开放初期，传统思想比较浓重，教育革命尚未很好开展，提出这些主体思想要点是令人感到新锐的、有震撼力的。虽然这些思想符合社会发展和教育改革的大趋势，但当时也难免遭到质疑、异议和压力。不过，我们坚守着自己的信仰并继续主体教育思想的学习和研究。

第二、后续计量环节。商业银行抵债资产后续计量环节的会计与税务处理差异主要来源于抵债资产减值的计量。会计准则规定，商业银行需要对抵债资产进行减值测试并计提减值准备，这会对商业银行整体利润会带来影响；税法则要求在计算应纳税所得额时不得扣除减值准备，这就形成会计利润与税法利润不一致，需要对企业所得税进行适当调整。

学术产出表示研究领域每年发表的文献数量，如表1所示，2015-2020年DL-R呈现连年大幅增长的趋势，共发表论文8 509篇，从2015年的182篇增长到2019年的2 934篇；从年度引用频次看，2015-2019年DL-R领域出版物被引用共56 991次；高影响力期刊文献百分比，被引用率最高的前1%、5%、10%和25%出版物中所占的份额分别为3.7%、12.8%、20.1%和35.6%；从学术产出的效益看，每项学术成果的专利引用次数(Patent-Citations Per Scholarly Output，所有专利局)平均为43.2，2015-2016年的该指标可达两百多次，这是相当高的数值。综上，DL-R交叉学科是一个非常活跃和有影响力的研究领域。

图1 基于文本挖掘的关键词分析

技术主题(topics)的学术产出可反映学术研究的重点，显著度百分位数可用于挖掘技术主题的研究热度。从技术主题的显著度百分位数指标看(见表7)，排名前20位的技术主题，其显著度百分位数均在95%以上，且11个技术主题的FWCI在2.0以上。卷积神经网络-对象检测-IoU主题的显著度百分位高达99.999，学术产出达1 349，FWCI为2.38，是DL-R交叉学科中排名第一的热点与重点。关于算法的主题中，多代理学习-Q-Learning-策略迭代的显著度百分位为99.089，FWCI为2.75，但学术产出仅为255；尖峰神经网络-神经元模型-事件驱动的显著度百分位为98.574，但FWCI仅为1.22。在DL用于改进机器人控制方面，下列主题同时具有较高的两项指标，可以认为是DL-R交叉学科的研究热点：抓取-手部力量-末端效应器、机器人学习-模仿-基元、伪造-篡改-离散余弦变换、可视化定位-同步定位和测绘-自动驾驶汽车、图像内画-源域-生成、终端效应器-收获-马卢斯、Ad Hoc网络-无人机-基站、触觉传感器-终端效应器-触控器。

表7 技术主题学术产出排名

3 典型算法及应用

3.1 CNN

CNN是一种包含卷积计算且具有深度结构的前馈神经网络，由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成，同时也包括关联权重和池化层，主要应用计算机视觉和语音识别。常见的卷积神经网络有LeNet、AlexNet、VGGNet、ResNet等，1987年Alexander Waibel等提出的时间延迟网络(Time Delay Neural Network, TDNN)是最早出现的卷积神经网络[12]。重要论文：Maturana等人[13]提出了一种用于实时目标识别的三维卷积神经网络(VoxNet)，可以快速而且准确地对3D数据进行分类，在三种不同类型的数据：Lidar、RGBD、CAD模型的混合任务中取得了最好的效果。Levine等人[5]提出了一种基于深度学习的机器人单目抓取手眼协调方法，采用卷积神经网络来预测抓取器与场景中物体之间的空间关系，从而学习手眼协调，提高抓取成功率。Sundaram等人[14]针对基于计算机视觉的机器人抓取策略中触觉信息数据集的处理问题，使用可伸缩的触觉手套和深度卷积神经网络来证明均匀分布在手上的传感器可以用来识别单个物体，估计它们的重量，并探索抓取物体时出现的典型触觉模式。

3.2 RNN

（8）对安全活动制度进行完善，加强企业内部对于安全文化的重视。定期组织企业内部的安全活动，加强员工的安全意识，推动安全生产。

锌指蛋白作为转录因子中的一个大家族，广泛参与了人类体内的各种生物学进程，尤其是在基因表达调控方面具有重要作用，使锌指蛋白在结肠恶性肿瘤的诊断、治疗等领域彰显出巨大的潜力。近年来，随着越来越多的锌指蛋白被发现，以及对锌指蛋白功能研究的更加深入，锌指蛋白在结肠癌中调节转录、控制基因表达的特性已经得到了广泛的证实与认可；用锌指蛋白作为工具，调控哺乳动物特定基因表达的相关体外实验也取得了很大的进展。但是就目前国内外研究现状来看，在结肠癌中还有许多锌指蛋白和其作用机制尚未完全明了，锌指蛋白能否作为结肠癌治疗新靶点的问题也尚未明确，这些都有待于进一步的研究与探索。

科研机构在2010-2020年间的学术产出排名如表4所示，前20名中中国占了11所，中国科学院、中国科学院大学、清华大学和中国教育部占据前四。国外实力强劲的科研机构排名依次为：加州大学伯克利分校、瑞士联邦理工学院、麻省理工学院、Alphabet Inc.、法国国家科学研究中心、韩国高等科学技术院、伦敦帝国理工学院、慕尼黑工业大学、佐治亚理工学院，前20之后FWCI较高的机构还有：卡内基梅隆大学、斯坦福大学、华盛顿大学、密歇根大学安阿伯分校、南加州大学、牛津大学、弗莱堡大学。

如表2所示，中国2015-2019年间本领域学术产出、作者数量持续大幅增加，共发表论文1 379篇，从2015年的21篇增长到2019年的802篇；从年度引用频次看，2015-2019年深度学习领域出版物被引用共9 820次；5年平均FWCI为1.77；高影响力期刊文献百分比，被引用率最高的前1%、5%、10%和25%出版物中所占的份额分别为3.1%、11.6%、19.7%和36.3%。综合FWCI和高影响力期刊文献百分比，可判断中国在DL-R领域活跃度和影响力均低于世界平均水平，从学术产出的效益看，每项学术成果的专利引用次数平均为16.7，该项数值大幅低于世界平均水平，这可能与中国学术活动的产业转化与互动较少有关。

深度学习与机器人交叉学科领域的学术论文，大部分发表在机器人学和计算机科学相关学术会议论文上(见表6)，其中Proceedings - IEEE International Conference on Robotics and Automation的FWCI为5.15，Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition的FWCI为8.21，这两个学术会议，连同ACM International Conference Proceeding Series，均未收录于Web of Science数据库中。由此也可见，选择Scopus数据库相较于Web of Science数据库更适于分析评价计算机领域的学术活动。

GAN是一种非监督式学习方法，通过让两个神经网络相互博弈的方式进行学习，由Ian Goodfellow等人于2014年提出，主要应用图像生成和数据增强。Fabbri等人[19]针对基于视觉感知的自主式水下机器人，提出了一种采用GANs来提高水下视觉场景质量的方法，引导水下机器人行动。Gupta等人[20]考虑自主移动平台与人类运动行为共存，结合序列预测和社交感知GAN，提出了一种基于GAN的编解码器框架和池化块机制，使网络能够以纯数据驱动的方式学习社会规范，提高多模态行人运动轨迹的预测精度。Sadeghian等人[21]针对多个交互主体场景下自主移动平台的路径预测问题，提出了一个基于GAN的可解释框架SoPhie，利用场景中所有代理的路径历史和场景上下文信息这两个信息源，将社会注意力机制与物理注意力结合起来，帮助模型训练，预测社会和物理上合理的路径，并在几个不同的轨迹预测基准上实现最优路径规划。

3.4 其他算法及融合算法的应用

在大数据支撑、计算能力提升、芯片高速迭代等技术背景下，各种深度学习算法不断涌现和优化，提升了机器人推理、规划和想象能力。Ma等人[22]针对人机交互的会话生成模型，提出了基于检索和transformer的会话模型(RRT)，将检索模型和生成模型相结合，获得与上下文相适应的响应，这里采用了transformer模型代替了传统的序列到序列的会话生成模型，在较少的训练时间下取得了较好效果。Zrira等人[23]针对移动机器人环境感知能力，提出了利用GIST描述子提取全局视觉特征，然后利用后续特征训练判别性深度信念网络(Deep Belief Network，DBN)分类器，使用反向传播技术来微调权重以获得最佳分类。Yu等人[24]针对机器人基于表面肌电图的人机交互问题，建立了一个堆叠式自动编码器深度神经网络(SAE-DNN)，以连续估计手腕多自由度(DoFs)的表面肌电信号，并验证了SAE-DNN的估计性能优于常规回归(LR)和支持向量回归(SVR)。Kostavelis等人[25]针对服务机器人在家庭或工业环境中的自我感知能力，提出了一个语义映射框架，揭示现实环境中对象和地点之间的关系，不同地点的分类依赖于基于外观一致性直方图的分辨率，在对于场景中物体识别时，采用显著注意模型增强的层次化时间记忆网络(Hierarchical Temporal Memory，HTM)，使智能体能够在人类居住的环境中以智能的方式行动。Wang等人[26]设计了一种基于尖峰神经网络(Spiking Neural Network，SNN)的移动机器人行为控制器，利用超声波感知信号避开障碍物，控制器中使用的神经元比经典神经网络少，有效且易于实现。

近些年，很多学者开展了深度学习多模型融合研究，以克服在机器人姿态估计、路径规划、环境感知、目标识别方面单个模型对未知问题泛化能力的缺陷。为揭示机器人领域深度学习主要算法综合应用的现状，经Scopus检索分析得到机器人领域深度学习算法的共词矩阵(见表8)，矩阵中对角线数值为0，其余对称位置数值表示在同一文献中同时出现两种算法的文章数量。Inoue等人[27]针对机械高精度装配作业，通过训练一个具有强化学习的循环神经网络，实现机器人在很小的间隙内完成钉孔作业。Ahn等人[28]提出了一个生成模型来学习语言和人类行为之间的关系，以生成一个描述人类行为的句子作为人类行为序列。该生成模型是基于序列对序列(SEQ2SEQ)模型的生成性对抗网络(GAN)。利用所提出的生成网络，使用文本编码器RNN和动作解码器RNN来合成机器人或虚拟代理的各种动作，将这些动作可以转移到巴克斯特机器人身上，使得机器人根据给定的句子执行动作。Tang等人[29]针对机器人自主定位导航中运动估计的检测，采用了CNN和RNN一起训练以检测关键点的位置，相比单一深度学习模型，该方法取得了更好的效果。Tsurumine等人[30]提出了两种有效的DRL算法：Deep P-Network(DPN)和Dueling Deep-Network(DDPN)，将策略平滑更新思想与深层神经网络的自动特征提取能力相结合，以较少的样本数提高样本效率和学习稳定性，并在机器人手臂伸展任务中得以验证。

表8 机器人中深度学习算法共词矩阵

4 结束语

目前，DL在重要的感知、认知和行动问题上显示出了广阔的发展前景，可以在无需人工协助的情况下对原始传感器数据进行操作，并推断出其中的关键特征，大大缩短前期工程时间；同时还善于融合高维、多模式的数据，以捕捉原始数据的关系网络，有助于机器人适应动态、非结构化环境中工作。综合分析年度发表文献增长量、作者数量、FWCI、学术产出效益等多项指标表明，全球DL-R交叉学科整体研究水平非常活跃并具有较高的影响力。中国的学术产出已达世界第一，但学术质量相关指标如FWCI、学术产出效益等多偏低，机构与学者的学术影响力较弱，离美英等发达国家仍有一定的差距。

建议从加大科研资助与研发投入，以促进包括DL在内的AI在机器人学中的进一步交叉融合。加强与美、英、德、意、澳、加、法、瑞士等国的国际交流与合作，合作对象可从加州大学伯克利分校、瑞士联邦理工学院、麻省理工学院、Alphabet Inc.、法国国家科学研究中心、韩国高等科学技术院、伦敦帝国理工学院、慕尼黑工业大学、佐治亚理工学院、卡内基梅隆大学、斯坦福大学、华盛顿大学、密歇根大学安阿伯分校、南加州大学、牛津大学、弗莱堡大学中择优选取。在人才培养方面，中国在这个交叉学科的高影响力学者数量少，学术产出不高，需要进一步加强交叉学科的人才培育力度，并适当引进国外高端人才。

数据分析表明，当前DL-R交叉学科的研究重点是计算机视觉，研究热点是卷积神经网络用于机器人对象检测、深度Q学习用于辅助决策，以及DL改进机器人控制等方面的用途等，将DL更为紧密地融合进重要的机器人学应用中，如无人机、移动机器人、智能机器人、计算机视觉、抓取、姿势估计、机器人导航、仿人机器人、同步定位和测绘、运动规划等。

DL-R交叉学科的研究正朝着更高层次的认知发展，目标是使机器人在不久的将来达到人类的分析学习水平。然而，在实现这个目标之前，深度学习还有许多障碍要克服：首先，需要获取大量的有标注数据和较长的训练时间，不仅费时，成本也高；其次，现有技术未实现实时训练深层网络，需通过离线训练后才能进行智能辨识，很难进行动态调整；再次，深度学习的局部泛化能力与人类的极限泛化存在较大差距，抽象和演绎推理能力还不足以解决复杂环境中的任务；最后，通过堆叠更多层并使用更多训练数据来扩展当前的深度学习技术，只能在表面上缓解一些问题，不能解决DL模型在可表征内容种类非常有限的基本问题，即存在大多数程序不能被表达为DL模型，即使有足够的数据源也无法进行训练和推理。已有研究在朝着DL元学习、分布式DL、结构稀疏化DNN、三维卷积深度神经网络等方向努力，使深度学习从数据驱动算法向大数据驱动计算、传感器和网络驱动计算、跨媒体驱动计算转变，推动DL与机器人学的进一步交叉融合，相信未来机器人学将迈向人机混合的增强智能与智能自主系统。