基于语义建图的室内机器人实时场景分类*

2017-08-08张超凡夏营威

传感器与微系统 2017年8期

关键词：建图栅格贝叶斯

张文, 刘勇, 张超凡, 张龙, 夏营威

(1.中国科学院合肥物质科学研究院应用技术研究所,安徽合肥 230031；2.中国科学技术大学科学岛分院,安徽合肥 230026)

基于语义建图的室内机器人实时场景分类*

张文1,2, 刘勇1, 张超凡1,2, 张龙1, 夏营威1

(1.中国科学院合肥物质科学研究院应用技术研究所,安徽合肥 230031；2.中国科学技术大学科学岛分院,安徽合肥 230026)

针对室内环境下的机器人场景识别问题,重点研究了场景分类策略的自主性、实时性和准确性,提出了一种语义建图方法。映射深度信息构建二维栅格地图,自主规划场景识别路径；基于卷积网络建立场景分类模型,实时识别脱离特定训练；利用贝叶斯框架融合先验知识,修正了错误分类并完成语义建图。实验结果表明：机器人能够进行全局自主探索,实时判断场景类别,并创建满足要求的语义地图。同时,实际路径规划中,机器人可以根据语义信息改善导航行为,验证了方法的可行性。

自主建图；卷积网络；贝叶斯框架；语义地图

0 引言

针对室内非结构化环境,移动机器人不仅需要局部避障和自主导航能力,更需要自适应的环境理解能力[1]。相对传统同时同步与定位(simultaneous localization and mapping,SLAM)解决的定位问题,机器人需及时提取场景中语义信息,从而协助高层决策过程,达到减弱人为干涉及指导机器人行为的目的[2]。目前,场景分类主要通过语义标签赋予环境,并结合语义地图实现[3,4]。

非结构化环境的感知侧重于视觉语义,而场景理解的提出,推动了该领域的发展。Wu J[5]和Ranganathan A等人[6]利用不同的特征检测方法训练并分类房间,但空间视觉相似性较大；Pronobis A等人[2]融合二维激光雷达和相机实现场景分类系统,创建栅格地图并积累语义标签,虽然训练集和测试集使用不同楼层,相似性依然较大；Meger D等人[7]通过检测物体进而推断当前场景的语义信息,例如微波炉更有可能位于厨房；上述算法均基于特征提取,耗时且需要离线训练。近年来,在物体识别和检测领域,利用卷积神经网络获取学习特征成为新的趋势。很多学者意识到深度卷积网络较于经典方法的优越性[8,9],而Zhou B等人[10]更是验证了卷积神经网络在场景分类中的先进性。

本文引入深度卷积网络算法,重点研究了场景分类策略的自主性、实时性和准确性,构建了一种机器人语义建图综合系统,并应用于中国科学院贝贝机器人本体,旨在实现室内环境下的自主场景识别功能。

1 基于语义建图的场景分类策略

场景分类策略流程如图1所示,仅依靠RGB数据(RGBD)实现,首先通过映射深度信息构建栅格地图,自主规划场景识别路径；其次基于深度学习建立场景分类模型,实时识别脱离特定训练；最后利用贝叶斯估计融合先验知识,修正错误分类并完成语义建图。

图1 场景分类策略流程

1.1 自主规划探索路径

1.1.1 深度信息映射激光数据

语义地图结构需建立于传统二维栅格地图之上,本文在各室内场景中,采用稳定的Gmapping方法结合里程计和激光雷达实现。由于采用RGBD相机进行物体识别,且激光雷达价格昂贵,故将信息丰富的深度数据转换以代替激光数据。

深度图变换激光数据的方法实质是将一定高度范围内的数据进行投影,其原理如图2所示。对任意给定的深度图像点,相应的映射步骤为：

1)将深度图像的点m(u,v，z)转换为其相机坐标系下的对应坐标点M(x,y,z)。

2)计算直线AO和BO的夹角θ

(1)

3)将θ内数据映射至有效激光槽。已知激光最小最大范围(α,β),共细分为N份,则可用laser[N]表示激光数据。点M投影到数组laser中的索引值n可计算如下

n=N(θ-α)/(β-α)

(2)

laser[n]值为M在x轴上投影的点B到相机光心O的距离r,即

(3)

图2 深度映射激光原理

1.1.2 未知环境自主全局探索

移动机器人在未知环境中自主探索主要通过传感器构建地图,并根据信息生成序列运动从而指导机器人进行遍历搜索。文中采用环境通路点拓扑图(图3),考虑路径优化、运动连续性等因素,最终完成机器人全局探索目标。

图3 环境通路点示意

自主探索时,机器人根据激光数据确定当前最优通路点,从而实时规划每次下一步目标路径,直至完成全局遍历并构建环境地图。其相关搜索步骤为：

1)若环境中不存在可用通路点,且l(O,T)≤λ,搜索停止；否则,机器人移动至原点O,其中，T为当前拓扑节点。

2)通过式(4)评价函数计算当前通路点,选择最大值为此刻目标点,同时添加至当前拓扑节点T,并更新地图，即

φp=(Wp×Ep×|θp-θr|)/Lp

(4)

式中 Wp为点P相邻障碍物间可通过的宽度;Ep为点P处可观测的未知环境面积;θp为点P指向的未探索区域方向;θr为机器人当前方向角;Lp为机器人与点P距离。

3)判断当前拓扑节点T是否存在通路点,若有,则跳至步骤(2);若没有，且环境中也不存在尚未探索的通路点,则跳至步骤(1);若没有，但环境中存在尚未探索的通路点,则回溯到最近的尚未探索的拓扑节点处。

1.2AlexNet实时分类模型

采用ZhouB等人[10]发布的Places205卷积网络建立分类模型,该网络沿用AlexNet结构且特别训练用于场景分类任务。Places205包含205个固定的已知场景类,通过大数据训练而得。其中,各语义类训练不少于5 000幅图像,采用人工方式区分标记。由于数据的多样性和差异性,确保了分类器训练结果的通用性和稳定性。因此,对于未知环境,无需再次训练和调整参数,有助于移动机器人实时创建语义地图。

1.3 基于概率分布的语义建图

1.3.1 融合先验知识的贝叶斯估计

本文将室内语义场景分类解释为概率估计问题,定义已知场景类标签集合为

(5)

由于n服从正态分布,故相应的似然函数可表示为

(6)

式中p(ωi|Xt)为第t幅图像相对场景i类的离散概率分布;ωi之间相互独立。

相机获取的前后两幅图像具有连续时间戳,该特性可利用贝叶斯估计方法。文献[11]证明了当上述估计问题满足一阶马尔科夫属性时,将得到更为一致的场景类判断结果。假设具有一阶马尔科夫属性,将获取以下贝叶斯估计公式

(7)

(8)

1.3.2 三维语义场景地图

图4为本文语义地图结构,最下层为常规占用栅格,较高层次的栅格单元通过语义类别进行编码,各层代表不同场景类的概率。

实验中，基于单张地图一个场景类策略,将传统栅格单元赋予语义信息,利用最大语义标签值进行赋值。当图像流的实时分类结果输入系统后,对于相机视野内的当前激光线所覆盖的每个栅格,利用递归的贝叶斯估计方法更新。

图4 语义地图结构示意

(9)

2 实验

为验证场景分类策略的可行性,将其用于贝贝机器人本体,并在光电子中心进行室内语义建图实验。机器人贝贝(图5(a))基于机器人操作系统(robotoperatingsystem,ROS)开发,采用IntelRealSense深度相机获取RGBD数据,并通过TX1进行图形处理器(graphicsprocessingunit,GPU)加速处理。实验时,机器人在8种不同用途环境(图5 (b))中进行自主探索,同时记录图像流、转换激光和里程计信息。

图5 实验机器人及不同场景

2.1 自主建图结果

为验证移动机器人在未知领域自主探索的有效性,选取实验室(lab)场景进行实验：转换深度数据频率为20Hz,最大范围4m,机器人本体最大半径0.4m,线速度为0.4m/s,角速度0.9rad/s。自主建图的起点为lab入口的点A(1.22,-1.54)。

实验时,机器人实时转换激光数据,遍历全局并生成栅格地图。自主探索实验结果如图6所示,圆点为拓扑节点,连线为实际行走路径,机器人最终回到点B(1.51,-1.42),完成遍历。实验结果表明：在该环境中,采用的自主规划路径能够有效探索区域,同时未发生明显的死锁现象,验证了该方法的可行性。

图6 机器人自主探索路径

2.2 语义地图结果

已知实验可能出现的室内语义标签类,故定义已知场景类标签集合为

实验时,在8种环境中生成栅格地图。同时,对获取的实时RGB图像,归一化为227像素×227像素×3像素大小,并利用GPU加速计算的TX1平台,通过内嵌Caffe工具配置的Places205卷积网络识别场景标签号,递归使用贝叶斯估计方法,并用不同颜色的最大语义标签值更新栅格颜色。最终的语义地图如图7所示。

图7中,各场景均由标签进行描述,但地图基本均混合了其他场景。例如,洗手间环境主要是粉色的洗手间标签,但同时也包括了绿色的大厅标签和浅绿色的走廊标签。在大厅的语义地图中,则具有绿色的大厅和浅绿色的走廊两种标签，这是因为该处的门禁系统有大面积玻璃门,导致相机透视探测。另外,橙色会议室场景和红色办公室场景均存在一部分粉色标签,原因在于这些环境中均存在洗手池,卷积网络在识别物体时将其判定为洗手间标签。

2.3 贝叶斯框架对语义建图的影响

为验证贝叶斯框架的作用,在洗手间语义地图时,基于ROS中的rosbag记录数据,其中图像流共有1 500幅图像。在同一条件下,对该数据集分别利用贝叶斯估计和最大似然估计进行语义建图,对比效果如图8所示。

图8 不同方法对室内数据集的效果对比

分析可得,贝叶斯估计结果滤除了虚假的误判断(黄色标签),而没有融合先验知识的最大似然估计出现较为明显的波动数据(更多不属于该环境的颜色标签)。因此,融合先验知识的贝叶斯估计作用积极且更加稳定。

2.4 语义地图对路径规划的影响

为测试语义地图能否改善移动机器人在环境中的行为,本文基于A-star(A*)算法进行路径规划,根据地图中的语义信息,将场景赋予不同的权重值,测试机器人行为。

实验时,分别在工作时间和午餐时间,由相同起点,模拟机器人取水任务,测试实际规划路径。在光电子中心走廊设置同一起点A,但走廊两端(B和C)的洗手间均有热水点,AC距离大于AB。测试结果及路径如图9所示。

结果表明,工作时间机器人选择了短路径AB执行任务,而午餐时间则选择了绕路的长路径AC。原因在于,午餐时间将有部分人员去餐厅热饭,以及大量人员穿过大厅去食堂,造成路径拥挤,故此时经过AB段走廊的权重值较大,机器人重新规划路径,选择了长路径。因此,该语义地图可以运用于机器人任务并改善行为。

图9 语义地图上的路径规划

3 结论

针对室内机器人的场景识别问题,提出了一种语义建图方法,结合自主空间探索和深度学习策略,并辅以贝叶斯概率模型和GPU加速。语义建图结果表明：机器人能够进行全局自主探索,实时判断场景类别和创建语义地图,并及时通过贝叶斯估计更新误分类。通过机器人路径规划实验,表明语义地图能够指导机器人完成导航任务。

[1]GalindoC,Fernandez-MadrigalJA,GonzalezJ,etal.Robottaskplanningusingsemanticmaps[J].RoboticsandAutonomousSystems,2008,56(11): 955-966.

[2]PronobisA,MozosOM,CaputoB,etal.Multi-modalsemanticplaceclassification[J].TheInternationalJournalofRoboticsResearch,2009，29(23)：298-320.

[3]XiaoJ,EhingerKA,HaysJ,etal.Sundatabase:Exploringalargecollectionofscenecategories[J].InternationalJournalofComputerVision,2016,119(1):3-22.

[4]HemachandraS,WalterMR,TellexS,etal.Learningspatial-semanticrepresentationsfromnaturallanguagedescriptionsandsceneclassifications[C]∥IEEEInternationalConferenceonRoboticsandAutomation,2014：2623-2630.

[5] Wu J,Christensen H I,Rehg J M.Visual place categorization:Problem,dataset,and algorithm[C]∥IEEE/RSJ International Conference on Intelligent Robots and Systems,2009:4763-4770.

[6] Ranganathan A.PLISS: Detecting and labeling places using online change-point detection[C]∥Robotics: Science and Systems,2010:185-191.

[7] Meger D,Forssén P E,Lai K,et al.Curious george: An attentive semantic robot[J].Robotics and Autonomous Systems,2008,56(6):503-511.

[8] Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2014:580-587.

[9] Razavian A S,Azizpour H,Sullivan J,et al.CNN features off-the-shelf: An astounding baseline for recognition[C]∥IEEE Confe-rence on Computer Vision and Pattern Recognition,2014:512-519.

[10] Zhou B,Lapedriza A,Xiao J,et al.Learning deep features for scene recognition using places database[C]∥International Conf on Neural Information Processing Systems,2014:487-495.

[11] Hornung A,Wurm K M,et al.octoMap:An efficient probabilistic 3D mapping framework based on octrees[J].Autonomous Robots,2013,34(3):189-206.

Real-time scene category of indoor robot based on semantic mapping*

ZHANG Wen1,2, LIU Yong1, ZHANG Chao-fan1,2, ZHANG Long1, XIA Ying-wei1

(1.Institute of Applied Technology,Hefei Institutes of Physical Science,Chinese Academy of Sciences,Hefei 230031,China；2.College of Science Island,University of Science and Technology of China,Hefei 230026,China)

Aiming at problems of robot scene recognition in indoor environment,a senmantic mapping algorithm is proposed,autonomy,realtime and accuracy of scene classification strategy are focused on.Two-dimensional grid map is constructed by mapping depth information and autonomously plan recognition path of scene.Convolutional network is applied to set up scene categorization model,recognize semantic classes without specific training in real-time.By Bayesian framework fusing prior knowledge,modify error classification and accomplish semantic mapping.Experimental results show that robot can carry out global autonomous exploration and realtime judge scene category,and set up semantic mapping which meets need.At the same time,in real path planning,robot can improve navigation behavior according to semantic information,feasibility of the method is verified.

independent mapping; convolutional network; Bayesian framework; semantic map

10.13873/J.1000—9787(2017)08—0018—04

2017—06—12

国家科技支撑计划资助项目(2015BAI01B00)；安徽省科技重大专项计划资助项目(15CZZ02019)；中国科学院STS项目(KFJ—SW—STS—161)

TP 242.6

1000—9787(2017)08—0018—04

张文(1987-),男,博士研究生,研究方向为机器人视觉、SLAM、路径规划。

夏营威(1985-),男,通讯作者,博士,副研究员,主要从事机器视觉、机器人、智能装备等方面的研究工作,E—mail：xiayw@aiofm.ac.cn