一种空间服务机器人在轨人机交互系统设计

2018-06-28谭启蒙周永辉孙沂昆王耀兵

载人航天 2018年3期

谭启蒙，陈磊，周永辉，孙沂昆，王耀兵，高升

（1.北京空间飞行器总体设计部空间智能机器人系统技术与应用北京市重点实验室，北京100094；2.战略支援部队航天工程研究院十六室，北京100028）

1 引言

近年来，伴随着人工智能技术的发展，空间服务机器人已经逐步发展成一种辅助或代替航天员开展多种复杂空间作业的重要手段，尤其是对空间站在轨服务、深空探测等领域有重要意义［1］。舱内方面，机器人需要辅助航天员完成诸如日常舱内清洁、工具校准、库存盘点、设备摆放、食物准备、舱内生存环境（含空气、水等）质量测试等常规任务；舱外方面，机器人应具备辅助或代替航天员完成舱外检测、维修、安装，舱外状态检查以及星球表面探测等空间任务的能力。在轨人机交互（On⁃orbit Human Robot Interaction，OHRI）包括航天员与机器人之间的信息互通、物理空间中的行为互动以及两种交互的集成［2］，是空间服务机器人的核心技术之一。根据交互过程中二者之间的时空对应关系，OHRI主要分为远程交互和近程交互两类［3⁃5］：前者基于时空分离状态，明确航天员与机器人之间的主从关系，航天员根根据机器人实时采集的操作对象或周围环境特征的多模态信息，主动向机器人发送运动控制命令，机器人接收用户指令并完成指定操作任务；后者则凸显航天员与机器人之间的平等合作关系，机器人能够自主感知并接收航天员的输入，其自身的控制系统通过对采集获得的多模态传感信息进行分析、理解和决策，驱动末端执行机构完成指定操作或定向移动，同时做出能够被航天员所觉察的恰当的响应或反馈。

截至目前，我国对于人机交互技术的研究还处于起步阶段，尚无人机交互在轨应用的型号任务。国际空间站在轨人机交互应用的成功案例主要有Robonaut 2（简称R2）和Kiribo：R2作为世界上首个舱内服务机器人，先后完成了诸如与航天员在太空中首次握手、人机交互式协同操作旋钮、面板、阀门等多次在轨人机交互测试任务［6⁃7］；Kiribo则完成了在轨与现役日本航天员之间的自然对话与聊天等交互式测试［8］。尽管如此，上述人机交互系统只能完成少数、固定应用场景下的简单交互，并未涉及多源、复杂信息融合，具有较大的局限性。因此，如何设计一种自然友好、高效便捷的人机交互系统并提供视、听、力、位等多模态交互手段，实现航天员与机器人之间的自然交流、二者默契合作完成空间任务，一直是空间服务机器人在轨应用亟待解决的技术瓶颈之一。

针对上述问题，本文提出一种基于多模态信息融合的OHRI设计方案，以不同任务类型、环境条件的应用需求为基础，构建OHRI整体架构及多模态信息传输机制，设计出航天员与机器人近程、远程交互方案的硬件配置及信息交互流程，然后从中梳理对应的关键技术途径，并经由地面试验验证这些技术。

2 需求分析

随着空间科学技术的发展，未来复杂环境空间作业任务将普遍面临耗时长、难度大、风险高、环境恶劣等问题，需要在轨人机交互系统（OHRI）可以使航天员与机器人进行自然、高效、频繁、多维度地交互，形成一套及时沟通与协调、相互帮助与支持、彼此监督与操控的高效运行管理机制，达到人类高智能与机器高性能的有机结合，实现二者协同完成任务以提高任务完成的效率并降低风险。鉴于上述应用需求，OHRI应具备以下特点：

1）人机交互体系框架可实现多模态信息融合，能兼顾远程交互和近程交互等不同的交互模式；

2）多源信息交互机制应为沉浸式，可以使航天员根据空间操作任务的应用情景及难易程度合理选择与机器人的交互方式，并对应明确的从属关系与职责范畴；

3）在轨远程交互方式强调航天员与机器人之间的主从关系，要求人机交互系统具备功能如下：

（1）利用机器人身上配置的多源传感器实时采集表征操作对象或周围环境特征的多模态信息进行三维建模，为航天员提供一种基于混合现实的沉浸式虚拟操控环境，显著消除航天员与机器人之间的时空差异问题；

（2）利用多源传感器准确建立机器人各功能部件与人体各关键部位之间的物理映射，使航天员能够根据主观意愿自主操控机器人，并确保二者行为的一致性；

4）在轨近程交互方式建立在同一时空环境基础上，更加强调二者之间的平等合作关系，要求人机交互系统具备功能如下：

（1）使机器人能够对航天员在任意时刻发出的指令（例如：声音、手势、动作等）及时做出恰当的响应或反馈，以满足时效性要求；

（2）使机器人可以智能识别参与交互航天员的相关信息，自主接收、理解航天员的主观意图后，辅助或代替航天员独立完成某项工作或工作的某一部分项目，满足协作性要求，极大地提高人机协同工作的效率、可靠性和安全性。

3 在轨人机交互系统设计

目前，面向空间服务领域的OHRI任务分配原则是［9］：航天员主要完成机器人难以胜任的随机性强、复杂程度高、缺乏客观判据而只能依赖于主观经验评判的突发任务，机器人则执行程序性强、成本高、风险大的固有任务。

3.1 体系架构

本文将OHRI体系架构主要归纳为三部分，由底层到高层依次分为传感层、感知层和行为层。传感层的主要职能是：完成外界环境信息的实时采集与无损传输；感知层的主要职能是：完成对传感层信息的实时处理与深度解析；行为层则主要负责将感知层的解析结果直接转换为指令或参数，驱动机器人末端执行机构完成指定操作或定向移动。

结合图1，以视觉、听觉为典型示例，在轨人机交互体系架构中的多模态信息流的传输机制可阐述如下：主要利用传感层中的多源传感器为机器人实时获取有效的视觉、听觉等多模态信息，传输至感知层，开展诸如特征分类、挖掘、处理、学习、融合等一系列的复杂运算，进而提炼出表征航天员的真实意图和空间环境的逼真再现的深度模型，以同时满足远程和近程两种交互方案设计目标，为机器人控制系统提供有效、完整的指令输入，直接驱动机器人末端执行机构执行各项空间任务，此时，再次利用多源传感器跟踪采集实际的操作结果，实时反馈给航天员用于评判成功与否，最终构建一套完整的航天员与机器人之间稳固的双向交互机制。

3.2 远程交互设计

在轨远程交互的硬件设计如图2。航天员配备头盔式显示器、立体声耳机、降噪麦克风、数据手套及其他体感设备等便携装置，构建航天员与机器人之间的信息交互通道，其内部信息流远程交互机制如图3所示。

远程交互方案所涉及的多源传感器、交互设备及其具体功能如下：

1）头盔式显示器内置左、右两个微显示屏，主要功能包括：

（1）同步显示机器人头部左、右目相机采集的在轨空间环境的图像视频信息，为构建航天员的沉浸式虚拟操控环境提供三维立体视觉反馈信息；

图2 在轨远程交互方案设计原理示意图Fig.2 Schematic diagram of remote interaction de⁃sign

图3 信息流远程交互原理示意图Fig.3 Schematic diagram of remote interaction for information flow

（2）完成航天员双眼（球）定位，进行人眼视线跟踪，确保机器人头部左、右目相机的朝向始终与人眼视线方向保持一致，实现根据航天员主观意愿对感兴趣区域进行观测。

2）立体声耳机主要用于同步播放通过机器人头部听觉传感器实时获取的空间环境音频信息，为航天员提供空间环境的听觉反馈，显著增强航天员的临场感。

3）降噪麦克风的功能是：对航天员发出的语音信息进行接收、处理、识别及自然语义注释，实现对航天员主观意图的准确理解，处理结果将直接映射为机器人控制系统的输入指令，驱动机器人遵照上述指令完成指定操作。

4）数据手套通过集成力反馈装置，精确捕捉航天员手臂或手指的微小动作，进一步换算为机器人各关节的运动角（速）度、扭转力矩等动态参数数据，作为机器人控制系统的输入，驱动机器人灵巧手与人手保持同步运动；同时，数据手套还能够重建机器人灵巧手的交互作用力并反馈至操控者，使其真实体验机器人灵巧手抓取过程中的交互作用力情况。

5）体感设备主要采用可见光、激光、红外等光学测量原理，实时、连续、精确估计表征人体姿态特征的关键部位的三维空间位置信息，完成对航天员动作和行为的识别，检测数据将映射为机器人控制器系统的输入指令，进而驱动机器人头、颈、躯干、臂、手等功能部件与人体各关键部位的运动态势严格保持一致。

3.3 近程交互设计

图4 在轨近程交互方案示意图Fig.4 Schematic diagram of close⁃range interaction

图5 信息流在轨近程交互原理示意图Fig.5 Schematic diagram of close⁃range interaction for information flow

在轨近程交互系统分别为机器人配置视觉传感器和听觉传感器，为航天员配备降噪麦克风以及立体声耳机，以方便航天员与机器人开展面对面交互。具体如下：

1）视觉传感器：实时采集机器人工作环境的图像信息，基于深度学习模型［9］，将可见光、激光、红外等多源信息进行深度融合，实现工作环境场景的感知与三维建模［10］，并依次完成参与交互航天员（合作伙伴）的人脸检测与识别、视线跟踪［11］、人体姿态计算、手势以及动作识别，最终的计算结果将直接转换为机器人控制系统的输入，驱动机器人末端执行机构完成相应操作。

2）听觉传感器：实时采集工作环境的背景音频信息以及航天员自身发出的语音指令，为航天员携带的立体声耳机提供有效输入。

3）降噪麦克风与立体声耳机组合体：不仅能够实现远程交互设计中的单方面、被动接受航天员指令的反馈，更多的需要实现机器人与航天员之间的无障碍、自然语音双向交互［12］，既能确保航天员的语音指令准确无误地发送至机器人，又能将体现机器人工作进展程度的语音信息同步反馈至航天员，确保二者协同工作的一致性。

3.4 技术途径

上述OHRI架构具体节点，除去成熟的技术和货架产品，其余待研究内容可归纳为以下三项关键技术途径：

1）复杂场景三维重建技术

在未知、复杂、非结构空间环境中，机器人必须具备自主环境感知与三维建模功能。首先，利用张正友提出的二维平面标定方法［13］，准确获取视觉传感器内外参数信息，完成立体视觉校正；其次，提出一种基于光流法的特征检测算法，能够准确提取未知、复杂、非结构、弱纹理等环境特征信息［14］；再次，采用多尺度、多源信息融合的混合匹配策略［15］，建立视觉传感器在不同时间、空间采集的图像帧之间、图像帧与当前环境特征之间、环境特征之间的物理映射与对应匹配关系；最后，准确计算出复杂场景的三维点云数据，依次完成点云配准、融合、稠密化及纹理化等处理，真实重建三维场景信息。

明清时期，数量激增的女性诗人群体在传统道德规训之下用“去女性化”的策略努力争取文坛的合理地位，并成为十分突出的现象。“去女性化”现象及女性的诗文创作引起了士人阶层的广泛争议，而这种争议将女性创作置于主流文坛的讨论之中，在一定程度上也促进了女性诗人向文坛中心的靠拢。面对士人的争议，女性诗人群体自身矛盾的态度也表明了明清时期女诗人用“去女性化”的方式在传统道统与文统压迫下而争取自由创作空间的努力是一种探索性的策略。

2）三维人体姿态估计技术

利用可见光、激光、红外等多源视觉传感器［16］相结合的方式，融合深度信息和颜色信息并结合人体各重要部位模型，快速检测、识别出传感器视场范围内航天员的人体骨骼轮廓，在此基础上，将三维测量数据与人体骨骼模型予以数据配准，即可精确计算出表征航天员的头、臂、手、腿、脚等重要部位的三维空间位置姿态。

3）手势动作识别技术

机器人成功识别、定位航天员骨骼轮廓并检测出人体瞬时姿态后，局部放大航天员各重要部位（例如：手、脚）的细节动作信息，并通过与预先设定的多样化模式数据库信息进行配准计算，准确识别出航天员某一手势、动作的深层意图，进而将其转化为机器人控制命令引导末端执行机构完成相应的运动或操作。

现以手势识别为例予以说明：在场景三维数据中，首先利用深度聚类方法将前景与背景分离，获得手势三维数据，并提取三维角点、曲面曲率等三维特征；然后将这些特征作为序贯贝叶斯模型的观测，采用隐马尔科夫模型、条件随机场模型等构建手势状态的时变模型，通过贝叶斯信任传播方式完成手势类别的推理［17⁃18］。

4）语音命令识别技术

语音命令同样也是航天员与机器人交互的一种重要手段，然而机器人无法准确接收、理解复杂、冗长的语音指令，这就需要机器人在接收语音指令的同时，深入分析航天员说话时的动态姿态变化，并将其作为声音特征的辅助手段，可显著提高语音命令识别的准确度和鲁棒性。尽管如此，但对于复杂的工作流程，单纯依赖语音命令，航天员必须时刻关注机器人的操作进度，并频繁地发送语音指令引导机器人接续工作，上述情况，反而增加了航天员的负担，确实难以适应复杂多变的空间环境和繁琐的作业流程。

4 试验验证

结合上述方案设计，实验室环境搭建一套在轨人机交互地面验证系统，硬件配置规格参数与技术指标详见表1～表5。

表1 头盔式显示器规格参数Table 1 Specification of head mounted display

表2 数据手套规格参数Table 2 Specification of data glove

表3 体感设备规格参数Table 3 Specification of motion sensor

表4 可见光传感器规格参数Table 4 Specification of visible light sensor

表5 工控机规格参数Table 5 Specification of IPC

针对3.4节提炼的关键技术途径，在轨人机交互地面验证系统依次开展了诸如模拟空间复杂场景三维重建、人体三维姿态估计、手势识别、语音命令识别等验证性试验，具体结果介绍如下。

1）模拟空间复杂场景三维重建测试

利用机器人自身携带的双目立体视觉相机与红外结构光相机分别采集空间复杂场景图像信息，经视觉传感器内外参标定与立体视觉校正、特征点检测与匹配、点云配准与纹理映射等操作，利用OpenGL真实再现模拟空间复杂场景的三维点云（图 6）。

图6 复杂场景三维重建结果Fig.6 Result of 3D reconstruction for complex scene

2）三维人体姿态估计测试

在三维人体姿态估计测试中，主要利用Ki⁃nect2.0体感相机实时采集人体动作姿态的深度数据，如图7所示，正确识别人体骨骼模型并建立其与人体各关键部位之间的三维映射关系，精确恢复出包含人体姿态特征的三维点云图（图8），完成三维测量数据与人体骨骼模型之间的数据配准，即可估计三维人体位置姿态信息。

3）手势识别测试

手势识别测试中，首先，构建手势图像识别数据库，规定手势类型包括：握拳、五指伸直并拢、剪刀手、OK手型等，上述每种类型手势所需左手、右手图像各10张；其次，使用上述手势训练机器人完成深度聚类和手势推理；最终，测试现场分别对上述每类手势随机进行100次测试，统计机器人正确识别率，具体如表6所示。

图7 Kinect 2.0采集的人体姿态深度图Fig.7 Depth map of human pose captured by Kinect 2.0

图8 人体姿态三维测量点云数据Fig.8 3D measurement point cloud of human pose

表6 手势识别测试结果Table 6 Test results of gesture recognition

试验结果表明，经过训练后的机器人能够正确识别4种手势指令，且同时支持左、右手，上述规定手势的平均正确识别率可达74%。

4）语音命令识别测试

与手势识别相类似，语音命令识别测试同样包括训练和识别两个阶段。前者需要采集、存储至少3个测试者在不同时刻发出诸如打开、放回、剪刀、螺丝刀、钳子、启动、停止等单一词汇的语音命令构建数据库，用于训练机器人完成语音信号模型构建、特征检测、模型训练与配准等处理；后者则要求测试者现场随机对机器人发出上述规定词汇的语音命令累计100次测试，最终统计机器人正确识别率，具体如表7所示。

表7 语音指令识别测试结果Table 7 Test results of voice command

试验结果表明，经过训练后的机器人能够正确识别至少3个测试者发出的规定语音命令，平均正确识别率可达86.1%。

5 结论

本文提出了一种基于多模态信息融合的在轨人机交互系统设计，兼顾航天员与机器人之间的近／远程交互模式，适应不同的任务需求和空间环境。试验结果表明，OHRI涉及的复杂场景三维重建、人体姿态估计结果显著改善了时延大、临场感差等缺陷；经训练后的机器人对规定手势、语音指令的平均识别正确率分别可达74%和86.1%。上述在轨交互系统在我国载人航天工程、月球及深空探测工程的近期及中远期发展阶段中都有很广阔的应用前景。

［1］林益明，李大明，王耀兵，等.空间机器人发展现状与思考［J］.航天器工程， 2015，24（3）： 1⁃7.

LIN Yiming， LIDaming， WANGYaobing， et al.Current sta⁃tus and analysis of space robot［J］.Spacecraft Engineering，2015， 24（3）： 1⁃7.（in Chinese）

［2］ Goodrich M，Schultz A.Human⁃robot interactions： A survey［J］.Foundations and Trends in Human⁃Computer Interac⁃tion， 2007， 1（3）： 203⁃275.

［3］黄进，韩冬奇，陈毅能，等.混合现实中的人机交互综述［J］.计算机辅助设计与图形学学报，2016，28（3）：869⁃880.

Huang Jin， Han Dongqi， Chen Yineng， et al.A survey on human⁃computer interaction in mixed reality［J］.Journal of Computer⁃aided Design ＆ Computer Graphics， 2016， 28（3）：869⁃880.（in Chinese）

［4］ National Academy of Sciences.NASA space technology road⁃maps and priorities： restoring NASA’s technological edge and paving the way for a new era in space［R］.NASA 20120008951， 2012.

［ 5 ］ Robotics⁃vo.A roadmap for U.S.robotics from Internet to Robotics2013 edition［R／OL］.（2013）［2018］.http：／／www. roboticscaucus. org／Schedule／2013／20March2013／2013%20Robotics%20Roadmap⁃rs.pdf.

［6］ Diftler M A，Ahlstrom T D，Ambrose R O，et al.Robonaut 2－ ⁃Initial activities on⁃board the ISS［C］／／Aerospace Confer⁃ence.IEEE， 2011：1⁃12.

［7］ Diftler M A，Mehling J S，Abdallah M E，et al.Robonaut 2－ ⁃The first humanoid robot in space［C］／／IEEE International Conference on Robotics and Automation.IEEE， 2011：2178⁃2183.

［ 8 ］ Toyota Inc.Kibo robot project［EB／OL］.Tokyo，（2014）［2018］.https：／／toyota.jp／kirobo＿ mini／kibo⁃robo／en／re⁃port／＃re019.pdf.

［ 9 ］ Feil⁃Seifer D J， Mataric M J.Human⁃robot interaction［M］／／Encyclopedia of Complexity and Systems Science，Springer Reference， 2009.

［10］ Murphy R， Nomura T， Billard A， et al.Human⁃Robot inter⁃action［J］.IEEE Robotics＆ Automation Magazine，2010，17（2）： 85⁃89.

［11］ Nieuwenhuisen M， Stückler J， Behnke S.Intuitive multimo⁃dal interaction for service robots［ C］／／ACM／IEEE Interna⁃tional Conference on Human⁃Robot Interaction （HRI）， Am⁃sterdam，2010： 177⁃178.

［12］ Cakmak M，Chao C，Thomaz A L.Designing interactions for robot active learners［J］.IEEE Transactions on Autonomous Mental Development， 2010， 2（2）： 108⁃118.

［13］ Zhang Zhengyou.A flexible new technique for camera calibra⁃tion［J］.IEEE Transactions on Pattern Analysis and Machine Intelligence， 2000， 22（11）：1330⁃1334.

［14］林义闽.未知环境中智能机器人的视觉导航技术研究［D］.北京：北京邮电大学，2014.

Lin Yimin.Research on Visual Navigation Techniques for In⁃telligent Robots in Unknown Environments［D］.Beijing： Bei⁃jing University of Posts and Telecommunications， 2014.（in Chinese）

［15］ Chen Lei， Dong Zhen， Gao Sheng， et al.Stereo vision⁃only based interactive mobile robot for human⁃robot face⁃to⁃face in⁃teraction［C］／／22nd International Conference and Pattern Recognition， Stockholm， 2014： 1840⁃1845.

［16］管业鹏.基于多模态视觉特征的自然人机交互［J］.电子学报，2013， 41（11）： 2223⁃2229.

Guan Yepeng.Multimodal visual features based natural hu⁃man⁃computer interaction ［ J］. Acta Electronica Sinica，2013， 41（11）： 2223⁃2229.（in Chinese）

［17］毛胜磊.移动机械臂人机交互系统研究［D］.济南：山东大学，2016.

Mao Shenglei.The Research of Human⁃Machine Interaction System for Mobile Manipulator［D］.Jinan： Shangdong Uni⁃versity， 2016.（in Chinese）

［18］陈磊.交互式机器人立体视觉感知方法［D］.北京：北京理工大学博士学位论文，2011.

Chen Lei.Stereo Vision Perception of Interactive Robot［D］.Beijing： Beijing Institute of Technology， 2011.（in Chinese）