基于强化学习的多自由度智能超声机器人系统
2022-02-24宁国琛张欣然廖洪恩
宁国琛 张欣然 廖洪恩
(清华大学医学院生物医学工程系 北京 100084)
1 引言
超声成像机器人是将机器人与超声成像系统进行结合的一种医疗成像机器人。超声成像诊断由于具有非侵入性、低成本、无辐射、能实时显示器官运动等优点,在临床的各个领域中得到了广泛的应用[1]。通常情况下,临床超声扫描依靠人工控制超声探头运动,如超声引导下的血管内导航[2]和腹主动脉成像[3]。其中操作者的经验和操作方式是影响超声成像质量和效率的重要因素[4]。相比手动超声成像过程,基于高精度信息引导机器人超声系统在复杂的临床场景中具有更好的灵活性,尤其是在长期的超声扫描过程中具有更好的稳定性[5,6]。在医疗机器人中,超声自动成像机器人是一种典型的医疗机器人设备,而更因为超声成像的广泛性与快速性,其自动化的成像控制对提高超声引导诊疗效率有很大帮助。一般来说,超声探头位置的准确性和超声探头控制的稳定性是影响图像质量的重要因素。在获得目标位置后,超声探头与目标之间合适的接触力既影响成像质量,更重要的是决定了系统的安全性[7]。此外,目标的移动和表面变形也给超声探头的精确控制带来挑战。
超声机器人智能化的关键在于超声探头在不同场景中实现自动的成像动作。在目前的临床机器人超声系统研究中已经采用了多种控制模式来实现超声探头在不同的场景中的自动化运动,这些方法主要基于路径规划和基于标记的引导控制方法[8,9]。其中基于3维场景重建的路径规划和基于标记的物体姿态估计是典型的超声机器人成像控制方法。基于这种模式,以往的机器人超声系统利用3维相机或其他高精度采集设备采集和重建场景表面,并根据分析后得到的目标几何特性规划机器人运动路径[10]。一些研究结合力传感器,通过调整超声探头的位置进而调整接触力[11,12]。这些控制方法中包含多个高度关联的部分,并且每个部分的各方面特性需要与具体的成像任务高度匹配。此外,Chatelain等人[13]基于视觉特征识别方法,使用机械臂和3自由度的标志物来保持穿刺针在超声图像的中心。这些研究分析重建环境或视觉标记,并自动从3维视觉信息中提取人工定义的特征。然而,基于场景特征提取和基于标记物的方法普遍存在视觉干扰问题。同时,控制方法的精度和效率在很大程度上取决于采用的3维成像设备的精度和速度[14]。采集设备的精度成为制约机器人超声系统精度的主要因素之一,此外也需要充分考虑目标的接触力和运动。
为了实现在复杂动态场景中实现鲁棒的、自动的超声机器人成像过程,本文提出基于深度强化学习的多自由度智能超声机器人系统,通过提出决策控制方法和不同控制任务分部执行策略,实现超声探头在人体表面持续的复杂超声成像动作生成。另外,为了克服成像过程中人体表面的不确定柔性变化对控制带来的挑战,本文根据超声机器人成像任务特点,在超声机器人运动自主决策的基础上提出超声机器人柔性控制方法,最终实现超声机器人对不同人体表面自动的成像过程。
2 方法
本文所提智能超声机器人诊断成像控制方法分为超声空间运动决策生成和决策执行两个部分,分别实现超声探头平移和旋转的运动过程。其中决策生成由强化学习智能体根据超声成像模型进行输出,包括超声探头接触人体表面之前的基于视觉的空间运动决策,以及接触人体表面后基于触觉的姿态调整决策。其中当前超声成像环境中的多源信息为智能体实时决策的信息来源。在决策执行部分,为了实现在未知、复杂的柔性人体表面进行安全稳定的探头扫描过程,本文所提探头动作空间优化策略,通过将超声探头与被成像目标之间的被期望的接触力定义为智能体输出值,实现超声成像任务与接触力之间的对应关系的建立,最终由柔性控制器执行,如图1所示。
图1 智能超声机器人成像控制方法与系统框架
本文的工作主要包含:
(1) 提出智能超声机器人诊断成像控制流程框架,期望实现在动态、未知、复杂和易被干扰的环境中实现机器人超声成像过程;
(2) 提出基于强化学习的超声机器人运动决策生成方法,根据多源信息实时生成多自由度超声探头复杂运动的决策;
(3) 提出面向未知复杂柔性环境的超声探头柔性控制方法,通过模拟手动控制方式将探头的空间运动变量变换为接触力变量,最终完成持续成像过程。
2.1 面向智能超声机器人成像的强化学习模型
超声诊断的初步步骤是获取被扫描目标的超声图像,超声机器人需要控制超声探头在人体表面进行复杂的运动以保持探头与人体的稳定接触,并实现对超声图像的采集。为了使用机器人获得超声图像,目前超声机器人进行成像过程中的运动路径生成主要依赖预先或动态的运动路径规划,而机器人运动路径的生成又主要依赖对环境中显性特征的识别和跟踪。这些方法非常依赖人工对当前机器人任务的定量化描述,而医疗任务的特殊性又导致这类流程缺少普适性,进一步导致超声机器人控制的复杂性和鲁棒性大幅度提高。为了实现超声机器人的自主超声成像控制,本文采用基于强化学习的动作决策生成方法。强化学习的过程是学习如何将环境映射到行动上,从而使数字化奖励信号最大化的人工智能算法[15]。强化学习智能体并不像大多数形式的机器学习那样,被告知要采取哪些行动,而是必须通过尝试发现哪些行动能产生最大的回报,因此避免了预先规划和人工干预。在大多数情况下,智能体产生的行动不仅会影响眼前的奖励,而且还会影响下一时刻的状态,并通过这种情况影响所有后续的奖励。对于本文中的机器人智能超声成像任务而言,构建决策智能体输出运动决策在动态且难以量化的成像环境中具有潜在的应用价值。
标准的强化学习过程是在马尔科夫决策过程(Markov Decision Process, MDP)的框架下提出的,它可以由S,A,p,R和Sλ来定义[16]。其中S={s1,s2,...,sn}和A={a1,a2,...,an}分别表示状态集和动作集,p(st+1|st,at)是行动与状态间的随机动态变化,R:S×A →R为奖励函数,λ ∈[0,1]为对当前回报进行加权的折扣因子。令{Xk ∈S}为训练过程k ∈{0,1,...,K}的一个序列, 其中K ≤∞为训练过程长度,动作空间可以取决于当前状态,用A(xk)表示。MDP分析的目标是推导出一个最优策略π*,而该最优策略的目的是超声机器人处于当前场景的任意状态,智能体执行该策略都能获得最大的预期未来回报
在构建了基本智能体的训练过程之后,需要根据超声成像任务对其中的策略和奖励函数进行构建。由于运动空间的增加会给智能体带来成倍的训练量,并且超声探头在空中进行空间运动时并不需要复杂的探头姿态调整,因此本文采用空间运动和姿态运动分别由两个智能体执行的模式以降低训练成本。在空间运动过程中,当前状态为场景视觉信息,其中包含超声机器人所在场景以及需要被成像的人体表面。因此空间运动智能体部分采用卷积神经网络作为策略模型。本策略模型对图像进行卷积操作以获得图像的降维信息,其由3层卷积神经网络组成,每层都与激活层和最大池化层结合。参照手动超声成像中的过程,超声探头接触目标的过程中具有多个相关的步骤,首先人为操作中需要将位置接近、保持接触并最终获得超声图像,本文将这些因素纳入奖励函数设计,并将奖励函数设为不同项的加权总和。首先,超声探头需要在空间中向目标移动,稠密的距离奖励Rdist定义为探头和目标之间的欧氏距离。在探头与表面接触后,奖励函数RUS为检测超声图像是否存在,并且增加额外的持续奖励Rm以鼓励持续的成像过程。最终空间运动过程的奖励函数为
其中,ω1,2,3为不同奖励项之间的权重,被预先设定。
在实现了超声探头与人体的接触步骤后,在超声机器人姿态控制决策任务中的运动空间为连续的姿态运动变量,具体为超声探头在机器人坐标系下绕x轴和绕y轴的角度变化量以进行姿态调整。由于在实际场景中目标的几何特征是未知的,并且在视觉信息中超声探头会对被扫描的表面造成明显的遮挡和挤压变形,进而导致难以获得准确的表面形态,因此本文采用检测超声探头在扫描过程中受到的力矩间接判断超声探头与目标之间的相对位置关系。该部分的状态信息为末端力传感器采集到的超声探头与成像目标之间的3维接触力和3维力矩信息,目的是保持超声探头和扫描表面之间的垂直关系,以获得常规超声成像诊断中清晰的图像。基于这些信息,智能体将根据参数化的策略在训练中最大化奖励。由于接触力状态为1维数据,因此建立了一个具有3个隐藏层的多层感知机模型作为策略模型。成像目标的不确定性导致被成像表面姿态的不确定,将超声探头在Rx方向和Ry方向受到的力矩的平方和作为奖励函数的主要部分
同样当超声探头受到的力矩足够小后,增加一个正奖励值以鼓励超声探头的持续成像动作。至此已经完成了智能超声机器人成像任务中目标函数、策略网络和梯度策略的构建。
2.2 智能超声机器人运动空间优化与柔性控制指令映射
在智能超声机器人成像系统中,超声探头的适应性恒力跟踪对成像质量和系统安全性至关重要。然而由于超声机器人自主成像运动需要同时进行姿态控制与力控制,并且被成像目标的位置、姿态、表面刚度等特性均为未知,为高效稳定的控制带来了挑战。导纳控制又称基于位置的阻抗控制或力反馈阻抗控制[20]。在导纳控制的实现中,内环用于实现控制指令中的位置控制,外环用于建立力与位置的关系。导纳控制器的输出可表示为
为了实现在未知环境中超声机器人保持高效柔性控制,结合机器人超声成像决策方法,提出一种基于导纳控制器的力-位移运动空间优化方法。本方法将传统导纳控制器进行反向推导,通过将决策指令定义为被期望的超声探头与目标之间的接触力,并将该接触力反向映射到机器人内环运动控制,以实现柔性控制的同时避免对控制器复杂参数的调整。本控制策略由以下过程进行推导。
根据已有的导纳控制器,调节末端执行器的导纳特性与动态控制位置关系可表示为
其中,M为惯性矩阵,B为阻尼矩阵,K为刚度矩阵,x为 位置向量,xdes为期望位置向量,x˙ 和x¨为位置向量的1阶导数和2阶导数,即速度与加速度,Fc为3个方向上的期望接触力。根据这个变换,导纳控制器可将力传感器采集得到的力信号Fc转化为末端执行器的3维位置修正量,即
其中,Y是末端执行器雅可比矩阵,D是质量矩阵,C是离心力,G是重力项。由此可将力传感器测量得到的接触力转化为下级机器人命令,由机械臂内环控制器执行。由于本文所提力控策略的思想为通过调整力输出进而调整机械臂整体的柔性特性,因此导纳控制器的基本参数被预先设定为一个标准值,并且在后续的训练和测试中不再进行变更。
与空间位移相同,在第2阶段的超声机器人姿态控制决策中,智能体输出的指令为超声探头在机器人坐标系下的2维力矩矢量,力矩矢量同样被变换为超声探头在机器人坐标系下的角度变量。与超声探头的空间运动不同,在姿态调整过程中智能体期望感知的力矩尽量小,以实现超声探头与目标表面之间的垂直关系,进一步可以实现对机器人空间姿态的调整,超声成像任务的控制器示意图如图2所示。
图2 面向超声成像任务的机器人柔性控制策略
最终,控制器输出的力值为智能体直接输出的变量,而该变量为智能体在训练过程中获得输出与环境之间的映射,而不需要通过实时调整控制器的参数实现机器人的柔性控制。此过程与实际人工操作超声探头的控制过程更类似。
2.3 智能超声机器人成像系统
本节对所提智能超声机器人系统进行了搭建。本系统包含1个6自由度轻型通用机械臂,1个6自由度力/力矩传感器,1个红绿蓝(E11摄像, 海康威视)彩色相机和1个无线超声探头。其中机械臂部分采用了协作式6自由度机器人(优傲UR3,UNIVERAL ROBOT)。机器人的最后一个关节末端安装了一个具有6自由度的高精度力/力矩传感器(FT300 Force/Torque Sensor, Robotiq)以采集超声探头与接触面之间的接触力与力矩,该力传感器的力与力矩噪声分别为1 N和0.005 N·m,在此被认为可以满足超声成像过程中的力与力矩检测需求。
在超声探头方面,采用了一台无线超声成像设备(A7-1型无线探头式黑白B超仪,恒腾医疗),固定在传感器上作为整个超声成像机器人的末端执行器。机械臂、传感器以及超声探头之间的坐标、重心、质量关系被预先标定,以保证系统控制的准确性。在视觉传感器方面,由于在提出的场景信息感知方法不需要高精度的视觉采集设备或3维场景重建设备,也不需要进行准确的空间坐标标定,因此使用了普通RGB相机作为场景图像采集设备,相机所在位置只需要与仿真环境中虚拟相机一致即可。所提超声机器人系统如图1所示。
3 实验和结果
3.1 智能超声机器人空间运动性能评估
首先为了对比本文所提方法与传统基于路径规划控制方法的超声成像效果,本部分对两种方式在不同环境中的超声成像过程进行了评估。对比实验环境的设置为,成像任务中的试验目标为随机放置的3个不同形状的超声人体模型(以下称为体模),实验过程中机器人控制超声探头进行成像动作。当机器人在运动终止前获得目标的稳定超声图像时,成像任务被认为成功。如果在机器人运动结束前未获得超声图像,或超声探头脱离工作空间或安全力限制,则认为任务失败。在成功率验证静态实验中,每个无标记体模被静态放置在10个随机且不同的位置,动态实验中的体模被手动向随机方向移动。
在用于对比的传统路径规划控制方法中,本文构建的对比系统采用了一个高精度立体相机(Ensenso-N35立体相机,德国IDS公司)对体模的3维表面进行重建,并对重建场景中的目标进行识别和分割。进一步通过标定立体相机坐标系与机械臂坐标系获得3维表面的空间位置并生成规划路径,最终用于控制机械臂运动。在本文的控制方法中,机械臂在智能体的运动指令控制下进行运动,两种方法面对的成像对象和环境相同。在静态体模成像过程中,3个外形不同的柔软体模被随机放置在不同的位置,两种方法分别对每个体模进行20次成像实验。此外,本文还对成像环境分别增加了人为干扰和体模运动,以对比两种方法对动态环境的鲁棒性,结果如表1所示。
表1 强化学习方法与路径规划方法对不同柔性体模的成像成功率对比
结果显示,本文所提采用智能体生成运动指令的方法的成像成功率在相对稳定的环境中相比路径规划方法的成像成功率相近,但是有干扰的情况下对比基于路径规划的方法具有更好的成像过程,其主要原因是被重建的场景中超声探头对目标遮挡或干扰导致的遮挡而使路径规划产生误差。其中一例成像过程中的场景以及超声探头与体模接触结果如图3所示。
图3 超声机器人成像过程中智能体控制和路径规划输入场景与超声探头接触情况对比
一例超声机器人在智能体的控制下对移动的未知目标执行成像动作的过程如图4所示。在该过程中(从图4(a)为开始,图4(c)为结束),智能体根据当前信息做出超声探头的成像动作决策并控制超声探头的运动,以实现对目标的成像。当超声探头与目标接触并获得超声图像后,探头保持稳定。当目标被手动向未知方向移动时,智能体继续做出运动决策并驱动超声机器人保持超声成像过程。期间超声机器人被手动打断之后,智能体做出的动作决策驱动超声机器人返回目标并继续成像动作。该过程说明了所提方法在不需要预先人为路径规划、显性特征引导和人为干预的情况下,做出与超声成像任务相关的运动决策,最终实现超声自主成像过程。
图4 超声机器人在智能体输出的指令的控制下对动态目标做出成像动作
其中机器人的运动速度为3 cm/s,在3组静态目标成像实验中,自主超声成像过程的平均耗时为18.2 s,与手动成像过程相近(<20 s)。为了评估在自主运动控制下的机器人运动效率,将超声探头的实际运动路径和超声探头与目标之间的相对距离之间比值定义为效率评估指数。其中超声探头的实际运动路径是终止前每一步的位移量的累计值。在60次真实超声机器人空间运动有效重复试验中,目标被放置在不同的位置,实验得到的平均效率结果为95.2±3.1%,该结果说明在超声探头接触表面前的空间自由度运动中,由智能体输出动作生成的路径是高效的。
3.2 智能超声机器人姿态调整运动性能评估
在超声探头成功与被成像表面接触之后,超声探头的空间姿态根据末端执行器与接触目标之间输出的力矩由机器人进行调整,以实现探头跟随人体曲面的扫描过程。与空间动作决策指令不同,该部分的输入信息仅为力传感器采集到的力与力矩信息。在训练过程中,超声探头的姿态在每一次训练开始时随机初始化,并且其空间运动指令中只加入了z方向的被期望接触力以使超声探头与目标的表面进行接触以减少训练的时间消耗。为了进一步降低真实系统中不可预见的机器人系统错误,例如到达机器人的运动奇异点,训练过程中机器人只通过调整输出力矩来学习接触力和超声探头姿态之间的关系。在真实机器人上训练10 h后,训练得到的强化学习模型直接用于完整的超声成像任务,没有再做额外调整。另外,由于智能体的动作输出是离散的,过高的决策频率会导致整体系统发生震荡。因此,智能体的决策输出频率设置为3 Hz,机器人的控制频率为120 Hz。超声图像的记录速度为16帧/s。
在这部分实验中,机器人超声系统对一个刚度、表面结构、空间位置等所有特性都未知的柔性复杂体模进行了两个不同方向的持续扫描动作,探头在扫描过程中,机器人需要进行6自由度的调整以完成对曲面的扫描过程。为了对获取的超声图像进行定量评价以验证提出的控制方法的稳定性和有效性,如图5所示,在扫描过程中,超声探头需要以尽量垂直的角度保持与目标表面之间的姿态,其中包括控制运动方向的空间自由度指令执行和用于控制角度的姿态自由度指令执行。另外超声探头还需要克服柔性表面在接触过程中产生的形变等不确定问题,保持探头与表面稳定而合适的接触,进而获得超声图像。
图5 不确定复杂柔性曲面上两例超声机器人成像过程
在超声探头的受力评估中,超声探头的力矩代表了超声探头与体模表面之间的摩擦力,也同时包含了探头与体模表面接触点的夹角导致的压力。由于体模上涂有足够的耦合剂而具有非常小的摩擦力,因此认为超声探头的力矩主要是由探头与表面之间存在夹角而产生的压力导致的。两个不同的超声扫描过程中探头的平均受力分析如表2所示。
表2 自主机器人超声成像过程中超声探头受到不同方向的接触力
结果显示在两次不同的扫描中,超声探头在Rx方向和Ry方向的力矩平均值分别为0.035±0.006,0.138±0.0235和-0.059±0.003, 0.084±0.0175。该力矩值表明在扫描过程中探头与表面之间的夹角保持较小值,且没有发生过大的波动。而接触力较小的标准差表示超声探头在接触表面的过程中在运动自由度和旋转自由度上都保持稳定。
在定量化的对比中,本文将超声图像序列中的皮肤面积和超声整体图像面积的比值定义为评价指标。在机器人超声成像过程中,机器人获得超声图像中皮肤面积的平均值为3.12 cm2,手动的以相似的轨迹进行采集的超声图像的这一数值为3.44 cm2,与机器人方法在皮肤面积上相差1.14%。此外,机器人采集得到的超声图像的皮肤面积的标准差值与超声图像中的自手动扫描方法相差0.65%。这两项指标表明,超声机器人采集的超声图像在有效性和稳定性上可以达到人工扫描的水平。另外,该方法获得的超声图像序列中的图像完整性达到了98.85%,具体结果如表3所示。
表3 自主超声机器人扫描和人工扫描图像中皮肤区域面积结果对比
3.3 志愿者人体成像实验
为了进一步验证所提出的系统和控制方法在对人体进行超声成像任务中的可行性,使用真实系统进行了志愿者超声成像实验。在人体超声成像过程中,呼吸引起的基线漂移是影响系统控制精度以及成像质量的主要因素。对此,志愿者呼吸过程中的腹部区域被设定为测试区域。实验过程中志愿者躺在系统的工作空间内的随机位置以保证成像过程可以进行。超声探头和其他环境的参数设置与体模实验中的参数相同。为了更明显地评价探头在人体成像过程中的柔性控制效果以及呼吸对超声探头运动造成的影响,实验过程中志愿者进行深呼吸以使腹部表面发生明显变化,实验过程中如果超声探头受到的接触力超过设定的安全值,则终止实验过程,机器人恢复到安全位置。实验的场景图以及机械臂在z方向上的空间运动曲线如图6所示。
图6 自主机器人超声成像系统对真实人体进行超声扫描场景
实验过程中志愿者的身体没有出现较大的x和y方向位移,因此记录了超声探头在z方向的位置和力的变化。由结果可知,超声探头在z方向的不规则运动是由呼吸运动引起的。在超声成像过程中,z方向接触力的平均值和标准差值分别为10.9 N和4.8 N。标准差值较大说明呼吸运动对接触力的影响。由于志愿者吸气和呼气引起的腹部运动,接触力的值暂时降低或增加,但仍保持了超声图像的稳定输出。整体实验结果表明提出的机器人超声系统可以在志愿者正常呼吸或轻微移动时进行稳定的超声成像动作。为了定量评价超声探头在z方向的移动精度,将软体模型固定在升降平台上并上下移动,超声探头在z方向的平均接触力为12.1 N。
此外,将志愿者的腰椎部分设置为自主机器人超声成像测试的目标。将术前的腰椎图像进行人工分割,作为超声图像中目标匹配的模板,以替代体模的模板。实验中,由于志愿者的后背被覆盖且成像区域与训练过程中使用的体模相似,因此对志愿者的成像区域进行成像的强化学习模型与之前体模实验中训练得到的模型相同,未经进一步训练。实验结果和场景如图6所示,在志愿者实验结果中,志愿者的腰椎在超声图像中的适当位置,其中主要结构标志点与模板吻合,并能从超声图像中清晰地识别出来,这证明超声探头已经移动到正确的位置,并与皮肤接触力可以实现清晰且安全的超声成像。同样本文也在志愿者不同部位进行了持续的超声成像验证,结果显示本文的超声机器人可以通过多自由度的姿态调整实现在不同部位上人体的扫描,并持续获得超声图像。
4 结束语
本文针对复杂临床环境中超声机器人智能化和自动化成像过程,以及传统路径规划运动控制方法面临的规划路径易被干扰等问题,提出了基于近端策略优化的强化学习多自由度超声机器人系统。该系统在于构建一个人工智能体,在不需要人为预先定义路径或进行干预的情况下输出超声机器人复杂的成像动作。通过结合强化学习原理,针对性地构建了空间自由度和姿态自由度分别运动调整的运动控制策略。并进一步针对复杂人体柔性表面难以扫描问题,提出了基于导纳控制器的力-位移的柔性控制方法,在实验验证中,通过进行超声成像可行性实验,以及运动效率实验验证了所提方法的可行性与决策生成效率。在志愿者实验中,所提方法可以有效解决呼吸导致的基线漂移问题,以及完成了对志愿者不同身体部位的持续机器人超声成像过程。本文所提智能超声机器人控制方法和系统为临床智能诊断提供了新型的解决方案。
然而本文仍然存在一些局限性。在本文中机器人的柔性参数等由人为设定为一个预定值,这些参数通常决定了系统的刚度特性。虽然本文的方法可以在避免参数调整的情况下有效实现柔性控制,但是在一些突发情况等安全问题下这些参数仍需要进行闭环的调整,这也是本文后续将要进行的研究。此外除了场景图像以及力信息以外,超声图像同样是指导机器人进行运动的关键信息,因此在未来的工作中我们将把超声图像本身纳入对机器人的运动控制指导当中。