一种无监督护理机器人遥操作员训练与评估方法

2023-12-13朱德良谢劼欣严海涛贾路宽郭士杰

小型微型计算机系统 2023年12期

朱德良,谢劼欣,严海涛,贾路宽,郭士杰,

1(河北工业大学机械工程学院,天津 300130) 2(复旦大学工程与应用技术研究院,上海 200433)

1 前言

我国社会人口老龄化日益严重,失能/半失能老人数量增加,护理人力资源匮乏的问题也愈发突出[1].作为缓解老人照护人手不足问题及提高失能人群生活质量的有效手段,护理机器人受到广泛关注与期待.护理机器人可以代替护工完成护理任务,由于护理机器人与人直接接触,对安全性、自然性和舒适性要求极高[2].目前自主智能护理机器人在技术上还难以应用,利用遥操作技术进行操控是实现机器人护理的合理选择.事实上,目前投入使用的护理机器人和手术机器人都工作在遥操作模式下.然而,机器人遥操作员的培养并不容易,程序性知识和灵活的操作技能是操作员的必备能力[3].其中程序性知识指难以直接陈述、只能借助于某种作业形式间接学习的知识.为提高遥操作员技能,标准化护理场景中模拟训练十分必要.传统机器人操作训练采用霍尔斯特德模式,遵循“看—做—学”的流程,这种模式需要专家全程参与指导[4].训练效果通常经由专家评价或采用级量表(如GOALS 或 MISTELS)进行评估[5].然而,专家评价的方式主观性较大,相关专家人数过少也使机器人操作员培养困难.Shawn Tsuda等提出了一种新型培训概念“熟能生巧”[6],该系统在没有任何专家参与的条件下,向操作员反馈训练效果,使其提高操作技能.训练效果基于完成时间、运动碰撞和轨迹稳定性等计算出的性能分数进行评价[7].然而,性能指标只能反映操作员的熟练程度,难以对程序性知识进行有效评估,无法确保被护理人的安全性与舒适性.考虑到护理机器人的动作往往是若干种基本动作(子轨迹)的组合和复用,这些子轨迹可以有效反应操作员的程序性知识水平.本文提出一种基于无监督轨迹分割的训练评价方法.首先构建基于粒度概念对机器人轨迹数据进行建模,为操作员的培训与评估提供合理的依据.其次构建无监督聚类模型(TSC-CRP)对操作员的任务轨迹进行分割,得到相应子轨迹.而后通过和专家子轨迹组成的标准任务流程进行对比,为操作员提供更加直观和程序性的评估方案(如图1所示).该方案可以在没有专家参与情况下,对操作员的技能水平进行全面而准确的评估,同时提供有效的反馈信息帮助其进行针对性训练.本研究主要贡献如下:

图1 护理机器人操作员自反馈训练示意图Fig.1 Schematic diagram of self-feedback training for nursing robot operators

1)搭建了遥操作护理机器人系统,并设计了基于无监督轨迹分割的遥操作护理机器人操作员训练方法,使操作员可以在无专家参与的情况下进行培训,大大提高了训练效率;

2)对遥操作护理机器人轨迹从粒度上进行建模,为遥操作护理机器人操作员培训提供了可靠的反馈标准;

3)提出一种新型TSC-CRP无监督聚类模型,可以在无需人工标注的情况下对机器人轨迹进行快速准确分割.

2 相关工作

2.1 机器人操作员技能评估

基于程序性知识的操作员技能评估最早出现在工业机器人领域,当时的评价方式十分粗糙,程序性知识的应用也仅仅是为了确保作业安全[8].随后,程序性知识在外科手术培训中被重视,并延伸出了手术过程建模(SPM)的概念[9].与此同时,手术轨迹分解被证明可以用于外科医生的技能评估.因此,机器人轨迹分割对于护理机器人操作员的培训与评估也是一种合理的解决方案.

2.2 遥操作机器人轨迹建模

Swaroop Vedula等基于医疗程序性知识对遥操作医疗机器人进行了轨迹建模,从而指导医生进行微创手术机器人操作训练[10].该建模围绕粒度概念将遥操作机器人的轨迹在不同的粒度级别上进行抽象.操作员执行的子轨迹,也是手术过程中在最低粒度级别上具有意义的机器人动作.护理机器人的轨迹建模与之类似,都是面向任务过程的子轨迹抽象,这些子轨迹可以直观的反应操作员的程序性知识水平[11].因此,结合医护人员的经验,使用相关信息(如运动学数据等)对护理机器人子轨迹进行层次化建模十分必要.

2.3 机器人轨迹分割

早期的轨迹分割方法主要是特征匹配,这种方法人工量大,分割准确度较差.近年来,基于神经网络的机器人轨迹分割成为研究主流.本研究希望在没有专家参与的情况下对操作员进行技能评估,因此采用无监督方法对机器人轨迹进行分割.无监督方法将轨迹分割视为轨迹数据的聚类问题,构建不同的聚类模型,通过迭代寻优获取最佳的聚类分布.高斯混合模型(GMM)是无监督聚类的常用方法,也是最早应用于机器人轨迹分割的无监督方法.Sang Hyoung Lee等人[12]利用GMM模型完成了机器人轨迹的分割,该方法首次证明了利用GMM不同高斯组份的切换点作为机器人子轨迹分割点的可行性.然而GMM需要预先指定高斯组份的个数,对于复杂的机器人轨迹数据,其效果较差.Murali等[13]拓展了该方法,利用一个贝叶斯参数来估计GMM中高斯组份的个数,再由狄利克雷过程求解该参数,称为DP-GMM方法.该方法大大提升了基于高斯混合模型聚类算法的实用性.但是,基于GMM聚类的算法都容易出现过度分割现象,在轨迹数据中不可避免的存在噪声或者抖动,这些数据点在聚类过程中往往会单独成类,形成很多聚类碎片,导致分割过度分割.Sanjay Krishnan等[14]在GMM方法的基础上,提出了转移状态聚类(Transition state clustering,TSC).该类方法的特点是不直接在原始数据上得出聚类结果,而是采用一种层次化的聚类的结构,首先寻找转移状态点,再对得到的转移状态点进行聚类,如此反复最终识别出机器人轨迹的分割点[15].

无监督聚类方法在机器人轨迹分割中已经有了一些实际应用,然而分割精度差且容易产生过度分割的问题仍然难以解决.为了对操作员的技能水平进行更加准确的评估,研究精度更高,鲁棒性更强的聚类模型是十分必要的.

3 护理机器人遥操作系统

护理机器人遥操作系统如图2所示主要由主机器人、从机器人、远程通信系统组成.主机器人主要包括仿生操作臂、控制台、监视器等.从机器人主要由护理机器人、远端执行器等组成.操作员操纵控制台上的手柄或者使用仿生操作臂将其意图通过远程通信系统传输给护理机器人,从而完成任务.

图2 护理机器人遥操作系统Fig.2 Nursing telerobot operation system

3.1 从端护理机器人结构设计

从端护理机器人结构如图2(a)所示,从端护理机器人受到主端信号的控制.护理机器人本体由移动底盘、腰部、双臂、灵巧手等组成.腰部由腰关节和髋关节组成,腰关节实现前后摆动,髋关节实现左右摆动.腰关节和髋关节需要承载较大力矩,选用谐波减速器可以提高带负载能力,提升系统稳定性.为保证双臂的协调,护理机器人左右手臂采用对称结构.每条手臂由肩关节、肘关节和腕关节组成,每个关节具有两个自由度.手臂上的3个关节都采用差动结构,该结构采用双电机驱动,结构紧凑的同时提高了系统刚度.灵巧手分别固定在左右机械臂末端,为机械臂的执行机构.采用麦克纳母轮作为驱动轮系,实现全向移动.

3.2 主端控制台以及操作臂结构设计

为了能够更准确的表达操作者的动作意图,主端采用控制台和仿生操作臂作为信号的采集装置.控制台由控制手柄、推杆、模拟量旋钮以及监控器组成.护士机器人相比工业机器人,其作业方式对机器人的类人动作特性要求高,仿生操作臂由与护理机器人同构的机械双臂以及多轴控制手柄组成,从物理形态上能够采用主从两端系统对应关节直接映射的方法,降低了操作者的控制难度和工作负担,如图2(b)所示.操作臂共有12个自由度,左右臂各有6个自由度,每个自由度单独采用高扭矩舵机作为执行元件,其运动学参数与从端护理机器人完全相同.基于人体工程学,选取仿生操作臂的整体尺寸为护理机器人机械臂的2/3,提高了操作者的舒适性和操作性.

3.3 遥操作控制系统方案

操作员在对护理机器人进行远程控制时,控制台和仿生操作臂可用于量化操作者的控制指令.仿生操作臂通过总线与控制器通信,控制器将仿生操作臂各舵机的角度值传输给护理机器人.控制台通过对护理机器人手臂末端位姿、手臂单关节角度以及移动底盘进行调整来完成控制.通过改变控制台上手柄的方向和手柄上的按钮状态对护理机器人下达位姿调整的指令,使手臂末端在标定的机器人坐标系里沿X方向、Y方向、Z方向的平移和旋转.通过改变控制台上的推杆状态对护理机器人下达手臂单个关节调整的指令.护理机器人不仅接收主端发来的指令,还将视觉信息和当前护理机器人状态信息进行反馈.为保证数据传输流畅性和同步性,采集的图像数据通过TCP进行传输,而控制数据则由数传电台发送.

4 护理机器人轨迹建模

4.1 护理机器人数据描述

护理机器人的轨迹数据主要为运动学数据,共50个维度,所有运动量都在标定的机器人坐标系下以5Hz频率采集.其中包含关节转角(26维)和机械臂末端位姿(24维).关节转角数据为机器人各活动关节相对其标定参考系的角度,包括肩部角度值(两个变量,θ1,θ2),肘部角度值(2个变量,θ3,θ4),腕部角度值(2个变量,θ5,θ6),灵巧手角度值(6个变量,θ7～θ12),以上关节为左右对称结构.腰部则只有两个角度运动量(2个变量,θx,θy).位姿为机械臂末端在机器人坐标系下的位置和姿态,包含手臂末端位置(3个变量,用xyz表示),手臂末端旋转矩阵(9个变量,用R1～R9表示).

4.2 子轨迹建模与验证

从护理任务的运动轨迹中分离出的最低粒度的轨迹段称为“子轨迹”,子轨迹是可被感知和有意义的最小单元[16,17].通过对子轨迹的组合和复用,操作员可以完成不同的护理动作;对操作员的任务轨迹划分,通过对比操作员和专家子轨迹,还可以对操作员的程序性知识进行可靠的评估.根据所获得的机器人运动学数据以及护理机器人在日常护理任务中连续运动时间、间歇时间、以及任务完成程度,再结合专家丰富的护理经验和知识,本研究将日常的护理任务轨迹,建模为一个包含11段子轨迹集合,如表1所示.日常护理任务可认为由划分的子轨迹中的元素进行一定的组合复用形成的.

表1 护理机器人子轨迹划分表Table 1 Nursing robot sub-trajectory division table

为验证所建模子轨迹的合理性和有效性,本研究使用划分的子轨迹,对20名操作员进行操作培训.而后操作员使用操作臂控制护理机器人完成倒水(PW)和移乘(MT)两个典型的护理任务.两个任务流程和轨迹划分如下所示:

倒水(PW)任务:操作员将护理机器人机械臂进行定位(T1),分别移动到放在桌子上的水杯与水瓶附近(T8).机械臂左臂末端微调(T3)和右臂末端微调后(T3)同时抓握水杯和水瓶(T4).右臂末端移动至右侧标记点(T11),左臂末端移动至左侧标记点(T11),并调整目标水平(T5).右臂关节旋转将水瓶中水倒入水杯(T10),右臂末端调整水平(T5),其视频快照如图3(a)所示.

图3 遥操作护理机器人子轨迹流程图Fig.3 Flowchart of sub-trajectories for teleoperated robot

移乘(MT):操作员将护理机器人机械臂定位,到达被护理人背部斜后方和大腿内侧(T1).底盘移动至机械臂末端超过被护理人身体另外一侧(T8).研究对象微调机械臂使机械臂左臂与被护理人背部贴合(T3),机械臂右臂与被护理人大腿内测贴合(T3),灵巧手抓握被护理人(T4).调整护理机器人腰部使被护理人被抬起(T9),底盘移动至轮椅一侧(T8).之后调整腰部使被护理人从护理机器人处移乘至轮椅上(T9),调整机械臂左臂末端(T3)和右臂末端(T3)使被护理人完全脱离机械臂,其视频快照如图3(b)所示.

通过对子轨迹学习,20名操作员均能控制机器人准确规范的完成倒水与移乘两项护理任务,这说明基于子轨迹的操作员培训是切实有效的.

4.3 NRTDS数据集构建

本研究将20名操作员的执行任务轨迹构建为护理机器人轨迹数据集(NRTDS1).NRTDS包含20名技术熟练度不同的操作员(索引为A～T)对倒水(PW)和移乘(MT)两个任务所完成的轨迹数据,其中操作员A～E的训练时间为15～20小时,F～T的训练时长为1～3小时.轨迹数据则为护理机器人的关节转角和末端执行器位姿的运动学数据,共50个维度.

5 TSC-CRP无监督聚类模型

护理任务中,操作员经常会重复某些基础动作来完成护理动作,由于这些动作在空间中的高度相似性,使用传统的时不变模型无法完成轨迹分割任务.TSC方法可以识别空间中重复动作,但分割精度差,过度分割严重导致其实用性较差.本研究基于转移状态思想,结合中餐馆过程(CRP)[18,19],提出了一种TSC-CRP聚类模型.TSC-CRP的两个关键组件是DP-CRP聚类算法和TSC-CRP模型实现,下面分别对两个部分进行介绍.

5.1 DP-CRP聚类算法

本小节介绍DP-CRP的实现过程,每轮DP-CRP聚类可以被分为两个阶段:1)初始化阶段,初始化阶段为每一帧数据节点确定一个预分配结果,得到一个假定的聚类结果;2)经由吉布斯采样对聚类结果进行迭代优化,直到聚类结果稳定.

初始化阶段,每一帧数据需要经过一次遍历从而确定其归属于哪个类簇.首先计算第i个数据点属于第k个类簇的概率Pr(i,k),如公式(1)所示,而后利用Pr(i,k)对聚类进行采样,得到一个初始化的分布结果.

Pr(i,k)=Pr(prior,i)×Pr(Likelihood,i)

(1)

其中Pr(Likelihood)代表似然概率,由当前聚类状态构建的似然函数得到.

Pr(prior)则表示先验概率,CRP过程中,每个数据点都可能被分到新的类簇或已经存在的类簇,两种情况所对应的先验概率如公式(2)所示,其中α为CRP过程参数.

(2)

第2个阶段利用吉布斯采样对出初始化结果进行迭代优化.首先选取一个数据节点A,而后从聚类中移除该节点,并更新聚类状态,重新利用公式(2)计算数据A属于每一个聚类的概率,而后经由吉布斯采样确定新的聚类结果,如果聚类结果趋于稳定,即重采样已经不会影响聚类状态的变化,则视为聚类结果稳定,结束并输出结果,如果不稳定,则进入下一轮吉布斯采样.

5.2 TSC-CRP模型实现

一名操作员进行一次护理任务的完整过程称为一个示范,假设X为操作员某个示范的特征序列,由关节转角A和位姿数据P拼接融合组成X=(A,P)T,则转移Tt可以用一段时间窗口内的运动轨迹表示,即Tt=(Xt-1,Xt,Xt+1),转移Tt反映了护理动作在t时刻的运动模式.

构造转移后,使用DP-CRP算法进行聚类可以找到相同的运动模式的,即一系列的转移聚类簇.该过程如图4中阶段1所示,识别转移状态的过程是沿着时间轴寻找转移聚类簇发生变化的转移点,直观来讲,也就是运动模式发生变化的点,称之为转移状态.经过上述步骤,可以识别出一系列转移状态,然而这些转移状态为潜在的轨迹分割点,然而其冗余性过高,无法直接用于子轨迹分割,需要对其进行聚类消去从而识别出最终的轨迹分割点.

图4 TSC-CRP无监督聚类模型Fig.4 TSC-CRP unsupervised clustering model

本研究提出了一种层次化的聚类模型,如图4中阶段2所示,模型中所有的聚类都使用DP-CRP算法.识别后转移状态首先在关节角度空间进行一次聚类得到关节角度空间聚类簇,该结果在位姿空间再进行一次聚类,进行冗余消去,最终仍然保留的转移状态点即被认为是轨迹分割点.在轨迹分割的过程中,模型一共在不同的空间域进行了3次聚类,最大限度利用机器人不同模态的轨迹信息,DP-CRP的模型的类簇收敛性也可以有效的避免的过度分割现象.

5.3 实验验证

本小节使用不同的无监督模型对轨迹数据进行分割,通过对比分割准确率验证本文所提出TSC-CRP模型的有效性.同时验证该模型可以识别操作员的技能水平.

分别使用本文方法和当前主流无监督轨迹分割方法对机器人轨迹数据集进行轨迹分割,通过比较不同方法的分割准确率以验证本文方法的有效性,用于实验对比的无监督轨迹分割方法有:GMM,DP-GMM和TSC.实验数据集为4.3节构建的护理机器人轨迹数据集,该数据集包含20名操作员所执行的倒水和移乘两个任务共40组轨迹数据.

实验评价指标采用分割准确率(Segmentation Accuracy),即算法所分割出的子轨迹段和真实的人工标注是否一致,下文中记为Seg-acc.Seg-acc的计算过程如图5所示[20].

图5 SEG-ACC计算过程示意图Fig.5 Schematic diagram of the SEG-ACC calculation

(3)

分别用GMM、DP-GMM、TSC和TSC-CRP对护理机器人轨迹数据集进行分割,各个分割方法的SEG-ACC如表2所示,其中E代表熟练度为15～30小时的操作员,而N表示熟练度为1～2小时的操作员.移乘任务分割结果的可视化对比如图6所示,图中轨迹段空白的部分表示分割段的有效长度没有达到设定阈值,或者存在严重的过度分割,不予统计.

表2 SEG-ACC对比表Table 2 SEG-ACC comparison table

图6 移乘任务子轨迹分割可视化对比图Fig.6 Visualization of segmented sub-trajectories for human transfer task

由表2可以看出,本文提出的TSC-CRP模型无论在倒水任务还是移乘任务,都取得了最优的分割效果,对比基准线GMM,倒水任务的分割准确率提高了32.6%～38.1%,而移乘任务提高了32.2%～34.1%.其中TSC方法对新手操作员的提升略大于熟练操作员,这是因为新手的轨迹机器人轨迹往往不够平滑,导致算法对分割点的识别不够准确,TSC算法在不同的数据域对结果进行筛选,可以有效的提高其分割准确率.如图6所示为一组移乘任务轨迹分割结果的可视化,其中每一种颜色都代表一段可以表示一个原子操作的子轨迹,分割结果与真实标记的相似度越高,说明轨迹分割结果越准确.

对比图6中的结果可以发现,基于GMM聚类的方法通常有大量的空白段,实验中可以发现,导致识别失败的空白段大部分都是过度分割,而TSC方法的可视化结果要明显优于其他.对比TSC-GMM和本文提出的TSC-CRP模型,可以发现本文模型对较长分割段的处理结果要优于TSC-GMM,这得益于TSC-CRP采用基于中餐馆过程的聚类,中餐馆过程对于聚类簇的个数有一定收敛性,随着数据量的增加,数据点属于新类簇的先验概率会随之下降,从而自动优化分割结果.另一方面,TSC-CRP对专家轨迹的分割结果是明显由于非专家轨迹的,这说明模型可以有效的识别不同操作员的技能水平.轨迹中被标记空白的部分,则意味着操作员在该部分可能存在问题,操作员可以对比该部分轨迹同专家轨迹的差距,从而更有针对性的进行训练.

6 结论

本研究提出了一种基于无监督轨迹分割的遥操作护理机器人操作员训练与评估方法.实验证明,子轨迹建模可以在更加精细的粒度上对操作员提供指导反馈,促进其程序性技能水平提升.无监督分割模型可以对操作员的技能进行直观全面的评估,同时提供有效的反馈帮助其进行针对性训练.在未来的工作中,本文计划结合虚拟现实和触觉增强技术,使操作员可以摆脱硬件平台限制,随时随地进行训练模拟,从而进一步提高训练效率.