用于轻度认知障碍测试的自然交互方法
2022-04-15郭馨蔚陶霖密
郭馨蔚,陶霖密
1. 北京科技大学 机械工程学院,北京 100083
2. 清华大学 计算机科学与技术系,北京 100084
轻度认知障碍(MCI)是人口老龄化现象带来的一个较为值得关注的人类健康问题。进入21 世纪以来,全球人口老龄化现象日益严重。1950 年全球老年人占总人口比例为8%,2000 年为10%,预计到2050 年,全球老年人(60 岁以上)人数将会超过年轻人(15 岁以下)人数,老年人占总人口比例将跃升至21%。毋庸置疑,人口老龄化势必带来人们对医疗需求的不断增长,而作为老龄化现象的重要问题的MCI 越来越受到关注。MCI 是指有轻度的记忆或认知方面的损害,其他认知功能相对正常,主要基本特征是记忆损害。早期往往表征细微,但会逐渐发展直至严重阻碍了的正常生活。因此,识别各类认知障碍、明确其症状并且知晓预防与治疗方案是至关重要的。
MCI 测试是诊断和评价认知功能减退的主要方法,面向MCI 的测试方法涵盖了认知的各个领域,其中,神经心理测验是目前诊断和评价认知功能减退的主要方法,也是作为脑健康诊断依据的重要手段之一。传统的脑健康测试有20 多类题目[1],诊断的方式为主试医生与被试病人的一对一、面对面的测试。整个测试过程依托于一套完整的纸质测试问卷,主试医生记录病人的回答并打分。测试过程完全依赖于主试人员的自主判断,因此使得主试医生的培训过程十分漫长。在临床测试中,为了减少病人的测试时间,医生往往会录制病人回答,在测试结束后,通过回放录音来评估。由于被试病人一般年龄较大,且身体情况各异,主试医生需要根据被试病人的身体状态分次进行测试,以此来实现对病人记忆能力、语言能力、认知能力以及逻辑能力的全面了解。然而,由于认知系统和测试过程本身的复杂性,即使是经验丰富、训练有素的专科医生,也需要数小时才能完成。所以,针对脑健康测试的应用主要面向临床研究展开,日常门诊尚未普及。
得益于信息技术的不断发展,医疗健康技术的信息化已经成为全球趋势。2010 年Woodford等[2]提出了把认知功能诊断电子化的想法,后人构想了电子版测试的流程[3-4]。但是他们也仅仅是描绘了电子版的蓝图,并没有真正的实现出这个构想。传统的蒙特利尔认知评估量表(montreal cognitive assessment,MoCA)[5]也在其官网上增加了在线电子测试,并验证了远程测试[6]的效度。其目的在于提供给个人进行自我诊断,但由于MoCA 过于简单,一般适用于测试阿尔茨海默病患者(Alzheimer disease,AD)。
自然交互[7-8]是指用户可以基于已有的生活经验和日常行为习惯直接与计算机互动,其核心特征是用户无需特地学习便可借助使用认知完成任务。因此,结合上述背景,本文提出了一套基于自然交互的脑健康测试方法,目标是实现脑健康诊断系统的智能化发展。通过自然交互的行为构建,实现临床医生的便捷使用,同时使得MCI 患者能够轻松操作,从而提高临床诊断效率,为脑健康测试的智能化提供有力支撑。
1 相关工作
徐光祐等[9-11]早在本世纪初就指出,计算将无处不在,以日常生活中自然的方式与机器交互是信息社会发展的必由之路。在医疗领域,自然交互的应用已有一些研究。Sun 等[12]提出了基于嘴唇运动的移动设备交互方法,使得帕金森病人等具有手运动障碍的人群能够更自如地使用移动识别。Wang 等[13]提出了使用耳朵接触触摸屏的方法,为盲人群体提供基于触摸屏的手机交互方法,使得盲人能够通过耳朵和触摸屏的接触,在文本转语音模块的帮助下,实现和现代触摸屏手机的流畅交互。Jabeen 等[14]提出基于触摸屏的一键交互方法,设计并实现了一键交互移动设备,使得帕金森、中风等手颤抖的用户能够顺利地使用移动设备。
另外,由于认知障碍人群在精细动作方面具有一定的行为阻碍,文字输入等行为对于他们来说依然是低效且具有一定困难的。因此,通过交互设定来改善输入障碍人群的输入行为也具有一定的研究价值。Polacek 等[15]基于触摸屏的输入特征和特定人群的输入问题,综述了近年来的研究成果并基于前人研究提出了新的建议。Jabeen等[16-18]提出了一键式交互的中文输入方法,并建立了一键式拼音输入的效率模型,使得目标人群可以更加便捷、高效地完成输入任务。
在面向MCI 人群的测试方法研究中,Buzzi 等[19]、Zhuang 等[20]以 及Klimova 等[21]提 出并设计面向MCI 人群在记忆、运动等方面辅助诊断及恢复训练方面的智能交互系统。Hill 等[22]通过实验研究验证了智能化认知训练的可靠性,以及其对多种MCI 都具有有效的干预作用。
上述研究表明,通过交互设计的形式来改善并提升临床领域的工作效率是一个重要的研究方向,智能交互技术和用户行为的研究解决了特殊人群在人机交互中所面临的诸多困难。但是,用于MCI 患者的自然交互方法的研究依然处于起步状态。
2 基于自然交互的测试方法
脑健康测试是诸多MCI 诊断方法中的重要方式之一。本研究设计的用户MCI 的测试系统的使用用户分为2 类:主试医生和被试患者。对立用户会在同一时空中使用系统,为了提升测试效率,面向不同用户的用户界面会有区分。测试过程中,被试患者界面会载入待测试题目内容,主试医生在引导病人进行测试时,主试医生界面会载入其所需记录的信息。其中,医生记录的信息会在每完成一类题目后保存在数据库中,并依据测试规则载入下一测试内容。主试医生在负责处理测试结果和整理分析数据的过程中,可对系统错误修正或回溯。当下的MCI 测试系统解决了主被试用户间由于智力、认知或任务的差异所造成的信息失效和数据操作等方面的挑战,为交互方法的提出和实现奠定了基础。
2.1 语音辅助交互的测试方法
人的认知包括多种方面,在实际生活中,也表现出个体在各方面的能力不同。反映到认知测试中,需要数十类的问题来全面地测试个体认知的各个方面,且每类大题都有自己的独特的问题和测试规则。其中,数字广度测验(digital span test, DST)是一种测量记忆广度的方法,由主试报出一串数字,被试根据试题的要求以顺序或倒叙复述这串数字。测试的的结果分为3 种:数字和顺序都正确,得2 分;数字正确而顺序不正确,得1 分;若有数字缺失或者多了没提到的数字,为0 分。相同长度的数字串要重复测试,避免被试偶然的失误对最终得分的影响。相应地,主试需要掌握的规则为这3 种情况的组合,一般需要长期的学习和实践才能在测试中熟练运用。数字记忆测试的最终得分为“最长全对长度”和“最长得分长度”。
针对复杂规则的情况,本研究探索了基于语音辅助交互的测试方法。将主试的测试指导语音和测试数字串预先录制,在测试时,根据不同的任务节点,播放对应的音频。其次,基于语音识别技术(automatic speech recognition,ASR)和人工辅助的方法来记录被试的回答。根据上述交互策略,如图1 所示,为数字广度测验的结果的呈现页面。
图1 数字记忆测试交互界面(测试过程截屏)
图1 中,表格上方为测试字符串,灰色区域显示了供选择的数字,比正确答案的长度多出2 列是考虑到MCI 病人的回答可能会比正常数字多出几位。黄色表示正确的答案;如果顺序错误但数字正确,则用绿色表示用;完全错误则用红色表示。根据上述规则,主试可以对被试进行提示,因此,在交互时加入计时功能,被试在规定的时间内没有回答,则系统通过语音辅助系统播放语音提示,并在白色区域内记录语音提示的次数。
考虑到被试人员的口音、表意以及语音识别正确率等问题,在正式的DST 测试中,会引入“测试助手”协助测试。“测试助手”根据终端显示的数字和被试的回答核对结果,如果出现语音识别错误,则需要根据听到的实际结果人工纠错。最后,黄色的“E”表示回答结束,“测试助手”不可再更改测试结果。
图1 显示了单次的数字倒序测试过程,测试初始,被试没有理解倒序测试的要求,经过提示完成了测试,因此系统显示了2 次测试结果。第1 次用绿色的背景表示数字正确,但顺序错误。第2 次黄色背景的数字表示回答正确。而后,系统根据规则自动判断,对长度为2 的数字串进行了重新测试。通过后进入“长度+1”的数字串测试,回答正确后,系统根据规则,直接跳过长度为3 的数字串的测试,而进入长度为4 的字符串倒序测试,最后根据测试不断增加数字串的长度,直到回答错误,根据规则终止测试。
2.2 纸笔交互的测试方法
视空间与执行功能检验也是常用的MCI 测试方式之一,通常是以手绘的方式操作完成测试,包括本顿视觉保持测验(Benton visual retention test, BVRT)[23]、连线测验(trail making test,TMT)[2]、画钟测试(clock drawing test, CDT)[24]等多种类型。本顿视觉保持测验,如图2[2]所示,测试要求被试记住图中的简单图案,并在纸上画出这个图案。用于测试被试对于空间图形的记忆能力、空间字符的认知能力、常识认知与记忆以及手眼协同的运动认知能力等。图3 显示了一种连线测试,要求被试将图中的数字1、2、3、4、5 和甲、乙、丙、丁、戊的字符之间,用直线连接。这类测试简单是只有数字,复杂的是数字和字符交替链接。图4[24]是认知测试中最著名的画钟测试,主试出一个时间,要求被试在图中的表盘里画上指针显示主试所说的时间,或者不给被试图中的表盘,要求被试自己画出表盘和指针。
图2 本顿视觉保持测验
图3 连线测验
图4 画钟测试
这些认知测试方法的共同特点是被试需要在指定区域画出图案,而从系统研发的角度分析,最便捷的交互方法是让被试在移动设备的触摸屏上通过手指或触控笔绘图或连线。上述认知测试可以通过系统中的画布对象(canvas)、画笔对象(paint)和颜色对象(color)来实现,并将画图结果以图片格式保存,同时可以将用户行为轨迹保存下来,以便后期处理和分析判断。但是,部分神经心理专家和MCI 老年患者都否认了这个方案。神经心理专家表示,在改变传统的纸笔输入的测试方式后,需要重新验证新的测试方法的效度。而MCI 测试的被试对象一般为老年人,他们学习能力较弱,且使用手指触控的方式在屏幕上绘制图案或是连线的意愿较低。此外,即使升级到电容笔,电容笔与玻璃表面的摩擦感受和纸笔摩擦仍存在差异。由于电容笔没有笔尖,屏幕落点与界面显示像素并非直接匹配,并且在实际的使用过程中体验也和纸笔有所不同。因此,这种需要一定学习成本的输入方式势必会影响测试结果的真实性与准确性。
基于上述研究问题与现状,本文提出了基于数码笔和普通纸张的自然交互方法。被试可以通过普通的圆珠笔在普通纸上绘图来答题,无意识中实现了基于普通纸笔的电脑交互,极大地保留了测试的真实性与可靠性。
数码圆珠笔是一种由圆珠笔芯、蓝牙、微处理器、电池、USB 接口以及配套的定位接收头等部分组成的一种具有普通笔的书写功能的电子设备。它既可以在普通纸上书写,也可以配备有定位装置,实时显示并获取其在普通纸上书写时的电子轨迹。如图5 所示,这是一种基于数码圆珠笔的信息输入交互装置。在MCI 的测试过程中,被试使用数码圆珠笔在普通纸上根据测试要求进行连线,数码圆珠笔的定位头接收到数码圆珠笔发出的信号后,通过蓝牙传输把数码圆珠笔相对于接收头的位置、笔头压力传感器的信息传递给电脑,得到(x,y,t,p)四维数据。其中,p为t时刻笔尖所受到的书写压力。在测试过程中,系统根据输入的四维数据以及预先的标定数据,会在屏幕中实时地重绘书写的轨迹。这一过程是实时发生的,因此看上去就像是普通的圆珠笔在普通纸张上书写,同时同步到了平板或个人电脑上,并获得轨迹信息。图5 实验表明,纸笔的书写和屏幕上显示的轨迹具有一致性。
图5 纸笔交互测试(视频截图)
与数字广度测试方法一样,本研究同样加入了语音辅助交互的模块,系统会在测试过程中,提示被试起始位置,并在连线的过程中自动检测连线的转折位置是否在合适的圆圈内。如果转折的位置不在圆圈内,或者所选择的圆圈错误,系统都会播放主试的提示音来提醒被试注意。此外,在“画钟”等画图测试中,交互系统在提示被试开始的同时,会在判断到被试长时间停滞时,提示被试继续画图。如果依然没有继续画图,则会提问被试是否已经完成画图。
3 可用性测试
为了测试和迭代交互方法和界面设计,本文采用可用性测试来对前文提到的两类测试方法进行全面的评估。在系统的实现中,语音交互和纸笔交互是两大核心自然交互路径,而语音输入模块本文采用了国内已成熟的语音识别软件,因此,本次可用性测试重点针对系统的使用对象“测试助手”来设计测试内容,进而实现对系统的全面评估。
测试邀请了20 位用户,分为G1 和G2 共2 组,作为“测试助手”分别对“语音辅助交互的测试方法”和“纸笔交互的测试方法”的可用性进行测试。其中,G1 组的用户没有脑健康测试的背景知识,但对人机交互和智能系统具有深入的了解;G2 组的用户即没有脑健康测试的背景知识,也没有人机交互领域的知识。具体测试包含3 个步骤:1)脑健康测试的概念和系统讲解30 min;2)作为被试使用系统30 min;3)作为测试助手学习使用系统并对系统进行可用性评估。
评估从“测试助手”使用系统时的5 个方面展开,用户每完成一项任务,根据任务完成的时长或操作体验给与评分:
1)学习时间测试:学习使用系统的时间少于10 min,5 分;时长10~30 min,4 分;时长30~60 min,3 分,时长大于60 min,2 分;学不会或其他情况,1 分。
2)界面设计评估:界面清楚,易于理解,5 分;界面清楚,可以理解,4 分;界面含义模糊,有待改进,2~3 分;界面不清楚,难以理解,1 分。
3)界面使用评估:界面操作方便,非常好用,5 分;界面操作方便,可以使用,4 分;界面操作困难,有待改进,2~3 分;界面不好用,难以操作,1 分。
4)开机情况测试:开机后进入系统就能使用,无需额外设置,5 分;开机后进入系统就能使用,但需要简单的设置,4 分;开机后需要多种设置或输入参数才能使用,3 分;开机后需要复杂的设置才能使用,设置有一定困难,2 分;开机后未完成设置,1 分;
5)系统硬件测试:硬件使用方便,操作流畅,5 分;使用方便但操作有些卡顿,4 分;硬件过大,难以操作,3 分;硬件过小,看不清楚,难以操作,2 分;硬件无法使用,1 分。
测试结果(表1)显示,学习时间的得分普遍不高,平均学习时间超过了0.5 h。由于基于数码圆珠笔和普通纸张的智能交互画图系统对测试助手的要求十分简单,在原型阶段的测试中,被测用户均能在数分钟之内学会被试使用的基于数码圆珠笔和普通纸张的智能交互画图系统,当前结果与原型阶段的预实验有较大的差异。因此,在实验结束后,针对2 组的评分进行了半结构访谈。访谈中发现,不论有无经验,G1 和G2 组用户均能在10 min 之内学会使用测试系统,访谈反馈与原型测试的结果一致。究其根本,发现部分用户将培训时间或被试者学习时间一同计入了学习时间,因此而造成了学习时间普遍超过0.5 h。
表1 可用性测试评分表
实验结果还表明,“纸笔交互”的“开机情况”得分不足3 分,在半结构访谈中知晓,部分被测用户的蓝牙没有自动连接,需要手动连接;部分被测用户不会使用定位标注,尤其是对于G2 组不具备人机交互领域知识的用户来说,设备的无响应或不准确,会严重影响用户在使用过程的体验。
可用性测试表明,系统的主要问题集中在基于纸笔交互的系统中,蓝牙圆珠笔和系统的连接仍需改进,而点位标注对于普通人而言难以理解。针对交互问题,本研究将在后续的实验中选取更多不同厂家和型号的设备进行测试。针对点位标注的问题,则在后续的系统改进中,重新设计了画图测试,在纸上打印接收器的位置,测试助手只需要将电子圆珠笔的按照纸上的位置进行固定即可,不再需要在每次开机后进行定位标注。
4 结论
MCI 测试是基于对认知各方面数据的测评与分析,也是作为脑健康诊断依据的重要手段之一。随着中国老龄化的进展,脑健康的测试需求将不断增加。本研究借助自然交互的手段,探索了将传统纸质MCI 诊断智能化的可行性方案。
1)在数字广度测试中,基于语音识别的数字输入,构建了基于语音辅助交互的智能判断系统。通过对被试在测试过程中响应时长等多重变量的智能分析,来判断被试的行为。此外,通过语音提醒,给出相应的测试指导,以此实现数字广度测试系统的构建。
2)在视空间与执行功能测试中,本研究提出了基于传统纸笔的自然交互方法,实现了使用数码圆珠笔和普通纸张的图形交互输入。测试过程中,基于笔的运动轨迹、停顿位置等因素,智能分析并判断被试的行为,实现了基于普通纸笔的视空间与执行功能测试系统。
3)在可用性测试实验中,验证了基于自然交互的MCI 测试系统的有效性,并根据可用性问题进一步探索交互设备的兼容性和可学习性问题。在不断迭代的过程中,基本实现了基于自然交互的MCI 测试系统研发的目标。
4)本研究结论依托于人机交互技术的发展与智能算法的应用,一定程度上实现了传统MCI 测试的智能化发展,回应了人口老龄化过程中不断增长的脑健康测试的需求。
基于自然交互的MCI 测试系统的应用,使得脑健康测试成为一种全民可学、可用的健康测试系统。智能交互赋能传统临床实践,为提高全民脑健康发展贡献微薄之力的同时,提升了检测效率与准确性,缓解了医护人员繁复性的日常工作,进而实现人民生活的改善。