自动化信任的测量方法及其差异分析

2021-09-17卢嘉楠

科技创新导报 2021年15期

卢嘉楠

摘要：在人机交互的研究中，特别是辅助决策甚至人机组队领域，对于人机信任的研究一直是一个重要的话题。人机信任通常会影响到自动化辅助或人机组队的任务绩效表现，而人机信任的水平也会受到机器特性、使用者特性及环境特性等因素的影响。为达到构建因素间关系，以及达成辅助决策与人机组队环境中更好地完成任务绩效，有必要对人机信任进行准确定量测量。本文在综合国内外研究的基础上，概述了当前常见的三类人机信任测量方法：自我报告测量、行为测量、生理与神经测量，并具体介绍了这些测量方法的设计过程及原理，对每一类测量方法的适用场景及优劣势做出了评价。

关键词：自动化信任自我报告测量行为测量生理与神经测量差异分析

中图分类号：TB97 文献标识码：A 文章编号：1674-098X（2021）05（c）-0248-06

The Measurements of Human-automation Trust and the Differences Analysis

LU Jianan

（Department of Psychology， Renmin University of China， Beijing， 100872 China）

Abstract： In the research of human-computer interaction， especially in the field of assistant decision-making and even human-computer team formation， the research of human-computer trust has always been an important topic. Human-computer trust usually affects the task performance of automation assistance or human-computer team， and the level of human-computer trust will also be affected by machine characteristics， user characteristics and environmental characteristics. In order to construct the relationship between factors and achieve better task performance in assistant decision-making and man-machine team environment， it is necessary to measure man-machine trust accurately and quantitatively. Based on the comprehensive research at home and abroad， this paper summarizes three common human-computer trust measurement methods： self-report measurement， behavior measurement， physiological and neural measurement， introduces the design process and principle of these measurement methods， and evaluates the application scenarios， advantages and disadvantages of each kind of measurement methods.

Key Words： Trust in automation;Self-report measurement; Behavioral measurement; Physiological and neurological measurement; Differences analysis

0 前言

随着科技的发展，自动化技术越来越普及，人与机器的交互成为了越来越重要的一个生活场景。例如，自动化飞行控制系统可以替代驾驶员进行决策，这在民用航空领域已经相当普遍，其优势是降低飞行员的工作负荷，飞行员可以更多地关注除常规飞行操作以外的其他事情，燃料得到了进一步节约，飞行可靠性得到保障，在一般情況下，飞行平稳，乘客的舒适度也得到了提升[1]。

但在自动化技术和人机编队的实际发展中，很多事故甚至灾难的发生，让人们再次意识到技术的发展，不都是有利无弊的。例如，航空界曾出现因飞行员相信自动化而没有进行手动飞机操控导致空客A320飞机坠毁的事件。自动驾驶领域曾出现因驾驶员没有接管未能判断出潜在危险的自动驾驶控制而发生交通事故的事件。

在人机交互场景中，人机编队的场景是相对来讲更为特殊的。因为传统的人机交互研究中，通常将机器看做基于人的特定输入，给出特定反馈的某种“计算装置”，而这种计算装置是完全可预测的，因此研究也更多地针对如何通过更好的设计，改善人机交互界面，从而提升人机交互的效率和体验。相比于此，人机编队中的“机器”一方，通常具有更加自主的能力，通过提供预警、建议、甚至自主的行动来使整个“编队”获得更好的绩效。因此，针对“人机编队”的研究[2]，越来越显现出价值和意义。

基于以上事实，已有研究表明，自动化信任是决定人是否会使用自动化系统，并产生监督和干预等行为的关键因素[3]。由于人机编队中，机器及自动化一侧的不具意图性、无回馈性及信任产生过程（即机器不会带有某种期待或意图地与人交互，人无法期望机器可以对他的行为投桃报李，及人对机器的信任很多时候只来源于一段对机器的“描述”，而不是像人际信任一样来自于某种真实的“表现”。），因此对自动化信任的研究，不能完全复用对人际交互中对信任的研究结论[4]。所以，对自动化信任的测量进行重新的探究就十分有意义，这成为了几乎所有量化的自动化信任研究中必备的一项工作。例如在当前常见的L2级别自动驾驶应用研究中，如果假设司机在路面车辆较为拥挤的情况下倾向于更加不信任自动驾驶系统，而路面车辆较为不拥挤的情况下，更加倾向于信任自动驾驶系统[2]，那么就必须对驾驶员是否信任自动驾驶系统进行定量测量才能够得到相应结论。

在现有的研究中，对自动化信任进行测量方法主要有3种，他们分别是自我报告测量、行为测量、生理测量。本文将通过举例和对比，对几种测量方法进行整理，并对其优劣势进行评价。

1 自我报告测量

自我报告测量是一种主观的测量方式，并且是直接对自动化信任进行量化评估的方法。例如当前常用的Jian等人开发的量表[5]，包含12个项目，每个项目采取7分制评分标准。该研究是基于经验的参考并综合了各类对“信任”的结构的理解，具有较好的内部效度;或者Madsen 等人开发的人机信任量表[6]。

Jian等人开发的量表[5]对跟人与自动化系统之间的信任设计了一个三阶段的实验研究，以探索构成信任的潜在因素，并开发一种潜在的更可靠和有效的工具来评估人们对自动化系统的信任。研究以另一个复杂度类似的“舒适度”评价量表研究[7]的结构为蓝本，开发了一个针对自动化信任的量表。3个阶段分别为：第一阶段，词语诱发研究，研究人员收集了与信任和不信任概念有关的各种词语;第二阶段，问卷研究，研究人员调查了这些词与信任或不信任的密切程度，以评估信任和不信任是否是对立的或代表着不同的概念，以及信任和不信任的概念是否与一般信任、人与人之间的信任、人与系统之间的信任相似;第三阶段是配对比较研究，参与者对成对的词语的相似性进行评价。然后利用问卷研究和配对比较研究的数据构建人机信任的多维度测量量表。由于该量表是针对参与者对不定向的自动化系统而制订的，而不是针对参与者使用的某些特定的系统，因此该研究的应用范围较广。

Madsen人机信任量表[6]从自动化信任的结构入手，试图建立一套针对自动化信任测量的可靠的量表体系。研究者首先基于当时研究，认为信任包含2个因素：（对自动化系统的）信心及（使用系统的决定或建议的）意愿[8]。其中，信心是自动化信任中基于认知产生的部分的主要结果;意愿是自动化信任中基于认知产生的部分和基于情感产生的部分的共同结果。基于认知产生的自动化信任是自动化系统的用户的理性观念，而基于情感产生的自动化信任是用户对自动化系统的情绪性反应。因此當促使用户基于认知产生自动化信任的信息不足时，比如因信息披露不充分、系统复杂度较高导致系统可理解性较低等原因存在时，基于情感产生的自动化信任将在总体的自动化信任中扮演更关键的作用。在有了这些理论认知的前提下，研究者基于已有的研究纳入了自动化信任的9个成分，之后使用瑟斯顿量表技术[9]进行了4轮筛选。在得到更高的评分者信度的量表的同时，将自动化信任的成分缩减到了5个，共包含25个项目。这5个成分分别为可理解性、技术能力、可靠性、个体依恋、信念。前3个成分是基于认知的信任成分，即在用户知觉层面的特性，主要侧重用户视角对自动化系统可理解程度的知觉在何种水平上，因此也可以被称为知觉可理解性、知觉技术能力、知觉可靠性。后2个成分是基于情感的信任成分。最终，通过主成分分析发现，这5个成分具有较高的科伦巴赫α系数，可知此研究整体信度较高。研究的整体也得益于具有丰富的理论依据，具有较高的结构效度。

自我报告法十分便于操作，如果量表的构建过程严谨，那么该方法可以有效地反映操作者的自动化信任水平。然而，自我报告法较难在被试内设计的过程中多次施测，一方面是操作自动化系统的用户如果被具有不同特性的自动化系统影响后，会较难分离出不同处理水平间的影响，从而影响所测结果的可靠程度。此外，此类测量方法具有的通病为，被试可能不愿意或没有能力准确报告他们的真实态度。在此方法的实际应用场景中，可以预计将难以实时捕获自动化信任的动态变化，这将限制其在实际环境中的应用，这种缺陷在生理与神经测量方法中将有针对性解决方法。

2 行为测量

行为测量是一种客观的测量方式，并且是通过测量影响信任的因素或受信任影响的行为进行一种间接的评估方式。在应用于自动化信任的测量时，行为测量假设自动化信任不是一个最终的目标，而是影响其他因素的一种手段。具体来讲，研究者首先定义，在自动化信任中，自动化系统的使用者一方称为信任者，而自动化系统一方称为受信者;接下来，信任者为了得到某种结果（例如追求任务的完成），基于其对受信者（即人对系统）的能力的理解和认可程度，选择信任或者不信任自动化系统，最终产生了某种行动（例如相信系统建议）。回顾这个过程中的各个环节，研究者发现，信任者想要达到的某种结果，即所谓的“最终目标”时，“自动化信任”就成为了影响行动产生的一种手段或过程，人不是为了信任而信任，而是为了达成目标而信任（或不信任），这是符合常识的，也是将自动化信任置于更符合现实场景的研究假设。因为在这个追求“最终目标”的过程中，信任者通常不太可能放弃目标，即使在较低信任度的情况下也如此，所以这种选择引导用户在“信任”与“不信任”之间，选择更加实际的一个倾向，即便在2种倾向差别微乎其微的情况下，如果为了实现最终目标，信任者仍然会用脚投票，产生一个“信任”或者“不信任”的具体行为结果。例如，驾驶员在地图导航指引时，会一直保有对驾驶安全与驶向目的地的目标，当驾驶员自身掌握的信息不足，而导航提供了一项信息时，驾驶员会有一个具有倾向性的具体行为，即相信导航或者不相信导航，若其虽然对导航指引存疑，但仍然选择按导航行驶，则研究者认为，这实际上是人倾向于“信任”自动化系统。因此，研究者可以在信任者达成某种目标的过程中，通过对信任者的行为的测量，推导出其自动化信任的程度。因此也就间接地获得了对自动化信任的测量结果。

基于以上假设，有研究对不同种类的系统及其自动化信任做出了定义[10]。研究针对的第一种系统被称为辅助诊断式自动化系统，这类自动化系统会监测某种预先定义的信号，当监测到信号时，它会提示使用者进行某种操作。如果使用者按提示操作，则意味着使用者对自动化是信任的，如果使用者对提示无动于衷，则意味着使用者对自动化缺乏信任。研究针对的第二种自动化系统被称为自主式系统，这类自动化系统有执行行动的能力，而不只依赖使用者对其建议的反应。对这类自动化系统的信任表现为行为时，与对辅助诊断式自动化系统有较大不同，对这类自动化的信任分为3个层次。第一个层次是启动自动化的权力：当使用者是启动自动化的人（如汽车的巡航控制），这种对自动化的信任是主动的。他或她必须通过开启自动化来主动参与自动化。而当人不信任自动化时，他或她只能通过不启动自动化系统来表达。相反，某些自动化是由系统触发的（如定位导航程序自动根据路况规划路线），人类若不作为则来表示信任，此时自动化将自主行动。进而，第二个层次，就是指人若主动脱离或者关停这个自主自动化系统，就是不信任。下一步，第三个层次，就是指人有改正权，当对自主自动化系统的行为进行“覆盖”操作，即修改自主自动化系统的行为时，即为不信任。通过辅助驾驶领域的技术示例，来解释这两类自动化系统的差异会十分易于理解：例如，车辆在无自动驾驶功能情况下，车辆的行停转向等操作完全由驾驶员执行，此时车辆会基于雷达提醒当前车辆与其他车辆或障碍物的距离，由驾驶员操控车辆进行制动，对其他车辆或障碍物进行躲避或继续照常行驶，这也就是研究所述的“辅助诊断式自动化系统”;而当车辆在有较高层次自动驾驶功能的情况下，自动驾驶系统可以完全操控车辆的行停转向，并进行车速调节、变换车道、避让障碍物等较复杂的车辆操控，这种自动化系统就是“自主式系统”，驾驶员可以选择开启及关闭系统，或者临时手工接管系统。

通过对此测量方式的描述，可知此种测量方式具有较高的可操作性和确定性，即某种行为的结果反映了自动化信任的程度。对人机互动过程中的行为可以明确切分为不同的阶段，不同行为与自动化信任的测量定义具有对称性。行为测量同样存在几项缺陷，首先虽然在明确的定义下，测量所需时长相对于自我报告法较短，但行为测量仍然是“延时测量”，不具有实时性。其次，行为测量由于属于一种“间接测量”方法，无可避免地受到从自动化信任到人机交互行为之间不完全确定的因果关系的影响，即信任者的行为，不完全是受到自动化信任者一个因素的影响。最后，在上述这项特定的研究中，信任者仅有极少数的可选操作（甚至只有一种），因此通过对行为的定义，可以较直观地使其成为信任，或者不信任。但在两种情况下，这种处理将难以适用。第一种情况是在正常的自动化操作阶段，若操作者的行为不可见，及操作者可对自动化系统进行的处理为零时，这种信任的测量将完全无法进行;第二种情况是当人在于较为复杂的自动化系统进行交互过程中，由于自动化系统特性的复杂度提高，人与系统交互的复杂度提高，人对系统的处理也倾向于复杂化，系统反馈给人的信息种类增多，意味着变量与变量水平的增多，这些变量间可能存在潜在的相互作用，在这种情况下，想要厘清操作者的不同行为与信任与否的对应關系，难度将快速升高，再考虑到对人的行为产生影响的因素增多，如多任务并行下认知负荷的升高，认知资源的占用，压力变化等因素，行为测量方法的局限性就会凸显出来。

3 生理与神经测量

有研究者将脑电和皮电作为研究信任的工具。脑电，简称EEG，是一种捕捉大脑皮质活动的电生理测量技术[11]，其通过事件相关电位（ERP）来观察大脑对特定事件的反应活动。此后，研究者又发现人类受试者的ERP成分的峰值振幅可以基于事件产生差异化的反应[12]，他们设计了一个刺激信任和不信任的抛硬币实验并证实了这种假设。在此研究基础上，有研究者进一步研究了带有反馈刺激的ERP波形[13]，研究方法是基于已有的掷硬币实验的改良形式[12]。

GSR是一种经典的心理生理学信号，它基于皮肤表面的导电性来捕捉兴奋。它不受意识控制，而是由交感神经系统调节。GSR也被用于测量压力、焦虑和认知负荷[14]。

研究人员已经研究了GSR与人类信任程度的相关性。Khawaji等人发现，在文本聊天环境中，平均GSR值和平均GSR峰值都受到信任和认知负荷的显著影响[15]。

根据以上实验的研究结论，研究者希望通过对自动化信任进行测量，来实现一套反馈调节系统的目的，因此开发了一套通过生理与神经测量方法对自动化信任进行实时测量的方法[16]。主要的测量内容为被试的皮肤电效应（GSR）和脑电效应（EEG），测量方式是使用皮电及脑电传感器。研究者通过对两种测量内容的结果，使用二次判别分析进行统计学上的分类，从而获得对人机信任程度的经验规律（或称为基于分类器的经验模型），进而达到可以利用心理生理测量来估计人类的信任水平的目的。

研究者首先选择一组被试，以这群被试整体的心理生理反应作为输入，并使用这个特征集训练分类器模型，从而得到一个平均准确率为71.22%的对全部被试通用的信任-传感器模型。之后为每个被试设计一个自定义的特征集，并使用该特征集训练一个分类器模型;得到一个平均准确率为78.55%的特定对象信任-传感器模型。在两种方法之间的选择，主要需要考虑分类器模型的训练时间和性能。也就是说，虽然使用为特定个体定制的特征集会优于基于通用特征集的模型，但训练这种模型所需的时间可能会过长。此外，虽然本研究中用于特征选择和分类器训练的标准是平均准确率，但可以选择不同的标准来适应各种应用。研究的结果证明，使用皮电及脑电的方法对人机信任进行实时测量是可行和有潜力的测量方法。

此外，外源性催产素[17]、面部表情、声音、心率[18]及功能性磁共振成像[19]等技术也被用于关于自动化信任测量的研究。

相对于自我报告与行为测量法，生理及神经测量的适用范围更加广阔。由于这些测量是实时的、连续的，因此在上述研究提出的场景，例如“反馈调节系统”中，具有不可替代的优势，当前尚无其他技术可以满足此种场景下的测量应用。但与此同时，对这些测量方法的应用中，在机制层面上，很难在一种生理与神经测量的结果中，将自动化信任产生的部分同认知负荷、压力及疲劳等其他因素产生的部分区分开来，这也是作为“间接测量”方法的一种，同“行为测量方法”共同具有的缺陷。因此研究者有时需要结合自我报告测量和行为测量的方法来对生理及神经测量的结果进行检验和核准。此种生理与神经测量方法的缺陷，将使此方法在效度方面受到质疑，并降低其被应用于“实时测量人机信任”的场景中的可能。

4 結语

综合上述几类对人机信任测量的分析可以发现，当前对人机信任定量测量的方法中，直接测量仍然是最可靠的方式，直接测量的主要方法就是自我报告测量法。间接测量方法的最主要缺陷就是其测量结果，不仅受信任水平影响，也部分地受到心理压力等因素的影响。针对目前所提到的几种间接测量方法，在其设计的环境中，方法表现出了较高的信效度水平，具有较高的应用潜力。间接测量方法的最主要优势就是可以较为轻便地进行测量，甚至进行实时测量，如果可以达到足够可靠的测量水平，将对人机信任的研究过程带来极大的成本降低，甚至带来人机信任的研究范式的创新。且当人机信任可被实时测量后，就可以建立基于人机信任的反馈调节系统，这进一步增强了人机信任测量的应用场景和现实意义。

在人机信任测量领域进一步的研究中，自我报告测量方法本身将随着对人机信任结构的更深入理解而发展。对间接测量方法应该能进一步提高其可靠性，并应用在更为复杂的实际环境中。

参考文献

[1] 王新野，李苑，常明，等.自动化信任和依赖对航空安全的危害及其改进[J].心理科学进展，2017，25（9）： 1614-1622.

[2] 施彦玮.环境知觉对L2自动驾驶人机信任的影响[D].杭州：浙江大学，2019.

[3] Bonniem M. Trust in automation： Part i. theoretical issues in the study of trust and human intervention in automated systems[J].Ergonomics，1994，37（11）：1905–1922.

[4] Lee J D， See K A. Trust in automation： Designing for appropriate reliance[J]. Human Factors： The Journal of the Human Factors and Ergonomics Society，2004，46（1）：50–80.

[5] Jian J-Y， Bisantz A M， Drury C G， et al. Foundations for an Empirically Determined Scale of Trust in Automated Systems[J]. International Journal of Cognitive Ergonomics，2000，4（1）： 53–71.

[6] Madsen M， Gregor S. Measuring human-computer trust[EB/OL].（2000）[2021-05-03]. https：//www.researchgate.net/publication/228557418_Measuring_human-computer_trust.

[7] Zhang L， Helander M G， Drury C G， et al. Identifying factors of comfort and discomfort in sitting[J].Human Factors： The Journal of the Human Factors and Ergonomics Society，1996，38（3）：377–389.

[8] Yamagishi T. The provision of a sanctioning system as a public good.[J]. Journal of Personality and Social Psychology，1986，51（1）：110–116.

[9] Moore G C， Benbasat I. Development of an instrument to measure the perceptions of adopting an information technology innovation[J].Information Systems Research，1991，2（3）：192–222.

[10]Bindewald J M， Rusnock C F， Miller M E， et al. Measuring human trust behavior in human-machine teams[J].Advances in Intelligent Systems and Computing，2017：47–58.

[11]Handy T C. Event-related potentials： a methods handbook[M].Cambridge， MA： MIT Press，2005.

[12]Boudreau C， Mccubbins M D， Coulson S， et al. Knowing when to trust Others： An ERP study of decision making after receiving information from unknown people[J]. Social Cognitive and Affective Neuroscience，2008，4（1）：23–34.

[13]Long Y， Jiang X， Zhou X， et al. To believe or not to believe： Trust choice modulates brain responses in outcome evaluation[J].Neuroscience，2012，200：50–58.

[14]Jacobs S C， Friedman R， Parker J D， et al. Use of skin conductance changes during mental stress testing as an index of autonomic arousal in cardiovascular research[J]. American Heart Journal，1994，128（6）：1170–1177.

[15]Khawaji A， Zhou J， Chen F， et al. Using galvanic skin Response （GSR） to measure trust and cognitive load in the TEXT-CHAT ENVIRONMENT[J]. Proceedings of the 33rd Annual ACM Conference Extended Abstracts on Human Factors in Computing Systems，2015.

[16]Akash K， Hu W-L， Jain N， et al. A classification model for Sensing human trust in machines using EEG and gsr[J]. ACM Transactions on Interactive Intelligent Systems，2018，8（4）：1–20.

[17]Hester M， Lee K， Dyre B P， et al. “Driver take Over”： A PRELIMINARY exploration of DRIVER trust and performance in autonomous vehicles[J]. Proceedings of the Human Factors and Ergonomics Society Annual Meeting，2017，61（1）：1969–1973.

[18]Payre W， Cestac J， Delhomme P， et al. Fully automated driving[J]. Human Factors： The Journal of the Human Factors and Ergonomics Society，2015，58（2）：229–241.

[19]Goodyear K， Parasuraman R， Chernyak S， et al. An fmri and effective connectivity study investigating miss errors during advice utilization from human and machine agents[J]. Social Neuroscience，2016，12（5）：570–581.

猜你喜欢

差异分析

酒后驾驶违法行为人人格特征与心理健康状况相关分析

自动化信任的测量方法及其差异分析

猜你喜欢

杂志排行

科技创新导报的其它文章