面向复杂飞行任务的脑力负荷多维综合评估模型

2020-07-25卫宗敏

北京航空航天大学学报 2020年7期

卫宗敏

（中国民航管理干部学院航空安全管理系，北京100102）

随着电子信息技术的迅猛发展，越来越多的智能化、信息化等自动化技术应用于飞机驾驶舱设计之中。采用先进的自动化技术后，传统驾驶舱人机交互系统随之发生重大变化。飞行操纵系统和控制系统的高度自动化极大便捷了飞行操作任务［1-3］。因而，从飞机操纵角度而言，高度自动化的飞机驾驶舱系统有效地减轻了飞行员的体力工作负荷，在一定程度上有效促进了航空安全水平的提升。然而操纵水平的多样性和仪表显示系统界面信息的高度密集，同时也对飞行员的认知加工能力提出了新的要求，尤其是当系统所要求的认知加工能力越过某一限度后，加重的信息加工任务所引发的脑力负荷反而会影响飞行员对飞机的操纵［4-7］。

文献［8-10］的研究结果表明，事件相关电位（ERP）、心电（ECG）和眼电（EOG）3类生理测量法均能够有效反映平视显示器界面脑力负荷的变化，那么这些指标在多显示界面多飞行任务中的变化情况是怎么样的呢？

文献［11-13］研究结果表明，在多界面操作任务中，单一的生理测量可能不会提供合适的预测信息。例如，Ryu和Myung［11］在研究追踪和计算双任务作业中，发现EOG相关指标中的眨眼率随着追踪任务难度的增加而增加，但是不随着计算任务难度的增加而增加；心率变异性（HRV）的相关指标随着追踪任务难度的增加而减少，但是不随着计算任务难度而减少；脑电（EEG）的相关指标随着计算任务难度的增加而增加，但是对追踪任务不敏感。

为了全面探讨不同的生理指标对不同类型的飞行作业任务的敏感性，本文在前期3个实验结果的基础上［8-10］，设计综合性实验，采用EEG、ECG和EOG三类生理测量法开展多显示界面多飞行任务状态下的脑力负荷问题研究，探讨这3类生理指标对于飞行仪表监控、飞行数字计算及飞行雷达探测任务的敏感性，在筛选敏感指标的基础上，结合主观评价方法、作业绩效测评方法，基于贝叶斯判别分析方法，建立面向复杂飞行任务的脑力负荷多维综合评估模型，以期为复杂系统中显示界面脑力任务设计提供科学依据。

1 实验方法

1.1 被试

被试为北京航空航天大学在校研究生，共15人，均为男性，年龄均在22～28岁之间；所有被试视力或矫正视力均正常，听力正常，且均为右利手。在接受本实验任务前，所有被试均受过实验飞行任务的培训，熟练掌握实验操作方法。

1.2 实验任务

1.2.1 飞行仪表监控任务

飞行任务一为仪表监控任务，要求被试监视平视显示器（Head Up Display，HUD）上所呈现的飞行信息状态，其显示界面如图1所示。

图1 飞行仪表监控任务界面Fig.1 Fight instrumentmonitoring task interface

在被试进行飞行任务过程中，该仪表中的空速、俯仰和气压高度等3个飞行信息将随机出现异常，被试需要完成对异常信息的识别、判断及响应操作。对于这3个飞行信息，被试需要在实验前记忆3个信息的异常范围（飞行异常信息范围设置为：对照飞行任务下无异常信息呈现，高、低脑力负荷任务下，空速超过400 n mile／h为空速异常，俯仰角超过20°为俯仰异常，气压高度超过10000英尺为气压异常，1英尺（ft）＝0.304 8m）。

用E-Prime编程在实验所用界面上设置随机呈现的异常状态，每个异常信息的呈现时间2 s，间隔时间随机，且同一时间内出现的异常信息不超过一个。异常信息在被试响应后（包括正检、错检）恢复正常，如被试未响应（漏检），异常信息在呈现一段时间（即扰动信息呈现时间）后自动恢复正常。

1.2.2 飞行数字计算任务

飞行任务二为数字计算任务，在该任务中要求被试在进行飞行任务的同时，监视下视显示器（Head Down Disp lay，HDD）中显示的数字信息，该显示界面如图2所示。

在飞行任务中，该仪表中的数字信息显示界面将随机出现不同的距离值和速度值，这些数字的呈现时间为4 s，间隔时间随机。被试需要通过心算方法对随机出现的距离值和速度值进行除法运算，当发现心算计算结果出现在仪表最下方的4个数字中时，按指定的反应键对计算结果做出选择反应。通过E-Prime编程的方法，采用外接的计算机系统自动记录被试的正确率和反应时间。

1.2.3 飞行雷达探测任务

飞行任务三为雷达探测任务，在该任务中要求被试在进行飞行任务的同时，监视雷达信息显示界面中显示的雷达信息，界面如图3所示。

在飞行任务中，该仪表中的信息显示界面将随机出现不同的小飞机图形目标，包括圆形、方形和三角形，这些图形的呈现时间为4 s，间隔时间随机。当图形目标出现在扇形区域时，被试按指定的反应键对其做出选择反应。通过E-Prime编程由系统自动记录被试的绩效。

图3 飞行雷达探测任务界面Fig.3 Fight radar information detection interface

1.3 实验设计

将被试随机排队，逐一开展实验。每完成一次实验便进行一次主观问卷调查，而后开展下一飞行实验任务。飞行任务分单、双、多3种任务复杂水平。

在单任务状态下，被试仅需要完成飞行任务一的实验任务，飞行任务二和飞行任务三中不会出现异常飞行信息。

在双任务状态下，飞行任务一和飞行任务二均会出现异常信息，被试优先完成飞行任务一，同时还需完成飞行任务二中的实验任务，飞行任务三中不会出现异常信息。

在多任务状态下，飞行任务一、飞行任务二及飞行任务三中均会出现异常信息，被试优先完成飞行任务一的任务，同时兼顾飞行任务二和飞行任务三。

本实验采用一种类似拉丁方设计的实验设计方法来平衡被试接受处理的顺序，以减少顺序对实验结果的干扰［14］。为了记录3类生理数据，整个实验期间所有被试均需佩戴相应的生理测量设备。每一任务间隔15 m in左右，在此其间，每一被试均需完成NASA任务负荷指数（NASA-TLX）量表［15-16］。

2 实验结果

2.1 主飞行任务绩效测评结果

3种不同难度飞行任务下，被试开展主飞行任务的绩效如表1所示。

单因素重复测量的方差分析表明，脑力负荷的主效应显著（P＜0.001）。更进一步，两两比较的结果表明，被试对异常信息的正确探测率在单任务脑力负荷状态下显著高于（P＜0.001）双任务状态，而反应时间则显著延长（P＜0.001）；被试对异常信息的正确探测率在单任务脑力负荷状态下显著高于（P＜0.001）多任务状态，而反应时间则显著延长（P＜0.001）；被试对异常信息的正确探测率在双任务脑力负荷状态下高于多任务状态，但未达到显著性水平，而反应时间则显著延长（P＜0.05）。

表1 绩效指标的测量值Tab le 1 M easured values of perform ance indexes

2.2 主观测评结果

基于NASA-TLX量表的主观评价结果如表2所示。

单因素重复测量的方差分析显示，飞行任务脑力负荷主效应显著（P＜0.001）。具体表现为：随着实验中飞行任务维度的逐步增多，NASATLX的主观评价分值显著增高（P＜0.001）。

表2 主观指标的测量值Tab le 2 M easured values of subjective indexes

2.3 生理指标测评结果

3类生理指标在3类不同脑力负荷飞行任务下的测量值如表3所示。

2.3.1 采用ERP评价3种不同任务的结果分析

对由偏差刺激所诱发的MMN成分，单因素重复测量的方差分析结果表明，脑力负荷主效应不显著（P＝0.810）。进一步成对比较结果显示，单、双、多3种维度任务脑力负荷状态下，由偏差刺激所诱发的MMN指标未达显著性水平（P＞0.05）。

表3 生理指标的测量值Table 3 M easured values of physiological indexes

对偏差刺激所诱发的P3a成分，单因素重复测量的方差分析结果表明，脑力负荷主效应不显著（P＝0.752）。进一步成对比较结果显示，单、双、多3种维度任务脑力负荷状态下，由偏差刺激所诱发的P3a指标均未达到显著性水平（P＞0.05）。

对于由新异刺激所诱发的MMN成分，单因素重复测量的方差分析结果表明，脑力负荷的主效应不显著（P＝0.22）。进一步成对比较结果显示，仅单任务脑力负荷条件下的MMN峰值显著低于（P＝0.049）双任务脑力负荷条件下的MMN峰值，其余状态两两相比均未达到显著性水平。

对由新异刺激所诱发的P3a成分，单因素重复测量的方差分析结果表明，飞行脑力负荷的主效应显著（P＜0.05）。具体表现形式为：在单任务飞行脑力负荷条件下的P3a峰值显著低于双任务脑力负荷条件下的P3a峰值和多任务脑力负荷条件下的P3a峰值，显著性水平分别为P ＝0.012，P＝0.006；双任务脑力负荷条件下P3a的峰值低于多任务脑力负荷条件下P3a峰值，但未达到显著性水平。

2.3.2 采用ECG评价3种不同任务的结果分析

对于SDNN，单因素重复测量的方差分析结果表明，脑力负荷主效应显著（P＜0.001）。成对比较结果显示，SDNN成分的值在单任务状态下高于双任务状态（P＝0.071），且显著高于多任务状态（P＜0.001）；SDNN成分的值在双任务状态下显著高于多任务状态（P＜0.05）。

2.3.3 采用EOG评价3种不同任务的结果分析

对于眨眼次数，单因素重复测量的方差分析结果表明，脑力负荷主效应不显著（P＝0.815）。进一步成对比较结果显示，单、双、多3种维度任务脑力负荷状态下，眨眼次数指标均未达到显著性水平（P＞0.05）。

由此可见，SDNN和P3a是对多界面多任务中飞行员脑力负荷变化敏感的指标，将可能进一步用于对不同维度任务下脑力负荷等级的划分。

3 建模

3.1 建模方法

基于实验测量的分析结果，使用贝叶斯判别分析方法，构建面向复杂飞行任务的脑力负荷多维综合评估模型，并用于座舱显示界面脑力负荷等级的判定。

为了保证判别的全面性，本文采用一般判别分析法（全因素分析法），即判别模型中包括主观评价、飞行作业绩效、心率变异性的时域指标SDNN成分、ERP指标P3a成分。

采用文献［10，14］的方法，在采用贝叶斯判别分析方法建模时，先计算所选样本的先验概率，在此基础上，采用判别函数分析调整先验概率，最终计算出所选样本属于某种类别的概率估计，进而确定该样本点所属类别。

3.2 模型的确立及使用说明

基于上述评价指标和数学方法，本文构建的综合评估模型如下：

式中：y1、y2、y3分别为单、双、多任务脑力负荷水平的判别函数值；x1为SDNN数值；x2为P3a成分的峰值；x3为NASA-TLX主观评价分值；x4为对飞行异常信息操作的正确探测率；x5为异常信息的反应时间。根据x1、x2、x3、x4和x5的数值分别进行计算并比较y1、y2、y3的值，y1、y2、y3的值分别代表低、中、高等级的脑力负荷水平。

3.3 模型判别预测准确率的检验

分别采用回代和交叉2种检验法，检验3.2节所构建模型的分类预测准确率。2种检验方法的验证结果分别如表4和表5所示。

从表4和表5的比较结果可知，使用回代检验和交叉检验2种检验法的平均分类预测准确率分别为82.22%和73.33%，其中对于低负荷与其他负荷之间的分类预测准确率均为100%，对于中负荷和其他负荷之间的分类预测准确率分别为66.67%和53.33%，对于高负荷和其他负荷之间的分类预测准确率分别为80%和66.67%。

表4 基于回代检验法的检验结果Tab le 4 Validation resu lts based on original validation m ethod

表5 基于交叉检验法的检验结果Tab le 5 Validation resu lts based on cross validation m ethod

4 讨论

4.1 各指标对3种任务脑力负荷变化的敏感性

前期开展的实验研究，主要是通过控制单一HUD中所显示的异常飞行信息的数量、呈现时间及间隔时间来设置飞行实验任务难度，进而控制被试的脑力负荷水平。而本文则是通过控制HUD和HDD中3块仪表的异常飞行信息显示，分别设置了仪表监控任务、数字计算任务及雷达探测任务，并将其组合为单、双、多3种不同难度的飞行实验任务来改变飞行作业的难度，进而控制显示界面下被试的脑力负荷水平，并测量不同脑力负荷水平下被试的飞行作业绩效（包括正确探测率和反应时间）、生理指标（心率变异性的时域指标SDNN、眼电指标眨眼次数、脑电指标P3a在Fz电极处的峰值）和主观评价（NASA-TLX量表）这3类评估指标。以此为基础，探讨多显示界面多飞行任务状态下被试的脑力负荷水平与各个评估指标之间的关系。结果显示，飞行作业正确探测率、反应时间、心率变异性指标SDNN、脑电指标P3a在Fz电极处的峰值、NASA-TLX量表主观评价分值这5个指标对多显示界面多飞行任务状态下被试的脑力负荷的变化显著敏感。

本文对被试NASA-TLX量表的分析结果表明，随飞行实验任务维度增多，其分值逐级性显著增加，这与前期研究中被试对HUD中异常信息探测任务的研究结果一致［8-10］。这一结果也充分说明，尽管任务类型与前期研究不同，但从实验被试主观感受来看，本文中所设置的不同维度的飞行实验，其施加给被试的脑力负荷的等级是存在差异的，符合实验预期。这一结果也说明NASATLX量表对于评估不同类型的脑力负荷的通用性。

本文被试对异常信息的准确响应绩效随任务维度（难度）的增加而降低，在单任务作业和双任务作业，以及单任务作业和多任务作业之间呈现出显著的差异性；在双任务作业和多任务作业之间，被试的正确探测率差异并不显著，这一结果与所测试的被试ERP指标中P3a成分的峰值变化情况类似。基于前期研究中对P3a的探讨［8］，本文的结果表明，与单界面飞行作业任务相比，在多界面飞行任务下被试注意朝向能力增强，但是其朝向注意能力的增强是在一定范围内的，并非无限制地增强，而注意朝向能力的增强，在某种程度上是以牺牲单一界面的注意资源分配为代价的。这一点从被试对主飞行任务中异常飞行信息的反应时间的测定也可获得验证，从平均反应时间数据的重复测量方差分析结果可以看出，随着任务维度的增多（脑力负荷的增加），反应时间显著降低。

前期的研究结果表明，眼电指标中的眨眼次数指标能够有效地反映飞行任务中单一显示界面脑力负荷水平［9］。而本文结果则显示，眨眼次数指标检测无法有效反映多显示界面飞行任务脑力负荷。这一研究结果可能是由于本文实验任务设置中的多显示界面任务所引起的，在多显示界面飞行任务中，被试需要大范围地扫视许多飞行仪表，而并非专注于某一仪表界面，影响眨眼次数的是单一仪表监控任务所导致的脑力负荷，而本文的实验任务可能需要对其他类型的眼电指标（如扫视轨迹、扫视幅度等）进一步开展后续研究。

本文同时探讨了心率变异性的时域指标SDNN、ERP指标P3a和MMN等生理指标对多显示界面下与飞行任务相关的脑力负荷的变化有显著的敏感性，研究结果表明，仅SDNN成分和P3a对多界面飞行任务相关的脑力负荷的变化有显著的敏感性，具体表现为：在增加了计算任务难度的飞行任务中，SDNN数值降低，在P＝0.05水平上呈临界显著（P＝0.071）状态，P3a峰值显著增大（P＝0）；增加了雷达探测任务的飞行任务中，SDNN数值显著降低（P＝0.017），P3a峰值呈现出下降趋势，但并不显著（P＞0.05）。这一现象说明，单一生理指标无法有效反映多界面飞行任务中的脑力负荷问题，需结合多种测量指标和方法对其进行综合评估。

4.2 单指标与多指标模型评估结果之间的比较

抽取被试在3种不同脑力负荷状态下的各个单一测量指标判别脑力负荷，以及基于3种测量指标的综合评估模型判别脑力负荷，分别采用贝叶斯判别分析方法来评估其判别预测准确性，分析结果如表6所示。

表6 单一测量指标评估与各类综合评估结果的比较Tab le 6 Resu lt com parison of single index assessm ent and m u lti-dim ensional synthetic assessm ent

从总体分类预测准确来看，本文所建立的综合评估模型对面向复杂飞行任务的脑力负荷的分类预测准确率最高。该综合评估模型的分类预测准确率在66.67% ～100%之间，平均分类预测准确率为82.22%。

采用单项指标的判别方法中，反应时间指标对脑力负荷水平的平均分类预测准确率最高，该指标的分类预测准确率在46.67% ～86.67%之间，平均分类预测准确率为66.67%。采用双指标的判别方法中，正确探测率指标和NASA-TLX量表组合对脑力负荷水平的分类预测准确率最高，该组合的分类预测准确率在66.67% ～100%之间，平均分类预测准确率为77.78%。采用三指标的判别方法中，正确探测率指标、NASA-TLX量表与SDNN组合，正确探测率指标、NASA-TLX量表与P3a组合，正确探测率指标、NASA-TLX量表与反应时间指标组合，这3个组合对脑力负荷水平的分类预测准确率相同，均高于其他7种组合，其分类预测准确率在66.67% ～100%之间，平均分类预测准确率为77.78%。采用四指标的判别方法中，正确探测率指标、NASA-TLX量表、SDNN与P3a组合，正确探测率指标、NASA-TLX量表、反应时间指标与P3a组合，正确探测率指标、NASA-TLX量表、反应时间指标与SDNN指标组合，这3个组合对脑力负荷水平的分类预测准确率相同，均高于其他种组合，其分类预测准确率在60% ～100% 之间，平均分类预测准确率为77.78%。

从表6的比较结果可以看出，采用基于面向复杂飞行任务的脑力负荷多维综合评估模型，对脑力负荷水平的分类预测准确率总体上高于采用各类单项和多项指标的分类预测准确率，这说明相对于基于单一指标的评估，采用多维综合评估模型对脑力负荷进行评估更为有效。

4.3 意义

使用面向复杂飞行任务的脑力负荷多维综合评估模型，可对复杂飞行任务中飞行员的脑力负荷水平进行判别和预测，这为大型复杂系统中显示界面脑力任务设计提供了有效的量化方法和科学依据。

目前国家正在开发的新型号战斗机和大型运输类飞机，这些先进飞机驾驶舱信息显示界面综合化程度不断加大，因而驾驶舱显示界面设计的优劣，对于未来的高空作战需要和航空运输安全至关重要。本文所建立的数学模型，有助于在这类综合复杂显示界面的设计阶段对其进行相应的脑力负荷评价和不同显示方式设计方案的选择，进而有助于帮助战斗机设计人员和客机设计人员优化显示界面脑力任务设计，提升设计安全性，保障航空安全。