飞行学员视觉感知状态检测算法研究

2024-03-06高丽娜王长元

西安工业大学学报 2024年1期

高丽娜，王长元

(1.西安工业大学光电工程学院,西安 710021;2.西安工业大学计算机科学与工程学院,西安 710021)

飞行安全是航空领域不可或缺的核心要素,直接关系到航空事业的可持续发展和人类生命的安全[1]。其中,飞行员的视觉感知状态在飞行任务中扮演着至关重要的角色,他们的技能和决策直接影响着飞行的安全性。传统的方法如心理问卷和生理指标虽然有一定作用,但在实时性、准确性和个性化方面存在局限性[2]。随着计算机视觉、人工智能和数据分析等领域的发展,研究飞行员视觉感知状态检测算法已成为提升飞行安全和训练效果的迫切需求。飞行员视觉感知状态检测算法研究的背景和意义在于提升飞行安全性[3]、优化培训策略[4]、实现个性化警示系统[5],以及推动航空心理学[6]和创新技术[7]的应用,为航空领域的发展和进步提供关键支持。因此,这一研究的必要性不言而喻,对飞行安全和航空事业的未来具有深远影响。

近些年军事和商业航空技术、自动化和精密传感技术在不断发展,人类信息处理也发生了变化[8]。例如,飞行员处理驾驶舱外的视觉信息不像早期航空那样多,而是必须从驾驶舱内的更多仪器提取信息,并将其整合成一个连贯的流程来管理飞行,人类对视觉数据的处理仍然是航空安全和有效性的关键因素之一[9-12]。许多研究表明,新手和专家的眼睛扫描模式有显著差异[13]。专家对仪器的注视时间较短,且注视频率高于新手[14]。文献[15]利用眼动仪和飞行模拟试验,采用专家-新手研究范式发现飞行员在进近航段主要关注姿态仪、水平状态指示器和高度表,绩效优秀组表现出更高的注视灵活性。文献[16]采用高级眼动指标来研究专业飞行员和新手在视觉信息获取、凝视模式的区别,他们认为可以使用飞行员视觉行为数据库可以监测飞行员行为。文献[17]将飞行特情中飞行员注意力分配与决策和飞行绩效指标进行联合研究,但未归纳总结特情中视觉注意分配模式。根据文献[18-19],眼动跟踪技术专注于通过诸如注视持续时间、扫视计数和瞳孔直径的度量来确定操作者的认知状态和注意力分布之间的相关性研究,目前已被广泛应用于关键安全领域,包括航空,医疗和核电。文献[20]结合视觉认知特征,通过眼动追踪技术,提出人因设计与评估方法,改善驾驶舱仪表设计,提高人机工效,融合多感觉信息参数,提升设计师主观认知与定量建模,为驾驶舱仪表人因设计提供科学依据。文献[21]通过模拟实验证明,在自动驾驶过程中,驾驶员的视觉注意力明显分散。文献[22]指出通过在任务期间将专家的视觉扫描叠加在雷达屏幕上来提高新手在冲突检测任务中的表现。该研究还表明,视觉呈现优于“仅指令”条件。文献[23]研究了教学和学员在特性情形下注意力分配的相关分析,但没有进一步研究眼动与实时注意力分配的关系。文献[24]使用头戴式虚拟现实系统检查眼球运动行为与现实世界专业知识之间的关系,以及通过检查模拟器任务中的性能与现实世界专业知识之间的关系来评估虚拟飞行训练的保真性和有效性。文献[25]构建了模拟飞行过程中视觉扫描与脑力劳动的相关性,证明飞行员的表现和感知的心理负荷因专业知识和飞行条件而异,专家飞行员比新手飞行员脑力劳动量较低。文献[26]也充分证明了飞行复杂度与凝视熵的相关性,当飞行处于低复杂度时,飞行员使用非确定性视觉模式,并在紧急情况下改变扫描行为变得更为确定性。

这些研究支持视觉模式与任务表现之间的关系,并证明了通过充分培训改善这些模式的可能性,同时任务性能随着经验和相关专业知识的增加而提高。

鉴于随着经验的增加视觉扫描策略也会发生改进,因此研究基于高度精确的飞行员注视状态检测的训练程序很有研究价值。在美国空军,教练员正在积极采用眼动跟踪技术,以提升飞行员对自身视觉扫描模式的认知水平[27]。与此同时,82%的教练汇报称,这项技术显著增强了飞行模拟器培训的效益。此外,所有教练均一致认为,在初期培训中引入眼动跟踪技术,对矫正早期视觉扫描策略上的不足具有积极作用。近期,已开始将经验丰富的空中交通管制专家的扫描路径运用为一种教学手段,以提升新手在冲突检测任务方面的表现。因此,文中提出了一种基于眼动信息的视觉扫描策略的状态检测方法,旨在提高飞行学员在训练过程中视觉感知状态的检测能力和实时性。

1 飞行员眼动信息采集与视觉扫描数据分析

1.1 眼动信息采集

利用实验室自制眼动跟踪系统来追踪用户的双眼眼动,眼动仪放置在显示器屏幕上方,通过眼动仪中红外摄像镜头在眼角膜上的反射实现检测眼睛的运动,使用深度学习算法估计用户的视线落点。这种眼动仪精度较高,采样频率100 Hz,且为非侵入式,不会对执行任务的被试产生佩戴不适感,设备装置如图1所示。

图1 眼动仪设备

1.2 数据预处理

在飞行过程中,结合眼动仪进行视线跟踪测量,使用数据的准确性和精密度来评估眼动追踪设备的可靠性。精度定义为刺激的实际位置与眼动仪捕获的视线位置之间的平均误差。精度是眼动仪连续记录相同注视点的程度,例如通过连续样本的均方根测量。通过合理的配置和标定,眼动追踪设备的可靠性可以满足这些要求。因此,在实验之前为每个参与者设置和校准设备,这是一个需要1～3 min的过程。此外,眼动追踪设备的应用可靠性已在类似驾驶模拟中获取实时眼动追踪数据时得到验证。

数据采集重点关注飞行员仪表注视情况,对仪表盘区域划分为6个兴趣区域(Areas of Interest,AOI)区域,分别是A起落架;B空速指示器;C高度表;D姿态指引仪;E水平状态指示器;F垂直速度指示,如图2所示。这种视觉监测在飞行阶段(起飞、进近阶段和着陆)中至关重要,需要将仪器上显示的数据与飞行阶段的预期值进行实时比较,驾驶舱内允许在参数偏转时及时采取纠正措施从而确保最佳安全水平。

图2 驾驶舱仪表盘区域划分

注视浏览数据采集中,在飞行模拟器配置仪器边界值,将仪器边界和仪器id保存在配置文件中以备后用。同时将受试者的AOI眼动序列按照时间顺序组成有向链。每个注视点被分配到一个AOI中,原始眼动数据是一系列点。为了获得注视点序列,删除了所有空值和异常值,并检测了注视点。然后,通过合并连续和重复的 AOI 来压缩数据,得到 AOI 序列。探测AOI上注视点的阈值设置为200毫秒,阈值由每个AOI的非驻留时间的平均值加上一个标准差组成,如

Φthreshold=μNDT+σNDT。

(1)

式中:Φthreshold为AOI的阈值;μNDT为AOI的非驻留时间的平均值;σNDT为AOI的非驻留时间的标准差。

视觉行为数据库( Visual Behavior Database,VBD )包含每一个AOI在1 s内计算的平均非停留时间、标准差和阈值。

1.3 视觉扫描数据分析

飞行员视觉扫描数据分析是一种研究飞行员在飞行过程中眼睛注视行为的方法。它通过记录和分析飞行员的眼动数据,即飞行员在飞行任务中眼睛的注视位置和持续时间,以揭示他们的视觉关注点、注意力分配和视觉行为模式。这种分析有助于理解飞行员在驾驶舱内如何获取和处理信息,从而帮助改进飞行任务的执行、驾驶舱设计以及培训方法。

经典的眼动测量方法,如注视持续时间、停留时间或注视次数,在比较新手与非新手时提供了相关结果[28]。然而,这些指标的统计分析往往涉及时间平均操作,忽略了信息的顺序扫描。反映注意力动态过程的丰富数据会部分丢失,或者许多其他可用于在更深入的视觉扫描策略中探索和表征未得到充分利用。因此使用广义的术语“视觉扫描”来描述这一过程。该视觉扫描由至少一次停留到一个AOI,随后是过渡,以及停留到另一个AOI组成;当视觉扫描由给定重复序列组成时,使用“视觉扫描图案”。

飞行员视觉扫描数据分析是一项重要的人机界面研究方法,旨在深入了解飞行员在不同飞行阶段、任务和情境下的视觉行为。通过捕捉飞行员的眼动数据,即眼睛在驾驶舱内的注视位置和持续时间。这一分析提供了关于飞行员的注意力分配、信息获取方式以及认知策略的深入洞察。确定飞行员在不同飞行阶段、任务和情境下关注的主要区域。分析飞行员的注视路径,了解他们是如何在驾驶舱内移动视线,以获取信息。计算飞行员在特定区域保持注视的时间,以了解他们对不同信息的关注程度和信息获取的难易程度。检查视觉扫描策略的方法:① 分析转换矩阵;② 环境/焦点视觉行为之间的波动的表征;③ 导出全局模式度量,诸如熵。分类视觉扫描策略指标基于AOI的三种方法:① 基于马尔可夫链;② 基于注意模式;③ 基于序列分析。表1对不同视觉扫描指标进行比较。

表1 视觉扫描指标

2 基于HSMM模型的视觉感知状态检测

2.1 隐半马尔科夫模型

隐半马尔科夫模型(Hidden Semi-Markov Model,HSMM)是隐式马尔科夫模型(Hidden Markov Model,HMM)的衍生模型,在定义完全的HMM的结构上加入了时间组成部分,克服了因马尔科夫链的假设所造成的HMM的局限性[29]。HSMM允许每个状态具有一个可变的时长,因此,HSMM可以用以建模时间上的不确定性。HSMM与HMM最重要的区别在于HMM每个状态产生一个观测值,而HSMM每个状态产生一系列观测值。作为一种强大的统计模型,具有适应性强、能够捕捉序列数据中的时序特征等优势。因此,将隐半马尔科夫模型应用于飞行学员视觉感知状态的检测,可以为飞行培训和操作提供更加精确和实时的视觉状态监测方法。首先通过分析飞行学员在不同训练阶段的视觉感知状态变化,可以更好地了解他们的训练进展和难点,从而精准制定培训计划,提高培训效果。HSMM模型可以在实时情境下监测飞行员的视觉感知状态,如疲劳、注意力分散等,及时发现潜在的安全隐患,以便采取相应的措施。针对不同的学员,HSMM可以分析他们的视觉感知状态变化趋势,为每位学员制定个性化的训练和操作干预策略,提高他们的飞行表现。

2.2 飞行员视觉感知行为建模

研究中飞行员视觉感知建模的关键问题为

① 隐藏状态如何与观测序列相关联;

② 在给定模型和观测序列情况下,观测序列的条件概率和最大隐含状态序列是怎样的;

③ 如何在新的输入数据中学习模型参数,提高飞行员的注视感知能力;

④飞行员在每个任务或者每个状态的驻留时间什么时候开始或结束。

具体而言在HSMM中,用St表示在t时刻时的隐藏状态,O是一个观测状态序列。在片段HSMM中,有N个状态,均是隐藏不可直接观测的。状态间的转换符合转换矩阵A,从状态i转换到j的概率为aij。与标准HMM相似,假设状态时刻t为0时的状态为S0,状态的初始分布为π。宏状态的转换过程sql-1→sql符合马尔科夫过程。

P(sq1=j|sql-1=i)=aij。

(2)

状态的转换st-1→st通常不是马尔科夫过程,这即是该模型被称为“半马尔科夫(semi-Markov)”的原因。在半马尔科夫的情况下,只有在设备从一个宏状态转换到另一个宏状态时,马尔科夫模型中的转换过程才成立。

在构建的模型中,隐含状态代表着飞行员的感知水平。相对应地,可视状态则反映了飞行员的眼动注视序列。规定飞行员存在三种状态,分别是高感知(High Perception,HP)、中感知(Moderate Perception,MP)和低感知(Low Perception,LP)。这些状态序列用(S1,S2,S3)来表示,每个状态都与不同程度的任务相关联。在每个状态下,飞行员会持续进行一定数量的工作,这种持续时间表示为状态持续时间。每个状态的持续时间都可以通过持续时间概率密度来描述,假设这些概率符合正态分布。对于每个状态Si,用Pi(di)表示状态Si持续时间为di的概率。状态的持续时间也可被视为衡量飞行员状态稳定性的一个指标,持续时间较短意味着飞行员处于良好的状态。

在参数设置上,HSMM 的模型参数为

λ=({πi},{aij},{bi(l)},{Pi(d)}),

(3)

其中,πi=P(q1=si)。

(4)

πi为系统在初始状态为si的概率,满足限制

(5)

模型结构如图3所示,定义为

图3 HSMM模型结构图

①假设隐藏的状态序列是一阶Markov链

aij=P(qt+1=sj∣qt=si),

(6)

(7)

② 系统在t时刻状态为si的条件下,出现观测值ot的概率为

bi(l)=P(ot=vl∣qt=si),

(8)

(9)

③ 系统在t时刻状态为si上驻留时间为d的概率为

Pi(d)=P(τt=d∣qt=si),

(10)

(11)

为在qt=si时,系统到t时刻为止已经在状态si上驻留的时间,D为在任何状态下可能的最大驻留时间。

HSMM框架由两个互相嵌套的随机过程构成。首先是隐态过程,这一过程本身无法直接观测,假设其遵循一阶马尔可夫过程的转移规则。其次是观测符号过程,这个过程是在物理上可观测的,其观测值根据当前隐藏状态呈现出特定的概率分布。将扫描注视质量视作隐藏状态过程,而AOI注视序列则对应于观测过程。需要注意的是,许多研究者已经对固定物之间的状态转移概率进行了计算,这实际上相当于计算了固定物的马尔可夫转移矩阵。

在模拟飞行中,每个飞行员都被要求尽可能多地用语言表述仪表读数(例如,“1 500英尺”,“航向向左”)或当前的意图(例如,“太低,爬升一点”,“向右转”)。这些报告显示了在每个时刻所执行的跟踪任务即上文提及到的飞行任务,然后转换成相应的任务作为训练数据。如果任务在报告时间或在1 s内与口头报告匹配,则认为该报告与估计“匹配”。关于单参数仪器的口头报告通常是匹配的,因此在分析中被省略。只有与重叠仪器有关的报告才包括在这一核查过程中。最终按照匹配的程度划分为高中低水平。模型训练的具体过程为

① 参数训练

构建了HSMM,并应用期望最大化算法进行模型训练,以进行参数估计。通过该过程,能够精确估算状态转移概率等重要模型参数。

② 状态持续时间计算

基于模型参数估计结果,获得了每个宏状态持续时间的概率密度函数。这一函数的应用能计算状态持续时间的均值,进一步为分析提供重要参考。

③ 状态识别

利用Viterbi算法,结合模型参数和眼动注视序列数据,能够精准地确定飞行员的视觉感知能力水平。这一过程通过找出在给定模型下最大概率的状态标签序列,提供了关键信息。

2.3 HSMM 的前向-后向求解算法

在应用HSMM模型进行状态识别之前,我们需要解决HSMM的评估和学习问题。因此,在给定观测值o1,o2,…,ot,和HSMM的参数λ=(Π,A,B,pi(d))的情况下,如何调整模型参以最大化P(O|λ)解决HSMM评估和学习问题的基本算法如下。

前向变量是指在给定模型λ的条件,产生t以前的部分观测序列o1,o2,…,ot,且在t时状态为si以及在t时状态所驻留的时间的概率。

αt(i,d)=P(o1,o2,…,ot,qt=si,τt=d∣λ),

(12)

(j≠i),

(13)

αt+1(j,d+1)=αt(j,d)aijbj(ot+1)Pj(d+1),

(j=i),

(14)

后向变量即在给定模型λ和t时状态为si以及在此状态驻留时间为d的条件下,从t+1时到最后的部分观测序列的概率。

βt(i,d)=P(ot+1,ot+2,…,oT∣qt=si,τt=d,λ),

(15)

初始化为

βT(i,d)=1,1≤i≤N,1≤d≤D。

(16)

后向变量可按下列步骤进行迭代计算

(17)

式中:t=T-1,T-2,…,1,1≤i≤N.

设ri(i,d)为给定观测序列O和模型λ的条件下,t时状态为si以及在此状态的驻留时间为d的概率,即

rt(i,d)=P(qt=si,τt=d∣O,λ),

(18)

(19)

ξt(i,j,d)=

i≠j。

(20)

设rt(i,d)与ξt(i,j,d)如式(12)(15)(16)定义,则模型各参数重估公式为

(21)

1≤i≠j≤N,

(22)

1≤i≤N,

(23)

1≤i≤N。

(24)

3 实验设计与结果分析

3.1 实验设备

实验在6-DOF运动平台结构的飞行模拟器上进行模拟飞行,其中模拟飞行平台包括六轴运动运动,显示器、飞行摇杆、数据采集仪器。这种六自由度的飞行模拟训练器具有强烈的真实体验感,飞行环境、飞行姿态和操作都和真实飞机非常相似。同时将三台液晶显示器进行拼接形成半封闭的形状可以增加模拟飞行时的沉浸感和真实感。飞行实验平台装置如图4所示。

图4 六自由度飞行运动平台

3.2 任务设置

为了采集被试者在进行人机交互时的头动和眼动数据,实验招募了12名视力正常的模拟飞行游戏的资深玩家作为被试者,年龄范围为21～25岁。所有被试者均没有神经或精神类疾病史,并在实验前签署了知情同意书。此外,本研究已经通过了本单位伦理委员会的审核。

飞行任务是用Digital Combat Simulator World软件进行设置,机型选用Su-25T,飞行员通过研究与预定时间、路线和目的地相关的地图和天气信息来准备飞行。

实验设置中飞行任务设置为五边飞行(Airfield traffic pattern,ATP),飞行的起落航线为左航线,即飞机只允许在航线中左转飞行,实验中按照规定的航向和目标高度进行飞行。该任务主要提升训练飞行员的起飞和着陆技能,目前在目视飞行中被广泛应用。其中主要包括起飞爬升、转弯、平飞、下滑、进近着陆等,主要目的是帮助在飞行过程中完整掌握飞行方法和对飞行的状态控制,通过不断地训练飞行操作方法,在这个过程中可以帮助学员调整自己的感知策略。其飞行任务如图5所示。

图5 飞行任务示意图

起飞时受试者检查飞机内部及外部跑道等情况是否正常。起飞阶段,飞行器直线前进,缓慢加速,直至完全离地。随后受试者收回起落架和机翼,同时需要查看飞机的爬升姿态、速度信息和高度信息。

平飞阶段时受试者飞行高度和速度都保持在一定值。该阶段受试者主要按照固定航向进行飞行同时检测飞行高度、速度、飞行路径、姿态等多项飞行参数。平飞阶段飞行员主要完成第二边、第三边、第四边。在这个阶段,受试者也需要完成锁定Downwind目标、准备返回等任务。

近着陆阶段受试者需要调整飞机的航向对准跑道延长线,放襟翼,调整下滑角度和油门,在距离地面6～7 m,柔和地向后带杆并减少油门;不断调整飞机的下沉速度,抬起机头至飞机接地。当操作飞机接地后,保持滑跑的方向缓慢收油门,逐渐刹车减小速度并离开跑道。

3.3 结果分析

对飞行的不同阶段的序列模式进行挖掘,按照支持度的高低进行排序筛选,通过综合所有试验员的眼动序列,找到支持度最高的作为飞行标准。同时对不同飞行阶段的AOI注视百分比进行分析,如图6所示,对飞行的五个阶段进行分析。

图6 飞行任务AOI注视行为百分比

发现在整个飞行过程中对速度表的关注是先减少后增加,因为在起飞和降落阶段需要花费大量的时间关注速度表,Upwind和Final是速度从无到有和从有到无的过程。在Crosswind、Downwind、Base任务中,飞行员对姿态仪所提供的俯仰和滚转信息关注比例较高,所以姿态仪无疑是这三个飞行阶段中最重要的仪表。在Downwind和Base飞行中,高度表的关注比例高,因为在Base飞行中需要关注飞机下降的高度是否达到进场标准。对航向仪的关注比例先逐渐增加后慢慢减少,在Downwind的飞行时间相对较长,关注比例较高。在执行Downwind飞行任务时,飞行学员对垂直速度表的关注比例最高,用以保证高度以及判断垂直方向上是否有失速的可能。机械设备指示器显示起落架、襟翼和减速板的当前位置,所以在Upwind和Final需要重点专注保障飞机可以正常起飞降落。

实验中采用准确率(p)、召回率(R)和F值3个指标作为性能评估的指标。指标定义为

(25)

式中:N1为正确识别的数据样本个数,N2为被误识别到该状态的个数,N3为属于该类别状态但被误识别到其他类别的实例样本个数。

综合评价指标F为

(26)

式中:参数β用来为准确率P和召回率R赋予不同的权重。当β取1时,准确率和召回率被赋予相同的权重,实验中取β=1。利用综合评价指标F分别对HSMM和HMM进行评价,结果如图7所示。各特征值状态的准确率和召回率,测试结果见表2。以上的测试结果反映出,利用出HMM进行特征提取,实验系统的各特征性能表现一般,而在引入隐半马尔可夫统计模型后,实验系统的各特征性能表现有了较大的提高。这表明HSMM模型更能体现眼动信息的一般化情况,更适合用来描述实际问题。

表2 模型进行特征提取实验的测试结果和性能指标统计

图7 HSMM和HMM模型结果对比

4 结论

为了研究旨在改进飞行学员训练过程中视觉感知状态检测方法的实时性和准确性,通过引入基于隐式半马尔可夫的视觉感知状态检测模型,从飞行学员的视觉感知角度出发,挖掘在不同飞行任务下学员的视觉注视变化,提出了一种能够捕捉飞行学员在不同情境下注视规则扫描策略的模型。该模型有效地关联了隐状态和时间的相关性,实现了对飞行学员视觉感知状态的实时检测。在这项工作中,评估了如何使用眼球追踪与机器学习可以客观地评估飞行员在训练中的扫描模式,这可以减少指导员的总体工作量。

研究结果显示,在相同任务情境下,所提出的算法相对于传统的隐马尔可夫方法,在准确性方面取得了显著的提升,准确率达到了93.55%。这意味着本研究提出的基于隐式半马尔可夫的视觉感知状态检测模型在飞行学员训练过程中具有实际应用价值,能够更准确地捕捉飞行学员的视觉感知状态。