面向空管模拟机培训的智能应答机长研究

2024-03-08郭成龙吴九州赵雅珺游学杭李锦恒

海军航空大学学报 2024年1期

郭成龙，廖伟，田晨，林毅，吴九州，赵雅珺，游学杭，李锦恒

（1.中国民用航空西南地区空中交通管理局，四川成都 610065；2.四川大学计算机学院，四川成都 610065）

0 引言

空中交通管制是空中交通运输过程中的重要环节，空中交通管制员（以下简称“管制员”）通过无线电通信对飞行员发送指令，对航空器飞行活动进行干预，以保证航空器安全高效通过指定空域，维护空中交通秩序。合格的管制员是保证空中交通安全有序的必要条件。中国民用航空局2022 年5 月发布的《2021年民航行业发展统计公报》显示，2021年民航全行业完成旅客运输量44 055.74万人次，起飞395.20万架次[1]。随着民航运输业的发展，航空运输量将逐年增加，而在现有管制模式和空域资源有限的条件下，管制员工作量也会递增，这将导致管制员在管制过程中可能出现漏、忘、错等情况。因此，有必要进一步提高管制员的业务水平。

根据我国《民用航空空中交通管制培训管理规则》[2]规定，管制员培训一般要经过基础培训和岗位培训。传统管制模拟培训流程如图1所示。在训练过程中，管制员的管制指令通过模拟机设备发送至飞行员席位，飞行员通过设备向管制员复诵指令，并输入管制指令，驱动模拟设备中航空器飞行。

图1 传统模拟机培训示意图Fig.1 Diagram of traditional simulator training

随着航空器飞行量逐年增长，对管制员数量和质量的要求也越来越高。传统管制模拟培训无法满足日益增长的管制培训需求，主要体现在以下2个方面。

1）传统的模拟机设备设有机长席位，需要有人扮演飞行员角色协同管制员完成管制培训，每一次管制员培训，至少需要1个人来担当飞行员角色，因而会产生额外的人力成本，导致设备资源利用率低。

2）由于模拟机设备价格昂贵，目前，只在国内设有枢纽机场的城市建立了管制员培训模拟中心，培训资源有限。基于现有培训体系及方式，每次培训前需要对培训人员、时间等进行安排协调，培训效率不高。

针对目前管制员培训面临的各种问题，研究者提出线上培训和智能机长的概念：文献[3]提出了基于深度学习的自动机长框架，并对指令生成、语音合成技术进行论述；文献[4]提出利用“互联网+”技术设计显示空管智能学习平台；文献[5]利用卷积神经网络和循环神经网络设计了空管语音识别模型。但现有相关工作主要聚焦于空管语音识别、指令解析、语音合成等单模块上。关于语音识别、指令解析以及语音合成技术发展如下所述。

1）语音识别。20 世纪50 年代，贝尔实验室研发的能够对0～9 单个数字进行识别的AUDERY 语音识别系统[6]，揭开了语音识别研究工作的序幕。进入21世纪后，随着计算机算力的不断提高，研究人员将深度学习算法[7-8]应用于语音识别领域，并取得了大量成果。2009 年，Hinton 等利用深度前馈网络建立声学模型，掀起了将深度学习应用于语音识别的浪潮，大大提高了语音识别的准确率[9]。

随着深度学习的出现，语音识别技术虽然有了突破性的进展，但是目前仍然存在一些难以解决的问题，例如识别过程中的噪声处理，在一些复杂环境下的语音识别难度依然很大。

2）文本指令处理。目前，对空管通话指令的研究大多集中于指令语义学习上：文献[10]使用卷积神经网络以及余弦相似度分类器判断复诵指令与管制指令的语义是否一致；文献[11]通过双向长短期记忆网络进行语义匹配；文献[12]利用语义网络构建三元组，将空管语音解析为结构化的指令；文献[13]在1 个空管安全监控的框架中使用1 个联合模型，用于意图识别与语义槽填充任务，推断出文本指令的意图并将指令转换为1种预定义的数据格式，用于检测复诵告警。

3）语音合成。传统的语音合成技术主要有波形拼接法、参数合成法。波形拼接法需要的语音语料库庞大，使用成本巨大，可扩展性差；参数合成法则是通过设计声码器，根据发音特征合成波形，传统的参数合成法如共振峰合成[14]、Griffin-Lim 算法。随着深度学习算法的广泛应用，研究人员尝试使用神经网络模型代替传统统计模型，建立声码器、声学模型等，其中，典型的方法有Google 推出的Wavenet 声码器[15]、Tacotron模型[16]和Baidu的Deep Voice[17]等。

针对目前空管培训中出现的各种问题，前序研究[3]提出了1 个完整的应用框架，攻克了相关技术难点。而实际应用中，智能机长系统仍面临以下挑战：

1）基于深度学习的飞行员复诵文本及对应指令文本[3]对数据依赖性较强，在未见环境下泛化能力不足，复诵效果有待提升；

2）语音合成模块无法对中英文混合的文本进行合成；

3）现有系统的复诵性能都是基于实验条件的测试，缺乏真实场景下的性能验证。

本文在前序研究[3]的基础上，针对上述问题，设计了面向空管模拟机培训的智能应答机长系统。

本文主要对智能机长的智能应答系统展开研究，分析、总结真实空管对话特点及规律，具体研究内容及创新点如下：

1）设计了1 套完整的智能应答机长系统，减少了人力成本，简化了传统模拟培训的流程，并为线上培训、智能培训提供了技术支撑；

2）设计了1 套应对不同场景的指令复诵规则，该规则能够适应不同的管制阶段，可对中英文管制语音以及中英文混合语音进行复诵生成；

3）在智能机长系统中添加了人为触发模式下的特情场景，可对管制员应对特情处置能力进行针对性的训练及考核；

4）本文智能应答机长系统集成在中国民用航空西南地区空中交通管理局成都区管中心管制模拟培训系统上，在真实模拟培训场景下完成了测试，并能较好地实现管制员指令复诵需求。

1 智能机长系统

基于管制员训练程序标准，智能机长系统是1 个面向任务的对话系统，对外包含1个输入接口、输出接口以及1个人机交互界面。智能机长的逻辑处理流程如图2所示。

1）语音输入：接收由麦克风采集的管制员语音数据，并对语音数据进行归一化处理，转为内部数据结构，同时通过消息中间件发送至下一模块并保存至数据库。

2）语音识别：将管制员的语音数据转换成计算机和人类可读的文本数据。

3）指令理解：对管制员语音文本进行再处理，生成与空中交通管制相关的结构化数据，数据包括管制意图、航空器呼号、高度、速度以及其他必要参数。

4）指令复诵：根据空中交通管制的标准程序，生成与管制员结构化数据对应的飞行员复诵文本以及模拟机系统可识别的指令数据。同时，还增加了特情场景下复诵模式。在人工干预下，触发预定义的特情场景，智能机长系统根据相关特情场景生成对应的特情指令。

5）语音合成：将飞行员复诵文本数据转换为语音数据，再传输给管制员，形成管制培训对话协商回路闭环。

1.1 空管语音识别

语音识别系统通常包括声音特征提取、声学模型、语言模型等几个模块。将输入的语音信号转换为与之对应的文字序列，其数学表达[18]如下：

式（1）中：P(X|W)为语音识别系统中的声学模型；P(W)为语言模型。

随着深度学习的快速发展，学者们将深度学习技术应用到语音识别领域进行了深入研究，取得了许多重大成果，本文参考部分研究，应用深度学习技术，采取了1 种基于端到端的语音识别网络模型，包含CNN（Convolutional Neural Network）、FC（Fully Connection Layer）以及改进的BiLSTM（Bidirectional Long Short-Term Memory）结构，如图3 所示。其中，CNN 用于提取语音局部特征，BiLSTM用于提取时序特征[19-21]。

图3 语音识别模型结构图Fig.3 Structure of automatic speech recognition model

1.2 空管语义解析

空管语义解析主要包括文本分词、语义槽填充以及意图识别3个子任务。

语义槽填充是对文本序列进行语义成分分析，将预先定义好的语义标签填充到对应的分词位置上。语义槽填充是1 个序列标注任务，即对于给定的文本序列[22]W= (w1,w2, …,wt)，需要在预定义的语义标签集中找到1 组对应的语义标签序列S= (s1,s2, …,s3)，使得：

式（2）中：Ŝ表示给定文本序列W对应的语义标签。

意图识别的本质是1 个分类任务，其目的是将输入的文本序列分类为1 个或多个具体的意图类别，其数学表达[23]为：

式（3）中：P(C|W)表示在给定文本序列W条件下指令意图为C的概率；Ĉ表示最终的意图分类结果。

本文基于前人工作研究成果，对意图识别和语义槽填充2 个任务进行联合建模，提出了1 个基于交叉注意力的文本指令理解模型（Cross-Attention based Text Instruction Understanding，CA-TIU），它包含2 个BiLSTM 模型，分别用于语义槽填充以及意图识别，如图4所示。

图4 语义解析网络模型图Fig.4 Structure of instruction understanding model

1.3 指令复诵生成

1.3.1 指令复诵

指令复诵是智能机长系统中智能应答模块的关键步骤，也是本文研究的重点。

根据对真实空管场景下地空对话内容的研究，本文将管制员指令分为3种类型：常规陈述指令、管制识别指令和协商疑问指令。根据不同类型指令，本系统以不同方式复诵应答。在1.2 节中，语义解析模块输出格式化数据（包括指令文本、意图参数字典以及语义标签）如下：

式（4）中：It表示意图参数字典；I1,I2, …,In是语义解析模块提取的指令意图；P1(x1,x2, …,xn)、P2(x1,x2, …,xn)，…，Pn(x1,x2, …,xn)是提取的每一类意图指令的意图参数，该参数为不定参数，具体由实际意图指令决定。指令类别见表1。

表1 管制指令复诵样本Tab.1 Sample of controlling instruction repetition

1）常规陈述指令。它是以陈述性语句向飞行员发布的交通干预指令。这类指令通常要求飞行员对航空器飞行状态做出调整。常见的陈述性管制指令有高度调整指令、速度调整指令、飞行目的地指令、航向调整指令、航迹偏置指令、取消偏置指令、起飞及复飞指令、放行许可以及其他管制许可、联系频率等。基于空中交通管制运行规则，此类陈述性指令的复诵规则是重复指令关键要素信息，以航空器呼号为结束。因此，通过调整管制员指令文本中航空器呼号顺序来实现复诵，其复诵规则如下：

针对常规性陈述性管制指令，本系统参考大量空管指令复诵实例，建立了指令文本、指令意图、意图参数列表及与其相关意图与参数的匹配关系，实现复诵规则如下：

①提取指令解析结果的意图参数，包括指令意图和相关重要参数；

②根据预先设计的复诵规则，将管制文本中的航空器呼号和其他指令进行分割，并重新排序，以航空器呼号作为结束，生成复诵文本。

2）管制识别指令。管制识别指令是航空器进入某管制扇区时首次与管制员联系后接收到的管制指令，通常为雷达识别或广播式自动相关监视（Automatic Dependent Surveillance-Broadcast，ADSB）识别。如表1中管制识别指令示例，依据我国《空中交通无线电通话用语》规定，当管制员指令意图为雷达识别时，飞行员需要复诵航空器呼号作为回应。

3）协商疑问指令。在地空通话中，管制员除了直接向飞行员下达陈述性指令外，还可能向飞行员发出询问。本文将管制员向飞行员发出的询问称之为协商疑问指令。协商疑问指令大致可分为证实类指令和协商类指令。证实类指令是飞行员向管制员发出请求后，管制员向飞行员请求的重复确认；协商类指令是当发生特情或者面对飞行员请求时，管制员向飞行员询问所发管制指令的可行性。针对不同类型指令，复诵方式不同。

如图5所示，当判定管制指令为协商询问指令后，指令复诵模块会判定该指令具体类型，其判定依据是指令意图I1,I2, …,In及指令文本。

图5 指令复诵逻辑流程图Fig.5 Flow chat of instruction repetition logical processing

依据管制规则，针对证实类指令，飞行员需要复诵陈述指令，如表1中示例，其复诵规则同常规陈述指令一样，详见式（5）。证实类指令的复诵程序与陈述性指令的复诵基本相同，根据语义标签判定管制指令为重复确认类指令后，根据提取的意图及其相关参数，生成陈述类指令文本，然后以航空器呼号作为结束，生成完整的指令复诵文本。针对协商类指令，飞行员需依据实际飞行状态对管制员的协商类指令进行复诵。本系统接入模拟机系统数据，通过模拟机系统中的飞机飞行态势与提取到的管制指令意图及参数进行对比判断，确定管制员发出的指令是否合法：若合法则复述管制指令；否则，与管制员协商。如表1示例，其复诵规则同常规陈述指令一样，详见式（5）。

1.3.2 特情处理

本文针对实际空中交通中可能存在的突发状况或者紧急情况等，设计了1 套特情模式下机长复诵方案，旨在培训和考察管制员或学员在特情突发状态下的临时应变能力。在可视化的人机交互面板中，设置了1 个特情触发按钮供教员选择。触发按钮后，系统会弹出1个特情选择窗口，按照“航空器故障”“机组突发状况”“外部环境干扰”分类设置特情，具体特情及复诵方案如表2所示。

表2 特情类别及复诵方案Tab.2 Categories of flight emergency and repletion program

当教员选择某个具体特情时，系统通过提前建立的特情处置语音库，向管制员主动报告相关特情并且向模拟机系统发送相关特情指令，得以让管制员在可视化模拟界面中看到相关状态，使特情尽可能真实。系统处理特情指令复诵时，按表2中的复诵方案向管制员复诵。

1.4 空管语音合成

基于空管语音涉及大量专业术语、特殊名词，中英文混合，发音特殊、韵律语速等情况，具有强烈行业特殊性，本文通过对大量真实空管语音进行研究分析，制作了专业空管语音合成训练数据库，极大提高了空管语音合成模型合成语音的质量，合成语音可更真实反映空管语音特点。

本文参考前人研究工作，采用1个端到端神经网络模型，使用自建空管语音语料库，对文本进行分词、标注等预处理后，与词汇表进行匹配，将其转为音素；然后，传入编码器模型和解码器模型生成语音频谱；最后，通过声码器转换为语音波形。

2 实验及结果

2.1 实验环境及数据集介绍

本文涉及的深度学习模型均基于开源框架Py-Torch，编程语言为Python# 3.7。本文训练及测试服务器环境配置如下：2×Intel Core i7，2×NVIDIA GeForce GTX 1080Ti和64GB内存，操作系统为Ubuntu 16.04。

本文收集来自成都区管采集的真实空中交通管制历史通话数据，其中，管制员语音指令包含进近、塔台以及区管指令。本文对这些语音进行筛选、切割、文本标注、意图标注、语义槽填充，构建了1个专用的空管语音数据集，共100 000 条语音数据，总时长为100 h。其中，中文语音67 586 条，合计72.5 h，英文数据32 414条，合计27.5 h。按照8 ∶1 ∶1 的比例将数据集分为训练集、测试集和验证集。

2.2 语音识别

本文使用字错误率（Character Error Rate，CER）作为识别精度，衡量模型性能。Cer定义如下[18]：

式（6）中：CI、CD、CS分别表示将语音识别模型预测结果转换为真实文本过程中，替换、删除以及插入的字/字母数；C表示字/字母总数。

实验中，使用2.1 节介绍的空管语音数据集中的管制员语音作为语音识别模型的输入，对应的识别文本作为模型的输出。为验证本文语音识别模型性能，同时对当前流行的3 个语音识别模型Wav2letter++、Deep Speech 2（DS2）、Jasper 进行训练与测试，与本文模型作对比使用，实验结果如表3所示。

表3 语音识别实验结果Tab.3 Experimental results of automatic speech recognition

从实验结果可知，与当下流行的3个语音识别模型相比，本文ASR 的中文及英文语音识别性能更加优异，表明本文ASR 模型采用LSTM 结构提升语音识别精度的策略是有效的。与英文识别相比，本文ASR 模型中文的识别效果更加优异。但是，通过对实验结果的进一步分析，ASR 模型还存在一些不足，比如对航班号的识别精度不高，这是由于中文发音特殊性导致，如数字6 和9 发音相近，容易识别混淆。未来将通过对数据集进行扩充及优化，同时对模型结构进一步调整，以增强本文ASR模型的识别性能。

2.3 指令解析

本节实验中，使用2.1 节介绍的空管语音数据集中的管制员语音文本作为指令解析模型的输入，对应的语义槽标注、指令意图识别作为模型的输出，使用准确率作为评价标准，衡量语义槽填充任务以及意图分类任务的效果。准确率定义如下[22]：

式（7）中：Sc为预测正确的样本数；S为总样本数。

为验证本文指令理解模型的语义槽标注及意图分类效果，本文同时使用2个用于自然语言理解任务的模型BiGRU-CRF 和Slot-gated 来对本文的指令解析进行实验，实验结果如表4所示。

表4 指令解析实验结果Tab.4 Experimental results of instruction understanding

从表4中可以看出，本文指令理解方法在语义槽填充任务和意图识别任务中的表现性能均优于BiGRUCRF 和Slot-gated 模型，表明本文指令理解模型所采用的自注意编码器加深了对输入指令的语义编码，基于词级别的意图识别，提高了意图识别的准确率。使用交叉注意力机制加强了意图与语义槽的信息交互与融合的策略，能有效地提升语义槽填充及意图识别的准确率。

2.4 指令复诵

为了验证本文智能应答机长系统在智能复诵应答上的实际效果，将本系统作为子系统连接在成都区管中心管制员培训模拟机上，供管制员测试。本文对测试数据进行统计分析。本次测试时间为10 d，共5 000条指令。其中包括进近指令1 000 条，塔台指令1 000条，区管指令3 000 条，所有指令涵盖了从起飞到进近、降落的完整的飞行模拟场景。本文使用管制员指令语音作为输入，系统的复诵文本作为输出，对比复诵指令与管制员指令之间的意图类别、参数等信息，制定了专门针对复诵准确率的评价标准，其定义如下式所示[22]：

式（8）中：Ic为预测正确的样本数；I为总样本数。

由于目前没有现成可用的模拟机自动应答系统，本节没有设计对照实验。实验结果如表5所示。

表5 指令复诵实验结果Tab.5 Experimental results of instruction repetition

从实验结果可以看出，本文智能机长自动应答的准确率达到88.6%，在管制员培训中可以充当代理机长，对管制员指令做出回应。从表5 可以看出，本文智能机长系统对进近指令和区管指令的应答准确率较高，表现明显优于对塔台指令的复诵应答。通过对实验过程分析发现，这是不同类型指令的复杂度的差异性导致的。

如表6所示，进近指令、区管指令内容比较简短，意图类型、参数相对较少，易于识别和提取。而塔台指令相对比较复杂，需要飞行员完成的动作比较多。因此，对意图的分类识别要求以及参数提取的要求更高，这就导致系统在对塔台指令复诵时可能出现参数或意图遗漏的情况，因而复诵准确率要低一些。

表6 指令样本数据示例Tab.6 Sample of instruction data

3 结论

本文通过对空管管制指令及复诵业务的分析，制定了管制指令相应复诵方案，并通过对语音识别技术、指令解析技术以及语音合成技术的综合运用，设计了1套面向空管模拟机管制员培训的智能应答机长系统，同时设计了1 套特情处理复诵方案。通过实验测试及分析，发现本文系统能在一定程度上代替机长角色，降低管制员培训过程中的人力成本。后续工作中，将进一步增加指令解析训练样本数据量，并对复诵方案进行优化，使本文系统能适应更复杂的空管管制场景。