陆空对接的桥梁——论空管中的语音指令识别与合成技术
2015-09-21马林南
马林南
(中国民航华北空管局北京区域管制中心,北京,100015)
在我国民航运输业快速发展的时代背景下,高素质的空中交通管制(又名Air Traffic Control,ATC)人员的需求数量越来越大,陆空通话标准用语(ATC指令)的训练是空中管制模拟训练的重要内容。为了实现系统的自动化,需要对空中管制模拟训练的语音指令识别与合成技术进行探讨和研究,通过归纳空中交通中的语法结构特征,对陆空通话的不同语言模型进行设计,如:进近管制用语、塔台管制用语、区域管制用语,并且构造陆空通话用语中特殊单词的发音序列以解决空管中特殊用语发音的识别问题,建立了融合语言模型与声学模型的训练与更新过程;同时,设计并开发了基于语音识别引擎PocketSphinx和合成引擎eSpeak,该系统可以成功地完成中文指令的识别和应答指令生成,为陆空对接服务。
1 研究背景及意义分析
飞行运输领域中的空中交通管制主要的职责是指挥和调度航班,使航空飞机能够按照预定计划和航线安全地到达目标机场、着陆等,在空中飞行航线上,由于其交通的特殊性,它与地面的车辆交通管理不同,它具有更为复杂的航空管制任务,包括:避免飞机发生碰撞、避免飞机与空中异物相撞、与附近建筑物相撞等。
目前,我国的数十家航空公司有大量的国内外航班,业务非常繁忙,机场的规模、运输的增长率、航线布局、数量等都有所增加。为了保持航班正常、适应航空运输持续发展的态势,需要空中管制采用不同的管制方式,针对飞行的不同阶段进行区域管制、塔台管制和进近管制;针对其指挥系统可以采用程序管制和雷达管制两种模式。这些管制模式都是空中管制人员要时刻掌握飞行动态,妥善安排航线上飞机的起飞和着陆顺序、减少飞行延误和等待时间,保障飞行安全。
2 空中管制模拟训练及语音指令识别
空中管制模拟训练需要借助于空中管制模拟训练机系统,它是一种仿真的系统程序设计,是训练管制学员和提升空中管制人员素质的有效手段。在当前的空中管制模拟训练中设有管制员席位和飞行员席位,然而管制教练员人数有限,因而长期是由管制学员轮流充当飞行员配合其他学员培训,效率极为低下。
语音识别引擎Sphinx——4是采用计算机java语言开发的先进的语音识别引擎,其原理是:让机器对语音信号进行识别和理解,方法是将语音信号转变为相应的文本或命令的技术,是在计算机技术应用之下的模式识别过程,通过比照、匹配技术得出基于统计模式下的语音识别结果,通常由声学模型和语言模型两部分构成。其模块结构和机制如下图所示:
2.1 预处理模块
这一模块是对输入的原始语音信号进行过滤处理,将无关紧要的信息及背景噪声予以排除,进行语音信号的端点检测、“语音分帧”和预加重处理。
2.2 特征提取
该模块是对语音信息中的本质特征进行保留提取,对于冗余的信息则予以去除,将反映语音信号特征的关键参数进行提取,形成特征矢量序列,便于后续的信息处理。
2.3 声学模型训练
这一模块是根据语音库的特征参数进行声学模型参数描述,是语音识别的再次匹配、比对的基础和前提。
2.4 语音识别
人的语音信号其本身是一种可观测的时变序列,它是基于语法知识和言语需要而发出的音素的参数流,该模块则是对人的语音加以模仿,并构建成一种语音模型。通过对待识别的语音特征参数与声学模型相匹配,从而得出识别结果。
语音合成技术,即Text To Speech,简称TTS技术,这是一种将文字转换成声音的技术,它利用两种技术进行合成:其一是基于单位挑选和波形拼接的语音合成技术;其二是基于马尔科夫(HMM)模型的参数语音合成技术。其语音合成引擎中的模块功能具有:文本分析、韵律建模、语音合成等重要功能。
3 语音指令识别和合成技术中的关键问题阐述
ATC指令是空中管制人员和飞行员之间的通话规范用语,具有发音高度清晰、单词的单一意旨和结构的祈使性特征,它应用于飞行的起飞、进近、着陆、航线飞行、地面滑行等各个阶段,种类庞大。
3.1 语言模型设计
这是基于自然语言内在规律之下的数学模型,是进行语音识别不可缺少的一部分,它通过与声学模型和发音字典共同匹配,产生语音识别的匹配搜索路径,并主要通过两种描述方式实现:基于文法的语言模型描述和基于统计语言模型的描述。前者主要依据人工途径;后者则借助于概率参数。
3.2 特殊发音的识别
陆空对接的通话规范要求严格,必须将发音相近的字母或单词进行严格的区分,尤其是指令中用于航班号、航向、航线代号、导航台名称等字符的发音,必须清晰而准确,避免陆空对接过程中的偏差和混淆。如:在空中管制的语音指令识别标准中对于A要读成Alpha、9读成nine等。
3.3 识别后处理
对于语音识别引擎所识别的语音输出结果还仅仅是一串字符串文本,不具有任何实质的结构和语义信息,也提供不了任何所需的格式。因而,语音指令识别与合成技术以ATC指令特征为基础,设计出了一系列的语义结构的分析与替换规则。
3.4 声学模型的训练
声学模型训练通过对人的语音特征信息进行过滤提取,建立声学模型,可以大大加强识别效果。它可以对各类指令进行训练,包括:塔台、进近、区域管制等指令训练、数字训练、字母训练等内容,在对空中管制人员进行声学模型训练的过程中,可以获取统计信息并进行更新。
总而言之,在陆空对接通话系统中采用了语音识别与合成技术,应用于空中管制中的塔台、进近、区域管制等领域,在以Sphinx——4为核心的语音指令识别与合成技术基础上,设计并实现了AIRSS空中管制语音识别系统,可以满足空中管制模拟训练机的基本训练,为实现自动机长席位的空中管制模拟训练机奠定基础,在系统更加完善的前提下,为空中航行安全提供安全保障。
[1]苏宝林.基于AVR单片机的语音识别系统设计[J].现代电子技术. 2012(11)
[2]马跃,杨磊,王巍.嵌入式语音识别系统的设计与实现[J].现代电子技术. 2010(05)
[3]张健,谭景信.语音命令识别技术及其在雷达模拟机中的应用[J]. 计算机工程与设计. 2010(03)