语音识别预处理过程及其存在问题

2019-05-10付学桐

科技传播 2019年8期

付学桐

摘要随着人工智能和网络自动化工程的不断发展，人机交互模型发生了天翻地覆的变化，传统的文字交互模式已被各种新型交互技术所取代，其中语音识别就是最为典型高效的一种。语音识别可以有效地将人类语音转化为文字并识别，目前已广泛地应用于文字输入等多个领域，在语音识别的整个流程中，预处理阶段决定了其识别成功率和效率。文章从语音识别的过程讲起，详细分析了语音识别预处理过程，并对其未来发展进行了展望。

关键词语音识别；预处理；端点检测；采样定理

中图分类号 G2 文献标识码 A 文章编号 1674-6708（2019）233-0135-02

随着当今人工智能的迅速发展，语音识别技术取得了较大的突破，在商业、军事、民用等方面语音识别都得到了广泛的运用。目前国内外已有许多对语音识别领域的研究和产品，如苹果手机的Siri，微软的Cortana，百度的智能音箱，科大讯飞的讯飞语音输入等产品。语音识别之所以得到空前重视，从根本上说，也就是源于语音识别所带来的简便性。在人工智能中，尤其重要的一点就是要让机器人知道人类要做什么，所以务必要将人的指令转化为计算机可以识别的代码数字，常见的方式有图像、动作、语音转换等。而语言就是最直接最简单的转换方式，但在其识别系统中，一般要将其在理想环境下训练成运用于复杂含噪环境中的语音识别系统。语音识别预处理过程是整个语音识别处理过程的前端环节，负责将复杂无规律的语音信号转化为可供计算机识别的数字信息，对提高语音识别效率和成功率起着决定性作用。

1 语音识别技术概述

语音识别属于新兴技术，目前尚未有一种严格规范化的定义，通常被认为是一种将人类语音信息通过软硬件转化为文本信息的计算机技术，由于其的特殊属性，也有科学家将其归类为自动化技术。语音识别的技术体系复杂，主要包括基础的发声机理、声波传播、信号学，高级的模式识别和人工智能理论，数学上的概率论和数理统计也有所涉及。语音识别的整个过程基本可以归纳成以下的步骤：输入—接收语音—预处理—特征提取—对比—翻译—输出。

简单地说语音识别第一步就是将接受到的语音信息进行一定的处理，将其切成一小段一小段的语音片段，再通过波形转换，将每一小段语音变成一个多维向量，再将其向量与自身数据库中的进行对比，选出概念大的向量，转化成数据库中所对应的状态号，最终将各个词汇拼接从而得到语音识别的结果。在特征提取之前，有一项极为重要的流程——预处理。预处理是语音识别过程的前端，所以也叫做前端处理，其目的是通过对原始语音信号的处理，使其更好地被转化为特定的数字量，以便进行特征识别，提高语音识别的成功率和效率。如果语音识别中不做前端处理，则计算机就无法判断该音频从何开始，又从何结束，同时大量的噪音也大大降低的音频的准确度。所以即使系统已收集可以比对的大量数据，可接收的语言无法转化正确的状态号，一切都无法达到相应的指令。可以说语音识别的预处理就相当于系统的眼睛，所以预处理在整个过程中极其重要[ 1 ]。

2 预处理方法及其技术

预处理的常用方法有端点检测、声道转换、预加重、去加重、分帖、加窗、重采样等，不同的语音识别在预处理顺序上有一定差别。

2.1 端点检测

对语音信号进行时域分析，可以明显地辨别出原始语音信息包含有声段、无声段和浊音段，端点检测则是通过区分以上不同段的信号来达到区划语音的开头与结尾，端点检测的唯一目的就是找到语音信号的起始点与结束点。端点检测最常用的方法就是双门眼检测法。双门眼检测法是通过计算门限能量的方式来判断语音端点的技术，一般会在语音识别之前设置双门的门限λ，然后分别计算每个时刻的语音能量，若该能量大于门限阈值，则新生成门限序列为1，反之则为0，从而得到门限序列后，将其点乘原始语音序列，得到有效语音序列。语音能量的计算公式为：

2.2 预加重与去加重

在实际应用过程中，语音信息往往夹杂着环境中的各种其他声音信息，由于人类发音的特性，语音信息经过频率转换后往往大部分集中于低頻带，从而使得低频能量过大，高频能量过低，计算机难以有效提取高频语音信息。为了抵消掉这种情况，预处理阶段使用预加重技术，在语音信息的处理阶段预先添加与原始语音高频信号，通过叠加之后，原始语音信息在高频和低频段的能量相当，使得识别效率明显提升。而在语音识别系统的输出端，则需要做相反的处理，也就是去加重，采用相反的负能量信号将添加的高频成分去掉，从而还原原来的信号分布，有效提高声音信号的信噪比[2]。

2.3 分帧与加窗

分帧从简单来说，一段信号整体是不稳定的，但从局部来看，信号是稳定的，所以要想接收端接收平稳的信号，就需对整段语音进行分帧，也就是切成几段。但是需要注意的是，根据香农定理（Shannons Theorem），分帧越多地声音片段，其开始段和结束段会存在声音不连续的现象，导致了分帧的帧长越短，信号的误差就越大。为了解决此问题，语言学家提出了利用带通滤波器来过滤的方法，也就是加窗。常见的三种窗函数是矩形窗、汉明窗和汉宁窗，其数学公式如下。

实际系统中，语音信号处理一般加汉明窗，就可以满足绝大多数种语音情况。语音识别的加窗类型受到许多因素的影响，包括不同说话人的发音方式、说话方式、环境噪音、传输信道衰落等，实际应用时需要根据不同的情况选择窗。

2.4 重采样

根据信号学中的奈奎斯特采样定理（Nyquists Theorem），再信号采集时，如果采样频率满足采样频率大于2倍最高频率时，经过采样后的信息可以原本保持的所有特征信息。根据这一定理，语音识别系统中通常采用重采样技术，也就是限定采样器的采样频率为最高频率的5～8倍。根据人类语音信号50Hz～6kHz的频率范围，可以得出重采样器的采样频率为约16kHz左右，重采样可以保证语音中的所有信息均被送至特征识别环节中[ 3 ]。

3 语音识别预处理缺陷及其解决方案

语音识别的局限性主要在语音源的多样性，据相关资料显示，全世界当前一共有超过1 000种语言，而其中常规语言也就多达数十种，语言识别对于各种语言的适配是一项长期的过程。同时，类似于中文中的四川话、广东话、上海话，各种大型语言中都有其特定的方言，且使用频次很高，这些方言在语言词汇和字符发音上都和传统的语言不同，训练语音识别系统适配方言也是亟待解决的问题。当语音信号在传播过程中有所衰减，为了在保留细节的情况下还原声波，人为可以利用前置声音放大器的方式解决。在回声消除和空间降噪方面，笔者认为可以利用多麦克风采样技术作为解决方案。区别于一般的单一麦克风采集技术，多麦克风技术搭配多通道采样技术，分别将人声的高、中、低频波段分别采集，同时将不同时间到达的声音区分开来，在已知噪声特性的情况下，可以有效降噪，提高人声的辨识度[ 4 ]。

当前语音识别的发展问题主要存在于两种：一是反复说话识别，顿挫识别。往往生活中由于某些人的语言习惯，可能会出现反复出现某个词语，或说话结结巴巴。针对这一问题，就要加强端点检测的端点的选取，正确选取语音的头尾，去除话语中间隔的空隙，使一段断断续续的话变成一段联结的话。同时在处理中，可对某些重复出现的词语进行适当的删减，增加识别的速率。二是自然语言处理和字典的扩充。由于语音识别运用时的外界环境的复杂性，可能会出现方言，别的语种类型的语言。而解决的首要之举就是增加数据库中的数据，从而扩充字典，达到有效的预处理[5]。

參考文献

[1]陈慧，芮贤义.基于VC++的汽车语音驾驶助手的设计与实现[J].电声技术，2016，40（8）：36-39.

[2]钟浩，鲍鸿，张晶.一种改进的语音动态组合特征参数提取方法[J].电脑与信息技术，2017，25（3）：4-7.

[3]陆振宇，何珏杉，赵为汉.关于多通道语音去噪的识别优化研究[J].计算机仿真，2016，33（6）：315-320.

[4]胡郁.人工智能与语音识别技术[J].电子产品世界，2016，23（4）：23-25.

[5]张晓丹，黄丽霞，张雪英.关于在噪声环境下语音识别优化研究[J].计算机仿真，2016，33（8）：172-176.