语音识别及端到端技术现状及展望①

2021-03-19张绍阳侯佳正张少博

计算机系统应用 2021年3期

鱼昆,张绍阳,侯佳正,张少博

(长安大学信息工程学院,西安 710064)

语音是采用一定语言规则通过人体发声器官发出的有规律的声音信号.语音识别(Auto Speech Recognition,ASR)是研究如何将语音信息转化成文本信息.语音的研究领域可以细分为语音识别、语音合成、声纹识别.其涉及到信号处理,自然语言处理等.在发展过程中经历了3 个阶段.一是孤立词识别,二是连接词识别,如连续数字或连续单词,三是大词汇量下连续语音识别.

自上世纪50年代开始,着手于最简单的数字识别任务,语音识别领域进入研究者的视野.到80年代,研究者们采用统计分析的方法使连续语音识别成为可能.在我国,50年代末有研究者采用电子管电路,对英语中的元音进行尝试识别.90年代,清华大学和中科院自动化所等单位在汉语听写机原理样机的研制方面取得有效成果[1].进入21世纪,深度学习的发展极大促进了语音识别技术.2017年,微软宣布了其在Switchboard 词错率(Word Error Rate,WER)降至5.1%[2],这意味一定条件下机器已经可以像人类专业速记员一样识别词语了.2018年阿里巴巴语音识别模型DFSMN 采用开源框架Kaldi 进行构建,在Fisher (FSH)数据集上测试词错率仅为9.4%[3].百度的模型在其自建的中文数据集上训练并测试,WER 低至7.93%,取得良好的效果[4].但是在复杂多变的应用场景中,识别准确率会大大下降.因此,语音识别领域还有许多问题需要继续研究和解决.

1 语音识别技术研究

1.1 语音信号特征提取技术

早在1952年,首先研究了特定说话人孤立数字,是由贝尔实验室的Davis 等进行的[5].1956年,RCA 实验室的奥尔森通过带通滤波器,实现了一些单音节词的识别[1].1959年,Fry和Denes 等通过频谱分析,对语音的特征进行提取,然后采用模式匹配的方法,识别元音和辅音[1].

一般认为,人们在10-30 ms的时段内,语音是稳定的,因此它是一个短时的时不变信号.一般的特征提取方法有:线性预测编码参数(LPCC),感知线性预测系统(PLP),梅尔频率倒谱系数(MFCC)等.

1980年,Davis 等在前人研究的基础上,做了大量生理心理学实验,得到了一组经验公式[6],频率转换公式为:

对每帧信号进行变换,采用信号处理中的短时傅

里叶变换:

其中,w(n)为窗函数.

1.2 动态时间归正(DTW)

RCA 实验室的Martin 等在1960年代末提出了时间归正的相关方法.同时苏联的Vintsyuk 也提出了采用动态规划方法来解决对齐问题[7].最终在70年代,日本学者Sakoe 给出了动态时间归正(Dynamic Time Warping,DTW)算法,也称动态时间弯折、动态时间规整,其将时间和距离计算结合起来,采用动态规划的思想进行归正[8].

假设首先根据统计得来某个语音的模板,其特征矢量序列为X={x1,x2,x3,···,xI},输入语音特征矢量序列为Y={y1,y2,y3,···,yJ},I≠J.递推公式为:

其中,d[i][j]=(y[j]−x[i])2表示xi和yj之间的欧式距离,dtw[i][j]表示DTW 距离,当算出dtw[I][J]时递推结束.

1.3 矢量量化VQ

70年代末,Buzo 等[9]提出了矢量量化(VQ),并将其成功应用.首先采用统计方法,将某个语音对应的多个信号划为一组,用中心矢量作为代表值.这样,就将d维无限空间划分为K个区域边界,每个区域称为一个包腔,当待识别的输入信号的矢量给定时,将其与这些包腔的边界进行比较,当输入信号属于某个包腔时,就被量化为此包腔的中心矢量值.包腔的中心称为码字,码字的组合称为码本.一般采用K-means 算法或LBG 算法获得码字.采用欧氏距离(均方差距离)度量.这种技术主要用于孤立词的语音识别.

1.4 GMM-HMM

从1980年代开始,CMU 使用VQ/HMM (Hidden Markov Model)实现了一个语音识别系统SPHINX.可以实现997 词的非特定人连续语音识别[10].隐马尔可夫模型是在70年代由Baum和Baker 等建立和应用的[11].

HMM 具有无后效性的特征,参数包含初始概率和概率转移矩阵,HMM 中的观察变量和状态通过一组概率分布相联系.这个隐变量和观察值的对应的统计规律,用高斯混合模型(Gaussian Mixture Model,GMM)表示.K 阶高斯混合模型是由k个高维联合高斯分布加权求和而得:

其中,N(x|µk,Σk)称为混合模型中的第k个分量,πk称为混合系数,满足:

对于语音来讲,同一个音素可能在不同情态下的发音方式区别很大,语音特征区别也就很大,因此需要用多中心的分布来对应一个HMM 中的状态,因此两者结合起来,就形成了GMM-HMM 方法.它由一组参数描述:N,状态数目;π,初始状态概率;A,状态转移概率矩阵;B,观察值概率分布.

GMM-HMM的训练分为两步,首先是求GMM的参数,语音字典建立后,语音和音素状态建立了多对一的对应关系.将同一个音素状态的所有语音的特征进行分别提取,用这些数据建立一个GMM 来对这个音素状态进行拟合.重复这一过程,将所有的音素状态分别建模.第二步是对HMM 中的参数π和A进行估计(训练),即给定一个观察值序列O=o1,o2,···,oT,确定一个λ=(π,A,B),使P(O|λ)最大.一般使用Baum-Welch算法进行,类似于EM 算法,利用递归的思想,使P(O|λ)取得最大值,最后得到模型参数组 λ=(π,A,B).至此,GMM-HMM 模型的训练完成.

使用Viterbi 算法进行预测.即给定观察值序列O=o1,o2,···,oT,和模型λ=(π,A,B),确定一个最佳状态序列Q′=q′1,q′2,···,q′T.定义δt(i)为时刻t状态为i的所有单个路径 (i1,i2,···,it)中概率的最大值,φt(i)为时刻t状态为i的所有单个路径(i1,i2,···,it−1,i)中概率最大的第t-1 个节点.

1.5 基于深度学习的语音识别

1980年代,人工神经网络(ANN)被引入到语音识别[2].但是由于计算能力的限制和人工神经网络的理论不完备,采用人工神经网络方法的语音识别并没有更加蓬勃的发展起来.

1.5.1 引入DNN 到语音识别

2006年,Hinton 等提出了深度置信网络(DBN)[12],贪婪的逐层无监督学习算法是其核心.通过先使用DBN 来对多层感知机进行预训练,然后通过反向传播算法来进行微调,提供了一种解决深层网络优化过程中过拟合和梯度消失问题的有效途径.Deng 等促成了这一实践的成功[13].他们使用深度神经网络DNN(Deep Neural Network)代替传统的GMM-HMM 系统中的GMM,以音素状态为建模单位,提出了DNN-HMM的识别方法(如图1),显著降低了误识率,使其进入到真实用户可以接受的范围[14].和GMM-HMM 相比,DNN替换了GMM,语音信号的状态与观察值的对应采用深度神经网络来进行建模拟合.

图1 DNN-HMM 结构图

DNN的输入可以是MFCC 特征,也可以是更底层的滤波器组(Filter BanK,FBK)声学特征.输出矢量的维度对应到HMM的状态的个数.

1.5.2 CNN

使用CNN 来进行语音识别,主要是将卷积层和池化层堆叠起来以获取更高级别的特征,这些层的顶部,有一个标准的全连接层,代表HMM 状态,它对网络中训练出来的特征进行整合.LeCun 等首先提出了沿时间轴进行卷积的语音数据CNN[15].这样可以获得相对较小的时间偏移,获得具有鲁棒性的特征.

Abedel-Hamid 等[16]通过沿频率轴而不是时间轴应用卷积和最大池化,实现了重大的提升.发现沿频率轴的卷积会产生对小频移具有较高的鲁棒性,这对于说话者或情绪变化具有较好的适应能力.越来越多的研究人员在时间轴和频率轴上探索了卷积的方法.

这些探索和试验表明,在DNN-HMM 模型中,CNN的性能优于完全连接的DBN.这是由于DBN 以任何顺序解释输入,但实际上语音的特征与频率和时间上紧密相关,权重共享使得CNN 可以捕获这些局部相关性.其次,权重共享和合并有助于CNN 捕获等变差异并获得更好的鲁棒性及稳定性.而对于DBN,若要在较小的频率和时间偏移上捕获此类不变性,需要大量的参数.

Sainath 等[17]证明,对于大型词汇任务,CNN的性能比DBN 更好.这些实验进行了细致的优化手段,包括超参数调整,有限的权重分配和序列训练.Chan 等[18]对低资源语言基于CNN的声学模型进行的研究得出,在低资源语言条件下,CNN 能比DBN 提供更好的鲁棒性和更好的泛化性能.

1.5.3 RNN

语音信号是一种时序信号,模型如果能够对其时序动态信息进行有效表示,将大大提升效果.DNN-HMM的系统中声学模型是DNN和HMM的混合.而RNN(循环神经网络)通过在隐层上增加反馈连接,当前时刻的输入分为两部分,一是当前时刻输入序列产生的输入,这部分和普通的前馈神经网络是一样的,传递的神经网络获取的特征表示,二是由上一时刻保留的记忆信息,产生的输入.通过这种机制,RNN 可以利用到之前的信息.

蒋大伟跟着跑到郑馨身旁，问：怎么回事？郑馨委屈地：你别问了！我们走！蒋大伟说：钱还没要呢？怎么又要走？郑馨说：我说过，我不想见他！蒋大伟不解地：到底怎么回事？你还隐藏着什么？郑馨大声地：我再说一遍！你不要再问了！蒋大伟也大声地：我必须问！我辛辛苦苦拉你来要钱，说了不到两句就要走！你到底是想要钱还是不想要钱？搞了半天你不是辞职的，是被开除的，你这不是玩我吗？郑馨突然爆发地：闭嘴！你知道什么？就是那个该死的王运丰，他想占我便宜，天天骚扰我威胁我，我才神情恍惚出错的！他想用赶我走逼我就范！现在明白了吧？

研究人员对HMM-RNN 混合模型进行了实验[19],但结果与基于DBN的CNN 声学模型无法相提并论.Graves 等[20]提出CTC (Connectionist Temporal Classification)损失函数,使神经网络能够学习字符序列和未分段语音之间的对齐关系,从而避免了使用HMM来进行强制对齐,实验中,在TIMIT 数据集上表现优于HMM-RNN 混合方式.文献[21]在HMM-RNN的基础上,提出使用深度双向LSTM 作为其声学模型,并在TIMIT 数据集中取得了较好结果.文献[22]中对这种声学模型的进行了进一步的研究,通过使用上下文相关的语音单元,使用LSTM 输出空间的上下文相关状态和采用分布式训练方式等方法,取得了一些进展.

1.5.4 端到端技术

传统的语音识别模型通常包含声学模型(Acoustic Model,AM)、发音词典(Lexicon)和语言模型(Language Model,LM)三部分组成.每一部分都需要单独的学习训练,端到端(end-to-end)的机制可以使得模型的训练摒弃发音词典和语言模型,真正实现直接从语音转录成文本.端到端主要有两种实现,其中一种是上文提到的CTC.另一种是基于注意力机制(attention)的编码器-解码器(encoder-decoder)模型,由Chorowski 等于2014年首先应用到语音中的音素识别上面[23].

如图2所示的CTC 方法最为常用,是对RNN的一种改进.一般来说,输入特征序列与音素的对齐关系并不确定,而且,按照划分,音素序列长度远远小于语音按照10-30 ms 分帧后的序列长度,然而,RNN 模型中的标注序列和输入序列必须是对应的.这样的结果就是不管是基于DNN-HMM 模型还是RNN-HMM 模型都得首先采用GMM-HMM 训练进行强制对齐.CTC 在标注符号集中加入了一个空白符号(blank),它意味着此帧没有预测值输出.因而在模型的预测输出中就包含了很多空白符号,一个音素对应的一整段语音中只有一个尖峰被识别器确认,其他都被识别为空白,结果相当于自动的切分了音素边界,实现了将空白符号和连续出现的状态进行了消除,就能得到最终预测的字符序列.Hannun 等[24]采用了带有双向递归层的5 层RNN,经过CTC 损失训练以及语言模型来纠正,在Switchboard 数据集上获得了当时最好的结果.同时他们还提出了一些优化方案.Amodei 等[4]在这基础上,使用有13 个隐层(包含卷积层)的模型取得了更好的结果.

图2 CTC 方法

Attention 机制最先应用于机器翻译中,并在机器翻译中取得了较好的效果.其主要思想就是通过编码器(encoder)将原序列转换成一个固定长度的隐层表示,然后解码器(decoder)再根据这个隐层表示生成解码序列,生成解码序列过程中考虑当前解码输出与隐层表示中哪一部分最相关,这部分就是注意力机制,其结构如图3.

在这个模型结构中,每一个条件概率的输出定义为:

其中,yi表示第i时刻解码输出标记,X表示编码器输入,yi−1表示上一时刻解码输出,si表示i时刻的隐层状态,ci表示上下文向量.其中si计算公式为:

上下文向量ci是编码器输出隐变量hi的加权和.

其中,αij即注意力权重.其计算过程如下:

其中,eij=score(si−1,hj),表示注意力机制的打分结果,实际上相当于一个相关性计算,具体的分数计算有多种方式,其反映了上一时刻隐层状态si−1与向量表示hj之间的相关性.

图3 Attention 基础结构

Encoder-decoder 结构是针对序列到序列的问题提出的,一般采用RNN 及其变体(LSTM 等),目前常用的就是采用Bi-LSTM 作为encoder.由于decoder是对上一时刻输出的依赖,对于decoder的改进较难,但对encoder的研究取得了一定的进展.

Facebook 在2017年提出ConvS2S 结构,把卷积结构首先引入机器翻译问题中,并且一度获得最好的效果[25].由于没有时序结构,因此需要在embedding的基础上面增加位置信息,模型中将position embedding(pi)与原来的embedding(wi)直接进行相加,因此模型的输入序列为e={e1,···,em},其中ei=wi+pi.Decoder 在每一时刻的输入g={g1,···,gm},同样由两部分组成,分别是上一时刻输出的word embedding 以及对应的position embedding.Decoder 中第l 个block的输出定义为encoder 中第l 个block的输出定义为通过堆叠卷积结构,能够扩大感受野的面积,越高层结构获得的上下文信息越多.模型中使用了残差连接和GLU (Gated Linear Units).不同于一般的encoder-decoder 结构,这里的注意力机制使用了multi-step attention,在decoder的每层中都计算注意力机制分数.

ConvS2S 将CNN 引入到Seq2Seq 中,这样既可以处理序列变长的问题,又可以实现在序列不同位置的并行计算.RNN的另一个缺陷在于,对于一个长度为n的序列,要建立长时相关,需要经过O(n)次运算,而对于卷积核宽度为k的多层CNN 来说,则需要O(n=k)次运算.

受限于LSTM的计算速度问题,常见的Seq2Seq结构都采用的是浅层结构,Zhang 等[26]受Very Deep CNN 在ASR 任务中的优秀表现启发,提出使用更深层的网络来进行序列编码,代替浅层encoder.使用了Network-in-Network(NiN),Batch Normalization(BN),Residual Networks(Res-Nets)和Convolutional LSTM(ConvLSTM)等方法构建模型.借鉴NiN 中的1×1卷积,来增加网络的深度和模型的表征能力.BN和ResNets 方法有助于训练更深层的结构.ConvLSTM中使用卷积操作代替LSTM 内部的内积操作.实验在WSJ数据集上进行,结果显示模型获得了WER为10.53%.

Chan 等[27]提出新的ASR 结构,即LAS (Listen,Attend and Spell).主要包含两部分,Listener是金字塔型的循环网络编码器,接受滤波后的频谱作为输入.Speller是基于注意力机制的循环网络解码器,以之前的字符和声音序列为条件预测字符.提高了编码的速度,每层都会将时间步减少一半.

这里的金字塔结构采用每层合并上一层相邻的2 或3 个时间步,其中character distribution是前馈网络结构.

对于attention 机制的探索也是一个重要的研究方向.Attention的核心思想就是计算当前要解码序列需要的输入信息与上下文信息之间的相关性.相关性的计算就是:eij=score(si−1,hj).

文献[28]中直接进行计算,这种方式没有考虑两个向量位于不同的特征空间,直接计算打分结果.常见的有:

文献[29]指出打分过程应参考上一时刻的注意力权重,那么打分过程成为:score(su−1,αu−1,ht).

Hard-attention是文献[30]在image caption generation任务中提出的.常见的注意力机制是经过Softmax 层输出之后有不同的权重,是一个向量,里面元素都是范围在[0,1]之间的小数,和为1.而采用hard-attention 之后,注意力向量中的元素只有一个是1,其余的都是0,也就是在每一个时间步,模型只关注一个位置.向量是One-hot 形式.

而soft-attention 更常见一些,即注意力向量中的不同位置的权重值不同,这样的soft-attention是光滑的且是可微的.文献[30]中还对注意力机制进行了微调.β=σ(fβ(su−1))

其中,,用来调节上下文向量在LSTM中的比重.

文献[29]中考虑为了使得hu中的元素更加具有区分性,可以考虑把权重换成矢量 αu,t.文献[28]中提到global-attention和local-attention,global 就是在decoder 计算注意力权重的每一时刻都考虑全部的上下文信息,赋予不同位置的上下文信息不同的权重,并加权求和.一方面这样有很大的计算量,另一方面在语音识别中,两种序列时序一致,注意力只需要集中在时序对应的位置,因此采用local-attention 有助于实现sequence-to-sequence.Local 方式就是上下文向量的计算每次都只关注到几个源隐藏状态.它是可微的,因此更加容易训练,分为local-m (local monotonic alignment)和local-p (local predictive alignment)两种计算方式.pt是关注的焦点,距离中心pt越远,其位置上的源隐藏状态对应的权重则被压缩的越厉害.

文献[31]最先提出了Multi-Head Attention (MHA).MHA 在传统注意力机制的基础上扩展了多个head,每个head 能够生成不同的注意力分布.这个允许每个head 在对应编码器输出的时候,可以扮演不同的角色.这种方式能够帮助解码器更容易的从编码输出中检索出所需要的信息.传统的single-head attention 更加依赖于编码器提供清晰的隐层表示以使得Decoder 能够挑选出重要的信息.MHA 趋向于分配一个head 去关注语句的开头,语句的开头往往包含大部分的背景噪声.为了确保MHA 在训练过程中确定能够关注到不同的位置,一些研究者在损失函数中增加正则项,以确保多个MHA 之间存在差异.

纯attention 方法虽然取得了不错的效果,但是在训练过程中存在着明显的收敛速度慢,震荡幅度大等问题.这很大程度上在于一开始attention 注意范围太广,难以收敛.文献[29]提出使用CTC 辅助attention模型的训练,实验表明这种方法能够极大的提高模型的收敛速度.模型成功的关键在于在损失函数中引入CTC Loss:

在CTC 辅助训练的情况下,原本需要9 个epoch才能收敛的模型在5 个epoch的时候已经收敛了.在解码阶段,如果对应于attention的decoder 中非OOV(Out Of Vocabulary)的词汇,则使用对应的输出.如果最大概率的输出是OOV 标记,则使用CTC 中的结果进行代替.为了实现混合解码,CTC 部分除了增加blank,还应该增加一个词边界标记wb.

Transformer是最初在机器翻译领域中获得了成功.其解决的问题主要是提高encoder的并行度.其中关键的点就是self-attention和MHA 两种机制.Selfattention是每个词都要和所有的词计算attention,可以捕获长距离的依赖关系.MHA 中不同head 学习不同的子空间语义,关注编码器输出的不同部分.

其中,Q表示query,K表示key,V表示value,在selfattention 时候,Q=K=V=inputs.

同时,经过对attention的一系列探索,一些优化手段被总结出来:采用大的建模单元,如子词或词等,这样的建模单元更加稳定并且有助于语言建模.文献[32]采用label smoothing 方法来避免模型对于预测结果过于自信.文献[33]使用最小化词错误率的方式进行区分性训练.模型除了训练和推理过程训练时通常使用CE,而在评价阶段使用WER 等.

近两年,虽然在学术领域语音识别已经取得了接近极限的实验结果,但研究人员对端到端语音识别的研究仍然在不断拓展和尝试.文献[34]采用深层Transformer,认为其具有的高学习能力能够超越以前的端到端方法,甚至可以比肩传统的混合系统.对编码器和解码器使用48 个Transformer 层训练,使用随机残差连接,极大地提高了模型泛化性能和训练效率.文献[35]提出Jasper 模型,其使用了一维卷积,批量归一化,ReLU 激活,dropout和残差连接,同时引入了一个称为NovoGrad的分层优化器.通过实验,最多使用了54 个卷积层的模型系取得了良好的结果.文献[36]针对于在线应用问题,认为BLSTM 虽然代表了端到端ASR的先进技术,但不适合流应用程序,因此提出时延LSTM (TDLSTM)和并行时延LSTM(PTDLSTM)流,它们都限制了时延大小,保证了在线应用的效果.

1.5.5 复杂噪声环境下的语音识别

语音识别系统往往受到噪声干扰,使其性能大大下降.在前端添加可以把目标说话人的声音和其它干扰分开的处理过程,就可以提高语音识别系统的鲁棒性,从而提高准确率,因而这已成为ASR 系统中无法缺少的一环.这种对语音进行去噪、分离、解混响的任务统称为语音分离.根据干扰的不同可对领域进行细分,当干扰为非语音噪声时,称为语音增强;当其为其他说话人的语音时,称为多说话人分离,当其为目标说话人自身的反射波时,称为解混响.

传统的语音分离方法有谱减法、维纳滤波法、卡尔曼滤波法等.深度学习方法流行后,研究人员采用了DNN、LSTM和CNN 等进行模型构建,取得了良好的效果.文献[37]采用GAN 作为模型,将生成器全部设置为卷积层,减少了参数和训练时间,判别器负责向生成器提供生成数据的真伪信息,从而使模型参数逐渐向生成纯净语音方向变化.训练目标一般包括两类,一类是基于Mask的方法,另一类是基于频谱映射方法.基于Mask 方法主要有理想二值掩蔽(IBM)和理想比率掩蔽(IRM),都是根据听觉感知特性,将音频信号分成不同的子带,根据不同的信噪比,将能量设置为0、1 或者相应比率.频谱映射采用谱特征,让模型通过有监督学习,使其自己能够学习到有干扰谱和无干扰谱之间的映射关系[38].文献[39]在CHiME-5 挑战数据集上取得了良好的成绩.其首先进行多通道解混响与增强,再进行单通道去噪,采用调整的波束成型方法和说话人相关训练,测试达到了60%WER的效果.文献[40]结合了频谱特征和空间特征训练网络,从估计的方向和特定的频谱中提取目标语音,可以不需要已知麦克风数量和位置.采用目标语音的时频单元估计方向,结合深度聚类及采用置换不变训练目标函数的Chimera++网络,集成时频掩蔽的波束成型技术,使系统有了强大的分离随机排列的麦克风场景语音和解混响能力.

2 当前面临的挑战及发展趋势

对于语音识别和端到端系统来说,学界已经研究的相当深入,当前主要的研究热点在于,一方面是将已经成熟的机器视觉和自然语言处理方向的方法理论迁移到语音领域,一方面是继续深挖已有端到端技术下的各种微调和优化手段,不断提升识别性能和鲁棒能力.当前主要的挑战有两方面,一是技术方面的,另一个则是数据和工具方面的.

从技术方面来说,首先,attention 应用到ASR 中,和原来应用在机器翻译领域不同,ASR 问题语音信号和文本序列之间存在着明显的时序对应关系,需要考虑如何在模型中应用这种时序对应关系帮助我们进行模型训练.同时,翻译问题中文本中存在着明显的词边界,其encoder 能够提供更加清晰的隐层表示,对于ASR,需要考虑怎么获取更加清晰和更加有区分性的隐层表示.其次,相比于传统AM,LM,发音词典独立的模型结构,attention 方法在建模语言之间的关联关系方面存在着缺陷,怎样能够在不增加整体语音语料和语言模型的情况下,提高模型对于表征单词之间联系的能力.第三,随着建模单元的逐渐增加,怎么更加高效的解决诸多未登录词问题.因此,目前CTC和attention方法可能都不是最优的端到端建模的方法,探索新的建模方法也是未来的重点之一.

从数据和工具方面来说,深度语音识别的实践存在阻碍.一是高质量数据集较难获取,语音数据的收集和标注费时费力,只有大企业才有获得这些数据的入口,而更多的研究者在进行研究时因为数据问题而无法得到较好结果,只能转向传统的GMM-HMM 方法;二是深度语音识别的框架和工具还有待更新和简化,这样才会将技术壁垒进一步消除,使得更多的研究者能将语音识别应用到更广阔的场景;三是当前识别的评价指标的指向不够泛化和实用,往往在一个数据集上表现好的模型不一定在其他数据集上同样优秀.

因此,当前深度语音识别研究的主要趋势就是不断深入研究端到端模型及其各种优化方法,同时,探索用于迁移学习的工具和数据策略,使得语音识别也能像机器视觉领域那样遍地开花,大大提高整个社会的人工智能化水平.