人工智能下深度学习的语音识别方法分析

2020-02-03张国锋

电子技术与软件工程 2020年11期

张国锋

（东莞市经济贸易学校广东省东莞市 523000）

通过深入的探讨和研究，我们发现指令是人们在日常的语言交往过程中的一种重要因素，我们可以通过指令让某人完成任务，因此人们开始思考用语言命令人工智能。在学术界的出现了“语音识别技术”这个新鲜名词。正是由于语音识别技术的出现，把人类语言和人工智能完美的融合在一起，透过计算机来接收人类语言信息，通过指令来理解人类语言，智能地实现人与电脑的交流，达到向计算机传递命令的目的。

1 语音识别发展的概述

1.1 理论研究领域

语音情感识别方面存在两个基本问题：

（1）如何行之有效地界定与分类情绪。

（2）如何建立情感模型。

关于建立情感模型的问题，其主流上有两种情绪描述的模型：离散情绪模型和连续情绪模型，其在二维空间的分布情况图如图1所示。

离散情绪模型将情绪分为快乐、愤怒等多种类别，由于人类情绪状态的复杂性，对基本类型的情绪状态的研究已逐渐成为离散情绪模型的第一问题。根据这一原则，情感可以分为主情感和次情感，其中主情感是所有生物共同拥有的。人类的情感可以分为基本情感和次要情感。其中基本情感又细分分为痛苦、惊讶、愤怒、厌恶、恐惧、内疚以及轻蔑等。次要情绪是基本情绪的组合。由此可见，情感分类方法有一些共同特性，其中悲伤、愤怒和幸福被视为人类的主要情感的观点被广泛接受。

随着目前科技的快速发展，传统的语音识别模式很难满足现代人的需求，过去很多智能机器虽然都设置了语音识别软件，实现了初步的人类和计算机的对话功能，但是在算法等领域，语音识别技术的发展开始进入了寒冬期，难以突破。在今后的研究过程中，要加强对语音信号发生、传输等领域的综合分析，全面发展这项技术[1]。

1.2 应用研究领域

近几年，互联网有了更加显著的发展和扩大，让我国的社会人民从信息时代进入到了智能时代，语言识别技术的研究将完全符合时代发展趋势，使人们能够从多渠道、多角度获得最原始语音信息，以前对该领域的研究停留在算法上，很难充分发挥数据信息的作用。

2 语音识别的本质的相关理论研究

2.1 语音识别系统的基本原理

语音识别功能是指依靠有效手段将语音中所包含的语音类数据转换成计算机系统可识别的信息，从而为人或机器等提供服务功能。语音识别系统一般由声学的特性采集提取后处理、声学类相关模型、语言类相关模型以及解码器等相关模块所构成。其大致的工作原理是：从所采集的语音数据模型中提取所需特性信息，通过训练等方法建立一定的声学模型，与语音模型相互匹配，最终通过科学算法对此类信息进行解码处理，从而得到与原始数据的内容相一致的文本类数据信息。语音识别系统的机构简图如图2 所示。

图1：情感二维空间分布图

2.2 隐马尔科夫声学类模型

为了更准确地表示语音内部的时间序列与隐藏状态之间的关系，超过半数的语音识别系统都会选用隐马尔可夫模型（简称HMM），然后完成声学类模型的建立，其模型结构简图如图3 所示。HMM 对动态时间的序列拥有建模能力强的特点。它的本质是概率类数学模型，用参数表示随机的统计学特性及状态。隐马尔可夫模型由两大部分组成：固定状态数HMM 和显式随机函数HMM。这两部分之间有对应关系。这样，我们可以通过观察序列的相关信息来获得隐式过程的信息。

在语音生成和HMM 过程中有许多共同的特点：根据场景的需要和预定的语法相关规则，大脑不断地向语音器官输出一系列指令。这一过程是不可被观测的，它与状态的转移有着相应的关系。语音指令发出后，器官所形成的声音信号直接关系到人们的心理以及生理状况，但总体上仍表现出较为规律的统计学特性[2]。因为HMM能够分析语音的全局非平稳特性和局部区域的平滑特性，可以根据语音的时间序列信号来建立相应的声音模型，因此其在声学建模中得到了广泛的应用。

3 在人工智能下深度学习作为基础语音识别方法的分析

3.1 加强人工智能下的语音识别系统的特性分析识别

语音信号的特征提取与使用是语音识别系统的第一项重要步骤，其主要的目的是量化语音信号所携带的众多相关信息，得到在一定程度上可以代表语音信号区域的特征点，并对声学类模型进行进一步的分析以及处理。深度学习的良好效果在图像识别方面得到了很好的体现，而其在语音识别方面的特点也显示出了其比传统方法具有更大的优势。其特殊的训练策略可以为神经网络提供良好的初始权值和偏差，使神经网络模型在实际训练时不会走进局部最优性解的误区，而是将结果收敛到较为合理与可行的极值点。深层神经网络模型能够学习描述原始音素及其相关数据的最本质的特点，从而增强数据的可分辨性和语音识别系统的工作性能。与此同时，利用深度神经网络的方法学习深度特征信息，可以保证原始信息在进行降维操作后不被破坏，而是仍然维持较为高水准的识别成功率。利用深层的神经网络对原始数据进行逐层映射，能够提取出能较好地代表原始数据的深层次的本质特点，从而提高了传统的语音识别系统的工作性能。

图2：语音识别系统结构简图

图3：隐马尔科夫声学类模型结构简图

3.2 加强声学特性以及运动学特性在语音识别系统中的应用

伴随着新兴的人工智能技术的飞速发展，人们内心对人机交互方面相关技术也有了更高的期望值，希望其在交流过程中具有一定的感情，因此基于人工智能下的语音识别系统正逐渐的将语音情感识别等相关功能加入其中。识别与分析一段语音中的情感类信息并在其中提取所需的情感特征是一个非常繁冗且复杂的过程。单单是通过言语识别声音发出者的情感本就有其自身的局限性。因此，将面部的表情、语音器官运动的数据、运动学特性和声学特性等众多相关信息集成到语音情感识别功能中具有里程碑式的意义。需要注意的是，由于语音器官运动的数据采集的难度系数较高，具体执行难度较大，而较为传统的语音识别中对于情感识别的部分仅限于声学以及统计学的识别。然而，随着科技水平的飞速发展，越来越多的特征如面部表情的运动相关数据、器官的运动相关数据、声学系统相关数据正被采集并逐渐将其融入到人工智能下的情感语音识别系统的行列中。深度学习模型中需要大量的数据支持，加入语音器官的运动特性和声学系统特性可以较大的扩展样本数据，从而进一步地优化情感语音识别的模型。我们在情感特征的提取、采集和分析工作进行了大量的研究，可以帮助人工智能下的智能产品更好地采集与识别人类的情感状态，从而促进人机交互技术的进一步的发展。未来，语音识别系统将会通过深入学习，使人机交流过程真正具有情感性。不仅要识别情感，还要更好、更快、更准确地识别以及分析不同年龄、性别或者发音习惯的情感类相关声音。

3.3 提高人工智能下的语音识别系统训练模拟的强度

深层次神经网络系统可以利用语音预处理后的数据完成语音识别功能的模型训练。由于网络模型的层次深，网络的结构复杂，在训练过程中需要调整大量的参数信息[3]。利用自编码的模型可以减少模型陷入局部最优解以及过拟合等问题。语音识别的仿真训练主要是为了使语音识别系统更好地掌握其所需的语音特性相关值。向语音识别系统中导入大量的数据进行多周期训练能够更有效的提高语音识别系统的识别效果。除了在语音识别的系统中添加模拟的训练模板之外，还应该对模板数据库中的字符进行识别。加入更多的相似词能够更好地提高语音识别系统的识别准确率，从而避免较低层次的错误。扩展和添加语音识别的模式能够从根本上加强语音识别系统识别语言信息匹配程度，从而加强语音识别系统的工作性能。另外，语音识别系统本身需要采集分析以及掌握各种语言，因此添加语音模板是训练语音识别系统的较为行之有效的方法。

4 发展前景

基于人工智能深度学习的语音识别方法的研究具有以下优势：主要内容如下：

（1）逐步提高语音识别系统的准确性和准确率，从而能够为用户提供良好的经验。

（2）提高智能语音系统的硬件的逐步发展，提高稳定性和可靠性，从而扩大产品的使用范围。

（3）从产品到产业体系，实现语音服务模式，发展成为一条成熟的产业链。

（4）在把智能语音发展成人工智能的过程中，要逐步提高工作人员的认知和技术能力。

建立一个智能引擎，这是把认知和感性互相结合起来的一种综合行为[4]。智能引擎，从感觉角度扩大知觉、视觉、听觉的范围，整合了阅读等感知信息；在认知的方面，我们可以很好地理解语言、自发性的学习、逻辑方面的推理以及表达知识等方面，并且还能够向外表达一些相关决策的信息，从而组建一个跟人类的普通思维方式和表达等交互作用模式。

5 结语

在目前社会的发展之下，经济和现代科学技术也在不断地发展，人工智能和深度学习的如何发展已经成为研究工作的热点。在未来社会经济的发展过程中，该行业的专家学者应该加强对人工智能技术这一方面的研究，从而将语音识别系统的作用进一步地挖掘出来，不断地更新和优化语音识别系统，让其给人类的日常生活和生产过程提供更优质的服务。