APP下载

语音翻译系统的设计

2020-10-21林世杰曹晓东

锦绣·中旬刊 2020年2期
关键词:神经网络节点语音

林世杰 曹晓东

绪论

语音信号处理的研究和技术进步促进了各相关学科和技术领域的发展,特别是认知科学、心理学和计算机科学。语音处理是一门集语音研究和信号处理于一体的混合学科。技术和应用的结合使语音信号处理在我们生活的许多领域都有了长足的发展,如语音识别听写、语音控制拨号、个人电话银行等。

语音识别已经成为一种大势所趋,只能在未来生存。许多具有基本识别功能的程序在网上也是开源的,但语音识别仍是国内外研究的重点,尤其是在汉语语义分析方面,仍存在许多障碍。对于普通网络用户来说,语音识别仍然是一种看不见摸不着的内部嵌入式程序。本文从现有的互联网上的开源程序入手,分析了它们的算法和编程环境,旨在基于作者的编程能力,使语音识别程序具有比开源资源更多的功能和更广阔的应用环境。

BP神经算法

人工神经网络是一种信息处理系统,它有很多种模型。其中有一种用误差传播学习算法(Error Back Propagation即BP算法)进行训练的多层前馈神经网络,简称为BP网络。BP神经算法特点:

l)分布式的信息存储方式

神经网络是以各个处理器本身的状态和它们之间的连接形式存储信息的,一个信息不是存储在一个地方,而是按内容分布在整个网络上。网络上某一处不是只存储一个外部信息,而是存储了多个信息的部分内容。整个网络对多个信息加工后才存储到网络各处,因此,它是一种分布式存储方式。

2)大规模并行处理

BP神经网络信息的存储与处理(计算)是合二为一的,即信息的存储体现在神经元互连的分布上,并以大规模并行分布方式处理为主,比串行离散符号处理的现代数字计算机优越。

3)自学习和自适应性

BP神经网络各层直接的连接权值具有一定的可调性,网络可以通过训练和学习来确定网络的权值,呈现出很强的对环境的自适应和对外界事物的自学习能力。

4)较强的鲁棒性和容错性

BP神经网络分布式的信息存储方式,使其具有较强的容错性和联想记忆功能,这样如果某一部分的信息丢失或损坏,网络仍能恢复出原来完整的信息,系统仍能运行。

设计思路分析

(1)通过麦克风输入语音信息,将语音信息存入本地;

(2)把语音信息传入到百度AI,返回文字信息;

(3)对文字进行解析,判断文字是中文还是英文;

(4)调用百度AI翻译,返回具体的翻译信息。

确定BP算法的结构

确定了网络层数、每层节点数、传递函数、初始权系数、学习算法等也就确定了BP网络。确定这些选项时有一定的指导原则,但更多的是靠经验和试凑。

1)隐层数的确定:

1998年Robert Hecht-Nielson证明了对任何在闭区间内的连续函数,都可以用一个隐层的BP网络来逼近,因而一个三层的BP网络可以完成任意的n维到m维的映照。因此我们从含有一个隐层的网络开始进行训练。

2)BP网络常用传递函数:

BP网络的传递函数有多种。Log-sigmoid型函数的输入值可取任意值,输出值在0和1之间;tan-sigmod型传递函数tansig的输入值可取任意值,输出值在-1到+1之间;线性传递函数purelin的输入与输出值可取任意值。BP网络通常有一个或多个隐层,该层中的神经元均采用sigmoid型传递函数,输出层的神经元则采用线性传递函数,整个网络的输出可以取任意值。

3)每层节点数的确定:

使用神经网络的目的是实现摄像机输出RGB颜色空间与CIE-XYZ色空间转换,因此BP网络的输入层和输出层的节点个数分别为3。下面主要介绍隐层节点数量的确定。

对于多层前馈网络来说,隐层节点数的确定是成败的关键。若数量太少,则网络所能获取的用以解决问题的信息太少;若数量太多,不仅增加训练时间,更重要的是隐层节点过多还可能出现所谓“过渡吻合”(Overfitting)问题,即测试误差增大导致泛化能力下降,因此合理选择隐层节点数非常重要。

系统方案分析

用户可以在任何状态下启动语音交互软件,软件启动后,进入语音交互状态,PC机通过麦克风获取此语音数据,在将其进行语音识别之后,系统再将该识别出的命令重新转化成语音请求用户确认,在用户进行过确认之后,系统把它封装成一条语音指令,语音指令格式如图3.2所示。然后PC通过网络将其发送到主控制器上,主控制器上的计算机通过帧解析解析出其源MAC地址,将此源MAC地址与合法MAC地址列表中的每项进行对比,当发现其为不合法的MAC地址时,系统不进行任何响应,否则,系统将其重新进行红外编码,以实现对相应电器的控制。

语音识别的过程

通常一般的语音识别系统具有之前的事先处置锻炼步骤和锻炼完成后的判别这两个阶段。不管是最开始的锻炼步骤还是锻炼完成后的识别步骤,皆必须事先对输入到程序内的原始声音数据进行事先的处置,并提取特征。下面具体说明各个模块的基本功能。

(1)预处理模块,对系统检测到的原始语音信号处理,滤除音频文件中非有效或者是干扰的信息,比如背景噪声、话筒杂声等,并检测音频文件中有效的语音信号的端点,也就是确定一下有效的语音是从哪个点起始到哪个点收尾,对信号分段和预加重等处置办法。

(2)特征提取模块,这一模块主要工作是要将语音的顺序排列,以及计算特征值,方便为后续工作提取反应信号特征的关键特征参数。通常被作为语音识别特征参数使用的有幅度、过零率、能量、线性预测系数(LPC)、LPC倒谱系数(LPCC)、线谱对参数(LSP)、短时频谱、共振峰频率、反应人耳听觉特征的Mel频率倒谱系数(MFCC)等。特征的选择和提取是系统构建的关键。

(3)训练阶段,使用者录制好多次输入音频,程序使用上述步骤运行后求到特征矢量参数(序列),再通过特征建模模块建立语音训练的参考模式库,或者对己在模式库中的参考模型作适应性修正。

(4)识别阶段,对用作测试的输入语音进行相同的特征提取并与之前建立的模式库中模板进行模式匹配,结果就是匹配后最像的及路径最短的那个模版所代表的识别结果。

(5)后处理模块,处理己得到的匹配结果,并最终得到模式匹配结果,综合其他学科的专业知识(比如:语音学的语言模型、词法、句法和语义信息等)的束缚求出想要的输出结果。

参考文献

[1]侯一民,周慧琼,王政一.深度学习在语音识别中的研究进展综述[J].計算机应用研究,2017,(08):1-9.

[2]邓云踪.百度语音识别系统入选MIT2016十大突破技术口叼.人民邮电,2016—02,26(008)

[3]程洋.语音识别算法研究及DSP实现[D].安徽理工大学,2015.

[4]卢永辉.语音识别技术的关键问题研究[D].陕西师范大学,2014.

[5]A.Si,H.V.Leong,R.H.Lau.CHECK:A Document Plagiarism Detection System.Journal of the ACM Symposium for Applied Computing,2007,8(6):70-77.

[6]麦好.机器学习实践指南[M]:案例应用解析.机械工业出版社,2014.

猜你喜欢

神经网络节点语音
基于人工智能LSTM循环神经网络的学习成绩预测
基于图像处理与卷积神经网络的零件识别
微信语音恐惧症
基于移动汇聚节点和分簇的改进节能路由算法
基于自适应神经网络的电网稳定性预测
CAE软件操作小百科(48)
魔力语音
Magic Phonetics魔力语音
基于点权的混合K-shell关键节点识别方法
对方正在输入……