APP下载

英语翻译器语音识别系统的设计及功能实现

2018-12-24梁娟

微型电脑应用 2018年12期
关键词:特征提取语音芯片

梁娟

(陕西国际商贸学院 基础课部, 咸阳 712046)

0 引言

语音识别技术指的是将机器利用语音信号的识别及理解转变成为文本,目前以计算机为基础的词汇量不断增加,连续语音识别技术发展也越来越成熟。在集成电路不断发展的过程中,嵌入式功能也在不断提高,语音识别技术能够应用到嵌入式系统中,嵌入式语音是被技术也成为语音识别领域发展的全新方向。

1 语音识别系统的技术依据

现代我国教育正在朝着信息化的方向发展,在英语教学过程中实现信息化平台的创建也是现代教师和学生的需求,能够对传统英语课堂模式问题进行创新。在计算机翻译软件中,语音识别具有重要的作用。语音识别的过程,如图1所示。

图1 语音识别的过程

能够帮助学生对英语知识内涵快速理解,其主要包括特征提取、模型训练、模式匹配,并且这也是本文在研究过程中重点考虑问题[1]。

一般的语音是被系统辅助功能为处理、收录及传递,计算机及自然语言差别较大,如何精准对此两种语言差异进行识别,此属于翻译软件识别过程中重点解决问题。特征提取是现代语音识别系统最基本的内容,其能够将英语语言的特征进行有效提取,对翻译器发出精准语言信号,使计算机翻译工作精准系数得到提高。

语音识别系统要求匹配相应模块,以此能够对教师和学生实现语言翻译进行辅助,降低翻译过程中失误的发生机率[2]。

语音是被系统的设计能够有效实现教育信息化,有效解决英语教学过程中的问题,促进学生对英语知识的理解。在实现语音识别以后翻译器就能够对训练操作自动模拟,以此实现虚拟化训练平台的创建。模拟训练技术使用人及一体化思想实现设计,有效结合语音识别器和翻译器,有效识别及判断英语发生的水平,并且还能够针对性的调整学生语音的方式[3]。

2 英语翻译器语音识别系统的设计

2.1 硬件设计

在视线英语翻译器语音识别系统设计的过程中使用功能三星公司控制器,系统ARM处理器核的结构,如图2所示。

图2 系统ARM处理器核的结构

音频接口芯片使用编解码芯片,此芯片价格较低,并且能够支持三线控制标准,属于嵌入式系统中最常用的全双工音频芯片,因为语音信号处理时效性和录放语音信号数量较大,如果语音发送及接受利用先入先出队列进行缓冲,但是根据终端将数据输送到FIFO中,系统成本较大,无法保证声音可靠性的录放,那么就要利用DMA方式实现音频的录放。使用此方式实现数据的录放能够实现目的地址、数据源地址及长度的设置,还能够自动发送缓冲区实现填充,直到实现制定长度数据才能够对系统申请中断,通过内存创建多缓冲区,从而有效录放音频数据[4]。

2.1.1 外围电路

Flash存储器能够在系统中实现电擦写,失电之后信息不会丢失,并且容量较大,所以被广泛应用到各系统中。在本文设计系统内部集成控制器,使用具有较高性能的Nand 存储器,数据存储容量64MB,使用块页式实现存储管理。

SDRAM芯片的容量比较大,并且成本较低,而且存取速度较快,在危机处理系统中被广泛使用,SDRAM能够实现变量及代码的存放,指的是系统在启动之后进行存取的存储器。因为SDRAM要能够定期的刷新,从而保证存储数据的精准性,所以微处理器就要求具备刷新控制逻辑。本文使用S2C2410微处理器芯片实现设置,以语音识别系统实际需求,使用三星芯片创建存储器系统[5]。

2.1.2 以太网控制器

以太网一般都是使用局域网技术,利用以外网能够快速组网,和计算机相互连接。在以外网不断发展的过程中,各种以太网的控制芯片也在不断出现。本文使用CS5989作为以太网控制器,能够为便携式产品、嵌入式应用系统提供可行的方案。此芯片的主要特点就是使用成本低、功耗低及性能良好,并且功能较为强大。芯片的数据传输模式、物理层接口及工作模式都能够根据实际需求实现调整,利用内部寄存器实现不同应用环境的设置。

2.1.3 串行电路接口

为处理器单元具有三组独立一部串行口,本文使用两组。RS252串行接口能够在通信距离小于15m的时候使用,在工作过程中,内部数据利用并行总线达到发送单元进入到FIFO队列中,之后通过移相器发送。为了能够实现计算机通用串行口进行兼容,还能够利用电平转换芯片,将电平转变成为能够兼容普通串行口的信号,和外设相互通信[6]。串行电路接口的原理,如图3所示。

图3 串行电路接口的原理

2.2 模块设计

2.2.1 语音收集和预处理模块

此模块的主要功能就是实现语音信号的收集,并且实现信号的滤波、端点检测处理及数据归一化。其中语音收集模块使用DE2板中的WM8731实现设计,利用I2C总线设置之后,就能够在设置模式中工作,语音收集功能结构,如图4所示。

此收集单元中主要包括一个PLL,I2C总线控制器和语音收集控制器。系统利用语音收集模块能够将语音芯片收集的声音数据串转变成为十六位PCM码,声音数据到存储器中传送并且保存,此实现4S录音时间的设置,用户一次性输入3个孤立的词,将处理之后的数据到后续存储器地址中

图4 语音收集功能结构

存储,检测之后的词到首地址中存储。

其中预处理模块主要包括3部分,分别为语音归一化处理、滤波器运算、语音端点检测,在图4中,语音归一化处理的公式为:DATA/MAX(DATA),如果根据此标准实现归一化处理就要浪费两个硬件乘法器资源。为了能够实现资源的节约,可以使用简化归一化处理模型,工作流程为:

其一,实现语音数据最大值MAX(DATA)进行读取;

其二,使m≥MAX(DATA),寻找最小值n;

其三,使归一化运算DATA/MAX(DATA)转变为DATA/m,在数字电路中只需要进行简单移位就能够实现。

通过修改之后的归一化运算,其运行速度较快,资源消耗较小,并且牺牲采样进度能够在信号采样过程中利用有意识调整最大幅度进行控制。

因为16位原始录入语音高频部分的成分比低频部分要小,所以就要将每个语音数据右移8位,在n<8的时候,不需要移位。在通过归一化运算之后,能够使高频提高,从而使信号频谱更加平坦,一般都是使用一阶高通滤波器[7]。

2.2.2 MFCC特征提取模块

为了能够有效促进语音数据处理的速度,整个特征提取模块都是使用VERILOG编写为IP内核,在每次MFCC运算过程中输入数据,此模块就为总线从设备,利用DMA为其进行搬运数据。

在实现特征提取的过程中,要求使用定点FFT设计实现,其重点为地址产生逻辑及单元设计。其中单元设计主要包括FFT处理器的主要运算单元,主要使用8个硬件乘法器,实现数据实部相乘及数据虚部相乘。蝶形结构利用流水线实现设计,输入数据和输出在六小时周期中实现。由于此运算数据属于连续输入,所以在对蝶形结计算以此为一个时钟周期。

FFT模块设计过程中的重点为地址产生逻辑,会影响到运行结构和模块性能。那么在实现设计过程中要以标准地址跳变方式进行,并且要求其能够满足实际运行需求。

2.2.3 DTW识别模块

在本系统设计过程中,要充分考虑算法复杂程度及对于系统速度性能的需求,所以可以使用DTW算法,功能结构,如图5所示。

图5 识别模块的功能结构

模块的实现流程:其一,将SD卡中的语音模板库进行读取,语音参数模板利用特殊处理成为二进制文件。其二,特征参数提取模块组件通过处理能够有效得到实时收集测试模块,属于语音特征矢量;其三,对比T和R之间相似度,即便是计算累积的距离,距离较小,那么其相似度就会提高。此失真距离,能够使用动态规划方式实现。

3 系统的实现

英语翻译器语音识别系统属于现代化教学的主要工具,教师和学生能够根据翻译器能偶将英语含义全面掌握。本文所设计的翻译器语音识别的应用为:

识别模块。在识别模块使用过程中利用模块匹配法,以不同翻译需求实现匹配处理。在训练过程中,用户只需要将词汇表中的单词讲述,将特征矢量到模板库中存储。在识别阶段中,将输入语音特征矢量和模板库中模块进行对比,将相似度较高的作为识别结果输出。

声学模块。语音识别系统模块都是利用声学和语言模型创建,在进行使用功能的过程中实现相应音节的计算,特征提取在此过程中属于重要环节,此步骤和翻译器的工作效率具有密切的联系。

执行模块。在使用的时候,语音识别系统要以执行模块为基础进行操作,对英语语言识别方式进行优化,利用最佳状态进行翻译。在进行英语教学的时候,对话及听写系统是一种主要语音识别方式,将翻译器在语言转换方面的功能充分的展现了出来。

4 总结

目前,在现代信息时代发展过程中,英语教学也逐渐实现了信息化,在此背景下,翻译系统尤为重要,本文所设计的语音识别系统是翻译器工具主要装置,能够有效满足软件执行需求,实现翻译处理流程的创建。在系统中,模型训练、特征提取等属于主要技术,能够对学生的学习及教师教学进行辅助,培养学生的英语翻译技巧[8]。

猜你喜欢

特征提取语音芯片
芯片会议
人体微芯片
关于射频前端芯片研发与管理模式的思考
魔力语音
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法