基于语音识别的英语名词短语在线翻译系统

2022-08-17王少华

自动化技术与应用 2022年7期

王少华

（陕西能源职业技术学院人文与教育学院，陕西咸阳 712000）

1 引言

随着人机交互技术不断发展，语音识别技术已逐渐成为翻译过程中备受关注和控制的技术，为此在语音识别技术的支持下，设计了一种基于语音识别的英语名词短语在线翻译系统，该系统能够利用语音交互技术来显示翻译过程的智能化，利用多种语音算法，改变原有语音识别技术中存在的不足，实现了英语在线翻译的智能化。国外研究语音识别技术较早，在设计在线翻译系统时，如今的研究可划分为大词汇量的连续语音识别系统以及灵活性较强的语音交互系统，设计得到了多种语音识别硬件载体。国内在研究语音识别技术较晚，随着硬件大规模集成电路技术不断地发展，如今研究得到了多种识别算法，在分析得到的数据以及模式支持下，改善了原有识别算法模型中存在的不足，设计得到了多种语义识别技术。文献[1]中设计了一种基于最长名词短语分治策略的神经机器翻译系统。该系统根据分治法的原理，筛选句中的最长名词短语并保留核心词。然后将两者与其余部分组建句子框架，再利用神经机器网络分别翻译其句子框架，通过译文重新组合实现对名词短语的翻译。文献[2]设计了基于多语言交互的英语翻译在线辅助系统，该系统由系统收发单元、自动翻译单元、人工校正单元、任务管理单元和记忆库管理单元5 个部分组成，系统流程主要包括：基于多语言交互的英语翻译服务流程和基于项目的多语言交互英语翻译服务流程设计。但是以上两种系统在线翻译语音识别率较低，因此本文设计了一种基于语音识别技术的英语名词短语在线翻译系统。

2 在线翻译系统硬件

2.1 语音识别硬件模块

选用ARM嵌入式处理器S3C2440作为语音识别模块的中央处理器，并使用该单元外部两个串行外设接口进行数据传输，实现英语名词短语的转换。开发板选择了通用开发板TQ2440，使用其自带的处理器，设定开发板内部的SDRAM控制器和外部存储控制器的主频率设置为350MHz[3-4]。以开发板内的GPIO口为外部拓展接口，将开发板中多个接口作为其他硬件接口，所设计的语音识别硬件模块结构如图1所示。语音识别模块可分为音频芯片驱动模块、音频处理模块、储存模块以及电源模块[5]。音频采集模块以音频芯片NAU85LC10 作为核心，使用芯片内的MIC+和MIC-内的引脚，连接外部电源模块以及储存模块的接口。使用芯片内部的数字音频接口I2C、PCM，将控制数字音频I2C接口连接到串行控制接口后，设定芯片的可变采样率为20KHz[6]。

图1 设计得到的语音识别硬件模块结构

该芯片内部集成了数模转换器和模数转换器，其中控制数模转换器与芯片I2C接口相连，控制I2S接口负责收发音频数据，语音识别模块的主处理器与该音频芯片间的连接结构如下图所示。

图2 连接结构图

在上图所示的连接结构图中，为了减少芯片引脚的占用，将I2C接口作为数据传输口，将连接结构内部的MCU作为主设备，实现硬件间的互通[7]。

2.2 构建硬件连接电路

在图1的语音识别模块中，根据语音识别芯片的引脚功能，将LD_LOUTR和LD_LOUTL作为芯片输出的左右端，将引脚LD_SPOP和LD_SPON作为语音麦克输入的负极和正极[8]，使用一条串行数据线SDA与时钟线SCL连接语音芯片的引脚P1．6与P1．7，芯片的引脚分配情况如图3所示。

图3 芯片的引脚分配情况

由图3所示的引脚分配情况可知，设定语音识别模块的电源电压为3．3V 后，为了抑制语音输入硬件中产生的信号噪声，在设计的开发板内，控制模拟电路与数字电路在电源处相连，在采集语音的元件模块内设置多个海绵口，通过海绵口与语音接收元件间的接触，来消除接收语音外部的噪音。综合上述设计，完成对在线翻译系统的硬件设计[9]。

3 在线翻译系统软件

3.1 英语名词短语语音信号采集

在不同个体语音的影响下，使用上述设计硬件采集得到的英语名词短语语音信号会产生一定的衰减，为了抑制该部分衰减，使用一阶FIR 的高速数字滤波器，来构建一个信号传递函数，可表示为：

其中，a表示预加重系数，Z表示信号传递函数。在上述信号传递过程下，需要对每帧信号进行傅里叶变化，设定变化的周期为2，变化过程就可表示为：

其中，w(n-m)表示窗口函数序列，m表示窗口长度，x(m)表示信号序列，j表示信号分量参数，k表示窗口函数序列卷积。N代表窗口函数序列个数，在上述短时变化处理下，语音信号产生了部分的信号分量，映射处理该部分分量至一个二维空间[10]，产生的短时幅度谱，如图4所示。采用梅尔标度滤波控制短时语音信号的频率分辨力，可表示为：

图4 产生的短时幅度谱

其中，β表示短时幅度参数，f表示语音信号的频率数值，ε表示转化参数。增强语音信号的分辨力后，完成对英语名词短语语音信号的采集，在实现在线翻译系统功能时，构建在线翻译功能软件框架。

3.2 在线翻译功能软件框架

在构建在线翻译功能软件框架时，利用采集得到的语音信号数据，建立一个本地词库，将该词库作为加载功能数据的查询文件。使用JAVA 编程处理一个在线翻译程序主页面，细化得到的在线翻译程序功能结构如图5所示。

图5 程序功能结构

在上图所示的程序功能结构下，采用MVC 应用程序中的数据模型、视图、控制器三个核心组件，将采集得到的数据与固定的声音信号相结合。以XLM界面作为软件功能的处理阶段，形成的功能框架如图6所示。

图6 建立的功能框架

根据以上的功能框架上，在视图层采用XML 文件作为在线翻译页面，并结合使用JavaScript+HTML 来实现语音识别结果的实时反馈。在控制层内设置一个Activity 作为功能逻辑，在模型层内，采用SQLite3 作为英语名词短语的数据库结构，在服务器端内实现的翻译程序支持下，构建得到一个在线翻译过程。综合上述分析，最终完成对基于语音识别的英语名词短语在线翻译系统的设计。

4 系统测试

4.1 实验准备

使用Eclipse集成开发环境，准备操作系统为Windows10、64 位操作系统，处理器为Intel(R)Core(TM)i3 CPU M370@2．40GHZ、内存为4G的计算机作为系统测试设备，调试在线翻译系统的软件结构。

在主程序页面下，设置功能检测在线翻译系统的发音引擎后，调用在线翻译系统的测试功能，使用Mel 谱图生成模块，将语音识别的音频进行分帧、加窗、预处理后生成Mel谱图。使用该Mel谱图重建在线系统接收到的语音波形，在保存为wav格式的音频文件后，形成的语音翻译过程。

在语音信号翻译过程中，按照英语名词短语的内容，将在线翻译系统的语料内容划分为三种，第一组为5s及以上的语音，第二组为7s～10s 的语音，第三组为11s 以上的语音，语料分组的详细情况如表1所示。

表1 使用的英语名词短语分组信息

以上述表格中所设置的英语名词短语作为实验对象，分别使用文献[1]、文献[2]中的在线翻译系统以及文中设计的在线翻译系统进行实验，对比三种在线翻译系统的性能。

4.2 结果及分析

在以上实验准备的基础上，控制三种在线翻译系统同时处理实验准备的英语名词短语语料，定义三种在线翻译系统的语音翻译效果可表示为：

其中，BP表示准备语料中惩罚因子的数值，Pn表示修正语料的元精度，wn表示元精度的权重。定义该数值越大则表示翻译效果越好，在第一组输入语音句子词数内，统计得到三种在线翻译系统的翻译效果，结果如表2所示。

表2 三种在线翻译系统语音识别结果

由图7所示的实验结果可知，在三种在线翻译系统控制下，针对相同内容的英语名词语音内容来讲，文献[1]中在线翻译系统得到的平均BLUE 数值在0．25 左右，对应得到的翻译效果较差，文献[2]中的在线翻译系统得到的平均BLUE数值在0．27左右，数值较大，该种在线翻译系统的翻译效果较好。而该文设计的在线翻译系统得到的平均BLUE 数值在0．31左右，与两种文献中的在线翻译系统相比，该种在线翻译系统的翻译效果最佳。

基于以上实验环境，控制三种在线翻译系统处理实验准备的第二组英语名词短语分组，使用相同参数的计算机承载三种在线翻译系统后，当三种在线翻译系统处理第二组名词短语数据信息时，调用承载翻译系统的任务管理器，设定系统CPU的占用率统计周期为60s，三种在线翻译系统的CPU占用率结果如图7所示。

图7 三种在线翻译系统翻译效果实验结果

由图8所示的CPU 占有率结果可知，控制三种在线翻译系统处理相同的英语名词短语语音时，根据上图结果，文献[1]中的在线翻译系统在相同统计时间内CPU的占有率在80%左右，实际运行时占据的运行较高，文献[2]中的在线翻译系统在周期内，产生的CPU占有率在65%左右，实际运行时CPU的占有率数值较大，而文中设计的在线翻译系统，在相同的实验周期内，英语名词短语的CPU 占有率在40%左右，与两种文献中的在线系统相比，该种在线翻译系统实际运行时，形成的CPU占有率最小。

图8 三种在线翻译系统运行时的CPU占有率结果

保持上述实验环境不变，控制三种在线翻译系统处理实验准备的第三组英语名词短语分组信息，采集十位人员读取准备测试集内的英语名词短语，以三种在线翻译系统对不同音调的识别结果作为对比指标，实际的语音识别率可计算为：

其中，R表示在线翻译系统已识别得到的英语名词短语，Rn表示在线翻译系统识别英语名词短语总值。统计三种系统所对应的语音识别率，最终三种在线翻译系统的语音识别结果，如表2所示。

由表2计算统计得到的语音识别率结果表明，在十五种不同的语调控制下，三种在线翻译系统表现出了不同的识别率结果，文献[1]中的在线翻译系统的平均语音识别率在62．9%左右，实际语音识别率数值较小，在线翻译结果不准确。文献[2]中的在线翻译系统的平均识别率在83．5%左右，实际语音的识别率数值较大，实际的翻译结果较准确，而本文设计的在线翻译系统的平均识别率在97．9%左右，与两种文献中的在线翻译系统相比，该种在线翻译系统对不同语调的语音识别能力较强，翻译效果最佳。