APP下载

基于改进1DCNN的英语语音识别人机交互系统设计

2024-10-09王锦

电子产品世界 2024年9期

关键词:卷积神经网络;语音识别;人机交互系统

中图分类号:TP273 文献标识码:A

0 引言

在互联网时代背景下,机器人技术应运而生,并且在人机交互领域中发挥了重要应用优势,使人机交互系统得到广泛的推广和普及[1]。但是,市面上的语音识别人机交互系统处理过程复杂,受到口音、语速、语调以及背景噪声等多种因素的影响,增加了语音识别的难度。此外,当前技术尚未完全成熟,无法完全准确地捕捉和解读所有语音信息 ,为解决以上问题,保证语音识别人机交互系统交互能力,本文应用基于改进一维向量卷积神经网络(1-dimensional convolution neural network,1DCNN)的英语语音识别技术,对新型英语语音识别人机交互系统进行设计,有效提高了英语语音识别的精确度,满足了用户精确识别和处理英语语音的需求。

1 基于改进1DCNN的英语语音识别技术概述

在信息时代背景下,随着机器人不断推广和普及,市面上出现多种多样的语音识别人机交互系统。现阶段,语音识别人机交互系统主要采用对话交流的方式,为用户提供人机交流互动服务,为帮助机器人智能化回复和应答用户英语语音信息相关问题,本文应用基于改进1DCNN 的英语语音识别技术,研发和设计相应的英语语音识别人机交互系统。在图像处理领域中,卷积神经网络技术应用广泛,因此该系统主要运用卷积神经网络来保证系统语音识别功能的实现效果。在提取英语语音信号时,技术人员需借助本文系统提取的图像参数,但这种操作容易增大最终提取结果的误差。为避免这些问题的出现,技术人员在保留一维语音信号特征的基础上,提出一种基于改进1DCNN 的英语语音识别技术。该语音识别技术应用流程如下:首先,技术人员借助话筒等语音采集设备,对所需要的英语语音信号进行采集和转换,使其转换为相应的电信号,并将该电信号直接发送和存储至特定的识别系统中,由该识别系统运用前端处理技术对所接收的电信号进行统一化处理。其次,在前端处理结束之后,技术人员精确化提取所需要的语音信号特征,并且采用测度估计方法,估计和汇总相关特征参数,并结合最终特征参数结果来提出一种新模式。利用该新模式和用户最终主观估计结果,完成测度估计。最后,结合制定的识别方案,针对不同的新模式,计算和获取最终的识别结果。基于改进1DCNN 的英语语音识别技术应用流程如图1 所示。在本文系统对语音信号进行离散变换处理期间,通常会涉及语音信号取样环节,通过执行该环节,可以为用户提供完整、真实、可靠的语音信号,从而达到再现和还原真实信号的目的。在语音信号取样处理结束后,技术人员需在降低语言信号幅值的基础上,对原始信号进行预处理,使整个音频具有较高的高频分量值。

2 基于改进1DCNN的英语语音识别人机交互系统设计

人机交互系统同时含有人脸、表情、文本、语音等多种模态信息。为提高人机交互系统的交互能力,本文基于改进1DCNN 的英语语音识别技术,以英语语音为输入内容,以视频、音频为输出结果,设计了一个英语语音识别人机交互系统[2]。系统架构设计图如图2 所示。

从图2 中可以看出,系统主要包含以下模块:①语音识别模块。该模块在具体设计时,需输入用户语音等数据,运用卷积神经网络,对所需要的语音数据进行精确化提取、分帧等一系列预处理操作。②语音对话模块。该模块主要用于系统音频模态的智能化采集和输出。该模块在具体设计时,主要应用语音合成技术对所需要的文本数据进行采集,并结合最终采集数据结果,生成相应的音频。③视频展示模块。该模块主要用于系统视频模态的智能化输出[3]。该模块在具体设计时,需采用人脸表情动画技术,精确化采集和输出相关视频信息,同时,从所生成的视频信息中采集和整理人脸表情参数,完成对3D人脸网络体系的构建[4]。④语音处理模块。该模块负责接收用户的英语语音输入,并对其进行预处理和特征提取,通过基于改进的1DCNN 模型进行语音识别,最终将识别结果转换为文本输出。

系统具体实现流程如下:首先,技术人员应用基于改进1DCNN 的英语语音识别技术,对特定用户的关键语音信息进行智能化采集和获取,并结合最终采集数据结果,强化对语音信息中声学特征信息的提取。其次,为提高系统的运行性能,技术人员对所需要的音频数据进行合成处理。最后,应用3D 动画技术,结合所采集的语音情绪信息,有针对性地设计不同人脸表情,从而完成对人脸3D 模型的构建。借助人脸3D 模型,为用户提供良好的视频交互、音频交互体验。在设计系统时,环境变化会对语音数据最终采集结果产生直接影响,为保证语音数据采集的全面性和完整性,技术人员需结合用户个性化使用需求,有针对性地设计一种功能强大的语音处理模块,从而避免因环境引发的信号噪声污染现象[5]。同时,技术人员运用小波变换方法,对语音信息进行采集、归类和降噪处理,以保证语音效果。

3 基于改进1DCNN的英语语音识别人机交互系统测试

为研究和测试本文系统语音识别性能,并且验证其有效性和可行性,技术人员重点分析和评价了系统的语音数据处理效果。系统语音数据处理效果图如图3 所示。从图3a 中可以看出,在本次测试研究中,所选择的原始信号呈现出明显的变化状态。同时,整个信号曲线中出现大量的毛刺信号,这说明原始信号存在严重的噪声污染现象。图3b中的波形图存在少量的毛刺信号,曲线较为光滑,能够为用户呈现出清晰、全面的语音信息。这说明本文系统在精确识别语音信息的基础上,可以保证降噪处理的质量和效率。

此外,运用混合语音法对本文系统的识别能力进行测试。系统语音识别能力测试结果如图4所示。从图4a 中可以看出,本文系统可以精确判断和识别用户语音中的喜、怒、哀、乐等多种情绪。图4b中的1、0 分别代表识别成功、识别失败,结合最终混合语音识别结果,可以发现,在30次系统测试中,当混合语音数量为1 时,本文系统识别成功率高达100%;当混合语音数量为2~4时,本文系统识别成功率达到93.33%;当混合语音数量为5时,本文系统识别成功率达到90.00%。由此可知,本文系统在识别用户语音情绪方面具有较高的识别成功率,识别成功率高达90.00% 以上,满足用户精确识别和判断多种语音信息的需求,有效提高了用户的人机交互体验。

4 结语

在人工智能背景下,英语语音识别人机交互系统的研发和应用虽然给人们的日常生活和工作提供了便利,但部分人机交互系统存在语音识别成功率低等问题。因此,本文研发和设计了一种基于改进1DCNN 的英语语音识别人机交互系统,并对该系统的性能进行测试。结果表明,该系统具有语音处理能力强、语音识别成功率高等特点,方便用户将噪声信号快速处理和转换为具有高识别度的光滑信号。