面向SELL语料库的AI虚拟英语口语训练系统研究

2020-07-29林辉

微型电脑应用 2020年7期

摘要：为了改善英语学习方式中的口语学习环境和效率，基于AI虚拟现实技术，建立了适用于中国英语语言特征的SELL语料库。从VR交互界面、语音识别和智能对话3方面对系统设计进行详细阐述，最后选取某高校两组学生班级进行了一个学期的英语学习对比试验。实践发现：首先，虚拟现实英语学习系统逻辑清晰，基本实现了课程个性化定制和三维虚拟操作，并且支持外部VR设备，为英语学习者提供了沉浸式的英语学习平台;其次，基于Kaldi语音识别工具训练后，修正的SELL语料库测试集的准确率基本上可以控制在12.1%，验证集准确率控制在11.5%;最后，对比英语学习实践发现试验组在听力和口语表达方面成绩有显著提高，口语表达方面平均成绩较之前提高了19.6%，听力得分较之前提高13.3%，试验结果表明该智能化虚拟现实学习训练系统效果较好。

关键词： SELL语料库; 虚拟现实; 英语口语

中图分类号： TP319文献标志码： A

Study on AI Virtual English Speaking Training System for SELL Corpus

LIN Hui

（Foreign Language Teaching and Research Department， Shanxi College of Communication Technology， Xian， Shanxi 710018， China）

Abstract： In order to improve the traditional study way of spoken English learning environment， AI is established first in China SELL corpus of English learning environment， and then from the VR interface design， design of speech recognition system and intelligent dialogue system are introduced in detail， finally by choosing a university to form two groups of students， the contrast test is carried out in one semester of English learning for evaluation. The research finds that first， the virtual reality English learning system has clear logic， basically realizes course customization and 3D virtual operation， and supports external VR equipment， providing an immersive English learning platform for English learners. Secondly， the accuracy of the modified SELL corpus test set can be basically controlled at 12.1%， while the accuracy of the verification set is controlled at 11.5%. Finally， it is found that the test group has a significant improvement in listening and oral expression. The average score of oral expression is 19.6% higher than before， and the listening score is 13.3% higher than before. The test results show that the intelligent virtual reality learning and training system has a better effect.

Key words： SELL corpus; virtual reality; oral English

0 引言

根據目前的统计数据，中国约有超过3亿的英语学习者，其中包括2.2亿普通英语学生和近8 000万专业英语从业者[1-2]。作为中国最为普及的第二语言，英语测试中以口语作为衡量的考试相对较少，使得哑巴英语成为普遍现象。本文通过教学实践发现，传统的英语学习方式多着重于听力和读写方面，缺乏口语语言环境和良好的训练方式。随着AI虚拟现实技术在娱乐游戏、医疗辅助等领域已经拥有实质性的应用和发展[3-7]，英语学习训练和教育方式同样能够得到应用。AI和虚拟现实技术为人类的活动创造了一种沉浸式的感官体验，用户可以获取身临其境的参与感，通过与AR头盔结合，英语学习者可以在虚拟的环境中实现纯英语的交流学习环境，从而提高学习兴趣、改善学习体验。

因此，本文通过构建适用于中国学习者的SELL（Second Language Learning，文中简称SELL）预料库，以此为基础设计虚拟现实界面交互方案，然后建立AI技术的英语学习交互系统，从而实现了沉浸式的英语学习环境。

1 系统总体架构

1.1 系统结构分层

系统结构主要设定为3层，如图1所示。

其中，第1层为表现层，该层主要面对外部用户，实现的功能包括用户注册机登录，系统数据配置，课程录入编辑以及用户信息的编辑等;第2层位逻辑层，该层分为四个模块，每个模块行使不同的功能，例如AI模块实现对语言的识别以及对话、评估等，脚本模块实现训练活动，图形模块实现系统的三维视觉效果，虚拟工具为用户提供可编辑的操作方式;第3层位数据层，该层主要用于存储和运算，包括服务器数据，同步数据和文件存储等。

1.2 虚拟现实场景

本系统通过虚拟两个应用场景来提供给学习者进行英语学习和训练，如图2所示。

（1）演讲场景，该场景中学习者会看到投屏中体现的示范性操作视频，教授学习者如何进行口语播放、暂停和学习动作。在训练模式中学习者可以根据提示反复练习课中的重要知识点，训练过关后进入实景模式，实景模式中学习者不需要按照提示操作，而是面对虚拟的听众与其互动，通过口语训练交流，虚拟听众会根据学习者的水平做出相应的反馈。

（2）面试场景：学习者通过进入一个国外某公司的面试环节中，根据虚拟面试官的提问进行作答，并与面试官进行互动，必要时可以提问。这一训练过程需要学习者提前复习面试所需要了解的公司背景知识以及相关的面试问题。

2 SELL语料库构建

AI虚拟英语学习环境的实现基础是合适的英语语料库，语料库是帮助学习者和虚拟环境进行交互的桥梁。由于每个学习者的英语水平和发音问题不一样，语音识别准确度较为关键，因此本位构建基于中国英语语言环境的预料库。

基于SELL语料库，录制了中国多个地区的英语测试人员的发音。其中语音采样频率为16～17 kHz，录制时间长度在97.2 h，参与语言录制的测试人员为300人（其中，男性152人，女性148人）。另外，语料库还包括对错误发音的智能化检测和转化。语料库音频的收集基于微信小程序端口，平时测试人员在微信语音聊天和交流过程中规定其使用英语交流，这样不会占用测试人员的大片时间，同时语料库的广度和范围更加贴近生活实际，有效降低了语料库的录制成本。语料库的构建流程结构，如图3所示。

其大致构建步骤如下：

（1）文本收集，查找和下载英语口语化学习电子文件，将其制作成文本录用文件;

（2）音频采集，介入微信小程序端口，让被测试人员根据学习文本进行口语化交流;

（3）音頻数据审核，对音频数据进行重新梳理，剔除掉杂质，并进行降噪后返回;

（4）素材标记，根据不同性别和低于的音频文件进行分类和文字标注。

整理完成后的语料库包含约11 300条语句，句子涵盖单因素、双因素和三因素的比例分别为100%，95%和43%。为了验证本文所收集的语料库准确性，采用Kaldi（基于C++编写的语音识别工具包）进行语料库测试，用于验证SELL语料库的识别准确性。本文使用4种模型进行训练，分别为单音素、GMM模型（高斯混合模型）、LAD模型（线性绝对偏差模型）和SAT模型（随机统计模型），测试结果如表1所示。

从统计的错词率来看，经过四次训练后，SELL语料库的语音识别率稳步提高，在最后的SAT模型测试结果来看，其测试集的准确率基本上可以控制在12.1%左右，验证集准确率控制在11.5%左右。

3 基于AI虚拟现实系统设计

3.1 VR交互界面设计

采用Unity编程软件，该软件本身携带人机交互UI系统，可以在3d空间中实现操作[8-10]。由于本文的研究系统还需要外设VR设备，因此需要进行一定的改进。

Unity软件中主要由四个模块构成：Eventsystem模块、Input模块、Ray模块和Graphic系统[11-12]。为了让整个虚拟现实系统支持VR设备，对底层设备输入进行字典映射的方式进行峰值，建立了设备管理模块（Device模块），该模块位于Input模块和Ray模块之间，运行过程中首先判断其输入来自于何种设备，然后经过Device模块进行XML映射，以菜单栏的操作方式为例，其映射所调用的关键代码为：

3.2 语音识别系统设计

基于神经网络的深度学习语音识别系统，其中语音识别过程中的神经网络原理为式（1）。

式中，xi表征音频输入参数，wi代表参数所对应的权重值，两者相城并累计求和后便得到神经元输出阈值u。为了确保神经网络的非线性输入输出功能，引入激活函数△（·），该函数实现了神经元之间的循环。

采用神经网络模型（简称LSTM）方式模拟人类语言学习模式，在LSTM中遗忘门、输入门和输出门进行循环嵌套，每个门都决定了神经元的状态，对语言识别具有良好的适用性。

3.3 智能对话系统设计

智能对话系统设计实现学习者在虚拟环境中的AI角色互动，当学习者在场景中进行走动均会触发相应的英语学习动作。例如，当学习者触发对话系统后，系统首先对麦克风和扬声器进行检查，学者开始说话时进行录制，说话完毕立即进行语音识别和处理，具体实现过程依据3.2节的LSTM模块进行。具体流程如图4所示。

4 实例应用和评估

为验证该AI虚拟现实英语学习系统的效果，作者进行了为期一个学期的英语学习综合测试。测试选取陕西交通职业技术学院大一年级共4个班级的学生200人，这4个班级的学生基本能够达到英语四级水平。因此，作者根据学生的性别、英语考试成绩、地域评分分成A、B两组。其中A组学生人数100人（男生58人，女生42人），所有学生英语期末平均成绩75.2分（满分100分），四级通过率89%，六级通过率5%;B组学生总数100人（男生55人，女生45人），所有学生期末英语成绩均值为76.0分，四级通过率90%，六级通过率4%。从分组结果来看，两组学生试验前基本情况基本一致。

本次评估中，A组为试验组，试验时间段内利用虚拟现实技术学习英语课程，B组为对照组，采用传统的电脑上机自学模式进行英语学习，学习时间为一学期，课时50学时，课程完成后进行听说能力测试，其成绩统计结果如图5所示。

从测试评估结果来看，A组（试验组）在听力和口语表达方面成绩有显著提高，尤其是口语表达方面，学生平均成绩较之前提高了19.6%，听力得分较之前提高约13.3%。但是，在写作能力方面不论是试验组还是对照组提高程度基本一致，应用效果一般。

5 总结

英语口语一直是国内英语学习和教育工作者面临的难题，本文借助目前较为流行的虚拟现实技术，建立了基于中国地方方言的SELL语料库，并基于AI虚拟现实技术实现了沉浸式英语学习系统，最后进行了实例应用和对比分析，结论如下：

（1）本文通过设置表现层、系统逻辑层和数据层实现了虚拟现实英语学习系统的基本架构，并建立了基于人工神经网络的虚拟现实场景。系统逻辑清晰，通过创建配置文件实现了课程个性化定制和三维虚拟操作，并且系统支持外部VR设备，为英语学习者提供了沉浸式的英语学习平台。

（2）基于SELL语料库，录制了中国多个地区的300名英语测试人员的发音，语音采样频率为16～17 kHz，录制时间长度在97.2 h。基于Kaldi语音识别工具训练后语料库测试集的准确率基本上可以控制在12.1%左右，验证集准确率控制在11.5%左右。

（3）选取试验组和对比组进行为期一个学期的英语听说课程训练，实践发现试验组在听力和口語表达方面成绩有显著提高，口语表达方面平均成绩较之前提高了19.6%，听力得分较之前提高13.3%，试验结果表明该智能化虚拟现实学习训练系统效果较好。

参考文献

[1] 郑佩芸.网络书面实时交流与口语能力培养研究[J].外语电化教学，2011（5）：32-37.

[2] 王莉梅.英语口语交际策略教学与研究[J].外语电化教学，2011（4）：61-65.

[3] 魏克俊.基于虚拟现实技术的模具教学系统研究与开发[J].计算机与现代化，2019（9）：102-105.

[4] 陶全胜.大学英语学业成绩形成性评估改革调查研究[J].外语电化教学，2019（4）：81-85.