大学非英语专业音素教改与自动语音识别技术融合应用可行性
2018-05-19刘琳
【摘要】文中以近些年自动语音识别技术在大学非英语专业音素教改中的融入为研究基础,通过分析目前大学非英语专业因素教改中存在的问题,探讨大学非英语专业因素教改中自动语音识别技术的应用优势并引入案例尝试分析如何提升自动语音识别技术在大学非英语专业音素教改中应用的有效性等。
【关键词】大学非英语专业 音素教改 自动语音识别技术 融合
【中图分类号】H319 【文献标识码】A 【文章编号】2095-3089(2018)17-0091-02
一、大学非英语专业因素教改中存在的问题
近些年随着跨文化交际机会的不断增多,大学非英语专业教学中英语语言的标准化学习要求日渐丰富。作为非英语专业的英语教学,虽然培训标准的严苛程度低于英语专业,但是语言习得听、说、读、写四项培训工作的培训规则与英语专业一致。也正因为如此,以朗读为切入点,借助口语水平的提升来提高非英语专业语言学习成效的教学方式就存在了现实可行性。
目前,绝大多数高校在非英语专业英语教学的过程中,并没有关于朗读质量的及时有效反馈源,如此也导致学习者发音中的错误无法被及时纠正。大学非英语专业音素教改的传统应用手段基本可将文字与语音融合为一体,从语音习得入手,纠正学习者错误发音,规范学习者音素应用方式等。此种教学方式的确卓有成效,但是按照新时期大学非英语专业音素教改的要求,显然是不够的。
语音作为语言习得的重要物质基础,利于学习者更为便捷的捕捉语言信息并掌握语言技巧。基于语言教学中语音教学的重要性作用,在大学非英语专业的音素教改中,就需要将其视为独立的部分进行针对性的分析,继而结合大学非英语专业语言习得要求、标准等,着手相关方案或者措施的设计。在此过程中,为提升大学非英语专业学生语言习得的主动性和积极性,建议尝试在大学非英语专业音素教改中融合自动语音识别技术,以此来提升语音教改向每个学习者提供及时反馈需求及个体练习等的服务性。
二、大学非英语专业因素教改中自动语音识别技术的应用优势
尽管计算机辅助语言学习技术可帮助增加大學非英语专业音素教改的成效,但是如果计算机辅助语言学习技术选择及应用不当,或者忽视学生实际学情,依然无法保障大学非英语专业音素教改成效。
但是自动语音识别技术(ASR)可以让计算机通过“听”不同人连续的和阶段性的说出的语音,在电脑中“写”出所说内容的方式,与人工判断比较,自动语音识别技术不仅能完成声音向文字的转换,按照使用需求,自动语音识别技术可依照系统用户情况分为特定和特定人的识别系统,按照系统词汇量可分为大词、中词、小词的汇量系统,按照输入语音发音方式可分为自然发音的口语式和朗读式两种,按照输入语音方言背景可分为方言语音、方言背景普通话、普通话三类识别系统,按照输入语音情感状态可分为情感语音识别系统及中性系统,借助以上功能优势,自动语音识别技术:一方面可清晰的辨识出不同方言影响下非英语专业习得者发音的不够标准化所引发的问题,帮助语言习得者和教师及时纠正及检测语言习得给定的音素发音错误。另一方面,自动语音识别技术能便捷使用,具有强大数据分析能力及计算能力、能对学习者一对一自主分析性功能,在语音识别技术辅助下可实时检测学习者发音错误并提供纠正意见,能辅助学生及教师获得反映发音质量的指标,因此,作为计算机辅助语言学习技术中的佼佼者,则以其可及时、实时总结学生弱点,推荐针对性强化训练方案等优势胜出。
三、大学非英语专业音素教改中自动语音识别技术的应用思路
第一步,实验数据的录制及分析。
考虑到大学非英语专业音素教改中自动语音识别技术的应用方式多样,自动语音识别技术所依赖的载体也多种多样,因此,以下以嵌入式设备如智能手机作为自动语音识别技术应用的载体,实验语音数据录入使用自带麦克风的PDA。朗读文本选择英语900句作为语料,录制每人20句,实验人随机抽选大学非英语专业学生45人。年龄集中在20-25岁之间。
在明确录制要求和对象之后,按照英语专家所设定的朗读数据语素正确发音标准及标注,定义音素发音情况为三类,如漏读、错读、正确。在系统衡量指标并建设基本音素检错系统之前,以简化模型为目标,增读暂时忽视,标注统计结果如下:
专家1音素发音标注结果中正确17468、错读519、漏读402;
专家2音素发音标注结果中正确17202、错读713、漏读474。
引入发音错误标注示例为“Would you answer the phone please”,错误标注为“w uh d y uw aa n s ax dh[z] ax fou n [ ] p liy z”。
第二步,确定系统衡量指标。
按照衡量系统总体性能进行两大重要指标的界定,即准确率和召回率,以专家1标注结果为标准,计算准确率和召回率分别为59%和69%。公式为:
召回率=系统检测出的错误数量/测试集中的音素数量*100%
针对计算结果进行分析可得,正确发音在所选语料中占多达数,两位专家标注的结果类似,漏读和错度的比率类似,这意味着大学非英语专业学生英语发音时容易漏读音素而不是音素发音错误。
第三步,建立基本音素检错系统。
大学非英语专业音素教改中自动语音识别技术的应用到此阶段,需要使用音素发音自动检错技术来辅助大学非英语专业音素教改的实践应用。判断工作刘成伟,按照音素序列自动切分朗读句子,切分所的为每个音素对应的语音小片段,之后进行小片段发音质量的判断,此处可引入音素发音质量COP辅助构建系统。在实践应用中,音素切分网络可直接使用朗读文本对应的音素序列作为切分网络,在声学模型选择方面,建议使用目前自动语音识别中惯常使用的HMM模型,发音数据则选择标准英文发音数据,升学特征参数选择MEL频率倒数系数MFCC,音素识别列表方面按照常见的竞争子集。
按照以上的操作方式,在部分音素竞争子集的选择阶段,需要依照语音学和声学经验,客观规律中每个音素模型间的相似度和距离,统计人工标注中容易混淆的音素对。部分音素竞争子集可对应如下:
(1)aa,对应ae、ax、eh;(2)ao,对应ax、er、eh;(3)aw,对应ao、oo、uw;(4)ch,对应sh、t;(5)eh,对应ih、ax、el、ey;(6)s,对应z。
第四步,使用独立阈值提升错读检测性能。
按照上述三个步骤进行基本英文发音检错系统的描述,之后结果显示所有音素的判断阈值均一致。但是在研究结果中也充分体现出不同音素错读和正确读出的COP分布情况大相径庭。以“ey”和“ax”为例,两者错读和正确读出的区分相差度甚至二倍出现。基于此,进行独立阈值的优化时,可将所有训练数据里的COP值以音素为归类和升序排序依据,归类所得形成N个栈VI,用VI[J]代表音素i的第i个样本是否为错误发音,可取值0或者1,之后将最佳独立阈值训练过程抽象成数学问题,即从顶部开始,每个栈全出个ai数据继而求出最优化ai构成的B维向量。按照以上思路进行计算时,可在初始化阶段将样本个数设置为0,得到的最多错误样本个数设定为E[m],那么可得最佳ain=0。在逐步进行向量计算后,最终得到第i个栈中的第ain个样本对应COP值为最终训练所得到与因素对应的检错门限。
第五步,检测改进因素对齐网络实现漏读。
上文分析可得大学非英语专业学生在朗读英语时会出现漏读一个或者多个因素,建议假定发音人按照句子里的因素排列顺序能完整朗读整个例句,在因素切分之前可检测出发音人漏读音素,放弃音素边界的划分,并以此作为提升系统应用性能的切入点。
在检测后可限定因素对齐网络,比如搭建起识别网络,网络主路径可依照单词中每个因素的排列顺序来依次连接,每个因素均可跳过去,如此一旦出現某个因素漏读,此识别网络就可自动识别漏读二并得强制划分出可匹配漏读情况的小段语音数据。在识别器及自动识别技术应用灵敏度较高的情况下此种设计才能确保有效。但是识别网络需要被限制,不能所有音素都能轻易被跳过。否则就会失去检验和应用的初衷。
参考文献:
[1]刘琳.基于自动语音识别技术的计算机辅助语音培训软件在大学非英语专业音素教学中成效性的实证研究[D].山东大学,2012.
[2]胥文华.基于自动语音识别的在线软件对中国大学生音素学习的有效性研究[D].湖南大学,2010.
[3]崔昆.高校英语语音教学中多媒体技术的运用分析[J].科技展望,2016,26(08):214-215.