基于语音识别与机器翻译的双语课堂
2020-03-26张炎
张 炎
湖南三一工业职业技术学院 湖南 长沙410129
0 引言
结合实时语音识别与机器翻译,将中文与目标翻译结果实时显示,就可以给学生类似观看双语字幕电影的新奇体验。本文基于此构想,开发了一款集成安卓手机端语音识别软件、电脑端机器翻译软件、以及蓝牙串口模块数据传输的双语课堂的系统。
1 整体方案介绍
双语课堂系统主要构成为:实时语音识别模块、串口蓝牙通讯模块,以及电脑端机器翻译软件。实时语音识别标准版包含中文普通话输入法、英语、粤语、四川话、远场5个识别模型,依托百度AI开放平台提供的实时语音识别技术,基于Deep Peak2的端到端建模,将音频流实时识别为文字,并返回每句话的开始和结束时间,适用于长句语音输入、音视频字幕、会议等场景;串口蓝牙通讯模块选用广州汇承信息科技有限公司出品的HC-06(蓝牙2.0)稳定、抗干扰性强、传输质量好等优点,深受世界技术专家的认可和好评。机器翻译模块采用百度翻译开放平台提供的通用翻译标准版,支持28种语言互译。
1.5 软件使用预览 电脑软件实现了透明窗体、鼠标穿透的效果,使用C#语言开发,基于双缓存GDI+技术在具有alpha通道的png格式的图片上绘制文本。图2介绍了软件各个界面。
图2 电脑端界面Fig.2 PCuser interface
2 方案部署说明
将识别与翻译分离,通过串口蓝牙模块(还需要配合USB转TTL模块)联系手机端和电脑端,可以保证教师在课堂上的活动自由。所以,当前的双语课堂系统的部署模式是比较合适的。
3 识别效果优化
3.1 语音识别模型方面
1.在垂直业务领域下通用语音识别模型准确率不满足需求,语音识别应用的场景专业词汇较集中,如医疗词汇、金融词汇、教育用语、交通地名、人名等,识别结果存在“同音不同字”的情况。例如“虹桥机场”识别为“红桥机场”;“债券”识别为“在劝”。
2.语音识别结果不准带来更高的后处理成本,并且语音识别模型针对性优化训练存在技术门槛、成本高、训练周期长。此时,可以通过语音自训练平台,使用业务场景语料,零代码自助训练语言模型,精准识别语音内容,有效提升业务领域识别准确率。
3.2 辅助硬件方面 在语音识别过程中,除了保证说话环境的安静,还可以使用降噪麦克风来滤除杂音作为安卓手机端的音频输入源。
4 总结
文章介绍了双语课堂的解决方案,经过实际使用,语音识别在较理想的声场环境里获得比较高的识别率,但同时也存在识别不准的现象,但随着语音识别技术的发展以及自助训练的服务可以保证愈来愈好的识别效果。再者,目前实现的是软硬件产品的原理模型,需要更进一步地做好硬件设计、产品外观设技等产品化流程以及商业化推广。系统的产品化设计以及商业化推广是后续的研究方向。