语音交互技术在教学资源中的应用
2022-06-22张亮
张 亮
(江苏联合职业技术学院泰兴分院(江苏省泰兴中等专业学校),江苏 泰州 225400)
0 引言
人机交互领域,尤其是基于语音的交互领域,是一个新兴的领域,几乎每天都在不断发展。目前,语音和教学资源的交互正在从多个方向融合。
1 语音交互与教学资源对接融合的意义
随着语音控制系统的加入,智能手机、平板电脑和电视等以屏幕为先的设备功能正在得到增强。目前语音交互主要用在个人和家庭使用领域,未来也将在教育中得到应用。通过利用交互方式的优势,真正集成的语音加屏幕系统可以改变教师和学生的体验[1]。
语音是一种高效的输入方式,它允许用户根据自己的条件快速向系统发出命令。交互教学是一种高效的教学输出方式,它允许系统同时显示大量信息,通过体验加强认知,减少用户记忆负担。从逻辑上讲,将语音和交互组合成一个系统将会提升教育教学优势,发挥教学资源的特色[2]。
2 语音交互教学资源应用方式
2.1 文本到语音的合成应用
文本到语音的合成以自然和人性化的方式自定义用户交互,使用语音合成技术,实时将任何文本转换为语音。在此应用方式中,只需将文本内容(即相应教学资源文字)嵌入功能程序模块,软件通过语音合成软件进行识读,与传统配音不同的是,传统配音一般采用人工配音,而现在是机器通过编程软件进行配音,配音的方式由软件提供。
2.2 从语音到语音交互识别的应用
从语音到语音交互识别是允许人与使用实时语音识别的任何系统之间进行对话的最新技术。这种交互方式简单、灵活、有趣,其语音交互质量取决于语音数据库建设及交互中说话人的语音质量。如果交互中说话人的语音不标准,会产生与预料结果不一致的效果,同时,如果语音数据库不强大,其语音交互质量和结果也会不尽如人意。
2.3 从语音到文本的语音转录的应用
从语音到文本的语音转录是将两个或更多人之间的对话音频转换为格式化文本,并使用语音和说话人识别技术按时间顺序分隔短语。这种应用,首先是将说话人的说话内容进行录音,再进行语音识别,最后产生文本内容。这种应用比较适用于会议记录,但其质量也取决于说话人的说话质量和软件的识别技术质量。
2.4 从语音到用户身份认证识别的应用
从语音到用户身份认证识别是一种智能认证技术,它允许用户基于语音和面部生物特征进行身份验证,它是一种最简单、最有效的身份验证形式,以自然、安全、快速和灵活的方式执行。这种技术主要是通过识别操作者的语音特征,从而实施下一步操作。在教学资源建设中,有助于快速认证及打开软件。
2.5 从特定代码语音实现的语音唤醒方式
从特定代码语音实现语音唤醒,就是在系统软件中内置语音唤醒特定代码,任何操作者都可以通过此特定代码打开软件。如前面所述,屏幕的打开,就可以采用特定代码语音交互识别技术。这种技术与用户身份认证语音识别不同,语音身份识别需区分语音的吻合度,而特定代码只要操作者语音文字与特定代码一致即可打开。
2.6 从语音朗读到即时翻译的应用
从语音朗读到即时翻译是在语音识别、语音录音、语音文字技术后,通过内置翻译软件,对所述语音文字进行翻译。这是语音技术的拓展应用,在教学资源建设中,可以适当应用。
3 语音交互教学资源开发策略
3.1 语音交互教学资源实施基础
语音交互教学资源的开发基础主要指语音交互开发的软件、实施语音交互的载体、交互语音集成系统及开发者。从人工智能及交互技术的发展来看,手机是最适宜的载体;而语音交互开发软件,可以是各类手机软件开发工具;交互语音集成系统,可以采用各类大公司语音系统,笔者推荐采用百度语音实施开发;开发者必须具有较强的手机软件编程能力,并熟知百度语音的接口技术及应用技术。
3.2 语音交互教学资源开发路径
语音交互教学资源开发路径,从教学资源设计立项开始,进而交互语音创意构思,实施屏幕设计及功能设计,最后测试运行,安装使用。例如在视频配音的教学资源设计中,采用文字转语音的交互语意构思,在屏幕设计中增加视频播放区及文字显示区,在功能设计中,采用后台百度语音调用文字发音,采用计时器实时控制分段语音播放进度,在测试运行合格后,安装使用,推广辐射。
4 语音交互教学资源开发实践
4.1 语音交互教学资源开发软件设置
为方便更多教师开展语音交互教学资源开发,推荐使用AppInventor软件,这是一款语音交互教学资源低代码构建的利器。
在其人工智能模块中,有百度语音识别、百度语音合成、百度语音唤醒3个组件(见图1)。其中百度语音唤醒可使用百度语音开放平台,实现语音唤醒。百度语音合成需提供相关接口参数,如APPID值等,而在合成模式、发音人等可以多种选择。在教学资源构建时,可以通过后台设置或操作者选择实施变更。
图1 人工智能组件
4.2 语音交互教学资源的开发示例
本例开发,主要功能是通过点击图片,进行诗歌语音播放,现简单介绍其开发方法。先设计教学,准备好素材(图片、文字);设计界面布局,如图2所示;设计编程,本例采用百度语音合成;模拟测试,发现普通女声发音较快,将其速度调整为3(见图3),最后打包下载。
图2 界面设计
图3 百度语音参数设置
低代码编程程序如图4所示,在代码编程中,要注意语句的分隔,例如在作者 “李白” 前后分别加上 “.” 号,让机器语音识读时自动语句分隔。
图4 低代码编程
本例只是一个简单的开发示例,如需增加其他古诗和图片,编程设计时更换图片名称,诗词随同变更的方式,就可以完成一个教学资源的设计和开发。简单构建,就是一图一诗歌,简单递增设计及编程;相对复杂设计及开发可采用数据库的方式构建,将文字、图片名称制作为数据库,编程中需采用文件识读器等技术,如果采用英语单词,则会英语发音[3];可利用网络技术,将资源上传至网络,直接调用即可。