基于语音识别的智慧教室构建与探讨
2020-12-28刘文开伍俊谦焦飞
刘文开 伍俊谦 焦飞
摘要:随着学校教学规模的扩大和教育信息化的高速发展,为提高智慧教室管理的信息化程度,提出并研制了一种基于语音识别的智慧教室管理系统,探讨了面向多媒体设备控制这一领域的应用。系统依托成熟的校园网,以云的方式结合本地语音库进行语音识别。系统应用证明了云架构的基于语音识别的智慧教室管理系统与传统多媒体教室管理系统相比更有优势和可扩展性。同时方便了学校统一管理,提高了管理员的工作效率,为师生提供了智能服务,节约了大量的人力和财力,大大促进了学校信息化建设的发展。
关键词:云架构;语音识别;智慧校园;智慧教室
中图分类号:TP273 文献标识码:A
文章编号:1009-3044(2020)33-0182-03
开放科学(资源服务)标识码( OSID):
引言
现代计算机科学技术飞速发展,学校传统的多媒体教室经过不断改进和升级,逐渐形成智慧教室。多媒体教室的管理从传统的人工操纵各种多媒体设备到通过中控集中控制,然后发展到通过校园网远程控制,再到现在基于人工智能的自动化管理,充分说明了教育的发展过程中逐渐开始应用人工智能,学校重点建设智慧教室、智慧校园已成为未来的趋势[1]。国内有关智慧教室设计理念和教学模式的构建相对丰富,但仍然缺乏全面实践。教育部提出要推动云计算和大数据等新兴技术在学校教育中的应用,大力建设教育现代化。关于积极推进“互联网+”的应用,国务院的指导意见标志着新的科技革命走向当今的舞台[2]。因此,开发云计算架构的基于语音识别的智慧教室管理系统是必要的。智慧校园是综合性的系统,牵连到云计算、校园网、大数据和远程控制等多领域的技术,因此,只有经过充分的整合和协同工作,才能更好地服务于广大师生[3]。智慧校园实现的基础是物联网,依赖众多应用服务系统,融合教学管理、学术研究和师生校园生活,最终构造工作、学习和生活一体化、智慧化的校园环境。智慧教室是建设智慧校园中最重要的部分,是高校实现信息化战略目标的重点工作。目前,大部分学校都已具备校园网的基础,特别是一些高校,在学校信息化建设中经多次的新建、升级、改造,校园网已相当成熟,这为实现智慧教室奠定了良好基础。从现代化技术手段人手,利用现有的校园网络,通过云计算结合本地定制的语音库,设计一套智慧教室管理系统是可行的。
1 技术原理
语音识别研究对象是语音,首先对语音信号进行处理,通过模式识别计算机能够自动识别和理解人声[4]。云计算和大数据的结合与共同发展,一定程度上促进了语音识别技术的进步。深度学习框架在云端的部署可以增强云计算的能力,因此深度学习、大数据和云计算三者的相互促进,大大提高和增强了语音识别模型对复杂数据的挖掘和学习能力[5]。语音识别系统主要分为三种:嵌入式的语音识别系统、服务器模式的语音识别系统及云计算模式的语音识别系统[6]。根据学校的特点,智慧教室管理系统的人机交互模块基于语音识别技术,而基于云模式的语音识别这一块还不够成熟,服务商提供的可定制语音识别服务还处于初级水平,所以本系统的语音识别模块要分成两个部分:语音云和本地语音库。语音云负责日常聊天功能,自主开发的本地语音库负责多媒体设备控制指令的识别。本地语音库可以通过定制,提供针对教室中多媒体设备控制的语音识别服务,专注于这些设备控制的减少了识别范围,实现更高的识别率。本地语音库的实现需要下载和安装微软SpeechRecognition库,语音识别的引擎由Windows自带的语音识别引擎驱动,可实现随时接受用户发出的指令[7]。
1.1云计算
云计算是虚拟化的资源,该计算方式通过互联网动态地提供服务扩展,是一种按使用量付费的模式,提供可用的、便捷的、按需的网络访问。云计算是未来发展的重要研究领域,在应用上它对客户端的设备要求很低,设备之间由于使用的资源来自云,所以自身无须太高的配置,只要网络流畅,就能实现数据与应用共享[8]。目前,云计算和语音识别技术已经成为教育行业新兴的教学方法[9],云架构的智慧教室管理系统中语音识别模块可以应对用户的多种请求,可以利用云数据的量大的优势来提高语音识别系统的性能。语音云采用云计算的方式实现快速的语音应用,本系统中主要是识别人声。云模式的语音识别和交互服务是未来研究与应用的新方向,这方面,科大讯飞、阿里云、百度、腾讯云等的技术处于国内领先地位。
1.2语音识别
聲音识别技术主要分为两类,即声音的意义识别和声音的相似性识别。声音的意义识别是通过对人声进行分析,从中找到发音的特征,将人声转变为文字,通常用于快速输入信息、人工智能、人和计算机通过声音交流等领域。声音的相似性识别是对比要识别的目标声音对象和声音样本,检验目标声音和样本的相似度能否达到要求[10]。语音识别处理过程上,计算机与人基本上是相似的。完整的语音识别系统一般分为三个部分,即语音去噪音预处理与提取语音的特征、声学模型与模式匹配、语言模型与语言处理。是在嘈杂的环境,由于实际环境的复杂性,降噪处理具有很大的现实意义。为了提高语音消噪的水平,提高语音识别系统的准确度,小波去噪技术常应用于语音识别[11]。语音识别的流程如图1所示。
2 系统设计
目前,语音云在通用领域的应用是很广泛的,拥有海量的用户语音数据,语音识别准确度相对高。但在教育领域,学校智慧教室多媒体设备控制方面,需要识别的指令是比较固定的,因此可以定制本地语音库,满足用户个性化需求,弥补语音云搜索范围太广导致识别速度慢、严重依赖网络、多环节泄密、风险集中和用户对数据和技术的掌控灵活度下降等不足。
2.1系统结构
云计算架构的基于语音识别的智慧教室管理系统总体结构如图2所示。
2.2 系统工作流程
智慧教室的电脑按设定时间自动开机,管理系统客户端也随之启动。首先,软件加载登录的基础语法包,初始化登录语音识别引擎,初始化界面,等待用户登录;然后,登录成功后,等待用户的语音指令;教师用户发出正确的语音登录指令后,系统开始判断,如果是控制多媒体设备的指令,则连接本地语音库,识别后通过中控串口控制设备,如果是属于普通聊天的语音对话类,则连接语音云,识别后查找答案,通过声音或文本反馈给用户。系统工作的流程图如图3所示。
3 实践应用
3.1 阿里云的应用
师生与机器实现人机互动,涉及人声识别,需要连接语音云。目前,科大讯飞的语音识别接口不是免费的,腾讯云的语音识别申请和审批过程比较漫长,手续烦琐,最后比较了一下阿里和百度的语音云,相对来说阿里云的易用一些,于是使用了阿里云语音识别的SDK。此外,常用的语音识别模块FreeSWITCH,优点就是开源、跨平台、伸缩性和多协议等,它基于阿里云,使用方便,因此深受二次开发者青睐。它的主要开发语言是C,某些模块中使用了C++,支持SIP、H323、Skype、Google Talk等多种通信协议。阿里云语音服务SDK源码在Github开源平台可以找到,在开发中使用CommonRequest方式直接调用SDK的核心库非常方便。此功能实现的流程为:首先将收集到的用户语音数据发送至后台,然后后台会把接收到的语音输入流发送到阿里云服务器端,由服务器端将语音转换成文字,最后将处理后的语音数据流返回到前台。
3.2 本地语音库的应用
Microsoft Speech SDK是微软公司推出的开发Windows平台上的语音应用程序和语音引擎的工具包,程序员在语音处理的应用程序编程时用到的接口多是来自于该工具包。其中包含了语音识别的各种组件[12]。使用微软的语音识别开发工具包进行二次开发的实例很多,这里参考了其他研究的方法和思路[13]。为了引用SDK提供的COM组件,以VisuaIStudio.NET开发平台为例,在菜单选择工程l添加引用,然后点击COM标签,选择Microsoft Speech Object Library,即可完成对该组件的引用。使用C#.NET进行语音识别模块开发时主要用到三个API:ISpRecognizer接口负责与底层的RecognitionEngine交互,是语音识别引擎接口;ISpRecoContex接口负责发送和接收消息,是完成识别任务的主要接口;ISpRecoGramma接口负责创建、载人和激活的语法规则,是语法器接口。Microsoft Speech SDK软件开发包提供了语音识别的组件,而.NET平台为调用封装好的COM组件非常方便。系统的开发使用了C#语言,它与.NET平台与生俱来的良好结合简化了语音识别应用程序的开发。开发中还要注意,因为下载的SDK只支持英语,而师生多是通过中文实现人机交流的,所以还要下载并安装SDK语言包SpeechSDK5ILangPack。
3.3 串口控制
目前市面上的多媒体设备中央集中控制系统(简称中控)越来越先进,其中有些智慧教室产品是为满足信息化教学的需求而设计,它们将广播级产品技术应用于校园,引领了智慧教学新潮流。但是由于各个学校的多媒体设备或多或少都有不同,中控就可能無法控制部分多媒体设备,所以有必要去进行二次开发适合本校实际的、具有学校自身特点的模块。
大多数计算机和多媒体设备都有RS-232接口,如果没有也可以通过“USB to RS-232”数据线把USB口转换为RS-232接口,然后,某些中控无法直接控制的多媒体设备,可通过设备串口用网线直接连接到计算机,由计算机来直接控制。串口通信的优势在于可远距离传输数据,使用普通网线焊接则成本低,带宽也完全能达到要求,还可自定义传输的协议,数据传输比较可靠[14]。RS-232接口有九个针脚,其中针脚2用于接收数据,针脚3用于发送数据,针脚5为信号地。9针串口只用其中第二、第三和第五三个针脚来发送和接收数据,即一端按串口三针脚顺序焊接网线,另外一端把第二和第三针脚对调一下,第五针脚不变,焊接网线。最后制作出来的交叉线如图4所示。
4 结语
高校信息化进入智慧校园阶段,而教室是教学的主阵地,智慧教室的构建是未来发展的大趋势。经过完善和优化数字化校园建设、坚持以服务为主线构建智慧校园,让师生享受到学校的信息化服务带来的便捷效果是学校信息中心的首要任务。智慧教室实现了主动学习,视听设备智能化和人性化,把Internet和校园网的信息服务应用于教学领域。在人机互动上,以云的方式结合本地语音库进行语音识别,自主开发管理系统,可节省财力、物力,增强学校资料信息的安全性,系统将来升级和优化的灵活性较高,也能提高学校科研团队的开发与实践应用能力。目前,人脸识别作为图像分析与处理领域成功的应用之一,逐渐融人人们生活,那么智慧校园和智慧教室的建设,除了改善语音识别的精度,将来还应研究人脸识别技术在这方面的应用,让人工智能技术给人们生活的各个方面带来更大的便捷。
参考文献:
[1]肖红,韩红帮,申时凯,高校智慧教室的设计与研究[J].电脑知识与技术,2019,15(13):134-135.
[2]邓嘉明,叶忠文,王荣华.以数据聚合为核心的高校智慧校园体系建设[J].现代电子技术,2019,42(3):134-138.
[3]蒋东兴,付小龙,袁芳,等,大数据背景下的高校智慧校园建设 探讨[J].华东师范大学学报(自然科学版),2015(S1): 119-125,131.
[4]杨海峰,张德祥.模式识别理论和技术在语音识别研究中的应用[J].合肥学院学报f自然科学版),2009,19(1):20-23.
[5]王海坤,潘嘉,刘聪.语音识别技术的研究进展与展望[J].电信科学,2018,34(2):1-11.
[6]张巍,贾玉辉,张志楠.一种语音识别的可定制云计算方法[J].中国海洋大学学报(自然科学版),2014,44(1):112-117.
[7]郭海智,杨大全,郭亮.基于云计算和语音识别的控制系统[J].电脑与电信,2016(21):84-86.
[8] Jiao F,Huang T W.Research on development and applicationof remote control system for multimedia classroom based oncloud computing[J]. Education and Information Technologies,2019,24(2):1603-1613.
[9] Jiang N,Qiu M K,Dai W Y.SROC:a speaker recognition withdata decision level fusion method in cloud envlronment[J].Jour-nal of Signal Processing Systems,2017,86(2/3):123-133.
[10]郭利刚,赵凡,声音匹配识别算法的研究与实践[J].中国传媒大学学报(自然科学版),2007,14(1):20-25.
[11] Zhong X M,Dai Y Z,Dai Y,et aI.Study on processing of wave-let speech denoising in speech recognition system[J].lnterna-tional Journal of Speech Technology,2018,21(3):563-569.
[12]白林如,纪浩哲,基于C#语言的Microsoft Speech SDK应用[J].电脑开发与应用,2013,26(9):54-56,59.
[13]刘欢,基于微软语音引擎的语音识别设计[J].电脑知识与技术,2017,13(20):178-179,185.
[14]周阳,周美娇,黄波,等.基于C#的串口通信系统的研究与设计[J]电子测量技术,2015,38(7):135-140.
【通联编辑:唐一东】
作者简介:刘文开(1989-),男,广东茂名人,助理实验师,主要从事数字化校园建设的研究;伍俊谦(1983-),男,广东云浮人,助理实验师,主要从网络工程的研究;通讯作者:焦飞(1980-),男,河南虞城人,高级实验师,硕士,主要研究领域为云计算、数据挖掘。