数字环境下录音教材的交互性发展研究*
2015-12-03闵捷
闵 捷
(1.人民教育电子音像出版社,北京100081;2.人民教育出版社课程教材研究所,北京100081)
录音教材是我国教科书体系中的重要组成部分,在国内应用于教学已有50多年的历史。在基础教育领域,录音教材主要应用于英语、语文、音乐等学科。特别在语言类学科中,录音教材对培养学生的听、说能力有着不可或缺的作用。
我国的录音教材从20世纪60年代开始被教育工作者普遍认识和接受,至今已有50多年时间。录音教材在今天我们所说的教学立体化配套资源中算得上是“古老”的一类。在新中国建立初期,英语等学科的听力教学只能在少数几所大学中开设,由于缺少录音教材的支持,只能由教师口头朗读听力内容进行教学。从60年代开始,随着电化教育的逐渐发展和普及,录音教材作为听力教学的基础性课程资源进入课堂,也使得越来越多的学生享受到了优质的听力教育。
长期以来,录音教材始终是促进中小学生提高语言学科听、说技能的理想课程资源,录音教材的使用效果也早已被广大教师实践和论证过。现在我们常见的英语录音教材在语速、音色、背景声音的选择上都经过了严谨的设计。录音内容按照不同学段学生的学习特点以及课程标准的要求实现循序渐进、由易到难的过渡,以促进学生在英语的听、说、读、写技能上的全面发展。
在进入基础教育课堂之后的30多年中,从早期单一的盒式录音带,到现今各类各样的数字化录音教材,录音教材并没有固步自封,而是在发生着与时俱进的变化。特别是进入21世纪后,教育信息化发展得到了广泛的重视,也取得了一系列的重大进展。笔者在多年录音教材编辑、出版工作的基础上,对数字环境下录音教材的交互性进行一些研究工作,从交互方式、原理、特征等方面整理了近年来录音教材的数字化进展情况。以下笔者尝试梳理和分析在我国当前教育信息化的大趋势下,录音教材交互性发展的一些典型实例。
一、传统录音教材交互性的发展
从信息传播的方式和教学应用的角度看,传统的磁带型录音教材有教学性、经济性、易用性三个显著特点。教学性是指录音教材的内容与课程匹配,录音的语调、语速等方面符合教学要求;经济性是指磁带的技术成熟、磁带本身和播放工具的价格低廉,能在最广大范围内被接受;易用性是指磁带在使用时操作简单,对环境的要求很低,在各种环境下都能稳定使用。与上述特点相比,磁带型录音教材的交互性则是一个较为薄弱的环节。
在教育信息化环境中,“交互性”一词通常指用户(包括教师、学生)与教学系统、课程资源之间的双向信息传递程度。用户与系统、资源之间的双向信息传递方式越多样、信息量越丰富,则交互性越强。对早期的磁带型录音教材来说,录音机是最常见的播放工具。用户与录音教材之间只能通过机械装置进行“指令式”交互。这里说的“指令式”交互,是指用户通过播放工具向录音教材发出具有特定功能含义的指令,录音教材则通过播放工具响应用户指令(见图1)。常见的指令包括播放、停止、倒退、快进等。基于录音机的机械装置,用户想要反复播放某一段声音,或者准确定位到某一个声音内容上都是比较困难的,操作时的反复倒带也比较浪费时间,对学习效率有一定影响。
图1用户与录音教材之间的“指令式”交互模型
到20世纪90年代,复读机的发明开启了录音教材的数字化。复读机是一种现在仍在广泛使用的、能够播放盒式录音带的新式录音机。它的特点是能将磁带中播放的模拟信号音频暂时转化为数字信号音频,并存储在数字芯片中,从而实现同声对比、跟读、复读等人机交互功能,增强了录音教材使用时的交互功能并使交互更为便捷。
复读机的本质特点是能将磁带型录音教材的声音信息进行暂时的数字信号转换,这使得数字化信息交互方式得以出现。用户下达的指令不必通过机械装置传递,而是直接发给临时的数字音频文件。数字音频文件执行定位、播放等指令都在瞬间完成,因此提高了录音教材使用效率。复读机除了能将录音教材的声音暂时存储为声音文件外,也可以将用户的语音用同样的方式进行存储,从而实现跟读、对比等功能。
二、全数字形态录音教材的交互性
CD和Mp3是录音资源全数字化的典型代表。我们今天所说的CD一般都是指CD-DA(Compact Disc-Digital Audio,即密致激光数字唱盘)的简称。CD形式的录音资源进入教育,标志着录音资源的数字化时代正式开始。CD是较早采用的数字录音教材形式。在CD的音频文件中,声音信息全部以数字形态(二进制)储存和使用。Mp3则是一种压缩的声音文件,与CD相比,Mp3占据的数据空间小得多,而声音的质量从教学应用角度看又相对完好,因此在网络时代更受到教师、学生的喜爱。
在实现了录音资源的全数字化转型后,CD、Mp3等形式的录音资源都能够支持时间轴上的精确定位,这使用户与录音教材之间的交互更为便捷和精确。此外,数字形式的录音资源可根据课程、教材的内容进行拆分,可将整段音频根据课程章节、栏目拆分为单个文件,使交互更为便捷。
尽管进入录音资源的全数字化时代后,CD、Mp3等形式的录音资源在交互性上有了大幅度的进展,但也仍存在不足之处。首先在定位交互方面,录音资源仅支持基于时间轴的精确定位,但并不支持基于课程内容的精确定位。使用者在定位时,只能定位于几分几秒,而不能基于内容定位于第几节第几段。除非我们把课程内容完全“翻译”为时间信息,即确定每个具有内容含义的字、词或其他声音的具体时间点,才能够实现基于内容的定位交互,但这在实际中很难操作。此外,虽然前面提到了CD、Mp3具有依据课程内容的结构对录音进行拆分的优点,但拆分后的音频文件之间无法进行有效的信息关联,只能采用物理关联或主观关联。例如,我们可以把属于同一册教科书的录音资源刻制在一张光碟上,或者把属于同一章节内容的录音资源文件放在同一文件夹下,类似这样把相关录音资源进行归类的方式都属于物理关联和主观关联。而在信息化发展过程中,资源之间的信息关联是一种主流趋势,也是进行复杂交互的基础。从这个角度看,CD、Mp3等形式的录音教材仍有待进一步发展。
三、多媒体印刷读物(MPR)的交互性
多媒体印刷读物(英文为Multimedia Print Reader,通常简称为MPR,下同)是由动态声音压缩和播放同二维条码印刷与微距释读技术结合而制成的新型纸质有声读物,可与普通纸书刊一样进行阅读,在阅读的同时,用点读笔指点可发出相应的声音。
在教育领域,点读教材是最常见的MPR型课程资源。点读教材由印有二维隐码的纸质教材、录音资源和点读笔三者组成。印有二维隐码的教材,粗看起来与普通教科书一样,但仔细观察则能看见教材的图、文之中套印有一层浅浅的二维码。教材中的二维码采用了隐码技术,不影响读者对教材内容的阅读,但却可以被专用的光学设备识别。点读教材的录音资源是根据纸质教材内容录制并进行碎片化、编码化处理的音频文件。点读笔则是一种笔状的手持阅读器,它能够对教材中的二维隐码进行光学识别,从而播放出二维码对应的录音资源内容。通俗点说,就是把录音带“印”在了书上,点读笔就相当于复读机,能够读取印在书上的“磁带”信息。基于这种新技术,录音资源实现了与纸制印刷读物的整合。
从交互性角度看,点读教材最大的特点在于实现了基于课程内容的交互。如前文所述,CD、Mp3等形式录音教材在进行定位、复读等交互时,都只能基于时间轴进行,课程内容必须转化为时间信息后才能被利用,不够便利。而在点读教材中,当用户想听课程内容中的任何一段声音时,只需要将点读教材翻到该页,通过文字信息进行定位,然后用点读笔即可播放录音。从本质上说,这是将设备可读的录音文件数字信息与用户可读的文字信息进行了有序关联。当前,实现“技术与学科教学深度融合”是我国教育信息化重点工作之一,点读教材基于课程内容的交互方式正体现了技术与教学的融合性。此外,点读教材还可以对录音内容进行拓展,例如在英语学科中录制中英翻译的音频,通过“翻译”指令实现课程内容的双语互译。
点读教材之所以能够实现基于课程内容的交互性,其核心创新点是录音文件的碎片化和编码结构化。在点读教材中,原本长则几十分钟、短则三四分钟的录音文件通过内容语义进行碎片化。例如英语教材中的单词表,在传统录音教材中只能依据单词表的次序录制全部单词的读音,较好的Mp3音频文件也只能做到以教材单元为单位,每单元的单词录一段。这是因为在传统录音教材中,如果将每个单词作为一个文件,那么一册教材总共将有数百乃至近千个单词音频文件。面对如此大量的文件,用户将无法管理和使用。而在点读教材中,最小的录音文件是“一个单词”。数百乃至上千个声音文件通过标准化的MPR编码规则进行了统一编码,并与纸质教材内容进行有序关联。这就提供了单词的独立点读。读者可以根据自己的需要,播放想听的一个或一些在单词表中排列不连续单词,即无须费心管理和挑选碎片化音频,也不用把整个单词表都听一遍。
纵观录音教材的交互性发展,从磁带到点读教材,在数字化方面已取得重大进展。但笔者认为录音教材发展至此,在交互性方面依然存在一些明显的不足。首先,无论是磁带、CD还是点读教材,交互依然停留在“指令式”交互上,无法进行更复杂的交互方式;其次,上述各类录音教材都受到载体限制,无法充分利用信息网络形成高级交互。笔者认为:尽管像点读教材这样的新型录音教材能够将“指令式”交互发挥到极限,但与录音内容相比,交互性只能作为这些录音教材的附属功能存在,对推动学习模式变革的影响十分有限。
四、基于语音识别与分析系统的录音资源智能交互性发展
从技术角度看,对声音信息的数字化解析是制约录音教材交互性进一步发展的主要瓶颈。当录音教材及配套的软、硬件系统在人工智能方面不够强大时,就只能“理解”数量有限的指令信息,而无法直接对变化万千的用户语音信息进行有效解析。语音分析系统在教育领域的应用,是录音教材交互性的一次发展飞跃。语音分析系统将录音教材的交互性上升为与录音教材的内容同等重要水平。
基于语音识别的录音教材包括录音内容和语音识别系统两个核心部分。其中录音内容是录音教材的基础,既为整套录音教材提供了基础性资源,也为语音识别和分析提供基础依据。语音识别系统则是录音教材中的创新关键,能够使计算机或其他智能数字终端“听懂”用户的语言。这种技术应用于录音教材后,对录音教材全面辅助学生的“听”、“说”学习将有大幅的强化效果。
基于语音识别的录音教材在进行语音交互时,通常经历五个环节。①提取语音特征,从语音波形中提取出随时间变化的语音特征序列;②匹配声学模型与模式,将获取的语音特征通过识别算法找到对应的发音模板;③将输入的语音特征同声学模型(声学模型包括全部发音模板)进行比较,得到最佳的识别结果;④依据语音评价模型,对语音进行评价分析;⑤将分析结果反馈给用户。通过这五个环节后,系统就完成一次语音交互,能够把识别、解析、评价后的信息反馈给用户。反馈信息中可以包括对用户语音的评价结果、口语能力的强化和改进方案、标准语音范例等内容,最终实现面向用户口语能力提升的教学过程。
应该指出的是,尽管语音识别技术在近年来有了巨大的进步,相关的教育、出版机构也推出了一些学习辅助产品,但语音识别技术在教育领域的应用仍处于初级阶段,当前实现的语音交互也仅仅是基础层次的语音交互。对教育应用来说,一个有效的语音识别系统包括声音模型、语言模型和评价模型三个核心部分,其中的评价模型是专门面向教育领域口语教学的算法模型。而就目前笔者所见的各种语音识别录音教材或一般教育产品,都普遍缺少合理有效的口语评价模型。这是未来信息技术在录音教材中实现与教育、教学深度融合的一个关键难点,需要进一步研究和突破。
图2基于语音分析系统的用户与录音教材交互模型
五、小结与展望
在分析了过去几十年中录音教材的交互性发展过程和典型案例后,笔者认为有必要对其发展过程中的共性进行一些小结。录音教材自身的形式和交互的方式随着技术的进步发生了多样的变化,但作为教材的一个种类,其课程和教学性始终作为基础属性存在,并引导着交互性的发展。
无论是“指令式”交互还是语音交互,最终的目标都是为课程和教学服务。因此,录音教材的交互性发展始终紧随着课程内容和教学需求。“指令式”交互从单纯的播放、进、退到复杂的点读、翻译,实际是随着课程目标进行的逐步升级过程,并能够越来越多地满足教学需求。应该看到,随着教育的整体发展,课程和教学对语言类学科的听说技能要求不断提高。以2011版义务教育英语课程标准为例,和课程标准(实验稿)相比,新标准中“语言技能”的分级标准对学生在各阶段的听、说技能都提出了更细致要求。面对新要求的提出,录音教材的交互性发展则是对这些教育需求的回应。
未来的录音教材可能会在基于行为分析的语言学习交互、基于互联网的多元交互和基于语音合成技术的全语音交互等方面有进一步的进展。录音教材可能能够基于学生的学习行为进行精确内容推送、听说辅导,能够在学生、录音教材二元交互的基础上进一步发展为教师、学生、录音教材、家长等共同参与的多元交互,可能在语音合成技术支持下实现录音教材“学会说话”,并于用户之间实现全语音交互。
从上世纪末开始,信息技术的发展呈现出爆炸的态势,许多我们今天看上去不可思议的交互功能都可能在不远的将来被实现。但笔者认为,无论技术发展到什么程度,当我们将技术应用于教育时,都必须重视两者之间的融合。课程和教学需求永远是教育中引入技术的目的,指导着我们采用什么样的技术以及如何应用技术。
[1]教基二[2014]8号.中小学教科书选用管理暂行办法[Z].
[2]武桂香.录音教材在农村中小学英语教学中的作用[J].山西财经大学学报,2012(S2).
[3]规划编制专家组.《教育信息化十年发展规划(2011-2020年)》解读[M].北京:人民教育出版社,2013.
[4]段军.MPR:传统出版业的新课题[J].出版发行研究,2013(8).
[5]刘江华.信息技术与中职英语口语教学整合模式的研究[D].长春:东北师范大学,2012.
[6]夏祖煃.怎样培养一年级学生的听力[J].外语教学与研究,1960(2).
[7]中国出版科学研究所.MPR出版物 第1部分:MPR码编码规则(GB/T 27937.1-2011)[S].中国国家标准化管理委员会,2011.