长“耳朵”和“嘴巴”的声控技术
2016-05-30雷辉志
雷辉志
某天,日本一艘新型自动化远洋货轮正驶向澳大利亚。这艘货轮的船长随身佩戴一只无线话筒,在船上的任何地方,他只要对着话筒发出操纵货轮航行的口令,船上的主控电脑就能接收并予以识别。这艘货船采用的是一项自动化新技术——声控技术。这项技术随着电脑技术、微电子技术的日新月异,近年的发展突飞猛进。
国际电子产品市场上,不断涌现出能“听”会“说”的新产品,它们也采用了声控技术。这些新产品是怎么长出“耳朵”和“嘴巴”的?
声控技术的关键是要让机器听懂人的口令。语言是一种波形变化多端的声波。科学家利用一种叫“语图仪”的仪器分析语言的动态频谱发现,每个语音的语图都由几条带子组成,语音不同,带子的形状也不同。但只要说的是同一字音,这几条带子的形状就基本一致。也就是说,每个语音中都含有某种不变的成分,该成分是决定人的听觉感受的核心因素,语言学家将其称为人们发出这个音时口腔共鸣的特征频率。
于是有人设想,如果制造一种机器“耳朵”,里面存有每个语音的特征频率的样板,当这只“耳朵”把所听到的人的口令分解成不同的语音,与所存的样板比较核对,再将结果传输给与之相连的自动控制电路,不就可以让机器按照人的口令完成各种动作了吗?
道理虽然简单,实际操作起来可不容易,因为其中包含了复杂的数学运算过程以及技术上的难题。电脑的问世为制造这样的机器“耳朵”打开了通道。从20世纪60年代起,科学家开始在试验室里研究声控技术的核心——语言识别技术。
20世纪70年代以来,价格低廉、体积小巧的微电脑处理器为声控技术走出实验室创造了必要的条件,开始了声控技术实际应用的新阶段。
声控技术最开始被广泛应用于消费类电子产品上。20世纪70年代中期,美国出现了一种叫“小先生”的电子玩具,它能向儿童提出简单的算术问题,儿童用语音回答。如果答对,屏幕上便出现“yes”的字样,同时发出赞许声;如果答错,屏幕上则出现“no”,并继续提问。
随后,出现了丰富多彩的具有声控功能的电子产品:声控电视机能根据坐在室内的人发出的口令自动开关、选择电视频道、调节亮度与色度。声控打字机会按照人的口授,自动打字、断句、起行,还能自动阅读,人们可用听的方法校核。声控翻译器能把口述的简单日语句子译成英语,不仅能显示在屏幕上,还能用英语朗读。声控电梯可免除举手按电钮之劳,按照人的口令上上下下、开门关门。
最近,英国出现了为丧失生活自理能力的人而设计的声控房间,室内一切器具都可由主人发出口令而自动使用。这种声控装置只有32开的书本大小,人们对着它发出指令后,它能自动控制开关门窗、电视机等。这种声控器只能识别主人的指令,所以不必担心有人“越俎代庖”。
声控技术还在国外某些通讯、交通、情报等部门得到实际应用。例如声控自动预定车品、机票,行李的声控分拣,声控查阅文献资料,声控机械手或机器人等。目前,这些声控装置按照其识别语言的状况大致分为限定单词和非限定单词的语音识别。
限定单词的语音识别声控装置只能听懂规定范围内的单词口令,一般大约只有几百个。非限定单词的语音识别声控装置能听懂的单词数量约为几千个,还能识别句子。
机器装置发展的新趋势是为机器增加“说”的功能,这种人造的电子嘴巴就是语言合成器。微电子技术的迅猛发展已经可以把这种复杂的装置制造成大规模集成电路块,推广普及应用在各种声控装置中。
机器模仿人的声音发出合成语言的道理恰恰是语言识别过程的逆转。把合成语言频带的一系列不同频率的振荡电压按语图的形状组合,再经过扬声器播放,这就是语言合成器的工作过程。
早在1939年,美国纽约世界博览会上就曾展出过一台形如钢琴的大型仪器,它能模拟人讲话。如今,语言合成器日臻完善与成熟,体积日趋缩小,有的甚至可以浓缩在拇指大小的集成电路块上。
机器合成语言的方法通常有三种。
1.波形译码法。这种方法效果最好,它通过用极高的频率连续测定每个音节的声波波形,将测定结果变为二进位数码输入电脑中。使用时将数码取出,经过适当组合,转换为电信号发声。它的缺点是单位时间内要处理的信息量太大,约每秒5万个数码,只有大型的高级电脑才能胜任。
2.音素合成法。它将语音信息压缩到每秒100个数码,把声母音索提取出来,按顺序排列,配以音调发生器与滤波器,可发出缓慢的勉强可懂的人工合成语言,所需设备的价格较低,可在要求不高的场合使用。
3.线性预测编码法。这是当前比较流行的一种方法,它是在音素合成法的基础上进一步完善而成。
语言合成器除了作为声控装置的一部分得到应用外,还正在被制成从文字转换为语音的装置,如已有专供盲人读书看报的阅读机问世。
声控技术展现着自动化技术的美好未来。最近,在美国新奥尔良市举行的一次电脑展览会上,出现了用日常口语直接向电脑提问的新式程序,不必用键盘打出复杂的术语或指令。
这项突破实际上表明了声控技术的重大的意义——改变了目前人们使用电脑的传统方式。电脑固然可以代替人类的部分脑力劳动,但它要求人们必须为其编好程序才能动起来。所以,编程是人们掌握电脑的最大障碍,也是电脑软件价格超出硬件价格的原因。
假若声控技术逐步完善,有可能在将来免除由人工编程的繁琐过程,而让电脑按照人的口令自行编程。这个美好的幻想已经见诸于实践,美、日等国正在大力研制的第五代人工智能电脑就将具有这种神奇的新功能。
声控自动化技术是一门不尽完善的新兴技术,但可以肯定,人类与机器娓娓而谈的美妙图景绝不是虚无缥缈的梦想。