语音识别进化简史 从造技术到建系统
2020-04-14张贺飞
张贺飞
美国知名投资机构Mangrove Capital Partners在《2019年语音技术报告》中,给语音下了一个宏大的定义——欢迎下一代的颠覆者。可如果把时间倒退10年,大部分人还是会把“语音交互”定义为一场豪赌,都知道赢面比较大,却迟迟不敢下注,因为概念的落地还没有一个明确的期限,当正确的路径被走通之前,永远都存在不确定性。不过在此前的80年里,人类对语音技术的希望从未破灭,就像是在迷宫中找寻出口一般,一遍又一遍地试错,最终找到了正确的路径。
漫长的孩提时代
“明天天气怎么样?”“我想聽周杰伦的歌”,诸如这样的指令每天有几亿次发生,哪怕是牙牙学语的孩子也可以和智能音箱进行流畅的对话。但在50年前,就职于贝尔实验室的约翰·皮尔斯却在一封公开信中为语音识别下了“死亡诊断书”:就像是把水转化为汽油、从海里提取金子、彻底治疗癌症,让机器识别语音几乎是不可能实现的事情。彼时距离首个能够处理合成语音的机器出现已经过去30年的时间,距离发明出能够听懂从0到9语音数字的机器也过去了17个年头。这两项创造性的发明均出自贝尔实验室,但语音识别技术的缓慢进展,几乎消磨掉了所有人的耐心。
在20世纪的大部分时间里,语音识别技术就像一场不知方向的长征,时间刻度被拉长到了10年之久:20世纪60年代,时间规整机制、动态时间规整和音素动态跟踪三个关键技术奠定了语音识别发展的基础;20世纪70年代,语音识别进入了快速发展的阶段,模式识别思想、动态规划算法、线性预测编码等开始应用;20纪80年代,语音识别开始从孤立词识别系统向大词汇量连续语音识别系统发展,基于GMM+MM的框架成为语音识别系统的主导框架;20纪90年代,出现了很多产品化的语音识别系统,比如IBM的Via-vioce系统、微软的Whisper系统、英国剑桥大学的HTK系统;但在进入21世纪后,语音识别系统的错误率依然很高,再次陷到漫长的瓶颈期。直到2006年Hiton提出用深度置信网络初始化神经网络,使得训练深层的神经网络变得容易,从而掀起了深度学习的浪潮。
只是在2009年之前70年左右的漫长岁月里,中国在语音识别技术上大多处于边缘角色,1958年中国科学院声学所利用电子管电路识别10个元音,1973年中国科学院声学所开始了计算机语音识别,然后是863计划开始组织语音识别技术的研究,直到百度、科大讯飞等中国企业的崛起。
跃进的少年时代
2010年注定是语音识别的转折点。前一年Hinton和D.Mohamed将深度神经网络应用于语音的声学建模,在小词汇量连续语音识别数据库TIMIT上获得成功。从2010年开始,微软的俞栋、邓力等学者首先尝试将深度学习技术引入到语音识别领域,并确立了三个维度的标准:数据量的多少,取决于搜索量、使用量的规模;算法的优劣,顶级人才扮演者至关重要的角色;计算力的水平,关键在于FPGA等硬件的发展。在这三个维度的比拼中,谁拥有数据上的优势,谁聚集了顶级的人才,谁掌握着强大的计算能力,多半会成为这场较量中的优胜方。于是在语音识别的“少年时代”,终于开始了跃进式的发展,刷新纪录的时间间隔从几年被压缩到几个月。
2016年语音识别的准确率达到90%,但在这年晚些时候,微软公开表示语音识别系统的词错率达到了5.9%,等同于人类速记同样一段对话的水平,时任百度首席科学家吴恩达发声称百度在2015年末即达到了同等水平;2017年6月,Google表示语音识别的准确率达到95%,而早在10个月前的时候,李彦宏就在百度世界大会上宣布了百度语音识别准确率达到97%的消息。
一个有些“奇怪”的现象,为何在语音识别领域缺少前期积累的中国,可以在极短的时间内实现从无到有,甚至有后发先至的趋势?可以找到的原因有二:首先,传统专利池被挑战,竞争回归技术。语音识别进入深度学习时代,并没有背负太多的专利包袱,国内外玩家们有机会站在了同一起跑线上。比如2013年百度的语音识别技术还主要基于mel-bank的子带CNN模型;2014年就独立发展出了Sequence DiscriminativeTraining(区分度模型);2015年初推出基于LSTM-HMM的语音识别,年底发展出基于LSTM-CTC的端对端语音识别系统;2016年和2017年将Deep CNN模型和LSTM、CTC结合起来,2018年推出Deep Peak 2模型,2019年又发布了流式多级的截断注意力模型……此后,百度还推出了针对远场语音交互的鸿鹊芯片,可以实现远场阵列信号实时处理,高精度超低误报语音唤醒以及离线语音识别。
其次,语音识别进入到生态化、产业化的时代。在Google发布了语音开放API后,对Nuance产生了致命的打击,不仅仅是Google在产品和技术上的优势,也来自于Google强大的人工智能技术生态,例如以TensorFlow为代表的深度学习引擎。同样的逻辑,百度在2015年就开放了上百项智能语音专利,与海尔、京东、中兴通讯、中国普天等组建了智能语音知识产权产业联盟,同时PaddlePaddle、Warp-CTC、百度大脑的开放和开源,对中文语音识别有着潜移默化的影响,成了中国语音识别领域标准的制定者。
除此之外,2018年公布的第二十届中国专利评审结果中,百度的语音、机器翻译、无人车相关三项专利获奖,成为人工智能领域至今为止在国内专利界获得的最高级别政府奖项。其中“语音专利”涉及的新语音识别模型——采用深度学习算法在24时内对数以百亿级的大规模数据进行实时分析,高性能计算,令语音识别技术的准确率达97%,解决了语音识别领域关键性、共性的技术难题,被MIT评为“2016年全球十大突破技术”。
语音识别的话语权,逐渐从大学和机构的实验室转移到了微软、Google、百度等商业巨擘手中,并最终迎来了跃进式发展的十年。或许语音技术的“少年时代”还有很长的路要走,但终究走出了漫漫黑夜,瞥见了黎明的曙光。