科大讯飞:听见中国智能语音技术最强音
2017-05-10杨玄章
杨玄章
新生报到季,某校刚刚入学的新同学没有像以往一样领到厚厚的一本新生指南,取而代之的是一个叫“新生助手”的小盒子或者手机“小马甲”。在这个陌生的环境下,这个“新生助手”就成为了同学们融入校园生活最可靠的伙伴了。
语音技术进校园
“哪里可以买到便宜的洗漱用品?”新生小贾刚刚把行李放下,就要买必备的生活用品了。
“小助手”回答道:“学校周边步行范围内有两个超市,一个物美超市在南门外面的学府街2号,一个是学生超市在学校的二食堂边上。您是要买牙刷、牙膏和毛巾么?请选择一下吧。”这时,在智能设备的屏幕上,展现了这两个超市的地图,同时把小贾可能要买的东西在这两个超市的价格都罗列在下面。
小贾很高兴地说道:“好啊,就这几个东西吧,我想从学校里的学生超市买这几样。给我送到宿舍来吧。”
“好的,”接到了小贾的指示,“小助手”直接下了单,“东西会在30分钟之后送达。另外,今天是新学期第一天,你要不要去校园里看看呢?”
小贾问道:“去哪里看好呢?新学期学校应该有什么活动吧?”
“小助手”依次列出了今天学校所有的活动和地点:“10点到17点,北门小树林有各个社团的招新活动;10点到11点,我的朋友S博士会介绍学校的智能授课评估系统……”
“这个智能授课要去听,据说以后我们的课堂综合评分,都是由这个智能语音系统来完成的。”同宿舍的小于在旁边忍不住插嘴。
“好啊!那就帮我们订两个座位吧,我们10点去参加S博士的演讲。”小贾说。
几秒钟后,“小助手”在其上方投射出一个报告厅的全息座位图,其中有两个座位高亮显示:“定好了!你们的座位在在H21和H23。报告厅离宿舍不远,我已经把路线图推送到你们的手机上了。”
小贾和小于顺着地图的指引,刚刚来到报告厅门口,“小助手”先跳出来和“S博士”打招呼了:“S博士你好,这是新生小贾和小于,今天来学习智能授课评估系统。”
这时候,教室门口突然跳出来一个戴博士帽的大胖子博士全息图,很热情地和大家打招呼:“欢迎欢迎,今天还有另一个校区的同学,通过全息在线和我们互动。”
大家坐定之后,一个更大号的“博士帽”被投射到最前面,“S博士”开始详细地讲解如何与该系统进行良好的互动,从而争取到更好的课堂分数。
其中有一点最让小贾印象深刻:回答课堂问题时,你们只要以你最喜欢的方式说出你的想法就好了,我们的系统会全面分析你的答案,并分析你的语气和语速,从而得到最好的分数。
会议的最后,小贾和小于很好奇地问“小助手”:“S博士到底在哪个校区工作啊?”
“小助手”嘿嘿一笑说:“S博士和我一样啊,是你们的智能语音助手哦。”
看过上面的故事,有的同学也许会问:这是哪个科幻小说中的场景?如果是在几年前,这样的场景也许还是人们对于遥远未来智能社会的幻想。不过,最近智能语音领域的迅猛发展,让很多这样的“科幻”场景即将成为现实。
那么,智能语音从哪里来到哪里去?未来这方面的技术会如何改变我们的社会和生活?带着这些问题,我们采访了这个领域在中国成长起来的大咖:科大讯飞。
最早接近“人类智能”的领域
近年来,“人工智能”这四个字在各个方向“轰炸”着人们的认知。事实上,这四个字意味着语音、图像、视频、文本、日志分析等多个领域。在这些个领域里面,很多离真正的“人类智能”还有一定距离。但是,智能语音领域却有着不一样的进展。
2015年,科大讯飞最新语音转写产品“讯飞听见”将中文普通话识别和转写的实用准确率提高到了95%以上,远超过人类专业速记员的速度和准确度。这个不同寻常的发布与那些最新研究成果和技术实验有很大的不同,这标志着中文智能语音的技术已经可以真真实实地达到人类的水平。
“科大讯飞虽然成立18年了,但是在语音识别领域其实还是个新兵,”讯飞负责人这样告诉记者:“最早的语音识别技术可以追溯到上世纪50年代,贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统;1960年英国Denes等人研究成功第一个计算机语音识别系统。大规模的语音识别研究始于上世纪70年代以后,在小词汇量、孤立词的识别方面取得了实质性的进展。”
上世纪90年代以后,大词汇量连续语音识别得到优化,在语音识别技术的应用及产品化方面出现了很大的进展。1997年,IBM Viavoice首个语音听写产品问世。
自2009年以来,借助机器学习领域深度学习研究的发展以及大数据语料的积累,语音识别技术得到突飞猛进的发展。2010年,谷歌发布VoiceAction支持语音操作与搜索。2011年初,微软的深度神经网络(DNN)模型在语音搜索任务上获得成功。也就在同年,苹果手机助理Siri首次亮相,人机交互掀开了新的篇章。
科大讯飞成立于1999年,相比这些巨头来说,是个不折不扣的“新兵”,刚开始难免是要坐冷板凳的。但是,在多年的積累之后,科大讯飞在智能语音领域中的贡献让人刮目相看。有些人认为中国的企业可能在中文智能语音方面积累更多一些,事实上,科大讯飞在历次的国内外语音合成评测中,各项关键指标均名列第一。2008年至今,科大讯飞连续在国际说话人、语种识别评测大赛中名列前茅。2014年,科大讯飞首次参加国际口语机器翻译评测比赛(International Workshop on Spoken Language Translation)即在中英和英中互译方向中以显著优势勇获第一。2016年,国际语音识别大赛(CHiME)科大讯飞取得全部指标第一;在认知智能领域,相继获得国际认知智能测试(Winograd Schema Challenge)全球第一、国际知识图谱构建大赛(NIST TAC Knowledge Base Population Entity Discovery and Linking Track)核心任务全球第一。
智能語音技术从简单的比赛和实验室成果,到真正的实用化,甚至超过人类的智能水平,要做的工作比我们想象得要复杂得多。如果我们打开“讯飞听见”的技术链,发现其集成了包括语音转写识别技术、篇章级处理方案、自然语言处理技术、阵列解混响技术、口语化风格处理技术、声纹识别等多方面的技术,为了应对每个人之间的个体化的差异,方言语音识别、高抗噪语音识别、个性化识别等多方面的功能也是必不可少的。去年12月,“ 讯飞听见”的升级版本在原实时转写汉字的基础上,还可同步翻译为英、日、韩、维等多种语言。
更高阶:认知智能
人工智能的“旅程”中,在很长一段时间,一直处于“能存会算”的计算智能时代。在这一时期,机器还是计算的机器,人类和机器交互的方式还很有限很低效,在有限的交流中,机器能按照人来安排的指令,完成特定的功能已经算是合格了。
智能语音领域的发展,率先将机器的“听、说、理解”能力拉升到了“感知智能”的阶段。以谷歌、微软、讯飞为代表的一批优秀的企业和机构将语音的识别、认知、合成、翻译等能力植入了机器内。同时,在教育、车载、家居、通信、硬件和城市等多个领域,产生了丰富的应用。
“现在我们要进入认知智能阶段了。”科大讯飞强调说。从最新的讯飞产品线来看,在教育评测、知识服务、智能客服、机器翻译等领域,机器已经开始具备了“能理解会思考”的能力了。“人工智能在智能语音这个领域里已经超过人类了。最近我们在做一些教育评测领域的实践。如今,机器主观题阅卷技术对语文、英文等学科的评分已达到或超过人工评分水平。”
当智能语音系统具备足够多的实践、“学习”过足够多的数据,“练习”过足够多的对话,也许它真的可以为人类“打开另一扇窗口”。
那到底未来是什么呢?也许智能语音技术与其他人工智能技术配合起来,可以让人们专注在自己的兴趣上,而不用担心是谁来完成基础服务;可以让小孩子可以自如地获取知识,而不用关心谁在扮演老师的角色;可以让科学家将精力集中在最核心的研究上,而不用操心是谁来进行配合性的工作;可以让上班族们在早高峰可以美美地睡一觉,而不用费心交通状况和换乘方案……
毫无疑问,人工智能未来肯定会在我们身边扮演一个主要角色,智能语音技术显然也会成为这里面的重要核心之一。不过,这个领域仍需杰出的人才进行数十年如一日的坚守和创新,大家准备好了么?