语音识别即将进入规模化应用

2016-11-26严冬雪

财经天下周刊 2016年22期

严冬雪

当下语音识别可能已达到平均95%的准确度，一旦提升到99%，就将发生质变。

来自商界的种种动向显示，语音识别，这项把人类语音转换成文本的研究，已经成为人工智能领域最接近应用的技术。

过去数月间，这种动口不动手的“黑科技”频繁出现在国内科技行会中。7月，奇点极客公园创新者峰会上，搜狗CEO王小川一边演讲，大屏幕上一边显示出内容，识别结果令人惊艳；10月上旬，在杭州云栖大会上，4万人现场见证马云一边演讲，一边在大屏幕上秀出阿里机器人打出的字幕，还有700万人通过在线直播观看了这一幕，造就了语音识别最大规模的一次亮相；10月下旬，锤子手机M1发布会上，科大讯飞的语音识别技术快速、精准地将罗永浩的讲话译成文字，几乎成为发布会主角。

一边演讲，一边在大屏幕上弹出语音识别字幕，日趋成为潮流标配。这也意味着，这项技术正在步入成熟期。微软10月底发布的一份学术声明表示：语音识别技术的精准性已经媲美人类，在产业标准测试中，其语音识别实现了词错率低至5.9%——与人类专业速记员的最好记录持平，这意味着其识别能力已经高于世界上绝大多数人，而与人类专业高手持平。

顶级语音专家、微软研究院首席研究员俞栋表示，在安静环境下，使用近距离麦克风，语音识别的正确率已经跨过了应用门槛。

巨头的共同动作

来自巨头们的动作亦可印证这一趋势：从2010年开始，苹果公司先后收购包括Siri在内的3家语音识别公司；谷歌、亚马逊、Facebook也各自收购2～4家；微软则从自家战略层面发展Skype、Cortana和微软小冰；今年，英特尔宣布与语音识别技术公司Sensory达成合作，在以后最新的芯片中集成整合该公司的语音识别技术。

相比国外大公司在收购技术上花钱，国内公司则将各自语音识别技术大胆靠近应用。例如百度语音嵌入百度旗下其他App，搜狗语音应用于输入法，腾讯则让微信具备语音转文字功能。创业公司也纷纷利用语音技术，依靠硬件作为流量分发入口，应用在智能家居、车载语音助手等产品上。

事实上，现阶段大部分人早已享受语音识别科技，比如客服服务。作为全球最大的电商，阿里巴巴的客服需求一直伴随业务的激增而扩大，这导致人力成本高企。应对这一状况的传统方式是客服外包，但其服务不可靠、不稳定的缺点难以克服。最开始，阿里采用抽检式的质检，从每100通电话里抽取1通，由人工逐句检验录音是否合规。

负责人很快发现，1%的抽检率不足以覆盖全部问题，因为每个人犯错的方式存在很大差异。于是，阿里云的人工智能机器人ET介入该项服务，将语音转化为文字，再利用关键词搜索等完成质检，一旦触发违规，会自动进入处罚流程。如果客服认为ET识别有误，自己被冤枉了，可以点击“申诉”——人工质检员只在这一步介入。如此，在同等人力条件下，质检率从1%提升到了100%。

阿里云智能语音高级专家陈一宁告诉《财经天下》周刊，除了客服，语音识别也应用在淘宝、支付宝、钉钉等移动端应用，甚至进入了杭州市西湖区人民法院的庭审现场。自今年6月起，该法院的书记员工作被ET替代。法官及诉讼参与各方人士的发言，都会在显示屏上即时显示。

陈一宁解释，让语音识别参与庭审不仅可以节省人力，其最大意义在于方便检索和后续分析。法官们在审案前，需要参考同类案件的处理，而ET自动将庭审内容转化为文字并归档，就能方便法官输入同类关键词，查看所有相关案件的记录。

电脑与人耳的优劣

微软称最新的语音识别词错率与专业速记员持平，阿里也做了类似的测试。在今年年初的2016阿里云年会上，阿里ET与世界速记大赛亚军得主姜毅同时为现场演讲做速记。与姜毅的对决中，ET以0.67%的微弱优势取胜。

面对人类中的顶级选手，ET的取胜优势在于其稳定性和并发计算能力。人类的体力有极限，在高强度压力下难以保持稳定；此外，计算机的高并发能力使其可以在发现错误后，瞬间完成修改，速记员则只能在演讲者话语中断的间歇见缝插针返回修改。

人类的另一个弱项是对短句的识别。如果没有前后语境，突然冒出一句语速又快、内容又短的句子，一般人很难听清。但计算机不怕语速快，并且能通过大数据学习沉淀下的经验，去根据之前听过的类似语音，来计算出这句话最可能是什么。

但若论真正“听懂”的智慧，电脑尚未追赶上人类。比如在环境嘈杂、多人同时发音、中英夹杂等条件下，电脑便不及人类能迅速过滤无用信息，理解对方的意思。或者，讲述者说的是一个全新的、创新性的词语，此前没有人说过，机器自然没学习过，就很难识别。

有趣的是，方言与口音并不在计算机惧怕的领域范围内。以阿里客服为例，他们每天会接听来自全国乃至世界各地的电话，后台的ET被各种口音训练过，只要积累足够的训练量，可以无上限地成为N种方言专家，识别标准普通话之外的口音。

离消费级仅一步之遥

与大部分被束之高阁的前沿研究不同，语音识别技术已经应用到实际产品中，例如科大讯飞已经推出一系列手机应用，用于录音转化文字。微软也在其Xbox游戏平台、最新的Windows中部署语音识别助手。

根据人工智能世界级专家、百度首席科学家吴恩达的说法，当下语音识别可能已达到平均95%的准确度，一旦提升到99%，就将发生质变：你从偶尔使用语音，变到常常自然而然地使用。届时，人机交互方式将彻底改变，双手与键盘被解放，人们真的“动口不动手”。

事实上，来自亚马逊的一款产品已经印证了这一趋势：Echo智能音箱被嵌入亚马逊的语音识别技术Alexa，成为语音控制智能家居的入口。上市两年以来，Echo已经学会了朗读小说、用Uber叫车、叫匹萨外卖、配合户主玩语音游戏。由于当下的语言技术已能支撑不错的用户体验，Echo获得了市场认可。根据今年6月公开的新销售计划，亚马逊计划在2017年卖出第1000万台Echo。

一旦95%到99%一步跨越成功，可以预见的是，类似Echo的智能语音交互产品会遍地开花式取得成功。巨头们显然有相似的判断与考虑，并在一致加速步伐：例如，由于Siri表现糟糕，已经引发了苹果高管的关注，已在不久前从美国卡耐基梅隆大学挖来人工智能技术的教授负责组建团队，其使命之一便是提高Siri识别语音率和回答问题的“智商”。

陈一宁也向《财经天下》周刊透露，阿里云也会在明年春节前后推出消费级的语音识别产品，届时，你只需将语音传送到阿里云，便可由其经过翻译，实时返回文字。

有意思的是，这一次，科研不再只是科学家的事。你我作为人类的一员，同样参与其中，你每次拨打客服电话，都在给计算机学习人类语言提供了一次宝贵的学习机会。而为你服务的，除了客服年轻人，还有背后的一整支科学家团队。