语音成移动互联网新入口
2014-09-30吴勇毅
吴勇毅
“只动嘴不动手”,就可以指挥满屋子的家电为你服务,这在今天看来仍是科幻片的一幕,因语音技术的发展正在一步步成为现实。
阿里巴巴说出“芝麻芝麻,开开门”,宝库的厚重石门便自动打开了。这个古老的阿拉伯神话,在如今数字时代语音技术的帮助下,完全可能成为现实。在多年的技术积累后,时下语音技术的春天正“千树万树梨花开”。
当前,智能语音应用已是移动互联领域的绝对热点之一。除了国外Siri、Google Now、微软必应添加的语音搜索功能外,近一两年,国内市场也陆续出现百度语音助手、搜狗语音助手、盛大的百灵语音助手、讯飞语点与讯飞语音助手、灵犀助手、虫洞语音助手、智能360语音助手等语音搜索工具。其中既有国际IT巨头、互联网大佬,也有二三十人的创业团队,市场堪称火爆,愈演愈烈。
智能语音交互技术日新月异
时下,语音应用分为三大技术环节:语音识别、语义理解、搜索,每个环节的技术难度系数都很高。以百度的语音助手为例,用户对它的需求大致分为三类:第一类是指令性的需求,包括打电话、发短信、发微博等。第二类是搜索需求,其中分为垂直搜索需求、通用搜索需求、知识类搜索需求,例如用户如果希望播放某首歌,就进入百度音乐等垂直搜索;如果是综合类的搜索需求,就进入百度的搜索引擎;如果是知识类需求,例如问“世界最长的河流是哪个”,语音助手就会进入知识库给出结果。第三类是调侃类的需求,百度有互动性资源,例如“小黄鸡”等。
自苹果iPhone 4S内置语音助手Siri以来,语音识别技术近年来经历了前所未有的繁荣。穿戴式设备、智能家居和车载设备的兴起,更是将语音识别技术推到应用的台前。语言的创造原本就是人类历史的一个拐点,而当将语言与科技结合时,所谓的人机交互的革命史又翻开了新篇章。
可以说,智能语音交互首先改变的是移动互联网,语音识别在移动终端上的应用最为火热。语音对话机器人、语音助手、互动工具等层出不穷,许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用。在国内,目前除了手机内自带的语音助手,不少第三方语音助手应用也如雨后春笋般涌现,譬如讯飞语点、百度语音助手、搜狗语音助手、虫洞语音助手、智能360语音助手等。以iPhone中内置的Siri为例,这是一个很炫的功能。用户以自然语言的方式对智能手机下达指令,而手机根据用户语音和用户当前的环境及上下文对用户意图进行理解,并按照用户意图执行命令。如用户说“查找附近的闽菜馆”,则手机会搜索用户当前所在位置附近的闽菜风味餐厅,并将列表显示出来供用户选择查看。
腾讯公司将智能语音整合到手机上网领域,让打开网页、控制浏览器等功能操作“口语化”。只要你叫一声“搜狐网”,手机就会自然跳出搜狐网来,用不着用手输入网址。
很难想象会有用户通过手机打上五六百字向自己的领导论述某个项目的可行性,这样的工作通常是在有实体键盘的电脑上完成的。语音输入使得通过手机完成上述行为成为可能。
在未来的物联网时代,“说出需求得到落实”的互动模式将进一步延伸,届时所有的手机、电器等都将拥有“听”甚至是“说”的能力,语音控制将成为构建智慧城市的重要手段,人们美好的生活将再次“传为佳话”。用户躺在沙发上,对着手机就可给各种电器下达命令,电器就能自动完成操作,随着物联网的发展成熟,这种看似奇幻的情景正愈来愈广泛地变为现实。
而未来,借助语音识别技术,可实现“只动嘴不动手”的智能化支付,更能让用户体验到高速便捷。比如,消费者可对着手机发出命令——“请转账500元到××账户”,手机就能帮助消费者轻松实现口述化转账、付款。
近日,去哪儿携手百度,在其App加入语音功能,用户只需要对着手机说话,即可完成旅游出行搜索和预订、支付。该功能是去哪儿旅行与百度语音共同打造的智能语音产品,标志着百度和去哪儿在语音技术领域再上一层楼,“只动嘴不动手”的智能化,让用户“说去哪儿就去哪儿”,“想付多少钱就付多少钱”。
去哪儿无线高级产品总监杨昌乐表示,他非常看好智能语音的未来发展前景,智能语音最终必然会成为手机端的一个重要输入手段,并且会对现今的使用环境、支付环境造成很大的冲击。尤其多交互语音技术的出现,完全令用户有不同于以往的使用感受。未来去哪儿希望能够打造出仅依靠语音技术即可完成各种操作的App产品,将手指输入和语音输入并行提供给用户。
而目前国内最大的独立第三方支付平台支付宝,也已逐步针对全国手机用户推出独创的语音支付方式。此举将令国内数亿手机用户有机会通过手机终端随时随地完成语音支付行为。
一项公开调查的数据显示,除了通常网上购物之外,40%的消费者会选择电视购物,34%的消费者会选择目录购物,在这些人中,65%的消费者表示愿意在一定条件下使用语音支付进行付款。语音支付“钱景”十分诱人。
基于这种高智能化的技术进化,Enfodesk易观智库研究发现,语音必将成为日后移动互联网的最重要入口之一。手机和PC相比有着先天的操作和视觉劣势(手机屏幕面积小、操作输入繁琐),而语音输入无疑是比较好的替代输入方式之一,它使得操作者开始逐步摆脱双手与机器的操控交流,让手机成为更智能化、更人性化、更通用的工具。Enfodesk易观智库调查数据显示,到2015年全球智能语音交互技术市场将达到600多亿美元,未来三年年复合平均增长率高达15%以上。
无缝语音交互境界还有多难
不过,有些业界专家认为,语音应用能否成为下一个移动应用重要入口,还要经过技术和市场的双重考验。无论是类似苹果的“大牛”,还是口碑相传的智能360,目前均尚未带动语音成为移动互联的入口,迎接语音技术全面春暖花开的春天还要克服一些难关。
虽然苹果、谷歌、百度等这些巨头纷纷以非常认真的态度投入语音应用,语音用户市场还是发展不太快,离达到流量变现的程度还有一段距离。而目前国内手机语音搜索市场虽然已具备一定的用户需求与初步的技术积累,但仍处在市场导入期阶段。
近年来语音技术门槛逐渐降低,但不可否认的是,语音技术在人机交互中仍有一些尴尬局面。比如语音识别的正确率,其在实际应用中依然不够“听话”。一些专家认为,中国地域辽阔,光方言就有成百上千种,而且即便是同一种方言被不同的人说出来发音上也会有差距。机器系统哪怕采样再全,识别率也不会太理想。比起其他语种,中文的识别难度会更高。在中文中,同样的一句话,在不同的语境中,具备了不同的含义,识别难度会更大,甚至同一句话的不同语气,其表达意思也不同,这就让语音技术难以识别其准确意义,甚至可能“失之毫厘,谬以千里”。
有业内人士坦承说,语音识别的遗憾是再努力也做不到百分之百。这或是整体语音技术应用中的一个最大痛点。不过,业界专家对此进行反驳,任何事物没有所谓百分之百完美,语音识别准确率达到90%以上就算成功,不能吹毛求疵。
还有,为了调用语音、语义库,以更加精准地理解用户的意思,目前不少语音技术服务商的做法是将用户所说的语音上传到服务器,由服务器进行识别,但这对服务商网络的速度、服务器的处理能力、数据库等提出了很高的要求与很大的挑战。
因此,从某些技术上讲,未来要达到无缝的语音交互境界,难度还是相当大的。
除了技术方面的拦路虎,语音应用还面临商业模式、生态圈建设的重大难题。从桌面时代转变到移动时代,全新的语音搜索和语音助手也需要新的商业模式。而这中间的环节涉及很多不同领域的技术服务商和开发者,需要将所有的生态链打通,覆盖用户体验的完整路径。因为要涉及所有的上下游环节,每项语音产品就需要和很多服务商、开发者合作、协调,市场链条的高度复杂性非常明显。这就触及商业利益如何合理分配的问题。比如科大讯飞只做语音识别、自然语言理解这些入口层的技术,后端的服务常就转给擅长处理该需求的合作伙伴来做。
不过,新兴技术总要经历不断完善的过程,蒸汽机经多次改良才带来了大规模工业化,语音技术或也如此,其根本的优势注定它将会把人类带入一个移动生态的新时代,它终会爆发,迎来春天的!
(编辑:寇尚伟 358902172@qq.com)