听的高级体验
2013-04-07张晓洁
张晓洁
什么是听觉的高级体验?计算机不光要知道人们说了些什么,还要通过了解语音以外的表情、肢体语言、说话的语气等“潜台词”,知道人们想要表达些什么,并与人类有感情的互动。
不管是通电话,听音乐还是用语音搜索餐厅、电影院等生活信息,与其他感官相比,听觉与移动设备的配合都更天然。
从刚性需求来说,移动设备的特征让声音是最容易实现且稳定可靠的选择。比如用耳朵听,终端可以小巧方便携带,而移动过程中驾驶和走路的场景,听觉最容易兼顾协调其他感官,另外,语音作为人类传递信息最高效的工具,即使在传输中被打断,也可以重新启动继续上一次的体验,更重要的是,声音具有个性可识别,这对于移动设备的加密的迅速解锁尤其重要。
从心理需求上看,声音作为人类最自然的本能可以传递情感,无论语言还是音乐,饱含情感的声音都能给予听者异样的感受。而且,人们天然对于好的声音具有追求和炫耀的心理,容易形成粉丝和竞争性。
因此,听觉是人机交互开发最成熟的感官,科技公司对语音的探索可以追溯到上世纪90年代末IBM公司发布的ViaVoice 98 连续语音识别产品,比尔·盖茨早在2006年就提出过未来将在操作系统中实现自然语音的人机交互,微软还收购了TeLLMEe,平台每年执行110亿次以上语音识别的请求。同样,苹果公司在人机交互上最出名的应用也是语音控制产品Siri,从语音识别软件拓展开去,腰摇身变成用户的私人生活助手,帮助用户通过手机读短信、询问天气、语音设置闹钟等,并搜索生活和地理信息,一度被认为是苹果在搜索上与谷歌竞争的杀手锏,但是也被更多人评论为漏洞百出,供人“调戏”的大玩具。
无论如何,基于声音的产品已经成为去年以来最火热的产品,这些应用中,语音可以是主菜也可能是调料,像腾讯微信、百度语音搜索、YY语音、唱吧、啪啪等等都借助声音的特色一跃成为国内移动产品中的明星。而在从事语音基础研究的科大讯飞向合作伙伴开放的语音云上,已经有不少开发者正在投身声音的应用,都有机会成为移动世界里的下一个幸运儿。
2013年,将是声音产品真正获得认可之年。如同科大讯飞副总裁江涛对市场的预期,“随着去年新一代iPhone正式发布,Google 开始推动语音云技术;加上百度、腾讯等互联网厂商推出相关产品,用户教育过程会很快。到今年下半年,哪个手机没有语音交互的功能,就会很奇怪了”。
另一方面,语音识别技术也在加速成熟,百度多媒体事业部副总监余凯博士就表示,“大数据时代和更强大的计算能力,都使得数据更容易搜集,模型的训练速度大幅提高,过去一年里,语音搜索识别率提高了30%-50%,比过去10年提高的速度还快。”他补充说,“移动时代的需求也和从前大不一样了。”可以预见的是,当语音技术和市场逐渐成熟后,Siri等应用作为语音入口的能量,必将催生新的产业群链。
未来,成熟的语音技术将使得机器的表达具备人类的情感。就像剑桥大学计算机实验室的教授彼得·罗宾逊所希望的那样,计算机不光要知道人们说了些什么,还要通过了解语音以外的表情、肢体语言、说话的语气等“潜台词”,知道人们想要表达些什么,并与人类有感情的互动,这才是听觉的高级体验。