APP下载

车载语音围剿Siri ?

2012-04-29刘晓芳

IT经理世界 2012年20期
关键词:语音

刘晓芳

网上流行一段视频,一位来自德国柏林的牛人在他的车里安装了26个不同厂家的语音导航仪,挂满了整个挡风玻璃前面。每当驶入一个新的路口时,26个导航仪播放道路信息的声音此起彼伏,场面壮观。车主似乎很享受这种状态,但是,看视频的人们却开始抓狂。

有人猜测这位牛人可能是位超级路痴,随时随刻害怕找不着北。可如果真是路痴,26个语音导航仪同时播报,他怎能分辨孰对孰错。语音导航才是问题所在。随着人类语音识别技术取得重大进展,人工智能的应用不仅可以帮助“识别声音”,还会根据上下文、人类历史以及能够理解一般人类语言地去分析,并在多数情况下领会你的意思。虽然如此,语义的识别,自然的会话,仍是目前为止语音导航尚未真正克服的一大硬伤。

人机交互经历了键盘、鼠标、触控感应三个技术发展阶段,三者均已成为成熟的应用,而语音交互却似乎仍然让我们无可适从,语音导航到底要把我们带向哪里?

人工智能不智能

陆凌涛的办公桌上摆放着各式各样的手机,都是各个品牌最新款的,有的时候,铃声响起,他需翻弄一阵才能找出是哪个手机在响,如果几个电话一起响,就更热闹了,仅从表面来看,与那位德国人悬挂26个导航仪的场景甚至不相上下。

陆凌涛所在的车音网是做语音导航行业的,语音技术的复杂以及行业环境的庞杂多变,使得他必须习惯同时应付和处理多个任务和多种事态。他的烟瘾极大,后来他开始在办公室里熏藏香,经常在烟雾缭绕中,他一个人会长时间地埋头把玩桌上的这些手机,反复地调出其中的各式语音应用,仔细地对比和分析。

是“白天,鹅在洗澡”,还是“白天鹅在洗澡”,这样的问题,在现实环境中,人们只需要根据上下语境,就能轻易分辨,然而,机器却没有这样的能力。这也是绝大多数语音导航所必须要面临的一道攻坚。

“今天北京的天气如何?”,陆凌涛说,这样的问题,当前市面上大部分语音导航系统都能准确回答,但是,如果再追问一句,“那上海呢?”,其中的绝大多数就会立即“傻眼”。因为国内所有的语音识别技术在做机器训练的时候,每句话一定要符合特定的语法,最好要有主谓宾,机器只有在捕捉到明确的“兴趣点”时,才能激活系统,然后按预设的程序进入后台语料库的云端搜索。

“那上海呢?”,在机器现有的“思维”里,属于没头没脑的一句话,要依靠上下文才能识别具体语义,这根本不在它的“认知”范围之内。可是这样的对话,在人与人之间再自然不过。

目前,在全球商用的语音识别产品中,苹果的Siri被认为将来有可能最早触摸到语音人工智能圣杯,你说的话,可以不包括会用到的应用程序名称,甚至可以和想表达的意思在字面上毫不相干,Siri仍然能够理解。如果是Siri遇到“步行范围内有没有什么顶尖的意大利餐馆,那墨西哥的呢?”,这种情况下Siri会将问题连同上文的“顶尖的餐馆”和“步行范围”一道进行理解。

事实上,在Siri推出中文版之前,福特汽车更早就已经在其SYNC导航系统中应用了中文语音识别技术,巧合的是,Siri与SYNC的供应商都来自于目前全球最大的语音技术公司Nuance。可以说,“在Siri之前,就已经有了SYNC”,提到这点,福特欧洲、亚太及非洲区连接总监潘浦力难掩他的兴奋。

与此同时,潘浦力一点也不避谈中文语音识别所遇到的问题。中文语言环境相对其他语种更为复杂,首先几十种方言就是一大难题。近几年来,福特一直在跟Nuance密切合作,由福特在中国各个省市收录尽可能多的方言,编辑和汇集成一个语库,同时把这些信息传送给Nuance,后者则负责对机器进行语音训练。这项工作效果卓著,目前最新的一代SYNC系统已经可以识别带国内多个地区口音的普通话,还可识别近150条语音指令,进行关键词语音搜索等。不过,中文语音导航真正的难点并不在方言识别,而在于中文里“一字多音”,“一字多义”及语法复杂,导致语词和语境的变化更是层出不穷。

一些“果粉”普遍表示,Siri中文语句断句比较生涩,对中文的多音字不能区分,另外很多语句没有对接到英文版中的知识问答系统。 “Siri的语义判断就像本科生自己写的if else一样”一位网友在试用过后这样下的结语。

围剿Siri

其实所有的软件应用最终都是由一组组命令行构成的,但是,没有一种应用像语音交互那么复杂,尤其是当它与汽车结合到一起,要考虑进来的因素就更多。难怪很多用户在使用了现有的语音导航产品后表示不感冒,甚至抓狂、火大。

虽然中文版Siri本身还存在各种各样的问题,Siri在中文语言环境中表现得也不是那么“犀利”,但是,很多企业甚至还在它尚未面世之时,就已经把它视作第一大竞争对手。

作为国内语音技术中的佼佼者,科大讯飞认为本土作战,可以直接逆转语言优势。就在苹果推出Siri中文版之前,科大讯飞巧妙抓住时机抢先三个月推出了“讯飞语点”,这被认为是“中国版Siri”对 Siri形成的一次“点射”。随后科大讯飞副总裁江涛在微博上发声,“我们知道Siri的语音技术是谁提供的,目前讯飞在与这家公司的中文产品竞争中,基本上占有显著优势。”

科大讯飞声称已经采集大量的方言数据,不仅可以将带方言的普通话的一次性识别正确率提高到90%左右,而且可以支持四川话、河南话、湖南话、东北话等几乎全部的主流方言。同时,也在致力于更开放性语音对话的研发,使其更接近自然语言的表述方式,比如,“上海冷不冷”,“帮我查一查西直门附近有没有好的火锅店”等等。科大讯飞应用于汽车领域最有名的就是荣威的InkarNet语音导航系统。

对于Siri与科大讯飞的强势,车音网表现得要“默默无闻”一些。不过,身为车音网副总经理的陆凌涛却不这么看,“车音网也可以识别多种方言”,对带方言的普通话识别率与科大讯飞不相上下,“车音网还整合了超过1600万个兴趣点信息”,只要会话里包含了某个兴趣点,不管如何表达,机器都能识别,这也是车音网下一步正在重点推进的语音搜索研发方向。

陆凌涛手中还有一张对阵Siri的关键王牌,就是在与运营商及各大车企呼叫中心的云端语控市场,车音网占有绝对优势,他甚至放言,要很快抢占该市场80%以上的占有率。此前,苹果曾宣布了未来会展开合作的9大国际车企,其中有多家承诺将在未来12个月内整合Eyes Free Siri功能。陆凌涛认为,至少从目前来看,这根本构不成威胁,因为苹果与车企在国外的合作模式“根本不可能照搬进国内”,因为这是两个不同的环境,同时,衍生的产业链生态环境也大为不同。

而汽车企业这边也确实表现的态度暧昧,主要因为大部分车企都已经在自有语音导航领域投入了相当大的开发费用,比如,宝马的相关前期投入巨大,宝马的“语音控制系统”最多可识别500个预设词条,可操控电话、空调、导航和音响系统等功能。免提麦克风既可收音,还可以过滤掉背景噪音,但是,这项技术只在宝马少数几款高端车上才能见到。另外,从今年开始,宝马在中国真正大范围推广的是其人工呼叫中心的服务,这又是一笔高投入,可见在有限的预期内,至少在中国还看不到宝马要将SIR整合进来的迹象。

即使没有投入,人工语音呼叫中心台的维护费用也十分高昂,选择与苹果合作,就意味着很多方面的工作要“从头再来”。通用的安吉星车载系统与丰田的G-BOOK智能副驾系统都可以进行语音导航,但是,二者都是通过后台的人工呼叫中心来完成。人工服务更能灵活识别用户的语言,但服务成本高昂。也正是看到这点,最近两家企业呼叫中心都开始计划在后台引入云端的语控导航技术。不过,据内部消息,他们的合作伙伴均为中国企业。

目前,只有福特主要还是以语音导航为主,但是,福特的杀手锏在于,服务免费,升级方便,可扩展性强,而且它本身所用的技术,根本不需要与苹果合作。

语音技术企业的本土路线,车企的实用主义,使得在中国整个汽车产业链对Siri形成一个隐形的包围圈,Siri要突围只能另辟蹊径了。

“语音超市”

与此同时,语音导航领域的竞争,其实也已经变成了产业链的竞争,在这个的链条当中,语音技术、语义搜索、资源库、运营平台、应用开发者平台和消费者的粘性,一个都不能少。

Siri的终极优势有二,前端的语音识别以及语音合成技术是关键,而重点更在后台,它集成了网页搜索、知识计算、资料库、问答推荐等各种技术和应用。但是,要形成后台的聚合力,有一个必须的前提条件,就是它所搜索的应用网页和社会化问答社区都能提供开放的API接口。在国外大部分网站接口是开放的,可在中国开放的很少,这就意味着苹果Siri要想在国内有大发展,必须一家一家网站去谈,一个一个应用商去打通关系,否则,Siri在中国就是一支折翼的鹰。

谷歌、微软、IBM等公司也都有不俗的语音技术实力,却始终在中国没有取得突破性进展,他们欠缺正是一个可以集合各种应用与中国消费者产生广泛联系的运营平台。

陆凌涛虽然进入语音导航行业时间不长,但是,他日常大部分时间都花在与不同企业谈合作商,深知这其中的平淡曲折。他做了一个形象的比喻,“国外的网站好比日本的地铁,日本所有的地铁下面都是通的,每一个站点都可以通向地下商场,而商场与商场之间也是互通的,四通八达,下雨的时候,可以根本不用走地上。”而在中国,网站与网站之间都是被堵着的。从这里到那里,经常要绕过许多弯道。

比如,你要想知道某个地方怎么走,最好去问高德、凯立德等地图服务提供商,而且两家企业都已经在开发自己的能结合LBS位置点查询的声控导航;而如果要听在线音乐,就需要去豆瓣和百度谈。也就是说,每一项具体应用都要去找一个垂直领域的服务提供商,而且最好能把每个垂直领域的几家行业老大同时搞定,否则,就有可能让你的消费者能听到这首歌却听不到那首歌,或者能找到这个地方,却找不到那个地方。

而在这些方面,无论是科大讯飞还是车音网都有优势。车音网目前国内的合作伙伴数量正处在一个大幅攀升的时候,科大讯飞则更不用说,据其公开的数据称,目前已经有将近3000家合作伙伴,使用“语音云”的最终消费者已经超过了3300万。

对于这种情况,虽然陆凌涛也认为有很多不合理的地方,但是,这就是中国语音导航市场的现状,“国内产业链正在以自己的方式聚合和演变,它是一种新的利益链关系”,而Siri的加入会加剧行业的演变。

现在,语音系统实际还是作为一个独立APP存在的,多数的语音系统顶多只能实现进入某项功能,不能实现很多细微的操作,很难把语音和背后的整个系统高度整合在一起。未来真正的语音平台就是一个操作界面,现在所有的独立APP应用都将向后退到后台的云端,这才是真正的“语音超市”概念。

从键盘到鼠标,再从鼠标到触控技术,人机交互技术的发展,让我们不断获得新的应用平台。谁能尽可能多地接入与移动互联网相关的开发商和服务商,谁就能打造一个消费者的“语音超市”,而在语音超市的背后,实际上是未来“语音操作系统”或“语音门户”之争。语音导航的归宿或许也就在此处。

猜你喜欢

语音
第二语言语音习得中的误读
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
基于DSP的语音啸叫处理系统
MATLAB在语音信号处理中的应用
对方正在输入……
基于DHMM的孤立词语音识别在导航监控室中的应用研究
浅谈语音学习
让语音电话沟通更完美