巨头较劲人工智能语音识别成主战场

2017-08-04

中国信息化周报 2017年27期

阿里、百度两大巨头巧合地在同一天对外公布了自己的人工智能进展：智能语音音箱和无人驾驶。经过前期基础和技术上的储备与竞争之后，科技企业间人工智能竞争升级，开始了应用与产品上的竞逐。

从人工智能的架构层级来看，这些年的发展已经逐渐向下端渗透。具体说，人工智能可分为基础层、技术层和应用层，其中基础层为算力支撑（AI芯片、云计算），技术层为算法平台，应用层是AI向各传统行业的渗透应用。

通俗地理解，基础层靠近“云”，应用层靠近“端”，是各种产品的落地。在之前不断累积的大数据和算法优化过程后，当今正是各种场景之下的应用服务相继爆发之时。

而单从最近两巨头的动作就可看出，语音识别已成为其中主战场。也许这么说会觉得和无人驾驶相离太远，但仔细分析，无人驾驶现在更重视用户体验和人机交互，多个概念车中都展示了语音控制汽车，可谓能动口绝不动手，用户一声令下就直接控制汽车行驶状态，这其中对语音识别的需求也是不言而喻的。

各巨头看准语音识别必将火热、成为主战场自有其理由。语音交互之所以越来越被重视，是因为互联网、智能硬件的普及，改变了互联网的入口方式。而语音就是最简单的，最直接的交互方式，是通用的互联网输入模式。

从用户角度来说，最简单的控制就是“一声令下”的简单方式，无需任何操作让机器读懂人心。从商业场景来说，不论是娱乐、工作、家庭、出行、旅行等哪个场景，用户都会随时随地需要语音控制，特别是不同场景下的语音信息代表不同需求，覆盖全场景的语音接口搭载在各种智能硬件上，可以最大限度收集用户需求。在深度挖掘后预判用户未来需求，打通各个场景数据后可为各巨头建立自身的生态链，让更多场景的大数据反哺语音识别等人工智能技术的研发。

除了语音识别，AI在语音合成、对话管理。问答等方面也做了很多工作，还包括在不同端上的信号处理，例如麦克风阵列等等都是要去實践的，这样才能完成语音交互的完整过程。语音识别技术的进展是有目共睹的，不过对此仍需保持冷静，人机交互的自然性尚未达到和真人交流一般的灵活，机器人或智能硬件的“智商”也不能和真人相比。

以私人助手为例，如果对面是一个真人管家，那么用户的一个表情也许管家就会读懂需求。但对机器人来说，不仅需要用户说出需求，而且用户语气和情绪的变化所代表的意义未必能全部捕捉，这时也许还需要用户再次用语言说清需求，在用户体验上造成不便。

所以说，决胜人工智能或许是个伪命题，这些科技巨头理论上应该比普罗大众对人工智能的价值有更深刻的认识，他们也有充分可支配的资源进行研究和布局。互联网时代、移动互联网时代都是百花齐放各展所长，人工智能时代也是如此。