谷歌推出Google Duplex实现对话AI

2018-08-28

中国计算机报 2018年23期

近日，谷歌宣布推出Google Duplex，一个能在电话中用自然语言完成“现实世界”任务的对话AI。它目前已经能完成一些特定任务，如安排某些类型的预约。这类工作要求系统能像人与人正常沟通一样，而无须强制对方适应机器。

据悉，Google Duplex的研发核心是一个专用于解决自然对话问题的递归神经网络（RNN），在TensorFlow Extended （TFX）平台上完成构建，使用的训练数据来自匿名电话会话数据语料库。该网络有多个输入，包括原音频特征、把原音频输入Google自动语音识别（ASR）技术后的输出、上下文、对话的参数（例如预约的所需服务或当前时间）等，研究人员为每种任务分别训练了一些模型，但语料库是跨任务共享的。最后，他们又用TFX中的超参数优化进一步改进了模型。

Google Duplex组合使用文本到语音（TTS）引擎和综合TTS引擎（使用Tacotron和WaveNet）控制語调。

由于在对话中加入了“嗯”“呃”等字，系统的回应听起来更自然。但这其实是TTS连接两个音调不同的声音或正在等待合成时使用的小障眼法，是一种自然的表示问题正在受理中的状态（人们也经常这么做）。经过用户研究，研究人员发现这种反应能在不利的对话情景下给对方带来熟悉、自然的感觉。

此外，Google Duplex在回应速度方面也比较符合用户期望。当人们说完一件简单的事后，比如“hello”他们希望得到及时的回复，对回复延迟也比较敏感。如果系统检测到这种情况，它会马上切换成更快、精度更低的模型来工作。在极端情况下，Google Duplex甚至都不会调用RNN，而直接使用最快的近似值（通常会带各种表示犹豫的词汇，人类面对这种事情也会有类似的反应）。这种做法使系统的响应延迟能小于100毫秒。

Google Duplex系统能够应对复杂对话，并且能完全自主地完成绝大部分任务，无须人工干预。该系统具有自我监控功能，可以识别无法自动完成的任务（例如安排异常复杂的预约），面对这种情况时，它会主动向施令者发出信号。