智能终端语音助手标准化研究

2019-02-08

广东通信技术 2019年12期

1 引言

移动智能终端的快速发展，为我们的生活带了许多全新的体验，而用户的交互体验也不断发生变化，从指纹交互到语音交互，用户不再满足于单纯的使用终端，而想要通过智能对话、及时问答等让终端理解自己所要表达的意思，执行相应的应答操作。依托于语音技术的快速发展，语音交互的商用落地成为可能，各大企业竞相投入研发资源，苹果、谷歌、各终端公司纷纷推出语音助手服务，个性化的语音技术解决方案也受到消费者的广泛关注，成为目前移动智能终端上最炙手可热的核心发展技术之一，然而为了更好地促进语音助手技术的发展，标准的制定必不可少。目前，虽然各标准组织和协会认识到语音助手标准化工作的重要性，纷纷联合产学研各界制定了一系列标准，但由于标准制定时间尚短，不同组织制定的标准侧重点各异，使得业内缺乏统一的规范标准，无法促进当前的智能语音技术解决方案形成规模化和产业化的合力。

2 国内外语音助手标准化现状

2017年以来，社会各界纷纷开启移动智能终端语音助手的标准化工作、成立相关的标准化工作组和发布标准文档。

2.1 国际标准

国际方面，随着Amazon Echo的风靡，各机构对语音助手的关注主要聚焦在智能音箱上。目前，较少有国际标准组织制定语音助手标准，一些评测机构也是从智能化水平对各助手进行测试。

（1）Cognilytica voice assistant benchmark 1.0(July 2018)

Cognilytica 通过使用电脑合成音，分别询问Google Assistant, Alexa, Siri和Cortana 100个问题来判断其智能化水平。100个问题涉及概念理解类、比较类、逻辑类、常识类、IQ类等，针对不同的回答对应的智能化水平如图1所示。

该测试对音箱的智能化水平测试较为全面，涵盖了不同的问题类型，但缺乏一定客观性，回答需要主观判断，没有可量化的性能指标。

（2）GSMA UEX Smartphone AI Speech Recognition Performance Testing

全球移动通信系统协会（GSMA）是由运营商主导，与移动通信产业链各方共同成立的组织，其下设的终端推进工作组（TSG）负责移动终端技术标准的制订，TSG工作组下的子组UEX聚焦于用户体验相关测试规范的制订。

该标准主要从实际用户体验场景出发，对语音唤醒、文本展示、语音识别、用户意图识别等方面提出相关要求，具体内容如图2所示。

图2 Smartphone AI Speech Recognition Performance Testing

2.2 国家标准

人工智能技术为语音助手带来了新的发展机遇，为规范语音助手相关技术和评测方法，国家发布了一系列标准。2017年12月，发布的标准“中文语音识别终端服务接口规范”对中文语音识别在终端设备上提供服务的基本要求和系统研发提出了进一步的要求[1]。

2018年1月，由国家标准化管理委员会牵头成立国家人工智能标准化总体组、专家咨询组，负责人工智能标准化的规划管理工作，推动国内AI标准化进程。语音交互作为人工智能的热门领域，在标准化总体组立项了一系列相关标准，标准化总体组将语音交互的应用场景分为通用规范、智能家居、智能客服、移动终端和车载终端等五个部分。其中，标准“信息技术智能语音交互系统第4部分：移动终端”规定了移动终端智能语音交互系统的术语和定义、系统框架、要求和测试方法，适用于移动终端智能语音交互系统的设计、开发、应用和维护，作为一项通用标准，对规范和推动移动终端侧语音交互起到了积极作用。该标准主要内容如图3所示[2]。

图3 信息技术智能语音交互系统第4部分：移动终端

2.3 行业标准

在人工智能的浪潮下，作为国内开展通信技术领域标准化活动的行业组织，中国通信标准化协会（CCSA）也开始了相关人工智能标准的制定。2018年，移动互联网应用和终端技术工作委员会（TC11）下设的WG3终端小组聚焦人工智能终端产品及其关键技术，研究和梳理人工智能终端产品标准体系范畴和现状，并给出相关技术标准立项建议和计划。其中，TC11 WG3于2019年7月立项《智能终端语音交互技术要求》和《智能终端语音交互测试方法》，从技术要求和测试方法两个方面对移动智能手机语音交互进行详细规定。《智能终端语音交互技术要求》的具体内容如图4所示[3]。

图4 智能终端语音交互技术要求

2.4 协会标准

国内多家科研机构和企业自发成立联盟组织和产业协会，助力移动智能终端语音助手相关技术和评测的标准化制定。

（1）软件绿色联盟

软件绿色联盟从用户体验角度出发，解决泛终端软件系统的开放性、碎片化导致的应用问题。2019年5月，联盟下设的标准评测组新立项“AI语音助手评测标准1.0”，制定手机智能语音相关应用的体验标准。2019年11月标准评测组发布标准“手机智能语音交互测试标准”，规定了手机智能语音相关特性的评测指标及评测方法，具体内容如图5所示[4]。

图5 手机智能语音交互测试标准

（2）电信终端产业协会

电信终端产业协会（TAF）下设多个工作组，共同开展行业相关标准及测试方法研究。其中，智能产品评测工作组（WG7）提供新型智能产品技术的研究和测试的服务，WG7于2019年10月发布标准“智能产品语音识别测评方法第二部分：智能音箱”，该标准规定了智能音箱语音交互性能测评指标和测试方法，适用于指导第三方测评机构对智能音箱的性能测评工作，具体内容如图6所示[5]。

图6 智能音箱语音识别测评方法

（3）中国人工智能产业发展联盟

以中国人工智能产业发展联盟（AIIA）为代表的行业组织，也纷纷在人工智能标准方面开始布局。AIIA联盟共有十余项在研评估规范，智能语音语义也是其聚焦的一个领域，相关评估评测活动在进行中。

2.5 其他

语音助手让移动终端更智能，推动相关标准的制定和评估，对于规范行业发展，提升自身影响力都有着积极作用，吸引大批企业参与行业组织和协会的讨论，并对语音助手的交互能力进行相关的评测。

从2018年至2019年，中国电信发布两期AI应用评测报告，其中语音助手主要评测不同档位终端语音助手唤醒成功率和支持的功能，包括基础类功能（系统设置、原生应用操作等）、进阶类功能（第三方应用操作、智能程度）[6]。

2018年6月，中国移动从7大维度和37个指标对智能音箱的语音交互能力进行评测，评测维度从家庭使用角度出发，包括听得清、反应快、蛮友好、够聪明、挺能干等，评测要求包括多种噪音场景下唤醒的灵敏度及准确性；开机联网、本地唤醒反应和联网指令反应的速度；用户下达语音指令的理解能力；功能的广泛程度[7]。具体评测指标如表1所示。

表1 智能音箱评测指标

2.6 小结

语音助手的应用场景丰富，在移动智能终端上的应用更是一大热点，国内外纷纷推出相应的标准规范其功能和性能。目前行业内语音助手的标准主要集中在语音测试数据集的构建、语音助手的功能和性能要求，不同标准组织中参与成员不同，标准内容各有侧重，但都增进了移动智能终端语音助手的标准化进程。

3 语音助手标准化问题及建议

目前，人工智能的发展如火如荼，各标准组织积极响应，在AI领域开展新立项工作，而语音领域技术的进步，也使得各组织争先开展语音助手相关标准化工作。虽然，当前国内外已有多份语音助手标准发布，成果显著，但快速发展的标准化工作也存在一些问题。

3.1 标准泛化

从第2章节可以看出，各标准组织都开展了关于智能终端语音助手方面的标准工作，然而由于不同标准组织本身定位不同，标准内容各有偏重，标准呈现过于多样化现象，缺乏可以作为市场导向的标准。针对这种现象，归纳主要分为以下几个方面：

（1）语音数据源：行业对语音测试数据集构建中的声源定义基本一致，但数据源的具体分布并未根据实际的需要做出细分，如用户的性别、年龄、语速和流畅度等因素在实际的语音识别过程中都会对测试结果造成一定的影响。

（2）测试环境：测试环境方面行业中认知差异不大，主要区别在核心场景的选取上。一些测试标准根据背景噪音的多少划分场景，如安静环境、高噪环境等，一些则考虑到用户实际使用场景进行选择，如家居、办公室、车载等。

（3）评测指标：在语音助手的评估中，行业的重点聚焦在语音唤醒、语音识别（ASR）、语音合成（TTS）、语义理解等所对应的相关能力评估上，在这些能力评估方面，各项指标相对全面，可以客观评价业务能力，但也存在一些需要改进的地方。

① 声纹识别：部分表中的唤醒指标缺失声纹识别，用户的手机很容易被他人误唤醒，即所谓的误闯问题。通过在唤醒流程中增加声纹技术可以消除误闯问题，虽然无法100%解决，但是为了确保用户体验和安全性，建议增加误闯率指标用来衡量此部分能力的优劣。

② ASR能力评估：行业中多用准确率进行衡量，虽然字准率（WER）、句准率（SER）均可反映语音助手的ASR能力，但与良好的用户体验仍有一定差距，用户的期望是ASR的结果可以看懂，关键词准确率必不可少。

③ 语义理解能力指标单一：行业中多用用户意图识别率（端到端）的指标来评测语义理解能力，对于各个垂类的划分也不尽相同。

④ 缺失用户反馈层面测量指标：作为一个完整的产品，应密切关注用户对于系统的反馈结果，需要制定相关GUI和VUI的指标来评估此部分。

3.2 隐私保护内容

移动智能终端内置的语音助手渐渐成为了人们生活中的一部分，但智能语音助手亦可以窥探我们日常的生活，例如通过智能语音助手录制用户谈话，再通过人工对语音做标注和反馈，再用以训练语音助手，在这个过程中我们就不经意地被陌生人“窃听”；同样，音箱未唤醒状态下会出现有数据流出，存在隐私泄露隐患。类似案例还有很多。

语音助手用户隐私保护方面应该引起各界的重视，标准组织应加强智能终端语音助手隐私保护方面的内容，健全语音助手方面的隐私权限，与智能语音服务提供商妥善沟通隐私保护的问题，保证用户个人信息的安全。

3.3 用户实际体验

标准应更聚焦用户实际体验，不应只关注技术层的规范化。通过行业发布的语音助手、智能音箱测评报告，可以发现语音交互存在如下问题：

（1）理解能力不足：语义理解和多轮对话能力不足，对于连续性的语音不能自主地做出明确地间隔，识别分析用户表达的语义。

（2）唤醒率低：外噪声场景下唤醒率低，自噪声下唤醒困难。

（3）人机交互：相对于近场语音，远场语音的应用距离更远，但是前后端识别的响应率较低，无法较好的唤醒语音助手。

当前标准多是测试其单轮对话能力，测试要求门槛低，不能更好推进语音助手发展，标准组织应多参考用户的实际体验，发现语音助手在与终端交互过程中产生的问题，提高语音助手的理解能力、提升在嘈杂环境中的唤醒率及远场语音的前后端交互能力。

4 总结与展望

当前，智能语音在手机等移动智能终端应用场景渗透率迅速提升，语音交互作为泛智能终端交互入口的趋势逐渐被看好。随着用户对语音助手的实际体验提高，满意度逐渐提升，各标准组织纷纷制定语音助手的相关标准，引领整个产业链发展。本文阐述了当前国内外对移动智能终端语音助手的标准制定现状，分析了当前语音助手标准化过程中的一些不足并给出相关建议。

未来，随着语音技术的不断完善，对于智能终端语音助手的标准制定在保证标准多样化的前提下，应致力于制定统一市场导向的标准，促进整个生态的发展。其次，标准组织应加强语音助手隐私保护方面的标准制定，建立语音助手隐私安全保护体系，减少用户的隐私被窥探。最后，标准化的制定过程应考虑到用户对于语音助手的实际体验，聚焦语音助手与终端实际交互过程中产生的问题，丰富标准内容，提升语音交互方面的性能，促进移动智能终端标准化进程的快速发展。同时，语音助手能力的提升离不开技术的提升和生态的建设，随着5G时代的到来，终端和云端协同一体，低时延、高速率会带来更佳的语音交互体验，将给整个产业的标准化工作带来更大的影响。