AI 客厅语音入口探索与实践
2020-06-15章金水
章金水
(中国移动通信集团福建有限公司,福州 350001)
1 背景和现状
1.1 全球AI 语音入口发展趋势和现状
人工智能作为新一轮产业革命的核心动力,将引发技术、产品、产业以及经济结构的重大变革,带动社会生产力的整体提升。从人工智能发展的技术视角看,语音、图像、自然语言处理、机器人是当前业界研究的热点领域。其中,语音识别和自然语言处理是当前发展最成熟及应用最广泛的人工智能技术。
在AI 语音交互的全球市场看,Amazon Echo 和Google Home 在该领域主导智能语音入口的发展。截止目前,谷歌已与220多个品牌的1500多种智能设备达成合作。与此同时,亚马逊也累计发布了15款Echo 家族智能硬件产品,覆盖全球1亿智能硬件和数千万用户群体。智能语音入口作为最符合应用场景的交互方式,将成为每个智能硬件的“标配”,并使语音搜索成为了主流的AI 技术。
1.2 AI 客厅语音入口应用优势
根据Strategy Analytics 的数据(图1),全球智能家居市场2019年超千亿美元,2016到2020年都保持年约20%的复合增长。面对高速增长的巨大市场,国内的终端厂家、互联网企业及各运营商都积极布局该领域。小米、VIVO 等手机厂商为代表的终端类企业,以终端为切入点构建智慧家庭平台与生态系统。阿里、腾讯等为代表的互联网企业以平台为突破口,积极做大智慧家庭生态,变现后向服务。
图1 全球智能家居市场规模数据来源:Strategy Analytics 2019
智慧家庭是人类社会发展的必然阶段,现已从单品智能迈向全屋智能。福建移动瞄准当前最为成熟的AI 语音技术,通过AIUI 集成能力,打造AI 语音入口,为千家万户提供语音智控、随需接入、自动响应、逼真体验和高性价比的综合智能信息服务,大大降低客户的使用门槛和智能应用的接入门槛。
2 AI 语音入口能力规划
AI 语音入口是以具有语音交互能力的家庭智能硬件产品(如手机、智能电视、音箱等),向用户提供基于智能语音控制的影视音、娱乐、智能家居控制等智慧家庭应用及陪伴服务。
2.1 能力成熟度模型
AI语音入口能力建设不是一蹴而就的,需要长期的演化过程。按照语音识别、语义理解、语音合成和语音技能四个核心主体,对AI 语音成熟度划分为五个等级,具体定义详见表1。
表1 AI语音能力成熟度模型
2.2 能力规划定义
2.2.1 语音识别
语音识别是指将人类的语音中的词汇内容转换为计算机可读的输入,如文本、音频、二进制编码或者字符序列等格式,并支持多种方言识别。具体包括语音采集、语音识别及声纹识别的过程。
2.2.2 语义理解
语义理解使功能单元理解说话人的意图。即将音频转化成的文本解析成合理的意图及标签。基于语义理解的基础上,可实现语音多轮交互和智能终端控制。
2.2.3 语音合成
通过机械的、电子的方法产生人造语音的技术,如:TTS(文语转换技术)技术。具体分为四个等级:语音播放、机器合成、自然合成、智能翻译。
2.2.4 语音技能
作为AI 语音入口的核心能力,基于语音识别、语义理解和语音合成技术,通过抽象、建模和分析,形成AI 客厅语音入口的用户交互体系(即AIUI),具体包含以下技能:
(1)设备唤醒
利用特定的操控,实现主动唤醒能力,如遥控器的主动按键唤醒和设备的命令词唤醒。
(2)应用打开
通过语音AI 能力,快速打开设备中已经安装的应用。
(3)栏目操控
实现内部栏目的所见即所说能力。如说:打开综艺栏目,实现应用内页面的语音操控。
(4)内容搜索
通过内容归一整合,搜索的边界从传统的影视内容扩大到了IPTV/OTT 上所有内容。
(5)多级互动
通过上述能力组合实现内容语音深度交互。如:购物查询、下单、付款及教育产品的中英文识字、唱歌评测等。
2.3 语音能力管理
2.3.1 语音模型管理
语音模型管理为了更好支持语音应用场景,设定语音识别、语义理解和语音合成方面的基础参数和模型,实现及时准确的热词动态扩充、快速的流式识别、定制化的发音人合成以及多结果排序。
2.3.2 语音技能管理
语音技能管理实现对合作伙伴的开发的语音技能进行审核、发布上线的管理。包括以下流程:申请技能开放、审核技能授权、技能开发测试、技能审批上线。
2.3.3 媒资库管理
内容服务商将媒资信息同步至AI 语音能力平台,作为语音搜索素材。媒资信息包括影音、游戏、应用及应用内视频等,媒资库管理对媒资信息进行栏目管理、索引建立、内容审核、发布功能。
2.4 AI 语音入口建设方案
2.4.1 平台建设方案
福建移动的AI 语音开放能力平台,是基于智慧家庭业务平台及智能终端开发的智能语音系统,配套智能遥控器及客户端SDK,具备语音识别、语义理解、语音合成、语音技能等服务,面向应用、开发者、合作伙伴提供统一的AI 语音能力接口,平台创新地采用动态语言侦测和混语识别技术。AI 语音能力平台主要包括五大模块,分别是应用层、接口层、服务层、管理层和数据层,平台总体架构示意图2所示。
图2 智能语音能力平台总体架构示意图
2.4.2 应用层
应用层提供面向客户的语音应用,具体包括互联网电视应用、手机终端应用。其中,互联网电视应用运行于IPTV 或OTT 机顶盒上,为客户提供直播、点播、K 歌、购物、系统控制等语音控制功能。手机终端应用包括移动自主研发的八闽家庭、八闽生活、和家亲等APP 应用。
2.4.3 接口层
接口层集成语音基础处理能力入口,包括AIUI 的语音接口、业务接口、搜索接口,以及语音权限管理接口、安全认证接口等。
2.4.4 服务层
服务层是语音平台核心架构,提供语音识别、语义合成、语义理解和语音技能的关键服务能力。
2.4.5 管理层
管理层对支撑能力模块进行统一管理和调度,提供语音模型管理、语音技能管理、媒资库管理、大数据分析及推荐、日志管理等管理功能。
2.4.6 数据层
数据层提供分布式文件存储和关系型数据存储,包括语音数据、技能数据、媒资数据、日志数据以及各种数据间的对应关系。
2.5 平台应用案例
2.5.1 影视娱乐导航
通过语音AI 终端实现语音搜索、播放控制电视节目和影片。如说:我想看中央一套、我想看成龙电影,前进到30分钟等即可进行直播、点播、播放控制操作。
通过语音AI 终端实现语音点歌和播控,如说:我想听周杰伦的歌、调大音量等即可实现启动音乐应用、音乐搜索、控制音量、播放/暂停、快进/快退等播放操控。
2.5.2 语音生活服务
通过语音AI 终端实现语音购物、支付等,如说:我想买可乐、买同款、我要付款等即可实现搜索商品,以及在观影过程中使用语音截屏购买影片中出现的物品。
2.5.3 智能家居控制
通过语音AI 终端实现语音控制智能家居,如说:打开空调或窗帘、关闭摄像头等实现对智能设备进行控制。
2.6 建设成效
至2017年起,本人致力于智慧家庭软硬件体系的规划设计和探索实践,以AI 入口作为核心智慧家庭标准化顶层设计,推动产业链各方参与智慧家庭开放融合的标准化体系建设。依托AI 入口的前沿性探索,协同科大讯飞、奥比中光、华为、福诺、未来电视、易视腾等众多合作伙伴开展智慧家庭业务创新,实现AI 语音能力成熟度模型达到Level-4级,通过培育AI 语音入口规模,构建家庭业务生态圈。截止到2019年底,已深入对接25个生态应用,AI 语音活跃用户数突破70万户,交换次数超过3600万次/月,通过语音入口点播大屏增值业务收入达到2.5亿元。
回顾2019年AI 语音入口应用的排行榜,福建移动智慧家庭业务最热门的使用场景是点播,最常看的频道是中央一套,最喜爱的电影是《哪吒》。随着用户AI 入口使用习惯的逐步形成,我们非常可喜的看到,非影视业务应用场景语音交互次数占比已经从2019年初的1%增长到年底的11%,增长点主要集中在调取应用、音乐以及计算等方面,未来这一比例还将持续增长。
3 结束语
随着5G+千兆带宽的来临,智慧家庭市场前景更加广阔,福建移动借助自身在5G+千兆带宽网络经营的独特优势,以AI 为核心目标驱动,依托多屏互动的AIUI 技术,打造高忠诚高频次的家庭核心应用场景,实现对客户美好生活的全面覆盖,形成运营商流量红利之后的新收入来源和稳定客户的业务支撑点。