一种实现智能电视语音搜索的方案

2014-03-12马宇飞

电信科学 2014年5期

王琳，肖晴，马宇飞

（1.中国电信股份有限公司上海研究院上海 200122；2.中国电信股份有限公司上海分公司上海 200120）

1 引言

随着“三网融合”新政下业务的不断发展，2012年整个行业已经进入智能化时代，IPTV正经受着来自互联网电视、移动互联网等多个方面的考验。为了保持在视讯领域的技术领先性，IPTV业务需要引入互联网中具有用户影响力的前沿技术。人机交互技术，特别是智能语音控制技术，是目前在智能电视、互联网电视应用的新兴技术，该技术的应用不但提升了客户体验，而且有望助力电视界面成为新的用户信息获取界面。苹果、谷歌、微软等业界公司都积极地在相关的产品中引入智能语音控制技术。

为了适应业务及技术的发展潮流，进一步提升IPTV业务体验，需要通过语音控制技术为用户提供更好的人机交互手段，实现对传统遥控习惯的改变。本文对比了现有智能电视语音搜索方案，针对现状及需要，提出了一种新的智能电视语音搜索方案，并从智能电视语音搜索提供的业务、平台功能要求、系统架构等方面对方案进行了阐述和分析。

2 智能电视语音搜索业务的使用方式及需求

智能电视语音搜索业务是指用户在收看电视时，可以利用语音遥控器或手机客户端中安装的语音控制产品，通过标准普通话对想要收看的节目进行搜索，完成点播影片、频道、节目等操作，使用自然语言理解控制代替遥控器控制，是视频业务的一种新业务。

已有越来越多的智能电视开发语音搜索业务，如联想、TCL、长虹、海信、三星智能电视以及 XBOX one、Dragon TV等。智能电视语音搜索方案的构成主要包括两个方面:终端侧对语音的采集和展现、语音平台侧对语音的识别和理解。

终端侧对语音的采集和展现主要包括语音搜索的启动和结束、语音搜索的交互界面、语音搜索结果的显示等，以下将从这几个方面对已有智能电视语音产品的语音使用方式进行比较分析。

（1）语音搜索的启动与结束

智能电视语音搜索产品的语音开启与关闭方式主要分为以下3种:

·通过长按遥控器上的语音按键开启语音功能，如联想智能电视；

·通过按一下遥控器上的语音按键开启语音功能，如TCL、长虹、海信智能电视；

·通过纯语音方式开启语音功能，如XBOX one、Dragon TV、三星智能电视。

3种语音开启方式的优缺点比较见表1。

表1 语音开启方式比较

（2）语音开启页面

语音搜索功能开启后，智能电视产品会出现一个语音功能启动页面，启动页面的展现方式主要有以下4种:

·全屏显示，如TCL产品；

·覆盖屏幕中间显示，如海信、长虹、康佳产品；

·覆盖屏幕上方显示，如联想产品；

·覆盖屏幕下方显示，如Dragon TV、创维、三星、XBOX one、Google TV 等产品。

4种语音开启页面显示方式的优缺点比较见表2。

表2 语音开启页面显示方式比较

在智能电视产品中，语音功能启动时部分产品会出现卡通形象与用户进行模拟对话，如创维、康佳、长虹、海信、TCL等产品。有无动画形象的语音页面显示的优缺点比较见表3。

表3 语音开启页面动画形象显示比较

（3）语音录入后是否确认执行

智能电视语音搜索产品在语音录入结束后，主要采用以下3种方式启动语音搜索的执行功能:

·语音录入结束后直接执行搜索，如Google TV、Dragon TV、XBOX one、三星产品；

·语音录入结束等待数秒后自动执行搜索，如康佳产品；

·语音录入结束后，需先确认识别结果再执行搜索，如TCL、海信、联想、长虹产品。

以上3种操作反馈方式的优缺点比较见表4。

（4）语音搜索结果的显示

智能电视语音搜索产品在语音搜索的结果显示方面，主要分为以下2类:

·覆盖显示，如长虹、联想、Dragon TV、三星、海信产品；

·全屏显示，如康佳、Google TV、TCL产品。

2种语音搜索结果显示方式的优缺点比较见表5。

表4 语音搜索操作反馈方式比较

表5 语音搜索结果的显示方式比较

从上述比较可以看出，语音采集时操作要相对方便，界面展现要能保留原先的视频业务并使语音搜索的页面不大且操作流畅，同时应减少用户的交互步骤，能相对快速地定位到想要搜索的节目，从而更能吸引用户使用语音搜索业务。

3 IPTV智能电视语音搜索方案的流程

本文设计了IPTV智能电视语音搜索产品的流程，如图1所示，具体介绍如下。

（1）按下语音键即可开启语音功能，从使用上来说，更方便快速，误操作的成本也比较低，误操作造成的影响基本可忽略。

（2）考虑到用户启动语音录音后，可能还要思考一下再输入想要观看的节目，故预留10 s的时间；如超过10 s用户还未录入语音，则提示未收到录音，并退出语音录音界面。

（3）语音录音时，启动端点检测功能，对用户的语音进行分析，若检测到语音停止，则直接启动语音识别及搜索功能，可以减少用户的操作步骤，更符合语音产品快速简洁的定位要求。

（4）当语音搜索结果唯一时直接播放，以减少用户的操作步骤；若搜索结果不唯一，则显示结果列表，让用户对搜索结果进行选择。

IPTV智能电视语音搜索的界面如图2所示，具体介绍如下。

·用户在观看IPTV过程中，可以在任意页面调出语音搜索功能，语音搜索界面以半透明的形式叠加在IPTV界面下方，如图2（a）所示。用户观看的节目保持原来的播放速度，不影响观看。

·用户第一次使用语音功能时，会弹出“帮助”图示，告知用户如何使用语音功能，使用户能更快地掌握语音搜索业务的使用技巧，如图2（b）所示。

·当语音搜索有结果时，搜索结果以半透明的形式叠加在IPTV界面下方，通过海报和节目名称进行呈现，方便用户选择，如图2（c）所示。当搜索结果较多时，用户可以按翻页键，以对更多的结果进行选择。

·当没有搜到用户想观看的节目时，语音平台根据用户输入的关键词进行分析，给出推荐的节目列表，如图 2（d）所示。

图1 IPTV智能电视语音搜索产品的流程

图2 语音搜索界面

4 语音平台的功能要求

语音搜索业务到底能搜索到哪些节目，能听懂用户哪些语句，这些都需要语音平台提供支持。本方案的IPTV语音平台由语音识别服务器、语义理解服务器、IPTV知识库构成。用户输入的语音音频先经IPTV知识库训练的语音识别服务器转换为文本，再通过语义理解服务器将文本转换为IPTV节目对象列表输出，输出的结果由机顶盒呈现。

（1）语音识别服务器

语音识别服务器的原理如图3所示。

与IPTV相关的语音语料和文字语料分别通过训练形成声学模型和语言模型，语音信号经过特征提取后，与声学模型和语言模型进行比对并进行语言解码，输出音频相对应的文字。

IPTV用户输入的语音音频经过语音识别服务器转化为音频对应的文字。语音识别服务器可以支持全中文任意语音音频的输入，系统可以自动将之转化为对应的文字并输出到语义理解服务器。

（2）语义理解服务器

语义理解服务器的原理如图4所示。

语音识别服务器输出的文本通过与语义理解系统的句式模板相匹配，对语音识别服务器输出结果进行纠错，同时提取其中的关键词，再通过与IPTV相关的关键词匹配，输出对应的节目列表，并按照特定的排序规则，输出最终的节目列表。该方案采用语义理解服务器，在解析语音识别服务器输出结果的同时，还可以对语音识别服务器的输出结果进行二次纠错，从而可以大大提高系统识别的准确率。

图3 语音识别服务器的原理

图4 语义理解服务器的原理

（3）IPTV 知识库

IPTV知识库的原理如图5所示。

图5 IPTV知识库的原理

IPTV知识库主要实现以下3个功能:

·从IPTV节目服务器上下载节目信息并进行存储；

·对节目信息进行解析、分类，并提供给语义理解系统进行关键词匹配和节目列表输出；

·将节目信息提炼成文字语料，供语音识别服务器训练成语言模型。

本方案将IPTV知识库独立于语音识别服务器和语义理解服务器，可以使它在为语义理解服务器提供IPTV节目更新库的同时，也能为语音识别服务器提供最新的训练语料，从而大大提高整个系统的实时性。

本方案的优势主要体现在以下3个方面。

·与市面上的智能电视语音控制系统相比，真正实现了全中文语音的任意输出以及全量节目的任意搜索。集成了全中文语言模型的语音识别引擎，可以针对任意中文语音输入进行语音识别，再配合集成丰富句式模板的语义理解引擎，可以从任意句式的文本中提取出业务信息。

·语音识别与自然语义理解技术相结合，保证输出结果的准确性。市面上大多数语音控制电视仅用语音识别技术将音频信息转化为文本结果，但语音识别的识别准确率与音频源文件的质量关系很大，并不能保证完全识别准确。本方案利用语义理解技术对语音识别的输出文本进行二次纠错，大大提高了输出结果的准确性。

·将IPTV知识库独立出来，可以同时服务于语音识别系统和语义理解系统，大大提高系统增量信息的更新效率。由于IPTV系统的节目更新时效性非常高，会出现很多新节目，如果不及时训练到语音识别平台的语言模型中，会影响语音识别的准确率，本方案将集成在语义理解平台中的知识库独立出来，使它在为语义理解平台提供节目搜索资源的同时，也能建立语音识别平台的训练库，并对语音识别平台进行实时训练，从而大大提高IPTV节目识别和更新的效率。

5 IPTV智能电视语音搜索的系统架构

图6为本文提出的IPTV语音搜索产品的总体系统架构。

（1）用户终端

用户终端是指在用户家庭内部可以使用的智能终端，主要包括:语音遥控器，具备语音功能的IPTV遥控器，将用户语音通过麦克风进行拾取，进行A/D转换之后传给IPTV机顶盒；IPTV智能机顶盒，基于Android操作系统，集成了中国电信的IPTV、视频通信、TV伴侣、应用商城等应用，其中TV伴侣是语音客户端内集成的语音控制模块和视频叠加模块，用于智能语音功能的实现和界面展现。

（2）智能语音平台

包含语音识别平台、语义理解平台、IPTV知识库，提供针对IPTV应用的语音识别客户端调用能力，将语音转化为文字并识别出客户端传递的文字内容含义，从而可以被客户端用来对机顶盒进行控制。

（3）TV 伴侣平台

TV伴侣平台是本方案所特有的，主要功能是将IPTV内容元数据同步给智能语音平台中的语义理解服务器，同步的内容元数据包含点播内容和直播频道列表以及直播、回看节目单等IPTV智能语音遥控业务所需要的相关信息数据。

图6 IPTV智能电视语音搜索产品架构

IPTV的内容每天都在实时更新，TV平台需要实时将IPTV的播放内容元数据注入语义理解服务器，从而保证用户能随时搜索到最新的IPTV视频内容和节目列表。

（4）IPTV 平台

IPTV业务中提供EPG及流媒体服务的基本能力平台具有EPG导航浏览、直播频道、即时时移、菜单时移等基本业务功能。业务能力平台接收来自于内容运营平台的基本业务内容及服务打包关系，当业务管理平台完成内容、服务、产品的打包后，由该平台为用户提供EPG浏览及视频流媒体服务。用户在使用业务过程中，通过与业务管理平台的横向接口完成基本的业务鉴权、订购等操作。

基于以上架构的IPTV智能电视语音搜索业务已于2013年完成开发，经过3个多月的测试和优化，2014年4月初在上海电信开始试商用。

6 结束语

随着智能语音产品的全面推广，语音技术正逐渐成为智能电视的标配。语音识别技术面向语音交互控制的需求，还有许多需要完善的技术点，以下两个方面的研究需求最为急迫:第一，降噪技术，语音交互控制的场景十分复杂，依靠硬件降噪的技术在产品实际推广中会遇到问题，依靠软件进行服务端降噪及有效控制语音分离技术显得非常重要；第二，语言模型实时或准实时更新问题，虽然大词汇量连续语音识别解决了目前所需的应用问题，但语言模型本身的更新及维护在实际业务系统中还存在问题，即如何使语音识别系统适应业务的发展，满足业务内容变动的识别需求。

伴随着语音识别技术和智能电视的发展，越来越多的用户将会体验到智能电视语音搜索带来的友好、智能的视频体验。