基于智能语音的通信视频会议设计

2019-02-02杨鸿珍陈是同董媛媛浦正国

数字技术与应用 2019年11期

杨鸿珍陈是同董媛媛浦正国

摘要：随着通信视频会议的推广应用，会议记录整理需求涌现，而传统的视频会议系统无法解决会议记录编辑耗时长，强度大，重复性强等问题。本文设计了基于智能语音技术的通信视频会议方案，在传统的通信视频会议引入语音识别技术方案，实现会议发言实时上墙和会议记录自动整理，提高了浙江电力信通分公司视频会议的智能化水平。

关键词：语音识别;会议;通信

中图分类号：TN912.3 文献标识码：A 文章编号：1007-9416（2019）11-0019-02

0 引言

随着信息时代的到来，包括视频电话会议、专题办公会、汇报演讲会在内的会议频次多达数千场次，这蕴含了大量的会议纪要整理与输出的需求。当前根据会议录音整理的方式，存在编辑耗时长、强度大、重复性强的缺陷。然而很多重要会议具备时间长、信息量大、纪要输出严等特点，对会议记录人员提出更高要求，且仍可能存在信息遗漏或会议思想理解偏差等问题，亟需得到解决。针对上述问题，本文在传统通信视频会议引入智能语音技术，设计出智能会议方案，实现会议记录的实时记录和上墙，提高会议人员的工作效率。

1 关键技术

1.1 基于深度全序列卷积神经网络（DFCNN）构建声学模型

DFCNN使用大量的卷积层直接对整句语音信号进行建模。首先，类似图像处理的方式，在输入端以语谱图作为代替语音输入，相比其他以传统语音特征作为输入的语音识别框架相比具有天然的优势。其次，在模型结构上，也借鉴了图像识别的网络架构，充分利用语音数据的历史和未来信息，从而保障了语音处理的长时相关性，相比RNN网络结构在鲁棒性上更加出色，同时可以实现短延时的准在线解码，从而可用于会议系统中。

1.2 口语化和篇章级语言模型处理技术

首先，收集部分口语文本和书面文本语料对;其次，使用基于Encoder-Decoder的神经网络框架建模书面语文本与口语文本之间的对应关系，从而实现了口语文本的自动生成。另外，上下文信息可以较大程度帮助人类对语言的理解，对于机器转录也是同样的道理。基于上述的思路提出篇章级语言模型的方案，该方案根据语音识别的解码结果自动进行关键信息抽取，实时进行语料搜索和后处理，用解码结果和搜索到的语料形成特定语音相关的语言模型，从而进一步提高语音转写的准确率。

1.3 噪声和远场识别技术

单麦克降噪、解混响。对采集到的有损失语音，使用混合训练和基于深度回归神经网络降噪解混响结合的方法。使用基于深度回归神经网络进行降噪和解混响，进一步提高带噪、远场语音的识别正确率。

麦克风阵列降噪、解混响。使用多个麦克风采集多路时频信号，利用卷积神经网络学习波束形成，从而在目标信号的方向形成一个拾音波束，并衰减来自其他方向的反射声。该方法与上述单麦克降噪和解混响的结合，可以进一步显着的提高带噪、远场语音的识别正确率。

2 方案设计

系统采用分层的方式设计，总体架构上共分为三层：基础设施层、平台层、应用层。基础设施层提供基础计算能力、存储能力、网络支撑能力，保障整个系统安全、稳定、高效运行。平台层提供中文语音转写、全文检索等智能语音与基础业务能力。应用层针对中文语音转写提供控制管理终端实现对系统以及业务的管理，屏幕显示终端实现会议过程中结果展现给参会人员的功能;音频采集服务通过声卡、麦克风等硬件设备完成音频的实时采集。

2.1 技术架构

本文设计方案的技术架构按照音频数据分析的技术流程，从前端处理到后台识别，在都按内容展示，主要包括：前端语音处理、后端识别处理和语法功能。其中语法功能包括语法识别系统、编译系统、动态加载系统、激活系统和缓存系统等等。

2.2 功能架构

智能语音识别技术可以实现在会议、教学、演讲等场景下的实时音频或录音采集，并通过语音识别技术实时转化為文字。具体功能设计如下：

（1）用户管理：对不同用户进行管理和维护。（2）音频采集处理：对音频信号从获取到内容展示进行全过程展示，供后续的转写文字等功能使用，同时保存到内容管理模块中。（3）实时语音转写：对进入系统的实时语音流进行语音识别操作，并持续进行转写结果文本内容的输出。（4）历史语音转写：主要支持离线语音上传与识别结果的下载与编辑。（5）角色分离：支持对多角色语音的识别与说话人识别。（6）内容编辑：对转写后的文本进行编辑。（7）效果优化：自动或者手动的对转写的文本进行优化。（8）内容展示：系统通过提供展板上屏等形式进行实时语音转写结果的展示。（9）内容管理：对转写后的文本进行内容管理，支持用户的全文检索、快速导出等方便快捷。（10）全文检索：支持对海量语音数据的检索。

2.3 物理架构

由多个服务端集群和部署在不同场所的终端设备构成。中文转写引擎服务集群用于部署中文转写引擎，提供中文语音转写能力;分布式文件存储集群主要用于音频文件的存储;全文检索服务集群用于部署全文检索服务，提供全文检索的能力。

3 效益分析

（1）提升会议效果：本技术方案的实现将会议中每个人的发言都实时、完整、有序的转成文字，并且在会场实时上屏，提升了会议效果。（2）降低人工成本：本文设计的智能会议系统，可提高会议记录的准确性和会议纪要的生成速度，并减少记录员的工作量，降低人工成本。（3）提高公司智能化水平，打造公司品牌效应：将人工智能、语音识别等先进的技术引入公司进行研究及应用，提高了公司的智能化水平。

4 结语

本文探究了智能语音识别技术在会议、演讲等场景的应用技术方案，从技术研究出发给出了技术方案，最后制定了切实可行的智能语音识别技术在会议中的应用方案，实现智能语音技术与视频会议系统结合使用，通过语音识别可以将会议发言实时转写成结构化数据，让会议发言实时上墙，实现会议记录自动整理，辅助整理会议纪要和会议讨论重点问题，降低会议记录人员的工作强度，提高会议的智能会水平。

参考文献

[1] 周志平.基于深度学习的小尺度单元拼接语音合成方法研究[D].中国科学技术大学，2017.

[2] 顾亚平.基于智能语音交互技术的智慧语音助理系统实现[D].南京邮电大学，2015.

[3] 薛少飞.DNN-HMM语音识别声学模型的说话人自适应[D].中国科学技术大学，2015.

[4] 王山海，景新幸，杨海燕.基于深度学习神经网络的孤立词语音识别的研究[J].计算机应用研究，2015，32（08）：2289-2291+2298.

[5] 陈伟.语音识别声学建模中的主动学习研究[D].北京邮电大学，2011.