自适应语控智能会议系统中的技术及设备解析
2017-11-27顾克明顾锃
顾克明 顾锃
【摘 要】 介绍全新的数字会议系统即自适应语控智能会议系统,并实现“一线通、一声控、一云端”理念。
【关键词】 智能会议系统;自适应性;抗噪声传声器;语音文字化;语控系统
文章编号: 10.3969/j.issn.1674-8239.2017.10.010
【Abstract】The author introduces a new digital conference system, namely adaptive speech control intelligent conference system, and implements the concept of "one line connection, one voice control, one cloud".
【Key Words】intelligent conference system; adaptive; anti noise microphone; voice and text; speech control system
会议的扩声效果千差万别,甚至有时会出现听不见、听不清的窘况。因此,对于会议系统,通常在前期需要对系统设备及会场环境进行专门的设计调试;开会发言时需要现场操作扩声系统,随时调节音量等参数;会上还要指定专人进行会议记录;会后还要加班加点整理会议纪要……
以上繁杂的工作能否化繁为简,形成一个高度智能化的自适应系统,这是笔者想讨论的内容。
1 自适应语控智能会议系统及功能
自适应语控智能会议系统能够按照设定的标准工作,并根据会场的各种条件,自动适应地选择各种会议功能,同时对自身工作特性进行智能调节,从而获得语言清晰、音乐丰满、声像一致的会场效果。其可以将繁琐、复杂的会议步骤高度简化,为与会人员提供自然舒适、高效顺畅的会议体验。
自适应语控智能会议系统包含会议拾声自适应、会议设备智能语控、会议发言实时转写三大模块,为各类会议提供系统解决方案。 其具体的三项功能如下。
(1)会议拾声自适应。会议系统能够根据说话人的声音大小、环境噪声强弱来自动调节自身特性、自动匹配声音处理策略,使系统处于适配的工作状态,尽可能地提高拾取音源的声音质量,从而获得高语言清晰度的听音效果,摆脱由操作人员调整控制传声器等设备的传统会议模式。
(2)会议设备智能操控。系统通过人机语音交互完成投影仪、幕布、窗帘、灯光、音响、空调等会场设备的应用操作,为与会人员提供便捷、智能、个性化的会议体验。
(3)会议发言实时转写。基于语音转写技术,能够将会议发言实时转换成文字,还具有实时编辑修改、关键词优化、敏感词屏蔽等实用功能,会议结束即可同步提供会议纪要。
2 系统设备
2.1 抗噪声传声器
抗噪声指向性传声器(专利第55 32871号)如图1所示,其抗噪性能可在各类会场条件下提供自适应的解决办法。
2.1.1 主要性能
(1)抗噪声传声器配备了具有声干涉管的¢14 mm专业数字音头,采用指向性结构与DSP(数字信号处理)技术相结合的原理,在增加指向性与降低环境噪声的基础上达到远距离拾音的目的。
(2)为了减少干扰和噪声,内置声学DSP芯片,通过短音节收敛算法达到稳态噪声抑制效果,在每次开机时,可针对传声器当时所处环境的情况自动校准以实现消噪功能;支持广泛的采样率范围,从8 kHz、16 kHz(宽带语音)到48 kHz。
(3)采用AGC(自动增益控制)与高低频带宽抑制技术,实现较高的拾音信噪比指标,获得清晰的音质。只要人在5 m范围内说话,不论远近,声音能一直维持相同的输出音量。
2.1.2 主要指标
(1)强指向性。接收角度小于30°,定向拾音有效地排除周围噪声拾取量,保证会议质量。
(2)AGC自动增益。做到0.2 m~5 m范围内拾音输出保持相同音量,为多种场合使用提供方便。
(3)语言清晰度。通过STIPA测试對比,抗噪声指向性传声器比普遍传声器提高0.05以上,语言清晰度得到提高。
(4)传声器配备PDM数字输入,针对环境自动校准,对稳态噪声具有降噪功能,经实测降噪值达14 dB以上,如图2所示,图中浅红色为噪声原信号,深红色为降噪后信号。
经降噪处理后的会议扩声系统,其会场环境噪声相对降低14 dB以上,信噪比得到很大改善,会议发言的语言清晰度得到显著提高,特别是应用于声场环境不太好的会议室会更为有效。
2.1.3 主要用途
抗噪声传声器广泛适用于会议采访、电化教学、安防系统等场合。抗噪声传声器尤其适用于教学系统,满足了“要把师生的手解放出来”的学校需求,解决了有些老师不愿配带无线传声器或手持传声器的问题。只要将传声器吊装于教室顶棚之上,充分发挥抗噪声传声器远距离拾音的特性,即可方便自如地进行互动教学,如图3。
2.2 数字自动混音台
数字自动混音器是近年会议系统中使用的常规设备,其特点是连接容易、使用简便、防啸叫效果好。数字自动混音器不同于调音台,其在抑制声反馈方面完成了“人+调音台”的自适应工作。
新近的数字自动混音器,采用 “自动传声器开关管理”控制技术,在标准工作模式下,虽然有多支传声器同时收到同一个人的讲话声,但只有音量最大的传声器的通道才能被自动打开。由于其他传声器不被打开,从而避免了反射声、背景噪声等激励信号的迭加,拾音质量得到保障。另外一项技术是“自动传声增益控制”,传声器切换速度达到毫秒级,开/关无转换痕迹,达到信号平滑过渡,不会发生讲话时第一音节丢失的现象。endprint
2.3 强指向性扬声器
强指向性扬声器能够以窄的波束向指定方向传播声音,波束内的声音较强,波束外的声音较弱,如图4。目前,市场上出现了多种会议系统专用扬声器,大部分为条状扬声器系统,即音柱。音柱即强指向性扬声器系统,但仅指垂直方向,其水平方向仍是较宽的,指向性图呈扇形。现有一款磁砖扬声器系统,在垂直方向与水平方向两个方向上,指向性都很窄,指向性图呈锐形,能将声音更集中地传输到听众区,更大程度地减弱反射声对会场的影响。如果能很好地控制扬声器垂直/水平指向性,使波束区内听众得到更多的直达声,就能获得比普通扬声器系统更高的语言清晰度。
选用强指向性扬声器系统相当于起到缩短混响时间的效果,这是“有效混响时间”的概念,对于混响时间较长的会议室更有选择的必要。抗噪声强指向传声器结合强指向性扬声器,是对抗长混响环境行之有效的方法。
2.4 功率放大器的扩声电平控制
从图5中可以清晰地看到语言传输指数(选自IEC 60268-16(4.0版.2011.6)规范)与声压级的关系,见表1。
经过反复验证,在工程实际中多次证实了以下规律:同等条件下,声压级50 dB~80 dB 时语言传输指数(STI)的一种简化形式STIPA(扩声系统语言传输指数)基本不变,而声压级升高到80 dB后,STIPA急剧下降。由此可见,为了使会议系统获得较高的语言传输指数,保证较好的语言清晰度,建议扩声的声压级控制在75 dB±3 dB,大型会场控制在85 dB±3 dB为宜。
例如,昆明滇池国际会展中心万人会场的扩声系统设计[3]中,如图6,在实测混响时间高达10.58 s的严峻现实下,运用以上原理展开设计施工,最终语言清晰度仍达到GB/T 28049-2011《厅堂、体育场馆扩声系统设计标准》会议类扩声系统声学特性指标一级标准(STIPA≥0.5)。
由此想到,倘若在数字功率放大器输入端设有三段压限器,设定75 dB前为线性增益、75 dB~78 dB为斜率增益、78 dB以上为0增益,这将自动适应讲话人声音大小,为会议系统管理带来极大便利。
3 语音控制技术
引入人机交互理念,集成了包括双全工技术、传声器技术、声纹识别技术、方言识别、语义理解技术和内容服务等技术,通过继电器、远红外等控制音频、视频、灯光、小型机械、窗帘、空调等会议室相关设备,可根据逻辑关系进行联动编程,达到智能控制、一键联动等。操作设备采用有线或无线触摸屏、电脑、墙装按键面板等。
通过AIUI(科大讯飞人工智能交互界面)前端语音交互入口,进行高保真拾音及语音转写,转写的结果是利用其语义理解平台所提供的语音交互、上下文理解能力,快速关联相应的设备应用场景,快速抽取语义、提取意图和关键信息,形成结构化的语义理解结果指令,经中央控制器输出到已连接的相应设备,从而达到控制设备的效果。还可预设多个设备的组合控制模式,达到一句话控制所有设备的便捷效果。
语义理解平台是一种实现人机间自然语言通信的软件系统。从形式上看,中文文本是由汉字(包括标点符号等)组成的一个字符串。由字可组成词,由词可组成词组,由词组可组成句子,进而由一些句子组成段、节、章、篇。但在不同的场景或不同的语境下,可以理解成不同的词串、词组串等,并有不同的意义。一般情况下,它们中的大多数都是可以根据相应的语境和场景的规定而得到解决的。但是,为了消解歧义,是需要大量的知识并进行推理。语义理解平台就是将这些知识较完整地加以收集和整理,以合适的形式将它们存入计算机系统中,有效地利用它们来消除歧义,实现准确识别、理解自然语言含义的功能。
4 语音文字化功能
在会议系统中整合语音文字化产品,以符合安全要求的離线方式,将会议场景下的发言语音内容实时转换成文字,方便有效地解决了语言与文字的互换关系,从而有效提高会议系统的智能化程度。
如果要真正实现语音转写在会议场景下的应用能力,需要提升语音转写结果的可读性,提高智能语音转写系统的易用性,就需要开展转写结果可读性提升、段落划分、摘要及意图检测方面的研究工作。
(1)语音转写结果的可读性提升:使用基于多信息融合及基于声学属性识别的声学置信度技术,并结合语义信息,进一步提升异常语音的检测能力;基于CRF(Conditional Random Field)模型的标点技术、基于CRF模型的句子顺滑及基于最大熵模型的关键信息抽取等技术,通过这些技术的组合,进一步改善转写内容的可阅读性。
(2)语义段落的自动划分:基于句子级别语义聚类和关联逻辑关系的分析以及一些特殊的提示型词汇、停顿长度等额外信息,自动将较长的内容转写结果切分为语义相对独立的若干个段落,为关键信息和摘要做准备。
(3)语义摘要:借鉴传统的文本自动摘要,并根据语音中说话人、语气强调重复等信息,自动对每一段语音进行关键信息的抽取和自动摘要,以便快速地从长时语音中找到所需转写的内容,进一步提升人机结合方式的语音转写的投入产出比。
会议语音转写的核心价值在于语音转写的实时性和准确率,采用的智能会议系统可达到实时语音转写效率≤500 ms,基本达到零延迟的出材效果感知。而基于“即听即所见”的核心技术,其对标准普通话的转写准确率超过95%,达到无纸化记录水平。
目前,国内相关的前沿技术主要为采用13 000小时以上连续语流数据训练而成的声学模型及二遍解码技术,其独有的文本顺滑、标点识别、英文数字后处理等自然语言处理能力,使识别结果更加准确、规范。
5 工程案例
某会议室尺寸为长9.5 m、宽4.5 m、高3.4 m,如图7所示。经建声专业装修后混响时间T60=0.4 s;系统配置包括降噪传声器系统、会议音响系统、视频显示系统、智能照明系统、语音控制系统、语言转写系统,视频会议系统、电动窗帘系统、中央空调系统、集中控制系统,系统原理图如图8所示。
6 结束语
综上所述,自适应语控智能会议系统以数字处理为核心技术,形成由数字传声器-数字处理器-数字有源扬声器组成的智能会议系统,有利于提高会场系统工程质量;以降噪技术为手段,体现在会场语言清晰度的提高从声源上解决问题; “即听即所见”技术实现了语音文字化,对会议纪要整理、资料保存以及无纸化办公具有实际应用价值。
参考文献:
[1] 顾克明,彭妙颜,周锡韬等. 会场系统工程[M]. 北京:中国电力出版社,2013.
[2] 高玉龙. 小房间声学设计及建筑声学处理[M]. 北京:国防工业出版社, 2014.
[3] 顾克明,陈敏,顾 锃. 昆明滇池国际会展中心万人会场的扩声系统设计[J]. 电声技术,2015(8).endprint