环境声监控和识别系统设计分析

2014-12-25刘薇

电脑知识与技术 2014年33期

关键词：识别

刘薇

摘要：本系统设计主要应用在室内报警声监控与识别系统中，包含室内报警声监控与识别系统的功能需求分析、报警语音的选择、软硬件识别系统的方案设计。

关键词：报警声监控；识别；报警语音

中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2014）33-7976-03

Abstract： The system design is mainly used in indoor alarm monitoring and identification system， including indoor alarm monitoring and identification system functional requirements analysis， program design voice alarm selection， hardware and software recognition system.

Key words： alarm monitoring； identification； alarm voice

1 设计背景

随着现代科学和计算机技术的发展，人机互动形式多种多样，语音识别技术取代传统的通过鼠标、键盘实现人机信息交流的模式，这是目前计算机、信号处理和人工智能等领域的重要课题。

自动语音识别的任务是研究如何利用计算机模拟人类的听觉功能，从人的语音信号中提取出有用的声学特征和语言信息，进而确定语音信号的语言含义，实现人和机器之间的自然语言通信。

近五十年来，语音识别技术开始渐渐走出实验室，在国防监听、远程会议、音频设备、移动通讯、身份鉴别、智能玩具、机器人等领域展现了广阔的应用前景，一些应用已非常贴近人们的生活。众人熟知的2010上海世博会吉祥物“海宝”作为“能说会道”智能玩具就是音频识别技术的一个成功应用。

然而，由于语音信号的不确定性，以及周围环境的不可控性，目前还鲜有十分可靠的语音识别系统大面积商用或民用的实例。从目前的语音识别理论的发展来看，非特定人的大词汇量和连续语音识别仍然是语音识别领域的技术难点。相对而言，非特定人中小词汇量的孤立词语音识别的理论和实践发展相对较成熟和完善，完全有可能应用于一些声环境相对稳定，噪声相对较小的场合，如室内的语音报警、声控家电及智能玩具等。因此，研制出具有实用价值的有限词汇（有限指令集）的孤立词语音识别系统，有助于扩大语音识别技术的应用范围。

本系统设计侧重于对环境声识别在监控领域的应用。该领域在近年来发展非常迅速，尤其是经过2008年北京奥运会、2010年上海世博会等大型活动的安防建设，在安防监控方面取得了前所未有的发展，使其成为保障人民生命财产安全、维护社会和谐稳定的重要行业。

2 设计目的与意义

这里的环境声（Environmental Sound）是指在人居环境中所接收到的各种声音。特别地，监控系统所感兴趣的多是人在紧急状况下发出的呼叫声，咳嗽声，巨大的撞击声等能起到警告作用的异音，其识别本质上属于孤立词识别的范畴。

环境声监控和识别是语音识别中的分支方向，目前处于发展初期，还没有可应用于非特定人的监控和识别系统得到实际应用，而随着智能楼宇、大型社交活动场所的安防及重要场所的监控等方面的需求与日俱增，急需发展这方面的技术。在“十二五”安防产业发展的大趋势下，基于中小词汇量孤立词识别的报警声监控和识别系统将会在未来的几年内取得较快发展。

本系统设计以银行、博物馆、居室、室内停车场等室内应用场景的监控为设计背景，针对室内典型的声音（如“着火啦”、“抢劫”及玻璃破碎声等），利用语音信号处理和声目标分类识别等领域的研究成果（包括特征提取和分类识别等），以音频和视频监控的结合为应用目标，侧重于报警词识别系统的软件设计，最终将应用于报警声监控和自动识别硬件系统，为公安、消防等相关部门的决策提供关键信息。

概括而言，本系统设计可在以下安防相关领域得到直接或推广应用：

1）银行、博物馆等重要场所的防盗报警监控系统；

2）智能楼宇安全防卫监控及访客自动识别系统；

3）医院重症病人监控或远程室内老人、儿童活动监护；

4）背街小巷内的盗抢事件监控。

除了安防领域，该文涉及的核心技术在语音识别、说话人识别、智能家电、机器人等相关领域也具有一定的参考价值。

3 系统关键问题分析

通过对特定应用场景的研究，本系统设计旨在将环境声识别的关键技术运用到这些场景中声音监控中。实际场景中，干扰噪声和混响往往是比较突出的问题，不同的场所这两个因素的影响程度不一，如何才能使环境声监控识别适应不同的声环境是系统研究的重点也是难点。具体的关键问题：

1）干扰噪声下，系统自动检出有效语音段的问题，即端点检测问题。

2）提取鲁棒的声音特征的问题，要求是能够最大程度地保留话者或者声音内容本身的特征而去除干扰声和通道噪声（如混响）带来的影响。

3）环境声的匹配识别问题，在保证正确率的前提下，提高识别的效率。

4）特定声环境下（混响，多个声源等）声线索性能精度下降问题，如混响下双耳定位性能下降，导致引导摄像头监控效率降低。

以上这些是典型的环境声识别与监控所面临的问题，每一个问题的解决都是极其复杂的，本系统设计只能在特定条件下做局部的改进。

1）针对监控设备（录音设备）带来的噪声干扰，该文提出了一种基于临界带功率谱方差的端点检测方法，能够有效地在含噪语音中找到语音，用于系统对环境声的识别。

2）提出一种智能音视频联合的监控思想，对声源先进行定位，利用定位信息引导摄像，提高了视频监控的视域范围，同时进行声音的识别。

3）针对混响和干扰噪声的影响，提出一种基于分类的定位方法，用于上述系统中，提高了系统的鲁棒性。

4 环境声监控和识别系统设计

本系统设计以典型环境声为识别对象，利用当前主要的孤立词识别方法，并对其中的主要环节加以改进，基于Matlab平台设计一套完整的报警词识别软件系统，将其转化为C语音，以便于未来向嵌入式系统移植。

4.1 应用场景设计

目前语音识别技术的研究主要集中在语音识别的特征提取、模型建立、识别算法和语音信号处理（语音降噪、增强等）方面。对语音识别应用技术的研发主要集中在通信领域[5]，如利用语音实现文本输入。在其他领域如楼宇智能监控、语音报警等方面的应用技术开发相对较少，国内现在还没有真正意义上将语音识别技术应用于这些方面的产品。该文将依托视频监控平台，设计一套室内报警声监控和识别系统，为其实际应用打下基础。

随着国家经济发展水平的不断提高，科技水平特别是以计算机技术为代表的高科技的迅猛发展，人们对经济舒适、高效安全的生活环境的期望值越来越高，安全意识也与日俱增。同时由于人们生活节奏的加快，工作压力的增大，很多时候常常需要加班，家里的一些突发状况而得不到有效的通报，容易造成安全隐患。

现实生活中，尤其是在治安较差的区域常有此类报道：不法分子入室实施盗窃、抢劫、杀人等犯罪行为，即使被害人大声疾呼，奋力反抗，也往往难以得到及时救助；或是晚上家里突然着火，浓烟弥漫，而当事人已经迷失方向，无法通过电话报警；或是独居的孤寡老人，突然身体不适，自己无力打电话求救，等到监护人员赶到时状况往往已经相当糟糕。这些不利的后果主要是因为无法报警或报警不及时而造成的。因此，能够及时地发出和接收报警信息并及时达到现场，想办法解除险情，这是目前生活小区安防领域急需解决的一个关键问题。

在其他一些重要场所如博物馆、银行等，如果发生紧急事件（盗窃、抢劫）而没有及时报警，也非常可能造成重大人身或财产的损失。

当然，除了报警功能外，孤立词语音识别的核心技术还可以应用到其他许多领域。如智能家电就是一种大有前途的领域，一旦技术发展成熟，人们即可实现在黑暗中通过语音来操控电视、电灯、空调等家用电器。

上述应用场景大多属于室内环境，具有一些的相似特点：

1）往往背景噪声较低、平稳或种类单一；

2）声源至传声器（安装于监控设备）的距离通常较近；

3）可能出现的报警语音种类有限。

这些共同特性为本文后面的关键词选取、算法设计提供了主要依据。

4.2 功能需求设计

在前述室内应用环境中，语音识别要想发挥准确及时的自动识别和报警作用，对识别系统有一系列要求。

1）保证在实际应用环境下具有较高的正确识别率。语音识别在噪声环境下的识别效果的下降一直是该项技术不能大面积商用、民用的直接原因。现阶段，该问题暂时还没有较完善和统一的解决。但是，在室内环境中，对于小词汇量的孤立词语音识别，通过算法优选和改良，识别率完全可能达到实际应用的要求。

2）室内环境声监控与识别系统需要做到实时监控，及时报警。满足实时要求的最简单原则便是语音识别的时间要不大于语音本身的时长，而语音识别的时间长短主要由端点检测和模板匹配算法决定。关于端点检测和匹配算法本文将在下面的章节做详细的论述，并且提出相应的改进算法，以提高识别正确率和识别速度。

3）报警与监控系统不仅要及时分析处理和报警，还有必要将采集的声音信号存储备查。这对于数据接口设计和硬件存储空间选择具有明确的要求。

4）报警与监控系统的网络化。网络化是监控系统的基本要求，只有网络化才能使不在事发现场的监控人员了解现场的情况。这还与报警声识别系统的应用平台相关。

5）能够方便地对语音模板库进行编辑和更新。如实现语音特征模板库的添加和删除，这对于系统的推广应用具有重要的价值。

4.3 系统基本结构

基于孤立词语音识别的报警声监控和识别系统按功能分为训练和识别两大阶段。训练包含预处理、特征提取两个模块；识别是在训练的基础上加一个匹配识别模块。对不同的语音识别任务来说，尽管设计和实现的细节不同，但所采用的基本技术是相似的。

其中，训练语音样本的采集过程包含了对模拟信号的采样、滤波、量化、编码的过程；预处理包含预加重、加窗分帧、端点检测。预处理模块的功能是通过高频预加重来平滑信号频谱，并利用窗函数把语音数据序列分成连续的信号帧。端点检测单元主要完成确定单词的起始帧与结束帧的检测。特征提取单元的功能是完成基于频谱分析的特征矢量计算。当端点检测单元检测到当前语音信号帧为起始帧时，特征提取单元开始特征提取计算，并完成对特征矢量的存储。

一个完整的孤立词语音识别系统，除了包括核心的模式识别程序，还应包括语音采集、参数分析、标准声学模型等。根据识别结果在实际环境下实现一定的应用，还必须考虑耐环境技术、用户输入、输出接口技术等。因此，语音识别技术加上各种外围技术的组合，才能构成一个完整的可实际应用的语音识别系统。

5 结束语

“十二五”期间，数字化、网络化、集成化、智能化将成为安防监控发展的大趋势。这对于传统的以网络化视频监控为主的监控系统提出新的要求。由于图像采集本身的特性以及场景障碍物的存在，传统监控系统常常存在盲区，而如果能将音频识别和视频监控相结合，将可望建立起真正具有智能监控功能的系统。

参考文献：

[1] 万兆阳.语音识别技术在呼叫中心自动外呼应用的研究与实现[D].北京邮电大学，2012.

[2] 沈崇德，童思木.医院智能语音客户服务系统的创新研究与应用示范[J].中国医学装备，2013（1）.

[3] 刘东辉.语音识别技术探析[J].信息与电脑（理论版），2012（6）.

[4] 杨顺辽.基于说话人确认系统的语音处理综合实验[J].高校实验室工作研究，2012（3）.

[5] 刘文强.语音识别技术在智能家居中的研究与应用[D].大连海事大学，2013.