一种具有听觉功能的智能视频监控系统

2014-09-17张治中

电视技术 2014年1期

关键词：传声器声源定位

刘刚，张治中

（南宁职业技术学院a.现代教育技术中心;b.信息工程学院，广西南宁 530008）

一种具有听觉功能的智能视频监控系统

刘刚a，张治中b

（南宁职业技术学院a.现代教育技术中心;b.信息工程学院，广西南宁 530008）

基于图像的智能视频监控系统由于视角有限，当目标不在摄像头视场范围时，易出现监控盲区，为了解决该难题，利用声源定位的优点，提出一种具有听觉功能的智能视频监控系统。首先采集传声器线性阵列，采用时延估计技术对声源进行定位，然后根据声源位置驱动摄像头，使其转动到声源位置并采集视频信息，最后采用图像检测程序对目标进行实时定位和跟踪，并通过仿真测试验证该系统的可行性，结果表明，该系统具有较好的定位和跟踪精度。

声音信息;视频信息;智能监控;传声器阵列;到达时间差

智能监控系统是指在没有人为干预的情况下，对采集的图像序列进行自动分析，对监控场景中目标进行定位、识别和跟踪，从而对异常情况及时发出警报或提供有价值的参考信息，在安防系统中得到广泛应用［1］。

目前智能监控系统主要对视频图像进行分析和处理，然后通过相应的软件提取其中的关键信息，实现对目标的识别和跟踪［2－3］。由于视频监控的范围受限，无法对监控场景的信息进行全方位的采集，从而出现大量的盲区，导致视频监控系统难以满足要求［4］。近年来，传声器阵列信号处理技术日益成熟，出现基于传声器阵列的声源定位系统［5］。从定位原理来分，目前传声器阵列定位技术主要分为三类:基于最大输出功率的可控波束形成技术，基于高分辨率谱估计技术，基于到达时间差（Time Difference of Arrival，TDOA）技术［6］。其中可控波束形成技术对初值敏感，而且需要知道声源和噪声先验知识，实时处理性能差;高分辨率谱估计技术计算量大，无法处理相关度比较高的信号;TDOA技术具有计算量小、容易实现，成为近年研究的热点［7］。由于在真实声场环境下，存在大量的抗噪声、混响，TDOA的抗噪和混响能力不强，影响声源定位精度，目标实时定位和跟踪的误差较大［8］。小波变换可以将含有噪声的声音信号进行不同尺度分解，然后重构消除噪声信息，从而增强声音信号［9］。一些学者将其引入到智能视频监控系统中，通过传感器对声音信号的实时采集，然后对声音信号进行分析，确定声源位置，从而对声源目标进行实时定位和跟踪，拓宽了智能监控系统的监控范围［10］。

为了提高智能视频系统的监控效果，更加有效地对目标进行实时定位和跟踪，提出一种具有听觉功能的智能视频监控系统。首先采集传声器线性阵列，采用时延估计技术对声源进行定位，然后摄像头根据声源位置调整方向，使其转动到声源位置并采集视频信息，最后采用图像检测程序对目标进行实时定位和跟踪，并通过仿真实验对系统的性能进行测试。

1 智能视频监控系统

1.1 硬件系统

智能视频监控系统主要包括硬件系统和软件系统两部分，其中硬件系统主要由处理器、存储器、摄像头、视频编码电路、音频设备等组成，具体如图1所示。

图1 硬件系统结构

1.2 软件系统

1.2.1 传声器阵列模型

对于一个远场窄带零均值的入射信号，用单位矢量α表示信号入射方向，矢量pi表示阵元坐标，其阵列几何结构如图2所示。

图2 阵列几何结构示意图

α可以表示为

式中:θ表示俯仰角;φ表示方位角。阵元坐标pi可表示为

式中:i表示阵元序号，i=1，2，…，N。

原点位置接收信号的复数表示为

式中:n0（t）代表噪声信号。

整个阵列接收到的信号矢量可以表示为

定义波数矢量为

由此可以表示阵列流形矢量为

考虑阵列信号处理—般是在基带进行，信号中已经没有载波分量，接收信号可以表示为

1.2.2 声音信号消噪

正交小波基的滤波器系数为h0k和h1k，尺度函数和小波函数分别为φ（）t和ψ（）t，其尺度关系为

为了对高频成分观察更仔细，采用db3小波包对声音信号进行三级分解，分解过程如图3所示。

图3 声音信号的小波分解

通过设置一个合适的阈值，仅利用超过阈值的小波系数来重构声音信号，去除噪声，阈值选择为

式中:j为小波变换的尺度;C在3.0～4.0之间。

式中:Mj为尺度j上的各小波系数绝对值的均值。

从图4可知，采用小波变换对声音去噪后，噪声大部分已被去掉，同时保留了有用的声音信息。

图4 小波去噪效果

1.2.3 声音信号端点检测

设语音波形时域信号为x（l），第n帧语音信号为xn（m），则xn（m）满足下式

式中:0≤m≤N－1。

式中:N为帧长;T为帧移长度。

xn（m）的短时能量谱En定义为

过零率Zn定义如下

sgn［x］定义如下

声音信号端点检测的结果如图5所示。

图5 音频信号的端点检测

1.2.4 TDOA 估计时延

设声源信号为s（t），传声器接受到第m个和第n个的声音信号分别为

式中:um（t）和un（t）为加性噪声;an和am是衰减系数。

声音信号的时延间差为

当信噪信比大的条件下，2个传声器接收信号的互相关函数为

2个传声器接收到信号的时延估计为

1.2.5 声源的位置估计

声源S（x，y，z）到传声器Mi间的距离为ri，τij表示声源到传声器Mi与Mj间的时延，d为传声器阵元到原点距离，C为声速，r，θ［0°，90°］，φ［0°，360°］分别表示声源到坐标原点的距离、俯仰角和方位角。

利用距离和速度公式建立如下方程组

解方程，可以得到

综上可知，具有听觉功能的智能视频监控系统工作流程如图6所示。

图6 智能视频监控系统的工作流程

2 仿真实验

2.1 声源方向估计精度

系统上电后，说话者以传声器序列为中心，一边说话一边来回走动，通过声音驱动摄像头转动，声源实际方位与估计方位如图7所示。从图7可知，通过本文算法估计的方位与声源实际位之间的误差相当小，结果表明，采用本文声源估计算法可以较准确地对目标位置进行定位。

图7 角度对比图

2.2 消噪前后声源方向估计精度对比

与没有小波消噪定位算法进行对比实验，估计误差结果如图8所示。从图8可知，对比算法由于没有对声音信号进行消澡处理，定位误差比较大，本文算法利用小波变换对声音信号进行不同尺度的分解，消除了噪声对声音信号端点检测的不利影响，重构的声音信号便于后续的时延估计，增强了算法抗噪能力，从而大幅度提高了声源的定位精度。

图8 消噪前后的定位精度对比

2.3 与其他方法的跟踪性能对比

采用单一音频信息、单一视频信息对目标进行定位和跟踪，并与本文方法进行对比，采用误跟率作为性能优劣评价标准，得到的结果如表1所示。

从图1可知，采用单一音频信息的目标定位精度不高，跟踪效果最差，误跟率高;相对于音频信息，视频信息的目标定位精度有所提高，误跟率降低，并且跟踪结果更加稳定，但是误差仍然较大，而本文方法通过声音信号对驱动摄像头转动，融合了音频和视频信息，目标跟踪效果更优，降低了误跟率，鲁棒性更强。

表1 不同方法的误跟率比较

3 总结

针对当前智能视频监控存在的监控盲区的问题，提出一种具有听觉功能的智能视频监控系统。首先利用传声器阵列的声源定位对目标方向进行检测，然后根据目标位置驱动摄像头转动，仿真结果表明，该系统提高了目标定位和跟踪精度，有效减少误报和漏报现象，在现代安防领域中具有一定的应用价值。

［1］骆云志，刘治红.视频监控技术发展综述［J］.兵工自动化，2009，28（1）:1－3.

［2］郑世宝.智能视频监控技术与应用［J］.电视技术，2009，33（1）:94－96.

［3］DVORKING T，GANNOT S.Time difference of arrival estimation of speech source in a noisy and reverberant environment［J］.Signal Processing，2005（5）:177－204.

［4］张亚，周孟然，陈君兰，等.基于声源定位技术的智能视频监控系统［J］.电子技术应用，2011（4）:90－93.

［5］杜要锋，尹雪飞，陈克安.一种修正的近场声源定位时延估计方法［J］.电声技术，2010，34（2）:47－50.

［6］李承智，曲天书，吴玺宏.一种改进的ADOA声源定位及跟踪算法［J］.北京大学学报:自然科学版，2005，4l（5）:809－814.

［7］张亚，周孟然，陈君兰，等.应用声光联合定位技术的智能视频监控系统［J］.电视技术，2010，34（3）:88－91.

［8］王振涛，郝忠孝，贺洪江.基于传声器阵列的声源定位系统的研究［J］.华北电力大学学报，2009，36（5）:103－106.

［9］HU J S，LEE M T，YANG C H.An embedded audio－visual tracking and speech purification system on a dual－core processor platform［J］.Microprocessors and Microsystems，2010（34）:274－284.

［10］方帅，迟健男，徐心和.视频监控中的运动目标跟踪算法［J］.控制与决策，2005，20（12）:1388－1391.

Intelligent Monitoring System with Auditory Function

LIU Ganga，ZHANG Zhizhongb

（a.Modern Educational Technology Center;b.School of Information Engineering，Nanning College for Vocational Technology，Nanning 530008，China）

Intelligent video monitoring system based on image is limited by view angle，when the target is not in the view range of camera，monitoring blind area is easy occurred.In order to solve the problem，an intelligent video monitoring system is proposed based on voice localization.Firstly，microphone linear array is acquired，and the position of the sound source is location by the time delay，and then cameras are turning to the sound source position by the sound source message and collect video information.Finally，the target is real－time positioned and tracked by image detection，and the simulation experiments are carried out to test the feasibility of the system.The results show that the proposed system has high location precision.

audio information;video information;intelligent monitoring;microphone array

TM930.12

【本文献信息】刘刚，张治中.一种具有听觉功能的智能视频监控系统［J］.电视技术，2014，38（1）.

2013南宁职业技术学院科研项目（2013YB348）

刘刚（1980— ），硕士，讲师，主要研究领域计算机应用、教育信息化;

张治中（1977— ），硕士，副教授，主要研究领域为物联网。

责任编辑:任健男

2013－06－28