一种视听融合的水下目标识别方法研究

2015-10-13马理想曾向阳

声学技术 2015年3期

马理想，曾向阳

一种视听融合的水下目标识别方法研究

马理想，曾向阳

（西北工业大学航海学院，陕西西安710072）

特征提取是水下目标识别研究中最为关键的技术之一，特征参数的优劣将直接决定分类识别系统的性能。将声信号的听觉与视觉感知特征结合，应用于水下目标识别，通过实验得出如下结论，相比于单独应用听觉特征，融合特征的平均识别率能提高4%~6%以上，特别是将听觉特征与声谱图的Gabor小波变换特征、灰度-梯度共生特征进行融合后，分类性能较好，平均达到87%以上。

水下目标识别；听觉特征；可视化；图像特征；特征选择

0 引言

目标识别是现代声呐和水声对抗的重要组成部分，而特征提取是目标识别的关键。经过多年的发展和积累，目前已提出了不少特征提取方法。早期提出的有时域波形结构特征[1]，主要参数有过零率、峰间幅值分布、波长差分布、波列面积等，该方法实现过程较为容易，但对一些复杂的水下噪声信号的分类识别显得无能为力。后来又发展了基于谱估计[2,3]的特征提取方法，包括经典谱估计、现代谱估计、倒谱分析、DEMON谱、LOFAR谱分析等。功率谱和相关函数是二阶统计特性，在随机过程是正态分布时，它们能完全代表过程的特性。但实际的水声信号或噪声往往不是理想的高斯分布，用二阶统计特性不能全面描述信号特性，只有高阶统计特性(Higher-Order Statistics, HOS)才能更全面地反映非高斯信号的特性。

传统的傅里叶变换有时间积分作用，平滑了非平稳随机信号中的时变信息，因而其频谱只能代表信号中各频率分量的总强度。采用短时傅里叶变换 (Short-Time Fourier Transform, STFT)对时变信号逐段进行分析，虽具有时频局部化性质，但其时间分辨力和频率分辨力是互相矛盾的，不能兼顾。而小波变换通过对原小波的平移和伸缩，能使基函数长度可变，因而可获得不同的分辨力。基于其高分辨力的特点，可以提取多种小波特征[4]。

近年来，随着人们对人耳听觉模型研究的深入及人工智能的迅速发展，基于人耳听觉特性[5]的特征提取方法成为了研究的热点，由此得到的特征参数有：梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC)、感觉加权线性预测(Perceptual Linear Predictive, PLP)、响度、尖锐度、粗糙度以及波动强度等。此外，在对人耳听觉模型进行深入研究后，例如Gammatone基底膜模型、Meddis内毛细胞模型，可以得到更多相关的听觉特征参数。不过，由于人耳听觉机理还是一个尚未完全破解的难题，这方面的研究还有很大的空间。

本文有别于传统的声学特征提取方法，尝试先将获得的声信号转化为图像，再提取图像特征[6]，然后将提取出的图像特征与传统的听觉特征进行融合，最后将融合后的特征用于水下目标识别。由于图像属于二维信号，相比于一维时间序列可能包含更多的特征信息，且图像特征提取与识别已有大量成功的应用，这种视听特征融合的方法有望获得更好的识别性能。

本文在对三类水下目标(A：舰船；B：潜艇；C：UUV)听觉特征和可视化特征进行识别正确率分析的基础上，最终选择了识别率较高的三种听觉特征，即16维响度特征、9维PLP特征和11维MFCC特征，分别与信号声谱图的5维Gabor小波特征以及15维的灰度梯度共生矩阵特征融合，比较各融合特征的识别正确率以及鲁棒性。

1 听觉特征提取

1.1 响度特征

响度描述的是声音的响亮程度，表示人耳对声音的主观感受。Zwicker计算方法[7]是经典的响度计算方法。在计算响度时要考虑掩蔽效应，相关的一个重要物理量是临界频带，单位：Bark。通常把20 Hz~16 kHz的频率范围划分为24个临界频带。频率小于500 Hz时，临界频带1 Bark带宽约等于100 Hz；频率大于500 Hz时，1 Bark带宽为该临界频带中心频率的20%。转换公式如下：

式中：为临界带宽的中心频率；为临界频带的带宽。

1.2 PLP特征

PLP特征参数是一种基于听觉模型的特征参数。该特征参数是全极点模型预测多项式的一组系数，等效于一种线性预测系数(Linear Prediction Coefficient, LPC)特征。不同之处是PLP技术将人耳听觉实验获得的一些结论，通过近似计算的方法进行了工程化处理，将输入的语音信号经听觉模型处理后所得的信号替代传统的LPC分析所用的时域信号。这样处理后的语音频谱考虑了人耳的听觉特点，因而有利于抗噪特征提取。

1.3 MFCC特征参数

与普通倒谱分析不同的是，MFCC分析与人耳的听觉特征紧密联系，这是因为人耳所听到声音的高低与声音频率并不呈线性正比关系，而用Mel频率尺度则更符合人耳的听觉特征。Mel频率尺度的值大体上对应于实际频率的对数分布关系，两者的具体关系可用式(2)表示：

式中：f为频率；临界带宽随频率的变化而变化，并与Mel频率的增长一致，在1000 Hz以下大致呈线性分布，带宽为100 Hz左右；在1000 Hz以上呈对数增长。图1显示了Mel频率与线性频率的关系。

2 信号的可视化及可视化特征提取

2.1 信号声谱图

声谱图是一种重要的时频图，它反映了声信号的动态频谱特征，在语音信号中被视为可视语言。声谱图一般分为宽带声谱图和窄带声谱图，是一张有颜色或灰度变化的二维图。图2为某类水下目标信号的声谱图。图中横坐标表示时间，纵坐标表示频率，图像中的灰度值代表某时刻对应该频率处的能量，此处为短时傅里叶变换幅度的平方。

这种时频分布图经过灰度处理后，可以利用图像特征提取方法提取特征参数。

2.2 信号的可视化特征

2.2.1灰度-梯度共生矩阵特征

基于灰度共生矩阵可以得到灰度-梯度共生矩阵[8]，从中提取的特征参数对于边界不清晰的图像具有较好的分类效果[9]。灰度-梯度共生矩阵集中反映了图像中像素的灰度和梯度的相互关系，各像素的灰度是构成一幅图像的基础，而梯度则是构成图像边缘轮廓的要素。灰度-梯度空间可以清晰地表现图像内像素灰度与梯度的分布规律，同时也体现了各像素与其领域像素的空间关系，对图像的纹理能很好地描绘。灰度-梯度共生矩阵纹理分析方法是利用图像的灰度和梯度的综合信息提取纹理特征。表1所示为几种灰度-梯度特征的计算公式。

表1 灰度-梯度共生矩阵的中部分参数的数字特征

2.2.2 Gabor小波特征

Gabor小波特征是根据模拟人类视觉系统而产生的。通过模拟人类视觉系统，可以将视网膜成像分解成一组滤波图像，每个分解的图像能够反映频率和方向在局部范围内的强度变化。通过一组多通道Gabor滤波器，可以获得纹理特征。

由于小波变换在数字图像中局部区域的频率和方向信息提取方面有优异的性能，因此，一些学者们将其用于图像的纹理特征提取中，并且取得了非常满意的效果。最为常用的做法就是对图像进行小波变换后，从小波子带中提取平均值以及方差作为纹理特征。虽然小波分析取得了不错的效果，然而与Gabor滤波器组相比而言，还存在不足。Gabor变换已被证明是在二维测不准情况下，对信号空间域和频率域的最有力描述。这些滤波器可以当作方向和尺度都可变化的边缘和直线的检测，并且对一个给定区域中的这些微观特征的统计，经常可以用来表示纹理信息的特征。其优点在于，能够很好地模拟哺乳动物视皮层简单细胞的感受域，符合视觉生理特点，能获得频域和空域的最佳联合分辨率。

3 实验研究

3.1 融合特征的实验对比

由所选取的听觉和可视化特征自由组合可以得到六种融合特征，分别是响度(16维)-灰度梯度共生矩阵特征(15维)、响度(16维)-Gabor小波变换特征(5维)、PLP(9维)-灰度梯度共生矩阵特征(15维)、PLP(9维)-Gabor小波变换特征(5维)、MFCC(11维)-灰度梯度共生矩阵特征(15维)、MFCC(11维)-Gabor小波变换特征(5维)。

针对A、B、C三类水下目标辐射噪声信号，分别选取100个训练样本和100个测试样本，即训练样本数与测试样本数之比为1:1。分类器为SVM算法。

实验结果见表2和图3，表3则是在单听觉特征情况下系统的识别正确率。

图3中系列1、2、3、4、5、6分别代表：MFCC-Gabor小波变换特征、MFCC-灰度梯度共生矩阵特征、PLP-Gabor小波变换特征、PLP-灰度梯度共生矩阵特征、响度-Gabor小波变换特征、响度-灰度梯度共生矩阵特征。

表2 听觉特征与声谱图可视化特征的融合特征的识别率(%)

表3 单听觉特征的识别率(%)

由以上结果可以看出，融合特征的识别率基本都在85%以上，其识别率都较单听觉特征时的识别率高，最高达到89%，相比于单听觉特征的最高识别率83%，提高了6%。

3.2 视听融合特征的识别性能实验研究

由3.1节可知，对于融合特征，听觉特征与可视化特征进行融合所得的识别结果相对更好，其中表现最好的融合特征是PLP-Gabor小波变换特征、PLP-灰度梯度共生矩阵特征和响度-灰度梯度共生矩阵特征。为进一步检验这三组融合特征的稳健性和抗噪性，以下进一步开展实验研究。

(1) 训练-测试样本比对识别结果的影响

3.1节中介绍的融合特征测试时，使用的训练和测试样本比为1:1，这里再分别对测试样本和训练样本为1:2和2:1时进行测试。实验结果见表4。

由表4可知，PLP-Gabor小波变换特征和响度-灰度梯度共生矩阵特征在训练和测试样本变化的情况下，识别率变化相对较小，说明这两类特征的鲁棒性较好。

表4 不同训练测试比下融合特征的的识别正确率(%)

(2) 融合特征的抗噪性能实验

将测试信号分别加上高斯白噪声，得到信噪比分别为-10、-5、0、5、10 dB的信号，利用测试实验得出PLP-Gabor小波变换特征、PLP-灰度梯度共生矩阵特征和响度-灰度梯度共生矩阵特征的分类正确率，结果见表5，对应的曲线如图4所示。图4中，1、2、3分别代表PLP-Gabor小波变换特征PLP-灰度梯度共生矩阵特征、响度-灰度梯度共生矩阵特征。

表5 不同信噪比情况下融合特征的识别正确率(%)

从图4可以看出，对各种特征而言，总体呈现出随信噪比的增加识别率也逐渐增加的趋势。其中，PLP-Gabor小波变换特征抗噪能力相对更优。综合以上两方面可以认为，PLP-Gabor小波变换特征在视听融合特征中具有相对更好的识别性能。

4 结语

通过本文的实验结果可以看出，水下目标辐射噪声信号听觉特征和可视化特征的融合能够有效地提高目标信号的正确识别率。下一步还将深入探讨声学特征与可视化特征之间的内在联系，这有助于寻找更加有效的视听特征。

[1] 蔡悦斌, 张明之, 史习智, 等. 舰船噪声波形结构特征提取及分类研究[J]. 电子学报, 1999, 27(6): 129-131.

CAI Yuebing, ZHANG Mingzhi, SHI Xizhi, et al. The feature extraction and classification of ocean acoustin signals baned on wave stucture[J]. Acta Electronica sinica, 1999, 27(6): 129-131.

[2] 余秋星. 水下目标识别的相关技术研究[D]. 西安: 西北工业大学博士学位论文, 2004.

YU Qiuxing. Research on underwater target recognition[D]. Xi’an: Northwestern Polytechnical University dissertation, 2004.

[3] 余秋星, 李志舜. 舰船辐射噪声的特征提取方法[J]. 鱼雷技术, 2002, 10(6): 23-25.

YU Qiuxing, LI Zhishun. Characteristics extraction method of ship radiative noise[J]. Torpedo technology, 2002, 10(6): 23-25.

[4] 章新华. 基于小波变换的舰船辐射噪声信号特征提取[J]. 声学学报, 1997, 22(2): 139-144.

ZHANG Xinhua. Feature extraction of ship radiated noises based on wavelet tansform[J]. Acta Acustica, 1997, 22(2): 139-144.

[5] 王娜. 基于人耳主观反应的听觉特征量及其在目标识别中的应用[D]. 西安: 西北业大学硕士学位论文, 2009.

WANG Na. A feature extraction approach based on auditory properties and psychoacoustic model and its application in targets recognition[D]. Xi’an: Northwestern Polytechnical University dissertation, 2009.

[6] 何佳若, 曾向阳. 声信号的可视化特征提取方法[J]. 电声技术, 2011, 35(7): 61-64.

HE Jiaruo, ZENG Xiangyang. Method of extracting visualized features for sound signals[J]. Audio Engineering, 2011, 35(7): 61-64.

[7] Zwicker E, Fastl H. Psychoacoustics facts and models[M]. Spring Verlag Berlin Heidelberg, 1999.

[8] 洪继光. 灰度-梯度共生矩阵纹理分析方法[J]. 自动化学报, 1984, 10(1): 15-18.

HONG Jiguang. Gray level-gradient cooccurrence matrix texture analysis method[J]. Acta automatica sinica, 1984, 10(1): 15-18.

[9] ZENG Xiangyang, HE Jiaruo, MA Lixiang. Image representation of acoustic features for the automatic recognition of underwater noise targets[C]// GCIS, 2012.

Study of underwater targets recognition based on audiovisual feature integration

MA Li-xiang, ZENG Xiang-yang

(,,710072,,)

Feature extraction is one of the most important techniques of underwater targets recognition. Feature parameters directly determine the performances of classification systems. In this paper, a joint method which combines the auditory and visualized feature extraction methods is proposed and applied to underwater target recognition after feature selection and fusion. Experimental resultsshow that fusion features achieve a better performance than a single audio feature, and the enhancement of recognition rate is 4%~6%, and that the fusion of audio feature with gray gradient co-occurrence matrix and Gabor small wave exchange feature can obtain an even better performance and the recognition rate is over 87%.

underwater targets recognition; auditory feature; visualization; image feature; feature selection

TB561

1000-3630(2015)-03-0209-05

10.3969/j.issn1000-3630.2015.03.004

2014-02-11;

2014-03-20

国家自然科学基金(11374241)、陕西省自然科学基金(2012JM1010)资助项目。

马理想(1992－), 男, 安徽阜阳人, 硕士, 研究方向为声信号处理。

马理想, E-mail: malixiang1234@163.com