水面目标辐射噪声一维音色特征分析∗
2019-05-07罗夏云
夏 雪 罗夏云
(1.91388部队41分队 湛江 524000)(2.海军工程大学 武汉 430000)
1 引言
目标识别是现代海战中的重要环节,主要通过声纳员听声辨识或者机器识别实现。由于水下环境的复杂性以及目标声学特征的多变性,实际上在现阶段,水下目标的识别主要依靠声呐员听音并结合谱图进行分析判断[1]。
声纳员对目标的听音判断主要是从心理声学角度进行的,主观上,人可以感觉声音的响度、音调和音色[2]。对于能够定量描述的响度和音调,已经在水下目标识别的研究中取得了一定的进展,但这两类特征不能完全反映人耳主观感知不同声音信号的差别程度,并且非常依赖于样本的选取[3]。
音色目前主要用于评价语音和乐音的声品质,它囊括了除音调和响度外的所有的声音主观属性,无法用一维尺度定量表述[4]。目前已参数化的听觉感知特征主要分为频域特征和时域特征两类[5],前者包括谱质心、谱通量、谱下降值等;后者包括时域质心,零交点比率、上升时间、下降时间等[6]。上述这些具有明确听觉感知含义的信号特征已被应用于乐器和语音识别中。1999年,Mcadams等发现利用谱结构中的包络特征可以区分乐器声[7];2000年,Eronen等利用共44维的谱特征和时域特征实现对乐器的音色识别[8];随后,Brown等在2001年利用多维倒谱特征识别木管乐器达到75%,利用一维谱质心识别木管乐器达到50%[9];2003年,Giulio等利用谱质心、谱质心带宽、不和谐性和谐波能量的偏斜度实现了对乐器的音色识别[10]。
对于音色属性的建模,是模仿听觉特征提取水面目标辐射噪声特征量的主要途径。水面目标辐射噪声主要包括螺旋桨噪声、机械噪声和水动力噪声,其中螺旋桨噪声是主要噪声[11]。本文从音色特征的物理含义出发,提取水面目标辐射噪声音色特征[12],将提取的音色特征用于目标识别上,结果表明,音色特征在水面目标辐射噪声的识别上有良好的效果。
2 音色特征量
音色特征量在这里指听觉感知特征中的频谱特征,主要包括谱质心、谱质心带宽、谱不规律性和谱下降值,下面分别阐述其物理意义和计算方法。
2.1 音色特征量的计算方法
1)谱质心(spectrum centroid,SC)是描述音色属性的重要信号特征之一,它是描述声音信号的频率分布和能量分布的信息,当声音集中在高频时,声音明亮清晰、有光泽,相反在低频,声音暗、闷、不美。谱质心的物理含义是声音能量集中的区域,在频率分析范围内,将谱能量函数看成是频率的概率密度函数,谱质心便是频率的一阶矩。
计算公式为
E(n)为信号x(n)经过DTFT变化后所对应频率的谱能量,f(n)为x(n)经过DTFT变化后对应的频率,N为DFT长度,P(E(n))为每个频率对应的能量相对于总能量的概率值,SC为信号的谱质心。
2)谱质心带宽(spectrum centroid bandwidth,SCB)指声音能量集中的频带宽度,即在[S C,fmax]内的谱质心与在[0,SC]内谱质心之间的差值,主要反映了声音能量集中的区域。
计算公式为
SChigh为[S C,fmax]内的谱质心,SClow为内的谱质心。
3)谱下降值(spectrum roll-off,SRO)反映频谱的倾斜程度,在语音学领域,一般用来区分嗓音和非嗓音,也可以用来区分高频的和敲击的瞬时声音。反映了声音能量开始下降时所对应的频率点。SRO定义为功率谱累计的幅度在C以下的频率值。C按经验值取0.85或者0.6。
计算公式为
4)谱不规律性(spectrum irregularity,SI)反映了包络谱的形状,是一个复音在频谱上相邻分音的幅度差程度的函数。因此,大幅度差值产生凹口包络,而较小差值则产生较平滑包络。
计算公式为
2.2 试验分析
采用A,B,C三类实测水面目标辐射噪声数据进行特征提取,均采用标准水听器录制,采样率为44100Hz,三类水面目标辐射噪声信号各选用120个样本,所选用的噪声样本都是在不同的工况以及海洋环境下录制的,每个信号长度为5s,特征提取前对信号进行降采样处理,降采样后的采样率为8820Hz。
从听音的角度来看,A类水面目标辐射噪声平稳,螺旋桨击水“哗哗”声清晰,并伴有“啪啪”声,听起来比较轻快、明亮,谱质心的值较高;C类水面目标辐射噪声有较强的“咕噜咕噜”声,轻微的螺旋桨划水声,听起来比较沉闷,所以谱质心的值较低;B类水面目标辐射噪声听起来音色介于A,B之间,谱质心的值也应该介于两者之间。从图1(a)可以看出,A目标信号的谱质心值最高,C目标的谱质心值最低,B目标的谱质心值介于两者之间,实验得到的结果与听音判断的结果吻合,理论结合实测数据说明谱质心可作为分辨三类目标的音色特征。谱质心带宽是高于谱质心的频带内的SC与低于谱质心的频带内SC的差值。图1(b)中,三类目标的谱质心带宽有少部分重叠在一起,C类目标的谱质心带宽最高,B类目标的谱质心带宽最低。
谱不规律性主要是用来描述包络谱的形状,通过研究发现,信号能量越大谐波次数越多,则谱不规律性的值越小,表示信号中的噪声特性越明显,越不具有规律性。图1(c)中看出,三类目标的辐射噪声计算得到的谱不规律性的值相互交叠在一起,B类目标的SI比A和C类目标的SI稍大,而A和C类目标的SI基本上一样,利用谱不规律性不能很好地区分三类目标。
图1 音色特征
谱下降值在语音学中主要被用于区分嗓音和非嗓音,用来描述频谱的倾斜程度。运用到水面目标辐射噪声中来主要是描述功率谱的幅度累积在C以下的频率值,C一般取0.85或者0.6,在本文中取C=0.85。图1(d)中A目标的谱下降值与B、C目标能够区分开,而B、C目标的谱下降值有部分叠加在一起,无法区分开。所以采用谱下降值在一定程度上能够对三类目标进行区分。
3 结语
本文将音色特征应用于水面目标辐射噪声的特征提取,描述了音色特征参量的物理含义和计算方法,对试验数据进行分析得到如下结论:谱质心、谱质心带宽、谱下降值能够对目标进行一定程度地区分,谱不规律性则不能很好地区分目标。
本文通过实测数据证明了对水面目标辐射噪声进行音色分析能够对其进行有效区分,在此基础上,音色特征与水面目标辐射噪声音质属性的关联程度,所反映的人耳的主观听觉感受,有待于进一步的深入研究,为目标机器识别和人耳识别相结合奠定基础。