APP下载

基于形状特征的水声图像小目标识别方法

2021-04-28巩文静黄海宁

应用声学 2021年2期
关键词:声呐矩形形状

巩文静 田 杰† 黄海宁

(1 中国科学院声学研究所 北京 100190)

(2 中国科学院大学 北京 100049)

(3 中国科学院先进水下信息技术重点实验室 北京 100190)

0 引言

近年来,水下成像技术的日渐成熟为高分辨率水声图像的获得提供了可能,人工静止小目标的定位与识别技术得到了广泛研究[1−2]。由于目标成像受水下复杂环境、水底地形以及水介质特性的影响较大,所获得的水声图像存在噪声污染、边缘模糊等问题,因此目标识别过程存在一定阻碍[3]。尽管如此,在声呐设备获得的水声图像中,目标的形状特征仍然比较明显,形状特征作为描述目标的一个关键信息,在目标识别过程中发挥着重要作用,得到了国内外学者的广泛重视。

形状特征识别主要是利用目标或者周边阴影形状的几何特性。Dura 等[4]使用超椭圆曲线拟合算法,通过控制超椭圆函数的参数来拟合不同目标的阴影形状,从阴影部分的超椭圆函数中提取参数特征,以此实现对目标的分类,能够得到较高的准确率。Sinai 等[5]利用C-V 轮廓算法对目标及阴影区域分别进行分割,提取目标区域与阴影之间的距离、角度等几何参数作为特征,对合成孔径声呐(Synthetic aperture sonar, SAS)图像中的目标具有良好的识别效果。然而,随着声呐获取图像的角度、方位发生变化,目标的阴影形状会存在较大差异甚至不存在,通过阴影特征进行目标识别存在一定局限性。对此,Zhai 等[6]通过使用瑞利混合模型结合马尔科夫随机场直接对目标区域进行了分割,以此为基础得到目标轮廓,能够获取目标的形状特征。王喜龙等[7]利用水平集方法获得声呐图像中目标的大概轮廓,在此基础上使用支持向量机对目标进行识别,最终得到的识别准确率较高,应用范围较广,但是在相似物体的识别方面还存在一定的误差。此外,深度神经网络在目标识别中也发挥了重要应用,Williams[8]采用卷积神经网络对水下小目标进行识别,根据有无目标分为两类,分类效果较好。朱可卿等[9]使用深度神经网络的方法对高分辨率声图小目标进行识别分类,能够获得较高的准确率。

为了有效地抑制背景噪声,更好地提取目标的形状特征,进一步提高目标识别率,本文提出一种基于形状特征的水声图像小目标识别方法。该方法首先对水声图像进行非局部均值去噪,使用OTSU 算法对去噪后的图像进行阈值分割处理,大致分割出目标区域,再结合形态学处理获得精确的目标图像;然后提取目标区域的圆形度、矩形度和不变矩等形状特征参数,根据提取的特征参数构建特征向量;最后将特征向量输入随机森林分类器进行目标识别。该方法具有以下优势:首先,充分利用了OTSU 算法进行图像分割时自适应的特点,降低了运算复杂度;其次,提取目标的多项形状参数,可以实现对目标信息的全面描述,相比提取单一特征的识别方法具有更好的鲁棒性;再次,利用随机森林在目标分类中的包容性和在多维特征处理方面的优势,能够实现对目标形状的较好识别。通过与其他方法进行对比,验证了本文所提方法的可行性。

1 目标形态分割

水下成像技术的不断发展为高分辨率水声图像的获得提供了有力支撑。然而,受海水介质对声波能量的吸收作用以及水下环境、噪声、混响的影响,所获取的声呐图像存在干扰性强、细节模糊等问题[10],为了准确分析声呐图像中目标的基本信息和具体特征,需要对图像进行一定的预处理,同时选择恰当的算法对图像中的目标进行分割。

1.1 图像去噪

由于声呐设备等的制约,所获取的声呐图像存在混响,目标边界较为模糊。相比于现有的小波理论、二维经验模态分解(Bidimensional empirical mode decomposition, BEMD)等去噪方法,使用非局部均值(NL-means)方法对声呐图像进行去噪,充分利用图像中的冗余信息,在去除图像噪声的同时能够最大程度地保持图像的细节特征,抑制背景,突出目标。NL-Means去噪过程可以表示为

其中,ω(x,y)是一个权重,表示在原始图像I中,像素x和像素y的相似度。这个权重要大于0,同时,权重的和为1,即

其中,Ωx是像素x的邻域。对于每一个像素x,去噪结果为它邻域中像素y的加权和,权重为x和y的相似度,通常选取两个像素亮度值的差的平方作为相似度估计值。但是,由于噪声的存在,仅靠单独的一个像素容易产生较大误差,因此选取每个像素的邻域作为相似度比较块,通过计算两个邻域窗口之间的欧氏距离来判断邻域相似度,进而衡量像素相似度,具体执行过程如图1所示。其中,大窗口是以目标像素x为中心的搜索窗口,窗口越大,越容易找到相似像素;两个小窗口是以x、y为中心的邻域窗口。相似度计算分为3 个步骤,首先计算两个邻域窗口之间的欧氏距离,其次结合滤波系数计算所有权重的归一化因子,最后得到两个邻域之间的相似度[11]。

图1 算法执行过程图Fig.1 Algorithm execution process diagram

1.2 OTSU阈值分割

为了将目标从背景中区分开来,需要对图像进行分割。OTSU算法作为一种常用的阈值分割算法,具有自适应性,处理效率较高,在很多领域的图像分割和目标检测中具有重要应用[12−14]。

OTSU 算法使用聚类思想自动选取阈值,通过计算方差寻找一个合适的灰度级把图像灰度分成两个部分, 使得它们之间的灰度值差异最大[15]。若一幅图像有L个灰度级,C1是灰度级为[0,1,2,···,k]的像素集,C2是灰度级为[k+ 1,···,L −1] 的像素集,阈值为k,则最大类间方差σ2B(k)可以定义为

其中,P1(k)、P2(k)分别是一个像素点属于集合C1和C2的概率,

pi是灰度值为i时的概率密度;v1(k)和v2(k)为C1和C2的平均灰度;vG是全局均值,

基于以上理论,结合图像自身的灰度信息,能够自适应选取一个合适的阈值对图像进行处理,得到二值化分割图像,针对图像中存在的非连通区域,可以通过形态学原理进行处理,去除孤立杂点,得到精确的目标区域,图2为一个圆柱体的二值化分割效果图。

图2 圆柱体图像分割效果图Fig.2 Effect of segmentation of cylinder image

2 形状特征提取

特征提取就是在给定的目标集当中寻找其区别于其他目标的属性,使得不同类别之间的属性具有较大差异,根据目标差异性进行分类识别。形状特征、纹理特征、灰度特征等都是声呐图像的一般特征。通过观察大量样本目标发现,虽然声呐图像存在一定噪声污染,但是目标的形状特征较为明显,因此可以提取形状特征来进行目标识别。

2.1 最小外接矩形长宽比

目标轮廓的最小外接矩形(Minimum bounding rectangle, MBR)分为最小面积外接矩形(Minimum area bounding rectangle, MABR)和最小周长外接矩形(Minimum perimter bounding rectangle, MPBR),为了刻画目标形状特征及其对外接矩形的充满程度,选用最小面积外接矩形。对于形状规则的目标,可以直接计算目标所在坐标的最大、最小值,得到外接矩形。然而对于任意朝向的目标,水平和垂直方向不能准确刻画其尺寸和形状,为了得到最小外接矩形,通常需要在90◦范围内将目标图像等间隔旋转进行寻找。目标的最小面积外接矩形寻找过程如图3所示。

图3 最小面积外接矩形的寻找过程Fig.3 The search process of the minimum area bounding rectangle

通过记录目标轮廊在坐标系方向上的外接矩形参数来计算矩形面积,得到具有最小面积的外接矩形,从而确定目标的主轴和垂直方向上的宽度。得到最小外接矩形后,其长宽比可以定义为

其中,L、W分别为目标最小外接矩形的长和宽,长宽比反映了目标的细长程度,Q越大,目标越细长。

2.2 矩形度和圆形度

一幅大小为M ×N的二值图像的面积S可以表示为

即f(x,y)= 1 的像素点个数之和。目标的矩形度定义为

其中,A为目标最小外接矩形的面积,A=L·W。矩形度反映了目标对其最小外接矩形的充满程度,0

通过canny 算子提取图像的轮廓后,可以得到图像周长,定义目标的圆形度为

其中,C是目标周长。圆形度是目标面积与具有相同周长的圆的面积之间的比值,描述了目标图像和圆形的偏离程度。当目标为标准圆形时,P= 1;目标为其他形状时,P >1;P越大,目标与标准圆的区别越大。

2.3 Zernike矩和Hu不变矩

声呐与目标之间的相对运动可能会导致目标图像发生变化,而不变矩在旋转、平移或者尺度变化方面具有不变性,因此不变矩也可用作形状特征量,适用于图像匹配、形状分析、模式识别等领域,常用的不变矩有Zernike矩和Hu不变矩。

Zernike 矩定义在单位圆内,具有旋转不变性,是一种正交矩,低阶矩能够描述目标整体形状,所提取的特征相关性较小,抗噪能力较强,可以构造任意高阶矩来描述图像细节[16]。对于二维函数h(x,y),其n阶m次矩定义为

其中,∗表示共轭,Vn,m为Zernike 多项式,具体求法可见文献[17],n −|m|为偶数,并且|m|n,为了衡量Zernike矩对图像特征的表达能力,可以利用它对图像进行重建,根据重建效果选取合适的阶数。以一个矩形二值图像为例,分别使用5、10、20阶Zernike矩特征对目标区域进行重建,效果如图4所示。由图4可见,10阶和20阶Zernike矩均能反映目标图像的形状特征,综合考虑重建效果和计算量,提取的Zernike 矩为10阶,共36个不变矩。

图4 目标重建效果图Fig.4 Effect of target reconstruction

Hu 不变矩也是一种典型的不变矩,可以描述图像的面积、主轴、角度等整体特征,在描述目标总体形状方面具有重要应用[18−20]。若目标轮廓的灰度为f(x,y),那么其a+b阶矩为cab,a+b阶中心距为µab,其定义为

其中,γ= (a+b)/2+1。利用式(14)可以得到Hu不变矩I1∼I7,共7个不变矩[21]。

构建特征向量F=[Q,R,P,I,Z],其中,Q、R、P分别为目标轮廓的最小矩形长宽比、矩形度、圆形度特征参数,I为目标轮廓的Hu不变矩(共7 维),Z为目标区域的Zernike 不变矩(共36 维)。特征向量的构成及维度如图5所示。

图5 特征向量构成示意图Fig.5 Schematic diagram of feature vector composition

3 目标识别实验

3.1 数据集

使用水下实测图像和根据水下环境生成的仿真图像进行目标识别实验,仿真及实测数据集如图6所示,图像中目标的形状可大致分为球状、柱状、线状3 类。实验使用样本总数为940 个,其中实测样本70 个(球状样本20 个,柱状样本18 个,线状样本32 个),仿真样本870 个(球状样本300 个,柱状样本270 个,线状样本300 个)。仿真样本的仿真参数如下:球状目标(直径53 cm),柱状目标(直径53 cm,高290 cm),线状目标(直径10 cm,高450 cm)。实际样本的数据获取条件:合成孔径声呐图像,试验地点为千岛湖。在进行图像处理之前统一将图片像素大小调整为256×256,并将图像转化为灰度图。

图6 仿真及实测数据集Fig.6 Simulation and measured data set

3.2 仿真数据合理性分析

本文使用的仿真图像由三维建模软件建模得到,形状较为规则。为了进一步衡量仿真图像与实测图像的相似性,说明使用仿真图像进行实验的科学性和合理性,随机选取球状、柱状、线状的仿真图像和实测图像各10 幅,分割出目标区域,提取目标的46维特征。使用主成分分析(Principal component analysis, PCA)方法将目标的46维特征降为2维,并显示在坐标平面上,如图7所示。

图7 仿真图像与实测图像相似性分析Fig.7 Similarity analysis between simulated images and measured images

在图7中,球状、柱状、线状样本分别用红色、绿色、蓝色几何形状来表示,其中,仿真样本用空心正方形表示,实测样本用空心圆形表示。由图7可以看出,球状、柱状、线状的实测样本与其对应的仿真样本能够较好地聚在一起,且不同类别的样本之间具有较好的区分。

此外,实心正方形和实心圆形分别表示仿真样本和实测样本的中心点,由式(15)计算得到:

其中,(x1,y1), (x2,y2), …, (xn,yn)为同一类样本中的n个样本点。

为了进一步衡量仿真样本对于实测样本的泛化性,将仿真球状样本、实测球状样本、仿真柱状样本、实测柱状样本、仿真线状样本、实测线状样本的中心点的坐标分别记为E1、E2、E3、E4、E5、E6,计算各中心点之间的欧式距离,计算结果如表1所示。

表1 仿真图像与实测图像样本中心点间的欧氏距离Table 1 Euclidean distance between the center point of the simulated images and the measured images

由表1可以看出,对于仿真球状样本中心点来说,其与实测球状样本中心点之间的距离小于与其他任何样本中心点的距离。同理,仿真柱状样本中心点与实测柱状样本中心点、仿真线状样本中心点与实测线状样本中心点之间的距离最小,由此可见对于同类别的样本来说,仿真样本与实测样本具有较好的相似性。

3.3 实验过程及结果

第一步,对目标图像进行去噪。以其中一个柱状目标图像为例,选用大小分别为1×1、3×3、5×5和3×3、7×7、9×9 的邻域窗口d和搜索窗口D对其进行非局部均值去噪处理,不同窗口的去噪效果如图8所示。

图8 不同窗口去噪效果图Fig.8 Denoising effect of different windows

考虑到实际的去噪效果和运算成本,本文对图像做非局部均值去噪时,选择的邻域窗口大小为3×3,搜索窗口大小为7×7。

第二步,对目标进行形态分割处理。采用OTSU算法将去噪后的图像进行二值化处理,由于分割后的图像中除了含有比较完整的目标形态外,仍然含有噪声等部分杂点,因此紧接着对分割后的图像做形态学处理,利用面积开运算将二值图像中少于20个像素的8 连通分量删除,在此基础上对二值图像不断进行去除毛刺处理,直到图像不再发生变化,从而得到精确的目标形态。

对几类不同目标进行形态分割处理,效果如图9所示。

图9 3 类目标的形态分割处理Fig.9 Morphological segmentation of three types of targets

第三步,提取分割后的目标图像的形状特征。根据2.1 节中所述寻找目标的最小外接矩形之后,得到最小外接矩形的长宽比特征Q。通过计算目标的轮廓周长、目标面积及其最小外接矩形面积,提取目标的矩形度特征R和圆形度特征P。图10为部分实测目标及其轮廓和最小外接矩形,表2为几种目标的部分样本及特征参数。

图10 实测目标及其最小外接矩形图Fig.10 The measured target and its minimum circumscribed rectangle

表2 部分目标样本及特征参数Table 2 Some target samples and characteristic parameters

由于几类目标在形状上有所差异,形状参数有较大区别,因此基于形状参数可以对目标进行较好的区分。接下来提取目标的Hu 不变矩(共7个不变矩)和10阶Zernike矩(共36个不变矩),将目标的多个形状参数构建特征向量。目标图像集的样本容量为T,第t个样本的特征向量为Ft=[Qt,Rt,Pt,It,Zt],共46个维度。

第四步,使用随机森林分类器对目标的特征向量进行分类识别。随机森林由若干颗决策树构成,实验过程中设置决策树的数目为20颗,每个节点的最少训练样本数为10,树的深度由交叉验证的方式得到。决策树在建树过程中,选用基尼(Gini)系数作为分裂规则,其核心是最小化不纯度。接下来随机选取样本集中的80%作为训练集对模型进行训练,将其余的20%作为验证集进行测试,实现对目标形状的识别。

完成对仿真图像的识别后,在仿真图像中分别加入方差σ=0.01、σ=0.04、σ=0.09的高斯噪声,对加噪后的图像再次进行识别,实测样本采取同样的处理方法,实验结果如表3所示。

从表3可以看出,仿真样本的识别率较高,在加入方差为0.09 的高斯噪声后仍达到97.7%的准确率,能够取得很好的效果。对实测样本进行识别时,识别率要略低于仿真样本,原因可能是水下环境较为复杂,噪声、混响对水声图像的质量具有不可避免的影响,导致最终获得的目标区域形状在一定程度上发生畸变,使得识别准确率有所降低,但是最高也能达到82.9%,具有较好的效果。

表3 不同噪声下识别准确率Table 3 Recognition accuracy rate under different noises

3.4 方法比较

本文将该方法与基于水平集和不变矩的识别方法、使用支持向量机(Support vector machine,SVM)分类器的识别方法进行了比较。对原始水声图像进行去噪和分割处理后,分别进行如下操作:(1)利用水平集提取目标轮廓,得到Hu不变矩结合随机森林分类器进行识别;(2)按照本文方法提取目标特征,使用SVM 分类器进行识别;(3)按照上述实验过程,利用目标的形状特征和随机森林的方法进行识别。实验结果如表4所示。

表4 不同方法识别准确率Table 4 Recognition accuracy rate of different methods

由表4可见,对仿真样本来说,本文提出的方法相较于其他两种方法识别准确率分别提高9.9%和3%,实测样本识别率分别提高14.2%和2.9%。结果表明,本文提出的方法能够充分利用目标信息,与其他方法相比具有更高的识别率。

4 结论

本文利用水声图像中目标的形状特征,实现了完整的目标识别过程。经过图像处理和形态分割后,目标区域的形状较为清晰,提取目标区域的多个形状参数作为特征向量,输入随机森林分类器对目标进行识别。通过加入不同程度的高斯噪声和与其他方法进行对比,最终的结果表明,本文使用的基于形状特征的目标识别方法能够抑制背景噪声,较好地满足水下目标识别效果的要求,在识别准确率上相较于其他方法具有一定优势,对于手形、动作、交通标志等其他领域的图像识别具有一定参考价值。

猜你喜欢

声呐矩形形状
挖藕 假如悲伤有形状……
探索大洋的“千里眼”——声呐
一种便携式侧扫声呐舷侧支架的设计及实现
两矩形上的全偏差
声呐
化归矩形证直角
你的形状
从矩形内一点说起
看到的是什么形状
COTS技术在声呐装备中的应用