基于视觉的水雷目标识别方法研究

2012-01-08苗锡奎许以军吴清潇郝颖明任申真

海洋工程 2012年4期

苗锡奎，朱枫，许以军，吴清潇，郝颖明，任申真

(1.中国科学院沈阳自动化研究所，辽宁沈阳 110016;2.中国科学院研究生院，北京 100049;3.中国科学院光电信息处理重点实验室，辽宁沈阳 110016;4.辽宁省图像理解与视觉计算重点实验室，辽宁沈阳110016)

基于视觉的水雷目标识别方法研究

苗锡奎1，2，3，4，朱枫1，3，4，许以军1，吴清潇1，3，4，郝颖明1，3，4，任申真1

水下目标识别一直是目标识别领域的研究热点，为此，以水雷目标识别为需求背景提出了一种基于视觉的水雷目标识别方法。该方法从水雷目标形状的本质特征出发，根据几何矩的物理意义，结合区域特征和边界特征构造了三个适合于水雷目标形状描述子，采用阈值判决的方法，实现水雷目标的识别。实验结果表明，该方法比基于不变矩的方法识别率更高，具有较好的稳定性，尤其适用于水下特定形状的目标识别和目标受到部分遮挡的情况。其中水下图像处理和特征的定义方法对水下目标识别具有指导和借鉴意义。

水下机器人;水下图像;目标形状;不变矩;水雷识别;视觉

水雷按其在水下的状态大致分为:锚雷、沉底雷和掩埋雷，对于不同类型的水雷，应选择不同的识别方案。利用计算机视觉的方法可以对锚雷和沉底雷进行识别，而且具有其它方法所不能比拟的优点:直观、信息量大、处理方法多样等［1］。其一般过程是利用摄像机并配合远距离光源(水下辅助照明设备)对目标进行成像，通过图像处理，提取出目标特征，采用模式识别的方法完成识别任务。

基于视觉的水下目标识别方法关键是选择具有稳定性的目标图像特征。机器人在水下运动的过程中，因为水下环境恶劣及其在运动过程中姿态的变化，摄像机拍摄到的图像质量往往比较差，与理想图像之间存在一定的差异。然而，水雷目标的形状却有较好的稳定性。另外，机器人本体离目标距离的远近以及在不同方位对目标进行成像都会造成目标区域形状的平移、旋转、比例缩放等变化。因此需要寻找一种具有平移、旋转和比例不变性的图像特征提取方法，以满足实际应用的需要。

在本应用中，通过采集的大量水雷目标图像发现目标形状特征具有较好的稳定性。而基于形状的目标识别方法有利用目标的不变矩特征完成识别，如文献［2］利用几何矩的方法构造了Hu矩，该矩具有平移、旋转、缩放不变性。文献［3］提出了边界矩，加快了矩的计算速度;文献［4］提出了基于归一化Zernike矩和伪Zernike矩的二值化商标图像的识别方法，利用0－5阶共21个低阶矩完成商标图像的识别，识别率为0.91;文献［5］利用小波矩结合神经网络的方法完成高压输电线路除冰机器人三种障碍物的识别，平均识别率达到0.92;文献［6］利用局部小波矩来表征三维目标的形状特征，有效地应用于易混淆三维目标识别中。然而这些识别方法中的图像样本一般都是来自图像质量较好的样本图像库，噪声较少。而这样高质量的目标图像，在实际中是很难获得的。尤其是水下目标图像，经常会伴有各种噪声。文献［7］利用Hu矩构造了新的不变量，完成了水下4类目标的识别。但该4类目标成像后十分清晰，而且没有考虑遮挡问题，最高识别率为0.94。这些不变矩特征虽然在其各自的应用背景下具有很好的效果，但对水下目标识别来说，由于水下成像质量差，对比度低，噪声复杂和受遮挡等问题，以上不变矩特征并不适用于本应用，所提取的水下目标不变矩值变化较大。因此有必要针对水下目标图像特点开展深入研究。

以水雷目标为应用对象开展水下目标识别方法研究，建立了水下目标识别实验平台，采集了水雷目标模型的实际水下图像，提出了新的目标形状描述子。通过对特征描述子的特征值做阈值判决来完成水雷目标识别，用以克服水下不确定性因素给目标识别带来的困难。实验结果表明该特征能很好地表征水雷目标的形状特征，针对水雷这样的目标具有较好的稳定性，识别率高达0.94以上。该方法不需要结构约束，比较简单。而且在目标提取的同时就可以完成特征值的计算，避免了花费大量时间来计算目标的不变矩值，因而实时性较高。该方法可有效地应用于水下目标识别。

首先介绍建立的水下目标识别实验系统平台;在此基础上详细描述了水下目标图像处理与目标识别方法，重点阐述了水雷目标形状描述子;最后给出了实验结果与分析;研究工作的重点是水雷目标特征提取及识别。

1 水下目标识别实验系统介绍

文中的水雷目标识别系统搭载在水下机器人(AUV)上。作为一个水下目标识别系统［8］，该系统主要包括远距离光源(水下辅助照明设备)，摄像机，嵌入式系统，其它辅助硬件设备等如传感器等，如图1所示。其中光源和摄像机位于水下机器人(AUV)舱外，嵌入式系统和辅助硬件设备均位于舱体内部。其工作原理:水下机器人在运动过程中，安装在其上的CCD摄像机借助于水下辅助照明设备，实时采集视野范围内的图像信息。通过嵌入式系统和辅助硬件将其转化成数字图像保存到大容量的磁盘中，同时利用图像处理、分析等方法获取当前图像中目标特征，借助模式识别的方法对图像中目标所属类别进行判决。

水雷目标识别基本流程:1)水下图像信息采集;2)对采集到的图像做预处理;3)利用Otsu算法对预处理后的图像二值化，得到目标形状;4)利用文中提出的水雷目标形状描述子表征目标，并利用阈值判决的方法完成目标识别。

2 图像分割

水下成像与大气中成像有很大的区别［9］，水体对光具有选择吸收作用，同时不同波长的光在水中衰减的速度也是不同的。而且水体对光的散射作用［10］导致图像对比度下降、噪声增强、图像质量退化严重。而且还会导致背景中出现强亮度点，这些亮点往往与目标区域掺杂在一起，增加了图像处理和目标识别的难度。为了准确地从采集到的水下图像中将目标分割出来，在图像分割前，必须对图像进行预处理。图2是三幅水下机器人采集到的水下目标模型图像，从中可以看到水下图像的对比度都较低，图像中目标边缘模糊，噪声严重。此外受到光照条件的影响，图像的清晰度差别较大，存在明显的灰白效应。

图1 水下目标识别实验平台Fig.1 Underwater object recognition system

图2 水下图像噪声Fig.2 Noise of the underwater images

2.1 图像预处理

在图像分割前，对水下图像做了预处理。首先对彩色图像做灰度化处理;其次对灰度图像做高斯滤波;最后对滤波后的图像做形态学处理。

彩色图像灰度化主要是为了消除颜色信息，在实验过程中发现将彩色图像转换成灰度图像的效果并没有直接从三个通道中仅取出R通道的效果好。而且通过后面的实验也证实了这一点，单独提取R通道作为灰度图像;高斯滤波主要是为了消除水粒子散射的影响，模糊掉图像中的水纹噪声;形态学处理(腐蚀、膨胀)主要是为了消除背景区域中散布的一些小噪声物体和强亮度点。预处理之后，去除了很多干扰噪声。虽然图像变得模糊了一些，但是图像中目标形状区域内部像素值的差异大大减少，这样将有利于图像的二值化。同时在实验过程中还发现，识别前期的图像预处理在整个识别过程中起到了十分重要的作用。如膨胀和腐蚀的结构元参数选取的不好，将会造成后面步骤的分割中出现一些杂乱的小目标。通过对机器人水池实验采集到的水下目标图像进行以上步骤的预处理，得到的图像质量满足后续的目标识别任务要求，表明所采用的图像预处理方法是有效的。由于篇幅的关系，在这里不作详细介绍。

2.2 图像二值化

如何将水雷目标从图像中准确地分割出来，对于目标特征提取与识别起决定作用。如果用边缘检测的方法提取目标的边缘轮廓，则得到的目标轮廓形状随着采集图像的环境和目标状态的变化会发生显著的变化，而且最关键的是边缘提取的阈值不能做到自适应。分析其原因，主要是因为水下环境变化剧烈，即便目标距离变化很小，得到的图像相差也很大。另外由于水中固有的后向散射噪声、亮点及水雷目标上的一些杂物都会使边缘检测结果相差很大。这样会使目标特征变得不稳定，不能很好地反映水雷目标的形状，图3(a)所示为水雷目标模型边缘检测效果图。相反阈值分割在这种情况下提取的目标表现出良好的稳定性，见图3(b)所示为水雷目标模型阈值分割效果图。

使用Otsu自适应阈值算法［11］(最大类间方差法)选取最佳的阈值来二值化图像。通过对不同环境和目标状态下采集的图像做Otsu自适应阈值分割，分割出的目标轮廓比较统一，具有很好的稳定性，而且基本不受外界环境的影响(包括目标状态)。分析其原因，主要是因为阈值分割不会像边缘检测那样对灰度变化那样敏感。结合图像预处理中的滤波技术和形态学处理，可以很容易地去除噪声得到比较满意的目标图像。更重要的是，可以根据环境的不同自适应地确定分割的阈值。限于篇幅，此处仅列举一例。但实验证明，利用该方法不仅能够得到较为稳定的目标轮廓，而且抗噪性能强，计算代价小，实时性能高。本方法也为研究者关于水下目标提取提供了一定指导和借鉴意义。

图3 边缘检测和阈值分割Fig.3 Edge detection and threshold segmentation

3 目标识别

在水雷目标识别过程中，最重要的步骤就是特征表示与提取。迄今为止，已经有很多文献对这个问题进行了分析研究［12］，但是还没有统一的解决方法。特征选取的好坏将直接影响到识别方法的识别率。为此，使用形状描述子，根据几何矩的物理意义，并结合本应用中水雷目标自身特征和成像后特征，利用区域特征描述和边界特征描述相结合的方法构造了三个新的水雷目标特征来表征水雷形状。

3.1 目标特征选择

纹理、颜色和形状是图像基本的视觉特征。由于水下成像环境比较特殊，从采集到的水下目标图像来看，水雷目标纹理比较弱，尤其是水下的背景环境纹理更弱，基本成黑灰色。而且颜色信息在水中的衰减速度很快，两次拍摄水雷目标前后距离仅相差10 cm这样的数量级时，目标颜色和背景在两幅图像中的变化很大。因此关于水雷目标识别所选用的特征应该首先排除纹理和颜色，故而选择了形状特征。实际上选择形状特征也有很多优点:1)水雷目标的形状特征能够很好地描述水雷目标固有的特征;2)水雷目标在成像时其形状特征具有一定的稳定性;3)非水雷目标与水雷目标的形状相差很大。

3.2 几何矩

对于一幅给定的数字图像，其亮度函数为f(x，y)，定义它的p+q阶几何矩为如下积分形式:

p+q阶中心矩定义为:

矩特征有着明确的物理和数学意义，根据其定义形式，零阶矩反映了目标的面积，一阶矩反映了目标的质心位置，因此利用这两个矩量就可以避免因目标大小和位移变化对目标特征的影响。二阶矩又称为惯性矩，与一阶矩和零阶矩共同构成了目标的低阶矩。低阶矩所反映的目标特征可以用图像椭圆来表示，如图4所示。对于二值图像而言，图像椭圆的面积和二阶矩均与目标的面积和二阶矩相等，该椭圆的主轴方向角φ与椭圆的长轴长a、短轴长b能反映目标形状特征，具体计算如下:

图4 目标图像椭圆Fig.4 Image ellipse of the object

Hu矩、Zernike矩、伪Zernike矩和小波矩等不变矩都是在几何矩和中心矩的基础上发展起来的，而且具有平移、旋转、缩放不变性。下面定义的目标特征描述子正是基于目标形状的本质特征，结合几何矩的物理意义而定义的。

3.3 目标特征描述

通过采集大量的水雷目标模型图像，总结了水雷模型形状所具有的典型特征:

1)水雷目标固有形状为一圆柱体，柱体母线长度比两条母线之间的距离大的多，且两条母线平行，在成像之后将利用该特征构造水雷目标模型所独有的特征。

2)水雷目标成像后，无论是锚雷还是沉底雷，经过目标提取，目标区域呈狭长状，可近视为长方形，即近视为一柱体成像，长和宽的比例一般大于1.5。这主要是由水雷目标固有的形状特征决定。

3)成像后水雷目标轮廓上有一对接近平行的对边，而且这对对边比另外一对对边长的多，在这对对边上相应点处曲率大体上相等而且较小。曲率在一个范围内波动变化，接近直线的曲率0。由于水下环境的恶劣和成像过程的摄影变换，另外一对对边不具有这样的性质。一般另一对边由于受到环境和遮挡等原因不能完整地提取出来。

3.4 目标特征定义与识别

Hu矩中有7个不变矩，但这7个矩都是由低阶(二阶和三阶)归一化中心矩的乘法、加法、减法的非线性组合构成，不能很好地描述水雷目标的形状特征。为了更好地描述水雷目标形状特征，根据几何矩的物理意义(见3.2小节)，并结合本应用中水雷目标本身和成像后特征，利用区域特征描述和边界特征描述相结合的方法构造了三个新的水雷目标特征。这三个特征能够很好地表征水雷的形状，而且这三个特征矩也具有平移、缩放、旋转不变的特性。

目标长宽比E:图像低阶矩具有稳定性，反应目标整体特征。利用图像目标椭圆长轴与短轴之比定义长宽比特征E，定义如下:

该特征可以很容易地将长条形目标与非长条形目标区分开;能将紧凑型与非紧凑型目标区分开。该特征描述子也正是基于矩的物理意义定义的。在本应用中，当E大于1.5时，表明目标形状是狭长形的。

目标矩形度R:利用相应的算法求出目标轮廓的最小外接矩形，用目标的面积与其最小外接矩形的面积之比来定义矩形度特征。它反映目标对其最小外接矩形的充满程度，即R=Sobj/Srec。Sobj为目标的面积，即目标的零阶矩m00，Srec为目标最小外接矩形面积。R的值在0～1之间，当目标为矩形时，R取得最大值1.0;当目标为圆形时，R取值为π/4;细长且弯曲的目标，R的取值变小。该特征能够将很容易地将矩形(包括正方形)目标与其它形状目标区分开。

较长对边夹角C:根据3.3小节中的3)所描述，较长对边上相应点处曲率大体上相等而且较小，接近直线的曲率0。那么就可以用较长对边上轮廓点拟合两条直线段，两条直线段的斜率在一个范围内波动变化，即两条对边接近平行。为此，定义了较长对边夹角特征。沿长轴方向上且过图像椭圆中心的直线L将水雷目标轮廓的边缘点分成两部分，上部和下部，用S1、S2分别表示这两部分边缘轮廓上的点集。将直线L渐近平行向上移动，当S1集合中在该直线以上的点的数目占S1集合总数目的80%(可调)时，停止移动，用T1表示S1中在该直线上方的点集合;同样将直线L渐近平行向下移动，当S2集合中在该直线以下的点的数目占S2集合总数目的80%(可调)时，停止移动，用T2表示S2中在该直线下方的点集合。用最小二乘方法或随机抽样一致性方法对T1和T2集合中的点拟合两条直线段L1和L2。判断L1和L2是否接近平行，同时拟合的两条直线段也要足够的长，比如L1和L2两条线段的长度都要大于一定的阈值(长度至少要大于椭圆短轴长的1.5倍)。利用该特征可以很容易地判断出在目标椭圆长轴方向上目标是否具有一对较长且接近平行的对边。

长宽比特征是一种无量纲，对尺度变化不敏感，其计算显然与平移、旋转、缩放无关;在计算矩形度特征时，使用的是两个面积相除的方法，没有量纲，显然具有平移、缩放、旋转不变性;对于较长对边夹角特征，经过二值化后得到的目标边缘并不是很光滑，带有锯齿状。这里使用了适当大小的模板对其进行中值滤波以便使边缘变得光滑，但并不影响目标的整体形状特征。轮廓边缘变得光滑后，拟合的直线将更加准确。当目标发生旋转和平移时，边夹角的计算没有改变。因此该特征与旋转、平移无关。当目标发生尺度缩放时，由于计算边夹角，拟合直线选用的是两对边上的点，与目标尺寸大小并无关系。因此对缩放也具有不变性。

目标长宽比和矩形度两个特征还不能完全表征水雷目标所具有的特点，例如有些弯状长宽比和矩形度都较大，但是其较长对边夹角超过一定的阈值，对边不平行，故不能判决为水雷目标。这里又选择了较长对边夹角这一特征来提高识别率。

由于本方法重点关注的是目标特征的表示与提取，对于分类器的设计，这里仅仅使用了阈值判决的方法完成目标分类。即统计上文定义的三个目标特征的阈值，以此作为依据来判断目标是否是水雷目标模型。

4 实验结果

为了验证所提出方法的有效性，设计开发了实验托体(水下目标识别实验平台)。在实验水池中放入水雷目标模型实体，在不同光照、不同水深以及不同位姿等条件下进行了多次水下目标图像采集和目标识别实验，识别率高于94%，验证了本方法的可行性和有效性。

4.1 实验条件

实验中，光源和视觉摄像机垂直安装在机器人舱外，所获取的图像大小为640×480。针对水雷目标模型，采集了大量的水下图像。具体如下:机器人本体离目标距离范围设置为1～3 m，每0.1 m作为一个距离段，共计30处位置;在每一处水平方向分别以大约45°为步长旋转8次，在垂直方向分别以小于30°正向和逆向旋转2次，共16次;然后再变化水雷的状态，目标完整成像，部分成像和受到部分遮挡3种状态，共拍摄图像1 440幅。

4.2 目标特征阈值的确定

通过上文的方法已经能够完成水下目标特征的表示与提取，结合采集的大量水雷模型样本图像，利用实验统计的方法确定水雷目标模型三个特征量的阈值。即同时满足以下三个条件的目标视为水雷目标模型:1)目标的长宽比E大于1.5;2)目标上较长对边夹角C小于10°(即有一对接近平行的较长对边);3)目标矩形度R大于0.75。将所提取到的水下目标三个特征值与相应的阈值作比较即可判断出该目标是否为水雷目标模型。

4.3 实验结果及分析

针对4.1节所采集的图像，按照上面小节所介绍的方法首先进行图像预处理;然后自适应阈值分割，对分割出的目标计算三个新特征值;最后做阈值判决进行目标识别，识别率为94.85%。由于篇幅的限制，本节选取了典型的目标图像，如图5所示。表1列出了图5所示目标图像的三个特征值，同时在实验中也考虑了在图像中存在多个虚假干扰目标的情况，如图6所示。表2列出了虚假干扰目标的三个特征值的大小，已与各特征值的阈值做了比较，其中圆状目标和弯状目标没有特征C，具体见表中的各特征值。

图5 目标两端受遮挡、噪声、缺失等影响Fig.5 The two ends block，noise or missed

表1 水雷目标各特征值Tab.1 Mines object feature values

图6 水雷目标和虚假目标Fig.6 Mine objects and false objects

另外为了对比本方法在水雷识别上的优势，针对应用中的目标图像，将本方法的识别率与基于不变矩(Zernike矩、伪Zernike矩、小波矩)方法的识别率进行了比较，如表3所示，实验中所用图像采集条件同上。从表中可以看出基于不变矩的方法识别率之所以低主要是因为目标受到噪声的干扰和部分的遮挡，所提取的目标细节发生了较大变化，而且存在的一些虚假目标，使全局矩值变化较大。

表2 虚假目标各特征值Tab.2 Feature values of false objects

表3 水雷模型各方法的识别结果Tab.3 Mine models recognition results of four methods

5 结语

水下图像质量差，目标状态的改变和部分遮挡的存在都给水下目标识别增加了难度。基于水雷目标形状的本质特征，根据几何矩的物理意义，利用区域特征描述和边界特征描述相结合的方法构造了三个适合于水雷目标形状描述子，提出了一种新的水下目标识别方法。方法首先采用Otsu方法对预处理图像做阈值分割，然后提取目标的三个特征值，采用阈值判决的方法，完成识别任务，其识别率高于基于不变矩的方法。该方法为水下目标识别问题提供了一种新的解决思路，对水下目标识别具有一定的指导和借鉴意义。由于水雷目标形状各异，而本方法仅考虑了一种形状的水雷目标。因此下一步的研究工作是对多种形状的水雷目标识别方法开展研究，而且要设计更好的分类器，进一步提高识别率。

［1］Balasuriya A，Ura T.Vision-based underwater cable detection and following using AUVs［C］∥Proceedings of the Oceans 2002 Conference and Exhibition.2002:1582-1587.

［2］Hu M K.Visual-pattern recognition by moment invariants［J］.IEEE Transactions on Information Theory，1962，8(2):179-187.

［3］Chen C C.Improved moment invariants for shape discrimination［J］.Pattern Recognition，1993，26(5):683-686.

［4］Ye Bin，Peng Jia-Xiong.Invariance analysis of improved Zernike moments［J］.Journal of Optics.A:Pure and Applied optics，2002(4):606-614.

［5］缪思怡，孙炜，张海霞.基于小波矩的高压输电线路除冰机器人障碍智能视觉识别方法［J］.机器人，2010，32(3):425-431.

［6］王松伟，李言俊，张科.基于局部小波矩的易混淆三维目标识别［J］.红外与激光工程，2008，37(6):1106-1110.

［7］唐旭东，朱炜，庞永杰，等.水下机器人光视觉目标识别系统［J］.机器人，2009，3l(2):171-178.

［8］Jain R，Kasnlri R，Schunck B G.Machine Vision［M］.Beijing:China Machine Press，2003.

［9］张赫，徐玉如，万磊，等.水下退化图像处理方法［J］.天津大学学报，2010，43(9):827-833.

［10］蓝国宁，李建，籍芳.基于小波的水下图像后向散射噪声去除［J］.海洋技术，2010，29(2):43-47.

［11］Otsu N.A threshold selection method from gray-level histogram［J］.IEEE Transactions on Systems，Man，and Cybernetics，1979，9(1):62-66.

［12］边肇祺，张学工.模式识别［M］.北京:清华大学出版社，2000:253-257.

Mine object recognition method research of AUV based on vision

MIAO Xi-kui1，2，3，4，ZHU Feng1，3，4，XU Yi-jun1，WU Qing-xiao1，3，4，HAO Ying-ming1，3，4，REN Shen-zhen1
(1.Shenyang Institute of Automation，Chinese Academy of Sciences，Shenyang 110016，China;2.Graduate School of Chinese Academy of Sciences，Beijing 100049，China;3.Key Laboratory of Optical-Electronics Information Processing，Chinese Academy of Sciences，Shenyang 110016，China;4.Key Laboratory of Image Understanding and Computer Vision，Liaoning Province，Shenyang 110016，China)

Underwater object recognition has long been the research focus in the field of object recognition.For mine object recognition，we propose a novel method based on vision.Based on the essential features of the mines＇shape，the method proposes three shape feature descriptors of the mines.According to the physical significance of the geometric moments，it combines the regional characteristics and boundary characteristics，and employs threshold decision to complete mine object recognition.The experimental results show that the recognition rate of the method is much higher than that of the methods based on invariant moments.The method has good stability，especially suitable for the specific shape of the underwater object recognition and partial occlusion of the object.In the method，underwater image processing and feature definition approaches provide guidance and reference for underwater object recognition.

autonomous underwater vehicle;underwater image;object shape;invariant moments;mine recognition;vision

TP242

1005-9865(2012)04-0154-07

2011-12-16

中国科学院知识创新工程重大资助项目(YYYJ-0917)

苗锡奎(1984－)，男，山东潍坊人，博士生，主要从事计算机视觉，模式识别和图像处理方面的研究。E-mail:miaoxikui@163.com