基于深度特征融合的空间植物图像分割算法

2018-11-01曹靖康段江永

计算机与现代化 2018年10期

曹靖康，段江永，孟娟

0 引言

空间植物实验对于揭示植物在太空环境中的生长规律，以及建立人类在太空中生存所需的生命支持系统具有重要意义[1]。这些实验获取的数据通常是植物生长图像[2]。然而由于空间植物的特殊性，处理方法通常是人工观察分析，这样就造成了耗时、主观性强、人眼误差等问题。因此，植物图像信息的自动提取是一个亟待解决的问题，其中植物图像的精细分割是信息提取的基础。

许多传统的植物分割算法采用浅层特征来分割图像[3]，如图像灰度特征(Haar)、颜色特征(直方图)、纹理特征(LBP)、梯度特征(SIFT)等。Kataoka等人[4]基于对大豆和甜菜的研究，采用植被提取颜色指数(CIVE)来分离绿色植物和土壤背景，该指数通过对R、G、B通道赋予不同权值，并增加一个常数偏差来获得，在室外环境下的自然影像中，该指数显示出良好的适应性，但对于阴影适应性较差。Hemming等人[5]、Aitkenhead等人[6]和Tellaeche等人[7]采用灰度直方图的熵来区分植物和土壤，这是一种固定阈值法，主要针对受控照明条件下植物的自然影像。

机器学习方法也被用于提取有效特征[8]。对于无监督学习，Meyer等人[9]采用强化模糊聚类方法从超绿指数和超红指数中提取感兴趣的区域，指数和集群在增强处理后，将感兴趣的区域按照模糊程度进行排序，重新组合标记，模糊程度低的连续区域则为植物群，该方法针对的是向日葵、红根藜、大豆等植物。对于监督学习，Zheng等人[10]提出了一种后向传播神经网络的监督均值平移算法，在算法中使用RGB和HSI颜色空间作为特征进行训练。该方法在不同照明的自然影像中表现出良好的分割性能，但对阴影覆盖的绿色区域表现出低分割率。Yu等人[11]采用了被称为AP-HI的算法，将色调强度查找表和亲和传播聚类算法结合起来，对大规模分布的植物进行分割。

上述方法主要应用于遥感图像以及田地自然影像的大规模植物分类，研究重点在于植物群的分类，或者应用于背景简单的植物分割。本文的目标是实现复杂背景下的多株植物的像素级精细分割。针对该任务，目前的方法可以实现粗糙的分割，但分割的准确性和对复杂背景的鲁棒性不太好。

本文提出一种基于多尺度深度特征融合的空间植物分割算法。一方面，采用卷积神经网络提取由浅到深的多尺度特征。另一反面，采用跳跃式的方式融合深层、中层和浅层特征。利用该神经网络，可以提高植物在各种光照条件和其他干扰因素下的分割精度。

1 方法

在空间植物实验中，由于复杂的背景和光照条件，难以实现理想的分割效果。因此，本文提出一种基于多尺度特征融合的全卷积神经网络。该网络是基于全卷积神经网络[12-13]的思想构成的，首先构建多个卷积层，然后，将深层特征上采样后与浅层特征融合，用以获取高级别的语义信息和低级别的几何信息。最后通过上采样实现空间输出，以达到像素级别分割的目的。

1.1 神经网络结构

神经网络结构如图1所示，它由2部分组成，一部分是提取多尺度特征的卷积层，另一部分是不同尺度特征的融合层。基于VGG[14]，将不同尺度的特征融合后的特征向量替代全连接层来实现对网络的改进，VGG通常使用卷积的深层特征对整幅图像进行分类，而本文的网络结合了多尺度特征来进行像素级别的分割。

如图1所示，从Conv1层到Conv6层是卷积部分，每部分包含3～4个卷积。这些卷积从图像中提取分层特征，卷积核的大小为3×3。卷积由浅到深，提取的语义信息逐渐变多，然而空间几何信息越少。在每个卷积层后部署ReLu层，对卷积层的输出执行非饱和非线性激活。与通常的pooling层不同，本文采用步长为2的卷积来减小特征图的尺寸，这样虽然增加了网络参数，但是能够减少几何信息的丢失。最后，部署批量归一化层，将输出转换为标准正态分布以加速网络的学习。

图1 神经网络结构

特征的融合是通过对深层特征上采样并与浅层特征连接来实现的。如图1所示，对Conv6(3)层即Conv6的第三个子层，采用大小为1的卷积核进行卷积，以获得N通道的特征图Conv7层，其中N为类别数，即实验中的背景和植物。然后对Conv7层进行上采样，获得即将与Conv8层融合的up1层，其中，Conv8层是通过Conv5层与大小为1的核卷积所得。融合的过程是将Conv8层与up1层沿特征维进行堆叠，即融合后的Connect1层的特征数是Conv8层与up1层特征数的总和。其他融合过程同理。最终获得的up5层融合了4个层次的特征，尺寸与输入图像相同，分割是通过对每个像素的特征向量计算类别概率而产生的。

本文提出的网络结构主要有2个贡献。第一个贡献是采用步长为2的卷积代替pooling。在实验中，植物叶片是细长的，对几何变化敏感，为了实现精细分割，必须保持图像信息的完整性。pooling层会对小的偏移和失真产生不变性[15]，导致几何信息的丢失，所以采用步长为2的卷积。

第二个贡献是多尺度特征的融合，如图2所示，由于植物叶子纤细的特征，采用深层特征(Conv7)只能获取基本的轮廓，缺少细节信息。融合了Conv7、Conv8、Conv9、Conv10这4层特征之后，大部分细节信息得到了恢复。

(a)输入图像(b)Conv7分割结果

1.2 参数优化

该网络的参数优化分为2步。第一步通过训练普通的VGG网络获得卷积部分参数。第二步是用VGG学到的参数作为该网络学习的初始值。这样优化可以加速网络的学习，否则，由于相邻层的共适应神经元会产生分裂[16]，直接训练网络将会变得非常困难。

在第一个学习阶段中，VGG网络结构如图3所示。它由卷积层和全连接层组成，最后输出的是分类概率。VGG的输入图像尺寸是16×16，输出的是分类结果。训练采用的优化器是批量随机梯度下降法，为了稳定更新过程，本文引入了动量项[17]，公式如下：

其中，x为参数，t为迭代的次数，ρ为动量项，设置为0.99，η为学习率，设置为0.00004，gt为x在t时刻的梯度。训练时每个批次的样本数为100。

图3 VGG

第二个学习阶段中，该网络的Conv1～Conv7层采用VGG的Conv1～Conv7层参数进行初始化，同时其他参数随机初始化。给定初始参数，仍然采用批量随机梯度下降法进行优化，其中动量和学习率分别设置为0.9和1e-8。通过学习获取的模型可用于植物图像分割。

2 实验与分析

在实验中，通过对大量植物图像分割来评估本文提出的方法。测试的空间植物图像如图4所示，通过CCD相机以一定的时间间隔从航天器的植物培养实验中获取。这些图像揭示了植物从萌芽到枯萎的整个生长过程。

图4 空间植物图像序列

在这些图像中，植物和背景的颜色受到了空间实验中人造光源的严重干扰，如图5所示。例如，标记1是标记2在玻璃上的映像，但是两者在形态和颜色上近乎相同。标记2和标记3分别是植物和非植物，但是在强光的干扰下，颜色几乎相同。标记4是植物在玻璃上的映像，它未被光源直接照射，更接近真实的植物颜色，但在本实验中属于背景。这些都使得精细分割变得困难。

图5 空间植物图像分割的复杂场景

图6 植物分割，第一行为输入图像，第二行为分割结果，第三行为标注图像

实验的分割结果如图6所示，与实际情况相比，植物的主要部分和叶子都被检测到，背景几乎被完全去除。

分割的细节如图7所示。第一行是玻璃反射干扰情况下的分割，该模型能够将植物本身与玻璃上的植物区分开。第二行是强光干扰下的分割结果。被强光照射的叶子与部分背景颜色相同，该模型仍然展示了良好的分割效果。第三行展示了模型区分细节的能力，一些细长的叶子和叶子间交叉的小孔可以被分割出来。为了评估该算法的像素级分割性能，采用像素精度作为评估指标，公式如下：

Pixel accuracy=∑pnpp/∑p∑qnpq

其中，npq为类别q预测成为类别p的像素个数，∑qnpq为所有类别q的像素总数。图6中10张图像的像素精度结果如表1所示，分割的平均精度达到了94.89%，可以看出该算法获得了较高的分割精度，该精度可以满足后续分析的要求。