APP下载

基于空洞全卷积网络的叶片分割算法

2020-04-01谢源苗玉彬张舒

现代计算机 2020年6期
关键词:空洞像素点编码器

谢源,苗玉彬,张舒

(上海交通大学机械与动力工程学院,上海200240)

0 引言

表型是作物在生长发育过程中可观测的外表特征,能够反映植株的生长发育情况,表型监测在水肥运筹,倒伏检测,产量预测等领域具有重要的应用价值[1]。传统的表型特征提取多通过操作者手工进行测量,工作繁琐,准确性较低,且不同品种的作物没有统一的测量标准[2]。随着计算机视觉的发展,高精度、低成本、自动化的作物表型数据获取技术逐渐受到关注。

在提取表型特征之前,需要对植株的主体进行分割,进而分析光谱、纹理或是形态特征。现有的分割算法主要分为传统的图像处理算法和深度学习算法。传统算法主要通过阈值、边缘、区域、图论等方法统计像素点[3]间的差异并完成分类,例如,Liang等[4]处理了大豆的田间RGB图像,利用Canny算子检测叶边缘并对叶片进行了分割与检测,张建华等[5]则利用改进的分水岭分割算法得到了棉花叶部的粘连病斑;深度学习算法则依赖卷积运算[6]自适应地提取特征,Ward等[7]将真实图像与合成图像同时用作模型的训练数据,构建了Mask R-CNN网络模型进行了叶片分割,在多个数据集上取得良好表现,Chen等[8]利用CNN进行叶片表面蚜虫区域的分割检测,分割结果与人类的专家标注具有较高的重叠度。

开放的田间环境下,复杂多变的光照条件以及土壤基质中的背景噪声对分割算法的准确率与鲁棒性提出了新的挑战。其中,光照强度的变化使传统算法中的模型参数难以选择,通常需要根据具体的单张图像特点进行变更[9];背景噪声则与分割主体具有相似特征,使得分割结果的边缘产生割裂感,不够平滑。基于上述背景,本文构建了多尺度的空洞全卷积网络模型,利用卷积编码图像特征得到特征张量,再通过双线性插值完成图像的重建。为了恢复局部空间信息,在重建过程中融合了底层卷积的输出;针对主体尺度变化的问题,利用不同扩张率的空洞卷积提升感受野,从而增强叶片分割场景下模型的泛化能力。

1 空洞全卷积网络

1.1 编码器-解码器结构

常规深度卷积网络主要用于单一分类任务,在大多数场景中,模型只需判断图片的类别。因此,网络对图像特征的提取是一个具体到抽象的过程,底层卷积输出的尺寸较大,表征局部信息,高层卷积输出的尺寸较小,表征全局信息。但是,图像语义分割属于密集预测,需要对每一个像素点进行判别,其输出也不再是一维向量,而是与输入分辨率相同的二维图像。

为了完成像素级别的分类,全卷积网络被设计为一个编码器-解码器结构,如图1所示,其中,编码器主要由卷积层与池化层组成,进行图像特征提取。在不同的学习任务中,编码器输出的多维张量是一个蕴含特定语义信息的特征表示。解码器则使用双线性插值提高特征张量的分辨率,还原边缘等局部信息,完成分割结果重建。

图1 编码器-解码器结构

1.2 底层特征融合

原始的全卷积网络是一个顺序结构,层与层之间没有耦合。在特征编码的过程中,由于池化、带步幅卷积的降采样效果,实际图像中的空间排列顺序与细节特征是有所损失的。在语义分割任务中,类别与边缘是重要的判断信息,其中,类别作为全局特征包含在编码器输出的特征张量中。而边缘、纹理则更多地由底层卷积表示,这类细粒度的信息对于像素级别的分类是至关重要的,可以解决边缘模糊的问题。因此,可组合高层抽象语义信息与底层的细节信息,将底层卷积的输出进行压缩,然后与编码器第一次上采样的结果进行拼接,并将拼接结果应用于后续的图像重建中。

综上,本文抽取了第一层的卷积输出特征I1与编码器输出结果进行融合,为了在融合过程中不损失空间信息,首先对特征张量进行双线性插值的上采样操作得到I2,使之与I1分辨率相同。然后,串联拼接两张图像得到I3,后续的图像重建操作在I3的基础上展开,通过卷积与双线性插值得到最终的分割结果。

图2 底层卷积融合

1.3 空洞卷积

随着植株的生长,叶片的区域不断扩张,模型所要分割的主体不断增大,特征的尺度也会发生变化。当模型参数固定时,其更适合于尺度相当的图像输入。另一方面,由于卷积核的大小远小于图片,其感受野是有限的,因此深度卷积网络需要更深的模型结构来抽取全局信息。

空洞卷积是对传统卷积的一种优化,使用一个更大的稀疏矩阵来替代传统的卷积核,从而增加卷积的感受野,在保证相同参数量的前提下,空洞卷积能够包含更大的信息范围。在空洞卷积核中,非零的权重是等间隔进行排列的,间隔的大小称为扩张率r,非零的权重之间用零值进行填充,则其计算公式为:

图3 展示了不同扩张率的空洞卷积核。其中,黑色圆点表示该位置权重不为0,其余位置的权重等于0。由图可知,当扩张率线性增大时,空洞卷积的感受野以平方量级增大,当扩张率为1时,运算与原始卷积相同,感受野为9个像素点;当扩张率为2时,感受野为49个像素点;当扩张率为3时,感受野则达到121个像素点。

图3 不同扩张率下的空洞卷积核

为了适应叶片分割主体中的尺度变化,本文在保持编码器底层卷积结构不变的基础上,在编码器输出特征张量的卷积运算中并行叠加了多层不同扩张率的空洞卷积,如图4所示。扩张率为1的空洞卷积等同于传统卷积操作,扩张率为2-4的空洞卷积则使得特征张量包含更多尺度的语义信息,相当于为解码器的输入增加了新的特征信息,从而提升分割的准确性。

图4 空洞卷积的叠加输出

1.4 损失函数

图像的分割任务可以视作对图像中的每一个像素完成一次分类任务。因此,模型的损失函数可以表示为图像中所有像素的损失函数和。用交叉熵作为单个像素分类的损失函数,设输入图像尺寸为m×n,模型的损失函数可以表示为:

2 实验验证

2.1 数据集

为完成网络训练,本文首先按照192×192分辨率对图像进行裁剪,并使用图片标注工具,标注了300张图像。相比于神经网络的巨型参数量,上述标记过程所获得的训练集样本较少,容易造成模型的过拟合,使得模型在测试集上出现较大的误差。为了扩充训练集的样本数量,本文对上述标记结果进行了数据增强,使用的方法为旋转、镜面翻转、叠加高斯噪声,如图5所示。

经过扩充的样本集数量达到了1200张图像,按照8:2的数量比例将样本分为训练集与测试集,训练集大小为960,测试集大小为240。其中,训练集用于优化损失函数以及更新模型参数,测试集则不参与模型训练,仅仅用于模型评估,可以更加准确地反映模型的性能指标。

2.2 训练优化

使用Adam优化器进行模型训练,优化器参数设置为:矩估计指数衰减速率β1=0.9,β2=0.98,步长ε=10-3,数值稳定参数δ=10-9,有偏一阶矩与有偏二阶矩的初始值s0=0,r0=0,模型训练的损失函数与准确率曲线如图6所示。

图6模型训练曲线

2.3 实验数据分析

比较本文算法与基于图论的GrabCut[10]交互式分割算法,原始全卷积网络在不同主体尺度下的分割效果,部分不同主体尺度的分割示例如图7所示。由图可见,交互式的GrabCut算法由于操作者的经验,区域与轮廓分割较为准确,但该算法无法准确地区分边缘处与叶片特征相似的背景噪声,因此,分割结果的边缘含有较多的噪点,具有很强的割裂感,且整个流程需要操作者多次标记前景点与背景点,效率较低。神经网络类模型输出的结果更为平滑。其中,原始的全卷积网络在不同尺度下的性能较为局限,在很多情况下,模型不能较好地还原叶片的形状,在叶片的边缘变化较大的时候,例如叶片顶端的内凹部分,模型通常会将部分背景区域识别为主体,从而增大误差。而本文的模型在不同尺度下有着较为均衡的表现,能够准确地分割出主体区域。但是对于图像中的复杂局部,例如行3中两片叶子的细小狭缝、行4中作物的叶柄,算法还无法完全准确判别,而该类错误也是分割模型中最大的误差来源。

统计算法在测试集上的表现,不同模型在测试集上的评价指标如表1所示。设图像一共有k个类别,pij表示像素点属于类i但是被预测为类j的数量,则不同指标的定义如下:

像素精度(Pixel Accuracy,PA):

均像素精度(Mean Pixel Accuracy,MPA):

均交并比(Mean Intersection Over Union,MIOU):

由表可知,本文算法相比于传统的图像处理算法与全卷积网络在各项指标上均有较大地提升,PA值达到0.9735,在描述分类别的精度指标MPA时,本文算法的主体MPA值略高于背景MPA值,这表明算法在出现误差时往往将背景像素点判别为主体。该项指标上,由于操作者可以对噪声像素点进行标记,因此GrabCut算法的表现较为稳定,而未经修改的全卷积网络则波动较大。而在MIOU指标上,本文也达到0.9579,能够满足表型特征提取的需求。

图7不同尺度主体的分割效果展示

表1 不同模型的评价指标

3 结语

为了提升叶片分割算法的精度与通用性,本文研究了全卷积网络在图像分割中的应用,针对于编码器在提取特征的过程中细节损失的问题,本文在解码器中融合底层卷积输出,使得图像重建过程能够恢复更多的局部空间信息;针对于主体尺度变化的问题,本文在编码器输出中并联了不同扩张率的空洞卷积,使模型能够适应不同的主体特征尺度。实验表明,本文模型相比传统图像分割方法,分割的边缘更为平滑;相比于原始全卷积网络,区域的识别更为准确。PA值达到0.9735,MIOU值达到0.9579,能够对图像进行准确地分割,满足实际应用需求。

猜你喜欢

空洞像素点编码器
基于FPGA的同步机轴角编码器
基于canvas的前端数据加密
基于逐像素点深度卷积网络分割模型的上皮和间质组织分割
空洞的眼神
基于PRBS检测的8B/IOB编码器设计
JESD204B接口协议中的8B10B编码器设计
用事实说话胜过空洞的说教——以教育类报道为例
基于Node-Cell结构的HEVC帧内编码
多总线式光电编码器的设计与应用
臭氧层空洞也是帮凶