基于多重感受野UNet的仪表图像分割方法

2022-03-22史瑞资刘彦北肖志涛

计算机工程与设计 2022年3期

耿磊，史瑞资，刘彦北,3，肖志涛，吴骏，张芳

(1.天津工业大学生命科学学院，天津 300387；2.天津工业大学电子与信息工程学院，天津 300387；3.天津工业大学天津光电检测技术与系统重点实验室，天津 300387)

0 引言

相较于数显式仪表，指针式仪表能够在多粉尘、强磁场和极寒环境下工作，具有稳定耐用的优点。因此，在未来很长一段时间内，指针式仪表在工业生产和监测中仍将处于不可替代的地位。在粉尘车间、药厂等易燃易爆的场所，出于安全考虑，指针式仪表的读数不适合由人工完成。而自动化读数的方法能够避免操作人员进入危险环境，并且具有高效和实时的优点，因此拥有广阔的工业应用前景。

仪表自动化读数分为仪表检测、图像分割、仪表读数3部分。其中，仪表检测和仪表读数的方法相对成熟，但图像分割面临诸多困难，如：细小且密集的刻度线不易分割、分割效果易受环境光照强度变化影响等。特别是当光照强度不同时，传统的图像分割算法需要不断调节分割阈值才能实现有效分割，十分不利于自动读数[1]。

卷积神经网络具有很强的泛化能力，能够自适应分割不同亮度的仪表，解决了人为调节分割阈值的问题，但现有语义分割算法不能良好分割具有细小且密集刻度线的指针式仪表图像。

为了解决上述问题，本文提出了基于多重感受野UNet的仪表图像分割方法，由于多尺度感受野是通过多尺度空洞卷积实现的，因此模型被称为MacuNet(multi-scale atrous convolutional neural network based on UNet)。实验结果表明，该模型有效泛化于不同光照强度下拍摄的仪表图像，并增强了网络对密集刻度线的逐像素点分类能力。

本文的贡献可总结为：

(1)本文针对指针式仪表图像，对细小且密集目标的分割问题进行了研究，提出了MacuNet，该模型能够有效融合高级和低级特征；

(2)本文提出的MacuNet在编码器和解码器之间串联空洞融合模块，使得模型更适合编码和解构低级语义特征。本文将编码器各层级的特征与对应的解码器解构的特征相融合，提高了网络对多尺度特征的融合能力，从而强化了模型逐像素点预测的准确率；

(3)本文通过广泛的实验验证了提出模型的有效性。该模型提升了语义分割方法对细小且密集目标分割的效果，同时解决了对于不同光照强度下拍摄的指针式仪表图像分割需要调整阈值的问题。

1 相关工作

近年来，基于深度学习的图像语义分割算法被广泛应用在工业生产中[2]。FCN[3]、PixelNet[4]、UNet[5]、Deeplab[6]等经典的图像语义分割算法相继被提出，它们都具有泛化能力强、分割效果好的特点。本文提出了基于UNet的强化浅层特征并融合深层特征的方法，旨在提高模型对密集细小刻度线的逐像素点分类准确率。

对于不同数据，采用不同的编码器能够取得良好的分割效果。编码-解码结构[7]是常见的基于端到端的深度学习模型框架。编码器主要采用卷积、Max Pooling和Batch Normalization[8]等操作对输入图像编码，编码操作有利于提取图像深层特征，它的特征提取能力决定了后续解码的效果。解码器采用卷积、ReLU[9]和上采样等操作对来自于编码器的特征图解码。UNet采用自编码结构，对图像进行编码-解码操作。其中，编码器通常采用ResNet[10]以及Vanilla编码器[11]，由ResNet构建的编码器对于深层特征提取效果明显，但随着网络加深，网络感受野愈发变大，导致ResNet不能更好地提取小且密集目标的特征，进而影响逐像素点分类的准确性。同时，过深的网络意味着计算量的增加，不利于训练。Vanilla自编码器的编码部分由三层网络结构组成，它是一种有损编码器，通过Adam优化器[12]和均方误差损失函数使得模型学习压缩表征。这种编码器网络层次少，能很好地对图像的浅层信息编码，但不利于采集更深层的高级语义信息。

2 提出的方法

2.1 MacuNet

现有的经典卷积神经网络模型不能有效分割具有细小密集刻度线的指针仪表。使用ResNet这类深层网络，会使得网络感受野过大，导致特征图中的边缘信息损失严重，甚至引起目标的完全丢失[13]；使用Vanilla模块作为编码器又会使得网络过浅，导致深层特征不能良好提取深层特征，不利于解码。因此本文不能单纯使用ResNet或Vanilla模块作为编码器。同时，考虑到空洞卷积能够在不增加计算量的前提下提高网络感受野，这种特性有助于改善深层网络对细小且密集目标信息丢失的问题，本文提出了MacuNet。

对于像素级分割任务来说，降采样操作会丢失细节信息，使得网络对于细小目标的边缘信息获取能力降低。高阶语义特征有助于提升逐像素点分类准确性，但这意味着模型需要建立在较深的网络结构上。深层网络结构导致了模型感受野的提高，不利于分割细小密集的刻度线，这是由于小目标与浅层特征联系紧密，因此获取丰富的低级特征信息对于小目标图像分割具有重要意义[14]。为此，本文考虑有针对地改进网络模块，提高模型对于细小密集目标的逐像素点分类能力，进而设计了MacuNet网络模型，模型结构如图1所示。

图1 MacuNet网络模型

本文要解决的问题是提升网络对于细小且密集刻度线特征的提取能力，从而实现有效分割。由于自编码器结构有利于建模和解构多尺度特征，通过对编解码器的改造容易实现不同尺度特征的有效融合从而提升分割效果，因此本文采用自编码器作为网络的基础结构。有效的边缘信息往往保留在浅层特征中[15]，因此编码器不能采用过深的网络，以防止随着网络加深模型感受野变大，导致其对于浅层特征的采样丢失严重。矛盾的是，使用较浅的网络模型又不能获取丰富的高层语义信息，进而影响逐像素点分类性能。因此，为了在更好地保留低级特征的同时又不牺牲丰富的高层语义信息，本文将Vanilla编码器改造为只有4次下采样过程的编码器，通过这种方式，浅层特征被更好地保留。具体地，改进后的Vanilla包括4个卷积网络模块。每个卷积模块由3×3卷积核构成，在每个卷积核后都进行Batch-Normalization和ReLU操作，从而更好地建模低层特征，最后进行2×2 Max Pooling操作。Max Pooling操作将特征图中的边缘和细节填充，增大了目标在整张特征图中的占比，有助于提升模型的最终分割效果。为了解决浅层网络不能很好挖掘高阶特征的问题，本文设计在改造的Vanilla编码器输出端插入空洞融合[16]模块，该模块采用将3个空洞卷积级联的方式，使得模型在获取丰富感受野的同时捕获更深层的高阶语义信息，这弥补了模型在编码阶段的采样不足，同时又避免了由于感受野过大导致的模型对于特征图中细节信息遗漏的问题。具体地，二维信号中，对于每一个位置i，有一个输出y和一个滤波器ω，给定特征图x，空洞卷积的采样过程可用式(1)表示为

(1)

式中：r表示对输入信号进行采样的步长，ω[k] 为滤波器上第k个位置的权重。

当使用空洞卷积时，膨胀率越大卷积核中的有效权重越少。当膨胀率足够大时，只有卷积核最中间的权重有效，此时的卷积核即退化成了1×1的卷积核，并不能获取到全局的上下文信息，因而影响模型的分割能力。为了解决这一问题，本文设计了空洞融合模块，该模块的存在避免了膨胀率的影响，使得网络能够将多尺度上下文信息充分聚合，从而有效提升模型对于细小且密集刻度线的分割效果。空洞融合模块的详细结构如图2所示。

图2 空洞融合模块详细结构

具体地，该模块采用将不同空洞率(空洞率指在常规卷积核中的相邻两权重之间插入零的个数。通常，空洞率=

时，相邻两个权重间插入0的个数为

-1，当

=1时，空洞卷积核为常规卷积)的空洞卷积核串联的方法增大密集运算，在减小因稀疏性造成的特征丢失的同时做到特征互补并融合。在空洞融合模块的计算过程中，

表示经

级空洞卷积核串联后，

位置的输出结果，其表达式为

(2)

该公式中的变量同式(1)，其中，ωn[k] 表示第n个卷积核中k位置的权重。

这3个卷积核的空洞率按照先增后减的方式组合，使得第二个卷积核弥补了第一个卷积核由于空洞引起的特征稀疏。同样，第三个卷积核弥补了第一、第二个卷积核的特征丢失，而三者串联又可以补全第三个卷积核的采样稀疏。空洞融合模块整体上加大了网络深度，同时又丰富了感受野，使得模型能更好地编码高级和低级语义特征。由此，模型完成了对输入图像的有效编码。

特征图的解码是模型将编码器生成的特征图通过上采样等操作恢复至原始图像尺寸，并最终实现图像分割的过程。具体地，将编码器生成的特征图通过双线性内插的方法，使得生成的特征图尺寸与对应位置编码器生成的特征图尺寸相同，并使用3×3的卷积将新生成的特征图融合，这个过程即完成了一次解码。重复这一解码过程，直至特征图尺寸恢复至原图像大小，模型即表达出最终的分割结果。

2.2 损失函数

(3)

3 实验

本章，基于指针式仪表数据集，将MacuNet与其它方法进行了广泛对比，分析了实验结果并展示了最终的测试结果。

3.1 评估指标

本文对分割出的图像采用目测评估法和定量指标进行评定，进而对训练出的模型进行评估。目测评估法主要是通过观察测试结果中细密刻度线、背景、指针的分割效果来实现。定量指标评定法是以平均交并比mIOU(mean intersection over union)和像素准确率PA(pixel accuracy)为评估指标。设网络输出包含n+1类(其中包含背景类别)，pij表示本属于第i类却被分到第j类的像素数量，若i=j，则pij表示分类正确的正例数量。

(1)mIOU按类计算数据标注与网络分割结果之间的交并比的平均值，其表达式如下所示

(4)

(2)PA计算正确分类的像素与所有像素数的比值，其表达式如下所示

(5)

本文按照相同的训练策略，在同一硬件环境下进行如下实验：①与现有的经典网络进行对比；②对比不同空洞率的空洞卷积对分割效果的影响。

3.2 数据集和预处理

本文采集最常见的指针式温湿度计图像作为原始数据集，将原始数据经过旋转、裁剪等操作进行数据扩充，得到由2826张图像组成的数据集。其中，训练集共2253张，测试集共573张，这些图片的分辨率均为400×400像素。数据集中分布的具有不同亮度且包含明暗分界线的图像有助于提升模型对同种图像的泛化能力。本文选取了光照强度不同、具有明暗分界线的图像作为示例，这些示例如图3所示。

图3 数据集中包含的图像示例

获取到上述数据后，本文使用标注工具对数据进行标注。标注的原理是将原始图像中的刻度线和指针使用外接矩形框出，将这些外接矩形的坐标保存到文本文档中。之后，通过将外接矩形进行填充并与400×400像素的纯黑色图像融合得到初始标注图。最后，将标注图转换为单通道的灰度图，并剔除掉colormap得到最终使用的标注图。

3.3 图像分割方法对比与实验分析

本文按照相同的训练策略，在同一硬件环境下进行如下实验：与现有的经典网络进行对比；对比不同空洞率的空洞卷积对分割效果的影响。通过对比实验结果可知，本文的MacuNet在mIOU和PA指标上实现了明显的提升。本文模型预测结果的mIOU和PA分别为0.8088和0.9902，相比较改进前的UNet，分别提升了0.149和0.019。此外，本文还与现有的经典分割网络：Deeplabv3+、RefineNet[17]以及ResNet50-PSPNet[18]做了对比实验。本文的模型通过自编码机制实现高阶和低阶语义信息编码，并通过空洞卷积实现模型的多重感受野互补，有效融合了浅层和深层的特征。

由于Deeplabv3+模型自编码系统存在过度编码高层语义信息的缺陷，模型缺乏对浅层信息的有效提取，导致其不能对细密刻度线等特征有效编码，因此逐像素点分类能力较差；UNet在对图像编解码的过程中，不能有效融合浅层特征和高级语义信息，导致模型的预测结果出现较为明显的错分类现象。PSPNet采用池化和卷积操作，使得模型更倾向于表达深层语义信息，这导致模型对表层信息提取不足，不能有效表征包含密集细小刻度线的低级特征，因此不适于分割指针式仪表。通过对比预测结果，可以很明显地发现，本文模型对于指针式温湿度仪表图像拥有良好的预测效果。其中，MacuNet相对于UNet在本文数据集测试结果的mIOU提升了0.1518；相对于Deeplabv3+、ResNet50-PSPNet、RefineNet等经典网络模型，MacuNet在mIOU上分别取得了0.137、0.1794、0.1258的提升。本文提出的模型与现有模型在测试集上预测结果的mIOU见表1。

表1 本文提出的模型与现有模型的对比实验结果

本文提出的模型与现有经典模型分割结果如图4所示。从预测结果可知，由于本文的模型充分融合了多尺度低级特征，有效学习了细密刻度线之间的特征关联，因而有效解决了原始UNet存在的错分类问题，对于细小刻度线表现出了较好的分割效果。

图4 提出的模型与现有经典模型分割结果

3.4 空洞融合模块对比实验及分析

空洞融合模块包含两个参数：卷积核尺寸和卷积核空洞率。为了探讨空洞融合模块两个参数对模型分割效果的影响，本文进行了多组对比实验。空洞融合模块在不同空洞率和不同卷积核尺寸下对模型分割效果的影响结果见表2。其中，第一列为空洞融合模块中3个卷积单元的空洞率。需要说明的是，第一栏的3个1分别表示空洞融合模块中的3个空洞卷积分别是空洞率为1、1、1的卷积核，即该模块使用的是普通卷积核。第一列第二行的3个参数分别表示空洞融合模块中3个卷积单元的空洞率分别为2、3、2，以下两个栏的中括号的3个元素意义同此。

表2 空洞融合模块在不同空洞率和不同卷积核尺寸下对模型分割效果的影响结果

表2第一行的“尺寸”表示空洞融合模块中各卷积单元中卷积核的尺寸，如第二列第三行中[5,7,3]表示3个卷积核单元分别采用空洞率为5、7、3的3种空洞卷积核。第一行的三、四、五列分别表示背景、刻度线和指针的IOU值。对比表格2的结果发现，使用普通卷积的各项IOU数值更高，但通过对比预测图可知，指标的数值高并不意味着分割效果好。这一现象表明：当卷积核的尺寸相同时，相对于单一尺度的常规卷积核，空洞卷积能够捕获多尺度感受野，从而更进一步提升网络的分割能力。

不同空洞率的MacuNet分割结果如图5所示，其中，图5(a)为卷积单元的空洞率r=1时模型的预测结果，图5(b)为卷积单元的空洞率r=[5,7,3] 时模型的预测结果。

图5 不同空洞率的MacuNet分割结果

实验结果表明，当r=1时，模型预测的图像中仍存在部分像素点错分类的现象。因此，采用不同空洞率的空洞卷积有助于提升模型逐像素点分类准确率，整体图像的分割结果如图6所示。

图6 整体图像的分割结果

同时，本文还统计了不同空洞率的卷积单元和原始UNet网络在测试集的PA，对比结果如图7所示。

图7 不同空洞率的卷积单元和原始UNet网络对于测试数据预测的PA

由实验结果可知，相较于UNet网络，本文提出的模型更好地提取了细密刻度线的信息，将包含丰富细节和边缘信息的低级特征和有助于提升逐像素点分类性能的高级语义特征有效融合，因而本文提出的模型在PA收敛后的像素点预测准确率明显高出原始的UNet网络。

之后，本文的模型预测了在不同光照强度下采集的同种指针仪表数据。实验结果表明该模型能够有效分割不同亮度的同种指针仪表，验证了模型的泛化能力。在不同光照强度下采集的图像及其预测结果如图8所示。其中，图8(a)中的3张图像是3种光照强度下采集的原始图像，图8(b)中的3张图像分别是与图8(a)对应的模型预测结果，图8(c)中的3张图像分别是与之对应的传统(阈值分割)方法分割结果。可以看到，当图像的亮度相差不大时，阈值分割方法对于小刻度线的分割会出现锯齿，这不利于后期对指针和刻度线的拟合，从而影响读数；当图像的亮度相差较大(如图8(a)中的1、3两张图像)时，传统算法在不调节阈值时，分割效果较差。而本文提出的模型不但可以良好地解决这些问题，还能够有效抑制并不需要的字符等背景信息的表达。

图8 在不同光照强度下采集的图像及其预测结果

3.5 MacuNet在其它数据集的实验及分析

最后，为了进一步验证该模型对密集小目标的分割能力，本文尝试在另一种指针式仪表数据集(后文称为“复杂型指针式仪表数据集”)进行训练并测试。该数据集中的仪表图像具有更为复杂的背景图案，这些图案易对分割产生较大干扰。复杂型指针仪表数据集的示例如图9所示。从示例图中可以看到，该数据集中的刻度线具有更为复杂的绿色背景，且指针的宽度接近于刻度线。

图9 复杂型指针仪表数据集的示例

接下来，本文分别使用传统算法(基于阈值分割的算法)和MacuNet对测试集中的图像进行预测。预测结果如图10所示，其中每一行从左至右依次是：原图、对应MacuNet分割结果以及基于阈值分割的传统算法分割结果。

图10 基于阈值分割的算法和MacuNet预测结果

图10中的第一、二、三行实验结果分别表明：当使用传统阈值分割方法对该仪表图像分割时，在不调节分割阈值的情况下，算法错误分割表盘上的字符，而没有分割出刻度线和指针等有用信息；算法将表盘上明暗交界线错误分割，严重影响分割效果；对于背景复杂的刻度线，算法存在对背景错误分割而不能正确分割有效目标，即不能有效分割刻度线和指针的问题，并且算法将表盘中细长条形背景图案分割，该图案易与该数据集中同样具有细长特征的指针混淆，严重干扰后续的图像处理及读数等操作。而本文提出的MacuNet模型能够有效解决上述问题，且分割效果较好。上述实验结果表明，MacuNet同样能够泛化同类别的复杂型指针式仪表数据集，并取得良好的分割效果。

4 结束语

本文提出了一种基于UNet的针对细小且密集目标的图像分割方法。本文引入了空洞融合模块，改进了单纯过深或过浅的网络对图像特征提取的过度或不足，提升了网络对全局信息和高阶语义信息的融合能力，从而提升了网络对密集细小目标的逐像素点分类准确率，实现了对指针式仪表图像分割效果的提升，并且模型能够有效泛化于在不同光照强度下采集的同种指针式仪表图像。本文针对两种指针式仪表数据集进行了一系列的对比实验，借此验证本文提出模型的实际分割能力和对于同类别指针式仪表图像的泛化能力。尽管本文提出的方法在分割包含密集细小刻度线的指针式仪表图像上具有较好的性能，但模型对于亮度相差较大的图像泛化能力不够强，因此，如何改进网络结构使得模型的泛化能力进一步增强，对于未来将模型部署在嵌入式设备上具有重要意义。