APP下载

基于生成对抗网络与ICNet的羊骨架图像实时语义分割

2021-03-20赵世达王树才郝广钊涂本帅

农业机械学报 2021年2期
关键词:脊椎骨架语义

赵世达 王树才,2 白 宇 郝广钊 涂本帅

(1.华中农业大学工学院, 武汉 430070; 2.农业农村部长江中下游农业装备重点实验室, 武汉 430070)

0 引言

羊肉是我国第四大肉类消费品,随着人民饮食结构的调整,其需求量逐年增加。据统计,2019年我国羊肉总产量为488万t,同比增长2.6%[1]。在羊肉加工过程中,羊骨架分割是获得各食用部位的重要环节,与大众食用习惯息息相关。但是,由于缺乏智能分割设备,羊肉屠宰加工企业大多采用倒挂式半自动加工工艺,特别是羊骨架分割作业全部依赖人工完成,存在分割效率低、作业环境恶劣等问题,制约了我国家畜屠宰加工业的发展[2-3]。计算机视觉技术具有高效率、低成本、适应性好及稳定可靠的优点,已广泛应用于家畜养殖[4-5]、羊体尺测量[6]、肉质分级等[7-8]领域。采用计算机视觉技术可以准确、便捷地获取羊骨架各部位的自然特征表达,但基于深度学习的计算机视觉算法的有效性依赖于数据集的容量,需要海量的样本图像数据作为大数据驱动,才能取得较好的识别效果,这限制了其在小规模样本任务中的使用。因此,在保证图像语义信息的前提下,扩充羊骨架图像数据量、实现羊骨架图像的实时分割,从而满足生产线的实际需求,成为开发羊体分割智能机器人的关键。

近年来,生成对抗网络(Generative adversarial network,GAN[9])为计算机视觉技术的发展提供了新方向,其基于“零和博弈”和对抗训练的思想设计,可以有效实现高分辨率图像生成[10-11]与图像风格迁移[12],目前已被广泛应用于医学[13]、生物学[14]及农业领域[15]。文献[16]基于深度卷积生成对抗网络对植物图像识别方法展开研究,为农业图像数据不足问题提供了解决方案。文献[17]使用GAN网络生成蘑菇表型图像,解决了蘑菇表型数据长尾分布、非均衡性的问题。文献[18]基于生成对抗网络的pix2pix架构对人类肝脏CT图像进行风格迁移试验,结果表明,仿真数据与原始数据的结构相似性为0.997 3。对于高分辨率的图像生成,一些学者发明了众多新型GAN网络架构,例如C-GAN[19]、SinGAN[20]、BigGAN[21]、WGAN[22]等。如果采用高分辨率图像生成网络对羊骨架图像数据进行模拟,生成保留原始语义信息的羊骨架图像,则可以有效解决基于深度学习的计算机视觉方法对羊骨架图像进行实时语义分割中的样本不足问题。

羊骨架图像中羊颈部、肋部、脊椎3部位识别实质上属于图像语义分割问题,得益于卷积神经网络(Convolutional neural networks,CNN)对图像深、浅层特征强大的学习能力,研究者将卷积神经网络成功应用于各图像语义分割任务中。文献[4]采用卷积神经网络实现了奶牛个体身份的无接触精准识别,视频段识别率高达93.3%。文献[23]针对群养模式下猪只体易粘连、难以分割的问题,提出了一种基于卷积神经网络的猪只图像分割方法。文献[24]通过Faster-RCNN对羊分娩场景下的初生羊羔进行了检测。文献[25]提出基于FCN哺乳母猪图像分割算法,使猪舍背景下的哺乳猪只被快速、精准分割。在羊体图像语义分割方面,目前相关研究较少。文献[26-27]采用U型卷积神经网络实现了羊肋排图像的准确分割,并基于DeepLabV3+对羊骨架图像语义分割展开研究,最终取得较高的分割准确率,但该方法存在单幅图像处理耗时较长的问题。因此,考虑到羊骨架生产线对实时性的要求,实现羊骨架图像的快速语义分割非常必要。

本文首先基于对抗式生成网络对现有羊骨架图像数据集开展研究,生成具有完整语义信息的羊骨架图像,并通过DCGAN[28]、SinGAN、BigGAN 3种网络对比,优选出最佳GAN网络;然后,根据生成图像和原始图像建立组合数据集,设置不同亮度图像来模拟不同光照下的羊骨架图像,建立附加测试集;利用ICNet[29]网络分割羊骨架图像,获取羊颈部、肋部、脊椎3部位的分割精度、MIoU和单幅图像处理时间,与4种传统语义分割方法进行对比试验,并优化中分辨率分支权重,以期提高ICNet对羊骨架图像语义分割精度。

1 材料与方法

1.1 试验材料与图像采集

试验样本选用经扯皮后去除头部、腿部、腹部的成年波尔山羊,样本图像采集于内蒙古自治区美洋洋食品股份有限公司的羊胴体分割生产线。选用华谷动力科技公司生产的WP-UC600型CCD相机,搭配Z4S-LE-SV-1214H型欧姆龙镜头,设置相机距地面1.4 m,距悬挂状态的羊胴体样本0.8 m拍摄图像,无特定背景与光源。为扩大样本之间的差异性,以保证后期模型训练的泛化能力,随机采集6批次羊胴体,每批次包含200个样本,共1 200幅尺寸为3 024像素×4 032像素羊胴体图像。采集装置示意图如图1所示。

1.2 羊骨架图像生成对抗网络

1.2.1生成对抗网络

生成对抗网络是由GOODFELLOW等[30]于2014年基于零和博弈论提出的一种无监督学习算法框。GAN网络一般由生成器和判别器两部分组成,生成器尽可能学习真实样本的数据分布,从而生成与真实数据逐渐相似的数据。判别器用以判定输入数据是否为真实数据,其输出一般是概率值,如概率值越大则表征输入数据是真实数据的可能性越大,反之即为生成数据。GAN网络在训练过程中,生成器通过判别器的反馈机制不断更新参数,使得生成数据愈发服从真实数据分布,达到“欺骗”判别器的目的,而判别器也基于判断结果不断优化,提升区分生成数据与真实数据的能力。二者如此反复对抗,当判别器无法判断输入数据为生成数据或真实数据时,则认为GAN网络达到“纳什均衡”[31]状态,模型训练达到最优。

GAN网络结构如图2所示。随机噪声(z)一般为高斯变量,且生成器G对其维度没有限制。随机噪声输入生成器后,生成器生成数据G(z)(生成图像),进而输入至判别器D,另外为保证生成器能够依据来源于判别器D的反馈误差进行参数更新,生成器必须可微。最后判别器D对真实数据(x,真实图像)与生成数据G(z)做真假判定,并将误差传递至生成器,生成器再根据误差调整参数,目的在于使新生成“假”数据能够被判别器判定为“真”,同时,判别器根据判定结果更新自身参数以提高判别数据“真、假”的能力。

GAN网络不断优化生成器与判别器的实质是将生成器极小化,判别器极大化,其目标函数为

min(G)max(D)V(D,G)=Ex-Pdata(x)[lgD(x)]+
EZ~PZ(Z)[lg(1-D(G(Z)))]

(1)

式中,D(x)表示当判别器的输入数据为真实数据时,得到判断结果为“真”的概率;D(G(Z))表示当输入数据为生成数据G(Z)时,判别器判定为真实数据的概率;Pdata(x)表示真实数据分布;PZ(Z)表示生成数据分布;E为期望值;生成器目的在于使生成数据无限接近真实数据,即D(G(Z))趋近于1,相应地,V(D,G)减小;判别器使D(x)趋近于1,而D(G(Z))趋近于0,V(D,G)增大;max(D)V(D,G)表示判别器目标函数,使判别器预测概率的负对数期望取极大值;min(G)max(D)V(D,G)为生成器优化函数,使判别器的极大值最小化。

1.2.2羊骨架图像生成网络

图像中目标的自然特征表达与图像分辨率息息相关,高分辨率图像较低分辨图像能够保留更全面的特征信息,且原始GAN网络存在生成样本缺乏多样性、模型训练容易塌陷、生成图像品质差等缺点,因此,考虑到上述问题及羊骨架不同部位特征的差异性,采用生成高分辨图像对抗网络很有必要。本研究首先将原始图像分辨率设定为512像素×512像素建立数据集,然后选用DCGAN、SinGAN、BigGAN 3种生成对抗网络生成羊骨架图像。

DCGAN将卷积神经网络与GAN相结合,以提高生成图像质量及生成样本多样性。DCGAN生成器G包含3个反卷积层(Deconvolution)和3个卷积层(Convolution),判别器D包含4个卷积层及1个全连接层。DCGAN网络结构如图3所示。

首先,尺寸为64×64×128的随机噪声矩阵输入反卷积层;然后,输出尺寸为128×128×128的特征张量至卷积层,卷积核尺寸为3×3,经批标准化(Batch normalization)和ReLU线性整流函数运算后输入下一层;最终,通过最后一层卷积操作经Tanh激活函数得到尺寸为512×512×3的羊骨架生成图像。判别器的输入为生成图像和原始图像,目的在于对图像的“真/假”进行判断。输入图像经过4层卷积运算,卷积核尺寸为5×5,经标准化和LeakyReLU激活函数后输出至全连接层,最后全连接层经Sigmoid函数输出“1/0”。ReLU、Tanh和LeakyReLU激活函数表达式参照文献[15]。

BigGAN网络于2019年提出,其通过扩大批尺寸(Batchsize)及增加网络参数量提升模型性能,并基于正交正则化与截断技巧有效地提升了生成图像质量及样本多样性,具备生成高像素、高品质图像的优点。本研究基于羊骨架图像数据集,通过调小BigGAN网络的Batchsize和生成器G、判别器D学习率,使其能够部署在普通图形处理工作站上。

本研究根据以上3种羊骨架图像生成对抗网络的生成图像品质对比分析结果,获取最优生成网络。

1.3 羊骨架图像实时分割网络ICNet

目前,应用于图像语义分割的深度学习模型多种多样,例如DeepLabV3、PSPNet、U-Net、SegNet、FCN等,上述模型在针对Imagenet数据集图像分割大赛中均取得较高的准确率,但是分割耗时较长,不能保证实时性。因此,轻量级语义分割模型ENet应运而生,但ENet保证实时性的同时放弃了一定的准确率,分割精度较低。文献[29]提出一种实时图像语义分割模型ICNet,使模型兼顾实时性的同时保证了准确率。ICNet使用PSPNet的金字塔池化模块融合多尺度上下文信息,并将网络结构划分为3个分支,分别为低分辨率、中分辨率和高分辨率,如图5所示。其中低分辨率分支将中分辨率输出的原图尺寸1/16的特征图进一步缩放至1/32,之后采用空洞卷积扩大感受野,最终以原图尺寸1/32输出特征图,并且与中分辨率分支共享卷积参数与权重;中分辨率分支以原图1/2的分辨率作为输入,经卷积层后得到原图尺寸1/16的特征图,与低分辨率的输出特征图以CFF单元融合得到最终输出;高分辨率分支以原图作为输入,经卷积层后得到原图尺寸1/8的特征图,再通过CFF单元与中分辨率的输出特征图融合,经多倍上采样后将特征图扩充至原图尺寸。ICNet利用低分辨率完成语义分割,高分辨率细化分割结果的策略提高了模型分割精度,此外,其采用的级联标签指导各分支的训练,加快了模型收敛与预测速度,提升了实时性。

ICNet在每个分支训练中添加了损失权重,并对加权的Softmax交叉熵进行优化,其损失函数L可表示为

L=λ1L1+λ2L2+λ3L3

(2)

式中λ1、λ2、λ3——低、中、高分辨分支权重

L1、L2、L3——低、中、高分辨分支损失

通常情况下,如果高分辨率分支权重λ3设置为1,则中分辨率和低分辨率分支的权重λ2与λ1分别为0.4和0.16。

为量化分析ICNet模型针对羊胴体图像数据集语义分割的性能,本文引入图像语义分割任务中常用的像素精度PA(Pixel accuracy)和平均交并比MIoU(Mean intersection over union)作为模型分割性能的判断标准,将模型的分割结果与人工标注图像(真实标签)进行对比分析。PA与MIoU计算式为

(3)

式中PA——像素精度

N——语义类别数,取4

nii——i类语义的真实像素数量

nij——i类语义被识别为j类的像素数量

(4)

式中MIoU——平均交并比

nji——j类语义被识别为i类的像素数量

上述度量标准中MIoU与模型的分割效果成正相关,因其简洁、代表性强,常作为图像语义分割模型性能评估的主要依据。

2 试验与结果分析

基于生成对抗网络及ICNet的羊骨架图像实时分割主要由3个步骤组成:①采集羊骨架图像,并归一化,建立羊骨架图像原始数据集。②基于生成对抗网络的羊骨架图像生成,获取最优模型。③针对“亮”、“暗”图像判断ICNet泛化能力;基于ICNet的羊骨架图像实时分割,并进行对比分析,最后进行ICNet优化。具体流程如图6所示。

2.1 试验平台

本文试验均基于Pytorch深度学习框架在DELL T5810型塔式图形处理工作站上完成,硬件环境为Intel@core64至强W-2145 CPU 3.70 GHz, RAM为64 GB,GPU为NVIDIA P4000-8GB,计算机系统为Windows 10专业版。

2.2 基于生成对抗网络的羊骨架图像生成

2.2.1数据集

由于采集到的羊骨架图像分辨率较高,所占内存较大,如果直接作为后续模型训练的输入会显著增大模型的计算节点数,造成计算溢出,计算机无法承担模型训练任务。因此,将原始羊骨架图像以比例不变性原则缩放至512像素×512像素,经人工筛选,去除失真图像和增大目标与背景的对比度,最后选择1 000幅羊骨架图像作为原始数据集。数据集示例如图7所示。

2.2.2生成对抗网络模型训练

生成对抗网络模型训练的实质在于以生成器G和判别器D反复对抗的方式更新网络参数,利用反向传播降低生成器和判别器的损失函数G_loss与D_loss,使得生成图像接近原始图像的数据分布。

本文基于羊骨架图像原始数据集训练DCGAN与BigGAN,随机选取原始数据集的某单幅图像训练SinGAN。上述3种网络训练超参数设置如表1所示。

表1 3种网络超参数设置Tab.1 Hyperparameter settings of three network

2.2.3羊骨架图像生成结果与分析

图8为DCGAN、SinGAN、BigGAN生成对抗网络针对羊骨架图像原始数据集训练过程中G_loss与D_loss随迭代次数的变化趋势。由图8a、8b可以看出,DCGAN网络在训练初期G_loss随迭代次数迅速降低,当迭代3 000至17 400次时达到最低,随后振荡缓慢上升;其D_loss随迭代次数变化趋势与G_loss相似,在迭代初期迅速降低,然后振荡缓慢下降。SinGAN网络G_loss、D_loss变化情况如图8c、8d所示,G_loss在迭代初期迅速下降,之后于迭代6 000次左右显著上升随即快速下降,然后缓慢降低最终平滑;D_loss呈现出大幅振荡状态,但总体小于G_loss。如图8e、8f所示,BigGAN网络G_loss在训练开始阶段以较大的幅值波动,然后趋于平稳,当迭代至15 600次附近时,迅速上升和下降,最终趋于稳定;D_loss变化趋势与DCGAN网络相似,都随训练进度以小幅振荡形势缓慢降低。通过3种网络G_loss和D_loss的对比变化情况可以得出,针对羊骨架图像数据集生成图像,判别器较生成器均能以少量优势取胜。

本文设置模型训练过程中每迭代200次生成一批羊骨架图像数据,3种网络不同迭代次数生成的羊骨架图像如图9所示。

由图9可以看出,DCGAN网络在迭代13 400次时,生成的羊骨架图像依据图像上下文信息,已经可以区分羊颈部、肋部和脊椎3部位,但特征细节与真实图像存在差距,其最终生成图像图9d品质优于图9c;SinGAN网络生成图像与真实图像相比特征差异明显,且出现失真情况,表明在本试验环境下,SinGAN网络不适用于羊骨架图像生成任务;如图9l所示,随迭代次数的增加,BigGAN网络最终生成的羊骨架图像中羊颈部、肋部、脊椎3部位语义信息保存完整,其颜色、纹理、轮廓特征明显,并且较图9d更为接近真实图像,表明针对本试验中羊骨架图像数据集,BigGAN网络生成羊骨架图像性能优于DCGAN,因此选用BigGAN作为最终的羊骨架图像生成网络。

2.3 基于ICNet的羊骨架图像分割

2.3.1图像标注与数据集建立

本文羊骨架图像实时语义分割模型训练属于有监督学习。采集的羊骨架图像不包含标签及语义信息,需要人工进行图像标注,才能满足模型训练要求。基于BigGAN网络生成的图像与归一化后的原始图像组成羊骨架图像组合数据集,其中,训练集6 000幅,测试集1 500幅,验证集200幅。另外,为验证ICNet网络泛化能力,随机选取100幅同一节能灯光源条件下的羊骨架图像,并将其RGB色彩空间转换为HSV,设置1.5倍和0.8倍两种亮度水平以模拟不同光照强度,最后再将“亮”、“暗”图像的色彩空间转换回RGB,建立不同亮度的羊骨架图像附加测试集共计200幅,其中调亮、调暗图像各100幅。之后2种数据集均采用Labelme图像标注工具,参考Cityscapes数据集格式对羊颈部、肋部、脊椎3部位进行人工标注。

2.3.2基于迁移学习的ICNet模型训练

迁移学习能够保证模型在面对小样本数据集时抑制过拟合现象,同时还可以加快模型收敛,提高泛化能力。因此,本文在ICNet模型训练过程中加载了基于Cityscapes数据集的预训练权重。采用Adam(Adaptive moment estimation)优化器进行梯度下降,设置初始学习率为0.001, Batchsize为4,迭代次数为20 000。另外,设定模型在训练过程中自动保存最优模型,并将其作为羊骨架图像语义分割的最终输入模型。ICNet网络损失函数值随迭代次数的变化趋势如图10所示。由图10可知,损失值在训练初期迅速下降,当迭代次数为2 000左右时开始小幅度振荡缓慢下降,直至迭代次数为16 000次后损失值基本收敛于0.032。

2.3.3ICNet对组合验证集的分割与结果分析

基于训练最优的ICNet模型展开测试,针对验证集获取羊体3部位的MIoU及准确率,以及模型的总体分割准确率和总体MIoU。另外,为了判断模型是否具备良好的实时性,分别记录模型处理单幅图像时间,并求其均值。ICNet针对羊骨架图像中脊椎、肋部、颈部3部位语义分割的准确率、MIoU及单幅图像平均处理时间如表2所示,部分分割结果如图11所示。

表2 基于ICNet的羊骨架图像分割结果Tab.2 Segmentation results of sheep skeleton image based on ICNet

根据图11和表2可知,羊骨架图像中羊颈部、肋部、脊椎3部位被准确分割,各部位区分明显,同时过分割与欠分割现象并不显著。特别是特征复杂的羊脊椎边缘识别明显,这可能是ICNet的低分辨率分支卷积层数更深,多层的卷积运算保证了细节抽象特征的提取。另外,图像背景中与羊骨架肋部颜色特征相似的羊骨架目标,并未对ICNet的分割结果造成干扰,其原因可能为仅去头、净膛后的羊胴体均保留了羊体四肢与带皮颈部,且未呈现脊椎,因此在尺寸、外形轮廓、区域纹理上与羊骨架特征存在明显差异。同时,ICNet的多次上采样特征融合也有利于提高模型的识别精度和降低过分割。最终针对组合数据集的验证集,ICNet模型总体准确率与总体MIoU分别达到97.36%、88.10%,单幅图像平均处理时间为87 ms,表明ICNet能够实现羊骨架图像的准确语义分割,同时具备一定的实时性。

2.3.4不同亮度下羊骨架图像语义分割结果

将基于组合图像数据集训练得到的最优ICNet模型针对不同亮度的羊骨架图像附加测试集展开泛化能力试验,其中部分分割结果如图12所示。

根据图12分割结果可以看出,羊骨架在“亮”、“暗”2种光照强度情况下,ICNet仍然可以实现其图像中3部位的准确分割,且脊椎-肋部、肋部-羊颈部黏连区域边缘区分明显,区域完整,轮廓清晰。最终,对羊骨架图像附加测试集中羊颈部、肋部、脊椎的分割精度与MIoU分别达到92.53%、82.86%,94.37%、84.99%,89.06%、73.95%,说明ICNet能够以较高的精度克服因光源强度不同带来的识别干扰,具备较强的泛化能力。

2.3.5与其他分割算法对比试验

目前,随着卷积神经网络的发展,用于图像语义分割的深度学习方法越来越多,但是,面对不同任务、不同方法的分割性能表现差异明显。为进一步测试本文羊骨架图像实时语义分割方法的优劣性,引入目前图像语义分割任务中常用的U-Net、DeepLabV3、PSPNet和Fast-SCNN 4种图像语义分割模型与ICNet进行对比试验。上述4种模型的训练参数与ICNet相同,均基于自动保存最优模型的策略进行训练,之后针对验证集展开测试。部分分割结果如图13所示,图中从上至下依次为样本1~4。

由图13可知,U-Net、DeepLabV3、ICNet、PSPNet均可以实现4个羊骨架样本图像中颈部、肋部、脊椎3部位的准确分割,并且各部位边缘平滑,细节特征明显,能够满足实际生产中对切割精度的要求。但Fast-SCNN针对样本1和样本3的图像处理中出现过分割与欠分割现象,主要表现为将背景与肋部错误地分割为颈部区域,其原因可能是Fast-SCNN网络深度较浅,同时采用浅层学习下采样模块用于多分支低层特征的提取,在羊骨架图像数据规模有限的情况下,难以提取图像中的深层抽象特征用于网络学习,从而不利于后期的特征定位。而U-Net、DeepLabV3、PSPNet网络深度较深,都采用编码—解码结构,使得模型不仅可以提取更丰富的语义特征,还可以更好地恢复物体的边缘信息。另外,DeepLabV3的空洞空间卷积池化金字塔结构及ICNet和PSPNet的金字塔池化模块使得模型具备获取更多上下文信息及多尺度特征的能力,保证了分割准确率。U-Net、DeepLabV3、PSPNet、Fast-SCNN 4种模型总体准确率、MIoU及单幅图像平均处理时间如表3所示。

由表2与表3可知,基于U-Net的羊骨架图像语义分割模型分割准确率与MIoU最高,达到97.68%与88.56%,较DeepLabV3、ICNet、PSPNet、Fast-SCNN仅高0.11、0.22个百分点,0.32、0.46个百分点,0.65、0.71个百分点,1.22、4.96个百分点,说明5种模型在分割精度方面相差不大,综合图13的可视化分割结果,Fast-SCNN存在部分欠分割与过分割现象,因此只有U-Net、DeepLabV3、ICNet、PSPNet 4种模型可以满足羊骨架图像分割精度的要求。在分割实时性方面,U-Net、DeepLabV3、ICNet、PSPNet单幅图像耗时分别为322、147、87、781 ms,ICNet用时最短,较U-Net、DeepLabV3、PSPNet分别缩短72.98%、40.82%、88.86%,说明ICNet可以兼顾较高的分割准确率和良好的实时性,能够满足羊骨架切割生产线的实际需求。

表3 4种模型分割结果Tab.3 Segmentation results of four segmentation models

由于羊骨架颈部、肋部、脊椎3部位的特征差异,判断模型针对各部分的分割效果同样重要,本文获取了U-Net、DeepLabV3、ICNet、PSPNet、Fast-SCNN分别对羊骨架颈部、肋部、脊椎部位的分割精度与MIoU,如图14、15所示。

由图14、15可以看出,ICNet针对羊骨架3部位的分割准确率与MIoU均优于PSPNet和Fast-SCNN,且与U-Net和DeepLabV3相差不大。最终,ICNet对羊骨架图像中羊颈部、肋部、脊椎分割精度为93.68%、96.37%、87.74%,MIoU为85.85%、90.64%、75.77%,能够满足生产线对羊体各部位分割精度的要求。另外,试验结果表明,ICNet对图像中羊颈部的分割能力较弱,其原因可能为羊颈部和羊肋部存在黏连,且黏连区域特征与颈部区域特征非常相似,但黏连区域属于羊肋部,这种局部连接且特征明显相同的情况影响了模型对羊颈部区域的准确分割。

2.3.6ICNet优化对比试验

综合表2、3与图14可知,ICNet分割精度比U-Net、DeepLabV3低0.32、0.21个百分点,且在脊椎部分分割效果相对较差。其原因可能是脊椎由等距相间的椎骨组成,表型复杂,特征多样,只有较高分辨率特征图才能尽可能保留该特征用于网络学习,而ICNet默认其高、中、低分辨率3分支权重分别为1、0.4和0.16,在羊骨架图像语义分割任务中,该中分辨率分支权重较低,因此,通过调大中分辨率分支权重进行ICNet优化试验。过高的中分辨率权重可能会降低网络对高分辨率特征的敏感度,因而以0.01间隔扩大中分辨率权重至0.46,共计6组对比试验,试验结果如表4所示。

表4 ICNet优化对比试验Tab.4 Optimizing ICNet comparative test

由表4可知,当中分辨率分支权重为0.42时,针对组合数据集ICNet的分割精度与分割脊椎部分的MIoU最高,达到97.62%和79.97%。另外,原U-Net、DeepLabV3、ICNet对脊椎部分的MIoU为80.67%、79.93%、75.77%,经对比,优化后的ICNet像素精度和脊椎分割MIoU与U-Net之间的差距分别缩小81.25%、85.71%,比DeepLabV3和原ICNet提高0.05、0.04个百分点,0.26、4.2个百分点。除此之外,随着权值的不断增大,网络精度显著下降,说明在本试验任务中,保持高、低分辨率分支权重不变情况下,设置中分辨率分支权重为0.42时,针对羊骨架组合数据集ICNet分割效果能够达到最优。

3 结论

(1)采用BigGAN网络生成的羊骨架图像能够有效保留羊颈部、肋部、脊椎3部位的语义信息,与原始图像最为接近,优于DCGAN与SinGAN,能够满足基于计算机视觉技术的羊骨架图像分割数据集要求。

(2)针对组合数据集,ICNet对羊骨架脊椎、肋部、颈部3部位的分割精度、MIoU分别为93.68%、96.37%、89.77%和85.85%、90.64%、75.77%,单幅图像处理时间达到87 ms。对于不同亮度下羊骨架图像附加测试集, ICNet依然能够实现羊颈部、肋部、脊椎的准确分割,说明本文方法在羊骨架图像语义分割任务中具有较高的分割精度、良好的实时性和一定的泛化能力。

(3)与U-Net、DeepLabV3、PSPNet、Fast-SCNN相比,ICNet较前3种方法分割精度相差不大,但单幅图像处理时间分别缩短了72.98%、40.82%、88.86%,虽然Fast-SCNN单幅图像处理时间缩短至49 ms,但MIoU较ICNet下降了4.5个百分点,说明本文方法综合分割能力较优。另外,在本试验环境中,微调ICNet中分辨率分支权重为0.42,能够将分割精度较原ICNet提高0.26个百分点。

猜你喜欢

脊椎骨架语义
真实场景水下语义分割方法及数据集
浅谈管状骨架喷涂方法
睡姿不正确也可引起脊椎弯曲
骨架密度对炭/炭多孔骨架压力浸渗铜的影响
你想不到的“椎”魁祸首:皮肤病可能与脊椎有关
周博士考察拾零(六十六)日光温室前屋面开机具作业门处骨架的处理方法
博泽引领座椅骨架技术发展
首个3D打印人造脊椎成功植入
“吃+NP”的语义生成机制研究
情感形容词‘うっとうしい’、‘わずらわしい’、‘めんどうくさい’的语义分析