属性一致的物体轮廓划分模型
2021-10-31孙劲光董祥军
孙劲光 李 桃 董祥军
①(辽宁工程技术大学 葫芦岛 125105)
②(辽宁矿山安全数据工程技术研究中心 葫芦岛 125105)
③(齐鲁工业大学(山东省科学院)济南 250353)
1 引言
皮带运输作为自动化采矿中的主运输系统,其稳定的工作性能和准确的停机操作等至关重要。矿石过大将造成皮带运输机停机等事故;由于大小、形状不一的矿石在皮带机上的位置随机,亮度变化明显的点而非矿石的轮廓点;现有模型采用亮度变化明显的点作为物体的轮廓点,在对大矿石进行轮廓划分中,出现了大概率的错划现象,使得物体轮廓的绘制产生了较大的偏差。因此,准确地将物体的轮廓在极小的偏差内标记出来,对加载至主运输系统中的矿石粒度生成仪至关重要。
边缘检测的目的是标识数字图像中亮度变化明显的点,目前采用全卷积网络模型(Fully Convolutional Network,FCN)[1]进行显著性区域检测效果尤为突出;Liu等人[2]提出了一种改进的层次深度卷积神经网络(Deep Hierarchical Saliency,DHS)模型;Li等人[3]提出了像素级全卷积深度对比度学习(Deep Contrast Learning,DCL)模型,充分发挥了FCN端到端的检测模型具有输入可为任意大小图像的优点。2015年,Xie等人[4]提出面向边缘检测任务的HED (Holistically-nested Edge Detection)模型,采用端到端的网络结构,边缘提取效果提升显著;2016年Zhao等人[5]提出PSPNet聚合不同区域的上下文信息,提高获取全局信息的能力。2017年Badrinarayanan等人[6]提出了SegNet用于自动驾驶图像语义分割后,进行边缘检测。2018年余春艳等人[7]提出的HED模型为基础架构,引入去卷积模块与跳跃嵌套结构(Deconvolution and Skip Nested layers,DSN)以融合不同层次特征图,并添加全连接条件随机场(Fully Connected Conditional Random Field,FC-CRF)优化显著性图,实现了端到端的HED-DSN 模型。2019年张冬明等人[8]利用已有显著图特征,构建深度融合模型,解决多显著图有效融合问题,来提升显著性检测的性能;Hou等人[9]集成了低级和高级功能显著性检测,提出编码距离映射用于测量超像素之间的相似性;纪超等人[10]提出一种结合区域特征-全文信息的深度学习框架,用于显著区域检测计算的方法;Wu等人[11]提出FastFCN更进一步地带动了语义分割的发展,为边缘检测提供了保证。2020年,郭辉等人[12]研究的车辆边缘网络中,基于多参数MDP模型的动态服务迁移策略,结合车辆及时延限制构造候选服务器集合,提出了基于Bellman广告表示的长期收益值进行迁移决策;范九伦等人[13]提出了一种利用倒数粗糙熵的基于均匀性直方图粒子选取方式,对图像进行粒化的方法;廖苗等人[14]对于超像素难以有效划分图像目标边界的问题,提出了利用局部信息进行多层级简单线性迭代聚类的方法,有效地解决了图像过分割和欠分割问题;Li等人[15]通过单波段图像解码“B,R,G”和进一步累积帧积累技术获得高级别图像灰度后,通过神经网络实现了3幅单波段图像的信息融合,进而利用所建立的模型进行边缘检测。
2 本文方法
本文提出一种全局与局部属性具有一致性的深度残差全卷积网络(Residual U-shaped fully convolutional network,ReUnet)作为物体轮廓划分模型,如图1所示。模型使用两个附加网络,即全局和局部上下文判别网络,在训练过程中通过对抗式损失,约束物体轮廓划分网络的权重学习过程,使物体轮廓划分网络能够真实地划分图像。该模型采用分阶段的训练方法,在加速网络拟合的同时进一步提高物体轮廓划分的准确度。
图1 属性一致的物体轮廓划分模型框架
2.1 物体轮廓划分网络
物体轮廓划分网络以深度残差网络为基础,按照编码器-解码器的形式构建。网络的输入是RGB三通道原始图像,网络的输出为RGB三通道图像划分结果。物体轮廓划分网络的结构详见表1。
表1 物体区域划分网络结构
2.1.1 残差学习神经网络映射
引入残差学习解决神经网络中因深度的增加而发生梯度消失或爆炸的情况,模型与输入数据之间的映射为
其中,YM(xi)为映射函数,xi为输入的数据或第i层特征,M为网络层数,F为残差函数,wm={wm,k|1≤k≤K}则为一组与第m个残差单元相关的偏置项、K为每个残差单元中的层数,σ为激活函数。
从式(1)可以看出,网络中使用了残差累加的线性计算,而不是非线性连乘连接,这样的计算方法不仅避免了连乘计算的梯度求解问题,还会减少权重层的计算,使得网络的权重层更容易优化。
为了增加特征图的通道数,引入线性映射保证捷径连接(shortcut connections)的维度与特征图输入的维度相同,采用式(2)来调整xi的维度。
其中,W表示卷积操作。
物体轮廓划分网络中,采用式(3)的GN(Group Normalization)归一化方法,解决训练的小样本的问题。
其中,x为卷积层输出的特征,xi为特征图中的位置,i为特征图的4个维度的坐标i=(in,ih,iw,iC),N为批处理数,h,w,C分别为特征图的高、宽、通道数,ε为常数,均值μi,σi为其均值和标准差,Si为计算均值和标准差的像素点集合。
2.1.2 残差学习重塑卷积神经网络映射
对于像素级的轮廓边缘特征提取时,为了恢复下采样时丢失了的细节,本文提出了重塑上采样卷积,用于实现放大特征图尺寸的目的。
设下采样得到分辨率为h×w,通道为C的特征图,通过2C个1×1的卷积将其通道数增加2倍,经过正则化操作和激活函数得到h×w×2C的特征图。若将这个特征图分为C/2个部分,对每一部分的特征图进行重塑操作计算见式(4)
其中,PS(T)w,h,C为重塑后的特征图,T为下采样的特征图,w,h,C分别为特征图的宽、高和通道数,r为特征图的采样倍数。
经过重塑上采样卷积操作,实现特征图分辨率扩大2倍、通道数缩小1/2的上采样过程。
2.2 图像判别网络
为增强网络对全局语义的理解以及对局部细节的把控,网络结构在采用扩张卷积与残差跳跃连接的基础上,运用对抗网络的思想,通过上下文全局和局部判别网络,对物体轮廓划分网络在网络结构上进行优化,以提高物体轮廓划分效果,如图1所示。
由图1知,全局上下文判别网络的输入为缩放至256像素×256像素的整幅图像,输出为输入图像是真实图像的概率。全局上下文判别网络的作用是监督物体轮廓区域划分网络能真实地将轮廓大小不同的矿石边缘区域的划分,确保所划分的区域与全图在属性上保持上下文一致性。全局上下文判别网络结构详见表2。
表2 全局上下文判别网络结构
为了实现属性一致,在设计全局判别网络的基础上,设计了一个局部判别网络用于双路并行判别,见图1。由于局部判别网络的图像尺寸为全局判别网络的一半,所提取的特征相应地减少,为提升判别效果和减少网络训练时的计算消耗的角度考虑,加之卷积核与步长的影响,在局部判别网络结构设计时移除了全局判别网络的第1层。虽然局部上下文判别网络在结构上与全局上下文判别网络基本一致,但由于该判别网络的输入是包含区域划分错误的128像素×128像素范围的图像,当图像为真实图像时,随机选取全图1/4大小的图像块作为输入。局部上下文判别网络的作用是增强图像区域的细节表现,降低生成纹理的模糊程度。局部上下文判别网络结构详见表3。
表3 局部上下文判别网络结构
对抗式损失用于提高物体轮廓划分网络的精度。全局和局部上下文网络两个子判别网络各自输出一个结果,根据子判别网络的权重综合计算得到最终的判别结果,这样做既有助于判别网络的拟合,又能够提高判别网络的精度,间接提高了物体轮廓划分的精度。
2.3 损失函数
为使物体轮廓划分网络模型能准确地对区域进行划分,取得较高的准确率,本文使用了多个损失函数进行属性一致的物体轮廓划分网络的训练。
2.3.1 ReUnet损失
设图像判别网络用函数D(x,Mc)表示。为避免反向传播训练不稳定性的不利影响,采用洛瓦斯损失函数作为第1阶段ReUnet网络的最小损失函数,见式(5)。
2.3.2 对抗式损失
设图像判别网络用函数D(x,Md)表示。在网络模型训练的第3阶段,物体轮廓划分网络和图像判别网络串联训练、联合优化,对于整个图像Re-Unet模型,优化函数可以定义为
其中,Md表示随机区域,期望值为一个训练批次中图像x的像素平均值。
结合图像ReUnet损失和对抗式损失,得到最终的联合优化函数为
其中,λ1和λ2分别为物体轮廓划分和对抗式损失的权重,经多次实验总结得到权重参考值为λ1=0.9,λ2=0.01。联合优化函数适用于训练的第3阶段,即物体轮廓划分网络与图像判别网络联合训练,此阶段对物体轮廓划分模型进行微调,提高物体轮廓划分效果。
2.4 模型训练
为加速网络模型拟合并提高物体轮廓划分的准确度,本文采用分阶段训练的方式,交替训练物体轮廓划分网络和图像判别网络,具体训练步骤如下:
输入:附加错误划分区域的图像X
输出:正确划分区域的图像Y
步骤 1 从训练集中随机抓取图片并做缩放、随机翻转等预处理。
步骤 2 第1阶段训练
(1)用随机大小的错误划分区域的图像Mc输入物体轮廓划分网络,进行图像的区域划分;
(2)根据输入、输出图像,用式(5)计算ReUnet损失,并更新物体轮廓划分的网络参数。
步骤 3 第2阶段训练
(1)用随机大小错误划分区域图像Md输入参数固定的物体轮廓划分网络进行图像区域划分;
(2)并采用二分类交叉熵损失(BCE_Loss)计算图像判别损失,并更新图像判别网络参数。
步骤 4 第3阶段训练。
(1)用随机大小错误划分区域图像Md输入参数固定的物体轮廓划分网络进行图像区域划分;
(2)将物体轮廓划分网络与物体轮廓划分判别网络联合训练,用式(7)计算物体轮廓划分损失,根据联合损失对整体网络模型进行微调。
3 实验验证
本文的实验在Ubuntu18.04.2系统下的Pytorch 1.1.0进行训练和测试。硬件环境为Intel®CoreTMi7-8700K处理器(3.70 GHz)、32 GB内存、NVIDIA GTX 1080Ti显卡。物体轮廓划分网络模型进行一次完整的训练需要28 h左右,整个训练周期约为14 d。训练好的模型图片轮廓划分时间约为5 fps。
传统轮廓划分方法是以图像物体边缘特征提取、像素间变化为分割基准,进行物体区域划分,因此出现了将一个大矿石作为(划分成)多个小矿石和将多个小矿石作为(划分成)一个大矿石的现象。
为解决上述问题,确保大矿石划分的准确率,实验制作了2300余样物体轮廓样本,并按样本的长、宽、投影面积等进行了划分。
为验证ReUnet在物体轮廓划分特别是矿石分析中的有效性,并应用到矿石粒度检测仪皮带运输机上,根据矿石轮廓划分准确标准,对矿石轮廓划分进行了验证;分别进行了大矿石划分实验、小矿石划分实验和整体划分实验;并在每类实验中,与自动阈值划分方法的结果进行了对比,实现了主观效果和客观指标的横向对比,综合评估了本文提出的模型。
3.1 实验样本的制作
由于矿石粒度采集的随机性,无通用的矿石粒度采集样本可用,因此,在实验中自行自制样本。在样本制作中,由于所抓拍的图像是将立体的矿石在2维图像中展示出来,所以在标注中,将具有一定高度的物体及在不同方向下光照所产生的阴影面,均作为物体的轮廓,一并标注为物体所在区域;这样,对于不规则形体矿石,避免了由于亮度不同所产生的像素颜色值的差异信息。
图2给出了根据矿石的长度Length、宽度Width、面积Area划分的大、较大、中、小、较小5个等级、不同颜色的标注矿石。
图2 不同等级的样本制作图
3.2 实验结果与分析
图3为实验欲划分的样本原始图;图4为传统方法划分的物体轮廓标注图。
(1)大矿石轮廓划分实验。图5为经本文提出的物体轮廓划分网络ReUnet所标注出的大矿石标注区域图。
从图4(a)与图5(a)可以看出,传统方法将图3(a)中右侧的2个大矿石划分为若干个小矿石;同样图4(b)—图4(e)与图5(b)—图5(e)均存在将大矿石划分为多个小矿石的情况。图3(b)所示的区域A中,由于存在大量不成粒度的岩土和小颗粒覆盖,传统方法可将区域A错误地标为若干个小粒度矿石,本文方法无法将此区域小颗粒下的大矿石标注出来。
图3 原图片
图4 传统方法的矿石轮廓划分图
图5 ReUnet大矿石轮廓划分图
通过对矿石粒度生成仪每天84个时间段,1个月的图片进行分析后,得出表4中不同方法大矿石轮廓划分的百分比。
表4 大矿石轮廓划分准确率
为确保大矿石在运输中皮带不出现卡、顿等现象,表4给出了大矿石轮廓划分的准确率。其中:传统方法是采用了灰度的2维Otsu自动阈值分割方法得到的结果,ReUnet则为本文提出的物体轮廓划分模型划分的结果。
对ReUnet实验结果进行说明:在1470张矿石图片中含有大矿石2370个,2364个大矿石被准确地分割了出来,故准确率为99.75%,有5个非大矿石错误地划分成了大矿石,另有3个大矿石没有被准确地分割出来,故误判率0.21%。在大矿石区域划分时,对所划分出的区域面积占大矿石本身区域的90%以上,80%~90%,70%~80%和60%~70%的情况进行了统计,ReUnet在区域面积90%以上的大矿石为2301个,80%~90%的大矿石63个;而传统的方法对大矿石所占60%区域进行了划分后,周围的区域划分成了若干的小矿石。
由于ReUnet没有对大矿石区域面积所占比例低于80%进行错误划分的情况发生,说明该模型对具有一定高度的物体,均能够忽略其在不同方向下光照所产生的阴影面,而是以物体的轮廓为基准,一并标注为大矿石区域,同时说明了全局和局部上下文判别网络的有效性。
(2)小矿石轮廓划分实验。图6显示的是经本文提出的物体轮廓划分网络ReUnet所标注出的小矿石标注区域图。
图4(a)与图6(a)为小矿石传统轮廓划分与ReUnet轮廓划分图。从图中可以看出,由于传统方法将图右侧的2个大矿石划分为若干个小矿石,这样小矿石划分的准确率将降低;同样图4(b)—图4(e)与图6(b)—图6(e)均存在将大矿石划分为多个小矿石的情况,以图3(d)中物体o为例,由于传统方法仅将该物体上表面作为物体的轮廓,见图4(d),而未将厚度所占据的区域作为整体轮廓,这样将会造成其轮廓误差偏大,而ReUnet则最小地降低了该误差,见图6(d)。表5为小矿石轮廓划分结果。
表5 小矿石轮廓划分结果
图6 小矿石轮廓划分图
ReUnet实验结果说明:在1470张矿石图片中共含有小矿石28812个,其中28518个小矿石被准确地分割了出来,故准确率为98.98%;294个非小矿石错误地划分成了小矿石,故误判率1.02%。
由于ReUnet对小矿石进行划分时,极小矿石叠加误识为小矿石的误判率仅为1.02%,说明ReUnet模型对小矿石划分时,也具备忽略其在不同方向下光照所产生的阴影面,而是以物体的轮廓为基准,一并标注为小矿石区域,再次验证了全局和局部上下文判别网络的有效性。
(3)整体轮廓划分实验。图7显示的是经本文提出的物体轮廓划分网络ReUnet所标注出的矿石标注轮廓区域图。
从图4与图7可以看出,除大、小矿石外,传统方法在进行矿石区域划分时,均存在以表面像素变化进行判别的情况;ReUnet模型也存在当大面积区域出现时,而无法进行判别而错判的情形,以图3(e)中A区域为例,在图7(e),整体确认为较大矿石的情形。为减少当极小矿石聚集和光线照射,出现由小集聚成大矿石的情况,应注重样本的采集及模型的训练,改善此类情况的发生。
图7 矿石轮廓划分图
4 结束语
本文提出了一种基于属性一致性、结合生成式对抗网络思想的物体轮廓划分模型,用于更好地解决皮带运输中矿石粒度生成仪进行矿石轮廓划分方法。该模型从图像全局语义理解、全局与局部属性一致的角度出发,针对现有工作存在的问题,借鉴U-net网络,提出一种新的物体轮廓划分模型ReUnet,通过多方面的改进完善,使模型更加有效地对矿石进行轮廓划分,特别是对大矿石的划分具有极其优良的效果。尽管深度学习具有强大的学习能力和表示能力,由于岩石的特性不一,矿石采集中所涉及场景随机性较强,因此本文所提出方法可以根据不同岩层地带条件的实际情况,对训练集的制作达到精良,并需要对网络模型进行调整并进行迁移学习(transfer learning)、微调(fine-tune)等操作,在其训练难度与时间代价均在可接受的范围内,以便达到更好的效果。