APP下载

基于LSGAN及迁移学习的智慧工地监控图像修复和识别方法

2022-10-14朱冀涛徐晓雨

中国测试 2022年9期
关键词:准确率工地卷积

张 涛, 刘 刚, 朱冀涛, 徐晓雨, 徐 岩

(1. 国网辽宁省电力有限公司,辽宁 沈阳 110003; 2. 国网辽宁省电力有限公司建设分公司,辽宁 沈阳 110003;3. 华北电力大学电气与电子工程学院,河北 保定 071003)

0 引 言

随着我国城市化进程的不断推进以及信息技术的不断发展,建筑行业项目监管模式也在不断创新[1]。现阶段主要需求为实现大型工地数据智能分析,提高施工现场管理的“智慧化”水平,实现项目科学管理,使得工程项目效益和价值最大化。通过将视频监控接入智慧工地平台,帮助管理人员远程实时了解现场情况,可以达到降本增效的管理目的[2]。施工现场视频监控的全覆盖性可以为施工过程中危险违规行为识别提供基础,然而由于视频监控摄像头位置固定,施工现场环境复杂,拍摄图像中可能会出现模糊、多姿态及遮挡等问题,导致图像识别过程中出现误检、漏检等情况,所以模糊目标检测及行为识别是当前亟待解决的问题。

目标检测的目的在于寻找定位视频或者图像中是否存在特定的目标物体。在计算机视觉中,目标模糊现象是非常普遍的存在,而模糊图像修复是图像识别的前提,图像识别准确率与修复程度成正相关,修复效果越好识别准确率越高[3]。文献[4]提出利用卷积神经网络结合泊松融合方法对缺失区域进行复原,该方法修复效果较真实,但是参数模型训练过程易出现梯度弥散现象;文献[5]提出一种基于区域分解与合成的目标检测方法,首次分割候选区域,然后整合RoI值高的区域,利用多尺度候选区域增强图像语义,为得到可靠特征,增加无遮挡部分特征的权重值;文献[6]提出一种生成式对抗网络结构(generative adversarial net, GAN),通过生成器与判别器的零和博弈生成接近真实数据分布的合成数据。以上方法主要针对未被遮挡区域进行特征提取与分类,如果图像缺失严重时,网络模型检测准确度就会大大降低。

针对以上问题,本文从修复模糊图像特征的角度出发,提出一种基于最小二乘生成式对抗网络(least squares generative adversarial networks,LSGAN)及迁移学习的监控图像修复和识别方法,用以实现建筑工地科学智慧管理。该方法首先使用样本数据集对网络模型进行预训练,通过生成式对抗网络对模糊图像目标特征进行恢复,获得完整清晰的监控图像;然后引入迁移学习思想,利用ImageNet数据集训练好的GoogLeNet模型对修复后的图像进行自适应特征提取,通过GoogLeNet网络提取的更可靠的特征可以有效提高分类准确率;最后采用长短期记忆(long short-term memory,LSTM)神经网络对图像中目标特征进行检测与分类,快速判别监控图像中是否存在安全隐患,以此可以减小事故发生概率,有效保证施工安全、人身安全等。

1 基于LSGAN的图像复原

生成式对抗网络(GAN)是一种新型无监督学习的机器学习算法,其核心思想在于零和博弈[7]。GAN核心组成部分为生成器(generator)与判别器(discriminator),其中,生成器主要负责学习真实数据的潜在特征,而后根据学习到的特征生成新样本数据;判别器为二分类器,主要用于判别生成数据与真实数据的差异,并最大化判别准确率。训练GAN网络的目的在于使生成数据概率分布和真实数据无限接近,从而拟合得到真实数据[8-9]。GAN模型结构示意图如图1所示。在图1中,G(z, θg) 为具有多层感知功能的生成器,D(x, θd)为具有分类功能的判别器,θg,θd分别代表生成器和判别器内的参数。生成器和判别器相似于卷积神经网络,在网络训练过程中可以不断迭代学习,自动更新内部参数。

图1 生成式对抗网络结构示意图

训练过程中,用pdata(x)表示真实数据分布,pg(x)表示假数据分布,pz(x)表示噪声分布,生成器不断学习提高欺骗判别器的能力,即学习最小化lg(D(x)+lg(1-D(G(z)))。同时,判别器不断学习提高区分伪造图与真实图的能力,即学习最大化lg(D(x)+lg(1-D(G(z)))。生成器和判别器的博弈过程可以描述为:

当生成器固定时,若函数V(D,G)取得最大值时,需满足如下条件:

生成器在 m axDV(G,D)中取最小值时,整个网络达到纳什均衡,即:

当且仅当pdata(x)=pg(x)时 ,取得最小值。

达到纳什均衡后生成器生成的图片与真实数据几乎一致,香农散度为0,C(G)取得全局最小值。

但是,一般的生成式对抗网络判别器的损失函数为Sigmoid函数,Sigmoid交叉熵损失函数主要用于判别输入的图片是否准确区分,对于生成图像分类情况不做惩罚,导致训练过程中容易出现梯度消失情况。文献[10]提出一种最小二乘生成式对抗网络,该网络生成器和判别器的损失函数由原来的交叉熵损失函数优化为最小二乘函数。

生成器损失函数为:

判别器损失函数为:

式中:a——生成图标签;

b——真实图标签;

c——生成器期望判别器对生成图判别的标签。

当pdata(x)=pg(x)时,网络达到纳什均衡。

网络中的最小二乘损失函数可以在判别器分类错误的情况下依然提供学习误差,如果判别器分类准确,最小二乘损失函数可以对远离决策边界的点进行惩罚,使判别器具有强辨别力,可以有效减小梯度消失现象,增加网络稳定性,提高网络收敛速度及训练处理速度。

2 基于迁移学习与LSTM的目标检测与识别

2.1 迁移学习

卷 积 神 经 网 络(convolutional neural network,CNN)是一种深度学习模型[11],它可以通过各层级高效提取图像的深层特征,目前广泛应用于人脸识别、目标检测、语义分割等领域。CNN由输入层、卷积层、池化层、全连接层、输出层等构成,其基本结构如图2所示。目前常见的CNN网络架构包括VGG、AlexNet、GoogLeNet等。

图2 卷积神经网络的基本结构

迁移学习(transfer learning)的主要思想为把已经训练好的模型(预训练模型)参数迁移到新的模型中帮助新模型训练求解。应用迁移学习的网络模型优势在于数据依赖性小、网络训练速度快及学习效率高。GoogLeNet网络模型作为一种典型的迁移学习模型,共有22层,该网络神经元个数较多,所以对于样本数据的抽象特征提取能力很强,并且该网络的3个Loss值可以进行不同层的输出。GoogLeNet网络模型结构如图3所示。

图3 GoogLeNet网络模型结构图

GoogLeNet模型的核心在于Inception Module。Inception Module采用NIN(Network in Network)思想[12],该模块是一种网中网结构,它既可以增加网络深度,又可以增加网络宽度。Inception Module结构如图4所示。Inception结构中多尺度卷积核与池化层并行排列,所以Inception模块可以实现多尺度局部特征提取。其中多个1×1的卷积核可以有效提升卷积感受野,有利于提取更丰富的局部特征,同时通过降维加快网络训练速度。利用迁移学习的思想可以避免超参数的设置,减少人为因素的影响,使整个网络提取特征更加智能化。

图4 Inception Module

本文主要进行工地监控视频的目标检测与识别,由于施工环境复杂程度高,特征丰富,识别难度较大,根据样本特点选择GoogLeNet网络模型作为训练模型。网络训练输入为图像像素值,特征提取函数为:

式中:w——权重值;

bk——偏置量。

采用不饱和非线性激活函数ReLU函数,表达式为:

利用航拍的工地图像训练已预训练的GoogLeNet网络,通过该网络提取图像特征,可以加快网络的训练过程,并且能够避免整个辨识系统陷入局部最优解。

2.2 LSTM神经网络

长 短时记忆(long short-term memory, LSTM)神经网络是一种新型深度学习神经网络[13]。其训练过程采用多门协作方式,神经网络中的记忆单元可以使记忆信息在时间上可控,网络中的长滞留架构可以提高训练过程的鲁棒性,且使得梯度不会爆炸和消失[14-15]。LSTM神经网络单元主要结构如图5所示。从图可以看出,LSTM神经网络主要组成部分为输入门、遗忘门和输出门。

图5 LSTM神经单元结构图

1) 输入门:主要用于控制输入信息的读取;首先保存输入信息为细胞状态it,其次将新信息与细胞状态gt结合产生新记忆状态ct,此运算过程为:

2) 遗忘门:主要作用是计算信息的遗忘程度,遗忘门内的数据经过sigmoid函数处理,仅输出0或1,0代表全部遗忘,1代表全部保留。

3) 输出门:主要负责判断是否输出新的胞信息。

式中:x——输入向量;

y——输出向量;

W——待训练参数。

GoogLeNet-LSTM网络既具有从图像中提取局部特征的优势(GoogLeNet网络),同时具有序列中连接所提取特征的递归神经网络的优势(LSTM网络)。GoogLeNet-LSTM网络结合了两者的优势,预测效果上优于单一网络。

3 智能系统识别流程

相比传统的模式识别方法,通过迁移学习的方式实现模式识别,不需要手工地从数据中挖掘特征。通过航拍工地图像训练已预训练的GoogLeNet网络可以不用事先设定超参数,避免网络过拟合或陷入局部最优解。将提取出来的特征输入到LSTM中,利用其核心公式,构建判别特征模型,在R-CNN框架下实现智慧工地智能系统的识别。整个系统的智能检测流程如图6所示。详细步骤描述如下:

图6 智慧工地智能检测流程图

1) 利用LSGAN的生成器与判别器的相互博弈对拍摄的模糊图像进行复原。

2) 通过Selective Search方法,将图像分割成2000个候选区域。

3) 利用GoogLeNet网络对每个候选区域自主挖局图像的特征向量。

4) 将得到的特征向量输入到LSTM分类器中,判别特征向量属于哪一个类别。

5) 使用回归器对候选框的位置进行精细修正,实现智慧工地智能检测。

4 实验结果与分析

4.1 实验环境与准备

实验平台为Windows10操作系统,CPU为AMD Ryzen 5 3600,GPU为NVIDIA RTX 2060 s,内存16 GB,编程软件为Matlab R2020a。选取5000张施工现场图像作为数据集,随机选取4000张图像作为训练集,800张作为测试集,200张作为验证集。

4.2 LSGAN图像复原实验分析

LSGAN中生成器网络采用全卷积结构,其网络结构参数如表1所示。6个卷积层处理图像特征,引入2个残差模块进行特征转换,同时可以避免网络训练过程中梯度消失和退化问题,每个残差模块包含两个1×1的卷积层,每一个卷积层后使用ReLU函数作为激活函数。

表1 生成器网络结构参数

鉴别器由卷积层和全连接层构成,网络层具体参数如表2所示,激活函数采用LeakyReLU函数,全连接层单元数为4 096、1 024、1。

表2 鉴别器网络结构参数

LSGAN损失函数变化曲线如图7所示,从图中可以看出,LSGAN中生成器和判别器的损失函数随着网络迭代次数的增加,呈现出快速下降趋势,并在最后有小幅度波动,这表明网络稳定性较好,收敛速度快,整体训练过程达到了纳什均衡的状态。

图7 LSGAN损失函数变化趋势

为了更加直观地显示图像复原效果,图8给出了维纳滤波处理(Wiener filtering processing, WFP)、约束最小二乘滤波处理(constrained least squares filtering processing, CLSFP)和LSGAN处理3种图像复原方法的结果。从主观视觉上可以看出,3种方法在图像清晰度上都有所提升,但是LSGAN的图像复原效果在视觉上更好,可以较好地对模糊图像进行去模糊化处理。

图8 不同方法下的图像复原结果

通 过 峰 值 信 噪 比(peak signal to noise ratio,PSNR)和 结 构 相 似 性(structural similarity index,SSIM)对实验结果进行客观评价,所得结果如表3所示。PSNR越高,代表两张图片越相似。SSIM是通过亮度和对比度等信息对图像的相似性进行评价。由表可以看出,LSGAN的两种评价指标均高于其他两种方法。利用LSGAN复原后的图像可以保证图像的清晰度和图像的重要信息,为后续的深度学习分类打下了良好的基础。

表3 不同图像复原方法的客观评价指标

表4给出了不同样本数量下去模糊和不去模糊的平均准确率对比结果。由表可知,随着训练样本数目的增多,平均确率逐渐上升,且图像去模糊化的准确率明显高于图像不去模糊的准确率,准确率可以达到99%以上。

表4 不同样本数量下平均准确率

4.3 GoogLeNet-LSTM下的识别结果

图9为GoogLeNet网络的整体训练过程。由图可知,训练样本的准确率曲线逐渐上升最终达到100%,且验证样本的准确率曲线也稳定达到100%。训练样本的损失函数曲线从高位迅速下降到低位,并最终趋于0,验证样本的损失函数曲线也最终趋于0。以上说明整个网络训练良好,并且没有出现过拟合现象。

图9 GoogLeNet网络的训练过程

利用第3节的智能系统识别流程对工地工人是否正确佩戴安全帽进行辨识定位,图10显示了不同背景、不同光照、不同拍摄角度和不同拍摄距离下的安全帽辨识定位视觉检测效果。图10用绿色框框出被检测目标,可以看出,所提方法能够在不同条件下准确识别出工人是否佩戴安全帽。

图10 安全帽智能识别结果

图11为抽烟目标检测结果,图中的百分比代表属于该类别的概率,可以看出此时绿色框的三个抽烟人体目标均被准确检测。本文方法还可以对工人是否穿工服,是否佩戴安全手套进行检测,为工地管理提供一种新的机制。

图11 抽烟识别结果

5 结束语

针对工地巡检图像模糊难以有效完成智能监督,提出一种基于最小二乘生成式对抗网络和GoogLeNet-LSTM的智慧工地监控图像修复和识别方法,得出以下结论:

1)通过LSGAN算法复原图像,可以将工地巡检模糊图像变得清晰,主观视觉效果好,客观评价指标高,有利于后续通过深度学习实现智能监控打下良好基础,利用复原后的图像较用模糊图像的辨识准确率要高。

2)利用GoogLeNet网络可以自主挖掘图像特征信息,避免了人工选取特征向量,拥有更好的智能性。LSTM对GoogLeNet提取的特征向量进行分类,具有较高的准确率。

本文方法可以准确地标注和定位图像中待检测目标,为工地智能巡检提供一种新的机制,可以提高工人们的安全意识,有效地预防安全事故的发生。

猜你喜欢

准确率工地卷积
基于全卷积神经网络的猪背膘厚快速准确测定
工地上的一对夫妇
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
多层螺旋CT技术诊断急性阑尾炎的效果及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
波比的小工地