APP下载

基于改进VGG网络的火灾图像识别

2023-09-14陈跨越王保云

现代信息科技 2023年13期
关键词:深度学习

陈跨越 王保云

摘  要:针对不同场景下火灾图像的识别问题,提出一种利用残差网络改进VGG16的模型。首先,将VGG16原有的3层全连接层改为1层,并增加dropout层以防止过拟合。其次,在残差块中的卷积层之后添加BatchNorm2d函数,对数据进行归一化处理。结果表明,改进的VGG16网络准确率、召回率和AUC值等指标性能均优于VGG16和Resnet34网络,能够对火灾图像进行快速、准确的识别。

关键词:火灾图片;残差网络;VGG16;深度学习

中图分类号:TP183;X928.7    文献标识码:A  文章编号:2096-4706(2023)13-0075-05

Fire Image Recognition Based on Improved VGG Network

CHEN Kuayue1, WANG Baoyun1,2

(1.School of Mathematics, Yunnan Normal University, Kunming  650500, China; 2.Key Laboratory of Modeling and Application of Complex Systems in Universities of Yunnan Province, Kunming  650500, China)

Abstract: A model using residual network to improve VGG16 is proposed for the recognition of fire images in different scenarios. Firstly, change the original 3-layer fully connected layer of VGG16 to 1-layer and add a dropout layer to prevent overfitting. Secondly, add the BatchNorm2d function after the convolutional layer in the residual block to normalize the data. The results show that the improved VGG16 network performs better than VGG16 and Resnet34 networks in terms of accuracy, recall, and AUC values, and can quickly and accurately recognize fire images.

Keywords: fire image; residual network; VGG16; deep learning

0  引  言

火災是指爆炸或燃烧在时间和空间上不受控制而引起的重大灾难,会对人身与财产安全造成严重威胁[1]。因此,如果能够正确预测火灾的发生,并在事前采取预防措施,就可以将损失降至最低。

目前关于火灾检验的方法大致有以下三种:一是使用颜色检测火灾。颜色是火焰最显著的静态特征[2],这种识别火灾的方法主要利用样本中颜色与亮度的相关信息。先提取出有特征的区域,然后对该区域进行分析。但当取样中有与火色相近的物体颜色时,使用这种方法就会有很多误预判。二是利用各种传感器对火灾进行检测。将传感器提供的火灾信息用智能技术处理体现了这种检测模式的进步性,根据火灾发生时的温度、烟雾等信号判断是否发生火灾[3]。但该检测系统易受周围电子噪声及环境的影响,误报率极高,并且这种方式不能掌握现场火灾的情况[4]。三是使用图像检测技术识别火灾。目前用于火灾检测的图像检测技术分为传统的图像检测技术和深度学习技术[5]。传统的图像检测技术相对于传感器识别火灾而言,在识别范围、效果、抗干扰等方面有了很大的进步,但也需要人工提取特征,这就会造成准确率有限,并且过程复杂等问题。于是有人提出了运用深度学习技术来解决上述问题的火灾检测方法。一般的深度学习网络会随着网络层数的增加导致算法的复杂度逐渐递增,同时使调取参数的数量增大,在网络结构中加入残差模块可以一定程度解决这一问题。

针对图像识别问题,本研究运用残差模块来改进VGG16网络的深度学习方法,对残差模块加入了Batch Normalization进行归一化处理并让网络的全连接层数减少以提高运算效率。

1  实验数据

本研究所采用数据来自Visifire数据集和项目组自行收集的火灾图像。共包括15 000张图片,其中不同场景下有火灾图片共6 600张,无火灾图片共8 400张,其部分样本如图1所示。其中图1(a)为不同光照强度、近景远景、不同场景下的火灾数据集部分样本,图1(b)为亮光、红黄物体等无火灾数据集部分样本。

为了模型的训练要求,我们将有火灾的图片作为正样本(记为0),将无火灾的图片作为负样本(记为1)。为了避免模型在训练过程中产生过拟合或欠拟合现象[6],各类别的训练集、测试集按照4:1的比例进行划分,那么原始数据被划分为如表1所示。

2  改进的VGG网络

VGG16是神经网络中一个经典的模型[7]。VGG16的显著特征主要体现在三个方面:一是卷积层均采用小卷积核尺寸(3×3),二是池化层均使用同样的池化核参数(2×2),三是模型使用多个卷积层和池化层堆叠(stack)的方法,可以创建深度网络结构[8]。但是VGG16网络模型的不足之处也比较明显:由于VGG16的网络结构较深,因此会延长网络的训练时间,参数的调取量也较大;同时又需要有较大的存储空间,因此有不利于调配等缺点。

本研究对VGG16网络进行如下改进。因为火灾识别是一个二分类问题,不需要复杂的分类层,所以保留VGG16原有的卷积层、激活函数和池化层。在进入网络之前,先将样本图片统一为224×224大小。为了减小参数的大小,将原有的3层全连接层改进为1层全连接层,使用ReLU[9]激活函数,其计算如式(1)。为防止过拟合,增加了dropout层[10],并在网络结构中加入残差模块。

f (x) = max (0,x)                   (1)

改进后的VGG16网络结构框架,如图2所示。

残差块结构图如图3所示,残差神经网络(ResNet)于2015年被提出,其特有的网络结构可以克服一般网络由于深度增加而形成的梯度破坏或消失以及训练持续时间过长等问题[11],残差模块(Basic Block)的结构如图3(a)所示。而在残差块中的卷积层之后添加Batch Normalization(BN)对数据进行归一化处理,这样网络的性能就不会因为在ReLU前由于数据太大而变得不稳定。改进后的残差模块结构如图3(b)所示。

3  实验结果与分析

3.1  实验环境与实验流程

模型的训练和测试都在PyTorch框架内完成。硬件环境为Intel(R) Xeon(R) CPU E5-2680 v4 @ 2.40 GHz CPU,NVIDIA RTX A2000 GPU;软件环境为Ubuntu 18.04操作系统,Python 3.8,CUDA 11.3,PyTorch 1.11.0, torchvision 0.12.0,torchaudio 0.11.0以及图像相关的第三方库。

模型训练时采用了GPU加速,具体训练设定如下:epochs设定为250,batch_size设定为32,lr设定为0.001,优化方法为随机梯度下降法(SGD)[11],损失函数为nn.CrossEntropyLoss()(交叉熵损失函数[12]),其计算如式(2):

每次实验,在全部的样本数据中随意抽出正负样本各20%当作训练集,其余的80%作为测试集,实验流程如图4所示。

3.2  评价指标

在测试集中根据神经网络的结果,以准确率、精确率、召回率、AUC值等作为评价指标对网络模型进行评估。这些评价指标均是数值越高,模型的分类效果越好。其中准确率(Accuracy)是指所有样本中预测正确的比例,其计算如式(3):

其中TP表示正样本被预测正确的数量,TN表示负样本被预测正确的数量,FP表示负样本被预测为正样本的數量,FN表示正样本被预测为负样本的数量。

精确率(Precision)是指正样本预测正确的数量占所有预测为正的比例,其计算如式(4):

召回率(Recall)是指正样本预测正确的数量占所有实际为正的比例,其计算如式(5):

AUC(Area Under ROC Curve)值是ROC曲线下方与坐标轴围成的面积,面积越接近1,其识别能力越强。ROC曲线是反映敏感性和特异性连续变量的综合指标,以伪正类率(False positive rate, FPR)为横坐标,以真正类率(True positive rate, TPR)为纵坐标,其中伪正类率是指负样本被预测为正样本的数量占所有实际为负的比例,其计算如式(6):

真正类率是指正样本被预测正确的数量占所有实际为正的比例,其计算如式(7):

3.3  识别结果与分析

以同样的条件对改进的VGG16、VGG16和Resnet34网络分别进行20组的平行实验。由于每组实验结果较为相似,将其汇总后计算平均值。训练后三种网络模型各项性能的对比,如表2所示。

对比发现,改进的VGG16网络模型的各项指标要优于VGG16和Resnet34模型,能够更准确判断某一样本是否有发生火灾的可能。

根据实验结果绘制图像并进行分析。各模型测试集准确率随迭代次数的变化趋势,如图5所示,各模型损失值的变化趋势,如图6所示。

从图5可以看出,三种模型测试集准确率的变化趋势基本保持一致,且训练50轮次后,改进的VGG16模型的准确率就明显高于VGG16和Resnet34模型的准确率。从图6可以看出,三种模型损失值的变化趋势基本保持一致,且最终都能收敛到0。

为了进一步检验模型的性能,根据各个网络模型的实验结果可进一步绘制出它们的ROC曲线图,如图7所示。改进后VGG16模型具有更高的AUC值,计算得AUC值为0.962,分别比VGG16和Resnet34高0.01和0.022,说明加入残差模块后的VGG16有更精准的识别能力。

3.4  原因分析

部分样本类别识别错误的图片如图8所示。其中图8(a)展示的是将有火灾识别为无火灾的部分样本,分析其原因是受到红黄颜色、烟雾等因素的干扰。图8(b)展示的是将无火灾识别为有火灾的部分样本,分析原因是图片样本中有浓烟不能准确辨别或有与火焰的颜色、形状都相似的物体。

4  结  论

针对传统深度学习技术的火灾图像检测算法复杂度高,检测精度低等缺点,残差网络可有效解决上述问题,对于深度学习图像识别具有重要意义。通过残差结构对VGG16网络进行改进,产生了一种新的网络结构。通过实验结果对比,改进后的VGG16性能明显高于VGG16和Restnet34网络,能够更好地通过图像检测技术识别不同场景下的火灾,为改进网络提供了一种新的思考方式,对火灾的预防有更大的参考价值。

在本次研究中发现烟雾对火灾的识别有着密切联系,还不能准确辨识出有浓烟但无火灾发生的情形。下一步需要研究出更好的方法来改善烟雾在火灾图像识别中的问题,进一步提高模型的准确率。

参考文献:

[1] 张杰.基于视频图像的火灾识别算法研究 [D].长春:吉林大学,2019.

[2] 周灵飞.基于DM642和统计颜色模型的火灾检测研究 [D].西安:西安电子科技大学,2013.

[3] 王洋.基于卷积神经网络的火灾智能检测技术 [D].长沙:国防科技大学,2019.

[4] 贺婉茹,刘国成.基于图像处理的火灾探测报警系统研究 [J].中国设备工程,2021(16):71-72.

[5] 张艺秋.基于深度学习的森林火灾识别与检测算法研究 [D].北京:北京林业大学,2020.

[6] 孟浩,田洋,孙宇婷,等.全局注意力关系网络的小样本船舶识别 [J].仪器仪表学报,2021,42(12):220-227.

[7] 李连煌.基于FPGA的卷积神经网络加速技术研究 [D].杭州:浙江大学,2020.

[8] 郭天伟,齐金山,杨海东,等.基于深度学习与特征融合的人脸识别算法 [J].微型电脑应用,2020,36(11):5-8+22.

[9] 蒋昂波,王维维.ReLU激活函数优化研究 [J].传感器与微系统,2018,37(2):50-52.

[10] 蒋珍存,温晓静,董正心,等.基于深度学习的VGG16图像型火灾探测方法研究 [J].消防科学与技术,2021,40(3):375-377.

[11] 徐繁树,王保云.基于残差网络的泥石流孕灾沟谷快速识别 [J].现代计算机,2022,28(12):75-80.

[12] 罗志刚.基于姿态估计的FMS评测技术研究与实现 [D].北京:北京邮电大学,2021.

作者简介:陈跨越(2000—),男,汉族,山东济宁人,硕士研究生在读,研究方向:图像处理和深度学习;王保云(1977—),男,汉族,云南玉溪人,副教授,博士,研究方向:机器学习及图像处理。

收稿日期:2023-01-03

猜你喜欢

深度学习
从合坐走向合学:浅议新学习模式的构建
面向大数据远程开放实验平台构建研究
基于自动智能分类器的图书馆乱架图书检测
搭建深度学习的三级阶梯
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
利用网络技术促进学生深度学习的几大策略
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究