APP下载

基于深度卷积长短期记忆网络的森林火灾烟雾检测模型

2019-11-15卫鑫武淑红王耀力

计算机应用 2019年10期
关键词:迁移学习

卫鑫 武淑红 王耀力

摘 要:针对采样的每帧烟雾特征具有极大的相似性,以及森林火灾烟雾数据集相对较小且单调等问题,为充分利用烟雾的静态与动态信息来达到预防森林火灾的目的,提出一种深度卷积集成式长短期记忆网络(DC-ILSTM)模型。首先,使用在ImageNet数据集上预训练好的VGG-16网络进行基于同构数据的特征迁移,以有效提取出烟雾特征;其次,基于池化层与长短期记忆网络(LSTM)提出一种集成式长短期记忆网络(ILSTM),并利用ILSTM分段融合烟雾特征;最后,搭建一种可训练的深度神经网络模型用于森林火灾烟雾检测。烟雾检测实验中,与深卷积长递归网络(DCLRN)相比,DC-ILSTM在最佳效率下以10帧的优势检测到烟雾,而且在测试准确率上提高了1.23个百分点。实验结果表明,DC-ILSTM在森林火灾烟雾检测中有很好的适用性。

关键词:烟雾检测;深度卷积神经网络;长短期记忆网络;迁移学习;微量数据集

中图分类号:TP391.41

文献标志码:A

Abstract:  Since the smoke characteristics of each sampled frame have great similarity, and the forest fire smoke dataset is relatively small and monotonous, in order to make full use of the static and dynamic information of smoke to prevent forest fires, a Deep Convolution Integrated Long Short-Term Memory network (DC-ILSTM) model was proposed. Firstly, VGG-16 networks pre-trained on ImageNet dataset were used for feature transfer based on isomorphic data to effectively extract smoke characteristics. Secondly, an Integrated Long Short-Term Memory network (ILSTM) based on pooling layer and Long Short-Term Memory network (LSTM) was proposed, and ILSTM was used for segmental fusion of smoke characteristics. Finally, a trainable deep neural network model was built for forest fire smoke detection. In the smoke detection experiment, compared with Deep Convolution Long Recursive Network (DCLRN), DC-ILSTM can detect smoke with 10 frames advantage under the optimal efficiency and has the test accuracy increased by 1.23 percentage points. The theoretical analysis and simulation results show that DC-ILSTM has good applicability in forest fire smoke detection.

Key words:  smoke detection;deep convolutional neural network; Long Short-Term Memory network (LSTM); transfer learning; small dataset

0 引言

传统的烟雾检测方法大多采用物理传感器进行检测,该类方法对环境依赖较强、检测范围小,且需要安装大量传感器,对人力和物力造成较大消耗。随着图像处理、模式识别和人工智能等技术的发展,视频烟雾检测技术具有很好的应用前景。该技术不仅弥补了传统方法的不足,而且在初期能够对火灾进行有效检测,降低火灾所造成的危害。

相较于传统的计算机视觉方法[1-5],深度学习算法可从大量的图像数据集中进行自主学习,避免了人工提取特征的不足。文献[6]提出了一种级联卷积神经网络(Convolutional Neural Network, CNN)火灾分类器。该分类器將AlexNet网络与两个完全连接层和一个分类层相结合,达到了预防火灾的目的;文献[7]选取了一种用于视频火灾和烟雾检测的卷积神经网络,为火灾预测提供了一定的决策方向。但是,通过以上方法所构建的卷积神经网络模型仅限于处理2D输入问题,需要逐帧处理视频图像,时间开销显著增加。

随后,文献[8]提出一种新型深度归一化卷积神经网络(Deep Normalization and CNN, DNCNN),将传统的卷积层替换为归一化层与卷积层;文献[9]采用与GoogLeNet[10]相似的模型进行烟雾检测。该类方法采用的模型均需以大量数据为研究基础,但在烟雾识别领域实际可用的烟雾数据量相对较小且单调。针对数据限制这一问题,文献[11]在野外森林火灾烟雾探测中使用了faster R-CNN,并且通过合成图像来创建烟雾图像序列以增强数据集。合成烟雾图像虽然可一定程度上提高检测性能,但在数据处理及训练过程中增加了较多成本。

最近,利用循环神经网络(Recurrent Neural Network, RNN)解决视频烟雾检测问题得到了发展。此方法在文献[12]的下一阶段工作中也有提到。为了有效地利用长时间烟雾运动信息,文献[13]基于RNN提出了一种递归卷积神经网络,并成功应用于视频烟雾检测领域;文献[14]提出一种深度卷积长递归神经网络(Deep Convolutional Long-Recurrent Network, DCLRN),并将DCLRN与光流方法相结合,实现了对开放空间环境下火灾的实时监测。该类方法由于容易受烟雾变化和与烟雾特征相似的雾的干扰,在一些场景中无法进行很好的识别;同时,在如何结合更多的鉴别信息来改善烟雾检测问题上有待进一步研究。

鉴于以上问题,本文将深度CNN和长短期记忆网络(Long Short-Term Memory network, LSTM)相结合提出一种深度卷积集成式长短期记忆网络(Deep Convolution Integrated LSTM, DC-ILSTM)模型。

该模型不仅提取烟雾运动和空间特征,而且通过递归方法探索有效的信息来综合考虑烟雾区域的属性。首先,基于当下较为先进的深度CNN模型提出一种具有更好泛化能力的深度卷积网络用于提取烟雾特征;其次,為避免采样视频帧间存在的相似性问题,提出了一种集成式长短期记忆网络(Integrated LSTM, ILSTM)以处理烟雾特征;然后,针对森林火灾烟雾数据集小且单一的问题,使用预训练好的VGG-16网络进行特征迁移;最后,构建了一种可训练的网络模型。

1 构建集成式长短期记忆网络

长短期记忆网络(LSTM)作为一种特殊的循环神经网络(RNN),不仅具有RNN对前面信息进行长时记忆的特点,还通过增加遗忘门避免长期依赖的问题。

LSTM将输入映射到隐藏状态,并将隐藏状态映射到输出,可以有效地学习输入序列动态信息。在LSTM细胞结构中,包括遗忘门ft、输入门it、输出门Ot和1个记忆单元,其内部结构如图1所示。LSTM能够分析烟雾的动态变化,但是,目前一些工作已经显示出在烟雾变化非常缓慢和具有与烟雾极其相似特征的场景下,仍然存在检测效率较低的问题。这是由于在同一个烟雾视频中,采样的每帧烟雾特征具有一定相似性。这使得LSTM不能够很好地学习输入的特征序列。因此,本文提出了ILSTM模块。ILSTM模块结构如图2所示。该模块首先将输入的烟雾特征序列进行分段处理;其次通过式(8)将分段的烟雾特征序列xt∈R4096映射到[0,1]范围之间。

其中:c为池化域的大小和步长,矩阵S为池化操作后的特征图。

最后,将聚合的特征输入到LSTM单元中,该单元将进一步融合烟雾特征进行最终的检测分类。

本文提出的ILSTM模块目的是降低输入序列维度,并学习不同的特征表示。在实验中,该模块首先将特征序列均匀地划分成d个时间段;其次,每个时间段(即长度为n/d)特征值归一化到[0,1];然后,这些聚合的特征经过最大池化层(卷积核大小为2×2,步长为2);最后,结合LSTM单元递归地学习输入序列时序信息。

2 基于VGG-16网络优化卷积层参数

本文探索和比较了三种不同的CNN模型用于森林火灾烟雾检测,即AlexNet、GoogleNet和VGG-19。

在AlexNet和GoogleNet模型中,分别使用大小为11×11和7×7,步长为3和5的较大卷积核,可能会忽略烟雾区域的重要特征。使用VGG-16的目的是使用大小为3×3,步长为1的卷积核,这有利于处理和提取烟雾图像的每个像素的特征;同时,与VGG-19相比,在精度几乎相同情况下使用的卷积层和参数较少。VGG-16与AlexNet和GoogleNet模型的参数比较如表1所示。从表1可看出,VGG- 16在ImageNet数据集上的Top-1准确率、Top-5准确率和Top-5测试错误率均优于其他最先进的架构。因此,本文根据森林火灾烟雾检测问题对VGG-16模型的体系结构进行了改进。

本文基于VGG-16网络的迁移学习模型如图3所示。本文在ImageNet数据集上对模型进行了微调,以便用于森林火灾中烟和非烟的预期分类。如图3所示左侧是本文所使用的烟雾识别模型,主要由卷积层和下采样层交替构成。该模型共包含13个卷积层、5个下采样层,以及1个全连接层,其中:第一段由3×3×64卷积核构成的两层卷积层,第二段由3×3×128卷积核构成的两层卷积层,第三段由3×3×256卷积核构成的三层卷积层,第四段由3×3×512卷积核构成的三层卷积层,第五段由3×3×512的卷积核构成的三层卷积层,最后连接一层全连接层,神经元个数为4096。

该模型主要是由VGG-16网络迁移得到,同时加载了对应的VGG-16网络已经训练好的参数。首先,基于VGG-16网络构造卷积层和全连接层;其次,以烟雾数据集作为输入,获取ImageNet上已训练好的VGG-16网络中的卷积层参数;然后,训练模型并微调参数;最后,进行模型预测。

3 基于DC-ILSTM网络的烟雾检测方法

该方法的主要目的是构建一种可训练的深度神经网络模型实现森林火灾烟雾检测。DC-ILSTM网络模型结构如图4所示。该模型首先用VGG-16提取N维特征;其次,K帧视频形成一个长度为K的N维特征序列,即K×N序列;然后,将K×N序列平均划分为d个时间段进行ILSTM模块处理;最后,通过ILSTM模块的输入映射到连接层输出二分类结果(即类别的个数)。

在迁移学习中,使用基于ImageNet数据集的VGG-16模型作为CNN模型来提取每帧烟雾特征。实验结果表明,在ImageNet数据集上训练的网络具有更好的泛化能力。

在烟雾特征融合过程中,ILSTM模块使用最大池化层或平均池化层可以进一步提高视频检测准确率;同时,LSTM结构使用了256个过滤器,且大小为3×3、步长为1。实验结果表明,相比直接使用LSTM网络,ILSTM网络显著提高烟雾检测的准确率。

该模型动态地输入一组任意长度的图片帧,静态地输出两种类型结果(有烟、无烟)。实验算法主要步骤如下:

Step1 提取视频的每帧图像,预处理数据。该方法按有烟和无烟进行分类处理、调整大小(3×224×224)、随机变换(随机旋转、剪切、翻转等)和归一化。

Step2 预训练一个基于ImageNet图像分类的VGG-16模型。

Step3 训练DC-ILSTM模型:

1)共享预训练的VGG-16模型的序列空间特征;

2)以上特征输入到ILSTM单元;

3)经过ILSTM序列特征融合进行二分类检测。

实验设置如下:

1)N是DC-ILSTM网络进行一次处理的数据流量。以实验训练为例,N=8。

2)T是DC-ILSTM网络层处理的总时间步长,即作为一次输入ILSTM的视频帧数。以实验训练为例,T=16。

3)T×N×4096是预训练层的输出尺度。其中:4096是VGG-16中全連接层的维数,即卷积特征维数。

4)d是平均划分时间段,即作为ILSTM记忆单元输入。以实验训练为例,d=3。

5)图3是本文模型的卷积层参数详细配置。以实验训练为例,学习率为10-4,迭代次数为300和优化函数采用ADAM。

4 实验与结果分析

4.1 实验环境

该算法的硬件平台是Intel Core i5-4200U CPU@2.30GHz,GPU GEFORCE GTX 1080ti,Ubuntu14.0.4,8GB内存。实验环境为Python3.5,Tensorflow1.7.0和Keras框架,包括CNN(VGG-16)和LSTM。

4.2 实验数据集

本文采用的实验数据集来自于CVPR实验室(https://cvpr.kmu.ac.kr)、中国消防科学国家重点实验室(http://smoke.ustc.edu.cn)、 Bilkent大学的公开火灾火焰视频库(http://signal.ee.bilkent.edu.tr/VisiFire/)和

网络采集(例如:Ultimate Chase公司提供的资源库(http://ultimatechase.com))。

实验数据集综合了以上三个数据集和额外收集的关于森林环境数据,共由60个烟雾视频和150个非烟雾视频组成,能充分体现数据的多样性。

4.3 实验评价标准

本文采用准确率Accuracy、精确率Precision、召回率Recall和两者的调和均值F1来衡量网络性能。各指标计算公式如下:

其中:TP为预测正类为正类;TN为预测负类为负类;FP为预测负类为正类;FN为预测正类为负类。

4.4 实验结果与分析

实验视频包括60个烟雾视频和150个非烟雾视频。本文采用交叉验证的方法将样本集按照比例被划分为训练集、验证集和测试集。其中,训练集占总样本50%(30个烟雾视频、70个非烟雾视频),验证集和测试集各占25%(各包含15个烟雾视频、40个非烟雾视频)。

实验一 在迁移学习中,VGG-16网络与其他CNN网络进行对比。

本文使用VGG-16网络与其他CNN模型进行比较。表2显示了它们在验证集上各参数的对比。从表2中可看出,使用AlexNet的准确率最低,假阳性和假阴性分值最差;虽然使用GoogleNet的检测结果要优于AlexNet,但与VGG-16模型相比,其准确率仍然较低,误报率较高。具体而言,与AlexNet和GoogleNet相比,VGG-16取得了较好的效果,其中,最小假阳性为2.60%、最小假阴性为2.46%、最高准确率达93.31%,因此,使用VGG-16模型性能优于其他模型。

实验二 基于VGG-16网络的LSTM与ILSTM模块检测效果对比。

本文分别使用VGG-16网络结合LSTM网络与改进的ILSTM网络进行对比。

表3显示了训练过程中验证集的假阳性、假阴性和准确率,可看出,结合ILSTM模块准确性要优于LSTM,其中,假阳性最小为2.41%、假阴性最小为2.26%和最高准确率为94.53%,准确率提高了1.32个百分点。

实验三 基于DC-ILSTM网络的森林火灾烟雾检测方法与其他最先进的方法检测效果对比。在DC-ILSTM网络进行训练时,每次迭代8个视频,然后平均取30帧图像。在VGG-16模型中,对8个视频进行分类;而在ILSTM模块中,以30帧图像平均地划分为3个时间段进行分类;最后ILSTM模块的分类作为最终的检测结果。在测试过程中,分别对VGG-16模型和DC-ILSTM模型进行了测试。

本文对测试集进行测试。测试样本如图5所示的(a)~(h)。实验分别用DC-ILSTM网络与Hu等[14]提出的深卷积长递归网络(DCLRN)和Filonenko等[13]提出的卷积和递归网络进行对比。表5是以最早检测出的帧序号为指标,评估各个方法的检测效果。从表5中可看出,本文方法相比其他两种方法能够提前检测到烟雾。例如,在Video2中,视频总帧数为190,相比文献[14]方法和文献[13]方法,本文方法DC-ILSTM分别以提前10帧和15帧检测到烟雾;同样,在1007帧数量的Video3中,本文方法以367帧检测到烟雾,比文献[14]方法提前17帧。

总之,本文方法在对烟雾视频进行测试时,性能优于其他两种方法,具体测试结果如表6所示。烟雾视频为正类,非烟雾视频为负类。本文方法之所以能取得较好的性能,并且速度比较快,主要是由于提出的ILSTM网络对空间和运动上下文特征融合;但是在似烟雾环境下检测性能用有所延迟。例如,野外森林环境中飘动的云与运动缓慢的烟雾。视频样本如图5所示的(i)~(l)。

5 结语

针对森林火灾烟雾检测的问题,本文提出了一种深度神经网络DC-ILSTM模型。该模型不仅提出结合ILSTM模块进行烟雾特征融合;而且,在深度迁移学习架构上处理森林火灾小样本数据集。在实验中,基于公开数据集对该模型进行评估,分别与LSTM模型和最先进的森林火灾烟雾检测方法进行比较。结果表明,在检测性能上,该模型以更小的最早帧数检测到烟雾;同时,检测精度达94.5%以上,比DCLRN提高了1.03个百分点。在下一阶段工作中,我们还需进一步优化模型提高森林火灾烟雾检测的准确率。

猜你喜欢

迁移学习
《宋史·曾公亮传》传主形象论析
基于深度神经网络的人体动作识别研究
威斯顿相互作用法在社会保险学课程教学中的实践
基于卷积神经网络的图像分类技术
迁移学习在专业课程教学中的实践研究
迁移学习研究综述
从认知角度探讨大学英语网络教学模式
奇异值分解与移移学习在电机故障诊断中的应用
一种基于迁移极速学习机的人体行为识别模型
大数据环境下基于迁移学习的人体检测性能提升方法