基于改进YOLOv3的火灾识别关键技术研究
2022-03-16房可佳谢元莎
杨 萍,房可佳,谢元莎
(陕西科技大学 电子信息与人工智能学院,陕西 西安 710021)
0 引 言
火灾给人类社会带来的危害是无法估量的,每年都会因为火灾而造成大量的生命、财产损失,尤其在教学楼、仓库等大型封闭环境,发生火灾的后果更是不堪设想。因此,关于火灾实时准确检测的研究具有重大的现实意义。鉴于火灾的复杂性和不确定性,传统的感温、感烟、感光以及复合型的火灾探测器不可避免地受到监控环境的面积、高度、湿度、粉尘、气流等因素的影响。近年来逐渐普及的网络摄像头可以用来很好地采集图像和视频,为火灾检测提供信源。随着深度学习算法的不断优化、嵌入式硬件性能和算力的不断提升,图像识别的精度和实时性能都得到飞速的发展,使图像识别应用到火灾检测成为可能。基于此,本文提出利用深度学习算法进行图像识别,从而实现火灾检测和预警。
1 基于改进的YOLOv3的火焰检测网络结构
YOLO(You Only Look Once)是一种基于深度神经网络的对象识别和定位算法。主要是设置先验框,利用全卷积做预测;选用残差网络,采用多尺度特征图做预测等。其最大的特点是运行速度快,处理速度可以达到45帧/s;当网络较小时甚至可以达到155帧/s,而且在精度相当的情况下,YOLOv3的速度是其他模型的3~4倍。YOLOv3借鉴了残差网络结构,形成更深的网络层次进行多尺度检测,提升了小物体检测效果。因此,YOLO是非常适用于火灾检测的,能够有效提高实时性。为了提高火灾检测的实时性和准确性,本文主要对YOLOv3算法从以下三方面进行改进:
(1)检测卷积层参数的修改
原始YOLOv3算法的损失函数是针对多类别目标的检测。本文将损失函数设计成只包含单一类别目标,其中损失函数由四部分组成:预测边界框中心坐标损失、预测边界框宽高损失、有无目标置信度损失和预测目标类别损失,则网络各尺度特征图检测的输出张量的维度为3×(4+1+1)=18,因此各尺度检测卷积层的卷积核数目设置为18。
(2)基础特征提取网络结构的改进
YOLOv3算法的主干网络中包含52层卷积层,而DenseNet模型建立的是前面所有层与后面层的密集连接,每一层的输入都是来自前面所有层输出的并集,层与层之间的连接变得更紧密。本文借鉴DenseNet网络中的密集连接思想,将主干网络中的残差模块用密集连接模块来代替。通过特征重用可以在高层特征提取时利用更低层级的特征,减轻特征丢失对网络性能的影响。此外,GoogleNet中的多分支结构是对不同大小卷积核卷积结果进行拼接的一种结构,它对输入特征图进行四个分支的操作处理后,将四个分支得到的特征图进行融合。多分支结构一方面增加了网络的宽度,另一方面增加了网络对尺度的适应性。本文借鉴GoogleNet的多分支结构,在基础特征提取网络中使用多分支结构替代原残差模块中的标准卷积,在不增加计算量的情况下增强网络结构复杂度,便于提取更为丰富的特征用于检测。
本文不是只使用密集连接结构或者只使用多分支结构,而是将二者结合来构建网络。组合结构如图1所示,多分支结构提取图像多尺度特征,并且在各分支上使用卷积核进行降维,能大大降低网络的复杂度。组合模块将这两种方法相结合,将密集连接模块的标准卷积替换为多分支结构,对四个分支提取到的特征进行融合,再实现组合模块中与前面层的融合。
图1 组合结构
(3)检测模块的改进
对于实际场景中的图像或视频,物体目标随着拍摄位置的不同,图像上的尺度也会不同。由于存在这种尺度不一的目标,就需要检测系统具备检测出不同尺度目标的能力。卷积特征图低层的特征语义信息比较少,但是目标位置信息准确;高层的特征语义信息比较丰富,但是目标位置信息比较粗略。YOLOv3算法采用特征金字塔融合以及从底层到顶层的特征提取方式,越往顶层,图像空间分辨率越低,但是图像中的抽象语义信息将逐层增加,然后从顶层到底层进行特征融合,并分别在每一层进行预测,实现多尺度下的目标检测。其中,较小的特征图对尺寸较大的行人会有较好的预测能力,较大的特征图对尺寸较小的行人具有更好的预测能力。但是YOLOv3算法仍然存在将小尺度目标漏检的情况,本文针对这一问题,将多分支结构融入YOLOv3 的检测模块中,使得 YOLOv3 在原有多尺度检测基础上的每一个尺度的特征检测中又可以获取两种不同的感受野。其中,一个3×3卷积的感受野较小,保留了更多细节信息,可以较好地检测小尺寸目标;两个堆叠的3×3卷积对应较大的感受野,包含了更多语义信息,可以较好地检测大尺寸目标。由此,在8倍下采样、16倍下采样和32倍下采样条件下得到的三种尺寸特征图的检测结果中又能分别获得两种不同的感受野,更为充分地检测各尺寸目标的特征,从而增加网络的检测精度并减少漏检情况,提升网络对各尺度目标的识别能力。改进的算法网络结构如图2所示。
图2 改进的YOLOv3网络结构
2 火灾检测系统设计
根据系统功能要求和深度学习算法的特点,设计系统的结构如图3所示。
图3 系统结构
系统主要由以下五部分组成:
(1)环境检测模块:由分布于不同空间的网络摄像头、烟雾传感器、温度传感器等构成,实现环境参数的采集。
(2)AI模块:AI算法的载体。在服务器训练完成之后,将优化和改进后的YOLOv3算法部署到NVIDIA GPU中,实现边缘计算,降低对带宽的要求,提高系统的实时性。
(3)LoRa网络:将识别和处理后的火灾结果利用LoRa网络上传至网关。
(4)网关:将识别结果上传至上位机和移动端。
(5)上位机:根据接收的结果判断是否开启火灾报警,实现火灾定位和最优路径规划,完成系统运行状态的存储等,使用户和管理员可以实时查询系统的状态。
3 实验结果及分析
搭建实验平台,并利用服务器对深度学习网络模型进行训练,网络训练的软硬件配置见表1所列。将训练完成的基于改进的YOLOv3火焰检测模型部署到NVIDIA GPU中,通过摄像头采集视频信号,对图像进行识别处理,结果如图4所示。
图4 基于改进的YOLOv3算法的火焰检测结果
表1 实验平台软硬件配置
4 结 语
针对火焰识别中小目标和实时性的特点,选用改进的YOLOv3进行图像识别和检测,以实现火灾报警。搭建了训练神经网络的软硬件平台,完成网络训练,并利用该网络对摄像头采集的图像进行识别。结果表明,该火焰检测模型识别精度高、实时性好,对火灾检测和报警具有较大的实际意义。