基于Faster R-CNN的火电厂冷却塔检测及工作状态判定
2021-07-08安健健孟庆岩胡蝶胡新礼杨健杨天梁
安健健,孟庆岩,胡蝶,胡新礼,杨健,杨天梁
(1.昆明理工大学国土资源工程学院,昆明 650093;2.中国科学院空天信息创新研究院,北京 100094;3.三亚中科院遥感研究所,三亚 572029;4.中国科学院空天信息研究院海南研究院,三亚 572029)
0 引言
电能是国家重要的战略能源。火力发电是历史上最久远且最重要的发电方式之一[1]。国际能源署(International Energy Agency,IEA)公布的2016年全球电力来源分布图显示,煤、天然气、石油等化石燃料燃烧产生的电量占全球总发电量的65.1%,进一步证明了其重要的战略地位。因此,在大区域范围内,对于火力发电厂的精确检测及其工作状态自动、有效判定变得日益重要。
随着遥感技术的飞速发展,遥感图像目标检测技术也迅速发展[2-3],区域建议方法[4]和基于区域的卷积神经网络(region-based conoolational neural network,R-CNN)[5]的出现极大提高了目标检测的准确性,但训练时间长且占用空间大。Ren等[6]提出使用区域建议网络(region proposal network,RPN)来生成有效且准确的区域建议,它与检测网络共享完整图像的卷积特征,因此区域建议几乎实现了零成本。生成的区域建议提供给Fast R-CNN作检测使用,从而大大减少了检测网络的运行时间,提高了目标检测精度。在此基础上,国内外一些学者将其应用到遥感图像目标检测中[7-15]:Yao等[16]选取高分辨率遥感影像中油罐目标进行验证实验;Zhang等[17]以机场为检测场景,将飞机作为检测目标进行实验;Zhang等[18]通过自然场景中水面物体的检测,及时发现并处理水面漂浮物。上述实验在检测目标时均取得较好效果,有力推动了Faster R-CNN模型在目标检测中的应用。目前,Yao等[19]利用该模型提出了一种冷却塔和烟囱的检测方法,但尚未有研究对火力发电厂的工作状态进行有效判定。
综上,本文基于火力发电厂冷却塔工作状态下的排气特征和Faster R-CNN的深度卷积神经网络方法,提出一种以冷却塔为关键地物目标的火力发电厂检测方法,并根据冷却塔是否排气判定其工作状态。首次将深度学习方法应用于目标工作状态判定。此外,本方法亦可迁移至炼油厂、炼钢厂、核电站等具有排烟、排气现象的其他大型工业地物目标,快速获取工业生产活动的工作状态信息。研究成果可有效帮助相关部门对周边环境进行监测,减轻空气污染、改善空气质量。
1 实验原理
1.1 冷却塔特征
因为单叶双曲面是一个双直纹曲面,所以可以用直钢梁来构造,这样不仅能够减小风阻,而且可以用最少的材料来保持结构的完整性。这种结构不仅可以提高空气的对流速度,而且可以提高冷却效率。因此,大多数电厂的冷却塔结构采用单叶双曲面结构。如图1(a)所示,电厂运行时,燃烧产生的余热随冷却水进入冷却塔,塔内水泵将其压入洒水系统。在下落过程中,洒水管将水均匀分布,它与塔内空气进行热交换,形成大量的水蒸气从冷却塔顶排出。如图1(b)所示,本实验将冷却塔上方水蒸气液化形成的雾状水汽作为发电厂处于工作状态下的判定标志,进行目标检测。
(a)非工作状态下的冷却塔 (b)工作状态下的冷却塔
1.2 网络模型
1.2.1 Faster R-CNN模型
Faster R-CNN共分为两大模块,第一个模块是RPN网络,第二个模块是使用建议区域的Fast R-CNN检测器[20],具体结构如图2所示。首先,将原始图像输入网络,由特征提取网络提取特征图;之后,将特征图分别输入到区域建议网络和Fast R-CNN,由区域建议网络中生成一组矩形目标建议和相应的目标得分,采取非极大值抑制(non-maximum suppression,NMS)方法使用前N个得分的目标建议区域,并将其输入到Fast R-CNN中,提取区域建议特征;最后,通过全连接层对目标分类和边框回归,得到最终的目标检测结果。
图2 Faster R-CNN目标检测网络结构图Fig.2 Faster R-CNN target detection network structure
1.2.2 RPN模型
RPN是一个卷积神经网络,其作用是将以特征提取网络输出的特征图输出为多种尺度和宽高比的矩形候选区域。这个卷积神经网络会首先让一个滑动窗口(实质上为3×3的卷积核)在特征图上滑动,然后把滑动窗口每次停留的位置上的特征映射成一个512维(选用VGG16作为特征提取网络时为512维,若选用其他网络时,则该维度会发生变化)的特征向量,然后将每个特征向量分别输入到分类层和位置回归层这两个全连接层之中,这样会分别得到分类信息和位置信息。在每个滑动窗口的中心位置定义了9个锚点(anchor),每个锚点对应锚盒(anchor box),而每个对应的锚盒其尺度和长宽比是不同的;分类层具有2×9个输出,估计每个建议是否是检测目标的概率;回归层具有4×9个输出,是编码边界框的坐标。Faster R-CNN中为训练RPN将图像损失函数定义为:
(1)
(2)
(3)
1.2.3 训练卷积网络模型
VGG16网络训练模型部分结构如图3所示,网络使用了16个层,包括13个卷积层和3个全连接层。根据VGG16模型结构,13个卷积层被分成5个组,相邻的两个组之间会有1个池化层。冷却塔作为火力发电厂必不可少的冷却装置,因此将其作为检测电厂的典型地物目标,且火力发电厂在工作时冷却装置也会同时启动,在冷却塔上方冒出大量白雾,这些白雾的有无将作为电厂工作状态的判定标志,而VGG16模型网络更深,通道数量更多,能很好提取冷却塔及周围特征,取得理想的检测效果。
图3 VGG16部分结构示意图Fig.3 Partial structure diagram of VGG16
2 结果与分析
2.1 实验数据
本实验采用NWPU-RESISC45 dataset[21]数据集中的的冷却塔图像作为原始训练集,选取540张质量较好的冷却塔图像,像素大小统一为256×256,然后通过数据增强技术对训练集进行扩充(具体数据增强技术见2.3.1)。测试集部分来自于Google Earth的遥感影像,共计190张彩色图像,空间分辨率优于1 m。本文算法需要通过对TXT文本的读取来获得训练图像的存储路径以及图像中目标的标记像素坐标和目标类别。在制作数据集的过程中,依据VOC2012的数据集格式,对影像进行统一格式的命名,再利用labelImg图片标注工具对影像进行标注,生成包含有目标类别位置信息的XML文件,通过Python程序生成对应的TXT文件,将这些文件组合成VOC2012格式的数据集,标注示例如图4所示。
图4 标注示例Fig.4 Annotation example
2.2 实验环境及参数设置
本实验基于Ubuntu16.0.4操作系统,使用tensorflow-gpu 1.7.0作为深度学习框架,GPU型号为NVIDIA TESLA C2050,代码运行环境为Python3.7.1。训练阶段,采用在ImageNet数据集上预训练得到的模型进行权重初始化,超参数设置:学习率为0.001;动量(momentum)为0.9;权重衰减率(weight_decay)为0.000 1。
2.3 精度验证与评价
2.3.1 不同特征对检测精度的影响
由于电厂中冷却塔周围常分布有烟囱,其排放出的大量浓烟会对冷却塔进行遮挡,干扰冷却塔的检测与工作状态判定。增强数据集,扩大样本容量可以较好地解决该问题。为了验证不同数据特征对电厂冷却塔工作状态检测精度的影响,分别选用改变亮度、旋转、CutMix和Mosaic的数据增强技术进行实验,其中改变图像亮度值与图像旋转作为传统数据增强方法的代表,数据集扩增效果如图5所示。
(a)改变亮度(b)分别旋转90°,180°和270° (c)CutMix (d)Mosaic
采用不同数据增强技术进行电厂冷却塔工作状态检测,结果如表1所示。表中,AP值为精确率(precision)和召回率(recall)曲线下的面积,mAP为AP均值。
表1 不同数据增强技术实验结果Tab.1 Experimental results of different data augmentation technologies
由表1实验数据可知,仅采用Mosaic数据增强技术比单独采用其他方法检测精度要高,且在前3种数据增强方法都使用时,增加Mosaic技术要比没有Mosaic技术精度更高,这说明Mosaic数据增强技术混合了4种不同的技术,确实能够提高模型从不同环境获得的图像的能力,从而使模型具有更高的检测精度,因此,在接下来电厂冷却塔工作状态检测实验中,使用该技术进行数据集扩增。
2.3.2 最佳迭代次数优选
为验证迭代次数对检测结果的影响,设置更加合理的迭代次数,本研究采用Tensorboard(即tensorflow内置的一个可视化工具,可清晰展示深度神经网络组织、结构及其训练过程)对模型训练进行监测,如图6所示,横坐标表示Faster R-CNN训练的迭代次数,纵坐标表示损失值(loss),该模型的初始损失值为2.348 9,经过4 000次训练后损失值开始收敛,经过20 000次训练后损失值稳定在0.15。由此可见,在一定实验条件下,设置过少的迭代次数会使损失值较大,降低检测精度,而过多的迭代次数对损失值降低效果不显著,且耗费大量训练时间。综上,对于电厂冷却塔工作状态的检测,本研究最终确定的最优模型训练迭代次数为20 000次。
图6 训练损失值变化Fig.6 Training loss value change
2.3.3 不同特征提取网络精度对比
不同的特征提取网络对模型的检测效果也会不同,ResNet101网络通过添加自身映射层,保证网络在层数很深时仍可以得到有效训练,从而防止了准确率下降的问题,VGG16使用较小的卷积核,在有相同感知野的条件下,增加了网络深度,减少了权重参数的数量,在一定程度上提升了网络的训练效果,同时,网络之深,参数之大,可以预期它具有很高的拟合能力。由图7可见,VGG16网络相较于ResNet101网络,两种状态(powerstation_w为工作状态,powerstation_nw为非工作状态)下的AP值都有所增加,检测的mAP(经计算,ResNet101 mAP为90.16%;VGG16 mAP为94.88%)提高了4.72%,图8展示了部分检测结果图。场景一,非工作状态下的冷却塔检测召回率相等,但工作状态下,VGG16网络对于冷却塔检测的召回率要高于ResNet101网络;场景二,两种状态下,VGG16网络对于冷却塔检测的召回率都高于ResNet101网络,因此,VGG16网络对冷却塔及其排气特征提取效果更好。
(a)ResNet101 (b)VGG16
(a)场景一,ResNet101 (b)场景一,VGG16
2.3.4 不同算法性能对比分析
图9为3种不同算法检测结果图,SSD算法工作状态下的冷却塔漏检1个,误检1个;YOLOv3算法非工作状态下的冷却塔误检1个;Faster R-CNN算法全部检测正确。因此,采用Faster R-CNN算法对发电厂冷却塔进行工作状态判定。为保证实验结果的准确性,本实验采用的3种不同算法分别在相同硬件条件和数据集上进行实验,测试结果如表2所示。根据前面实验结论,Faster R-CNN采用VGG16作为特征提取网络。SSD与YOLO都属于单阶段(One-stage)检测算法,其主要思路是采用不同比例与长宽比在图像上均匀密集抽样,然后再通过CNN直接进行分类与回归,整个过程只需要一步,而R-CNN系列算法则是通过CNN网络产生一系列候选框,然后对候选框进行回归,所以准确度较高。从表中实验结果也可以看出,Faster R-CNN的精确度比SSD和YOLOv3分别提高14.24%和1.09%。
(a)SSD (b)YOLOv3 (c)FasterR-CNN
表2 3种不同算法对比分析Tab.2 Comparative analysis of three different algorithms (%)
2.3.5 多区域验证
本文选取国内8家大型火力发电厂进行区域验证,共包含52个冷却塔,其中处于工作状态下的冷却塔31个,非工作状态下的冷却塔21个。特征提取网络采用VGG16,其检测结果如图10所示,蓝色和黄色的方框表示检测到的冷却塔目标。在8家发电厂中,冷却塔目标被准确检测,并有效判别其所处的工作状态。综上所述,本研究提出的检测方法对于火力发电厂冷却塔检测及其工作状态判定有效可行。
(a)河北省邢台电厂 (b)河南省沁北电厂 (c)山东省德州电厂 (d)山西省邹城电厂
3 结论
随着“智能电网战略”的提出,以火力发电厂为主要发电设备的检测研究尤为重要,而目前相关研究较少,且缺乏对电厂工作状态的自动判定方法。因此,本文提出通过检测冷却塔来间接识别发电厂,根据冷却塔在工作状态下的排气特征,提出了一种基于深度学习网络的火电厂冷却塔工作状态判定方法。实验结果表明:该模型在目标工作状态检测中,mAP为94.88%,选取8家发电厂验证均取得理想效果。因此,本研究证明Faster R-CNN方法可以有效地应用于城市重要地物目标的工作状态检测,并拓宽了深度学习的应用和研究方向。该方法也可迁移至城市内具有排气现象的其他大型工业地物目标检测中,同时获取工业活动的工作状态,研究成果可有效服务于城建部门对周边环境的监管,具有较大的应用潜力。今后将继续深入开展相关研究,结合遥感大数据与深度学习网络的新技术,进一步提升目标检测精度,为相关部门决策提供技术支撑。