基于TATLNet的输电场景威胁检测
2020-06-08张立中张俊岭李兆桐
李 梅,郭 飞,张立中,王 波,张俊岭,李兆桐
1) 国网宁夏电力有限公司,银川 750001 2) 国网宁夏电力有限公司吴忠供电公司,吴忠 751101 3) 山东鲁能软件技术有限公司,济南250001 4) 中国石油大学(华东)计算机科学与技术学院,青岛 266580
输电线路的安全对国家的发展至关重要,由于吊车等大型机械运作时的高度跟输电线路的高度比较接近甚至更高,当这些设备在输电线附近进行作业时会对输电线路的安全造成威胁. 因此,设计一种能够对输电线路威胁进行自动报警的方法显得十分必要[1].
国家电网在输电塔上配备了图像抓拍设备,但目前其供电方式为太阳能充电,能够提供的功率较小并且难以支撑监控设备的长时间运行. 因此,对输电线路进行全天候监控并利用常规深度学习目标检测的方式来进行报警变得不再可行.针对以上问题,本文提出了一种基于TATLNet的输电线路威胁报警方法,该方法通过红外传感器来对过往的大型设备进行监控[2],当检测到大型机械时再唤醒系统加以分析以减少能耗. 利用本文提出的一种新的输电线路威胁检测网络TATLNet,并用通道剪枝的策略来对模型进行压缩[3−5],提高检测速度,使之可以在轻量级计算平台上运行. 同时,由于可以采集到的吊车、起重机等大型机械入侵图像较少,采用传统图像几何变换与GAN[6](Generative adversarial network,对抗生成网络)相结合的方式来对数据集进行数据增强.
该方法的贡献主要有以下几点:
(1)解决了如何在无人值守的情况下对入侵输电场地的吊车等大型机械进行报警的难题;
(2)针对低能耗计算平台的限制以及入侵输电场地机械在图像中的特点,设计了一种新的端到端输电线路威胁检测网络TATLNet;
(3)提出了目标检测的一个新思路,即将大多数计算用于提出更精确的候选区域,并针对具有较高准确率的候选区域设计较小的分类网络.
1 相关研究
1.1 输电线路监控
目前对输电线路威胁的监控大多通过采集监控图像,并利用图像匹配或者深度学习方法对图像进行分析. 文献[7]中,摄像头拍摄监控区域图像,通过对大型运动目标进行实时匹配,来确定运动目标与输电线路的位置和距离. 文献[8]中,应用红外滤片式自动切换网络摄像机,对监控区域进行24 h全天候监控,并将图像上传至服务器,在服务器中应用混合高斯背景建模实现对大型机械入侵的定向识别.
1.2 深度学习
自从Hinton等[9]在2012年提出深度学习的概念,深度学习便逐渐取代了传统的检测算法而成为目标检测领域的主流方法. 近年来深度学习的发展为输电线路威胁报警提供了新的方案,卷积神经网络对于目标的几何变换、光照等因素适应性较强,有效克服了目标外观的多样性带来的识别阻力. 它可以根据输入到网络的数据而自动生成相应的特征描述,具有较高的灵活性和普适性[10−13].
目前图像中的目标检测主要分为单步检测方法和两步检测方法两种. 其中,单步检测方法包括SSD(Single shot multibox detector)、YOLO(You only look once)和CornerNet(基于角点的目标检测神经网络)等[14−16];两步检测方法包括如R-CNN(Region-CNN)、Fast R-CNN、Faster R-CNN和Mask R-CNN等[17−20]. 单步检测方法直接在图像上经过计算生成检测结果;两步检测方法先在图像上提取候选区域,再基于候选区域进行特征提取,然后在图像中进行预测. 相对来说单步检测方法速度快,准确率略低;而两步检测方法准确率高,速度略慢. 但是因为输电塔上的设备由太阳能电池供电,摄像头无法全天开启并且难以支撑大型计算平台的运行,因此上述传统目标检测方法在此场景下并不适用. 而最近新提出的YOLO-Lite、MobileNet和ShuffleNet等轻型网络结构[21−23],尽管在速度和体积上有了极大的提升,但因此产生的准确率损失使得其难以在此场景下满足检测要求.
综上所述,将深度学习用于输电场景的威胁报警是当前的一个研究趋势. 目前常规的深度学习方法已经取得了一定的效果,但是在检测准确率和效率方面仍有一定的提升空间,并且在限定能耗的条件下也不再适用. 因此,针对输电场景大型机械入侵的偶然性和图像特征,需要提出一整套新的输电场景大型机械入侵检测方法.
2 设计与实现
2.1 架构设计
基于TATLNet的输电场景下的威胁报警方法通过开启或者关闭红外传感器控制系统来减少运行能耗,当红外传感器探测到大型机械的运行时会唤醒摄像头并加载神经网络,在对摄像头采集的视频解码后将图像传输至输电线路威胁检测网络TATLNet. TATLNet分为可疑区域生成网络VRGNet(Vehicle regions generation network)和威胁判别网络VTCNet(Vehicle threat classification network). VRGNet提取图像中可能存在目标的区域,VTCNet实现与VRGNet的特征共享并对候选区域进行进一步的分类. 检测结果通过无线传输发送至服务器,在服务器上实现对大型机械入侵的报警,流程图如图1所示.
图 1 系统流程图Fig.1 System flow chart
2.2 数据增强
由于可以获得的数据集样本较少,采用多种数据增强方式对数据集进行扩充,包括传统的几何变换数据增强和GAN生成新图像的数据增强方法. 在用GAN对数据集进行扩充时,采用深度卷积对抗生成网络(Deep convolutional generative adversarial network,DCGAN)来生成新的图像[24].考虑计算机显存的限制,在训练时统一将图像在960×640像素的尺寸上进行训练,每16张图像为一个批次,训练过程中生成的图像样本如图2(a)所示. 对于传统的图像几何变换方法,采用随机裁剪、水平翻转、图像倾斜、添加噪声和图像缩放的方式对数据集进行了扩充,图2(b)为添加椒盐噪声的图像.
图 2 数据增强图像. (a) GAN生成图像;(b)椒盐噪声图像Fig.2 Images from data enhancement: (a)image generated from GAN;(b) image with salt and pepper noise
2.3 TATLNet设计
针对计算平台低能耗的需求以及入侵输电场地的机械在图像中的特点,设计了一种端到端的输电线路威胁检测网络TATLNet,分别设计可疑区域生成网络VRGNet和吊车分类网络VTCNet两部分,并采用模型压缩的方式来对模型进行压缩以减少非必要参数数量、缩小模型体积、提高运算速度. 其中,VRGNet负责输电场景下吊车的粗略检测,VTCNet负责对VRGNet的检测结果进行进一步判断(可以将VRGNet视为一个更为精确的RPN[25]),VTCNet与VRGNet共享部分卷积层以减少检测的计算量,TATLNet结构图如图3所示.
2.3.1 VRGNet结构设计
VRGNet借鉴了YOLO边框回归计算的思想,并对其主体网络做了一定的精简以尽可能缩小模型的体积,网络结构如图4所示,其中Conv为卷积层(Convolutional layer),同时包含一个最大池化层(Max pooling layer)和relu激活层(Rectified linear unit layer),Fc为全连接层(Fully connection layer).首先将输入图像缩放至统一尺寸后在图像中划分出多个网格,如果目标中心点落在某个网格中,则该网格就负责对该目标的检测. 由于大型机械在运作时不会十分密集,并且该网络的主要任务为检测大型机械是否存在,对目标的个数没有很高的要求,因此每个网格只预测至多一个目标出现的坐标和概率. 由于需要检测的目标只有吊车这一类,所以VRGNet并不需要单独的分类器,因而舍弃了目标类别预测的分支,采用置信度来衡量边框中存在目标的概率. 根据对数据集中吊车尺寸的统计,可以发现图像中目标的尺寸大小没有大的波动,因此舍弃了特征金字塔结构[14]来减小计算量. 经过实验,将图像划分为9×9的网格时模型准确率最高.
图 3 TATLNet结构图Fig.3 Structure of TATLNet
图 4 VRGNet结构图Fig.4 Structure of VRGNet
2.3.2 VTCNet结构设计
对于由VRGNet经过回归计算得到的可疑区域坐标,将其映射到VRGNet得到的特征图上. 由此VTCNet与VRGNet实现了部分特征共享,所以VTCNet对候选区域图像的判别不必从原图开始对候选区域进行特征提取,因此VTCNet层数不必太多,由此可以大幅度减少由图像特征提取带来的计算量. 如图5所示,VTCNet根据区域坐标在特征图上得到候选区域,通过RoIPooling以及双线性插值将候选区域缩放至统一尺寸,经过两个卷积层后通过一个全连接层生成固定长度的特征向量,该向量通过Softmax算法实现对候选区域的判别.
图 5 VTCNet结构图Fig.5 Structure of VTCNet
2.3.3 损失函数设计
由于TATLNet只需要检测一类目标而不用进行多类别分类,所以最终的分类损失函数只需要判断单类别的置信度,目标置信度Lconf采用交叉熵损失函数,具体如公式(1)所示.
其中,S2表示网格单元的总数,Ci表示第i个网格目标检测器所产生的预测结果的置信度,C*i表示预测目标框与真实目标之间的交并比. 目标坐标的损失函数Lloc如公式(2)所示,其中pro代表所有目标,(xi,yi)表示第i个网格所产生的预测结果的中心点坐标,(x*i,y*i)为真实的中心点坐标. 相应地,(wi,hi)和(w*i,h*i)分别代表预测目标和真实目标的宽、高.
结合TATLNet的结构图,如公式(3)所示,TATLNet的损失函数L可以设计为对置信度损失和坐标损失的加权相加,其中α为加权系数.
2.3.4 模型压缩
通过通道剪枝的方式来对模型进行压缩,对已经训练好的模型,选择出相对不重要的通道,将这些通道删除,然后构造新的模型图,经过重新训练,恢复原先模型的准确率,消除由于模型压缩带来的准确率损失.
对于每一个通道上的卷积核,首先计算出其Frobenius范数. 然后将其二值化,即如果计算出的Frobenius范数大于0则令其为1,如果等于0则保持不变. 将通道上的这一指标累加起来,以此找出神经网络各层中的冗余通道,实现对神经网络作用较小的分支的剪枝,获得体积更小的模型图.通过剪枝获得的模型,利用训练集进行重新训练,以弥补由于剪枝带来的准确率损失,在不损失模型准确率的基础上实现对深度学习模型的体积压缩和速度提升.
3 实验与应用分析
为了测试TATLNet的各项性能指标,在英伟达轻量级计算平台 NVIDIA Tegra X2 上进行了各项实验,算法的性能以准确率(Precision)、召回率(Recall)和检测效率(Efficiency)为指标:
其中,TP为测试集检测对的目标数;FP为漏检数;FN为误检数;Time为算法在测试集进行推理上所用时间总和,ms;Number为测试集样本总数.
3.1 VRGNet网格划分策略对比
考虑现场监控场景下目标在监控图像中的比例对检测结果的影响,为了选取合适的VRGNet网格单元划分比例,对不同尺度网格单元下的检测模型进行测试,训练数据和测试数据均采用自制的吊车图像数据集,测试结果如表1所示. 可以看出,随着网格数目的增加,准确率也随之增加,而召回率有先增加后降低的趋势,检测效率则随着网格的增加迅速降低. 综合准确率与检测效率,9×9为最优网格划分方案.
表 1 VRGNet中网格划分对检测结果的影响Table 1 Different strategies of grid cells partitioning
3.2 数据增强
为了测试该方法所采用的数据增强技术对准确率的影响,对无数据增强、传统的图像几何变换、GAN以及GAN与图形变换相结合的方式进行了对照实验,其中原始图像500张,传统的图像几何变换生成新的图像1500张,GAN生成新图像1500张. 实验结果表2所示,可以看出,GAN与传统图像几何变换相结合的方式可以极大地提高模型的准确率.
表 2 数据增强效果Table 2 Effect of data enhancement %
3.3 不同输入图像尺寸比较
一般而言,输入图像的尺寸越高,神经网络检测的准确率越高,与此同时会伴随着推理时间的增加. 为了在模型准确率和推理速度之间达到平衡,对输入图像的不同尺寸进行了测试,测试结果表3所示. 根据实际场景的需要,综合检测准确率和效率,选择480×480像素作为最终的图像输入尺寸.
表 3 不同输入图像尺寸的比较Table 3 Comparison of different image scales
3.4 与其他轻量级目标检测方法的比较
为了测试TATLNet的性能,将其与未经压缩的TATLNet、MobileNet和ShuffleNet进行了对比实验,实验结果如表4所示. 可以看出,经过压缩以后的TATLNet在准确率损失可控的情况下实现了检测速度的大幅提升. 跟其他轻量级目标检测算法相比,无论是检测准确率还是检测效率,压缩后的TATLNet都要更胜一筹.
表 4 与其他方法的比较Table 4 Comparison with other methods
3.5 现场部署分析
为了测试方法性能,在宁夏省银川市进行了现场部署测试. 现场使用的摄像机为HIKVISION DS-2CD3T25D-I5,安装在50个输电塔35~40 m的高度,采集到的图像尺寸为1920×1080像素,计算平台为NVIDIA Tegra X2,生成的识别结果示例如图6所示,在一个月中的报警数据如表5所示.
从中可以看出,该方法可以有效地检测出摄像头监控范围内入侵的吊车等大型机械,并且对于距离较远的目标也具有较高的准确性.
图 6 实地部署检测效果Fig.6 Detection result in field deployment
表 5 现场部署检测统计Table 5 Detection statistics in field deployment
4 结论与展望
针对输电场景中的大型机械检测问题,本文以一种新的输电线路威胁检测网络TATLNet为主体提出了一种基于深度学习的输电线路威胁报警方法. 通过一系列实验证明了TATLNet在对大型入侵机械上的优越性,并测试了不同的检测策略及超参数对检测准确率和效率的影响,实现了输电场景下大型机械入侵检测的优化研究. 主要结论为:
(1)以传统几何变换与GAN相结合的方式进行数据增强,在此情境下可以获得最高的准确率增益.
(2)采用模型压缩策略可以在不大量损失准确率的前提下实现检测速度的大幅提升.
(3)以准确率、召回率和检测效率作为评价指标,对网格划分策略以及输入图像尺寸进行比较,在将图片划分为9×9时各项指标达到最优,图像输入尺寸在480×480像素时准确率和效率达到最佳平衡.
(4)通过跟其他检测方法的对比实验以及现场部署结果表明,该方法在准确率和效率上都要优于已有算法,具有较强的可用性、实时性和健壮性.
在实际应用中发现了新的业务优化需求,由于该方法检测图像中的所有大型机械并发出提示,会产生一定的误报警. 在后续的研究中将会对系统进行进一步延伸,实现大型机械与输电线路相对距离的检测,从而消除大型机械在输电线路威胁距离以外时产生的报警.