基于深度学习的电网监控视频中工作人员检测与识别*
2019-09-19杨壮观同东辉
刘 颖, 胡 楠, 杨壮观, 同东辉, 胡 畔
(国网辽宁省电力有限公司 信息通信分公司, 沈阳 110006)
随着网络技术的快速发展,基于流媒体技术和图像压缩技术的视频监控系统被广泛应用于厂矿、学校和银行等场合[1].电力系统由于受生产环境和厂地位置的限制,通常分布在较偏僻的地区.为了保证电网系统安全稳定运行,电网公司安装了大量的监控系统,并通过人工监管和查看后期视频对电网进行监测[2-3],然而这并不能及时发现电网风险,挽回损失.因此,开发和设计智能行人检测与识别系统能减轻监控人员的负担,并能更好地保障电网环境的安全[4].
电网监控视频通常面临着背景复杂、场景多变等问题,人体姿态的变化和遮挡也会对检测与识别带来困难[5].传统的行人检测方法侧重于提取有效的行人特征,设计简单的分类器,常见的特征包括局部二值模式(local binary pattern,LBP)特征、梯度向量直方图(histogram of oriented gradient,HOG)特征、Haar特征和积分通道特征等[6-7];常见的行人分类器有SVM(support vector machine)、人工神经网络和随机森林等.基于这些特征与分类器提出了诸多行人检测与识别方法,如文献[8]提出了一种基于SVM和小波特征的行人检测方法;文献[9]基于AdaBoost算法和聚类方法利用多个决策器的输出组合检测出行人目标.
相比于上述特征提取方法,深度学习[10]采用贪婪逐级训练策略从海量训练数据中提取出更丰富的特征.基于深度学习的目标检测方法有端到端和区域提名两种,端到端方法主要包括SSD(single shot multibox detector)和YOLO(you only look once)两种;区域提名方法主要包括RCNN和SPP-Net[11].这些方法使用海量数据训练神经网络,大幅提高了目标检测的准确性和鲁棒性.本文基于深度学习技术实时分析电网监控系统的图像,并对其中工作人员进行检测和识别,以辅助保障电网安全生产及设备安全稳定.
1 目标检测
本文使用Faster-Rcnn检测电网监控视频中的工作人员,总体流程如图1所示.该算法首先使用卷积神经网络提取监控视频中每一帧图片的特征,并生成特征图,然后由区域生成网络RPN根据特征图生成可能存在目标的得分,最后由ROI池化层根据生成的区域建议和阈值判断出目标的类别,并在此通过边框回归获得目标的精确位置.本文设置阈值为0.5,当区域建议的分数大于0.5时,标记这些边框为目标;否则标记为背景.相比于传统的目标检测方法,Faster-Rcnn具有更快的训练速度和更高的检测精确.
Faster-Rcnn的特征提取网络由多组Conv、Relu和Pooling层组成,通过不断改变输入、输出特征图的大小来获得更大的感受野,本文使用Res50网络作为特征提取网络.传统的目标检测方法使用活动窗口和图像金字塔的方式生成目标位置,而Faster-Rcnn使用RPN网络直接生成检测框,从而大幅提高了检测速度,图2所示为RPN网络架构.该网络采用锚策略在特征图中选取k个具有不同大小和长宽比的锚,每个锚使用Softmax将目标框分为有行人和没有行人两类,并计算出目标框的偏移量以获取更精确的结果.假设目标框由(x,y,w,h)表示,其中,x,y为目标的最左上坐标;w和h为目标框的宽和高,则将随机初始化的位置A=(Ax,Ay,Aw,Ah)映射到真实窗口G=(Gx,Gy,Gw,Gh)时需要先做平移变化再做缩放,即
图1 行人检测流程Fig.1 Flow chart of pedestrian detection
(1)
式中,dx(A)、dy(A)、dw(A)、dh(A)为需要学习的偏移量.训练时输入目标位置b=(bx,by,bw,bh),输出为dx(A),dy(A),dw(A),dh(A)的4个变换,则有
d(A)=WTφ(A)
(2)
式中:W为网络参数;φ(A)为特征向量.
图2 RPN网络结构Fig.2 RPN network structure
为了使得到的位置尽量精确,需要使输入与输出的损失函数最小,即
(3)
ROI池化层将原始特征和RPN的结果作为输入,根据输入特征计算出位置建议特征,并送入后续网络得到最终的目标位置,使得每个特征图被归一化到相同的大小.由于所有建议的目标位置的尺度均为M×N,因此,ROI池化层首先将参数映射为M×N大小的尺度,并将每个位置建议按水平、竖直方向分为7份,得到7×7大小的建议,最后,使用全连接和Softmax层计算每个建议的类别并输出概率向量.
工作人员检测网络的目标函数为多任务分类函数,即网络一方面要准确地判断是否有工作人员,另一方面也要确定出检测框的具体坐标.因此,本文定义的目标函数为
(4)
(5)
2 工作人员检测与识别
继续对检测网络检测到的工作人员进行再识别,本文将两个网络融为一个网络,使用相同的特征提取网络实现多任务学习.本文使用Res50网络作为特征提取层,具体检测与识别架构如图3所示.该网络主要包括特征提取网络、工作人员检测网络和工作人员识别网络,首先,使用Res50网络提取输入图片的特征,然后,使用工作人员检测网络检测出工作人员框,最后,使用工作人员识别网络识别出工作人员的身份信息.
图3 工作人员检测与识别网络Fig.3 Staff detection and identification network
1) 特征提取网络.该网络为工作人员检测与识别网络的共享网络,输入图片大小为600×1 000,用Res50网络的前4个块提取特征,得到1 024个大小为38×63的特征映射.测试时只需将输入图片调整到600×100分辨率即可.该网络的具体参数如表1所示.表1中data为输入层数据,图像大小为3通道、宽600、长1 000;Conv1为卷积层,卷积核大小为7×7,核数量为64,步长为2;Pool为池化层,核大小为3×3,步长为2,其它各层的参数定义类似.
2) 工作人员检测网络.该网络使用上文介绍的Faster-Rcnn提取出候选框,将第1部分Res50网络提取出的特征图的每个位置选取出9个Anchors,并回归计算出行人框.
3) 工作人员识别网络.该网络将特征提取网络提取出的特征图输入到ROI池化层,以统一特征维度.此网络将特征图固定在14×14的大小,并使用如表2所示的网络架构进一步进行特征提取,然后将生成的2 048维特征向量输入到全连接层和Softmax层,对边框中的行人进行识别.
表1 特征提取网络参数Tab.1 Feature extraction network parameters
表2 工作人员识别网络架构Tab.2 Staff identification network architecture
本文使用Softmax损失和IOM损失来判别检测出的行人是否为电网工作人员.其中,IOM损失可以在扩大类间距离的同时减小类内距离,使不同特征的类尽量分开,其定义为
(6)
式中:z为提取出的特征;γ∈[0,1];vi和uk分别为预先提取的第i个和第k个工作人员的特征;Q、L为各类工作人员的总数;si为待查询的工作人员是第i个标记的工作人员的概率;gi为待查询的工作人员不是第i个标记的工作人员的概率.
3 仿真与测试
本文截取电网监控视频的图像来构建数据集,该数据集共包括40 000张训练图片和3 000张测试图片.本文使用GTX1060 GPU训练该网络,并设置初始学习率为0.001,使用Adam优化网络参数.使用监控视频数据集和上文介绍的深度神经网络来检测与识别电网工作人员,并通过分别计算检测及识别精度来验证所提方法的有效性.
图4为本算法在20 000次迭代中识别精度和平均检测精度(mAP)的变化情况.从图4可以看出,网络迭代10 000次后即可获得较好的检测和识别精度,且随着迭代次数的增加,性能稳定上升.
增加深度神经网络的特征维度,将增加训练复杂度和训练时间,但也能一定程度上提升网络性能.本文比较了使用不同数量的特征维度时,电网工作人员的识别与检测精度,如图5所示.从图5中可以看出,在特征维度为256时具有最优的检测精度和识别精度,因此,本文在后续电网工作人员的识别与检测测试中设置特征的维度为256.
图4 检测与识别精度Fig.4 Accuracy of detection and recognition
图5 不同特征维度下的性能比较Fig.5 Performance comparison under different feature dimensions
为了验证本文方法的有效性,将所提出的方法与CCF、ACF、GT等检测方法及DSIFT+Euclidean、DSIFT+KISSME、BOW+Cosine、LOMO+XQDA、PS等识别方法进行比较,各种方法均使用默认的参数设置,比较结果如表3、4所示.表3分别给出了各种算法的平均精度均值和top-1精度,其中top-1精度为预测结果中概率最大的分类结果的正确率.由表3可以看出,相比于传统方法,本方法能获得更高的检测和识别精度.同时,由于光照条件和工作人员被遮挡时均会对检测和识别的精度产生影响,本文也比较了在低光照及有遮挡时各种方法的检测和识别精度,结果如表4所示.从表4可以看出,在遮挡和低光照情况下,所提出的方法均能取得更好的检测和识别结果.
4 结 论
本文提出一种基于深度学习的电网监控视频中工作人员检测与识别算法.该算法组合了行人检测网络和行人识别网络,能够识别出电网监控视频中的工作人员.两个网络共享Res50网络提取出的行人特征,并使用RPN网络和ROI池化快速、精确地检测出电网中的工作人员;使用Softmax和IOM损失对检测出的工作人员进行身份确认.在电网监控视频构成的数据集上的测试结果表明,所提出的方法具有更高的检测和识别精度,且对遮挡及低光照图片具有较好的鲁棒性.
表3 各种算法精度比较Tab.3 Accuracy comparison of various algorithms %
表4 低分辨率和低光照时精度比较Tab.4 Accuracy comparison under low resolution and illumination %