基于语义信息分块的高像素导线缺陷目标识别
2022-08-09廖如超廖建东袁新星康泰钟
廖如超,张 英,廖建东,袁新星,康泰钟
(1.广东电网有限责任公司机巡作业中心,广东 广州 510145 ;2.北京数字绿土科技有限公司,北京 100089)
输电导线是输电系统中重要的设备,而输电导线需要跨越复杂的地理环境,如高山深林、沙漠戈壁[1-4]。在复杂的环境中,输电导线面临着风吹雨打、电闪雷击、冰敷等恶劣天气带来的损害[5],极易造成雷击、散股、断线等电力故障[6]。这些电力故障若不及时发现和处理,极易引发电力事故。在巡检过程中,运维人员能够对导线进行精细化巡检,发现导线缺陷,并及时汇报反应处理,对电网安全可靠运行有着重要实际意义。
对架空线路的导线检测,若依靠人工巡检,会存在检测效率低、工作强度大、人力管理成本大、安全性低等问题。近些年,为了提高巡检效率和降低巡检成本,大部分架空线路巡检运维工作都会通过无人机、直升机、机器人等巡检手段采集导线图像,并对其进行缺陷识别。而所采集的图像信息还需人工检验,缺陷自动化识别是进一步提高巡检效率的关键。图像处理、深度学习等技术在自动化巡检流程中得到了广泛的应用[7-8]。文献[9]通过设计模拟退火微粒群算法实现导线图像分割后,利用改进的Freeman链码表示法对输电导线进行目标提取,复原缺失部分实现导线完整提取,其算法仅实现其导线的提取部分,并没有定位其缺陷位置。在导线缺陷识别方面,文献[10]通过感知定律的共线性和分段灰度的相似度实现检测导线上的断股与异物检测的研究;文献[11]应用小生境遗传算法寻找最优的Gabor滤波器参数,在利用该分割阈值和图像能量二值化得到导线缺陷检测结果;文献[12]提出通过纹理斜率分布的散股判定模型,而算法在复杂背景如树木、道路等效果不佳。在深度学习应用中,文献[13]提出利用径向基概率神经网络实现输电导线缺陷状态识别,而该方法不能全面覆盖导线缺陷情况;在高分辨率图像目标识别的研究中,文献[14]通过改进Yolov3的残差网络模块,实现对高分辨的遥感图像中飞机的目标识别,获得了99.72%的准确率和98.34%的召回率;文献[15]通过改进Faster R-CNN,实现了对高分辨率的遥感图像中房屋等特定目标的识别。但以上算法未考虑实时识别的需求。
本文基于切片分块的思想[16]对导线图像分块处理,从而减少目标识别模型的输入大小,以此减少目标识别模型的计算时间,满足实时识别需求。另外,导线图像分块处理需对导线区域进行识别,利用现有主流图像分割模型U-net实现对图像导线区域分割,并探索U-net的输入大小会对模型计算时间的影响。在此基础上,为了方便对导线区域作分块处理,通过网格化图像实现导线区域位置的定位。进一步地,为了提高对导线区域中小目标识别的准确率,通过导线区域位置和降采样比例提取高分辨率原图像的导线区域。最后,将该提取的导线区域图像作为目标识别模型的输入,其中目标识别模型采取骨干网络为Mobilenetv2的Yolov3模型,对导线缺陷如断股、散股、烧蚀等进行目标识别,对分割过程和识别过程的损失函数进行分别优化。为了验证在具体场景中的实时性和识别率是否达到巡检需求,利用由历史巡检数据中的导线缺陷样本进行测试,实际测试效果显示该方法能够满足无人机巡检过程对导线缺陷识别需求。
1 语义分割导线区域
为了获取导线目标区域,需要对巡检图像中的导线区域进行提取。深度学习技术在图像分割任务上有着较好的效果,如U-net模型。图像分类任务在深度学习中一般通过卷积神经网络实现(如VGG和Resnet[17])。卷积神经网络会完成特征提取后加入全连接层,最后通过Softmax计算获得输入图像的类别概率向量。而概率向量维度为1,即当前分类任务只能实现对整个图像分类,而不能实现对图像像素的分类。图像分割任务区即是对图像像素的分类任务。FCN(fully convolutional networks for semantic segmentation)[18]是首个语义分割网络,提出通过反卷积或插值放大等上采样方式将卷积层得到的特征图从小尺度的特征图恢复原来图像大小的尺度,最后以连接一个二维的softmax得到图像中每个像素的分类概率。U-net与FCN基本思想相同,而FCN为了实现细节的分割,采用不同尺度下的特征图相加(Add)融合使得分割精度得到上升。另外,U-net以拼接(Concat)的方式融合特征图[19],可以通过更小的训练集实现图像较好的分割精度。本文中的U-net的网络结构采用4层对称结构,如图1所示。在实际巡检中,无人机采用相机Z-Fusions,其拍摄图像像素为3840×2160。U-net网络的识别速度和分割精度与网络输入大小降采样比例768有关,如图2所示。
图1 U-net网络结构Figure 1 Structural diagram of U-net network
图2 输入大小降采样比例与识别精度和识别速度关系Figure 2 Relationship amongst input size down-sampling ratio and recognition accuracy and recognition speed
在识别速度和分割精度之间权衡,为了方便后续导线区域定位和区域图像输入至目标模型,可对原图像通过线性插值方式调整其像素大小为3 840×3 840,然后降采样K倍,得到低像素图像,如图3所示。
图3 高像素图像降采样后的低像素图像Figure 3 Low-pixel image after high-pixel image down-sampling
低像素图像作为本文的U-net网络输入,其损失函数如为
(1)
式中x为二维平面Ω上的像素位置;αk(x)为网络最后输出层中x对应k个通道的值;K为类别总数。pk(x)为像素x属于k类的概率,其表达式为
(2)
式中pl(x)为x在真实标签样本所在通道上的输出概率。另外ω(x)为类别权重,根据训练数据集中的各类别出现的频率来进行统计,类别出现的频率越高,给予的权重越低,频率越低则权重越高。加权交叉熵能够缓解前景像素数量远远小于背景像素的数量时导致模型偏向背景的问题。训练过程中采用Adam优化函数,其中,学习率lr=0.001,β1=0.9,β2=0.99,ε=10-8。为了网络能在复杂背景下得到好的分割效果,需要在多个角度、不同光照下、不同背景下采集样本数据,而缺陷图像不容易获取,所以采用人工提取导线区域后添加至新背景图的方式扩充数据集,在此基础上进行对样本数据进行数据增强扩充数据集数量,需标记的导线区域和实际模型输出如图4所示。
图4 U-net分割训练集标记图和U-net输出的分割图Figure 4 U-net segmentation training set and U-net output partition graph
2 导线区域切片分块
通过图像分割将导线区域提取后,为了减少目标识别模型输入的大小,可通过网络化分割图进行切片分块,并获取导线更小的分块图像。该研究通过导线分割图进行N×N网格切片处理,得到N×N个切片图像。为了区分导线切片图像和背景切片图像,可计算切片图像导线类别概率总和S,当S大于阈值β=0时,可认为该切片图像中存在导线区域。标记每个切片在分割图的相对位置P(i,j),其中,0≤i≤N,0≤j≤N,切片图像如图5所示,切片图像大小为540/N×540/N。
图5 低像素分割图像网格化后生成批量切片Figure 5 An example image of batch slicing generated after low-pixel segmentation image gridding
此时导线区域已被切片分块,其大小要远少于原来图像大小。而导线切片图像已被降采样方式降低像素,其缺陷特征信息将减少,在后续目标识别中会降低对小目标的缺陷识别精度。那么可根据低像素切片图像的位置信息和降采样比例K映射至高像素图像上,得到高像素切片图像,如图6所示,并作为后续目标识别网络的输入。
图6 高像素切片Figure 6 High-pixel slicing map
3 导线缺陷识别
通过语义分割导线区域,定位导线区域切片位置,将原本高像素图像划分为含有导线信息区域的多个切片图像,输入大小大大减少。然后需对这些切片图像进行导线缺陷识别,其在图像任务中属于目标识别任务。而Yolov3是目前落地应用广泛的目标检测网络,其骨干网络为Darknet-53网络,其具有网络实现简单、处理速度快的特点。Darknet-53是基于Resnet的残差网络思想,并采用多尺度特征融合计算从中提取3个尺度特征图对不同尺度下的特征图进行特征融合,实现对小尺度的目标识别。而Darknet-53网络规模大,其对硬件要求很高,在板载计算机有限的计算能力下识别速度无法满足实时需求。在实际巡检场景中对目标检测种类数量不多,可以采用轻量级的网络作为骨干网络。其中,Mobilenet系列是由Google提出的移动端轻量级网络,Mobilenetv1通过深度可分离卷积层(Convolution Depth Wise Layers)将标准卷积分解为2个更小操作分别为Depthwise Convolution和Point-Wise Convolution,以此提高计算效率,而Mobilenetv2设计了Linear Bottlenecks和反转残差(Inverted Residuals)模块进一步提高准确率[20],模块结构,如图7所示。
图7 Depthwise Convolutional Layers 和 Linear Bottlenecks和Inverted Residuals 结构Figure 7 Structural diagram of depthwise convolutional layers and linear bottlenecks and inverted residuals
为了减少目标识别网络的计算量的同时保持其特征提取的能力,可以采取Mobilenetv2作为该研究中目标识别网络的骨干网络,其改进的Yolov3检测网络结构如图8所示。
图8 Mobilenetv2-Yolov3结构Figure 8 Structural diagram of Mobilenetv2-Yolov3
4 实验结果与分析
4.1 实验条件
为了验证该研究方法在具体场景中的实时性和识别率是否达到巡检需求,搭建实验平台验证其效果。首先,硬件平台采用Jetson AGX Xavier (8GB)的板载计算机,软件框架通过Caffe编写模型代码和使用量化技术实现模型加速。通过历史采集的导线缺陷图像构成该研究的样本数据集,数据集样本数量为500,并对该数据集进行数据增强,散股、断股、烧蚀的标注比例为1∶1∶2,训练集与验证集的比例为7∶3划分后进行训练。其中,网格划分大小N为8,降采样大小K为5。采取VOC(Visual Object Class)数据集评价指标标准,即当分割精度大于或等于0.5时,预测框命中。其实验结果以网络的mAP(mean Average Precision)、召回率(Recall)、识别时间(Inference Time)为评价指标,对比将输入图像直接降采样为网络标准输入为416×416的Darknet53-Yolov3、采取语义分块后的输入大小为480×480,并且使用不同骨干网络网络的Patched-tiny-yolov3、Patched-darknet53-yolov3、Patched-mobilenetv2-yolov3、Mask-RCNN效果。
4.2 结果分析
实验算法对比如表1所示,实验算法的效果如图9所示。由实验可知,若直接对输入图像进行降采样到低像素图像大小后再输入Yolov3网络,会让原本高像素图像小目标特征丢失,如图10所示,如烧蚀等细微的目标检测无法实现,导致平均识别率很低,各个类别的识别率如图11所示。通过切片分块映射得到高像素图像后,输入网络识别精度得到提升,Mobilenetv2为骨干网络的Yolov3网络比其他网络精度差别不大的情况下速度更快,能够满足实时需求,而Mask-RCNN在识别精度和处理速度上都难以满足。
表1 各算法性能对比Table 1 Performance comparison table of each algorithm
图9 高像素导线缺陷识别效果Figure 9 Effect picture of high-pixel wire defect identification
图10 分块高精度图片和降采样后裁剪的低精度图片对比Figure 10 Comparison of patched high-precision image and low-precision image after down-sampling
图11 不同模型下的各个类别识别率对比Figure 11 Comparison of recognition rate in each category under different models
5 结语
在对无人机巡检采集的高像素导线图像进行缺陷实时识别过程中,导线腐蚀等缺陷在高像素图像中属于小目标,若采取直接降采样方法进行目标检测,其缺陷特征信息会丢失,无法实现高召回率的目标检测需求。此外,由于板载计算机算力有限,若直接将原图像作为目标识别网络输入,则小目标识别准确度将降低。本文通过切片重映射方法获取高像素切片图像,大大减少目标检测区域和计算量,并加快了识别速度。实验结果体现出本文提出方法的有效性,该方法为实现高像素图像小目标识别及无人机智能巡检的研究提供了新思路。