基于阶段注意力机制的电力线提取算法

2021-09-20姜振邦邹宽胜

数据采集与处理 2021年4期

姜振邦，邹宽胜

（江苏师范大学电气工程及自动化学院，徐州 221116）

引言

电力线提取是保障飞行器低空安全飞行的重要措施，提前检测出电力线并实施避障具有重要意义。美军数据显示：1997~2006年，共发生54 起军用飞行器撞击电力线事故，造成13 名军事人员死亡，经济损失高达2.24 亿美元［1］。飞行器与电力线发生碰撞会导致电力线损坏，影响电力系统的稳定性。电力作为国民经济的重要基础工业，一旦发生故障将造成巨大的经济损失和社会影响。2019年8 月9日，英国伦敦等重要城市发生大规模停电事故，导致地铁与城际火车停运、道路交通信号中断，市民被困在铁路和地铁中，居民生活受到严重影响［2］。为保障电力系统健康运行，需定期进行电力巡检，掌握输电线路的运行情况以及线路周围环境和线路保护区的变化情况。电力线提取又是电力巡检中的关键环节，因此对电力线提取方法进行研究尤为重要。

利用图像处理技术可以高效地提取出电力线。最直观的电力线特征是基于边缘检测的直线特征［3］，文献［4‐5］将电力线简化为直线模型，但在复杂场景中这类基于边缘检测直线特征的提取方法，提取到的线段可能是车道、树枝或建筑物边缘等。为解决这类问题，学者们提出结合全局辅助物和上下文信息的电力线提取方法，文献［6‐7］均利用电力杆塔作为全局辅助物提取电力线。结合全局辅助物的电力线提取方法弥补了区分电力线和非电力线时仅依靠电力线自身特征所引起的不足，但预设的辅助物与电力线的关联模型（如塔‐线关联模型）难以适用多种多样的航拍图像［8］。文献［9‐10］将上下文信息与电力线特征相结合用以区分电力线和伪电力线，但上下文信息作为一种先验知识，当场景发生剧烈变化时，场景上下文特征无法发挥作用。

深度学习方法在图像处理领域得到广泛应用，如图像分类、目标检测［11‐12］和图像分割。在电力线提取任务中，学者们尝试引入深度学习方法。文献［13］通过卷积神经网络提取图像特征，将图像分为包含电力线和不包含电力线两大类，但无法实现电力线的准确定位。文献［14］通过构建一个改进的VGG16 神经网络获取每一层的分层响应，并将分层响应特征图进行整合以生成融合输出，实现了端对端的电力线提取。但由于电力线公开数据集的样本量少，模型提取到的电力线特征有限，复杂背景下的电力线提取效果并不理想。文献［15］针对医学图像提出U‐net 模型，在小数据集上取得较好效果，对电力线提取具有借鉴意义。

文献［16］提出注意力机制（Attention mechanism），其主要用于翻译模型，因其强大的关注特性和特征表达能力被引入计算机视觉领域。背景复杂的航空影像包含大量冗杂信息，注意力机制则能够通过聚焦重要信息，抑制非重要特征，提高电力线提取的效率与准确性。

因此本文提出一种基于阶段注意力机制的电力线提取模型，该模型采用语义分割模型的编码‐解码结构。编码阶段采用提出的阶段输入融合策略，将多尺度图像与池化后的特征图进行通道上的拼接。解码阶段嵌入改进的阶段注意力模块，通过将空间注意力、通道注意力和金字塔注意力融合，选择重点位置、增强代表性物体、减弱背景干扰，实现像素级跨场景电力线提取。

1 模型设计

1.1 算法流程和整体网络模型设计

使用SA‐Unet 模型进行电力线提取的整体流程如图1 所示：特征工程将数据处理成算法能够理解的格式，并划分为训练集和测试集。训练集用以训练深度学习模型，测试集用以预测和评估模型并返回预测结果。

图1 整体流程Fig.1 Overall process

模型整体架构采用编码‐解码的U 型结构，如图2 所示。编码过程采用阶段输入融合策略，充分利用图像不同接受域的信息，减少池化带来的空间位置信息丢失。同时仿照人类视觉机制设计出阶段注意力模块，从大量信息中筛选出对当前任务目标更关键的信息。

如图2 所示，SA‐Unet 编码部分由卷积模块、池化模块、阶段输入模块和特征融合模块组成。在网络的输入端输入一张128×128×3 的RGB 彩色图像，并生成3 种小尺寸输入图像。4 种不同尺寸的输入图像通过卷积模块提取特征，并与上一层经过池化的特征图进行通道上的融合。融合后的特征图分为两路，一路进行池化下采样操作，另一路与解码对应部分进行通道融合。SA‐Unet 解码部分由卷积模块、上采样模块、阶段注意力模块和特征融合模块组成。特征图经过上采样模块，图像尺寸增大，并与编码对应部分进行通道融合。通过阶段注意力模块，关注重点区域，抑制无效特征，最后进入卷积模块进行特征还原。

图2 SA‐Unet 模型Fig.2 Model of SA‐Unet

1.2 阶段输入融合策略

编码阶段进行4 次池化操作，极大减少参数量，加速损失的收敛。池化操作损失空间位置信息，某种程度上实现了一定的平移不变性，但是损失了图像部件之间精确的空间相对关系。另外，卷积神经网络（Convolutional neural network，CNN）的内部表示本身并没有很好地考虑低层部件和高层概念的空间层次关系。

对于电力线提取任务来说，除电力线本身特征外，辅助物和上下文信息是成功提取电力线的关键。然而部件间的空间相对关系和低层部件与高层概念间的空间层次关系，在某种程度上正是电力线提取任务中的辅助物和上下文信息，这些特征有助于电力线的提取。因此本文提出阶段输入融合策略，如图2 编码阶段所示：首先输入一幅图像，在经过卷积块的特征提取后进行4 次池化操作，并在第2 层至第4 层增加原始图像的多尺度输入，每一层的多尺度输入与上一层经过卷积和池化操作后的特征图进行特征融合，最终完成特征提取。

1.3 阶段注意力模块

注意力机制［17］是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也就是一般所说的注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，而抑制其他无用信息。这是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段，是人类在长期进化中形成的一种生存机制，人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性。如图3 所示，本文改进的注意力模块由空间注意力机制、通道注意力机制和金字塔注意力机制组成，通过对特征图进行加权处理达到增强目标特征并且抑制背景的目的。

图3 阶段注意力模块Fig.3 Stage attention module

卷积操作通过通道和空间信息的混合来提取特征，通过本文提出的阶段注意力模块强调通道维度和空间维度的有价值特征，且不同位置设置不同的特征关注度。在得到中间特征映射图的情况下，阶段注意力模块会进行3 个阶段的注意力映射，依次为通道注意力映射、空间注意力映射和金字塔注意力映射，然后将注意力映射相乘到输入特征映射中进行自适应特征细化。模块自动学习信息的重要程度，设置注意力权重，有效地帮助特征信息在网络模型中进行传输。

1.3.1 通道注意力

不同通道的特征图代表不同类型的图像特征，如形状，颜色和纹理等。同时不同类型的图像特征包含差异性信息，具有不同的贡献程度。通道注意力对不同的通道给定不同的关注度，关注有价值的通道信息，抑制其他通道的无用信息。因此设置通道注意力权重，关注重要通道信息，如图4 所示。

图4 通道注意力模块Fig.4 Channel attention module

将不同通道上的特征图F分别进行全局最大池化和全局平均池化，得到最大池化向量VM和平均池化向量VA。然后将两个向量输入到权值共享的感知机进行运算，输出两个处理过的空间注意力向量VMN和VAN。接着对两个空间注意力向量进行逐像素相加，并送入Sigmoid 激活函数，得到新的空间注意力向量Mc(F)。最后将新得到的空间注意力向量与原特征图相乘，获得最终的特征图FC。

计算公式为

式中：AvgPool( ⋅) 为全局平均池化；MaxPool( ⋅) 为全局最大池化；MLP( ⋅) 为感知机；σ( ⋅) 为Sigmoid 激活函数。

1.3.2 空间注意力

根据人类视觉系统的特点，人类观察事物首先会注意到感兴趣的区域，忽略空间中其他区域。空间注意力机制从人类的视觉系统中得到启发，将特征图的不同部分配以不同的权重，关注一幅图像中的重要目标区域。本文提出的空间注意力模块，如图5 所示。

图5 空间注意力模块Fig.5 Spatial attention module

将经过通道注意力生成的特征图FC输入至空间注意力模块，分别做基于通道的全局最大池化和全局平均池化，得到最大池化特征图和平均池化特征图，并将两个特征图在通道上进行拼接。然后通过卷积操作将特征图的通道降为1 得到FS，再经过Sigmoid 激活函数生成空间注意力特征。最后将输入特征与空间注意力特征进行乘法操作，得到最终的特征图。

计算公式为

式中：AvgPool( ⋅)为全局平均池化；MaxPool( ⋅)为全局最大池化；f( ⋅)为卷积操作；σ( ⋅)为Sigmoid 激活函数。

1.3.3 金字塔注意力

视觉系统在处理任务时会综合考虑多方面信息，比如在使用显微镜观察细胞时，不同的放大倍数观测到的细胞特征完全不同。金字塔注意力依据人类视觉处理机制，通过提取图像不同感受野的特征图，获取不同感受野下的图像信息，将这些信息融合，获得最后的权重系数［18］。本文提出的金字塔注意力模块如图6 所示。

图6 金字塔注意力模块Fig.6 Pyramid attention module

计算公式为

式中：f1( ⋅)表示卷积核大小为1 的卷积操作；f3( ⋅)表示卷积核大小为3 的卷积操作；f5( ⋅)表示卷积核大小为5 的卷积操作；σ( ⋅)为Sigmoid 激活函数。

2 实验结果与分析

2.1 数据集

实验数据采用公开的Powerline Image Dataset 数据集，本数据集由土耳其电力传输公司（TEIAS）从实际飞机上获取视频画面，并对视频帧进行彻底的检查，分离、捕捉和清理。本数据集共采集了4 000张红外图像和4 000 张可见光图像，并缩放到128 像素×128 像素。红外文件夹包含2 000 张带有电力线的红外图片和2 000 张没有电力线的红外图片。可见光文件夹包含2 000 张含有电力线的可见光图像和2 000 张不包含电力线的可见光图像。视频拍摄于土耳其21 个不同地区的不同季节。由于不同的背景，不同的温度和天气条件，以及不同的照明条件，所获得的正集包含极其困难的场景，其中低对比度导致电力线接近不可见。原始视频的红外分辨率为576 像素×325 像素，可见光为全高清。然而，捕获的帧被缩小到更小的尺寸128 像素×128 像素。

在包含电力线的2 000 张可见光图像中，低对比度导致部分图像的电力线接近不可见，无法进行数据的像素级标注，故将其剔除。最终共获得1 974 张包含电力线的可见光图像，包括训练数据1 874 张，测试数据100 张。

关于数据的标注工作，共邀请了6 名具有资深经验的数据标注师进行人工标注。实验使用数据标注软件Labelme 对可见光图像进行数据标注，生成json 文件，文件中包含像素点的位置信息以及所属类别。最终通过Python 程序将json 文件转换为标注图（Ground truth，GT）。

2.2 实验配置

本文引入FCN8s［19］，FCN16s［19］，FCN32s［19］，Unet［15］和SegNet［20］5 种模型与本文提出的SA‐Unet在Powerline Image Dataset 图像数据集上进行比较，以验证模型的有效性。SA‐Unet 利用模型减枝即丢弃不代表模型性能的权重加速模型，并通过Fusing batch normalization and convolution 和多线程等策略提高算法效率。模型采用BCE With LogitsLoss 损失函数，Adam［21］优化函数，学习率（Learning rate）设置为2e - 4，循环周期（epoch）设置为50。其余的实验配置：Windows10 操作系统，Pytorch1.7.0 深度学习框架，CPU：Intel（R）Core（TM）i9‐10900k CPU @ 3.70 GHz，GPU：显存为8 GB 的NVIDIA Ge‐Force RTX 2070。

2.3 评价指标

为衡量SA‐Unet 模型预测能力的好坏，本文使用语义分割中最常用的平均交并比（Mean intersec‐tion over union，MIoU）和像素精度（Pixel accuracy，PA）作为度量标准。

MIoU 是衡量图像分割精度的重要指标，即在每个类别上计算两个集合的交集与并集之比，最后再求取整体的平均值。MIoU 的值越大，表示模型的预测能力越好，分割精度越高。

计算公式为

式中：n表示类别数；pii表示像素实值为i且预测结果为i的数目；pij表示像素实值为i且预测结果为j的数目；pji表示像素实值为j且预测结果为i的数目。

像素精度即分类正确的像素占总像素的比例，计算公式为

式中：n表示类别数；pii表示像素实值为i且预测结果为i的数目；pij表示像素实值为i且预测结果为j的数目。

2.4 消融实验

在消融实验中，通过移除阶段输入融合模块得到A‐Unet，通过A‐Unet 与SA‐Unet 的效果对比，查看使用阶段输入融合策略带来的好处。类似地，从SA‐Unet 中删除阶段输入融合模块和阶段注意力模块得到Unet，通过A‐Unet 与Unet 的效果对比，以查看阶段注意力模块在网络执行过程中的作用。实验结果如表1 所示，其中Time 表示推理一张图片所用的时间。

表1 消融实验结果Table 1 Results of ablation experiment

横向来看，SA‐Unet 比A‐Unet 在评价指标PA 上提高0.13%，在评价指标MIoU 上提高1.25%，显然阶段输入融合策略可以明显提高电力线的分割精度。A‐Unet 和Unet 相比，PA 指标降低0.05%，而MIoU 指标提高0.76%，表明阶段注意力机制牺牲微乎其微的PA 指数换取MIoU 指数的明显提升。经过优化的SA‐Unet 推理一张图片用时0.253 1 s，低于A‐Unet 和Unet 模型，证实了SA‐Unet 使用加速策略的有效性。

纵向来看，Unet、A‐Unet 和SA‐Unet 在评价基准PA 上均取得较高分数，而且三者相差不大。因为对于航空电力线图像而言，电力线在整幅图像中占比较小，属于小目标和弱特征物体。而评价指标PA描述的是分类正确的像素占总像素的比例，对于电力线占比极小的航空电力线图像而言，电力线分类正确与否对PA 值的贡献不大，故3 种模型均取得较高分数且相差不大。

2.5 对比实验

本文给出包括SA‐Unet 在内的6 种模型在数据集部分测试图像中的分割预测效果，见图7。Power‐line Image Dataset 数据集大致可以分为城市电力线场景和乡村电力线场景，本文选取数据集中背景复杂、电力线提取难度高的4 张电力线图像进行展示，其中包括1 张城市电力线场景图和3 张乡村电力线场景图。乡村电力线场景分别选取乡村森林电力线场景、乡村田地电力线场景和乡村公路电力线场景，基本覆盖数据集所有的场景类型。

图7（a）展示4 张不同场景和难易程度的航空电力线图像。第1 幅图像为树林、电力线杆塔和电力线相互交织的场景，第2 幅和第3 幅图像为乡村田地的电力线场景，其中第3 幅图像中混入乡间公路，第4 幅图像为高楼林立的城市电力线场景。图7（b）展示4 种不同场景航空电力线图像的人工标注。由图7（c）可以看出，FCN32s 由于直接将提取到的特征图进行双线性上采样至输入图像尺寸，故仅能提取特征明显的电力线，在第1 幅、第3 幅和第4 幅图像中存在电力线漏检，在第2 幅图像中则出现了电力线错检。如图7（d）和图7（e）所示，FCN16s 和FCN8s 最终输出前融合浅层特征，较FCN32s 图像分割精度提高。但FCN16s 和FCN8s 在第1 幅图像中均出现电力线断续的问题，在第2 幅图像中则出现电力线过分割问题。由此可见，FCN 系列模型对小目标物体的分割并不理想。如图7（f）所示，Segnet 在第2 幅和第4 幅图像中取得了较好的分割效果，这是由于Segnet 采用编码‐解码结构并且利用最大池化改善了边界划分的结果。由于光照等因素的影响，第1 幅和第3 幅图像中的部分电力线特征较弱，几乎不可见。Segnet 在第1 幅图像中提取到的电力线存在断续，第3 幅图像中漏检了弱特征电力线。如图7（g）所示，Unet 在第1 幅和第2 幅图像中取得了较好的分割效果，同样在第3 幅图像中出现漏检，并且在第4 幅图像中将少量的建筑物边缘视为电力线提取出来。如图7（h）所示，SA‐Unet 在第3 幅图像的电力线提取中存在断续，这是由本数据集可见光图像低对比度和光照导致电力线不可见导致的。SA‐Unet 整体取得了最好的分割效果，能较准确地区分出前景目标和背景区域，这得益于模型的多阶段输入融合策略和阶段注意力机制。

图7 电力线分割预测效果Fig.7 Prediction effect of power line segmentation

表2 给出包括SA‐Unet 在内的6 种模型在100 张测试图像中的实验性能对比，其中Time 表示推理一张图片所用的时间。横向来看，FCN32s 和其他5 个网络模型相比，在两个指标上的性能表现最差，表明FCN32s 模型在数据集上，经过模型预测的像素分类准确度较低，电力线预测区域和电力线标注区域之间的重合区域较少，在很多情况下不能正确分割出电力线。FCN16s 和FCN8s 明显优于FCN32s，但与Segnet、Unet 和SA‐Unet 相比，差距仍很明显。Segnet 模型和Unet 模型整体效果较好，Unet 模型通过牺牲0.05% 的PA 值换取了MIoU 指数1.99% 的提升。SA‐Unet 模型在PA 和MIoU 两项指标中表现最好，充分表明利用阶段输入融合策略并嵌入阶段注意力模块的SA‐Unet 模型的有效性。经过优化的SA‐Unet 推理一张图片用时0.253 1 s，低于Unet、Segnet 和FCN32s，略高于FCN16s 和FCN8s，平衡了算法的效率和精度，基本满足低速条件下的实时性需求。

表2 对比实验结果Table 2 Results of comparative experiment

纵向来看，SA‐Unet 模型在评价指标PA 和评价指标MIoU 上表现最好，分别取得97.57% 和68.37% 的优异成绩，比性能第2 的Unet 模型分别提高了0.08% 和2.01%，在MIoU 指标上有显著性提升。

3 结束语

本文提出一种基于阶段注意力机制的电力线提取算法。在编码阶段，根据航空影像中电力线图像特点，提出阶段输入融合策略以减少空间位置信息丢失。在解码阶段，嵌入改进的阶段注意力模块，利用有限的注意力资源从大量信息中快速筛选出高价值信息。此外，对Powerline Image Dataset 数据集进行整理和标注，并将本文提出的算法在数据集上进行测试。通过消融实验证实了本文提出的阶段输入融合策略与阶段注意力机制的有效性，并与5 种语义分割算法进行比较，在PA 指标和MIoU 指标上均取得最优结果。但是电力线在航空影像中属于小目标物体，所占像素极少，能够提取到的特征有限，并且由于环境和光照等因素的影响，部分电力线不可见。因此，基于单一数据源的语义分割模型普遍存在分割精度不高甚至部分电力线无法提取等问题。接下来将探索多种数据源融合的电力线提取算法，利用多模态信息提高算法在小目标和弱特征物体上的分割精度。