基于双目视觉的电力塔倾斜检测方法

2022-06-24陈广华葛梦莹黄白瑶梁国贤李潇凯

北京交通大学学报 2022年2期

陈广华，葛梦莹，黄白瑶，梁国贤，李潇凯

（北京交通大学机械与电子控制工程学院，北京100044）

电力塔长期暴露在户外，受到强风、地震等自然灾害和人为因素的影响，导致受力不平衡发生倾斜，若不及时修复会发生严重事故，造成地区性的停电和经济损失，因此，建立高效智能的电力塔倾斜检测系统对电力系统安全稳定运行有重大意义.

传统电力塔倾斜检测主要采用铅垂法、平面镜法、经纬仪法和全站仪免棱镜等方法.其中，铅垂法适用范围广泛，要依靠人工登塔完成测量，安全性低［1］.平面镜法利用光学原理解决了特殊地形下的测量受限问题，但平面镜设置繁琐，需要大量人工调整，一般在特殊地形下采用.经纬仪法要依靠人工棱镜来配合，仪器需多次设站，易受地形所限［2］.全站仪免棱镜测量法通过测量电力塔空间信息的特性，利用制图工具绘图，计算得到倾斜度［3-4］，此法仍然需要人眼瞄准，受人为因素影响大.

近些年出现了多种测量塔倾斜度的先进方法，如传感器监测法、激光雷达法、图像处理法等.Ngabo 等［5］提出基于加速度计的无线传感器网络三维倾斜测量，Zhang 等［6］通过MPU6050 倾斜传感器和无线通信LoRa 模块，将杆塔倾斜参数通过NB-IoT 上传到在线实时监测系统，Shi 等［7］提出了一种基于LoRa 传感器节点和滑动XGBoost 预测器的输电塔倾角预测方法.以上3 种方法都利用传感器可实现实时监测或预测.郭明等［8］利用地面激光雷达和高精度全站仪得到应县木塔的点云数据并进行剖切，经过点云处理得到木塔倾斜度.陈亮［9］提出基于高密度机载激光雷达点云的杆塔信息提取.这两种方法都利用激光雷达重建三维点云，精度高，但成本较高.Gang 等［10］采用双正方形人工标记和由Matlab 确定的铅垂线，基于单目图像处理技术记录建筑物倾斜角度的变化，此法能够观察到实地情况并预警，但数据处理工作繁杂、计算量大，且关于镜头畸变的计算部分理论上无法通过计算完全消除［1］.王榆夫等［11］利用无人机对航拍图像中电力杆塔倾斜进行自动识别，此法通过无人机采集多张不同角度的二维图像计算倾斜度，易受地形和风力影响［4］.

双目视觉作为一种典型的测量技术，广泛应用于许多领域，如几何测量、机器人路径校正和质量检测.Lin 等［12］设计了一种基于双目视觉技术的针尖自动测量系统，激光干涉仪被用作测量针尖位置的参考，并设计了一种针尖提取算法，可以在不安装标记点的情况下完成针尖像素坐标的检测，最后通过实验评估提出系统的性能，系统精度可控制在0.362 1 mm 以内.Xia 等［13］提出了一种精确、鲁棒的圆孔测量方法，通过像素强度信息并优化边缘来精确地重建空间圆孔，实验表明该方法测量误差在0.05 mm 左右.此外，针对成捆原木自动化检尺中原木端面径级检测的关键问题，一种利用双目立体视觉原理完成原木径级快速三维测量的方法被提出，该算法能够在10 s内完成原木径级的检测，测量误差在2 mm 内［14］.

双目视觉方法是一种精确的非接触式三维测量方法，与传感器监测法相比，拥有更多的现场信息，可靠性更高；与激光雷达法相比，成本更低且可实现远程检测.电力塔倾斜是在空间中的倾斜，单目视觉图像处理不能直接准确测量出空间角度，因此，本文作者提出利用双目视觉技术，结合深度学习方法实现复杂背景下电力塔区域的提取，并结合双目三维测量原理［15］实现电力塔倾斜度的计算，对干字塔、猫头塔、酒杯塔和钢管塔等多种塔形可用，能够实现电力塔倾斜度远程智能检测，测量结果准确.

1 系统的电力塔倾斜检测原理

电力杆塔倾斜度定义为杆塔倾斜值S与杆塔地面上部高度H之比的百分数.电力杆塔倾斜度如图1 所示.

图1 电力塔倾斜度Fig.1 Power tower tilt

杆塔倾斜度计算公式为

式中：θ为倾斜角.

国家标准规定：50 m 以下铁塔允许的最大倾斜度是1.0%，50 m 及以上铁塔允许的最大倾斜度是0.5%［16］，以此作为衡量电力塔是否安全工作的依据.电力塔倾斜检测系统的总体结构如图2 所示.摄像机A 和摄像机B 布置在电力塔对角的延长线上，利用水平仪保证摄像机主光轴方向垂直重力方向.摄像机与电力塔距离需要保证左右摄像机视野中能够完整显示电力塔左右侧棱的下半部分，具体距离范围需要根据摄像机广角范围和电力塔实际高度确定.左右相机分别同时拍摄电力塔图像，左摄像机得到左图像，右摄像机得到右图像.左右图像输入到计算机，计算机通过杆塔区域分割算法自动识别出电力塔区域，将识别出来的结果再利用立体视觉测量算法，最终得到电力塔倾斜度并显示在数据管理系统中.

图2 电力塔倾斜检测系统总体结构Fig.2 Overall structure of detection system for power tower tilt

系统硬件由两台高分辨率的工业摄像机、标定板、水平仪和固定架组成.电力塔倾斜检测系统由计算机、两台500 万像素高分辨率摄像机、标定板和摄像机水平辅助仪组成.其中标定板和摄像机水平辅助仪属于安装校准设备，需要在初次安装时使用.摄像机通过USB3.0 接口进行传输，两台摄像机光心距离（即基线）为160 mm.标定板是格数9×7 的黑白棋盘格，每格为28 mm，用于摄像机标定.

杆塔区域分割算法和立体视觉测量算法是检测系统的核心部分.杆塔区域分割算法主要是在Deep-Lab V3+网络基础上实现，由于电力塔侧棱特征提取需要有较为精细的边缘，所以在DeepLab V3+基础上进行改进，进一步细化了分割边缘.立体视觉测量算法包括双目标定与校正、立体匹配、三维重建和塔倾斜度算法，其中立体匹配和塔倾斜度算法是重难点.检测系统整体技术路线如图3所示.

2 塔区域分割算法

塔区域分割算法基于DeepLab V3+模型，分析了塔区域分割的需求，在网络中增加了低阶特征融合，使得塔分割边缘更加精细，边缘大面积缺少情况减少.

图3 电力塔倾斜检测系统技术路线Fig.3 Technical route of detection system for power tower tilt

2.1 DeepLab V3+网络结构

DeepLab V3+［17］图像语义分割模型是由谷歌研究人员Chen 等提出的DeepLab［5，7，9，10］系列的最新版本，该模型是目前最先进的图像语义分割模型之一，DeepLab V3 是DeepLab V3+的前代模型.DeepLab［5，7，9，10］系列在图像语义分割的发展中具有重要的意义，该系列所提出的一些思想或方法对后续的研究产生了深远的影响，DeepLab V3+被广泛应用于图像分割领域［18］.DeepLab V3＋由编码器和解码器组成，编码器主要由带空洞卷积的特征提取模块（DCNN）和空洞空间金字塔池化模块（ASPP）组成.解码器部分来自DCNN 的低阶特征out1 和ASPP 模块输出的高阶特征out2融合.图4为DeepLab V3＋网络结构.

鉴于DeepLab 网络的优秀性能，本文以DeepLab V3+为基础，考虑到电力塔区域分割为二分类任务，过多的网络层数会使收敛变慢，而Resnet101 相对Resnet34 和Resnet50，分割结果的最佳精度和平均精度更高［19］，所以骨干网络采用DeepLab V3 的骨干网络即ResNet［20］系列的ResNet101，将电力塔部分区域和背景作为二分类标签，建立基于DeepLab V3+的电力塔区域分割算法并进行改进，实现电力塔区域的准确分割.

图4 DeepLab V3＋网络结构Fig.4 Deeplab V3+ network architecture

2.2 增加低阶特征融合的DeepLab V3+改进网络

图5 显示了增加低阶特征融合后的模型结构.该模型由编码器和解码器两部分组成.编码器模块使用ResNet-101 作为基本网络.本文中使用的网络由5 个卷积层（Conv1-Conv5）组成，每个卷积层包含不同数量的瓶颈残差模块.较低级别的卷积结果具有较高分辨率且拥有更丰富的全局细节.随着卷积层的加深，卷积计算的输出特征由于下采样和汇集操作而降低了图像的空间分辨率，导致初始全局细节的丢失.因此，为了细化边缘特征，需要保留足够数量的初始全局信息，选择在汇集操作后，将第一卷积层的特征图作为低阶特征1，并且选择第二卷积层中的第三瓶颈残差块的特征图作为低阶特征2，然后通过插值将其拉伸到与低阶特征1 相同的大小.这两个低阶特征图被连接成一个特征图，该特征图随后通过与64 个通道的1 × 1 卷积，最终输出通道的数量为64，不超过ASPP 模块的输出通道.

图5 增加低阶特征融合后的网络结构Fig.5 Network structure after adding low-order feature fusion

在5 个卷积层中执行下采样之后，连接ASPP 模块.来自第5 卷积层的输出特征图被视为ASPP 模块的输入特征图.ASPP 的5 个并行计算的特征图被连接成一个具有1 280 个通道的特征图，然后通过1 ×1 卷积层降维，再向上采样，使得上采样后的特征图大小与要连接的低阶特征图大小相同.

3 立体视觉测量算法

3.1 双目视觉三维空间坐标计算原理

双目视觉三维空间坐标计算原理［21］是利用两台不同位置的摄像机同时进行拍摄，分别获取两幅图像，通过立体匹配与三角测量原理计算目标特征点在两幅图像上的成像偏差，以此获取特征点的深度信息，深度信息能够反映特征点与左摄像机光心在沿Zl轴方向上的距离，进而计算三维空间坐标.电力塔特征点A三维空间坐标计算原理图如图6 所示.

图6 电力塔特征点三维空间坐标计算原理图Fig.6 Schematic diagram of 3D coordinate calculation of power tower feature points

图6 中，A是电力塔上一特征点，其三维坐标为A(X，Y，Z)；图像1 是左摄像机成像面，图像2是右摄像机成像面；A点在图像1、2 上的成像位置分别为al(xl，yl)，ar(xr，yr)；Ol，Or分别是左右摄像机光心，假设两摄像机光轴距离为b且互相平行，以左摄像机光心为原点建立三维坐标系XCYC-ZC，通过相似三角形定理可得

式中：xl-xr为视差.由式（2）可知电力塔特征点A的三维坐标可由视差和摄像机参数计算得出.

3.2 摄像机标定

空间点A在左相机坐标系下的坐标映射为

式中：R为左摄像机坐标系相对世界坐标系的旋转矩阵（正交单位矩阵）；T为左摄像机坐标系相对世界坐标系的平移向量；比例参数Zc和物体距离有关；dx与dy分别表示每个像素在横轴x和纵轴y上的物理尺寸；(u0，v0)代表图像主点在像素坐标系下的坐标.此式实现世界坐标A(X，Y，Z)到像素坐标(u，v)的转化.

标定的过程就是求解式（3）中未知参数的过程.未知参数的准确性直接影响系统的定位精度［22］.

张正友标定法［23］是通过检测棋盘格角点实现标定参数的计算，相对传统标定法而言，仅需一个棋盘格，相对于自标定而言，可操作性更强.摄像机需要在安装时进行标定，若运行过程中相机位置没有改变，则后续检测不需要重新标定.

3.3 畸变校正和立体校正

对左右两幅图像进行畸变校正和立体校正，消除失真，将匹配点约束在一条直线上，可以减少误匹配并大大缩短匹配时间.

建立畸变模型如下

式中：(x，y)为校正前图像坐标；(x′，y′)是校正后图像坐标；k1、k2、k3为径向畸变系数；p1、p2为切向畸变系数.

立体校正采用Bouguet 校正算法，得到校正后的重投影矩阵如下

式中：cx、cy分别是左图像主点的x、y坐标；c′x是右图像主点的x坐标；Tx是右相机相对左相机的偏移矩阵.可实现电力塔特征点像素坐标和世界坐标的转换.

3.4 立体匹配

畸变校正和立体校正后的图像输入电力塔区域分割算法，得到电力塔区域分割后的左右图像分别记为图像1 和图像2.立体匹配是双目测量中的核心环节，通过立体匹配计算得到视差，进而求取三维坐标.为了符合电力塔倾斜检测的快捷需求，本文基于极线匹配的电力塔侧棱视差计算方法，其主要原理是将双目校正后的行对准图像，利用极线几何约束，分别从图像左右两端向中间遍历，且只在图像1 和图像2 的同一行上遍历寻找匹配点，能够快速有效地获取电力塔侧棱视差图.

双目视觉中的对极几何关系如图7 所示，Ol为左图像平面原点，Or为右图像平面原点，OlOr为基线，空间点P在左右视图中的像点分别为Pl、Pr，极平面由左右图像坐标系原点Ol、Or和点P构成.极平面与两图像平面分别相交于极线l1、l2.从图中可以看出，Pl和Pr正位于各自对应极线上.因此对极几何约束定义为：Pl的对应点Pr可以在对应极线l1上寻找，Pr的对应点Pl可以在对应极线l2上寻找.当左右视图通过双目校正，实现行对准后，匹配对应点可以保证在对应图像的同一行上，极大地缩减了搜索时间和范围.

图7 对极几何关系Fig.7 Geometric relationship of opposites

4 电力塔倾斜度算法

电力塔倾斜度算法主要由深度图转化为三维点云、求解方向向量、求解侧棱与水平面夹角、求解电力塔倾斜度4个步骤组成.

深度与视差间的关系表示为

式中：Depth表示深度；disp为视差，baseline为基线距离；由摄像机内参数矩阵得到.

由式（7）可将电力塔侧棱视差图转换为深度图，通过式（2）可将深度图转换成三维点云，运用PCL读取点云坐标. 由三维点云用奇异值（Singular Value Decomposition，SVD）分解法求拟合直线的方向向量a、c，取垂直于地面的法向量n=（0，1，0）.如图8 所示，ABCD为理想中绝对垂直地面的塔，A′BC′D′是实际中发生一定倾斜的塔，重力方向垂直W平面，b和c分别为电力塔左右侧棱与绝对水平面W的夹角.b和c分别为

根据电力塔倾斜度定义，由几何推导可得b、c与倾斜度的关系式为

整理总结得倾斜度表达式如式为

图8 几何关系图Fig.8 Geometric diagram

5 实验结果与分析

5.1 电力塔区域分割实验结果与分析

实验基于英特尔酷睿i5-11 400f 平台，深度学习环节采用英伟达RTX2060 Super 显卡以及Pytorch1.8.1 进行训练.实验数据集来自北京市西小口实地拍摄的电力塔图像10 000 张.数据集、验证集和测试集按照8∶1∶1比例划分.

为了衡量每个模型的性能和学习成本，并更有效地评估模型，实验使用多级控制参数变量进行评估.主要评价指标包括模型训练时间、模型预测精度、内存占用和模型参数大小.在控制硬件配置和固定参数的条件下，进行了对比实验.衡量图像分割精度的标准有很多.在语义分割领域，最常用的指标是平均交并比（MIoU），对于多类别来说，MIoU 就是分别对每个类计算（IoU）真实标签和预测结果的交并比，然后对所有类别的IoU 求均值，得出

式中：k是类别的数量，总共（k+1）个类别（包括背景类别）；pii是预测正确的像素数；pij是预测为背景但实际上是正标签的像素数；pji是被预测为前景但实际上是负标签的像素数.

由于本文只针对电力塔区域进行标注和计算，因此就只计算一类的IoU 值，也就是对于实际标注区域和最终生成的标注区域之间进行交并比的计算.总的来说，MIoU 是最具代表性的评价指标.改进前后部分图像预测结果对比如图9所示.

图9 改进前后预测结果对比Fig.9 Comparison of prediction results before and after improvement

改进后算法与DeepLab V3+（骨干网络为ResNet101）相比，MIoU 提高了1.4%；但收敛速度稍微变慢.整体样本检测结果对比如表1.

表1 整体样本检测结果Tab.1 Test results of the whole sample

由以上实验结果可知，电力塔区域分割算法能有效地检测出电力塔区域，为双目测量提供条件.

5.2 电力塔倾斜度计算结果与分析

在电力塔实地进行实验，实景图如图10（a）所示.双目摄像机距离电力塔5～10 m，先进行摄像机的调平，固定摄像机并通过气泡水平仪进行粗调，再采用TLL-90 S 高精度双轴数显水平仪和燕尾微调仪进行精细调平.之后进行摄像机的标定与校正，采集了20 对标定板图像如图10（b）所示.校正前后电力塔左图像分别如图10（c）和如图10（d）所示.

标定与校正完成后，通过电力塔区域分割算法进行塔区域分割，分割结果如图11 所示.通过极线匹配，分别提取出左右侧棱的深度图像，左侧棱深度图如图12 所示.求解三维点云并拟合侧棱直线，最终得到此电力塔倾斜度为0.35%.输电线路杆塔倾斜智能监测装置技术规范规定［16］，50 m 以下杆塔倾斜度小于1%即为正常，所以此杆塔正常工作.移动摄像机并重新调平拍摄其他杆塔得到更多实验结果，将得到的倾斜度与经纬仪测得的结果对比并进行误差分析.如表2 所示.其中，摄像机双轴倾斜角为精细调平后数显水平仪示数.误差分析如图13 所示.

通过经纬仪方法与本文方法进行结果对比，经计算，可以得出本文方法测量结果相对经纬仪测量结果的误差.输电线路杆塔倾斜智能监测装置技术规范规定，杆塔倾斜角度测量误差的绝对值≤0.05°即为符合规定.由此可得本文方法的测量误差符合技术规定.

图10 实景及标定图像Fig.10 Real-world and calibrated images

图11 分割结果Fig.11 Segmentation results

由图13 可知，摄像机双轴倾斜角与误差绝对值存在线性相关关系，当摄像机双轴倾斜角为0.005°时，误差的绝对值分别为0.013 和0.014，误差较小.当摄像机双轴倾斜角为0.015°时，误差的绝对值为0.028，误差较大.拟合后直线表明摄像机双轴倾斜角越大，误差的绝对值也越大.由此可知调平的准确性直接影响测量结果准确性，测量前对摄像机进行精细调平，应当使得摄像机光轴尽量垂直重力方向.除此之外，还可能引起误差的原因有以下3 点：1）双目摄像机镜头参数略有不同.双目摄像机两个镜头会存在制造引起的参数差别，使得参数不能完全相同.2）摄像机标定过程中存在一定误差.标定误差会受到标定图像拍摄角度、标定图像张数、光照等因素影响.3）双目图像分辨率不高影响测量准确度.