基于改进YOLO V3的塔式起重机裂缝检测研究

2021-07-06陈国栋王翠瑜张神德邓志勇王同珍吴志鸿黄明炜林进浔

贵州大学学报（自然科学版） 2021年3期

陈国栋王翠瑜张神德邓志勇王同珍吴志鸿黄明炜林进浔

摘要：在施工过程中塔式起重机的事故发生得越来越频繁，为了在安全检测中及时发现塔式起重机因各种因素产生的裂缝从而降低事故的发生率，提出一种基于改进YOLO V3的塔式起重机裂缝检测方法。针对塔式起重机裂缝检测的特点对YOLO V3算法进行改进，利用K-means聚类方法对目标框聚类;根据识别目标对象特点改进原YOLO V3的损失函数;以YOLO V3的网络结构为基础，轻量化网络结构，将3个检测尺度改为2个检测尺度。测试实验结果表明，在对塔式起重机裂缝检测的任务中，均值平均精度高达85.63%，检测速度提高了10.53%，达到42 f/s，满足塔式起重机裂缝检测实时性和准确性的需求，能够进行有效安全检测。

关键词：裂缝检测;塔式起重机;YOLO V3;安全检测;K-means

中图分类号：TP391.4

文献标志码：A

根据国内塔吊安全事故的统计研究，2007—2016年间国内发生152起塔式起重机安全{1]事故，2013—2019年间发生了194起，其中2017—2019年间占了111起，这194起事故导致294死、109伤，造成35 572.18万元的经济损失[2]。因此，由于塔式起重机结构的特殊性，对其定期的检测与监督，及时发现裂缝消除隐患是保障安全施工的重要环节，但现有的检查手段主要以人工攀爬巡查为主，成本高，费时费力，同时也要考虑检查人员的安全，且裂缝若出现在塔节点交界处等不易被察觉，无法有效排除隐患。

随着深度学习各种目标检测算法越来越成熟[3]，通过深度学习解决缺陷检测问题的效果越来越好，应用领域也越来越广。单阶段目标检测（you only look once，YOLO）系列[4]方法基于回归的端到端的单阶段检测不依赖候选区的模型，可以非常迅速得识别定位图像中目标位置，相对于区域卷积神经网络（region-convolution neura network，R-CNN）[5]系列更符合实时快速检测的需求，但该类方法针对小目标的识别精度不高。随着发展和优化，YOLO系列的YOLO V3[6]定位精度有了很大的改善。

针对上文提出的塔吊裂缝安全检查问题，本文提出一种基于改进YOLO V3的塔式起重机裂缝检测方法，且根据实际塔吊应用场景提出相应的改进使得满足于工地干扰强，塔吊高大，需无人机搭载识别等特点，提高其识别速度和對小目标的敏感性。从而做出更好的预测来帮助完成施工安全的监督检测作业。

1 YOLO V3

YOLO V3相对YOLO V1和YOLO V2[7]在识别速度与精度有了明显改善，同时优化了很多缺陷。在YOLO V3中以Darknet-53[8]为骨干网络，相比于YOLO V2的Darknet-19拥有更深的网络层数，如图1所示，该特征提取网络由52个卷积层和一个全连接层组成，并且交替使用1×1和3×3的滤波器进行卷积。在加深网络的同时YOLO V3还增加了多尺度融合的特征预测目标机制[9]，该方法在最后获得的最小特征图上采取两次上采样，得到的特征图为三个尺度，并融合基础网络中同尺寸的浅层信息特征，分别进行三次目标框预测，然后通过非极大值抑制获得最后结果。这种方法使得YOLO V3具有更好的鲁棒性[10]。

2 算法改进

2.1 k-means维度聚类算法

YOLO V3通过聚类算法[11]得到9个先验框，而在加速Faster RCNN[12]和单阶段多框目标检测（single shot multibox detector，SSD）[13]中需要手工设置先验框，客观性不够强，当先验框的维度合适，可以让神经网络更容易学习，更好地做出判断。本文对目标框采用聚类的方法来确定先验框参数。

K-means是一种常用的聚类算法，是一种使用广泛的最基础的聚类算法，K表示设置的聚类数目K-means成本函数公式如下：

J=∑kk=1∑i∈Ckxi-uk2（1）

其中，xi为第i个样本，uk是第k个类的重心位置。在塔式起重机裂缝检测中，改进前预设的9组先验框维度分别为（10，13），（16，30），（33，23），（30，61），（62，45），（59，119），（116，90），（156，198），（373，326），本文在塔式起重机裂缝检测中对数据集进行聚类分析，使得先验框维度更适用于工地复杂环境下的裂缝识别场景聚类过程中簇的中心个数K和平均交并比的关系如图2所示：

由图中可以看出，K=6时平均交并比的数值高且曲线收敛，新聚类出的先验框参数为（42，23），（56，32），（68，45），（73，59），（90，72）和（126，107）。

原始的YOLO V3的损失函数对边界框的宽度没有足够重视，检测对象偏小时易忽视而检测对象为大目标时对损失会产生较大影响，如此易导致在对小目标检测时效果不好，为了帮助小目标更好的被边界框不足，提高小边界框的鲁棒性，将原YOLO V3坐标误差部分，参考真实目标边框对宽高坐标误差乘以一个加权，加强对待检测的小目标的损失的重视，降低大目标的误差对小目标的误差的影响，使得更好地检测小目标。改进后的损失函数如下：

l=λcoord∑K×Ki=0∑Mj=0Iobjij[（xi-i）2+（yi-i）]+

λcoord∑K×Ki=0∑Mj=0Iobjij（2-wi×hi）[（wi-i）2+（hi-i）2]-∑K×Ki=0∑Mj=0Iobjij[C^ilog（Ci）+（1-C^i）log（1-Ci）]-λnoobj∑K×Ki=0∑Mj=0Inoobjij[C^ilog（Ci）+（1-C^i）log（1-Ci）]-∑K×Ki=0Iobjij∑Mc∈classes[i（c）log（pi（c））+（1-i（c））log（1-pi（c））] （6）

2.3 多尺度融合改进

在塔式起重机裂缝检测特征提取过程中，根据施工现场干扰较多，包括线缆、器材连接处、不规则锈迹、杂物等使得误检率高，区别于其他表面缺陷检测，塔式起重机裂缝检测在图像中更多都以小目标为主，在保持对小尺度目标检测精度良好下可以轻量化网络结构来提高检测速度，更符合实际识别检测需求，根据上述特点可将原来3个尺度规格13×13、26×26 和 52×52改成在26×26 和 52×52的2个尺度上做预测实现网络结构的轻量化。每种尺度有三种锚框，以降低误检的情况。如图3所示，将高层特征图的通道数通过1×1的卷积核改变，然后采用2倍上采样，将其与低层特征结合，3×3的卷积核可以消除混叠效应。改进后的多尺度融合提升小目标的检测效果，降低误检率，减少了改进的YOLO V3需要预测的边界框数，降低了网络的复杂性，更加符合施工作业现场的安全识别检测需求。

3 试验结果与分析

3.1 数据集

数据集的数量对试验结果有很大影响，数据集不足会引起过拟合的现象，为此，需要一个足够大的数据集。本文数据集共计7 506张各类塔式起重机及其附属设备的裂缝图片。如图4所示，为提高检测效果，我们通过随机旋转、镜像翻转、局部变形等多种方式对现有的数据集进行数据扩展。

3.2 网络训练

本文训练时参数设置如表2所示，在训练过程中通过比较损失大小，保存损失最小的模型参数。

3.3 试验结果与分析

为评价本方法对塔式起重机进行定位的性能及改进后的效果，分别对两个网络进行测试，采用召回率和准确率评价，其具体计算公式分别为：

P=TPTP+FP（7）

R=TPTP+FN（8）

A=∫10p（r）dr（9）

其中，T为正检数，FP为误检数，FN为未检测个数，A（average precision）为平均精度，m（mean average precision）为均值平均精度，是各类别A的平均值。

3.3.1 改进的YOLO V3识别效果

为了测试改进的YOLO V3的识别效果，使用测试集分别针对原YOLO V3和改进的YOLO V3进行测试。改进的YOLO V3的识别效果如图5和图6所示，试验结果表明其均值平均精度可达到85.63%。对于图5中比较狭长不规则走势的裂缝，以及图6中因承重、作业操作失误、安装不规范等因素产生的断裂式错位式裂缝都有良好的识别效果，同时从图5、图6中也可看到小尺度的裂缝也能被正确识别出来，由此可以看出改进的YOLO V3针对塔式起重机的裂缝能有效识别定位。

3.3.2 改进的YOLO V3效果对比

多尺度融合改进效果测试，原来的 YOLO V3 使用 3 个不同尺度的特征图来预测待检测目标，将网络输出的后两个特征图上采样，与网络前期相应尺寸的特征图融合成有效信息进行预测。如表3所示，本文数据集以小尺度目标为主，在保持对小尺度目标检测精度良好下可以优化网络结构来满足实际更快检测的需求，将多尺度融合改在26×26 和 52×52的尺度上做预测后，试验测试结果表明，检测速度提高10.53%。

损失函数改进效果测试，本文根据需求改进损失函数中的坐标误差部分，调整检测大目标和小目标的损失影响权重，使得小目标的识别效果更好，试验结果如表4所示，改进后的YOLO V3检测方法整体对塔式起重机的裂缝识别平均检测精度优于原YOLO V3检测方法。

小尺度目标检测测试，经过K-means聚类和损失函数的改进，使得改进后的YOLO V3相比原检测方法对小尺度目标更加敏感，检测效果有所提升。为测试对小尺度目标的识别效果，在测试集中选取只包含小尺度目标的图片为子测试集进行测试试验，结果表明改进后的YOLO V3针对小尺度目标提高了3.87%的检测精度。如图7小裂缝识别效果图和图8中Improved YOLO V3图可以明显看出，改进后的YOLO V3算法对于塔式起重机局部出现的小裂缝识别效果良好，在干扰条件下未出现漏检或误检现象。

如图8所示，改进的YOLO V3与原始YOLO V3识别效果对比，改进前算法将塔式起重机的部件连接部分误识别为裂缝，而改进后的YOLO V3准确地识别出裂缝所在位置和走势，在对复杂环境的小目标检测中，改进的YOLO V3优于原始YOLO V3，识别效果良好，相比之下改进的YOLO V3更符合需求。

3.3.3 不同检测方法对比试验

本文采用改进的YOLO V3进行塔式起重机裂缝检测，为了对比改进的YOLO V3与其他检测识别方法的檢测识别效果，除上文与原YOLO V3检测方法对比外，同时分别与SSD，Faster RCNN等方法进行对比，试验结果如表5所示。

由表5可以看出Faster RCNN的检测精度最高，但速度远不及其他检测方法，不满足实时检测的任务需求，不适用于本文提出的塔式起重机裂缝检测需求。而SSD算法和原YOLO V3两种算法在精度和检测速度上都不如改进的YOLO V3算法。改进的YOLO V3采用K-means维度聚类提高了检测精度，损失函数的改进加强了对小目标的检测效果，多尺度融合轻量化网络结构提高了检测速度，相对于其他检测方法在两个指标中都有良好表现，由此可见本文改进的YOLO V3的性能能够较好地完成对塔式起重机的裂缝检测识别任务。

4 总结与展望

本文针对解决塔式起重机的安全问题提出基于改进YOLO V3的塔式起重机裂缝检测方法，并针对实际需求和应用场景对方法做出改进，通过K-means 算法对数据集的目标框大小进行聚类，有利于提高精度;改进了损失函数提高对小目标的识别效果;通过多尺度融合改进提升检测效果等，使得在保持良好检测准确率的同时拥有更好的检测速度，基本满足塔式起重机裂缝检测的准确性和实时性的需求，对预防塔式起重机事故的发生起到重要作用。在之后的工作中，将针对网络进一步优化来提高检测精度，增强在各种干扰下的检测效果，扩展数据集提高训练质量。

参考文献：

[1] 陈宝春，陈建国，黄素萍. 2007—2016年我国在役塔吊安全事故统计分析[J]. 浙江建筑， 2018， 35（2）： 32-36.

[2] 张伟，张潇，薛楠楠，等. 塔吊安全事故致因网络模型构建与分析[J]. 中国安全科学学报， 2020， 30（12）： 1-7.

[3] YANN L C， YOSHUA B G， GEOFFREY H. Deep learning[J]. Nature， 2015， 521（7553）： 436-444.

[4] TUMAS P， SERACKIS A. Automated image annotation based on YOLO V3[C]//2018 IEEE 6th Workshop on Advances in Information，Electronic and Electrical Engineering （AIEEE）. New York， USA： IEEE， 2018： 1-3.

[5] GIRSHICK R， DONAHUE J， DARRELL T， et al. Rich feature hierarchies for accurate object detection and semantic segmentation[J]. Computer Science， 2013， 11： 580-587.

[6] QU H Q， YUAN T Y， SHENG Z Y， et al. A pedestrian detection method based on YOLO V3 model and image enhanced by retinex[C]//2018 11th International Congress on Image and Signal Processing， BioMedical Engineering and Informatics（CISP-BMEI）. New York， USA： IEEE， 2018： 1-5.

[7] REDMON J， FARHADI A. YOLO9000： Better， Faster， Stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. New York， USA： IEEE， 2017： 6517-6525.

[8] REDMON J， FARHADI A. YOLO V3： an incremental improvement[J]. IEEE Conference on Computer Vision and Pattern Recognition， 2018： 89-95.

[9] LIN T Y， DOLLAR P， GIRSHICK R， et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition（CVPR）. New York， USA： IEEE， 2017： 936-944.

[10]张晴，李云，李文举，等. 融合深度特征和多核增强学习的显著目标检测[J]. 中国图像图形学报， 2019， 24（7）： 1096-1105.

[11]张素洁，赵怀慈. 最优聚类个数和初始聚类中心点选取算法研究[J]. 计算机应用研究， 2017， 34（6）： 1617-1620.

[12]GIRSHICK R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision （ICCV）. New York， USA： IEEE， 2015.

[13]LIU W， ANGUELOV D， ERHAN D， et al. SSD： Single shot multiBox detector[C]//2016 European Conference on Computer Vision（ECCV）. Cham， Switzerland： Springer， 2016： 21-37.

[14]鄭秋梅，王璐璐，王风华. 基于改进卷积神经网络的交通场景小目标检测[J]. 计算机工程， 2020， 46（6）： 26-33.

（责任编辑：于慧梅）

Research on Crack Detection of Tower Crane

Based on Improved YOLO V3

CHEN Guodong1， WANG Cuiyu*1， ZHANG Shende1， DENG Zhiyong2，

WANG Tongzhen1， WU Zhihong2， HUANG Mingwei3， LIN Jinxun3

（1.School of Physics and Information Engineering， Fuzhou University， Fuzhou 350108， China;2.China Construction Strait Construction Development Co.， Ltd.， Fuzhou 350015， China;3. Fujian Shuboxun Information Technology Co.， Ltd.， Fuzhou 350002， China）

Abstract：

In the construction process， tower crane accidents happen more and more frequently. In order to detect the cracks caused by various factors in the tower crane in time and reduce the incidence of accidents， a tower crane crack detection method based on improved YOLO V3 was proposed. According to the characteristics of tower crane crack detection， the YOLO V3 algorithm was improved. Firstly the K-means clustering method was used to cluster the target frame. Then the loss function of the original YOLO V3 was improved according to the characteristics of identifying the target object. Finally lightweight network structure based on the network structure of YOLO V3 was adopted， changing three detection scales to two detection scales. The results show that in the task of crack detection of tower cranes， mean average precision is as high as 85.63%， and the detection speed is increased by 10.53% to 42 f/s， which meets the real-time and accuracy requirements of tower crane crack detection and can perform effective safety testing.

Key words：

crack detection; tower crane; YOLO V3; safety inspection; K-means

收稿日期：2020-10-22

基金項目：国家自然科学基金资助项目（61471124）;福建省自然科学基金重点资助项目（2018H0018）;福建省自然科学基金资助项目（2016J01293）;福建省自然科学基金资助项目（2017J01107）

作者简介：陈国栋（1979—），男，副研究员，博士后，研究方向：计算机图形图像处理、计算机仿真技术、深度学习，E-mail：cgd@fzu.edu.cn.

通讯作者：王翠瑜，E-mail：1096404586@qq.com.