APP下载

基于热图感知的复杂场景港口箱号检测算法

2023-11-13陈平平林键辉黄胜秋涂桥桥

无线电工程 2023年11期
关键词:热图字符集装箱

游 索,陈平平*,林键辉,黄胜秋,涂桥桥

(1.福州大学 先进制造学院,福建 泉州 350003;2.华辉建工集团有限公司,福建 福州 350800;3.福建省顺天亿建设有限公司,福建 龙岩 364105;4.福建领航园林工程有限公司,福建 厦门 361023)

0 引言

随着文字识别场景的日益复杂,对自然场景下文字识别的需求也愈发强烈。场景文字识别(Scene Text Recognition, STR)成为研究热点,它是OCR的子问题,主要任务是将自然场景中的文字提取出来并转化成字符形式。相较于传统 OCR 技术,STR 具有更多的挑战,例如字体多样性、多尺度、任意形状、光照、背景和模糊等[1]。

虽然近年来深度学习在STR中的应用有效解决了上述问题,但针对特定的应用场景,这些通用的STR算法无法很好地解决文本识别问题。本文面向集装箱运输及管理的自动化和智能化需求,旨在设计一个高效的集装箱箱号的文字检测算法。

为了构建更加精准、高效的检测网络,基于已有的文本检测和识别研究,同时利用集装箱箱号空间排布和字符分布等特征,创新性地提出了一种基于热图感知的集装箱箱号检测识别算法,能够在箱号倾斜、字符不清晰等背景复杂的港口集装箱图像中精准地检测图像中的箱号,解决了该场景下的算法难点和应用的技术瓶颈。首先,设计了融合卷积块注意力机制(Convolutional Block Attention Module,CBAM)[2]的MobileNetV3[3]轻量级网络对箱号框进行初定位,充分利用初定位网络高效地检测出矩形箱号框;接着提出像素级字符区域自适应网络(Pixel-level Character Region Adaptive Module,PCAM) ,用于初定位箱号优化,PCAM利用基于Transformer[4]自适应网络得到图像的字符级别热图,通过最小二乘法算法结合图像形态学处理方法,得到精准的任意方向箱号区域。实验结果表明,能够达到97.5%的箱号定位准确率,满足实际应用的实时性,为集装箱箱号的精准检测提供了新思路。

1 相关工作

集装箱箱号的检测总体可分为传统方法和基于深度学习的方法,其中常用的传统箱号检测方法有基于数学形态学、基于边缘特征和基于最大稳定极值区域(Maximally Stable Extremal Regions,MSER)。王炎等[5]提出了一种基于数学形态学的箱号定位方法,利用膨胀、腐蚀等基本运算处理图像,通过改进形态学结构元素对箱号进行定位。黄深广等[6]提出基于字符边缘特征的定位方法,利用字符的边缘特征信息对集装箱号进行定位。王冬云等[7]提出了一种基于导向滤波Retinex和自适应Canny的图像边缘检测算法细化图像边缘。沈寒蕾等[8]利用一种最大稳定极值区域的方法,通过灰度化的方法得到图像最大S稳定极值区域,再进行后处理,完成对集装箱号定位。上述传统的图像学处理方法对背景较复杂的图像进行检测有一定的局限性,且检测速度相对较低。随着深度学习的快速发展,基于深度学习的目标检测算法无论是在检测精度还是在速度上都有着出色的效果。利用卷积神经网络提取图像特征用于分类问题,比较经典的目标检测网络有SSD[9]、R-CNN[10]、Fast R-CNN[11]等。2015年,Redmon等[12]提出了YOLO目标检测算法,用深度神经网络进行图像特征提取,用回归的思想做分类问题,有着较高的检测速度和准确率。崔循[13]将YOLOv3[14]用于集装箱箱号的检测;刘岑等[15]通过修改YOLOv3网络,将输入改为单通道,都有着较好于传统方法的检测效果。

在集装箱箱号的检测中,无论是传统图像处理方法,还是深度学习,在解决箱号的初定位之后,由于实地检测时拍摄角度或者集装箱停靠方向的不确定,都不可避免地要对初定位区域的箱号字符进行倾斜校正处理,达到最佳的检测效果,以满足后续识别的要求。常用的倾斜校正方法有基于投影分析法[16]、基于分块质心法[17]、基于Hough变换法[18]和基于最小外接矩形法[19]。以上方法对长串字符的倾斜校正都依赖于单个字符在图像中的具体位置,位置的获取基本上是通过图像二值化获得字符所在的连通区域来实现。然而在实际的箱号检测中,用图像二值化获取字符位置的方法鲁棒性能较差。因为在实地拍摄时,很容易遇到光线不均的问题,运用二值化时强光或者背光的区域会被当成字符。此外,在初定位的箱号区域内,除了目标字符外,还有距离目标字符非常近的干扰字符,当初定位框比较大时,其他位置的字符,如公司logo、箱型尺寸等文本信息也会框进来,进而影响倾斜校正的结果。

2 主要方法

2.1 网络结构

本文设计了一种由融合CBAM的MobileNetV3轻量级初定位网络和PCAM模块组成的箱号检测网络,如图1所示。对于采集的箱号文本图像,首先由箱号初定位网络输出该文本的初定位矩形框。但是该阶段输出的箱号框往往会出现多框、漏框及框不准等情况,需对候选框进行优化。为了解决这些问题,进一步提出了PCAM,通过挖掘箱号字符热图信息,引入最小二乘算法,最终得到优化后的四边形箱号框。

图1 系统流程Fig.1 System flowchart

2.2 融合CBAM的MobileNetV3轻量级网络

为了提高箱号初定位阶段的算法实时性,采用MobileNetV3作为网络主干,以特征金字塔结构(Feature Pyramid Network, FPN)为基础,加入CBAM注意力模块来平衡检测速度和精度。

设计的融合CBAM的MobileNetV3轻量级网络,主干输出3个尺度的箱号文本特征图,图像尺寸分别为13 pixel×13 pixel、26 pixel×26 pixel、52 pixel×52 pixel。然后通过FPN,将箱号特征图进行多尺度特征融合。接着将融合得到的3个特征图输入到CBAM注意力机制模块。通过卷积进行特征图的平滑处理,得到通道数为21的3种不同尺度箱号特征图。最后通过网络的检测头以及非极大值抑制,得到箱号框。融合CBAM的MobileNetV3网络结构如图2所示。

图2 融合CBAM的MobileNetV3轻量级的箱号初定位网络Fig.2 MobileNetV3 lightweight coarse positioning network fused with CBAM

2.3 PCAM模块

针对箱号字符呈直线排布的规律,提出了PCAM,如图3所示。

具体而言,PCAM设计了一个基于Transformer的字符热图生成网络,预测图像中每一个字符热图信息,并利用热图非刚性边界真值区的域像素值大小关系,获取字符中心点的位置,然后对中心点进行直线拟合,得到拟合直线与目标箱号字符所在像素组成的连通域,并将此区域作为最终目标箱号区域。

图3 PCAMFig.3 PCAM

2.3.1 字符热图生成网络

字符热图生成网络的目标是精确定位自然图像中的每个字符区域,以更好地找到字符的中心点。为此,本文训练的数据集采用合成文本(Synthtxt)[20]数据集,获取图像中每一个文本的热图标签再进行训练。在PCAM中,利用基于Transformer的字符热图生成网络,生成单字符热图。将Swin Transformer[21]作为主干网络,分别得到原图1/4、1/8、1/16、1/32 pixel大小的特征图{C1、C2、C3、C4}。这些特征图通过FPN结构融合得到特征图{P1、P2、P3}:

式中:ReLU()表示激活函数,Bn()表示标准化,Conv()表示卷积核为3×3的卷积层,UpSample()为2倍上采样层。

特征图{P2、P3、C4}经过卷积平滑操作和上采样,得到P1相同尺寸的128维特征图,P1只进行卷积平滑操作。然后将{P1,P2,P3,C4}通道连接在一起得到通道数为512的特征图F:

F=Concat(P1,P2,P3,C4)。

(4)

此时特征图F已经具有了高层和底层相融合的丰富语义信息,然后将F输入卷积预测头得到字符级别热图。字符热图生成网络整体结构如图4所示。

图4 字符热图生成网络Fig.4 Character heatmap generating network

2.3.2 基于最小二乘法的箱号精准定位算法

由字符热图生成网络输出的文本区域,每个像素值的大小能够反映其对应文本中心坐标的概率大小,其中字符中心坐标像素的值大于等于其四周像素值。为了对箱号直线区域进行拟合,本文设计像素遍历算法,利用字符热图生成网络输出的热图,将初定位预选框内每一个字符的中心点标记出来,如图5所示。

图5 字符中心点示例Fig.5 Example of character center point

上述过程充分利用了文本热图区域分数据,得到了字符中心点的坐标。为了能将初定位网络输出的预选框内呈直线排布的字符连接在一起,满足最后连通域选取箱号区域的要求,采取最小二乘法拟合的方法。

设直线方程y=ax+b,根据最小二乘法的原理,拟合出来的直线与输入的每一个点的距离平方和最小,其目标函数为:

(5)

当F最小时,对目标函数求偏导,参数a、b满足:

(6)

可得方程组:

(7)

解上述方程组得到a、b的值,即得到拟合的直线。箱号精准定位过程示例如图6所示,其中矩形框为初定位网络输出的检测框。通过最小二乘法拟合直线后,在图6(b)即文本区域分图像内,将直线所在的像素点设置为255,然后对该图进行图像二值化处理,接着通过连通域法,将直线所在的连通域选取出来,连通域采取8邻接规则。最后通过最小外接矩形算法,得到目标连通区域的最小外接矩形4个顶点的坐标,即为最后箱号精准定位的结果。

在实际的集装箱号检测中,字符方向的直线拟合往往会受到干扰字符的影响,特别是检测倾斜横排集装箱号,初定位网络可能会框到多余的干扰字符。为拟合目标字符方向上的最佳直线、消除目标外字符的干扰,本文采取二次拟合的方案。具体方法为:在第一次拟合后,分别计算每一个参与拟合的点到拟合直线的距离,得到距离最小的4个像素点后再次拟合(若初定位网络输出矩形框内中心坐标点≤4,则不进行二次拟合)。图7为拟合一次与二次拟合过程效果对比的一个示例,图7(a)的矩形框为初定位网络检测矩形框,其中上排为一次拟合,下排为二次拟合。通过实际的检测统计,二次拟合相比只拟合一次,可取得更好的直线拟合效果,获得更加精准的箱号检测效果。

图7 一次拟合与二次拟合对比Fig.7 Comparison of primary and secondary fitting

3 实验结果分析

3.1 实验数据集

本文实验实测样本均采集于福建江阴港口,来源于人工多角度随机拍摄和摄像头定点拍摄的1 500张照片。所测试样本包含了昼、夜样本,分辨率为1 920 pixel×1 080 pixel,排列方式有横排和竖排2种,且包含了不同的集装箱箱型、光照条件、倾斜角度、不同箱号大小以及不同的自然环境下的样本,每一张图片有箱号目标数量1~5个不等,共4 290个箱号个体。

3.2 实验环境

本次测试的实验硬件环境为 Intel i7-3770 CPU @3.40 GHz ,内存16 GB RAM,GPU 为NVIDIA 3060Ti,软件环境为 Ubuntu 18.04 操作系统,使用PyCharm编译工具。

3.3 实验结果分析

为测试箱号初定位融合CBAM的MobileNetV3轻量级网络的表现,在现有数据集基础上,本文网络同经典目标检测算法进行对比实验,并选用平均精准度均值(mAP)和平均定位速度作为评价指标来衡量不同算法的综合性能。箱号初定位与其他算法对比结果如表1所示。

由表1可以看出,融合CBAM的MobileNetV3轻量级网络在mAP和平均定位速度2个指标上都比YOLOv3和Faster R-CNN高,mAP达到了91.7%、速度达到了44.3 帧/秒;尽管精度略逊色于YOLOv5,但是在速度上与之相比提高了4.7 帧/秒,可见本文初定位网络在保证检测速度的同时,确保了初定位基本的精度要求。

表1 不同算法初定位准确率和速度对比Tab.1 Comparison of coarse positioning accuracy and speed of different algorithms

为了验证本文提出的箱号检测算法及整体识别算法性能,其中检测部分与YOLOv3、YOLOv5、Faster R-CNN、文献[22]的基于最大稳定极值区域(MSER)和连通域分析方法进行对比。

对于定位准确率的计算,本文对目标箱号区域做了四边形的标注,当预测框与四边形标注框的交并比值大于0.7时,认为定位成功。定位准确率为定位成功数与箱号框总数的比值, 具体实验结果如表2所示。

表2 不同算法定位准确率和速度对比Tab.2 Comparison of positioning accuracy and speed of different algorithms

由表2可以看出,本文的定位准确率相比YOLOv3、YOLOv5、Faster R-CNN和文献[22]都高,高达98.1%,说明本文定位算法具有较好的自适应能力。原因在于本文采用基于热图感知的精确后处理方法,能够输出任意方向的矩形框,可以有效排除箱号倾斜下非箱号区域字符的干扰。而YOLOv3、YOLOv5和Faster R-CNN只能输出平行于图像边界的矩形框,即使检测框能够覆盖所有箱号区域,却因为检测过多的背景和干扰字符而导致定位失败;而文献[22]采用MSER方法对于不同倾斜且多光照背景下箱号定位容易失败。从平均速度来看,由于加入了热图感知优化部分导致速度有一定程度的下降,但是本文算法满足实际应用中的实时性要求,箱号检测结果展示如图8所示。

图8 本文箱号检测结果展示Fig.8 Display of the container code detection results

4 结束语

本文提出了一种热图感知的集装箱箱号检测识别算法,利用融合CBAM的轻量级网络高效地检测出矩形箱号框,同时结合Transformer利用图像中字符的热图以及图像形态学处理方法,得到精准的任意方向箱号区域。实验结果表明, 相比目前主流的文本识别算法有着明显的精度提升, 并且鲁棒性好、检测速度高,可满足实际场景的应用需求。此外,将进一步考虑实现端到端的箱号检测识别算法,从而优化在实际项目中的部署。

猜你喜欢

热图字符集装箱
美军一架C-130J正在投放集装箱
寻找更强的字符映射管理器
字符代表几
一种USB接口字符液晶控制器设计
虚实之间——集装箱衍生出的空间折叠
消失的殖民村庄和神秘字符
我家住在集装箱
热图
每月热图
一种新型自卸式污泥集装箱罐