APP下载

基于深度学习的马拉松号码簿识别方法研究

2024-03-06申静波宋思宇李井辉

绥化学院学报 2024年2期
关键词:锚框字符号码

申静波 宋思宇 豁 双 李井辉

(东北石油大学计算机与信息技术学院 黑龙江大庆 163318)

随着科技的进步,图像获取更加方便快捷,图像场景中的字符提取和识别已成为实际应用中的热点问题[1]。号码簿作为运动员的身份标识,通过号码簿可进行人员安检、分区检录、图片推送等,并有利于赛事的自动化过程管控。实际赛事中,拍摄的图像通常由多位摄影师以不同的角度、姿态和位置拍摄,这导致了图像中运动员的比例、光照以及角度等存在差异[2]。此外,由于运动状态下的身体摆动,使得号码簿上的部分字符产生角度倾斜或字体扭曲变形[3]。图像中号码簿的多样性和复杂性如图1所示,因此,在马拉松赛事中实现号码簿检测与识别的准确性是一项具有挑战和困难的任务。

图1 号码簿的多样性

基于传统方法的号码簿识别研究中,更多的是结合先验知识及手工特征进行号码簿的检测与识别。Ben-Ami等[4]根据人脸检测结果计算得到运动员候选区域,随后结合笔画宽度变换算法(Stroke Width Transform,SWT)生成并过滤得到号码簿区域,最后经过预处理、字符分割操作后,利用光学字符识别(Optical Character Recognition,OCR)方法完成字符识别,该方法对于图像中的人脸清晰度及躯干完整性要求较高,适用范围较小。赵丽科等[1]提出利用可形变部件模型(Deformable Part Model,DPM)获取运动员区域,通过号码簿的固定颜色组合对图像中号码簿进行区域定位,并利用BP 神经网络进行号码文本的识别,当图像中存在多种颜色组合的号码簿时,不仅增大了计算量,还导致号码簿的识别精度下降。传统方法在一定程度上解决了号码簿识别问题,但是在多目标的复杂场景中存在计算复杂度高、精度低等问题。基于深度学习的方法利用模型算法代替传统手工方法,在图像分类、目标检测、图像分割等多种图像处理任务中取得突破性进展[5]。徐培等[3]利用水平及多方向检测模型来获取号码簿区域,随后将号码文本送入到CRNN 进行字符特征提取和识别。Apap 等[2]采用基于改进UNet的图像分割方法,用于号码簿的区域分割,之后利用改进的CRNN模型进行特征提取和识别。Wang等[6]通过YOLOv3进行预处理筛选出运动员有效区域,之后利用CTPN获取号码簿区域,最后将号码簿输入CRNN完成号码文本的识别。文献[2][3][6]利用多角度的文本检测方法,易受号码簿自身以及相似文本背景的影响,直接采用文本检测算法则会检测到大量非目标的文本信息,从而导致算法的识别性能下降。以上基于深度学习的方法在单目标场景下具有较好的识别效果,但未解决多目标背景下倾斜形变号码簿识别效率差的问题。

以RetinaNet[7]为基础进行算法改进,针对多目标场景下倾斜扭曲号码簿的漏检问题,引入具有角度的旋转检测框用于匹配倾斜号码簿。为了避免旋转检测框中角度回归的困难,利用环形平滑标签(Circular Smooth Label,CSL)[8]方法将角度回归问题转化为角度分类问题,进一步优化倾斜号码簿的检测精度。检测阶段得到的号码簿角点坐标,通过裁剪送入到基于注意力机制的CRNN[9]完成对检测到号码簿的无字符分割识别任务[10]。实验结果表明,相比于已有方法,本文方法在检测与识别阶段均有所提升,本文提出的复合型网络的整体性能较优。

一、基于rRetinaNet模型的号码簿区域定位

号码簿检测是后续识别的基础,相比于一般目标检测方法,号码簿检测对目标区域的精确度要求更高。RetinaNet较好地平衡了检测的速度和精度[11],具有较优的检测性能。通过对相关实验的分析发现,在马拉松场景中,针对复杂背景下的号码牌,一方面要考虑目标框是否贴合号码牌,另一方面要考虑目标框中是否引入过多背景或者其他目标信息,RetinaNet提供的水平检测框显然具有一定的局限性。因此,本文方法借鉴了RRPN网络中旋转框生成策略,并根据实际需求进行相应调整。

(一)旋转矩形框设置。在原有水平检测框的基础上增加角度信息,通过5参数(x,y,w,h,θ)来表示旋转矩形框,依次表示为候选框的中心坐标、宽、高以及矩形框的长边h相对x轴的夹角。相比于传统文本检测方法采用的八元组(x1,y1,x2,y2,x3,y3,x4,y4)形式的旋转框,这种五元组的方式不仅在模型训练阶段能高效地计算出正确且有效的数据,还有利于后续计算两个旋转框之间的角度差。

水平框之间的IOU 值是由两个矩形框间的交集占总并集的比值所决定的,如图2所示。而旋转框的引入,使得两个矩形框间的交集不再是规则化的图像,这就需要一个更有效的方法来计算旋转框的IOU。

图2 两种形式矩形框

旋转框的IOU计算如下:①首先计算出两个矩形框交点的坐标。②然后将交集部分的不规则形状转化为规则的图形计算。从任意一点出发,与其余交点连接,将不规则图形分解为多个三角形,并求出相应三角形的面积。③最后根据IOU的计算公式得出最终结果。具体计算如下:

(二)旋转锚框设置。在倾斜号码牌的检测中,锚框的设计需要考虑号码牌的旋转角度。与传统的水平矩形锚框不同,旋转锚框是以倾斜矩形的形式进行设计,以覆盖更多的旋转目标。与传统的锚框设计类似,根据号码牌的大小和比例,设置不同大小和长宽比的锚框。考虑到拍摄距离等因素可能会导致图像中号码牌的大小存在差异,本文分别通过聚类和长宽比直方图对锚框大小进行分析,如图3所示。以上述两种方法结果作为参考,最终将Anchor长宽比设置为1:1.5、1:2、2:3,尺度大小依旧保持为20、21/3、22/3。旋转锚框的角度设置,需要根据实际目标的倾斜角度范围进行调整,本文通过设置不同的旋转角度间隔,来尽可能地匹配目标角度。在上述Anchor长宽比的基础上增加了4个方向角度-π/6、-π/4、-π/3、-π/2。根据Anchor的生成规则,图像特征图上的每一点将生成36个不同角度不同大小的候选框。

图3 锚框长宽比计算

为匹配多种形式的号码牌并提高检测精度,考虑旋转锚框在[-π/2,π/2]范围内的旋转角度参数,在原有水平Anchor 的基础上增加6个方向角度-π/12、-π/6、-π/4、-π/3、-5π/12、-π/2,以更好地匹配倾斜号码文本。旋转锚框在参数θ回归过程中,易受角度周期限制进而产生边界问题,可利用CSL方法将角度回归问题转化为分类问题,通过对窗口函数及窗口半径的设置,使得目标区域定位更精确[12,13]。

二、基于注意力机制的号码文本识别算法

上述检测到的号码簿区域,通过角点坐标裁剪得到的号码文本图像,可以通过基于分割字符或整词识别方法[3]实现图像中的字符或者字符序列的识别。号码文本识别中,不同赛事字符文本的不规则排布、字体、颜色、尺度、光照等因素的变化显著增加了识别的难度。此外,在拍摄角度及运动状态的影响下号码簿的扭曲形变,使得字符间发生不同程度的扭曲,号码文本内部的形变问题,导致现有号码文本识别算法识别率不高。本文基于整词识别CRNN方法完成号码文本识别任务,结合注意力机制及号码文本特点对CRNN进行相应的改进。

(一)注意力机制。近年来,注意力机制(Attention Mechanism)被广泛应用在图像识别、机器翻译、语音识别等各种深度学习任务中。文本识别方法中注意力机制能够通过高亮字符所在位置的特征,有效弥补不规则文本和水平平直文本之间的特征差异[14],其中采用的是Bahdanau 注意力机制[15],计算流程如下图4所示。解码器经过当前位置t时,通过上一时刻的隐状态St-1、目标序列yt-1以及编码器每个位置输出的隐状态ci计算得到每个字符的隐状态向量,此时St=g(St-1,yt-1,ct),αt,i为输出序列在t时刻的隐状态,具体计算表示为:

图4 Bahdanau注意力机制

(二)基于注意力机制的CRNN 模型。针对分割字符识别方法的局限性,本文在整词识别方法的基础上提出基于注意力机制的CRNN识别方法。基于注意力机制的CRNN网络由3部分组成:卷积层、循环层以及转录层。其中卷积层是对输入图像进行相应的特征提取,并转化为循环层可处理的特征序列形式;循环层通过一个单层的门控循环(Gated Recurrent Unit,GRU)网络[16]对特征序列中的每一层特征递归处理,将整个特征序列转换为一个标签分布;转录层结合注意力机制将循环层获取的标签进行字符串的去重整合等操作,最后转化成识别结果。网络特征提取阶段的参数如下表1 所示,其中Maps 为图像维度,Window为池化窗口,k表示卷积核,s表示步长,p表示为填充。

表1 CRNN网络结构图

三、实验结果与分析

(一)实验环境及数据集。本文所有实验均在同一实验环境下完成,实验平台为Inter(R)Core(TM)CPUi7-9700K,8GB RAM,NVIDIA GeForce GTX 2080 Ti,操作系统为Ubantu16.04,采用CUDA10.0 加速,实验环境为python3.6,Tensorflow 框架。号码簿检测与识别所需的实验数据来源于真实马拉松赛事。

1.号码簿检测数据集。本文的研究对象为马拉松场景下的运动员图像,目前公开的马拉松运动员数据集较少,仅有的RBNR 数据集[2]不仅数据量少,而且与真实马拉松场景下拍摄的图片存在较大的差异。针对这一问题,本文在不同马拉松网站上进行数据的收集工作,收集到的部分图像如图5所示。

为了保证运动员数据集的多样性,收集的样本数据中包含各种天气状况、赛道起始终点、不同场次、不同拍摄角度的运动员图片;此外,号码簿的样式、字体颜色、字体大小也需要考虑在内。最终在收集的图片中筛选出8000张图片作为实验所需的马拉松运动员数据集——Mathon。在对图片进行标注工作的同时,选取7000张图片作为训练集,1000张图片作为测试集。

2.号码簿识别数据集。号码簿识别数据集主要由两部分组成:真实数据和人工合成数据。真实数据由Mathon数据集裁剪得到;人工合成数据是利用数据合成工具将不同样式号码簿作为背景,通过模糊、倾斜、扭曲、仿射变换等方法,随机生成文本图片,如下图6所示,图6(a)为合成文本图片,图6(b)为真实场景裁剪得到的号码簿。

图6 号码簿识别数据集

(二)号码簿检测实验。对于倾斜的号码簿而言,水平框检测方法无法获取号码簿的精确位置,为进一步检验本文方法对于号码牌的检测性能,分别与EAST、R3Det 和R_yolov5 进行对比实验,实验结果如表2所示。

由上述结果可以看出,以EAST 为代表的文本检测算法稍逊于本文算法,这是由于EAST算法在处理倾斜文本区域时,需要对四边形进行旋转和重新计算,从而导致复杂度增加。而本文提出的旋转目标检测算法可以通过旋转锚框来更方便地处理旋转目标。基于旋转框的目标检测算法中,R3Det算法主要应用于遥感图像的目标检测任务,针对长宽比值较大的目标具有较强的旋转目标检测能力和较高的检测精度,对于该场景下的号码牌检测显然具有一定的局限。而基于yolov5改进的旋转目标检测算法R_yolov5,对旋转目标的处理方式不够细致,对于旋转角度过大的目标可能无法准确检测。

(三)号码簿识别实验。在号码簿识别阶段,为了提高真实场景下号码簿的识别准确度,在模型训练中,先是对合成的文本图像进行模型的预训练,随后利用真实号码簿进行模型的微调。预训练中,合成训练集通过2个批次的迭代训练后收敛至最优。训练参数的设置为基于Adam优化算法进行端到端训练,统一输入图像为100×32;batch_size 设置为64;真实数据训练中,首先将真实号码簿统一缩放为100×32尺寸大小,经过500次迭代后模型趋于收敛,其余的训练参数均与上述方法一致。

号码簿识别算法的评估准则,采用字符识别正确率(Character Recognition Accuracy)和平均编辑距离(Average Edit Distance,ADE)两种方法来衡量。其中字符识别正确率指识别正确的图像数量占总图像数量的比例,正确识别字符比例越高越好。编辑距离是针对两个字符串差异程度的量化,指一个字符串通过替换、删除、插入字符的操作转变为另一个字符串所需要的最少编辑次数。两个字符串越接近,编辑距离越小。平均编辑距离则由编辑距离总和与图片总数的比值决定。

1.基于注意力机制方法的验证。为了评估本文方法的有效性,我们与原始CRNN模型进行了对比实验。本文训练数据采用的是区分大小字母+数字组合的字符类别模式,分别对本文模型与原始CRNN模型进行训练,测试阶段进行有字典的识别,实验结果如表3所示。

表3 CRNN与本文方法对比实验

从表中数据可以看出,本文方法无论在正确识别率还是平均编辑距离上都比基础CRNN 模型的识别效果好。这是因为本文方法通过引入注意力机制来关注不同位置的输入信息,从而提高预测的准确度。

2.不同检测方法的识别结果对比。本文研究是针对马拉松场景下的号码簿检测与识别,为了充分验证本文方法的综合性能,将YOLOv5、EAST 和本文检测方法分别与基于注意力机制的CRNN 识别方法结合,进行号码簿识别的对比实验,测试过程中均采用有字典的测试方法。

上述表4为不同检测方法的识别结果,可以看出以Yolov5为代表的常规目标检测方法,由于水平检测框的局限性,使得检测到的目标区域存在大量背景信息,导致号码簿的识别率严重下降。EAST 与本文算法利用水平和倾斜两种形式的检测框,来解决多角度的号码簿检测问题。由于EAST算法对于号码簿尺度变化的鲁棒性较差,最终导致识别效果下降。从正确识别率和平均编辑距离指标上看,相比较其余两种方法,本文提出的算法性能较优。

表4 不同检测方法的识别对比

四、结语

针对马拉松赛事中的号码簿识别问题,本文通过构建一个基于深度学习的复合型网络来实现马拉松号码簿的检测与识别。号码簿检测阶段,以RetinaNet作为基础网络,设置旋转检测框用于倾斜目标的匹配,结合CSL方法将旋转检测框的角度回归问题转化为角度分类问题,从而满足目标区域精确定位的需求。号码文本识别中,在原始CRNN的基础上引入注意力机制方法,提高扭曲形变号码文本的识别能力,进一步提升CRNN的性能。在自主创建的数据集Mathon上的实验表明,本文提出的号码簿检测算法对于复杂背景、号码簿尺度及倾斜扭曲等多种影响因素可较好地提取号码簿区域,相比较其他方法,具有较好检测性能。不同检测方法的识别结果表明,本文方法的综合识别性能较优。

猜你喜欢

锚框字符号码
基于YOLOv3锚框优化的侧扫声呐图像目标检测
锚框策略匹配的SSD飞机遥感图像目标检测
基于SSD算法的轻量化仪器表盘检测算法*
寻找更强的字符映射管理器
基于GA-RoI Transformer的遥感图像任意方向目标检测
说号码 知颜色
一个号码,一个故事
字符代表几
一种USB接口字符液晶控制器设计
猜出新号码