自然场景图像中维吾尔文检测算法

2022-09-28王德青吾守尔斯拉木许苗苗

东北师大学报（自然科学版） 2022年3期

王德青，吾守尔·斯拉木，2，许苗苗

(1.新疆大学信息科学与工程学院，新疆乌鲁木齐 830046；2新疆大学新疆多语种信息技术重点实验室，新疆乌鲁木齐 830046)

0 引言

随着深度学习和网络技术的快速发展，具有丰富文字信息的图像在信息传递中占据着越来越重要的地位，这些信息覆盖面广、数量庞大，如何在浩瀚的数据中获得所需要的信息是当今科技和社会所面临的重要挑战.然而在复杂的图像信息中，语义信息主要包含在文本中，所以准确且全面的检测出图像中所包含的文字信息是十分必要的.当前，学术界对于自然场景中维吾尔文字的检测及识别等方面的研究仍不成熟，加强对自然场景长维吾尔文字的识别技术研究有利于充分发挥维吾尔语信息化网络监管平台的优势，有利于促进多民族文化、地域特色文化共同繁荣发展，有利于增强国家文化软实力.维吾尔语是以阿拉伯字母为基础书写的，同时使用拉丁维文作为补充.维吾尔语共有32个字母，其中有8个元音，24个辅音，每个字母有2到8种形式，共有126种形式.[1-2]

目前，传统的光学字符识别技术主要用于文档识别、票据识别、无人驾驶等领域.对于文档分辨率较高，背景颜色单一的维吾尔文字场景可以使用传统的OCR技术.但是在自然场景中，由于图像里的维吾尔文字背景复杂、对比度较低同时会受到光照、障碍物遮挡、字体竖直分布、弯曲、尺寸较小等影响，使得图像中的维吾尔文字存在文字位置、角度变化、分辨率低等问题，同时目前缺乏相应的维吾尔语文字数据集，给维吾尔文字检测研究造成了很大的困难.

为了解决维吾尔语文字存在的字体弯曲、竖直分布、背景复杂、光照不均、分辨率低等问题，近年来学者们做了很多研究工作，大致可以分为两类：一类为传统的检测方法；另一类为基于深度学习的检测方法.

李凯等[3]提出的基于边缘和基线的检测方法，采用多个方向的边缘和基线特征结合对文本进行定位检测；依再提古丽等[4]使用基于角点密集度的定位方法；姜志威等[5]提出共享维吾尔语之间的字符结构信息方法；刘顺[6]针对复杂背景下的维吾尔文字的特点，通过使用一个通道增强MSERs算法实现检测；Tursun等[7]通过使用Harris角点[8]与形态学方法结合产生候选框，然后根据启发式规则去除非文本区域，实现对维吾尔文进行的检测；Zaravi等[9]通过高频小波系数的分布的方法来确定区域是否含有文字，然后通过投影确定检测位置等.该类方法处理过程复杂，对于小文本的检测效果不好，对于复杂的自然场景文本检测效果差.

Fang等[10]使用卷积神经网络对复杂背景的维吾尔文字进行检测；李路晶一[11]提出改进YOLOV3[12]网络的维吾尔文检测方法；徐隐飞[13]提出了基于卷积神经网络的维吾尔文检测等对自然场景维吾尔语检测都取得了一定效果；彭勇等[14]提出利用改进的单深层神经网络对输入网络的维吾尔语图片进行特征提取，然后将提取到的维吾尔语文字的特征输入到文本检测组件部分，最后进行定位；姜文等[15]提出先将维吾尔语文字进行滤波器处理，然后对该字符图像进行分块，再次对实值Gabor能量值进行提取，再将能量值构成能量矩阵，同时通过降维得到特征向量，最后通过邻近算法(KNN)识别分类器对字符进行识别.

本文首先在新疆乌鲁木齐、喀什等地实际采集维吾尔文字街景、商店等图像建立了维吾尔文数据集，然后改进了DBNet网络[2]算法用于检测自然场景中的维吾尔文字.

1 相关算法

1.1 DBNet网络

DBNet网络是为了解决利用阈值判断前景和背景时操作不可微无法进行端到端训练的问题而提出来的.对于含有弯曲文本的检测任务来说，基于分割的算法效果比基于回归的算法更优，但是基于分割的算法最后获得的二值化概率图都是通过使用固定的阈值来获取的，并且阈值不同对性能影响较大.该算法是使用固定阈值来判断前景和背景，但是这种操作是不可微的，使得在进行训练时无法将该部分送入网络进行训练.

1.2 ResNeSt网络

ResNeSt网络[16]首先将网络中的输入图像分成k个cardinal[16]，其次将每个cardinal拆分成R个split，故一共有K*R个组，每个cardinal包含1*1和3*3的卷积，同时还有拆分注意力模块(split-attention).在每个拆分注意力模块中先将输入特征经过全局池化，然后经过2层全连接层，以及经过BN层和ReLU层，最后经过Softmax层得到各个特征图的运算结果，再经过1*1的卷积输出.

2 基于改进的DBNet网络

由于一方面ResNeSt目前作为基础网络在图像分割领域取得的效果最优，另一方面DBNet也是基于图像分割的算法，所以本文采用ResNeSt对DBNet网络的特征金字塔部分进行了改进(见图1).

2.1 算法思想

本文对于每个cardinal输入为

(1)

使用全局平均池化可以得到通道权重为

(2)

所以最后每个cardinal的输出为

(3)

(3)式中aki(c)表示经过Softmax层之后得到的权重为

(4)

然后利用concat操作将每个cardinal的输出连接起来，得

v=concat{V1，V2，V3，…，VK}.

(5)

最终的输出特征图为

Y=V+τ(x).

(6)

其中τ(x)表示的是跳跃连接映射.

2.2 算法实现过程

首先图像输入ResNeSt50网络进行特征提取，进行上采样融合，再进行concat操作得到特征图F，用特征图F预测获得概率图P，使用F预测出阈值图T，将P和T通过DB操作得到近似二值图，最后获得检测结果.

本文借鉴了在中英文检测中取得较好效果的DBNet网络，并将DBNet网络中以ResNet18[17]为基础的FPN[18]架构进行了改进，更换为ResNeSt50网络.如图1所示，自底向上部分为ResNeSt50.

图1 基于改进的DBNet网络结构

从输入图像获取特征图的网络分为三部分，自底向上、自上向下和横向连接.其中在自底向上部分，输入图像首先经过3个3×3的卷积层，然后进行步长为2的最大池化操作，再次进入r个radix-group，进入每个group里面的k个cardinal，经过1×1的卷积和3×3的卷积，并将k个cardinal进行concatenate，再进行相加操作，进行全局平均池化，通过2层全连接层，再通过BN层和ReLU层，并分成c个分支，最后通过r-Softmax层，得到输入特征图c2，c3，c4，c5分别为原图的1/2，1/4，1/8，1/16，1/32.自上向下部分首先将c5经过上采样处理，然后经过3×3的卷积操作消除因为上采样产生的混叠效应，得到输出特征M5，c2，c3，c4，c5上采样后与经过1×1降维处理过的M4相加，再经3×3卷积处理，得到M4.其余特征的产生过程与上述类似.在横向连接部分，先通过1×1的卷积进行降维，然后进行连接.由此获得语义信息和位置都非常准确的特征图送入DBNet网络中进行预测获得概率图P和阈值图T，最后经过可微二值化(DB)处理得到最终的图像检测结果.

2.3 特征提取的网络具体组成

表1为ResNeSt50的具体结构.由表1可以看到该网络借鉴了sknet[19]和ResNeXt[20]的思想，将每个输入分为多个cardinal，每个cardinal里面又分为多个group，然后每个group里面又分为1*1和3*3的卷积，借鉴sknet里面的split attention思想，将特征输入split attention模块，在该模块首先将各个输入的group做融合，进行全局池化处理，并经过全连接层，通过rSoftMax层进行concat连接操作获得对应图片的特征图.

表1 ResNeSt50网络具体结构

3 实验与分析

使用的是在英文检测领域取得较好效果基于图像分割的算法，并进行了改进，数据集格式为icdar2015格式.

实验平台是Ubuntu 18.04.3 LTS，GPU为GeForce RTX 1080 Ti，使用的是PyTorch框架，torch版本为1.6.0.改进的DBNet训练中的参数：实验动量为0.9，初始学习率为0.006，权重参数decay为0.000 1，优化器选择的是随机梯度下降.

3.1 数据集与评价标准

在深度学习领域，数据集是进行研究的基础，由于目前学术界缺乏公开的维吾尔文字图像数据集，所以我们采集得来的图文数据集中包含街道、商店、宣传栏、博物馆物品、火车站、公交站牌、天桥等场景的图像.在采集过程中因为拍摄的角度、距离、时间等存在差异，所以图像中的文本存在与中文英文混合，尺寸、字体、色泽、大小、位置等不一致，为了更好地进行标注和训练，本文的实验数据集图像统一转换尺寸大小为4 032*3 024像素的图像.并用标注精灵助手进行了标注，每张图像的维吾尔文本的位置信息和内容信息都被标注出来，可以进行维吾尔文字检测和识别的训练及评估.本文数据集为3 170张，其中实验所用随机选取训练样本为90%，随机选取测试样本为10%.

图2 部分数据集图像示例

实验采用目标检测领域常用的准确率(P)、召回率(R)、F值为评价标准.为了更好地进行说明，现做如下定义：

True positives：数据为正例，预测结果为正例；True Negative：数据为负例，预测结果为负例；False Positive：数据为负例，预测结果为正例；False Negative：数据为正例，预测结果为负例.

所以计算公式为

(7)

(8)

(9)

3.2 结果与分析

对本文的算法实验进行分析对比，选取CTPN[21]网络、R2CNN[22]网络、DBNet网络、改进的DBNet网络4个算法的不同模型的训练及测试进行对比，如表2所示.表2中ctpn-ResNet18、ctpn-ResNet50分别表示ctpn算法中主干网络为ResNet18和ResNet50.DBNet_td500_ResNet50、DBNet_synthtext_ResNet50、DBNet_ic15_ResNet50、DBNet_totaltext_ResNet50分别表示DBNet算法的主干网络为td500_ResNet50、synthtext_ResNet50、ic15_ResNet50和totaltext_ResNet50.IOU表示的是交并比，即候选框与原始标注框的重叠率，是目标检测中常用的评价标准.

由表2可知，在同样的数据和训练平台条件下，改进的网络效果最好，P为76.72%，R为59.45%，F为67.0%，ctpn-ResNet50的P次之，P为73.91%；DBNet_totaltext_ResNet50的R次之，R为51.04%，DBNet-td500_ResNet50的F次之，F为59.57%.对于DBNet算法而言，当其主干网络为td500_ResNet50时在本文的数据集上的检测效果最好，P为73.56%；对于CTPN网络来说，当其主干网络为ResNet50时的效果优于ResNet18，其值为73.91%；另外ctpn-ResNet50网络的性能优于DBNet_td500_ResNet50，优于R2CNN网络；R2CNN网络的性能优于ctpn-ResNet18；基于改进的DBNet网络效果性能优于以上所有网络.而且IOU为0.5的时候评估结果优于IOU为0.6的结果.综合以上实验结果及对比性能，本文提出的算法对维吾尔文检测具有很好的效果.

表2 各算法在本文数据集的测试性能

基于改进的DBNet算法在实现检测的过程中充分考虑了输入图像的高层语义信息和准确的位置信息，故该网络对于小文本检测效果很好，图3是对小文本的检测结果，其中左侧的黑白图像经过特征提取之后的效果图，右侧为检测输出的效果图.由图3可知，基于改进的DBNet网络对于光照不均、倾斜、文本较小等维吾尔文的检测效果优异.

图3 基于改进的DBNet网络对于小文本的检测结果

CTPN、R2CNN、基于改进的DBNet网络的检测结果如图4所示.由图4可知CTPN网络检测效果图为绿色框所示，能够检测到图像中的一部分维吾尔文，R2CNN网络没有检测到维吾尔文，基于改进的DBNet网络检测结果为图中红色框所示，该网络优于加入了拆分注意力机制与特征金字塔网络，能够对检测的目标进行集中检测，也能够对图像中维吾尔文的水平文本、倾斜文本、弯曲文本、复杂背景文本等实现检测且都具有优异的检测效果.

图4 CTPN、R2CNN、基于改进的DBNet网络检测结果

综合表2的实验结果及图3和4的检测效果图可知：基于改进的DBNet算法具有准确检测自然场景中的维吾尔语小文本、倾斜弯曲文本、水平文本、复杂背景文本，检测准确率高，资源消耗较小等多种优点.

4 结束语

本文提出了改进的DBNet网络用于维吾尔文字检测.实验结果表明：该算法有效地提升了维吾尔文本检测的感受野，同时使得特征提取的各个通道之间都有较好的联系，应用基于特征金字塔的ResNeSt网络和较小的平均池化方法能够更好地提取较为完整丰富的图像文本信息，有效地提高了维吾尔文本检测的性能.以后的工作重点将在以下2个方面进行研究：(1)使用更加简便的网络提高检测性能，减少训练时间；(2)对网络引入识别算法进行训练，实现检测识别一体化.