探索基于EAST与CNN的钢材表面字符检测与识别方法
2020-12-23刁军辉
刁军辉
摘要:对于环境背景复杂的钢材生产线来说,现场光照条件和字符印刷质量会直接影响采集图像质量,传统字符识别和文本区域检测方法效果会因此下降。基于此,本文将基于EAST深度学习文本检测器与卷积神经网络(CNN)开展研究,并介绍一种实用的钢材表面字符检测与识别方法,希望研究内容能够给相关从业人员带来一定启发。
关键词:钢材表面;卷积神经网络;字符识别
前言:自动化操作正逐渐取代钢材生产企业生产环节中的一些人工操作,对应保存钢材编号与测试数据便属于其中代表。但结合实际调研可以发现,现阶段的计算机视觉方法在很多时候无法较好满足钢材表面字符检测与识别需要,为更好服务于自动化生产,正是本文围绕钢材表面字符检测与识别方法开展具体研究的原因所在。
1. 图像预处理方法
受光照不均匀、钢材表面坑洼、现场环境复杂等因素影响,图像过暗、过亮、噪声过多等情况很容易出现,并直接影响字符检测和识别的开展,因此需开展图像预处理,具体流程为:“灰度化→滤波去噪→图像增强→EAST文本区域检测”。可采用高斯滤波处理噪声,以此可在保留字符边缘的同时处理噪声,后续算法受到的影响能够降到最低,采用式(1)进行处理,式中的 为事先定好的常数,由此得到的结果离散化为原图和模板做卷积即可。
(1)
对于整体较亮或较暗的图像,可开展直方图均衡化处理,如采用伽马变换,背景区域信息弱化、文本区域信息突出即可顺利实现,具体为:
(2)
s设置为文本区域(拉伸具有更高灰度级的图像区域),同时压缩存在较低灰度的区域,图像文本区域可由此拥有更强的对比度。由于钢材的中央区域为字符区域,因此先获取整体文本的位置属于常用方法,形态图像处理和图像边缘分割属于较为传统的区域检测算法,目标区域获得可基于连接区域找到实现,EAST深度学习文本检测器可较好满足实际需要。作为一种深度学习模型,EAST以训练模式和新颖架构为核心,整个图像中四边形文本行可基于单个神经网络实现预测,不必要的中间步骤可由此省略,如字符分割和候选区域聚合。EAST模型由输出层、特征合并分支、特征提取器三个部分组成。预训练可采用池化层和卷积层交错的卷积神经网络,四级特征图像可由此获得,分别为原图1/4、1/8、1/16、1/32大小,在特征合并部分中,合并分支功能可逐渐合并,以此大小加倍处理图形,随后级联当前特征图。对于之后的3×3卷积层,其负责信息融合及文本合并阶段结果的最终产生,同时存在对应RBOX的输出层,由旋转角度和轴向边界框表示[1]。
EAST也存在一定缺点,如将一个文本区域检测到多个文本区域,长文本的检测会受到影响。需聚合多个文本区域,以此得到整体的文本区域。为适应长文本区域检测,需对EAST输出层进行改进,以此实现更加准确的长文本预测。EAST的最终顶点坐标计算需应用所有像素预测顶点坐标加权平均值,这使得基于短边一侧的若干像素的長文本四边形另一侧两个顶点预测存在较高难度,因此采用的文本框边界输出层模式设计有头尾方向,头部像素负责其一侧两个顶点预测,另一侧由尾部像素负责,是否在文本框中、是否属于文本框边界像素、是头还是尾分别为改进后网络输出层的第一位、第二位和第三位,边界像素可实现两个顶点坐标预测为最后四位。在得到预测输出后,最后的文本框坐标也需要通过计算得到,需根据配置阈值通过预测矩阵得到激活像素集合,合并相邻集合需按照先左右后上下顺序,以此获得头和尾边界像素集合,最后的预测坐标值为每个边界像素点预测值的加权平均值。
2. 钢材表面字符检测与识别方法
2.1字符区域矫正与分割
EAST检测会得到存在一定倾斜角度的文本区域,下一步的分割很容易受到角度过大倾斜的干扰,因此需开展针对性的字符区域矫正。需基于字符区域水平轴与包围矩形的长边夹角确定旋转角度,根据字符区域包围矩形中心点确定旋转中心,仿射变换矩阵可由此计算。图像倾斜矫正后需分割出背景中的字符,可采用最大类间方差法。多种场景下的分割不适合采用手动选择阈值方法,因此需应用自适应阈值选择方法,图片处理可采用最大类间方差法的二值化操作。二值化后,多个字符区域确定可通过找到正外界矩形实现,需搜索连接区域。在个别判断外部矩形宽度异常字符的过程中,需基于列的线性扫描进行操作,上下轮廓的极小值在异常区域寻找,切分正常的单个字符可通过对比正常区域宽度分割获得,向训练好的卷积神经网络顺序输入切分正常的单个字符,最终的识别结果即可获得[2]。
2.2卷积神经网络
卷积神经网络属于钢材表面字符检测与识别的关键环节,卷积神经网络由三部分组成,包括全连接层、池化层、卷积层。对于普通神经网络来说,神经元连接到图像每个像素会导致参数过多,但卷积神经网络能够实现参数数量的合理控制,这种控制可基于局部感知或权重共享实现。所谓局部感知,指的是基于强相关性的图像特点,由于存在相关性较强的距离相近像素点,以及相关性较差的距离较远像素点,因此仅需要局部感知每个神经元,且所需参数仅为卷积核心的像素数量。权重共享指的是一种提取特征方法用于每个卷积内核,通过对提取某一种特征卷积核的确认,同样的学习特征即可对整个图像学习,通过多个卷积核进行多种特征学习,特征提取充分即可得到保障,该区域的特征也可通过图像区域上的特定特征的最大值或平均值计算确定。特征的尺寸可通过汇总统计特征实现减少,过度拟合的难度也会提升,这种操作被称为池化,模型的参数和复杂性因此简化。实际采用多层卷积,训练基于完整连接层实现,学习特征的全局化程度会随层数增大而提高。本文研究需首先粗略切割钢材表面图片字符并保存,随后基于0到9一共十类数字划分字符图片,分作测试集和训练集两个集合,字符训练用卷积神经网络为LeNet5结构,后续检测基于保存的训练后权值进行,图1为卷积神经网络结构。
结论:综上所述,基于EAST与CNN的钢材表面字符检测与识别方法具备较高实用性。在此基础上对比传统方法与本文研究方法可以发现,改进后的EAST和卷积神经网络均具备较高准确度,二者结合能够取得令人满意的结果,研究的价值由此得到证明。
参考文献:
[1]艾梦琴,陶青川.基于MobileNet模型的钢材表面字符检测识别算法[J].现代计算机,2020(03):73-78.
[2]谢更新. EAST高速相机采集与图像处理系统研究[D].中国科学技术大学,2019.