基于图像处理的化工产品英文字符识别研究

2021-06-29王蕊

粘接 2021年5期

王蕊

摘要：针对传统板材喷码人工记录的问题，提出一种基于图像处理的喷码图像识别方法。在该方法中，首先采用加权平均法对图像进行灰度化处理，然后采用背景差分法和Otsu对图像进行定位和分割;利用旋转投影法和最小二乘拟合法对喷码图像进行校正;通过PCA融合方法完成对一维投影特征、外轮廓特征和网格特征的提取;最后通过二叉树的SVM进行识别分类。通过试验验证表明，本文采用的方法可有效识别不同格式的英文字符，且识别正确数明显高于传统的SVM方法，具有一定的优势。

关键词：喷码图像;英文字符;图像识别;SVM分类

中图分类号：TP391.43 文献标识码：A 文章编号：1001-5922（2021）05-0076-04

Research on English Character Recognition of Chemical Products Based on Image Processing

Wang Rui

（Xi an Siyuan University，Xi an 710038，China）

Abstract：Aiming at the problem of manual record of traditional plate spray code， an image recognition method based on image processing is proposed. In this method， firstly， the weighted average method is used to gray the image， then the background difference method and Otsu are used to locate and segment the image; the rotation projection method and the least square fitting method are used to correct the spray code image; the PCA fusion method is used to extract the one-dimensional projection features， the contour features and the grid features; finally， recognition and classification are carried out through the SVM of the binary tree. The experimental results show that the proposed method can effectively recognize English characters of different formats， and the correct number of recognition is significantly higher than that of the traditional SVM method ， which has certain advantages.

Key words：inkjet image; English characters; image recognition; SVM classification

为区别钢铁板材信息，部分厂家会在生产的板材表面会通过喷涂的形式喷印上板材的信息，如钢板号、钢种、尺寸、制造商、生产批次等，且每一个板材产品对应于唯一的钢板号。在这其中，包含着大量的英文字符信息。而板材成品从入库导装车发货过程中，管理员往往会通过手工记录的方式来记录本批次板材的喷码信息，以此区别不同类别的板材。但这种传统的人工记录难免会出错，进而给板材的管理带来不便。而伴随着现代图像识别技术的发展，以及图像识别在物流等领域的应用，给板材喷码识别提供了新的借鉴思路。而在当前的图像识别中，对图像进行特征提取，然后采用神经网络、SVM等算法对图像进行识别，是常用的思路。而本文则结合以往研究的思路，尝试将识别方法应用到板材的喷涂信息识别中，特别是数字字符和英文字符识别，以此为图像识别在板材管理的运用提供新思路。

1 识别整体思路

参照一般性的字符识别流程，结合板材表面喷印字符、喷码信息的特点，本文确定了板材表面喷码字符识别的技术路线，展示如图1所示。

2 图像预处理与字符区域定位

基于色彩空间变换原理对获取到的喷涂信息图像进行灰度转换，然后利用背景差分法来定位板材喷涂图像，最后利用Otsu法对喷涂图像的字符区域进行分割。

2.1 圖像灰度化

灰度化处理采用加权平均法。该方法的基本思路为：首先RGB三分量不同的权值，然后通过求解加权平均来确定灰度值。本研究则采用如下公式进行灰度化计算：

其中，为彩色图像的三分量，指的是灰度图像对应点亮度。

2.2 图像定位

图像定位采用背景差分法。具体流程为：首先获取喷码背景图像，然后将之与抓拍图像进行差分运算，由此得到宽厚板表面喷码图像。差分运算公式为：

其中，依次是目标图像、背景图像，M界定了图像尺度。

在本喷码图像的定位中，由于外部环境中的光照变化会对背景差分造成扰动，因此采用对背景图像进行实时更新，以尽量消除光照条件的干扰作用。

2.3 图像分割

图像分割采用Otsu法。具体步骤为：首先通过Otsu法确定最佳阀值，保持目标像素不变，并设置背景像素为0，在此基础上，通过Otsu法再次确定最佳阀值。如此重复迭代，直到满足迭代停止条件，即在一次迭代过程中，分割前与分割后整体图像的像素变化率小于类内方差变化率。将所有的Otsu阀值列入阈值数组，利用阀值数组逆序验证二值化效果。根据阈值二值化图像后，采取水平垂直法计算出字符区域的宽高比，如果宽高比符合先验条件，随即输出正确结果;如果宽高比不符先验条件，则需要提取前一个阈值并据此进行复判;如果提取了所有阈值都不符先验条件，则根据先验知识提取阈值，并利用此阈值二值化图像。流程如图2所示。

2.4 图像校正

实践发现，板材表面喷印的英文字符缺少直线边框，因此需要对图像进行校正。传统的校正方法中，旋转投影法的校正容易受旋转角度的影响，虽控制较小的旋转角度能够提高旋转投影法的精度，但运算较大;最小二乘拟合法的校正精度取决于关键点提取量，如果提取出的关键点数较少，则无法保证最小二乘拟合法的精度。因此融合以上两种方法的优势进行校正，具体步骤为：

（1）根据底层坐标点数求解出倾斜角度。首先获得字符区域底层目标像素点的坐标，然后将坐标点列入直角坐标系中，通过最小二乘拟合求解出整体图像的倾斜角度。最小二乘拟合法的基本思路是，针对一组已知的有序数据，采取一条光滑曲线进行拟合，确保目标函数最小化，残差算式是。建立直线方程，对直线方程中的参量、b求偏导，最终计算出直线斜率的值，如下：

在计算出直线斜率以后，即可根据关系式求解出倾斜角度。

（2）设定阈值t，据此对最小二乘拟合法所用的关键点数n进行检验。若nt，说明当前的倾斜角度是有效的，随即跳转至步骤（5）。

（3）利用基于最小二乘拟合法确定的倾斜角度进行投影校正。若，则向X轴上方旋转;若，则向X轴下方旋转。

（4）基于旋转投影法对倾斜角度进行验证。

（5）根据验证后的倾斜角度，对整体图像执行倾斜校正。

2.5 特征提取

在本文中，主要对喷码图像的一维投影特征、网格特征和外轮廓特征进行提取。

（1）一维特征提取。对于像素m×n的二值图，将原点选定在二值图像的左下角，然后确定该图像在x轴上的垂直投影以及在y轴上的水平投影，从而提取出图像的一维投影特征，即：

由垂直投影提取的一维图像：

由水平投影提取的一维图像：

（2）网格特征。将字符区域划分为多个子区域，并且计算出不同子区域内的目标像素点数，这一信息构造了图像的网格特征。

（3）外轮廓特征。以图像边缘为基础，计算出图像边缘与第一个目标像素点之间的像素点数，从而获悉了字符结构的外轮廓信息，或者称之为图像的外轮廓特征。

2.6 基于PCA的特征融合

为更好的获得完整的喷码图像特征，本研究采用PCA的融合方式对主成分特征进行提取，这样在减少图像特征维度的同时，降低计算量。

PCA的特征融合是以实现转换前后的均方误差最小化作为目标的，具体实现步骤为：

（1）建立喷码图像原始特征的协方差矩阵。初始向量x的均值向量是，协方差矩阵是，相关矩阵是。

（2）计算的特征值、特征向量，并且确定特征值序列以及相应的特征向量序列。代入式Y=UX中，即可求解出D个新特征的方差。

（3）界定第i个主成分的“方差贡献率”和前d个主成分的“累计方差贡献率”，如果已经足够大，则提取前d个主成分做好新的特征，即：

在获得新的特征以后，随即摒弃后面D-d个特征，由此实现了降维效果。

3 基于二叉树的SVM多模板识别

SVM主要适用于两分类问题，但在实际应用中却存在多类分类问题。因此，本文提出采用基于二叉树的SVM多模板识别方法。具体步骤为：首先针对板材表面喷印字符格式不同问题，先判定图像中英文字符、数字字符的格式，然后识别具体字符。具体可分为2个步骤：①利用决策树模式识别喷印字符的不同格式，从而对字符的模板类型进行分类;②在确定字符模板类型以后，基于多分类SVM进行字符识别，最终确定字符内容。

4 试验验证

4.1 喷印格式的识别

基于决策树进行板材喷印格式的识别，首先明确各类喷印格式的特点，然后提取关键特征，包括字符行数、字符区域的宽高比、校正后的水平投影等。在对板材喷码图像进行字符区域定位和倾斜校正以后，首先进行y方向的水平投影，并获取波峰数量m，然后利用先验知识确定字符行数，由此计算出字符区域的宽高比。考虑到喷印格式不会轻易发生变化，所以，首先构造不同类型、不同功能的判别函数，然后据此完成分类工作。具体来说，利用宽高比特征建立人工喷印模板的分类函数;利用字符行数n、波峰数量m等信息构建根判别函数;利用y向水平投影特征信息建立机器喷印格式的分类函数。在实操中，首先在根节点上利用判别函数进行样本判决，判定喷印样本属于右节点（即机器喷印格式）或者左节点（即人工喷印格式）。

4.2 英文字符识别结果

以“B”字符识别为例，通过采集不同喷码图像中的“B”字符样本集720组，训练样本80组，在经过以上二叉树的SVM模式识别训练后，得到表1所示的识别结果。同时为比较识别效果，将该测试样本与传统的SVM算法进行比较。

5 结语

根据上述的识别结果看出，在对板材的喷码进行识别过程中，最为关键的是要结合图像识别思路对图像一步步进行处理。而在本研究中，采用图像灰度化处理、图像定位与分割，以及采用基于PCA的特征融合和二叉树的SVM识别方法，得到更高准确率的英文字符识别率，由此說明该方法的可行性。

参考文献

[1]庄家俊，冼文锋，王前.结合形态结构和BP神经网络的盲文字符识别[J].现代计算机，2020（21）：50-53+76.

[2]傅汉东.光学字符识别技术在高校会计核算中的实践和应用[J].现代经济信息，2020（12）：64-65+67.

[3]张秀玲，魏其珺，周凯旋，等.基于改进LeNet-5网络的车牌字符识别[J].沈阳大学学报（自然科学版），2020，32（04）：312-317.

[4]侯嘉璐.模式识别及其在图像处理中的应用研究[J].计算机产品与流通，2020（10）：42+139.

[5]李亚楠，王海晖，刘黎志.基于PBL模式的数字图像处理课程教学优化探讨[J].教育教学论坛，2020（36）：251-253.

[6]曹林根，宓超.集装箱箱号字符识别算法研究[J/OL].计算机工程与应用：1-11[2020-09-16].

[7]徐亮.复杂光照条件下含拖影仪表字符识别方法[D].武汉：湖北工业大学，2020.