基于KNN算法的OCR系统的设计

2019-05-31杨广韩震宇王云萍沈臻

山东工业技术 2019年15期

杨广　韩震宇　王云萍　沈臻

摘要：针对半导体芯片加工生产线，设计出一种基于KNN算法的OCR识别系统，满足了企业自动处理芯片加工批号信息的需求。本文主要介绍了系统通过相机外触发的方式获取原始图像，并进行图像中字符的识别，硬件部分由典型的机器视觉系统构成，主要包括工业相机、镜头、光源、传感器等。软件部分主要阐述了图像预处理模块与字符识别模块的实现，在进行字符识别前，图像预处理模块可以为字符识别提供良好的图像数据来源。经过现场实验表明，系统具有较高的可靠性与稳定性。

关键词：OCR系统；图像预处理；KNN算法

DOI：10.16640/j.cnki.37-1222/t.2019.15.146

1 前言

1.1 背景

OCR是指采用光学的方式，将纸质或图片文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术[1]，也就是将图像上的文字转化为计算机可编辑的文字内容。评价一个OCR系统的性能优劣的指标主要包括，识别准确率，识别速度，用户界面的友好性，识别的稳定性，易用性等，其中，识别的准确率是OCR系统最重要的指标。到20世纪90年代以后，随着我国信息自动化和办公自动化的普及，大大推动了OCR技术的进一步发展，随着对OCR技术的研究更为深入，OCR的识别率，识别速度等都已经逐渐可以满足广大用户的需求。

1.2 设计需求

针对某实际半导体的生产线，设计一套识别芯片料盒的OCR系统。整个生产线分为上料和下料两个工位，芯片料盒上标注着此次需要加工的芯片批号的索码号，在上料工位上，原有的方式是通过人工记录芯片料盒上的编号，并通过这个编号来找到芯片的批号，将批号上传至控制中心，告知当前正在加工的芯片批号。在下料工位人工再次上传芯片的批号，告知当前批号芯片加工完成。这种人工记录的方式无法满足企业的自动化要求，并且在人工记录，查询芯片批号，以及上传产品批号的过程中均容易出现错误，这样给企业的管理带来了一定的不便，严重影响生产的效率。

根据企业的需求，将人工记录改为计算机自动化处理，在上料工位通过OCR系统对索码号的自动识别，获取到索码号信息，并传递给企业内部数据库，通过企业提供的接口，自动获取到芯片批号，并通知终端控制室此芯片批号正在加工。在下料工位上，再次对芯片料盒进行一次识别，再次获取到索码号信息后，传递到数据库中，此时会将索码号与芯片批号解除绑定，表示这批芯片加工完成。

2 系统设计

2.1 系统的硬件设计

本系统的硬件部分包括工业相机，镜头，光源，光电传感器。通过相机对芯片料盒的字符拍照，经过字符识别算法处理，最终获得芯片的索码号。系统采用GigE接口的工业相机，LED的光源。芯片料盒用机械手放在生产线上，在机械手放置料盒的固定位置加装一个光电传感器，以此来触发相机进行拍照获取到图像，并最终通过软件识别出索码号信息。

2.2 系统软件的整体设计

整个软件系统运行在芯片加工的生产线上，需要与企业内部以及现场硬件（主要包括相机，传感器）进行交互，最终通过字符识别后，完成系统的功能，实现系统整体的协调运行。

系统的主要功能就是通过相机对芯片料盒进行拍照，通过软件处理之后，获得芯片生产批号的索码号，并传递给企业内部的数据库。整个系统主要的开发平台为vs2010+openCV库，系统的流程图如图1所示：

2.3 系统中重要模块的实现

系统的重要模块包括图像预处理模块和字符识别模块。

在软件部分的处理中，原始输入数据为通过工业相机拍到的图片，由于系统的运行环境是在生产现场，所以对于获得的图片会有各种各样的噪声影响，所以在进行正式地识别之前，必须要进行图像的预处理，以消除在识别前的噪声干扰，提高识别的准确率以及系统的稳定性。系统的最核心部分就是字符识别的算法，这是成功获得芯片批号的前提，所以对于料盒索码号的准确识别是关键。接下来将对这两个模块分别进行介绍。

2.3.1 图像预处理模块设计

在图像处理中，图像的质量直接影响后续图像的分析，它的主要目的就是消除图像中无关的信息，恢复其有用的真实信息，增强有关信息的可检测性，在最大程度上简化数据，从而提高特征提取，匹配以及识别的可靠性。工业现场的光线变化、噪声等干扰会给字符识别造成较大的影响。为了有效地保证字符的识别率、识别系统的可靠性和稳定性，字符識别的预处理部分就显得至关重要[2]。

系统的原输入图像见图2。

在图像预处理中，首先需要在相机拍到的图片中提取出字符所在的区域，即是进行图像处理的ROI区域的选取，同时我们为了减少图像处理的数据量，对ROI区域图像进行灰度化。得到灰度图像之后，为了方便对字符特征的提取，需要将区域内的字符图像统一到相等的大小，即进行图像的归一化操作。此时得到的图像如图3所示：

平滑处理是一种简单且使用频率很高的图像处理方法，消除图像中的噪声成分叫作图像的平滑化或滤波操作。均值滤波，是最简单的一种滤波操作，输出图像的每一个像素是核窗口内输入图像对应像素的平均值[3]。图像经过均值滤波后的图像如图4所示：

图像的阈值操作是最简单的图像分割，对图像进行二值化后，可以进一步降低数据的计算量，增加识别的效率。通过调用openCV里阈值操作函数对其进行二值化，由于图像受到光照强度，阴影等因素的影响，其中二值化的阈值参数的确定需要通过现场试验获得，二值化后的图像如图5所示：

通过均值滤波之后的二值图像，还存在着一定的离散的干扰点，为了准确地识别出字符，需要先去除这些孤立干扰点的影响。

在形态学操作中，腐蚀可以将图像中面积较小的区域消除，而膨胀可以连接间距较小的区域，在膨胀和腐蚀后，目标区域的面积变化比较大。为了让目标区域的面积变化较小，定义了开运算和闭运算。开运算是用形态学运算的内核对图像进行腐蚀后，再用相同的内核对图像进行膨胀。闭运算是用形态学运算的内核对图像进行膨胀后，再用相同的内核对图像进行腐蚀。开运算的作用与腐蚀的作用类似，闭运算的作用与膨胀类似。

运用开运算对干扰点区域进行处理的效果图如图6所示，从图中可以看出，运用开运算可以较好地去除孤立的干扰点。

综上，图像预处理步骤如下：（1）提取ROI区域；（2）灰度化，归一化；（3）均值滤波；（4）二值化；（5）开运算。

2.3.2 KNN算法

KNN算法，即KNN近邻分类法，是一种基本的分类和回归方法。这个算法通过先存储训练样本，然后通过分析新输入的样本周围K最近邻从而给出该样本所属的类别，所以这种算法就是基于样本的学习算法。核心思路就是，输入一个样本，从训练样本中找出K个与其最相近的样本，然后计算这些样本中相应类别的数量，数量最多的类别就定为该样本的类别。

K近邻分类法的具体实现过程如下：（1）计算已知类别数据集中每个样本与当前输入样本的距离。（2）统计与当前输入样本距离最近的K个点。（3）统计这K个点中每个样本出现的频率。（4）选取出现频率最高的样本类别返回作为当前输入样本的类别。

2.3.3 字符识别关键模块设计

在字符的识别过程中，先输入在图像预处理阶段已经生成的图像，然后利用openCV中提供的findContours函数寻找出整张图的轮廓数据，由于还可能存在图像非识别区域轮廓的干扰，所以应该对其孤立干扰区域轮廓进行去除，经过分析可以得到，要识别的字符所具有的轮廓相对于孤立干扰区域的轮廓面积大很多，所以可以设置出一个轮廓面积临界值来滤除掉干扰区域。

由于在实际地识别中，并不是对单个字符的识别，而是一行字符的识别，所以在识别之前，要先对一行字符进行相应的分割，变成一个一个字符，然后再对一个一个字符进行识别。对字符的单个分割可以采用对轮廓的外接矩形来实现。用轮廓的外接矩形来将字符分割开，并对其进行分别识别。

对于KNN算法的实现主要借助openCV提供的Knearest类，先输入训练样本进行学习，分别生成相应的训练样本数据文件与标签数据文件，通过train函数将训练样本数据与标签数据建立对应关系，再通过find_nearest函数输入需要识别的样本，通过寻找K近邻的方法确定当前输入样本的类别，即为输出结果。识别结果如图7所示，其中上料盒信息即为芯片的索码号。

3 实验结果及分析

系统设计完成后，通过在生产现场搭建好硬件环境，调试运行本系统。调试时，需要先对其需要识别的字符进行样本的学习，生成相应的KNN算法需要的训练文件，其格式为XML。同时，由于环境的影响，需要预先将图像处理中二值化的阈值作为系统参数传入，直接運行系统，识别可靠性与稳定性很好，对于识别有误差的字符，需要再次扩大样本学习的容量，实验证明，可以准确识别。

4 结束语

系统基于KNN算法，设计出了针对工业现场的OCR系统，经过现场实验，系统的识别结果准确，运行稳定，为生产过程中的管理控制，以及自动化提供了可靠的解决方案。

参考文献：

[1]肖坚.基于学习的OCR字符识别[J].计算机时代，2018，13（07）：48-49.

[2]李杜，白瑞林，高保平，温振市.工业字符识别中实用的预处理技术[J].江南大学学报（自然科学版），2011，10（01）：16-17.

[3]毛星云，冷雪飞等.openCV3编程入门[M].北京：电子工业出版社，2015：154-157.

作者简介：杨广（1995-），男，四川达州人，硕士研究生在读，主要从事测量与控制方向的研究。

山东工业技术

2019年15期

基于KNN算法的OCR系统的设计

杂志排行

山东工业技术的其它文章