基于UCI数据集的OCR光学字符识别

2022-12-22史素霞常婉秋宋志英

科技创新与应用 2022年35期

史素霞，常婉秋，宋志英

（1.河北政法职业学院建设工程与法务系，石家庄 050061；2.中国农业大学土地科学与技术学院，北京 100083；3.农业农村部农业灾害遥感重点实验室，北京 100083）

OCR字符识别是将影像数据提取出相应的字符信息，并翻译成计算机语言的过程[1]。实际上对于OCR文字识别的过程，首先是确定字符所在的矩形区域，通过记录矩阵区域的黑色像素数，对字符内容进行记录，通过记录矩形区域内黑色像素的平均和值，以及和的平均方差等统计信息，使得字符的识别具有唯一性，有利于更加准确地识别字符。计算机的发展对OCR光学字符的识别产生深远的影响。

1999—2004年，研究学者主要基于传统的统计方法对光学字符进行识别[2]，隐马尔柯夫模型（Hidden Markov Model，HMM）和支持向量机（Support Vector Machine，SVM）模型出现跳跃式发展，研究学者将人脸识别技术和字符识别技术进行交叉研究[3]。2005—2012年研究学者有了新的突破，将遗传算法应用于文本检测等字符识别方向[4]。Xiao等[5]将卷积神经网络（CNN）的运行成本进行优化，基于全局监督低秩展开方法（GSLRE）和自适应下降权重（ADW）进行字符识别，将计算成本降低了10%。

1 数据来源与预处理

1.1 UCI光学字符识别数据集

本次研究选用开源的UCI光学字符数据集，从UCI Machine Learning Repository中下载获得。UCI数据集是根据机器学习相关数据标准建立的测试性数据集，由加利福尼亚大学尔湾分校（University of California，Irvine）提出，用于深度学习和机器学习算法测试的一种数据库。本次实验选用UCI数据集，原因在于其数据格式的标准性，统一规范的数据格式有利于对数据进行处理和分析，数据源质量的提高有助于识别精度的提升。

UCI光学字符数据集中包含多个字母样本，每个样本包括16个变量。其中，将字符所在矩形区域的水平位置表示为x1、字符所在矩形区域的竖直位置表示为x2、矩形区域的宽度表示为x3、矩形区域的高度表示为x4、矩形区域的黑色像素数表示为x5、矩形区域内黑色像素的平均x值表示为x6、矩形区域内黑色像素的平均y值表示为x7、x平均方差表示为x8、y平均方差表示为x9、x和y的平均相关性表示为x10、x2y均值表示为x11、xy2均值表示为x12、从左到右的边缘数目表示为x13、x边缘与y的相关性表示为x14、从下到上的边缘数目表示为x15及y边缘与x的相关性表示为x16。

1.2 数据预处理

通过对数据的筛选可以发现UCI数据集中存在许多0值点，再结合对变量含义的理解，将变量x1—x14中的0值视为残缺值，通过平均值代替。对于变量x15和x16，这2个变量中的0值表示的是一种数据统一的理想情况，即这2个变量中可以存在0值，且有意义，因此不将其视为残缺值，但这2个变量中的最大值表示这组数据不稳定，通过平均值进行替换。

2 研究方法

2.1 主成分分析模型

主成分分析方法通过降维的思想[6]，将多个相关或不相关的指标化为垂直不相关的几个综合指标，即为模型的多元主成分。对于本次研究而言，此方法就是用主要的影响因素来分析图像数据集，以达到准确判断和识别每个字符的目的，具体模型建立过程如图1所示。

图1 主成分分析流程图

2.2 逐步回归模型

多元回归的逐步回归模型根据自变量x的显著程度，从大到小依次引入回归方程中，当之前引入的变量由于后面新引入的变量而变得不显著时，就要将之前那个剔除。基于本次的研究问题而言，这个过程要反复多次进行，直至没有显著的变量可以被引入时为止，模型因子的作用如图2所示。

图2 逐步回归因子图

在原始下载的UCI数据集中存在很多的混杂因子，不利于进行字符识别模型的建立，以及影响字符识别的精度。混杂因子对暴露因子会产生一定的影响，并且对最后的部分结局因子会产生直接或间接的作用，而逐步回归方程可以有效地剔除部分混杂因子，因此选用逐步回归的方法，逐层剔除混杂因子。

2.3 BP神经网络模型

BP神经网络不需要提前描述输入—输出之间的映射关系，而是建立一种基于误差分析训练的多层前馈网络，通过学习计算各节点之间传递的映射关系，存储大量的非线性网络模型[7]。

基于误差反向传播规律，将BP神经网络的特征函数Sigmoid表示为{f（x）=1/（1+e-bx），b＞0}，多层前向反馈型神经网络的结构如图3所示。

图3 BP神经网络基本结构图

本次研究将UCI数据集中70%的数据用于学习训练，训练集从输入层传入隐含层进而到达输出层，神经网络通过不断调整各层之间的函数关系，使得训练结果最接近真实的输出值，并记录这种映射关系，对剩余30%的字符数据集进行识别，从而得到识别的精度。经过一系列的处理，使得本次研究的BP神经网络具有很好的适应能力。

本次研究建立的BP神经网络的总误差E如公式（1）所示