APP下载

一种基于机器学习的经济数据识别方法

2018-06-28

关键词:矩形分类器投影

(泉州经贸职业技术学院 信息技术系,福建 泉州 362000)

0 引 言

随着人工智能与大数据的不断发展,对海量的数据进行实时识别与分析,并从中获取有效的信息已经成为计算机领域研究的热点课题。在日常的经济活动中,需要对外界的如计算机、触摸屏、经济管理系统等的LED显示信息或者经济报表,股票,基金数据进行有效的存储以及记录,该工作一直以来都是采用传统人工方式完成,由于经济数据量过大,时间紧迫,人员的工作存在任务繁重、效率低下等一系列问题,不可避免的造成一定的错误。因此,结合机器学习与人工智能算法,建立一套能够自动识别经济数字的智能系统是发展的必然趋势[1-2]。

笔者以某款股票分析软件为例,提出了一种基于机器学习的数字识别方法,很好地解决了上述存在的LED显示数据识别以及存储问题。

1 数字识别的总体方案

提出的识别算法是以数字图像为主体进行的研究,其总体识别算法流程如图1所示,主要包括数据采集、目标定位、特征提取、学习模型训练以及数字预测。

首先通过相机实时采集LED显示相应区域的图像,采用人工ROI的方式划分识别区域,其采集图如图2所示,每个矩形框为人工设置ROI的区域显示。

图1 经济数据识别方法的总体流程图

然后采用水平投影法定位数字区域与分割单个目标,对特殊的符号以及小数点采用其自身的几何特性定位到其位置,提取归一化后目标的投影特征分布,将其作为学习模型的输入特征。学习模型主要分为训练与预测两个阶段,训练阶段用于生成具体的数字判别模型,因为SVM是监督学习,因此要提前对样本空间对样本进行标记,然后对数字进行类别预测,最后用完成经济数据的识别。

2 图像前期处理

2.1 图像预处理

为了得到更加稳健的目标特征,图像的预处理环节是必不可少的,识别系统主要涉及的预处理技术包括灰度化、中值滤波、开运算以及门限阈值处理,主要作用分别如下[3-5]。

图2 经济数据的采集以及人工ROI设置分布图

(1)灰度特征相比其他特征,对外界环境的干扰具有更强鲁棒性,且相机采集的数字图像如图2所示,图像的质量也比较好,采用多特征策略会降低识别系统的实时性。

(2)在采集图像的过程中,不可避免地带来椒盐噪声,这样会影响整个图像的质量。中值滤波不仅可以保护图像的细节,而且可以较好地消除椒盐噪声,采用卷积核为3×3中值滤波对数字图像进行处理。

(3)开运算是形态学的一种操作机制,包含两步:先腐蚀再膨胀,腐蚀可以消除预处理留下的微小瑕疵,再采用膨胀结构元素对目标进行并集处理,填充或者连接微小目标引起空洞或毛刺,也采用3×3的矩形结构元素进行处理。

(4)由于数字采集图像的前后背景对比度较高,采用门限阈值对定位后的图像进行处理,以满足实际的分割要求,取阈值T=60。图3分别是图1人工设置定位“创业板”指数的ROI图,中值滤波后灰度化图以及开运算处理后的阈值化图,如下图(a)、(b)、(c)所示。

2.2 目标的定位

数字识别系统的目标定位主要是两种类型,分别为识别区域的定位以及单个目标的定位[6]。

(1)由于相机与LED屏幕的相对位置关系固定,根据成像原理,识别区域的定位可通过人工先验ROI的方式确定,这样不仅可以快速定位到待识别区域,而且大大降低了识别系统因为定位算法的时间消耗。

(2)数字定位主要是通过水平投影的方法来确定,其主要原理是计算图像的像素值在水方向的投影,其计算公式如式(1)所示,J为图像竖直方向的最大高度,h(i)为图像的水平投影函数。

(1)

由图3(c)可以发现,数字与符号之间的区域在水平投影的h(i)的值为0,根据该原理,可以将h(i)在水平方向变化对应的波谷处作为分割的目标位置。为方便显示,假设投影值不为0的位置h(i)分布值相同,图3(c)对应的h(i)的空间分布图4(a)为如下所示,图4(b)为每个分割后的目标用矩形来进行标识。

(3)小数点的定位是数值识别关键问题,一旦发生错误,将会造成巨大的经济损失,主要结合小数点自身的几何特性,通过目标的长宽比、圆度以及矩形度约束来定位小数点的位置。其具体的计算方式如式(2)所示。

Ga=h/w
Gc=4A/(π×(w2+h2))
Gr=A/(w×h)

(2)

h与w分别是目标最小外接矩形的长度与宽度,A为目标轮廓的面积,Gr是轮廓面积与最小外接矩形面积的比值作为矩形度的衡量,Gr是自身面积与最小外接矩形所对的外接圆的比值作为圆度的衡量。由于小数点的外接矩形独立于轮廓而存在,其具有很好地包络性质,因此使定位的算法更加鲁棒,图4(b)红色矩形为标识的小数点的定位位置。根据目标自身的特性,各个阈值的标准Ga、Gc、Gr分别为0.85,0.8以及0.9。

3 投影特征提取

由于分割后图像的尺度存在差异,因此造成了目标特征在维度上的差异,为解决该问题,采用双线性插值对分割目标进行归一化处理,考虑到图像的失真度以及特征提取的维度,具体做法是:将每个分割目标归一化为24×24的图像,利用上节得到的h(k)投影作为目标的特征。为方便区分,在此定义为x(k),k为特征向量维度的索引,因此每个目标都会形成一个维度为1×24的特征向量。

为了验证特征向量的表征能力,将图4(b)中的数字x(k)在二维空间表示出来,从左向右的特征分布图5图所示。不同的波形表示数字特征向量的分布,可以看到投影特征向量的分布可以很好地表现出不同目标之间的差异性,十分有利于后续分类器的分类。同时也使分类器的泛化能力得到提高,然后将每个目标得到的特征x(k)作为SVM分类器的输入。

图3 经济数据预处理效果图

图4 经济数字分割效果图

图5 目标投影特征的分布图

4 分类模型

支持向量机(SVM,Support Vector Machine)模型是基于结构风险最小化与 VC 维理论的统计学学习的一种线性分类器优化准则,其算法核心在于构造样本空间最优分类超平面,使得分类的样本之间具有最大的几何间隔[7-8]。设给出包含投影特征的训练样本(x1,y1),(x2,y2),…(xn,yn),n为训练样本的数量,由上节可知,xi∈[0,1),假设投影特征样本线性可分,的情形(不可分可以通过核函数处理),设分类的超平面为:

ωTx+b=0

(3)

经过推导可知,其满足的约束条件与等价方程为:

(4)

s.t.yi[(ωTxi+b)]≥1(i=1,2,…n)

然后引入拉格朗日乘子求导获取模型参数,得到的模型为:

(5)

为了进一步提高SVM的对样本的容错性,引入松弛变量C来量化训练中错误样本对分类面的影响,其目标函数为

(6)

由于SVM仅为二类分类器,对于多分类问题,采用多个SVM的1:M级联的方式构成学习模型,获得模型的局部最优解,强化模型的决策能力。

5 实验分析

(1)为了验证SVM学习模型在数字识别的优势,与基于树结构分类器RandomForest以及3层BP神经网络作了对比实验,主要是在数字识别算法的准确率与实时性上,各学习模型的性能表现如表1所示[9-10]。

表1 学习模型性能对比

从实验结果可以看出,RandomFores所耗费的算法时间最少,因为该分类器为二分类决策,同时准确率也最低,BP神经网络识别算法时间较长,识别准确率次于SVM,主要由于小样本的数据无法发挥神经网络的泛化能力,导致网络处于欠拟合状态。而SVM在小样本数据学习中有着比其他分类模型更好的性能,主要其采用样本中的极少的特征向量来确定分类面。基于以上分析,采用SVM作为数字识别的学习模型是较合理的。

(2)建立一套基于在线的实时数字检测系统,该检测系统根据提出的机器学习算法可以自动识别采集到LED经济数据并且可以实时识别显示,并且将识别的数据保存到数据库当中便于后续的分析,准确率达到100%,基本达到市场的需求,解决了一定的问题。

6 结 论

为实现经济数据报表自动识别的问题,提出了一种基于机器学习的数字识别方法,该算法单个数字的检测时间到达0.007s,环境较好的情况下,识别率到达100%,相对其它常规识别算法具有一定的优势。今后主要将研究对于复杂环境下或者遮挡的数字识别,构建更加稳定的局部目标识别算子,提高识别算法的性能。

参考文献:

[1] 董峻妃, 郑伯川, 杨泽静. 基于卷积神经网络的车牌字符识别[J]. 计算机应用, 2017, 37(7):2014-2018.

[2] 鹿琛, 王姗珊. 基于BP神经网络的车牌字符识别方法[J]. 山东农业大学学报(自然科学版), 2017, 48(1):113-116.

[3] 多化豫, 孙枭雄, 袁云梅. 基于图像处理提高木材识别准确性的新方法[J]. 西北林学院学报, 2017, 32(1):244-247.

[4] 叶敏, 周文晖, 顾伟康. 基于FPGA的实时图像滤波及边缘检测方法[J]. 传感技术学报, 2007, 20(3):623-627.

[5] 尹星云, 王峻. 基于改进的彩色图像形态学膨胀和腐蚀算子设计[J]. 计算机工程与应用, 2008, 44(14):172-174.

[6] 陈铁铮, 鲁港, 商维斌,等. 最小曲率法中水平投影长度的计算[J]. 石油地质与工程, 2007, 21(5):82-84.

[7] 程淑红, 刘洁, 朱丹丹. 基于计算机视觉与SVM的水质异常监测方法[J]. 光电工程, 2014,(5):28-33.

[8] 孙国栋, 杨林杰, 梅术正,等. 一种基于几何特征的列车集尘器形状匹配算法[J].中国机械工程, 2016, 27(2): 230-234.

[9] 高琰, 谷士文, 唐琎,等. 机器学习中谱聚类方法的研究[J]. 计算机科学, 2007, 34(2):201-203.

[10] 王涌天, 林精敦, 陈靖,等. 随机树特征匹配算子性能研究[J]. 北京理工大学学报, 2009, 29(11):988-993.

猜你喜欢

矩形分类器投影
解变分不等式的一种二次投影算法
矩形面积的特殊求法
基于最大相关熵的簇稀疏仿射投影算法
找投影
化归矩形证直角
找投影
基于差异性测度的遥感自适应分类器选择
从矩形内一点说起
基于实例的强分类器快速集成方法
基于层次化分类器的遥感图像飞机目标检测