APP下载

融合PCA与混沌自适应遗传算法的图像识别

2019-06-06曹晓杰王文强于德鑫

软件导刊 2019年3期
关键词:主成分分析

曹晓杰 王文强 于德鑫

摘 要:针对图像特征识别转为特征选择优化的问题,提出主成分分析与混沌自适应遗传算法结合的图像目标识别算法。首先通过PCA将图像特征线性组合转变为低维空间几个综合变量;同时改进遗传算法,利用混沌Tent模型生成均匀分布的初始种群、种群交叉及变异概率与种群适应度结合自适应变化,利用类内类间距与特征相关性重新构造适应度函数,采用精英保留策略进行子代选择,得到最优特征子集;最后利用概率神经网络与支持向量机分类器进行训练,识别测试图像。仿真实验表明,PCA与混沌自适应遗传算法结合能降低特征空间维数,使识别性能得到较好提升。

关键词:图像特征识别;主成分分析;混沌自适应遗传;类内类间距;精英保留

DOI:10. 11907/rjdk. 181875

中图分类号:TP317.4文献标识码:A文章编号:1672-7800(2019)003-0191-05

0 引言

随着模式识别与人工智能的快速发展,图像识别作为其分支也得到了长足发展,在工业生产、医学、军事、计算机方向的应用越来越多。在实际应用中,人工操作应用识别技术并不能使其发挥应有作用,所以识别技术与人工智能结合愈加紧密。当前,图像识别结合人工智能的常用算法包括遗传算法[1] 、粒子群优化算法[2]等,以及先进的数学工具, 如小波分析[3]、模糊数学[4]等,在实际应用中已得到较好发展,智能识别正向更高效、更精确的方向迈进、向更宽广领域开拓。

主成分分析(PCA)属于一种简单的特征选择方法,在图像利用特征识别领域广受关注。PCA基本原理是在数据间进行K-L去相关变换,利用新生成的成分代替原数据信息,同时新成分之间互不相关,去除原数据错误干扰、冗余信息。但PCA特征向量并不是最有利于分类的,文献[5]提出核主成分分析是PCA算法的一种非线性处理改进,文献[6]提出一种主成分分析和遗传算法相结合的特征识别方法。利用遗传算法进行特征选择,但是遗传算法在求解问题时易陷入局部最优、收敛等缺点。目前针对上述问题已有许多改进方法,如文献[7]提出的利用互信息与遗传算法结合,文献[8]-[10]利用混沌模型改进遗传算法,该算法利用Logistic映射生成初始种群,但并不能维持种群多样性。

本文提出一种PCA与改进遗传算法相结合的新算法。该算法先利用主成分分析对组合的特征数据进行分析,去除冗余信息,映射为少数几个综合特征;然后利用Tent序列的遍历性生成初始群体,使其均匀分布在可行解域,为避免算法运行陷入局部收敛、提升寻优速度,考虑到标准遗传算法交叉和变异概率采取固定值,不利于种群多样性且影响搜索速度,因此本文采用随算法运行、依据适应度值自适应变化的交叉与变异概率确保种群多样性,提升寻优效率和识别率;最后依据新算法选出的特征数据,利用支持向量机与概率神经网络进行训练识别,验证算法性能。

1 图像预处理与特征生成

进行图像目标识别时,首先对图像进行预处理。将图像二维数字化灰度图像转变为二维平面上像素点的分布,每个像素点的灰度值为f(x,y)。对图像处理具体步骤如下:①将图像进行归一化,使大小相同;②利用直方图均衡化,使图像显示更多细节;③对图像进行边缘检测,显示图像边线;④利用二值化算法锐化图像;⑤对图像进行中值滤波处理;⑥将得到的灰度图转为二进制图像;⑦根据 Hu[11]提出的利用二阶与三阶中心矩构造7个不变矩公式,计算图像的Hu不变矩。

Reiss & Flusser分别独立提出具有尺度、平移和旋转变化的3个仿射不变矩[12]。两种矩特征因为计算方式、量纲不同,不能直接组合在一起,需要进行归一化,本文所利用的min-max归一化公式为:

2 主成分分析(PCA)

主成分分析(PCA) 是一种以K-L变换[13]为基础的统计分析方法, 该方法基本思路是对高维数据集的各维进行相关计算,转变为低维数据集。将原始数据信息通过PCA转换,生成新的低维主成分,组成新的特征空间。新特征空间的特征名为主成分,各主成分之间互不相关,且根据对应的贡献率降序排列。

主成分分析是利用映射,将高维特征转变到由几个低维综合特征组成的空间 [14],具体操作如下:

3 改进遗传算法

标准遗传算法处理问题需要条件较少,且在對待非线性问题时,有较好的优化性、并行性等优点,因此得到广泛应用。算法优化过程中较容易陷入局部极值解,得不到最好的结果,且易发生“早熟状况”。本文针对标准遗传算法进行改进。

3.1 改进初始群体的产生过程

标准遗传算法初始群体都是利用计算机的伪随机自动生成,并不能保证初始群体的多样性。前人已对初始群体的产生进行改进,其中利用混沌变量的随机性、遍历性、规律性等特点解决非线性问题的混沌优化方法已发展成熟。许多学者利用遗传算法过程的混沌模型优化初始种群,以提高算法性能。

还有许多学者利用Logistic映射混沌系统产生初始群体,但是Logistic混沌序列的分布并不是均匀的,不利于实现搜索最优。

Logistic混沌映射与Skew Tent混沌映射[15]的模型公式如下所示。

为验证Skew Tent模型比Logistic模型分布更均匀,更符合生成遗传的初始种群,给定一个初始值,分别经过两个模型迭代10 000次,得到生成的数据遍历分布如图1、图2所示。

Logistic混沌映射与 Skew Tent映射结果统计对比如图3、图4所示。

从图中可以看出,Logistic模型映射结果多在0~1两端,出现在中间数值次数都较低,分布出现两端极化,最多与最少次数相差较大,出现山谷状;而Skew Tent结果分布比较均匀,最多与最少次数相差不大,总体比较平滑。所以本文利用Skew Tent分布均匀、遍历的特性,在解空间中映射出二进制编码形成初始群体,克服随机产生的不均匀,提升搜索性能。具体产生步骤包括:根据待处理数据的维数L,先形成L个不同但相差不大的起始值,对于Tent混沌模型方程,根据要形成的初始种群规模大小M,经过方程迭代M代产生相应的混沌变量,形成M×L。

各元素经过二值方式处理,公式如下:

即可得到长度为L的M个二进制串组成的初始种群 ,每个二进制串代表一个可行域内的个体。

3.2 自适应交叉变异概率

标准遗传算法(GA)采用固定交叉、变异概率,虽在算法运行过程中起到一定作用,但也带来一定副作用。交叉概率较大时,使算法搜索能力提高,但也会对有利的交叉项产生破环;交叉概率较低时,算法搜索不易起作用。变异操作主要为了保证多样性,较大的变异概率可能使算法易产生优解[16],可能使算法变成纯粹的随机搜索,交叉概率较低时,能减小群体重要基因流失,也可能无法得到优解,无法发挥作用。综上所述,本文采用交叉、变异概率随个体适应度值自适应变化,利用个体适应度,与当代平均适应度,结合最优解得出个体的交叉变异概率,克服早熟,使优解能够留下,且不陷入局部极值解。如式(6)所示。

3.3 适应度函数

适应度指群体中单个个体适应环境的能力,遗传算法以此评定个体优劣。遗传算法运行过程基本不利用外部信息,仅以适应度评判[17]。适应度函数的设计影响算法能力,因此对于识别分类问题,需要寻求相关适应度函数构造法。

类内间距离准则用于评价特征对同类样本的聚散[18]。同类样本间距离之和越小,最大距离越小,聚集越紧密(类内距离越小越便于区分),说明特征对同类样本的聚合能力越强。不同类样本位于特征结构空间的不同范围,距离越大则不同类样本区分度越大,因此类间距离越大越便于分类。因需要将个体进行分类,且个体之间也存在差异,所以相应选择类内距离、类间距离结合特征向量相似度构造适应度函数。

3.4 精英保留策略

该策略基本思想是:适应度最好的个体尽量存储到子代群体。具体步骤如下:

步骤一:记录当前群体中适应度值最大、最小的个体。

步骤二:得到群体最好的个体,如果大于前群体中最大个体适应度值,则用前者代替后者。

步骤三:将当前适应度值最小的个体用目前为止适应度值最大的个体替换。

该策略能保证最优个体不被破坏,并且能完整遗传到子代中,这是遗传算法一个很重要的收敛条件[19]。

混沌自适应遗传算法特征选择的流程如图5所示。

4 图像目标识别具体步骤

在图像目标识别中,对于图像信息的采集多数是多特征、加噪声、非线性的数据集合,所以特征的选择优化非常重要,在利用采集到的信息时,需要对特征中的噪声、冗余信息或不相关特征进行分析筛选。本文从特征选择出发,利用PCA与混沌自适应遗传算法相结合应用到图像目标识别,利用选择后的最优解,选取组合出新的特征空间结构,具体步骤如下:

步骤一:对图像进行预处理。

步骤二:根据Hu不变矩与仿射不变矩公式计算每幅图像的特征,组成特征空间以表示图像信息。

步骤三:利用PCA对表示图像的数据集进行特征处理,将求得的特征值由大到小排序,特征值对应特征向量,组成新的特征空间。

步骤四:应用SKew Tent混沌模型生成遗传算法初始群体。

步骤五:根据公式计算个体适应度值。

步骤六:进行轮盘赌选择、自适应交叉变异运算。

步骤七:对群体个体进行精英保留。

步骤八:根据终止条件判断算法是否满足,若满足,则停止;若不满足,循环到步骤六,继续运行。

步骤九:利用新算法得出最优解,在图像数据集中选取相应的特征,组成新的数据特征空间。利用得到的数据集,采用概率神经网络[20]与支持向量机[21]两种分类器进行图像目标识别分类。

5 实验结果与分析

本文采用150幅飞机目标图像和50幅小型汽车目标图像,组合成300幅图像作为试样样本。先对图像进行预处理,根据步骤二得到图像的特征空间。根据实验要求选取飞机图像100幅、汽车图像100幅组成训练样本集,剩余100幅组合生成测试样本集。

样本示例如图6、图7所示,矩特征如表1所示。

本文分别选取300幅图像Hu不变矩特征数据、仿射不变矩特征数据、Hu矩与仿射不变矩的组合特征数据,标准遗传算法选择组合数据得到的新特征集、PCA处理后的特征集、PCA與标准遗传选择后的特征集及本文新算法选择的特征集,其特征集维数如表3所示。

对于各部分取得的特征矩进行整理,利用概率神经网络与支持向量机作为分类器,对特征数据进行训练测试,结果如图8、图9所示。

从上述实验结果可以看出,相对于使用单一类的特征矩,组合特征矩代表更丰富的目标信息,识别率也有提高;相对于以单一特征表示图像信息,发现多种特征组合可以包含图像更多信息,但特征维数较大;使用单一的PCA与标准遗传算法及PCA结合标准遗传算法处理能有效降低特征维数,但识别率提高不大;而通过本文PCA与混沌自适应遗传结合处理,不但能有效降低特征维数,降低识别过程运算量,且能够提高识别准确率。

6 结语

本文将PCA与混沌自适应遗传算法结合,应用于图像识别特征选择过程,相较于单一的PCA算法与单一的遗传算法,本文算法在特征选择方面有较大优势,可减少选取的特征维数,相对提高识别过程的运算速度,且实验测试结果证明图像目标的识别正确率有所提高。

本文算法虽已取得较好效果,为了将其更好地应用到实际中,还需要更高的准确率,所以未来将在图像预处理阶段寻求新的处理方法,使图像目标更加明显,使提取的特征更加准确、全面。另外,本文算法分类器仅应用了简单的神经网络,后续需要研究神经网络优化,以便进一步提高识别正确率。

参考文献:

[1] BHARDWAJ A,TIWARI A,BHARDWAJ H. A genetically optimized neural net-work model for multi-class classification[J]. Expert Systems with Applications,2016,60(10):211-221.

[2] BUI K T T, BUI D T,ZOU J G,et al. A novel hybrid artificial intelligent approach based on neural fuzzy inference model and particles warm optimization for horizontal displacement modeling of hydropower dam [J]. Neural Compution & Applications,2018,29 (12):1495-1506.

[3] SU H Z,LI X,YANG B B,et al. Eavelet?support vector machine- based prediction model of dam deformation[J]. Mechanical Systems and Signal Processing, 2018,110:412-427.

[4] WEI G W,ALSAADI F E,HAYAT T,et al. A linear assignment method for multiple criteria decision analysis with hesitant fuzzy sets based on fuzzy measure[J]. International Journal of Fuzzy Systems,2017,19 (3):607-614.

[5]魏弦. 基于核主成分分析的熱误差模型自变量优化[J]. 电子测量与仪器学报,2017,31(12):2017-2022.

[6] 苑玮琦,于清澄. 一种基于改进主成分分析的人脸识别方法[J]. 激光与红外,2007(5):478-480.

[7] 涂昌慧,葛红,胡天亮. 基于遗传算法和互信息公式结合的特征选择[J]. 华南师范大学学报:自然科学版,2014,46(6):28-32.

[8] 申情,蒋云良,沈张果,等. 基于组合混沌遗传算法的最小测试用例集生成[J]. 电信科学,2016,32(6):93-102.

[9] 方仕勇,邹恩,辛建涛,等. 新型混沌遗传算法在多约束QoS路由的应用[J]. 计算机应用研究,2012,29(8):3078-3080.

[10] 王世玮,张迪,魏明磊, 等. 基于混沌多目标遗传算法的分布式电源规划[J]. 宁夏电力,2017(2):1-6+14.

[11] 崔彦平,葛杏卫. 复杂背景下回转体目标识别方法研究[J]. 半导体光电,2010,31(6):931-935+940.

[12] 杨红梅,刘志刚,韩志伟,等. 基于仿射不变矩的电气化铁路绝缘子片间夹杂异物检测[J]. 铁道学报,2013,35(4):30-36.

[13] 宣国荣,郑俊翔,杨程云,等. 巴氏距离和K-L变换结合的特征选择[J]. 计算机工程与应用,2004(36):90-92.

[14] 唐莉,张永波,祝雪萍,等. 基于主成分分析法与量变质变判别模式的汛期分期[J]. 水力发电,2018(5):27-31.

[15] 李雪岩,李雪梅,李学伟,等. 基于混沌映射的元胞遗传算法[J]. 模式识别与人工智能,2015,28(1):42-49.

[16] 张大科,钱谦. 一种新型自适应遗传算法在多峰函数优化中的应用[J/OL]. 软件导刊:1-4 [2018-06-01].  http://kns.cnki.net/kcms/detail/42. 1671.TP.20180529.1755.010.html.

[17] 金芬,孙春华,钟鸣. 遗传算法中适应度函数的改进[J]. 机械设计与制造,2010(3):218-219.

[18] 周爽,张钧萍,苏宝库. 基于最速上升算法的超光谱图像波段选择搜索算法[J]. 计算机应用研究,2008(11):3501-3503.

[19] 孙明华,崔海涛,温卫东. 基于精英保留遗传算法的连续结构多约束拓扑优化[J]. 航空动力学报,2006(4):732-737.

[20] 贺静,徐成武,任密林. 基于概率神经网络的IPv6入侵检测技术研究[J]. 太原理工大学学报,2017,48(6):969-972+983.

[21] 刘方园,王水花,张煜东. 支持向量机模型与应用综述[J]. 计算机系统应用,2018,27(4):1-9.

(责任编辑:江 艳)

猜你喜欢

主成分分析
Categorizing Compiler Error Messages with Principal Component Analysis
关于AI上市公司发展水平评价
基于NAR模型的上海市房产税规模预测
主成分分析法在大学英语写作评价中的应用
江苏省客源市场影响因素研究
SPSS在环境地球化学中的应用