模糊识别理论在光谱数据中的应用
2016-11-02赵广宇赵鹏飞高斌卢昱欣
赵广宇,赵鹏飞,高斌,卢昱欣
(长春理工大学理学院,长春 130022)
模糊识别理论在光谱数据中的应用
赵广宇,赵鹏飞,高斌,卢昱欣
(长春理工大学理学院,长春130022)
基于模糊模式识别理论,探析模糊模式识别方法在血液光谱数据识别中的应用,实现了对动物血液荧光光谱的特征提取与分类识别。在实验中,本文依据待处理样品光谱本身具有的模糊特性,运用模糊模式识别方法对光谱数据进行处理,并结合Matlab程序设计了分类效果较好的模糊分类器。实验结果表明,模糊识别方法在光谱数据中具有较强的识别能力,在光谱数据中具有较好的检测前景。
模糊识别;分类;光谱
识别作为人类最基本也是最本能的活动之一,时时刻刻发生在我们的身边。然而随着科技的进步,为了适应当今社会,人们迫切希望利用机器代替人们完成复杂的识别工作。模糊识别的出现给了人们提供了研究方向,现在模式识别不仅在人工智能研究领域中占有重要比重,同时也是实现机器智能必不可少的技术手段[1]。在人们解决实际问题具有指导意义和应用价值[2]。近年来,随着光谱技术的快速发展,加快了对生命科学的应用,促进了医学等学科的发展,相应的光谱识别技术也越来越受到人们的重视[3-5]。如:通过主成分分析和模糊聚类对光谱的样本聚类识别方法[6]、自适应最小距离算法[7]等分类识别方法。本文选取较为熟悉的四种动物血液,结合Zadah[8]在1965年提出模糊集理论对其光谱进行研究与分析,重点探析模糊识别方法在血液光谱数据识别中的应用。随着理论的发展和完善,模式识别必将发挥更大的作用。
1 实验
1.1实验仪器
光谱仪的参数为:仪器(Cary Eclipse)、仪器序列号(MY13450002),采样类型(荧光)、扫描模式(发射)、激发波长(200nm)、激发狭缝(5nm)、发射狭缝(10mm)、扫描速度(600.00nm/min)。
1.2实验的内容
(1)对不同样品全血光谱进行分析处理;
(2)运用模糊模式识别方法对光谱进行分类识别;
(3)建立识别效果较好的分类器,并应用Matlab完成光谱分类识别的计算机程序设计。
1.3数据的预处理
光谱仪上测量到的光谱数据不仅包含有用信号,还包含噪声,其表现为光谱图上的毛刺,且具有高频特征,如图1所示,这些毛刺的存在,不利于特征提取,因此需要消除这些毛刺对特征的影响,在这里我们采用数据平滑方法对原始光谱进行处理[9]。常用的数据平滑方法有快速傅里叶变换、小波变换去噪和邻域平均值法。
邻域平均值法不仅在算法上易实现,而且,邻域平均值法可以快速平滑图像,且能有效地消除噪声对图像的干扰程度[10],因而,在本次实验中我们采用了邻域平均值法对动物血液光谱数据进行平滑处理。
邻域平均值法就是通过选取固定的点数,将各点的纵坐标值相加求和再除以点数,得到这组数剧的平均纵坐标值。然后,去掉这组数据中左端一个点,向前移动一个采样点,重复上述操作,得到下一个值。如此反复,就可以得到整个曲线的平滑后的数据,其数学表达式为:
其中,k=m+1,m+2,…,n-m;2m+1为平滑窗口宽度,即2m+1点移动平均。
例如,当m=1时,为三点移动平均。
在这里,yk-j是不同点的数据值;Yk为以k点为中心的2m+1个数的平均值。对于光谱平滑处理,光谱两端的数据没有可用信息,对平滑结果也没有影响,故可不做端点处理。
下图为由光谱仪采集的四种动物全血1%浓度的波长和强度的光谱数据,结合matlab软件所做出的原始数据光谱图像。
图1 原始数据光谱图像
从图中可以分析出理想白噪声的平滑处理效果,随m的增大而大大改善。但随着m增大时,信号波形会受平滑处理的影响而产生偏移。所以说m取值并不是越大越好,尽管在那时谱线越趋光滑,但谱线的细微特征也将会平滑掉,造成光谱谱线形状畸变,所以需要选择合适的m值。实验表明,对血液光谱进行五点一次平滑即可得到较好的平滑效果,如图2所示。因此,在实际处理中对光谱进行了五点一次平滑。
图2 平滑处理后光谱图像
1.4特征提取与选择
在模式识别中,特征提取与选择是模式识别的关键。在特征空间中如果同类模式分布比较聚集,不同类模式分布疏远,分类识别就比较容易,正确率较高。在模式识别中,人们希望依据最少的特征达到所要求的分类识别的正确率。这就是特征提取与选择的任务。首先要制定特征提取与选择的准则,可直接反映类内间距离的函数作为准则,或直接以误判概率最小作为准则,也类别判决函数作为准则,还可以构造与误判概率有关的判据来刻画特征对分类识别的贡献或有效性.
常用的特征提取途径有如下两种:
(1)实际用于分类识别的特征数目d给定后,直接从已获得的n个原始特征中选取d个特征x1,x2,...,xd,使可分性判据的值满足下式:
其中J(xi1,xi2,...,xid)是原始特征的任意d个特征,即直接选取n维特征空间中的d维子空间。这类方法被称为直接选择法[11]。
(2)在使判据J取最大的目标下,对n个原始特征进行降维变换,再取子空间。这类方法称为变换法,主要有:基于可分性判据的特征提取选择,基于误判概率的特征提取选择,离散K-L变换法,基于决策界的特征提取选择等方法。
对血液光谱特征的提取与选择,采用了直接选择法。图2为预处理后四类样品血液光谱曲线。谱线在487nm,605nm,747nm附近有明显的波峰,且不同样品的峰值有所不同,故提取此三处附近的波峰进行分析处理。
经分析,四种样品光谱曲线在487nm,605nm,747nm附近的波峰有明显的区别,取每类样品的前三十组,再对各特征参数作散点图,如图3、4、5所示。
图3 峰值比特征散点
图4 仰角特征散点图
图5 峰值斜率特征散点图
1.5分类器的设计
1.5.1分类器设计的原理
模糊模式识别方法是通过建立隶属函数,来实现特征量的操作和变换,模仿人脑判别不确定性事物的机理,充分利用冗余信息,有效处理各种不确定性信息,提高识别系统的可靠性和智能程度[12]。
这里采用模糊模式识别的方法对血液荧光光谱进行分类识别,基于最大隶属度原则设计动物血液光谱分类器。随机选取ni()i=1,2,...,c个样本作为训练样本集,c表示样本种类数,并根据所提取的特征,计算每类的聚类中心νi。
νi的计算公式如下:
由每个种类样本的聚类中心,即可得到一种分类模式。
1.5.2分类隶属函数的确立
在模糊识别技术中,隶属函数的优良决定了分类器的性能好坏,因此通过某一种方法建立隶属函数,对识别的效果起着决定性的因素。而常用的方法有专家确定法、统计法、综合加权法等。本文依据待分类样本的特征点到聚类模式中心的距离确定隶属函数。
隶属函数的数学表达式如下:
其他
表1 隶属度
2 结果与讨论
2.1分类确定
最大隶属度原则:预设分类判定阈值λ=0.7,若待分类样本的隶属度函数φ)〉λ,则对该样本进行分类识别,且将样本归为φ)值最大的那一类.每次识别完成后将识别类加入训练样本集,并重新计算聚类中心,从而形成新的分类模式。
利用上面设计的分类器,取每类样本的前三十个样本作为训练样本集,得到如下四个聚类中心:(0.7123,0.1643),(0.6068,0.2209),(0.3078,0.1102),(1.0046,0.3651),取每类样本的后十个样本作为识别样本,得到每个样本对各类的隶属度如表1所示(其中1-10为羊、11-20为鼠、21-30为鸡、31-40为鸽)
2.2本文识别结果
由以上数据可得,分类器对四种样品全血光谱数据的分类正确识别率如表2所示。
表2 识别正确率
可知,基于模糊模式识别方法,通过以上设计的模糊模式分类器及隶属函数,对动物血液发射光谱的识别达到了令人满意的效果。根据本次的实验结果,我们可以明确地得到模糊模式识别方法在光谱识别上有较好的应用前景。
3 结论
本文重点探析了模糊模式识别理论及其在光谱数据中的应用。由于客观事物在形态及类属方面的不分明性,使得彼此之间没有明确的分界线。因此,对于本身具有模糊性的事物,采用模糊识别的方法进行分类识别更加符合现实。文中对动物血液发射光谱进行了分析处理,运用模糊模式识别的方法对光谱数据进行了分类识别,从完成情况可以分析出我们得到的是一个识别正确率较好的分类器,有一个较为满意的结果,从而丰富了模糊模式识别的应用范围。
目前所做的各种光谱识别方法都是针对某一种特定光谱,没有可以运用的较为统一的方法和理论,应用面很狭小,有很大的局限性,因此找到适应性更好的光谱识别技术也是我们努力的方向。
[1]孙即祥.现代模式识别[M].长沙:国防科技大学出版社,2002.
[2]Duda.R.O,Hart.P.E.Pattern classification and scene analysis[J].Journal of the RoyalStatistical Society,1973,6(4):312-345.
[3]M.Gniadecka,H.C.Wulf and N.Nymark Mortensenetal.Diagnosisofbasalcellcarcinomabyraman spectroscopy[J].JournalofRamanSpectroscopy,1997,28(2):125-129.
[4]Roel J.Erckens,Massoud Motamedi,Wayne F.March. Raman Spectroscopy for non-invasive characterization of ocular tissue:potential for detection of bio-logicalmolecules[J].Journal of Raman Spectroscopy,1997,28(3):293-299.
[5]丁小平,孟超,王建林.人血清吸收光谱的研究[J].光谱学与光谱分析,1999,19(2):225-226.
[6]褚小立,袁洪福,陆婉珍.光谱结合主成分分析和模糊聚类方法的样品聚类与识别[J].分析化学,2000,28(4):421-427.
[7]朱建华,刘政凯,俞能海.一种多光谱遥感图象的自适应最小距离分类方法[J].中国图象图形学报,2000,5(1):21-24.
[8]Zadeh LA.Fuzzy sets[J].Information control,1965,5(8):338-353.
[9]孙长森,林钧岫.谱数据峰值的一种实时平滑算法[J].数据采集与处理,1996,25(2):157-159.
[10]孙苗钟.基于MATLAB的振动信号平滑处理方法[J].电子测量技术,2007(6):55-57.
[11]罗磊.基于模糊模式识别的光谱分类研究[D].郑州大学,2006.
[12]刘普寅,吴孟达.模糊理论及其应用[M].长沙:国防科技大学出版社,1998.
Fuzzy Recognition Theory in the Spectral Data
ZHAO Guangyu,ZHAO Pengfei,GAO Bin,LU Yuxin
(School of Science,Changhun University of Science and Technology,Changchun 130022)
Based on the theories of fuzzy pattern recognition,this paper analyzes the application of the fuzzy pattern recognition method in blood spectrum data identification,achieves the extraction and classification of animal blood characteristic fluorescence spectrum.In this trial,we use fuzzy pattern recognition method to deal with sample spectrum on the basis of the fuzzy characteristics of the sample spectrum itself,and design fuzzy classifiers combined with Matlab programming which can reach an ideal classification effect.The results show that the fuzzy recognition method has a higher identification ability to the spectral data and good prospects in the detection of spectral data.
fuzzy recognition;classification;spectrum
O657.3
A
1672-9870(2016)04-0138-05
2016-03-25
国家自然科学基金(11326078)
赵广宇(1980-),男,硕士,讲师,E-mail:zgywshzyz@126.com