基于分形维数差模法的荧光光谱识别
2016-12-01樊迪王乐新杨蔚然谭可丽邱润泽
樊迪,王乐新,杨蔚然,谭可丽,邱润泽
(1.黑龙江八一农垦大学信息技术学院,大庆163319;2.黑龙江八一农垦大学理学院)
N
基于分形维数差模法的荧光光谱识别
樊迪1,王乐新2,杨蔚然1,谭可丽1,邱润泽1
(1.黑龙江八一农垦大学信息技术学院,大庆163319;2.黑龙江八一农垦大学理学院)
提出一种基于分形理论的光谱分形特征识别光谱曲线的分析方法,选取50个待测血清样品,分别测量血清样品在波长为260、290、350和580 nm激发光下产生的荧光光谱。应用分形理论计算光谱曲线的分形维数,利用分形维数的差模识别不同血清(正常、高甘油三脂、高胆固醇、高血糖)的荧光光谱。结果表明,高甘油三脂血清光谱识别率88%,高胆固醇血清识别率81%,正常血清识别率为75%,高血糖血清识别率为60%,为分形理论在光谱识别上应用作了初步探索。
分形理论;光谱识别;差模;血清
近年来,许多学者用自体荧光光谱法对各种组织进行光谱检测,并用特征峰和荧光强度来区别光谱的特性。随着光谱学和计算机技术的发展,光谱识别已成为光谱分析技术的重要组成部分。光谱识别都是以整个光谱作为研究对象,考虑各种因素的变化在光谱中引起的差异进行的识别。史晓凤等[1]用最小二乘法分析自体荧光光谱识别胃癌。王玉田[2]利用小波神经网络、蚁群算法、同步-导数荧光光谱法对多组分混合农药的荧光光谱进行分类识别,取得较好的效果。职统兴[3]采用主成分回归和荧光光谱结合技术,对混合体系中的蒽和芘进行同时测定并进行定量分析。朱殿明[4]用双正交样条小波对人血清血卟啉荧光光谱的识别。张平[5]基于分形理论提出了一种新的太赫兹光谱识别方法通过这种方法使不同的药品得到了很好的鉴别。熊宇虹[6]提出了以分形维数作为光谱识别特征的方法,运用相空间重构得出了光谱信号的分形维数,达到识别不同光谱的目的。Ramanujam等应用主成分法结合后退法区分正常和发炎的鳞状上皮细胞[7];Wang等[8]将偏最小二乘法应用到口腔癌的光谱分析中,并将偏最小二乘法与人工神经网络法合起来,对口腔癌进行分期;Eker等用主成分法、偏最小二乘法分别对喉部组织的自体荧光光谱进行计算[9]。严拯宇等[10]应用人工神经网络研究紫外光谱中的Zn、Cu、Co含量,陈秀丽[11]等用主成分和BP网络对地中海贫血红细胞拉曼光谱进行了识别。从光谱识别的基本过程来看,光谱信号特征的选择和提取是光谱识别的前提。对单组分光谱信号而言,组分单一,因而信号波形也较简单,选取波形特征点就可以方便地达到比较识别的目的;对于复杂组分的光谱信号而言,成分复杂,因而信号波形也较复杂,选取适当的特征也就成了正确识别的关键[12]。特征提取的目的是用较低的维数表示高维数据,并且尽可能地保持它们之间的距离,从而大大降低对它们进行各项操作的计算复杂度使数据更易观察,数据的关系更易识别。从分形理论入手,初步研究了正常和异常血清荧光光谱的识别,为光谱识别方法开辟了一个新的途径。
1 光谱识别的基本理论
1.1 分形维数
分形维数是对非光滑、非规则、破碎的等极其复杂的分形客体进行定量刻划的重要参数,是分形的一个重要特征数,表征了分形体的复杂程度、粗糙程度[13]。假设一组单变量时间间隔为△t的时间序列
耗散系统的吸引子就包含在这个时间序列中。按时间序列的数据,重构一个m维的相空间,就得到下面的相型分布:
其中τ=k△t(k=1,2,……)为延滞时间,X(ti)为相点,它有m个分量,且对应于(1)式中的每一列元素:y(ti)y(ti+τ)…y(ti+(m-1)τ)。上述的(n-(m-1)τ个相点在m维空间构成一个相型。按时间增长的顺序用线将各相点连起来,它即成为描述系统在m维相空间的演化轨迹。τ的取值必须足够大,才能保证上述各坐标分量之间的线性独立性。
考虑m维相空间中任意两个相点
式中|ti-tj|>τ记相点之间的距离为rij=‖Xm(ti)-Xm(tj)‖,i、j=1、2、…m。任意给定一实数r,则N1(r)为rij 上式中的指数D是一种维数,实际上D是关联维数D2的很好逼近。D2的严格定义为 N 对某一给定的m,画出lnr-lnCr曲线,除去斜率为0或m的直线外考察其间的最佳拟合直线,该直线的斜率就是D,为了选择合适的m值,增大m,通常D也有所改变,到一定的m,此时D趋近于不变,m就是最小嵌入维数。 1.2 差模比较法 实验测出样品光谱的数据后,求出每组数据对应的平均数,对平均数做平滑处理,平滑算法为[13]: 式中:yk,y*k分别为第k点(中心点)的平滑前后的值;ai为平滑系数(或权重),“窗口”宽度为2r+1个点,在窗口内进行加权平均,平均区段是逐点后移的。然后再将平滑处理得到的数据进行标准化处理: 式中:x¯是xi的样本均值;s是xi的样本标准差。 在相同的标准下比较样本与标准的相近程度,通过观察样本与标准的相近程度得出样本的具体分类,但当数据非常多时,这样比较很难准确快速的得出样本的分类,利用差模法可以快速简便的得出结果,其算法为: 其中n表示有共有n个类别,m表示每个类别又有m个标准,X[n×m]表示标准尺度,λ[n×m]表示样本的m个标准的值被扩展为n行,γ[n×1]表示样本的差模值共有n行1列,每行与标准中的每行对应,取其中最小数所对应行的类别便为该样本的类别。 假设训练集有C类,其中第i类的j标准用αij表示,包含Nij个样本,xmij是一个d维列向量,表示第i类的j标准中第m个样本。第i类j标准样本的均值;第i类jj标准的平滑后数据ηij;第i类的j标准的样本均值μij。 在进行特征提取之前先构造数据矩阵Mij(j=高胆固醇、高血糖、高甘油三脂、正常,i=260、290、350和580 nm)高胆固醇数据样本矩阵,高血糖数据样本矩阵,高甘油三脂数据样本矩阵,正常数据样本矩阵,矩阵各列代表了一组样本在各特定波长处的自体荧光光谱强度值。特征提取的具体步骤如下: 步骤1由以上第i类jj标准的数据矩阵Mij求出第i类的j标准的样本均值μij; 步骤2利用平滑移动算法对第i类的j标准的样本均值μij得出第i类j标准的平滑后数据ηij; mi=5,5,4,3表示260 nm,290 nm特征波长进行5点平滑移动,对350 nm特征波长段进行4点平滑处理,对580 nm进行3点平滑处理,选取不同的平滑移动只为数据的简化处理,但不能取太少的数据,以减少失真度。平移后第i类j标准的数据个数变为: 步骤3将第i类j标准的平滑后数据ηij的数据进行标准化处理得到第i类j标准的标准化数据ωij; 步骤4利用分型维数中的关联维数的计算方法算出第i类j标准的分型维数τij,通过整理得到了不同特征光谱的标准矩阵τ; 步骤5对某一待测样本b按照步骤2,3的处理同样可得到标准化后的数据,在利用的分型维数中的关联维数计算的方法得出第i类j标准的分型维数τbωb; 步骤6利用(8)式的差模比较法可以得出样本b的所属类别; 步骤7对所有选取的待测样本重复步骤5,6就可以得出所有选取样本的类别。 3.1 标准的产生 实验仪器选用日本岛津公司生产的RF-5301PC荧光分光光度计。在校医院的配合下,采集了50位空腹成年男性的血液,并测试其生化指标用于制备实验样品。在室温下用荧光光度计测量各组样品的荧光光谱,测量时用比色皿取3 mL样品进行测试,激发波长(λEX)选用260、290、350和580 nm,扫描间隔1 nm,采用中速自动扫描。对实验所测的光谱数据进行预处理,并按照要求进行分类总结,将同一种病症(如高血脂)的特征波长数据汇总到同一个表格中去。首先求出所有样品在不同特征波长处一系列数据的平均值;再对数据进行平滑移动相应的移动步长;将平滑后的数据进行标准化,并将所有标准化后的数据进行相空间重构,利用关联维数的计算方法,设计出相应的计算程序,求出每个不同症状样品在特征波长处的分形维数。通过计算每个特征波长分形维数最终都达到了稳定,即直线的斜率不再改变时即为该特征波长下分形维数,分别计算不同血清光谱分形维数后得到光谱识别的参考标准,见表1。 3.2 光谱识别 将选取的所有待识别样本按照算法分析的步骤进行处理,最后在不同的特征波长处选取同表1中相同的特征波长的插入维数以及r的取值范围,得出样本的各个特征波长处的分形维数,按照标准进行差模比较可得出各样本的病症情况。以2号待识别样本症状的确定为例,说明光谱的识别过程。将2号待识别样本按照算法分析的步骤进行数据处理,计算出样本在260 nm、290 nm、350 nm、580 nm波长激发下光谱对应的分形维数为[1.05 0.98 0.85 0.96],然后与表1中不同血清的参考分形维数进行差模比较,结果中数值最小的数据对应的症状就是待识别样本的症状。计算过程如下式: 表1 不同血清的参考分形维数Table 1Reference of fractal dimension of different serum 从计算结果可知,其中数据0.034 6最小,对应的为胆固醇症状,故2号为胆固醇血清。选取50个待测样本,以260 nm、290 nm、350 nm、580 nm为特征波长的荧光光谱进行病症的识别。识别结果见表2,通过比较发现,对高甘油三脂血清光谱识别率88%,高胆固醇血清识别率81%,正常血清识别率为75%,高血糖血清识别率为60%。 表2 光谱的识别结果Table 2Recognition results of spectra 光谱识别技术是光谱定性分析的基础。随着光谱学和计算机技术的发展,光谱识别已成为光谱分析技术的重要组成部分。利用分形的方法计算出光谱曲线的分形维数,利用差模法对不同症状的血清光谱进行比较识别,高甘油三脂血清光谱识别率88%,高胆固醇血清识别率81%,正常血清识别率为75%,高血糖血清识别率为60%。在光谱识别上作了初步尝试,进一步研究,应选取更多的激发波长激发的光谱作为识别特征量,改进数据处理方法,提高识别率。使分形作为一种荧光光谱的识别办法,为正常和异常血清的检测提供一种快速有效的新途径。 [1]史晓凤,马君,毛伟征,等.最小二乘法分析自体荧光光谱识别胃癌[J].光谱学与光谱分析,2006,26(12):295-298. [2]王玉田,李艳春.蚁群算法在多组分导数荧光光谱解析中的应用[J].传感技术学报,2006,19(2):508-513. [3]职统兴,尚丽平,邓琥.主成分回归荧光光谱法同时分析多组分混合体系[J].应用化工,2008,37(10):1232-1234. [4]朱殿明,金万祥,骆晓森,等.人血清血卟啉荧光光谱的双正交样条小波识别[J].光谱学与光谱分析,2008,28(8):1879-1882. [5]张平,王新柯,李海涛,等.基于分形理论的太赫兹光谱识别[J].量子电子学报,2007,24(6):673-677. [6]熊宇虹,温志渝,张流强,等.分形理论在光谱识别中的应用[J].光谱学与光谱分析,2006,26(14):772-774. [7]Ramanujam N,Mitchell M F,Mahadevan A,et al.Development of a multivariate statistical algorithm to analyze human cervical tissue fluorescence spectra acquired in vivo[J].Lasers in Surgery and Medicine,1996,19(1):46-62. [8]Wang C Y,Tsai T,Chen H M,et al.PLS ANN based classification model for oral submucous fibrosis and oral carcinogenesis[J].Lasers in Surgery and Medicine,2003,32(4):318-326. [9]Eker C,Rydell R,Svanberg K,et al.Multivariate analysis of laryngeal fluorescence spectra recorded in vivo[J].Lasers in Surgery and Medicine,2001,28(3):259-266. [10]严拯宇,姜新民,张圣华.人工神经网络用于紫外光谱同时测定Zn、Cu、Co含量的研究[J].光谱学与光谱分析,2000,20(3):409-411. [11]陈秀丽,王桂文,陶站华,等.基于PCA和BP网络的地中海贫血红细胞拉曼光谱判别[J].中国激光,2009,36(9):2448-2554. [12]董赫,李伟凯.基于近红外光谱苗期玉米叶片叶绿素含量的无损检测方法[J].黑龙江八一农垦大学学报,2015,26(2):82-85. [13]陈颙,陈凌.分形几何学[M].北京:地震出版社,2005. [14]李民赞.光谱分析技术及其应用[M].北京:科学出版社,2006. Study of Fluorescence Spectrum Identification Based on the Difference Module of the Fractal Dimensions Fan Di1,Wang Lexin2,Yang Weiran1,Tan Keli1,Qiu Runze1 The fractal feature of the spectrum based on the fractal theory was proposed to identify the spectral curves.The fluorescence spectra of 50 serum samples were measured by using the exciting light with the wavelength of 260,290,350,and 580 nm,respectively.The fractal dimensions of the spectral curves were calculated by the fractal theory.The difference module of the fractal dimensions was used to identify the fluorescence spectra of normal,high blood lipid,high cholesterol,and high blood glucose serum.The results indicated that the recognition rate was 75%,88%,81%and 60%,respectively.The research showed a preliminary study for the fractal theory in spectral identification. fractal theory;spectral identification;differential module;serum O433.4 A 1002-2090(2016)04-0130-05 10.3969/j.issn.1002-2090.2016.04.029 2015-06-26 黑龙江省自然基金资助项目(F201427);黑龙江省教育厅资助项目(10541155;12521376);黑龙江省农垦总局科技项目(HNK11A-06-09);大庆市科技局资助项目(SGG2008-041);大学生省级创新创业训练项目(201410223009)。 樊迪(1994-),女,黑龙江八一农垦大学理学院信息与计算科学2012级本科生。 王乐新,男,教授,E-mail:wanglexin@126.com。2 光谱数据处理
3 光谱识别
4 结论
(1.College of Information and Technology,Heilongjiang Bayi Agricultural University,Daqing 163319;2.College of Science,Heilongjiang Bayi Agricultural University)