APP下载

基于主成分分析结合拉曼光谱快速识别血液归属的研究

2016-06-30白鹏利王钧尹焕才田玉冰姚文明高静

光散射学报 2016年2期
关键词:识别主成分分析血液

白鹏利,王钧,2,尹焕才,田玉冰,姚文明,高静*

(1.中国科学院苏州生物医学工程技术研究所,苏州 215163;2.浙江工业大学海洋学院,杭州 310014)

基于主成分分析结合拉曼光谱快速识别血液归属的研究

白鹏利1,王钧1,2,尹焕才1,田玉冰1,姚文明1,高静1*

(1.中国科学院苏州生物医学工程技术研究所,苏州215163;2.浙江工业大学海洋学院,杭州310014)

摘要:以3种不同的动物(3×10)血样以及21个人血液作为分析对象,采用主成分分析(PCA)结合拉曼光谱进行血液定性识别检测,通过矢量归一化对拉曼信号进行预处理,以及杠杆值与残差值得分图剔除异样点,使得人与动物血样的识别率均高于95%,并在此基础上进一步采用PCA进行动物血样之间的识别,使得个体的识别率高于90%。实验结果表明PCA在血液识别检测中具有较好的应用前景和可行性,该方法也可以为刑侦、生命科学等应用领域提高借鉴。

关键词:血液;识别;主成分分析(PCA);拉曼光谱

1引言

血液是流动在血管和心脏内的不透明红色液体,主要成分为血细胞和血浆。血液中含有各种营养成分,如无机盐、氧、代谢产物、激素、酶和抗体等[1-2]。动物血和人血在这些成分上没有明显的差异。由于血液中含有大量的遗传信息,所以人与动物血液样品种属的识别在出入境检验检疫中有着重要的意义[3]。但是血液直接取样分析检测会产生血液之间的污染,同时血液中的致病因子也会带来人员感染风险。目前对血液种属进行区分识别方法,多为使用HPLC[4]、LC-MS[5]等一些传统的分析方法,但是这类方法操作繁琐,并且样品需要经过复杂的前处理。所以急需一种简单快速、无损的血液种属识别方法。

拉曼光谱技术(Raman Spectroscopy)是近几年快速发展的一种具有前景的快速识别分析方法,具有零污染、无需或极少的前处理、非接触、样品量少等诸多优点,在石油、食品、珠宝等各行业得到初步的探索和应用[6-8]。同时拉曼光谱技术具有易操作,测定时间短,高灵敏度且所需样品量少等优点,适合于定量研究、数据库搜索以及运用差异分析进行定性研究[9]。血液的拉曼光谱信息非常丰富,血红蛋白结构对拉曼光谱的分子振动有较大的贡献,不同归属的血液拉曼光谱的差异及其微小[10]。Zhang等人运用PLS-DA模型结合可见光谱对人血和动物血进行识别,识别率达到95%以上[11]。McLaughlin等人通过化学计量学结合拉曼光谱对人和动物血斑进行识别,其识别结果令人满意[12]。

本文利用拉曼光谱仪,以不同来源的血液作为研究对象,结合PCA法对分析处理样品数据及其品质特性进行评价,从而达到对样品归属的识别,为拉曼光谱结合PCA法在血液识别和控制中的应用提供试验数据。

2材料与方法

2.1材料与仪器

21个血液(EDTA抗凝剂)样品(由志愿者提供),30个动物血液(EDTA抗凝剂)样品(狗10只,兔10只,大鼠10只由苏州大学动物研究中心提供),95%乙醇(分析纯),去离子水,拉曼光谱仪为雷尼绍公司inVia显微共焦拉曼光谱,镀铝载玻片。

将血液样品加入镀铝的载玻片上,采集血液样品的拉曼散射光谱图。激发波长为785 nm,拉曼位移范围为300~1700 cm-1,20倍目镜聚焦,分辨率为2 cm-1,1%的激发功率(约0.6 mW),每个样品扫描7次,取其平均光谱作为该样品的原始光谱。

2.2主成分分析方法

主成分分析(principal component analysis,PCA)是模型识别分析中最基本的多元统计分析方法,在多元分析、模式识别等众多领域中得到广泛的应用[12]。其目的是在保留原始主要信息变量的前提下将多指标的问题转化为少数几个综合性指标的问题,起到降维和简化的作用,从而在研究复杂体系的问题时更加容易抓住问题的主要矛盾。综合性指标即主成分,是指原始变量信息的线性或非线性的组合。主成分分析的结果主要是以载荷因子图和得分图来表示。载荷因子图常常用于表示样品变量对样品的差异的贡献;主成分得分图是以散点图为基础,每一个散点代表了一个样品,点之间距离意味着样品之间的特征差异的大小[13-14]。

2.3判断指标

在模型的识别分析中,通常会使用总体样品识别率和单样品识别率对模型识别的性能评价[15]。设人血样本数为n1,动物血液样本数为m1,人血液样品中正确识别数为n2,动物样本正确识别的是m2,则人血液样品的识别率%=n2/n1;动物血液样品的识别率%=m2/m1;总体样品的识别率%=(n2+m2)/(n1+m1)[16]。

3结果与讨论

3.1拉曼光谱的采集

采用雷尼绍显微共焦拉曼光谱仪采集血液样品的拉曼光谱。由于待测的样品为液体,因此采用镀铝的载玻片,以避免干扰血液的拉曼信号。所有的血液样品没有经过任何前处理,每次测量前均用75%乙醇清洗镀铝载玻片,从而避免了样品间的交叉污染。血液样品的拉曼图谱如图1所示。

Fig.1Average Raman spectra of human blood,dog blood,rabbit blood,and rat blood

图1是血液样品的平均光谱图,由图1可以得出,两者之间有着一致的拉曼吸收峰,吸收强度存在着差异。在1300~1400 cm-1处是血红蛋白的吸收峰[17],存在着微小的差异,同时样本的吸收强度不在同一水平,所以要针对光谱进行预处理,同时结合化学计量学对样品进一步的分析和识别。

3.2血液拉曼光谱预处理以及样品异样点剔除

矢量归一化(Vector normalize)的目的是处理用于消除光程的变化或样品的稀释等变化对光谱产生的影响[18]。由于人与人之间、动物与动物之间以及人与动物之间的血液粘稠度之间的差异,所以本论文将所有的光谱经过矢量归一化预处理。图2是人血的平均光谱和动物血的平均光谱图经矢量归一化处理的结果,根据图2很明显可以得到在1000~1200 cm-1之间拉曼图谱的形状有细微的差异,而在1200~1400cm-1之间图谱在强度方面也存在一定的差异,这也为识别人血和动物血提供了理论的依据。

Fig.2Average spectrum of all human spectra and all animal spectra with the pretreatment of vector normalize

Fig.3 Results of outlier test

样品杠杆值表示样品对所建立的模型影响的重要程度,残差值表示与样品值对应的样品的预测能力的优劣[19]。一般情况下,当一个样品杠杆值和残差值都比较高时,该样品就是异常样品,在分析前应该予以剔除。图3是从PC1(a)和PC2(b)角度分别对所有样品的杠杆值和残差值进行分析,而PC1和PC2的累积贡献率达到96.985%(如表1所示)。由图2a中可以看出1号和22号残差值明显高于其他值,图2b中也可以看出1号的杠杆值明显高于其他值,同时22号样品的残差值也明显高于其他值,所以在分析之前将1号和22号血液样本剔除。

Tab.1 Explained variance of the top 6 PCs of samples

Fig.4the plot of different blood samples between PC1 and PC2

3.3主成分分析

由表1可知,血液样品拉曼光谱的前6个主成分保持了原始数据97.899%的信息量,并且大量的原始信息压缩到了主成分1和主成分2当中,占原始信息量的96.985%。图4为主成分1和主成分2得分图可以看出,图4对人血与动物血进行了很好的区分,不同归属的血液样品的得分值可以很好的落在各自的区域范围内而不互相干扰。并且血液样品的各个区域内点的离散度相对较小,其总体识别率达到95.92%,进一步说明拉曼光谱结合主成分分析可以很好地对人和动物血样归属进行区分识别。

Fig.5the plot of different animal blood samples between PC4 and PC5

尽管人血和动物血可以很好的分离(图3),但是在主成分1和主成分2的得分图中,动物血之间的得分交叉比较大。为了进一步对不同动物血液样本的识别,结合主成分4和主成分5的得分图,结果如图5。可以发现,狗血和兔血的主成分得分点靠的比较近,可以达到很好的分离效果,同时狗血和鼠血可以很好的区分,但是鼠血和兔血存在着一定的交叉。从表2可以得到,以兔为主体,相对于鼠的识别正确率达到了77.78%,但是总体的识别率达到90%。进一步说明了拉曼光谱结合主成分分析不仅可以区别人血和动物血,还可以区分动物之间的血样,与目前研究这种细微差异体系辨识区分的方法相比较,拉曼光谱在同源性差异体系识别上具有较好的潜力,能够在海关检验检疫中得到充分的应用。

Tab.2 The identification rate of different animal blood samples

4结论

本文采用了PCA方法针对血液样品种类识别的研究,通过杠杆值和残差值剔除了异样点,大大提高了模型的识别率,在人与动物血样的识别中,识别率达到了95%;在动物血液之间识别过程中,总体的识别率达到了90%。实验结果表明PCA方法在血液定性识别中具有较好的应用前景和可行性,并可探索将此方法运用到类似的定性识别检验中。但是,从应用统计学的角度而言,血液样本(种类和数量)的收集是否合理是影响到模型实用性的根本,同时针对不同抗凝剂的血液也要进一步的分析。因此本工作后期将从统计学的分类角度进一步的收集血样的样本,探索解决基于PCA血液定性识别模型的实用化过程中遇到的问题。

参考文献

[1]顾亚军.血液检验标准误差原因分析 [J].中国继续医学教育,2015,13(7):24-25.(Gu Yajun.Analysis Error Causes of Blood Test Specimen [J].China Continuing Medical Education,2015,13(7):24-25.)

[2]蔡锐波,郭景元.用荧光抗体法作血痕的种属鉴定[J].法医学杂志,1990,5(1):33-34.(Cai Ruibo,Guo Jingyuan.The Species Identification of Bloodstain by the Immunofluorescence Test [J].J Forensic Sci,1990,5(1),33-34)

[3]Gregory M,Doty K C,Lednev I K.Raman spectroscopy of blood species identification [J].Anal Chem,2014,86(6):11628-11633.

[4]Andrasko J,Rosen B.Sensitive identification of hemoglobin in bloodstains from different species by high-performance liquid-chromatography with combined UV and fluorescence detection [J].J Forensic Sci,1994,39(4):1018-1025.

[5]Steendam K,De C M,Dhaenens M,et al.Mass spectrometry-based proteomics as a tool to identify biological matrices in forensic science [J].Int J Legal Med,2013,127(2):287-298.

[6]吴静珠,石瑞杰,陈岩,等.基于PLS-DA和拉曼光谱快速定性识别食用植物油 [J].食品工业科技,2014,35(6):55-58.(Wu Jingzhu,Shi Ruijie,Chen Yan,etal.Rapid qualitative identification method of edible vegetable oil based on PLS-LDA and Ramam[J].Science and Technology of Food Industry,2014,35(6):55-58)

[7]Virkler K,Lednev I K.Raman spectroscopy offers great potential for the nondestructive confirmatory identification of body fluids [J].Forensic Sci Int,2008,181:e1-e5.

[8]陈健,肖凯军,林福兰.拉曼光谱在食品分析中的应用[J].食品科学,2007,28(12):554-558.(Chen Jian,Xiao Kaijun,Lin Fulan.Review on Raman Spectroscopy Application in Food Analysis [J].Food Science,2007,28(12):554-558)

[9]褚小立.化学计量学方法与分子光谱分析技术 [M].北京:化学工业出版社,2011(Cu Xiaoli.Stoichiometry and molecular spectroscopy [M].Beijing:Chemical Industry Press,2011)

[10]卢明子,郭延军,赵莲,等.拉曼光谱在血红蛋白结构及功能中的应用进展 [J].光谱学与光谱分析,2014,34(2):439-444.(Lu Mingzi,Guo Yanjun,Zhao Liao,etal.Application of Raman Spectroscopy to the Research on Hemoglobin Structure and Function [J].Spectroscopy and Spectral Analysis,2014,34(2):439-444)

[11]Zhang Linna,Zhou Mei,Li Xiaoxia,etal.Discrimination of human and nonhuman blood using visible diffuse reflectance spectroscopy[J].Analytical Methods,2014,6:9419-9423.

[12]Gregory M,Doty K C,Lednev I K.Discrimination of human and animal blood traces via Raman spectroscopy[J].Forensic Sci Int,2014,238:91-95.

[13]谈国风,田师一,沈宗根,等.电子舌检测奶粉中抗生素的残留 [J].农业工程学报,2011,27(4):361-365.(Tan Guofeng,Tian Shiyi,Shen Zonggen,etal.Electronic tongue detection for residual antibiotic in milk powder [J].Transactions of the CSAS,2011,27(4):361-365)

[14]夏益华,罗榴彬,李晓丽,等.共聚焦显微拉曼光谱研究碱处理对稻秸发酵制沼气的影响 [J].光谱学与光谱分析,2015,35(3):657-662(Xia Yihua,Luo Liubin,Li Xiaoli,etal.Studies on Effect of Alkali Pretreatment on Anaerobic Digestion of Rice Straw with Confocal Raman Microscopy [J].Spectroscopy and Spectral Analysis,2015,35(3):657-662)

[15]杨忠,吕斌,黄安民,等.近红外光谱技术快速识别针叶材和阔叶材的研究 [J].光谱学与光谱分析学,2012,32(7):1785-1789(Yang Zhong,Lv Bin,Huang Anmin,etal.Rapid Identification of Softwood and Hardwood by Near Infrared Spectroscopy of Cross-sectional Surfaces [J].Spectroscopy and Spectral Analysis,2012,32(7):1785-1789)

[16]刘心如,张利平,王建福,等.可见-近红外漫反射光谱技术对羊毛和羊绒的鉴别研究 [J].光谱学与光谱分析,2013,33(8):2092-2095(Liu Xinru,Zhang Liping,Wang Jianfu,etal.Use of Visible and Near Infrared Reflectance Spectroscopy to Identify the Cashmere and Wool [J].Spectroscopy and Spectral Analysis,2013,33(8):2092-2095)

[17]Virkler K,Lednev I K.Blood species identification for forensic purposes using Raman Spectroscopy combined with advanced statistical analysis [J].Anal Chem,81(18):7773-7777.

[18]陆婉珍,袁洪福,徐广通.现代近红外光谱分析技术[M].北京,中国石化出版社,2000:1-25(Lu Wanzhen,Yuan Hongfu,Xu Guangtong.Modern Near Infrared Spectroscopy [M].Beijing,China Petrochemical Press,2000:1-25)

[19]梁秀英,李小昱,杨万能.奇异数据筛选法在玉米籽粒蛋白质近红外光谱检测中的应用 [J].激光生物学报,2015,24(1):38-45(Liang Xiuying,Li Xiaoyu,Yang Wanneng.Outlier Detection for Measurement of Protein Content in Maize Kernels Based on Near-infrared and Reflectance Spectroscopy [J].Acta Laser Biology Sinica,2015,24(1):38-45)

Rapid Qualitative Identification Method of Species of Blood Based on PCA with Raman Spectroscopy

BAI Peng-li1,WANG Jun1,2,YIN Huan-cai1,TIAN Yu-bing1,YAO Wen-ming,GAO Jing1*

(1.SuZhouInstituteofbiomedicalengineeringandtechnology,ChineseAcademyofScience,Suzhou,215163,China;2.OceanCollege,ZhejiangUniversityofTechnology,Hangzhou,310014,China)

Abstract:In the paper 3 kinds of animal for a total of 30 animal blood samples and 21 human blood samples were chosen as the typical tested objects.Principle component analysis(PCA)method was employed to quickly identify the species of blood samples based on Raman spectroscopy.Vector normalization was used to preprocess the Raman spectroscopy signal.According to the plot of Leverage value vs.Studentized residue,outlier sample was detected and removed.By the PCA method,the correct rate between animal blood samples and human blood samples was up to 95% based on PC1 and PC2.Further on the basis of PC4 and PC5,the correct rate of identification the animal blood sample was above 90%.The experiment results showed that the PCA method had good application prospects and feasibility to identify the species of blood samples.This method provided a reference for processing the similar problems in the field of forensic science and life science.

Key words:blood;identification;principal component analysis;Raman spectroscopy

收稿日期:2015-09-06; 修改稿日期:2015-10-28

基金项目:国家863项目(2015AA021106);苏州市技术专项(ZXY2012014);江苏省产学研项目(BY2013033);苏州市应用基础研究计划(SYG201305,SYG201404); 江苏省自然科学基金(面上)(BK20131170)

作者简介:白鹏利(1983-),男,副研究员,从事高分子材料合成生物诊断试剂以及红外拉曼光谱的研究,E-mail:baipl@sibet.ac.cn 通讯作者:高静(1982-),男,研究员,主要从事医用激光技术与光谱仪器的研究。E-mail:owengaojing@126.com

文章编号:1004-5929(2016)02-0163-05

中图分类号:O657.37

文献标志码:A

doi:10.13883/j.issn1004-5929.201602012

猜你喜欢

识别主成分分析血液
多彩血液大揭秘
神奇血液
主成分分析法在大学英语写作评价中的应用
江苏省客源市场影响因素研究
SPSS在环境地球化学中的应用
青岛市中山公园园林树木易混淆品种识别
论犯罪危险人格的识别
报废血液的初步分析
血液偏型