傅里叶变换红外光谱技术鉴别冬虫夏草真伪的研究
2015-10-31张九凯张小磊曾文波邹小波虞泓陈颖
张九凯张小磊,曾文波邹小波虞泓陈颖*
(1.中国检验检疫科学研究院 北京 100123;2.江苏大学食品与生物工程学院;3.云南大学中草药生物资源研究所)
傅里叶变换红外光谱技术鉴别冬虫夏草真伪的研究
张九凯1张小磊1,2曾文波3邹小波2虞泓3陈颖1*
(1.中国检验检疫科学研究院 北京 100123;2.江苏大学食品与生物工程学院;3.云南大学中草药生物资源研究所)
研究了傅里叶变换红外光谱技术结合模式识别对冬虫夏草进行真伪鉴别的可行性。收集不同产地的野生冬虫夏草和常见伪品,根据各样品在4 000-450 cm-1范围内的红外光谱,确定冬虫夏草指纹区域所在的位置,讨论不同预处理方法及不同光谱区间对建模结果的影响;同时利用主成分分析将前15个主成分作为输入变量建立冬虫夏草真伪鉴别的模式识别模型。结果表明:冬虫夏草红外光谱指纹区为1 800-800 cm-1,最佳预处理方法为多元散射校正;指纹区光谱经多元散射校正预处理和主成分分析降维后,所建立的模式识别模型中支持向量机模型的训练集和交互验证集的识别率均能达到100%。
红外光谱;模式识别;多元散射校正;主成分分析;支持向量机
1 前言
冬虫夏草(Ophiocordyceps sinensis)是线虫草科线虫草属中华虫草种真菌寄生在蝙蝠娥科昆虫蝙蝠娥幼虫的子座与幼虫尸体的复合体,在我国主要产自西藏、青海、四川、云南、甘肃等五省(区)[1],1964年被收录入中国药典并被官方认定为“药品”,1994年被美国食品药品管理局(FDA)通过法案认定为“膳食补充剂”[2]。作为珍贵的滋补中药材,冬虫夏草具有“补肾益肺、止咳化痰”之功效,并具有抗菌、抗癌、改善记忆力、增强免疫力以及镇痛安宁的作用[3]。
由于生长条件苛刻,自然寄生率低,加上人们的滥采,导致天然资源紧缺,因此天然冬虫夏草已被濒危野生动植物种国际贸易公约列为濒危物种[4]。目前,冬虫夏草价格居高不下,根据虫体大小不同,每克价格可达200至500元不等。巨大的经济利益导致冬虫夏草的掺假现象严重,常见的掺假方式包括:用其他种类的虫草(如亚香棒虫草等)作为冬虫夏草的替代品进行掺假;用人工培养的虫草菌丝体(如虫草花等)冒充野生冬虫夏草粉出售;用冬虫夏草的模仿物(如草石蚕等)辅以黏合剂、色素等填充制造出假冬虫夏草。这些掺假行为不仅损害了消费者的经济利益,而且极有可能因为某些有害成分的引入而危害消费者的健康。因此,建立快速准确鉴别冬虫夏草真伪的方法,对规范市场、维护消费者权益具有非常重要的意义。
傅里叶变换红外光谱能够在不破坏样品的前提下给出全组分的化学信息,其针对复杂体系真实、宏观、快速无损的测定特性,使红外光谱在中药材鉴别及质量控制研究中得以广泛应用[5-8]。目前,已经有一些利用红外光谱对冬虫夏草进行真伪鉴别的研究:张声俊等[9]采用红外光谱“三级鉴定”的方法,对冬虫夏草进行真伪鉴定;Yang等[10]通过红外光谱及其二阶导数光谱来标识冬虫夏草的特征峰,以此区分野生冬虫夏草和伪品。然而,由于掺假方式的多样性以及掺假种类的复杂性,对于实际中需要鉴别冬虫夏草真伪及不同掺假方式的需求,这些方法仍存在样品缺乏代表性、适用性不足等局限。模式识别作为人工智能技术的一个分支,已广泛应用于医药、环境、食品等各个领域的分类问题[11-12],也同样能够用于区分冬虫夏草的不同形式掺假。
本研究针对冬虫夏草的不同掺假方式,在测定冬虫夏草及其常见掺假物红外光谱的基础上,结合模式识别方法,建立了冬虫夏草的真伪鉴别模型,以期实现冬虫夏草真伪的快速准确筛查。
2 材料与方法
2.1材料
2.1.1样品来源
共收集各类样品18种。其中6种冬虫夏草(DCXC)和6种其他种类虫草(CC)由云南大学中草药生物资源研究所云百草实验室鉴定和提供;3种虫草花(CCH)和3种草石蚕(CSC)购自不同省市的药材市场。各样本的详细信息参见表1。
表1 冬虫夏草及其常见掺假物的样品信息
2.1.2仪器与设备
组织研磨器:TissueLyser II型,德国Qiagen公司;冷冻干燥仪:Benchtop2K-ES型,美国Virtis公司;傅里叶变换红外光谱仪:Spectrum Frontier型,美国PerkinElmer公司。
2.1.3试剂
溴化钾:纯度≥99.5%,Sigma-Aldrich。
2.2方法
2.2.1样品制备
各样品切成小块,经冷冻干燥24 h后在组织研磨器中用钢球(Φ=20 mm)磨粉30 s,制得干燥均匀的样品粉末于-80℃保藏,每种样品制备6个平行样。
2.2.2红外光谱的获取
取提前制备好的粉末样本约2 mg,与100 mg干燥溴化钾粉末混合,并在玛瑙研钵中研磨1-2 min,再转入压片模具中,使之分布均匀,抽真空加压至38 Mpa,维持40 s,取出压成的透明(或半透明)薄片,装入压片夹,以溴化钾空白压片作参比,使用傅里叶变换红外光谱仪扫描红外透射光谱。扫描速度为4 cm/s,扫描间隔为8 cm-1,扫描范围为4 000-450 cm-1,3次重复测量取平均值。红外光谱数据以.csv格式导出,数据处理在Matlab(Ver.R2010a:The Math Work,美国)环境下自编程序完成。
2.2.3光谱预处理
为了校正吸收基线并减少样品散射对光谱的影响,利用软件对原始光谱进行预处理。光谱的预处理方法包括一阶导数(1st derivative,1D)、多元散射校正(multiplicative scatter correction,MSC)、标准归一化(standardnormalvariables,SNV)、平滑(smooth,SM)和中心化(center,CR)等。导数处理可消除基线偏移,扣除本底吸收,从而更为细致地反映样品的光谱;多元散射校正处理可以消除光谱在吸光度轴上的差异,以便消除散射效应的影响;标准归一化主要是用来消除表面散射、光程变化对红外光谱的影响;平滑处理可以提高分析信号的信噪比,本研究采用Savitzk与Golay提出的多项式(七点三次多项式)平滑方法;中心化预处理主要用来消除光谱的绝对吸收值,从而消除光源对光谱的影响[13]。
3 结果与分析
3.1不同种类样品原始光谱的比较分析
将红外光谱数据导入Matlab软件中进行分析,分别得到不同产地冬虫夏草、不同种类虫草、不同药材市场的虫草花及草石蚕的红外光谱指纹图谱(图1a-d)。
图1 不同种类样品的红外光谱指纹图谱
对光谱图的分析结果显示:除阿坝冬虫夏草外,其他五个产地冬虫夏草(青海玉树、西藏那曲、云南香格里拉、德钦、兰坪)的红外光谱非常接近(图1a),说明这5个产地冬虫夏草所含成分较为相似。阿坝由于既处于青藏高原与四川盆地的交错接触带,又处于长江、黄河支流河流分水岭地带,地形复杂、气候多样,形成了独特的生态环境和独有的生物资源,因此,阿坝产区的冬虫夏草可能有区别于其他产区的(青海、西藏、云南等)的特征;同时,本研究通过液质联用技术对不同产地冬虫夏草中的化学组分进行了分析,也发现了阿坝产冬虫夏草在化合物组成上有别于其他产地冬虫夏草的现象(未发表数据)。不同种类的虫草所含成分有较大不同(图1b),可能与所收集虫草涉及到不同属,甚至不同科有关(表1);购自不同药材市场的虫草花和草石蚕样本的红外光谱没有明显差异(图1c-d)。
上述结果表明4类样品的红外光谱指纹图谱存在较大差异,可用于冬虫夏草及其常见掺假物的快速区分。
样品原始红外光谱图比较分析结果还表明,各样本光谱在4 000-1 800 cm-1范围均只包含两个吸收峰,其中3 500-3 300 cm-1范围强而宽的吸收带是由氨基(-NH2)和羟基(-OH)的缔合伸缩振动引起,而2 900 cm-1附近的吸收峰是由甲基(-CH3)或亚甲基(-CH2)的伸缩振动引起[14],它们是各样本的共有峰,对于区分各类样本意义不大;800-450 cm-1范围光谱存在较大基线漂移,不做考虑。前人的研究一般将小于1 800 cm-1的红外光谱区域视为指纹区[15-16],本实验中,各样本光谱在1 800-800 cm-1范围内有较多吸收峰,这些峰的数量、位置、峰型以及峰强的差异对于区分不同类样本起决定性作用,除单键的伸缩振动外,还有因变形振动产生的谱带,这种振动基团频率和特征吸收峰与整个分子的结构有关,因此确定该光谱区域为指纹区。
为了更好地寻找不同种类样本的特征峰,分别选取一个具有代表性的冬虫夏草、虫草、虫草花和草石蚕样本,标出它们在指纹区的吸收峰,分析不同类样本吸收峰的异同,见图2。
图2 冬虫夏草、虫草、虫草花和草石蚕的红外光谱指纹区(1 800-800 cm-1)吸收峰对比
图2显示,4类样本的指纹区均在1 658 cm-1、1 459 cm-1、1 376 cm-1、1 153 cm-1、1 083 cm-1附近有明显吸收峰;冬虫夏草在1 748 cm-1、1 549 cm-1、953 cm-1附近的吸收峰为特有,虫草在1 715 cm-1、1 245 cm-1附近的吸收峰为特有,虫草花在998 cm-1附近的吸收峰为特有。在冬虫夏草各吸收峰中,1 748 cm-1、1 153 cm-1附近的吸收峰分别对应脂羰基C=O伸缩振动和C-O伸缩振动,这两个吸收峰代表的特征物质可能是酯类,为冬虫夏草所特有,可以用来表征冬虫夏草的红外属性;1 658 cm-1、1 549 cm-1附近的吸收峰分别对应酰胺Ⅰ中的C=O振动和酰胺Ⅱ中的C-N振动,这两个吸收峰表征的特征物质可能是虫草蛋白;1 083 cm-1、1 022 cm-1附近的吸收峰对应伯醇中的C-O的伸缩振动,这两个特征峰表征的特征物质可能是虫草核苷或虫草多糖;930 cm-1附近的吸收峰表征的特征物质为虫草酸。虽然冬虫夏草、虫草和虫草花在1083 cm-1、1 022 cm-1、930 cm-1附近均有吸收峰,但是冬虫夏草在这3处的峰形明显不同,峰窄而尖锐,这3处吸收峰也可用来表征冬虫夏草的红外属性[17-18]。
3.2不同预处理及不同光谱区间建模结果的比较
为了能够准确地对不同类样品进行区分,进而达到冬虫夏草真伪鉴别的目的,需要结合模式识别的方法建立可靠的模型。红外光谱容易受样品粒度不均匀、红外光谱仪自身光源能量不稳定等因素的影响[19],运用适当的光谱预处理方法能够有效消除背景噪音及特定物理因素的干扰,对提高模型的精度和稳定性有重要作用。为了确定最佳的预处理方法及最优光谱区间,分别将不同预处理后的不同区间光谱用于建立冬虫夏草的线性判别分析(LDA)模型,比较选取不同预处理方法及光谱区间对建模结果的影响,见表2。
表2 不同预处理及不同光谱区间LDA法建模结果的比较
当光谱区间一定,比较不同预处理方法对建模结果的影响,在全光谱区(4 000-450 cm-1),原始光谱建模校正集和预测集识别率分别为95.1%和88.9%,经MSC预处理后分别提高到97.5%和92.6%,经SNV预处理后分别提高到98.8%和 96.3%,说明MSC和SNV均能提高模型准确率;经1D预处理后校正集识别率不变,预测集识别率有所下降,表明1D预处理会影响建模结果的准确性;经CR预处理后校正集和预测集识别率均不变,表明CR预处理对建模结果没有影响;而经SM预处理后校正集和预测集识别率分别下降到55.6%和25.9%,说明SM预处理降低了模型准确率。分别比较不同光谱区间经MSC和SNV预处理后的建模效果,结果表明当预处理方法确定时,选取指纹区建模能够提高模型准确率,指纹区光谱MSC和SNV预处理后所建模型校正集和预测集识别率均能分别达到100%和96.3%。鉴于MSC比指纹区SNV预处理达到相同的识别率需要更少的主成分数,最终确定指纹区MSC预处理为最佳。
3.3冬虫夏草真伪鉴别模型的建立
虽然指纹区光谱数据量较全光谱数据已经大大减少,但对于建立复杂模型来说,变量数过多,直接建模会造成负担,因此需要对光谱进行特征提取和数据降维。主成分分析(principal component analysis,PCA)是特征提取和降维的经典方法,通过求解输入数据协方差矩阵特征值的方法,在样本空间中寻找误差最小的方向,从而把高维数据线性地转化为低维数据[20]。本研究将各样本指纹区光谱经MSC预处理后进行主成分分析,得到三维得分图,其中前3个主成分贡献率为90.48%,以最大程度反映冬虫夏草、虫草、虫草花和草石蚕4类样本的分布情况(图3)。
图3 各样本指纹区光谱经MSC预处理后的三维主成分得分图
结果表明,草石蚕能够明显和冬虫夏草、虫草以及虫草花中区分开,说明PCA能够实现对冬虫夏草模仿物掺假的鉴别;而冬虫夏草、虫草和虫草花大致可分为3组,但样品间有部分重叠,说明仅靠PCA不能完全实现冬虫夏草中其他种类虫草以及人工虫草花掺假的鉴别。一方面可能是由于这些掺假物与冬虫夏草都含有一些相同或相似成分,另一方面可能与约9.52%的光谱信息没有反映在图中有关。
为了客观精确地判别冬虫夏草的真伪,本研究进一步采用模式识别的方法建立定性模型。将经过MSC预处理后的各样本指纹区光谱PCA降维后,按照3:1的比例,随机分为训练集和交互验证集,训练集用来建立模型,交互验证集用来验证模型。将冬虫夏草、虫草、草石蚕和虫草花类分别赋值为1、2、3、4,作为建模输出变量,选取训练集前15个主成分作为建模输入变量,分别采用线性判别法(linear discriminant analysis,LDA)、K值近邻法(k-nearest neighbor algorithm,KNN)、反向传播人工神经网络(backpropagationartificialneuralnetwork,BPANN)和支持向量机(support vector machine,SVM)等方法建立冬虫夏草真伪鉴别模型。训练集和交互验证集识别率分别为训练集和交互验证集样本代入模型中正确识别的比例,用来评价各个模型。
各模型的训练集和交互验证集的识别结果表明:LDA模型的训练集全部正确识别,交互验证集有1个冬虫夏草样本被误判为虫草(表3);KNN模型的训练集有2个冬虫夏草样本被误判为虫草,1个冬虫夏草样本被误判为虫草花,3个虫草样本被误判为冬虫夏草,各有1个虫草花样本被误判为冬虫夏草和虫草,交互验证集全部正确识别(表4);BP-ANN模型的训练集全部正确识别,交互验证集有1个冬虫夏草样本被误判为虫草,1个虫草样本被误判为冬虫夏草,1个虫草花样本被误判为草石蚕(表5);SVM模型的训练集和交叉验证集全部正确识别(表6)。
表3 LDA法建模对样本训练集和交互验证集的识别结果
表4 KNN法建模对样本训练集和交互验证集的识别结果
表5 BP-ANN法建模对样本训练集和交互验证集的识别结果
表6 SVM法建模对样本训练集和交互验证集的识别结果
各模型训练集和交互验证集的识别率的对比结果表明,SVM的建模结果最好,校正集和预测集的识别率均能达到100%,而其余几个模型虽然也有不错的结果,但出现了不同程度的误判。说明指纹区光谱经MSC预处理和主成分降维后,前15个主成分用来建立SVM模型,是冬虫夏草的真伪鉴别的有效方法。
表7 各模式识别方法建模结果对比
4 结论
本研究探讨了采用红外光谱结合模式识别的方法对冬虫夏草进行真伪鉴别的可行性,结果表明:MSC为本实验建立模式识别模型的最佳预处理方法;SVM模型的训练集和交互验证集识别率均能达到100%。因此,通过红外光谱结合模式识别建立SVM模型,能够快速、准确地对冬虫夏草及其常见掺假物进行真伪鉴别。
[1]张姝,张永杰,SHRESTHA B,等.冬虫夏草菌和蛹虫草菌的研究现状、问题及展望[J].菌物学报,2013,32(4):577-597.
[2]CHEN Xin,WANG Sunan,NIE Shaoping,et al.Properties of Cordyceps sinensis:A review[J].Journal of Functional Foods,2013,5(3):550-569.
[3]LI Siping,YANG Fengqing,TSIM,K W.Quality control of Cordyceps sinensis,a valued traditional Chinese medicine[J].Journal of Pharmaceutical and Biomedical Analysis,2006,41(5):1571-1584.
[4]SHASHIDHAR M G,GIRIDHAR P,UDAYA S K,et al.Bioactive principles from Cordyceps sinensis:A potent food supplement-A review[J].Journal of Functional Foods,2013,5(3):1013-1030.
[5]郑捷,肖凤霞,林励,等.基于傅里叶变换红外光谱法的土茯苓真伪鉴别及溯源研究[J].食品科学,2014,35(12):165-168.
[6]许春瑾,张睿,于修烛,等.基于近红外光谱的中宁枸杞子判别分析[J].食品科学,2014,35(2):164-167.
[7]刘嘉,李建超,陈嘉,等.葛粉掺假的傅里叶变换红外光谱法鉴别研究[J].食品科学,2011,32(8):226-230.
[8]CHENYi,XIEMingyong,YANYan,etal.Discriminationof Ganoderma lucidum according to geographical origin with near infrared diffuse reflectance spectroscopy and pattern recognition techniques[J].Analytica Chimica Acta,2008,618(2):121-130.
[9]张声俊.红外光谱法对冬虫夏草的三级鉴定和研究[J].山地农业生物学报,2011,30(03):230-234.
[10]YANG Ping,SONG Ping,SUN Suqin,et al.Differentiation and quality estimation of Cordyceps with infrared spectroscopy[J]. Spectrochimica Acta Part A,2009,74(4):983-990.
[11]黄桂东,毛健,姬中伟,等.DR-FTIR结合SIMCA识别不同种类原料米酿造的黄酒[J].食品科学,2013,34(14):285-288.
[12]孟一,张玉华,王家敏,等.基于近红外光谱技术快速识别不同动物源肉品[J].食品科学,2014,35(6):156-158.
[13]宋夏钦,王琪,王丽,等.基于近红外光谱技术的雷竹笋品质指标快速检测方法研究[J].中国食品学报,2013,13(09):190-195.
[14]KOCA N,KOCAOGLU-VURMA N A,HARPER W J,et al.Application of temperature-controlled attenuated total reflectancemid-infrared(ATR-MIR)spectroscopy for rapid estimation of butter adulteration[J].Food Chemistry,2010,121(3):778-782.
[15]MING Z,GERARD D,COLM P O.Detection of adulteration in fresh and frozen beefburger products by beef offal using midinfrared ATR spectroscopy and multivariate data analysis[J]. Meat Science,2014,96(2):1003-1011.
[16]EFSTATHIOS Z P,FADY R M,ANTHOULA A A,et al.A comparisonofartificialneuralnetworksandpartialleast squaresmodelingfortherapiddetectionofthemicrobial spoilage of beef fillets based on Fourier transform infrared spectral fingerprints[J].Food Microbiology,2011,28(5):782-790.
[17]COZZOLINO D,ROUMELIOTIS S,EGLINTON J.Evaluation of the use of attenuated total reflectance mid infrared spectroscopy to determine fatty acids in intact seeds of barley(Hordeum vulgare)[J].LWT-Food Science and Technology,2014,56(2):478-483.
[18]陈建波,周群,王晓平,等.冬虫夏草的红外光谱真伪鉴定[C].第十七届全国分子光谱学学术会议,2012.
[19]SINELLI N,CERRETANI L,EGIDIO V D,et al.Application of near(NIR)infrared and mid(MIR)infrared spectroscopy as a rapid tool to classify extra virgin olive oil on the basis of fruity attribute intensity[J].Food Research International,2010,43(1):369-375.
[20]SHEN Fei,YING Yibin,LI Bobin,et al.Prediction of sugars and acids in Chinese rice wine by mid-infrared spectroscopy[J].Food Research International,2011,44(5):1521-1527.
Authentication of Ophiocordyceps sinensis by Fourier Transform Infrared Spectroscopy
Zhang Jiukai1,Zhang Xiaolei1,2,Zeng Wenbo3,Zou Xiaobo2,Yu Hong3,Chen Ying1*
(1.Chinese Academy of Inspection and Quarantine,Beijing,100176;2.School of Food and Biological Engineering,Jiangsu University;3.Institute of Herb Biotic Resources,Yunnan University)
The feasibility of authentication of Ophiocordyceps sinensis(DCXC)based on Fourier transform infrared spectroscopy(IR)and pattern recognition was studied.For currently different adulteration ways on the market,samples of genuine DCXC,its counterfeits(other species of Cordyceps,CC),cultured mycelia(Cordyceps flower,CCH)and mimics(Stachys sieboldii,CSC)were selected,and the infrared spectrum in the region of 4 000-450 cm-1was collected afterwards.The IR fingerprint region of DCXC was determined,and the effects of different pretreatment methods and spectral ranges on modeling results were discussed.After dimensionality reduction by principal component analysis(PCA),the former 15 principal components were used as input variables to build authentication models using different validated pattern recognition methods.Results showed that fingerprint region of DCXC was 1 800-800 cm-1,and the optimum pretreatment method was multiplicative scatter correction(MSC).Recognition rate of training set and cross-validation set of support vector machine model based on the fingerprint region can both reach 100%after MSC pretreatment and PCA.
Infrared Spectroscopy;Pattern Recognition;Multiplicative Scatter Correction;Principal Component Analysis;Support Vector Machine
TS201.6
E-mail:zhjk_caiq@163.com;*通信作者E-mail:chenyingcaiq@163.com
国家“863”计划项目(2011AA100807);中国检验检疫科学研究院基本科研业务费专项资金资助项目(2014JK021)
2015-04-02