藏药五脉绿绒蒿不同部位红外光谱判别分析
2020-06-17李佩佩栾真杰孟晓萍
李 朵,李佩佩,栾真杰,孟晓萍,孙 菁*
1中国科学院西北高原生物研究所 青海省青藏高原特色生物资源研究重点实验室,西宁 810008;2中国科学院大学,北京 100049
五脉绿绒蒿(MeconopsisquintuplinerviaRegel)为罂粟科(Papaveraceae)绿绒蒿属(Meconopsis)多年生草本植物,藏音译名“欧贝完保”,是使用广泛的藏药材,具有重要的药用价值。《晶珠本草》记载,五脉绿绒蒿以花入药,性味甘、涩、凉,具清热解毒、消炎止痛的功效,可用于治疗肺炎、肝炎等[1],也可清除自由基,提高抗氧化活性[2]。相关文献亦记载,五脉绿绒蒿可用全草或花入药,但以花入药解热效果好[3],不同的部位入药效果不同。药材有效成分的提取常以粉末进行[4],粉末状态有利于有效成分的快速有效提取,但是难以从外观对入药部位进行准确鉴别,而采用传统的显微鉴别或理化鉴别耗时耗力,不利于生产实践应用。因此,为了保证入药疗效和扩大应用,需建立一种快速、高效、准确的原药材部位判别方法。
中红外光谱反映的是分子中原子的伸缩和变形振动运动,波数范围为4 000~400 cm-1,具有快速、准确、重现性好、样品制备少等优点,应用范围广泛[5-9]。目前关于中红外光谱法鉴别药材不同部位已有报道。Wang等[10]对白花丹参不同部位的红外光谱、二阶导数谱图以及二维相关谱进行了研究,结果表明,白花丹参不同部位的三级鉴定均存在差异。Zhao等[11]对青海省两个不同居群五脉绿绒蒿的花、花梗、叶和全草进行中红外全光谱扫描,发现一维红外光谱和二阶导数谱图能识别五脉绿绒蒿的不同部位,但是该工作仅从谱图解析方面区分五脉绿绒蒿不同部位,判别效果不够直观、快速。本文在前述研究工作的基础上,结合化学计量学方法建立五脉绿绒蒿部位判别模型,能够更为快速直观地识别五脉绿绒蒿不同部位。该方法不需要具备专业光谱学知识,有助于非专业人士操作,在生产实践中具有更大的推广应用价值,可为药企GMP生产实践提供更为准确快捷的检测方法。在已有的关于中红外光谱法鉴别药材不同部位的报道中,大多是通过谱图解析的方法识别药材不同部位,或仅建立模型进行判别,利用谱图解析结合化学计量学方法建立模型进行部位判别的研究则鲜有报道。
因此,本研究以传统藏药五脉绿绒蒿的叶部位、花部位及全草为研究对象,利用中红外光谱分析技术开展了谱图特征分析,同时结合化学计量学方法建立五脉绿绒蒿部位判别模型,从药材源头保证不同部位药材的准确性,为该资源后续的质量检测提供科学依据和有效借鉴,以期保障用药的有效性。
1 材料与方法
1.1 材料
于6~7月五脉绿绒蒿植物花期,在青海省玉树县、循化县和湟中县三个地区的五脉绿绒蒿典型生长环境,即高山草甸、阴坡灌丛中采集五脉绿绒蒿全草。同一地区每隔数米采集一株全草,且随机选取植株大小,以确保样本能代表该地区的五脉绿绒蒿整体水平,不同地区间五脉绿绒蒿外观上无明显差异。将采集的植株带回实验室洗净、晾干,分为花、叶及全草,共得到346份不同部位样品,分别粉碎、过200目筛后放入干燥器,待分析用。原植物标本经中国科学院西北高原生物研究所卢学峰研究员鉴定为罂粟科绿绒蒿属五脉绿绒蒿(MeconopsisquintuplinerviaRegel)。
1.2 仪器与试剂
仪器:IS50傅里叶变换红外光谱分析仪(美国,Thermo Fisher公司),烘箱(上海一恒科学仪器有限公司),电子天平(Meterler ME104,0.000 1g),压片模具(直径:13 mm,美国PIKE公司),玛瑙研钵,粉碎机,200目筛,干燥器。
试剂:溴化钾(光谱纯,Thermo Fisher Scientific公司)。
1.3 实验方法
1.3.1 中红外光谱的采集
利用KBr压片法对样品进行中红外光谱采集,样品颗粒度大小为200目,以样品∶KBr=1∶100的比例进行研磨,用1.9 T的压力进行压片,扫描前扣除CO2和水的干扰,扫描次数为32次,分辨率为4 cm-1。采集光谱时,每个样品采集3次,并取平均谱图作为原始光谱。数据采集前先将仪器预热半小时,待仪器稳定后使用。实验室温度保持在25 ℃左右,湿度控制在35%以下。
1.3.2 方差分析
利用SPSS软件对各吸收峰处的吸光度值进行单因素方差分析,判断同一吸收峰处五脉绿绒蒿不同部位的吸光度值之间是否存在差异。
1.3.3 模型的建立
研究所用的TQ Analyst软件中应用于定性分析方法有距离匹配(Distance Match,DM)和判别分析(Discriminant Analysis,DA)方法。其中,DM是通过计算未知样品光谱到每类物质光谱集中点的距离来判断未知样品与已知物质类别的匹配方法,比较结果称为“距离匹配值”(也称马氏距离),反应了样品与标准品的匹配程度[12]。DA是一种有监督模式识别方法,通过计算未知样品光谱到每类物质光谱中心的距离来判断未知样品与哪个类别最相似,结果是提供与未知样品光谱最相似的物质类别的名称[13]。
数学模型的建立需要具有光谱数据和其他定性数据的校正集、预测集和外部验证集样品,将样品的中红外均谱(n= 3)导入TQ Analyst软件,利用随机法对样本集进行划分,各部位选10份样品为外部测试集,剩下的316份样品2/3为校正集,1/3为预测集[14],各部位样本集分布如下(表1)。
表1 五脉绿绒蒿不同部位样品校正集与预测集的样本集分布Table 1 Modeling and validation distribution in different parts of M.quintuplinervia
平滑方法根据不同谱图类型进行选择:原谱图不经平滑处理,一阶导数谱图(D1)、D2均经Norris平滑处理,有效位数为5,有效位间隔为5。再根据TQ Analyst软件的建模方法、光程类型及谱图类型的预处理方法设计正交试验因素水平表(表2)和正交试验表L18(2×32),利用正交试验及极差分析优化建模方法、光程类型及谱图类型。
表2 正交试验因素水平表Table 2 Factor table of orthogonal experiment
根据正交试验下建模条件的组合,记录不同建模组合条件下模型的校正集误判数和预测集误判数,以式(1)和式(2)计算模型的识别率和预测率,以此为指标判断模型效果,识别率和预测率最高的建模条件组合为实际最优组合。对正交试验结果进行极差分析,得出理论最优组合。将实际最优组合与理论最优组合进行比较,选出最佳建模条件,同时利用相关系数法(Correlation Coefficient)确定建模波段。最后,利用优化的建模条件和建模波段建立部位判别模型。
识别率=(校正集总数-校正集误判数)/
校正集总数×100%
(1)
预测率=(预测集总数-预测集误判数)/
预测集总数×100%
(2)
1.3.4 模型评价
对所建模型进行模型性能识别评价,模型性能识别评价除采用上述识别率及预测率为指标外,另采用了误分类率(ER),真正率(TPR),真负率(TNR)和F1进行评价,其中ER指分类预测错误的样本比例;TPR又称灵敏度,指正确识别阳性样本比例;TNR指正确识别阴性样本比例,TPR、TNR和F1越高,ER越低,分类模型的性能越好[15]。各参数计算公式如下:
ER=(FP + FN)/n
(3)
TPR=TP/(TP + FN)
(4)
TNR=TN/(FP + TN)
(5)
F1=2 × TP/(2 × TP + FP + FN)
(6)
式中,TP为真正类,表示真样本被识别为真样本;FN为假正类,表示真样本被识别为伪样本;TN为真负类,表示伪样本被识别为伪样本;FP为假负类,表示伪样本被识别为真样本,n为总样本量。
2 结果与讨论
2.1 特征谱图分析
中红外光谱吸收峰是基频、倍频或合频吸收,具有分子结构的特征性,光谱的不同峰位、峰形代表不同的基团,峰强度代表基团的含量,它反映的是该混合体系中各个官能团的成分的叠加谱,不同混合体系的化学组成不同,故其谱图也不同[16]。根据五脉绿绒蒿不同部位的一维平均谱图可知(图1),五脉绿绒蒿不同部位的红外谱图大体上相似,但在2 852 cm-1处,叶部位具有明显的吸收,而其它两部位吸收不明显;在1 385 cm-1处,仅全草有吸收,其他两部位在此处没有吸收峰。2 852 cm-1处为C-H键对称伸缩振动,1 385 cm-1处为酯类C-H键弯曲振动,说明花和叶部位中基本不含酯类化合物,且在全谱图范围中,全草吸光度普遍高于其它部位,说明全草中化合物的含量高于其它部位,这与Zhao等[11]的研究结果一致。
图1 五脉绿绒蒿不同部位中红外一维平均谱图Fig.1 Full MIR spectra range of different parts of M.quintuplinervia注:a:全草平均谱图;b:叶平均谱图;c:花平均谱图。Note:a:Average MIR spectra of whole herbs;b:Average MIR spectra of leaves;c:Average MIR spectra of flowers.
由于不同部位的红外谱图大体上相似,宏观上难以判断不同部位是否对五脉绿绒蒿中红外一维谱图有影响,故在全波段范围内,对不同部位同一吸收峰处的吸光度值进行单因素方差分析,结果见表3。
表3 不同部位同一吸收峰处的吸光度值单因素方差分析Table 3 One-way ANOVA of each absorbance of different parts
续表3(Continued Tab.3)
波数Wave munber(cm-1)变异来源Source of variation平方和Sum of squares自由度df均方Mean squareF显著性Significance1 736部位间0.21720.10832.459**部位内1.0233060.003总变异1.2403081 634部位间0.76620.38320.600**部位内6.3783430.019总变异7.1443451 516部位间0.10020.0507.950**部位内1.3522140.006总变异1.4532161 413部位间0.57020.28530.238**部位内3.0923280.009总变异3.6623301 385部位间0.16520.0837.357**部位内1.3241180.011总变异1.4891201 322部位间0.32420.16227.762**部位内1.7122930.006总变异2.0362951 246部位间0.56220.28136.998**部位内2.5993420.008总变异3.1623441 104部位间0.70420.35218.203**部位内5.6892940.019总变异6.3932961 056部位间1.66220.83125.640**部位内11.0853420.032总变异12.748344618部位间0.38020.19047.471**部位内1.2553140.004总变异1.635316537部位间0.23920.11935.041**部位内0.6341860.003总变异0.873188
注:**P<0.01。
由表3可知,在全波段范围内,2 852 cm-1处吸光度值之间差异不显著,其他吸收峰处的吸光度值之间的差异均达到了极显著水平,说明五脉绿绒蒿不同部位中化合物含量差别较大。
不同部位粉末的中红外谱图在全波段范围内存在差异,但仅从宏观上难以区分,不利于在生产实践中的推广应用。因此,可根据不同部位各吸收峰处吸光度值之间的差异建立五脉绿绒蒿部位判别模型,以快速准确鉴别五脉绿绒蒿的不同部位。
2.2 模型的建立
2.2.1 建模条件的优化
按正交试验表进行正交试验,结果如表4所示。从表4可知,No.9模型结果在所有试验组合中最好,模型识别率为99.05%,预测率为96.19%,为实际最优组合。
表4 不同部位判别模型正交试验结果直观分析Table 4 Visual analysis of orthogonal test results of part discriminant model
根据各水平的K均值可知,A因素在1水平效果较好,B因素在2水平效果较好,C因素在3水平效果较好,故理论最优组合为A1B2C3,即No.6。根据R值可知,谱图类型是影响判别模型的主要因素,其次为建模方法,光程类型对模型影响效果较小。
理论最优组合为No.6,实际最优组合为No.9,由表4可知No.9模型效果优于No.6,但两种组合的识别率均为99.05%,No.9预测率为96.19%,No.6预测率为95.24%,相差较小,两种组合仅光程类型不同,与极差分析中光程类型影响力度最小的结果一致。最终以No.9组合为建模条件,即建模方法为DM,光程类型为SNV,谱图类型为D2;同时利用Correlation Coefficient方法进行建模波段的选择,最终确定建模波段为3 031~2 810 cm-1及1 800~1 450 cm-1两个波段。
2.2.2 模型的建立
按优化的建模条件及建模波段进行建模,在316个样本集中,叶部位有109个样品,花部位有105个样品,全草有102个样品。在TQ Analyst软件中利用DM方法、SNV归一化和二阶导数处理进行建模,图2为五脉绿绒蒿部位判别模型在前三个主成分中的3D显示图,其识别率为99.05%、预测率为96.19%。将外部测试集的30份样品谱图代入模型中进行验证,仅1份样品识别错误,外部测试集识别率达到96.67%。
图2 五脉绿绒蒿部位判别模型前三主成分3显示D图Fig.2 Part discriminant model of M.quintuplinervia in 3D on top 3 principal components
从模型3D图看,该模型可将花部位分出,但叶部位与全草存在部分交叉,Zhao等[11]以五脉绿绒蒿全草的红外谱图为参照,利用OMNIC 7.0软件的质量检查功能计算花梗、叶、花与全草的相似系数,结果表明全草和叶的相似系数最高;五脉绿绒蒿全草中叶的生物量占比较大,花与根的生物量占比小,以上可能是导致叶部位与全草存在部分交叉的原因。
2.3 模型评价
模型识别性能的评价通过有监督方法进行,通常采用ER、TPR、TNR和F1参数评价。利用式(3)~(6)计算各项参数,结果如表5所示。
表5 不同部位模型识别性能评价参数表Table 5 Evaluation parameters of established model
一个良好的定性模型通常具有低的ER值和高的TPR、TNR和F1值[17]。由表5可知,该模型的ER值在0.02以下,TPR、TNR和F1值在0.97~1.00之间,说明该模型具有较好实用性,可用于快速有效地判别五脉绿绒蒿的不同部位。
3 结论
本研究对五脉绿绒蒿不同部位的中红外一维平均谱图进行分析,并建立了一种快速、高效、准确的原药材部位判别方法。一维平均谱图中,不同部位的红外谱图大体相似,但在2 852和1 385 cm-1处存在差异,且在全谱图范围内,全草吸光度普遍高于其它部位,说明花和叶部位中基本不含酯类化合物,且全草中化合物的含量普遍高于其它部位。部位判别模型的建模条件为Distance Match+SNV+D2,建模波段为3 031~2 810和1 800~1 450 cm-1两个波段,所建模型识别率为99.05%、预测率为96.19%,外部测试集识别率达到96.67%,且识别性能评价良好。该模型具有较好实用性,可用于快速、批量地判别五脉绿绒蒿的不同部位,且对模型使用者的专业性要求不高,有利于在实际生产中推广应用,在保障用药安全性及疗效方面具有重要意义,可为其他藏药材资源不同部位的快速识别提供借鉴或参考。