升麻的1H—NMR指纹图谱—模式识别研究
2013-04-22沈莉,赵燕燕,谢洪平,刘万卉
沈莉,赵燕燕,谢洪平,刘万卉
[摘要] 目的:建立一种基于1H-NMR指纹图谱-模式识别的不同品种升麻的鉴别方法。方法:以1H-NMR技术测定升麻中三萜皂苷类特征提取物的信息,并转化为数据矩阵,采用化学模式识别方法中的主成分分析(PCA)及判别偏最小二乘(DPLS)法进行识别分析。结果:1H-NMR指纹图谱-模式识别能够有效地鉴别不同品种的升麻样本。结论:1H-NMR指纹图谱-模式识别是一种有效的药材分类鉴别方法,可以作为药材质量控制的手段之一。
[关键词] 升麻;1H-NMR指纹图谱;模式识别;主成分分析;判别偏最小二乘;三萜皂苷
升麻是典型的多基源药材,我国境内有升麻属植物8种,仅作为正品升麻而被2010年版《中国药典》所收载的就有3种,包括升麻Cimicifuga foetida L.(西升麻)、大三叶升麻C. heracleifolia Kom.(关升麻)和兴安升麻C. dahurica (Turcz.) Maxim.(北升麻)[1]。
化学研究表明,升麻属植物的主要成分为9, 19-环菠萝蜜烷型四环三萜及其苷类,迄今为止,已从各种升麻中分离得到近200种三萜皂苷类化合物[2-3],以西升麻为原料的三萜总皂苷提取物制剂已成功在国内上市,用于女性围绝经期综合征的治疗[4-5]。在其原料药材质量评价和控制过程中不可避免地要涉及升麻品种鉴别的问题,由于西升麻中不含或几乎不含阿魏酸和异阿魏酸[6-7],采用2010年版《中国药典》方法显然不能满足其品种鉴别的要求。本研究以升麻中的三萜皂苷类化合物为对象,首次采用1H-NMR指纹图谱结合模式识别的方法对升麻进行研究,以1H-NMR为识别变量,运用多种数据分析方法建立了不同品种升麻的识别模型,为升麻的品种鉴别和质量评价提供了一种行之有效的控制手段。
1 材料
升麻药材(表1)均采自甘肃陇南地区及四川九寨地区,大三叶升麻和兴安升麻均购自产地。所有药材均经烟台大学药学院生药教研室赵燕燕副教授鉴定。
Bruker AV400型核磁共振波谱仪,QYJ直切式切片机,SF-300高速粉碎机,SK1200H超声清洗机,LP5-2A型低速离心机,HSC-24A型氮吹仪,FDU-1100型冷冻干燥机。氘代吡啶(CIL公司),甲醇(分析纯,天津四友生物医学技术有限公司)。
2 方法
2.1 甲醇提取物的制备
药材称重后用切片机进行切片,筛去泥土和须根,用高速粉碎机将药材粉碎,经充分研磨后过65目筛,取适量样品置于烘箱中,75 ℃下烘3 h后称取1.0 g干燥粉末置于50 mL塑料离心管中,加入20 mL 70%甲醇,超声提取30 min后以3 000 r·min-1离心10 min,取上清液在氮吹仪中挥干甲醇,加入适量蒸馏水,混匀后冷冻干燥,冻干粉末置于干燥器中避光保存。
2.2 1H-NMR测定及图谱处理
准确称取升麻甲醇提取物冻干粉末20 mg置于5 mm核磁管中,加入0.5 mL氘代吡啶溶解后进行1H-NMR测试。测试用脉冲序列为noesypr1d,谱宽为8 000 Hz,扫描次数128次,采样时间为4.09 s,弛豫时间为10 s,混合时间为0.6 s,温度为25 ℃,在δ 6.04处压制水峰。
通过核磁共振谱仪自带的XWIN-NMR3.5软件进行傅里叶变换,氘代吡啶在1H-NMR谱中呈现3个溶剂峰,将中间的溶剂峰定标为δ 7.57,手动调整相位后保存。将此FID文件导入MestReNova软件,调整基线后,将最低场的溶剂峰(δ 8.77~8.67)峰面积定为1,从δ 6.95到δ 0.00以0.01为间隔进行积分,产生695个数据点。
2.3 模式识别方法
模式识别是化学计量学研究中十分重要的内容,通过对复杂的化学量测数据的分析而揭示物质的隐含性质。本研究综合运用了多种模式识别方法对1H-NMR指纹图谱所提供的数据进行分析研究。所有模式识别分析均通过Matlab 7.0软件完成。
2.3.1 主成分分析(principal component analysis,PCA) 主成分分析是最为常用的一种数据压缩方法,以最优化方法浓缩及综合测量矩阵中的信息,减少数据集维数的同时保留数据集中对方差贡献最大的特征。主成分分析产生2个矩阵,得分矩阵和载荷矩阵。得分矩阵的行和列分别代表主成分(PCs)和不同的样品,通过得分矩阵的前2或3个主成分作图,可以获得直观的二维或三维聚类图,从而方便地对不同类别进行判定。载荷矩阵的每1列对应1个主成分,其中的每1数值均代表该主成分与原始变量的相关。对每1列作图,即获得该主成分的载荷图,可以在一定程度上反映引起聚类的相关化学成分[8]。
2.3.2 判别偏最小二乘法(discriminant partial least square,DPLS) 判别偏最小二乘法是一种基于偏最小二乘回归(partial least square regression,PLSR)的稳健的判别分析方法,是一种有监督的模式识别方法,特别适合于解释变量数多且存在多重共线性,样本观测数少且干扰噪声大的情况。采用DPLS法对样本的1H-NMR谱进行分析时,该法可以同时对氢谱矩阵和类别矩阵进行分解,加强类别信息在氢谱分解时的作用,以提取出与样本类别最相关的波谱信息,即最大化提取不同类别波谱之间的差异,因此PLS方法通常可以得到比PCA方法更优的分类和判别结果[9]。
3 结果与讨论
3.1 升麻1H-NMR指纹图谱的建立
由典型的西升麻、关升麻和北升麻样品的1H-NMR谱图(图1)可知三者具有高度的相似性,谱峰主要分布在δ 0.0~6.4,以环菠萝蜜烷型三萜皂苷及糖类化合物的信号为主[10]。其中δ 0.85为19位环丙烷亚甲基中一个质子的特征信号,δ 0.8~1.5为三萜母环上角甲基的共振信号,δ 1.0~3.2则为三萜母环上亚甲基和次甲基质子的吸收峰,δ 3.5~5.2还有三萜母环上部分化学位移靠近低场的质子以及羟基质子的信号,δ 5.2~5.7则为某些三萜皂苷环上双键的烯氢质子信号。糖类化合物的质子信号则出现在δ 4.0~6.4,其中δ 4.1~5.3为糖环上质子信号,δ 6.2处的双峰为糖端基质子的信号。而在δ 6.4~9.0低场区域,扣除吡啶的溶剂峰,其余多为某些酚酸类或色酮类化合物中部分芳氢质子信号。
谱图同时也展示了3种升麻因化学成分组成差异以及主要类似成分间相对含量不同而产生的某些化学位移及信号强弱的差别。与西升麻相比,关升麻和北升麻的1H-NMR谱图中皂苷类化合物的信号强度明显较低,而糖类、酚酸类及色酮类化合物的信号强度则略高。显然,关升麻和北升麻中三萜皂苷类物质的含量低于西升麻,而糖类、酚酸类及色酮类化合物的含量则相对较高。
3.2 西升麻与关升麻、北升麻的鉴别
为便于讨论,本研究将所有样本分为2类,第一类为西升麻样本,第二类为东北升麻样本,包括关升麻和北升麻。
3.2.1 主成分分析(PCA) PCA方法是一种简单而行之有效的数据压缩方法,本研究首先采用此法对所有样本的1H-NMR数据进行分析。结果表明,前3个主成分的累积贡献率达到87.2%,说明这3个主成分已经可以对85%以上的原变量信息进行解释,故选取这3个主成分进行得分图和载荷图的分析。
前3个主成分共同表征而成的三维PCA得分图(图2),可以清楚地看到西升麻和东北升麻各自聚集成一类,2类样本之间界限清晰,无相互重叠。说明2类升麻之间确实存在差异,而PCA方法可以利用这种差异对其进行区分。从PC1/PC2,PC1/PC3所作的二维得分图(图3),考察这3个主成分对于样本区分的意义。图3显示,西升麻与东北升麻在PC1水平上的区别最为显著:前者全部聚集在PC1得分值较小或为负值的区域,而后者则分散在PC1得分值相对较大的区域。与之相类似,西升麻的PC3得分值也相对较小,但由于东北升麻在PC3水平上的分布范围较广,故无法与西升麻产生明显的区别。无论是西升麻还是东北升麻,其PC2得分值均在较大范围内分散分布,没有明显的聚集。由此可见,PC1是西升麻与东北升麻分类的富信息变量,而PC2和PC3对该分类没有显著的差异,仅仅依赖PC1或PC1/PC2和PC1/PC3均不能获得理想的分类效果。因此,本研究采用PC1/PC2/PC3作为西升麻与东北升麻的分类识别变量,可获得理想的分类效果。
通过对PC1和PC2的载荷分析,可以考察引起2类升麻样本之间区分的因素。主成分的载荷图中,负峰意味着对主成分分类图中得分为负的贡献大,反之,正峰则对主成分中得分为正的贡献大。
分别对PC1和PC2做载荷分析,可获得与1H-NMR谱图类似的载荷图(图4),能够将这些变量与相关的化学位移值一一对应起来,从而更为方便地观察引起PCA分类的相关化学成分。图4显示,δ 0.5~3.0的变量在纵轴上的投影均为负值,该化学位移区间对应升麻中三萜皂苷苷元质子的出峰区域,表明皂苷类化合物的贡献使PC1得分为负值。其中在纵轴上的投影值最大的变量所对应的化学位移为δ 0.75~0.88及δ 1.05~1.40,前者对应19位亚甲基其中一个质子的信号,后者为三萜母核上多个角甲基质子的信号。而δ 4.0~5.2的变量在纵轴上的投影则均为正峰,但强度较弱,表明糖类化合物的贡献使PC1得分为正值,但对PC1影响较小。载荷正值较大的变量主要来自化学位移为δ 4.05~5.15,而载荷负值较大的变量来自化学位移为δ 1.25~1.35,3.6~3.9,5.35~5.55等,根据化学位移区间所对应的化合物类别,可知糖类化合物的贡献使PC2得分为正,而皂苷类化合物的贡献使PC2得分为负。
由此可见,皂苷类成分是引起PCA分类的主要化学成分,即西升麻与东北升麻之间的差异主要体现在所含皂苷类化合物的量上。与东北升麻相比,西升麻大多处于PC1为负的区域,表明其三萜皂苷类成分的含量较高而糖类化合物的含量略低,这与3种升麻的1H-NMR谱图对比结果一致。
对于关升麻和北升麻而言,比较其1H-NMR图谱可以发现,二者之间的相似性远远高于其与西升麻的相似性。PCA分类研究也证实了这一点:图3显示,无论是在PC1,PC2还是PC3水平上,2种升麻样本均交叉错落分布,二者之间存在明显的重叠。显然,关升麻和北升麻之间不存在显著差异。
3.2.2 判别偏最小二乘(DPLS)分析 判别偏最小二乘(DPLS)法是一种有监督的模式识别方法,不仅可以获得优于PCA方法的分类结果,还可预测未知样本的类别。本研究通过DPLS方法建立不同品种升麻的判别模型,从而实现西升麻与东北升麻的快速检测。
每一类升麻样本都被随机地分为2个集合,即校正集和预测集。西升麻的校正集中有25个样本,预测集中有13个样本;东北升麻则分为20个校正集样本和10个预测集样本。首先将校正集样本作为标准样本,应用偏最小二乘回归方法建立校正模型,然后将未参与建模的剩余样本作为预测样本,将其1H-NMR数据代入模型中进行分析。
分析结果显示,以PC1和PC2所作的得分图(图5)对2类样本具有良好的区分效果。所有的西升麻样本都团聚在一个较小的区域之内,分布较为集中,相比之下,由于将关升麻和北升麻合并作为一类样本进行分析,所以该类样本的离散性相对较大,分布范围也较广。这一结果说明西升麻样本之间的差异较小,预示其质量较为稳定;而关升麻和北升麻组成的一类样本之间的差异则较大,表明它们之间的质量差异较大。
以图5中所绘虚线为界,西升麻和东北升麻明显地被区分为2类,彼此间能够很好地分离且不存在类间重叠,表明所建立的识别模型具有良好的分离度。同时,每一类的预测集样本都能够准确地落在校正集的分布范围之内,也不存在明显的过拟合现象,表明该模型能够准确判断升麻类别,对预测集样本的正确识别率为100%,并且具有良好的稳健性,从而保证了该方法对于未知升麻品种判别的重复性。
4 结论
升麻属植物中普遍含有三萜皂苷、酚酸及色酮类化合物,然而不同品种升麻中这些成分的组成及含量存在较大差异,研究表明,西升麻中三萜化合物的含量明显高于关升麻和北升麻[11-12]。因此,以三萜皂苷类化合物为主要有效成分,临床用于围绝经期综合征等内分泌系统疾病治疗时,关升麻和北升麻不能代替西升麻。为确保药物临床安全有效,必须严格控制原料药材的质量,有关升麻品种的有效鉴别也就显得尤为重要。升麻中三萜皂苷类化合物的1H-NMR指纹图谱能够提供大量丰富的信息,以此为基础进行升麻的品种鉴别和质量控制无疑更为真实可靠。
本研究以1H-NMR为识别变量,运用PCA和DPLS方法对不同品种的升麻样品进行分析,均可实现西升麻与东北升麻(包括关升麻和北升麻)的分类。PCA得分及载荷分析表明,西升麻样本和东北升麻样本之间有明显区别(在PC1水平上),三萜皂苷类化合物是引起这一区分的主要化学成分,此类化合物在西升麻中的含量较高,而在东北升麻中所含糖类等成分的量则较高。通过DPLS方法则可建立稳健的识别模型,该模型具有良好的分离度和稳定性,预测准确率可达100%,能够实现西升麻样本和东北升麻样本之间的快速、准确分类。
以三萜皂苷类化合物为对象的1H-NMR指纹图谱-模式识别方法是基于药材特征性总成分的分析方法,其结果能够更为真实地反映药材的内在品质,实现不同品种升麻的有效、快速鉴别,是较现有药典方法更为科学、准确的鉴别方法。
[参考文献]
[1] 中国药典. 一部[S]. 2010: 68.
[2] 林玉萍,邱明华,李忠荣. 升麻属植物的化学成分与生物活性研究[J]. 天然产物研究与开发, 2002, 14 (6) : 58.
[3] 鞠建华,杨峻山. 升麻族植物三萜皂甙的研究进展[J]. 中国中药杂志, 1999, 24 (9): 517.
[4] 张丹,徐克惠,段秀蓉. 希明婷片治疗妇女围绝经期综合征的临床观察[J]. 现代妇产科进展,2006, 15(12): 934.
[5] 薛赛琴,姜坤,张琼. 希明婷片治疗女性更年期综合征364例[J]. 中国中西医结合杂志,2006, 62 (10): 891.
[6] 潘瑞乐,陈迪华,沈连刚,等. 高效液相色谱法测定中药升麻中阿魏酸和异阿魏酸的含量[J]. 药物分析杂志, 2000, 20 (6): 396.
[7] 司丹丹,李清,陈晓辉,等. RP-HPLC法同时测定升麻中3种有机酸的含量[J]. 沈阳药科大学学报, 2007, 24 (12): 727.
[8] 袁洪福,陆婉珍. 现代光谱分析中常用的化学计量学方法[J]. 现代科学仪器, 1998, 5: 6.
[9] 王惠文,吴载斌,孟洁. 偏最小二乘回归的线性与非线性方法[M]. 北京: 国防工业出版社, 2006: 98.
[10] 鞠建华,刘东,杨峻山. 天然环菠萝蜜烷型三萜皂苷类化合物的波谱学规律的探讨[J]. 波谱学杂志,2001, 18 (1): 79.
[11] 潘瑞乐,陈迪华,斯建勇,等. 反相高效液相色谱法测定不同品种升麻中27-脱氧升麻亭的含量[J]. 中南药学, 2007, 5 (3): 206.
[12] 姚梅芬,王岳峰,李展,等. 反相高效液相色谱法测定升麻药材中升麻苷H-1的含量[J]. 天然产物研究与开发, 2011, 23: 696.
Classification of Cimicifuga species based on 1H-NMR fingerprint
combined with pattern recognition technique
SHEN Li1, ZHAO Yan-yan2, XIE Hong-ping3, LIU Wan-hui2*
(1. School of Medicine and Pharmacy, Ocean University of China, Qingdao 266003, China;
2. School of Pharmacy, Yantai University, Yantai 264005, China;
3. College of Pharmaceutical Sciences, Soochow University, Suzhou 215123, China)
[Abstract] The metabolomic analysis of three Cimicifuga species was performed using 1H-NMR spectroscopy and pattern recognition (PR) techniques. A broad range of metabolites could be detected by 1H-NMR spectroscopy without any chromatographic separation. The analysis using principal component analysis (PCA) and discriminant partial least square (DPLS) of the 1H-NMR spectrum showed a clear discrimination between C. foetida and the other two species. The major metabolites responsible for the discrimination were triterpenoid saponins and saccharides. These results indicated that the combination of 1H-NMR and PR provides a useful tool for chemotaxonomic analysis and authentification of Cimicifuga species, and could used for the quality control of plant materials.
[Key words] Cimicifuga; 1H-NMR fingerprint; pattern recognition; principal component analysis (PCA); discriminant partial least square (DPLS); triterpenoid saponin
doi:10.4268/cjcmm20130215
[责任编辑 孔晶晶]