基于投影寻踪模型评价当归药材质量
2015-01-13顾志荣张亚亚王亚丽孙宇靖
顾志荣, 张亚亚, 王亚丽*, 孙宇靖
(1.甘肃中医学院科研实验中心,甘肃兰州730000;2.甘肃中医学院当归研究所,甘肃兰州730000)
基于投影寻踪模型评价当归药材质量
顾志荣1,2, 张亚亚2, 王亚丽1,2*, 孙宇靖1,2
(1.甘肃中医学院科研实验中心,甘肃兰州730000;2.甘肃中医学院当归研究所,甘肃兰州730000)
目的以投影寻踪模型建立当归药材的质量评价方法。方法以甘肃及云南产75批当归为样本集,当归中的阿魏酸、正丁基苯酞、正丁烯基苯酞、Z-藁本内酯、亚油酸、挥发油、醇浸出物,以及Fe、Zn、Mn、Mg、Ca、Na和K等元素的质量分数为指标集,采用DPSV 7.0.5数学软件构建投影寻踪评价模型。结果各评价指标对当归质量的贡献程度为挥发油>醇溶性浸出物>Z-藁本内酯>阿魏酸>正丁烯基苯酞>正丁基苯酞>Fe>亚油酸>Ca>Zn>Mn>Mg>K>Na。结论基于投影寻踪模型得到的当归药材质量评价结果与实际情况较为相符。
当归;投影寻踪;质量评价
在中药质量评价中,应用现代仪器分析技术往往会得到海量、多维的数据信息,如何对这些数据进行科学有效地分析、建模及利用,是现代中药质量评价的核心内容之一[1]。投影寻踪 (projection pursuit,PP)是美国科学家Kruskal提出的一种适用于高维、非线性、非正态分布数据处理的新兴统计学建模方法,是统计学、应用数学及计算机科学的交叉学科[2]。该法集特质提取与数据压缩于一体,具有数学意义清晰、模型稳健性好、抗干扰能力强和准确度高等优点,而且便于对评价指标和样本进行重要性的优劣排序以及分类研究[3],目前已在农业[4]、 水文[5]、 矿业[6]、 经济学[7]、 地理学[8]以及环境科学[9]等诸多领域得到了广泛的应用,并取得了良好的效果,但其在中药研究领域的应用研究则未见相关报道。本研究首先介绍PP模型的原理和建模方法,然后以当归药材的综合质量评价为例进行案例分析,以期为中药综合质量评价提供一种新的方法与思路。
1 PP数学模型的原理与建模方法
1.1 PP数学模型的原理 PP数学模型的实质是利用计算机技术,通过把高维数据投影到低维的子空间,寻找能够反映原来高维数据结构或特征的投影,然后在低维空间研究数据结构与特征,从而达到分析与研究高维数据的目的[2]。
1.2 PP数学模型的建模方法[5-7,9]
1.2.1 建立评价矩阵 设待评价样本集的样本容量为n,评价指标集 (变量)的指标个数为p,第i个样本的第j个评价指标值为x*ij(i=1,2,…,n;j=1,2,…,p),则所有待评价样本的全部指标数据可以用n×p的矩阵X*表示:
1.2.2 无量纲化处理 当各评价指标的量纲不同时,需对其进行无量纲化处理。对数值越大越优的评价指标及数值越小越优的指标分别按式 (2)和式 (3)进行处理:
式中:max( x*j)、min( x*j)分别为第j个指标的最大值和最小值。
由此得到无量纲化的n×p的标准化评价矩阵X:
1.2.3 线性投影 投影寻踪分析能够最大程度地反映数据特征和充分挖掘数据信息的最优投影方向,从而实现数据降维,其实质是把p维数据{xij}(i=1,2,…,n;j=1,2,…,p)综合成1维向量a= {a1,a2,a3,…,ap}投影方向的投影值zi:
1.2.4 构造投影目标函数 根据分类原则,投影值的分布特征应尽可能满足下列要求:局部投影点应尽可能密集,最好凝聚成若干点团;整体投影点团之间应尽可能散开,即应使p维数据在1维空间散布的类间距离Sz和类内密度Dz同时取得最大值,由此将投影目标函数表示为类间距离和类内密度的乘积:
式中:Sz为投影特征值zi的标准差,也称类间距离;Dz为投影特征值zi的局部密度,也称类内密度。Sz和Dz分别按式 (7)、式 (8)计算:
式中:Ez为序列 {zii=1,2,3,…,n }的平均值。
式中:R为局部密度窗口半径,其取值的原则是既要使包含在窗口内的投影点的平均个数不能太少,避免滑动平均偏差太大,又不能使它随着样本容量n的增大而增加太高,在实际运算中取R=α·Sz,α依据投影点zi在区域间的分布情况进行适当调整,可取0.1,0.01,0.001等,多取0.1;rij= zi-zj,表示样本之间的距离;ut为单位阶跃函数,当t≥0时,其值为1;当t<0时,其值为0。
1.2.5 优化投影目标函数,确定最佳投影方向
不同的投影方向反映不同的数据结构特征,最佳投影方向即为最大可能地暴露高维数据某类特征结构的投影方向。对于给定的样本集指标值,投影目标函数Q(a)只随投影方向的变化而变化,因此,在一定的约束条件(s.t.)下,可运用目标函数最大化对其进行优化,由此估计最佳投影方向。最大化目标函数为:
式 (9)是一个以aj为优化变量的复杂非线性优化问题,目前matlab、R、DPS等数学软件中的相应模块能够实现投影目标函数的优化。
1.2.6 建立PP评价模型 由式(9)求得最佳投影方向a*j,将a*j取值进行大小排列,可以得到各评价指标对样本贡献程度大小;将a*j代入式 (5)求得各样本的最佳投影值z*j,将z*j进行大小排列,可以得到各样本的优劣排序。
2 案例分析
2.1 样本集来源 当归采集自甘肃及云南的14个县级主产区,共75批,经甘肃中医学院药学院晋玲教授鉴定为Angelica sinensis(Oliv.)Diels,样本信息见表1。将药材洗净,阴干,粉碎后过50目筛,冷冻保存。
表1 当归样本信息Tab.1 Sample information of Angelica sinensis
2.2 评价指标体系的构建 本研究从有机成分与无机元素两个方面构建当归药材质量评价的指标体系。当归主要药效成分为挥发油与有机酸[10],因此选择正丁基苯酞、正丁烯基苯酞、Z-藁本内酯等当归挥发油中的主要成分,阿魏酸、亚油酸等当归有机酸中的主要成分,以及挥发油提取率、醇溶性浸出物含量作为当归有机成分的评价指标;选取对人体有益的无机元素Zn、Mn、Fe、Mg、Ca、Na及K作为无机元素的评价指标。
2.3 指标集数据的获取 采用RP-HPLC-DAD(高效液相色谱)同时测定并计算样本中阿魏酸(x1)、正丁基苯酞 (x2)、正丁烯基苯酞 (x3)、Z-藁本内酯 (x4)以及亚油酸 (x5)的质量分数;按 《中国药典》2010年版一部附录X D项下乙法[11]测定挥发油提取率 (x6);按 《中国药典》2010年版一部附录X A醇溶性浸出物测定法项下热浸法[11]测定当归醇溶性浸出物含量 (x7);采用AAS(原子吸收光谱)测定样本中Zn(x8)、Fe(x9)、Mn(x10)、Mg(x11)、Ca(x12)、Na(x13)及K(x14)的质量分数,由此得到中药当归质量评价的指标集数据,见表2。
表2 当归质量评价指标集数据Tab.2 Data of index set of quality evaluation of Angelica sinensis
续表2
2.4 PP模型的建立与分析
2.4.1 PP模型建立的方法 随机选取23批当归样本 (占样本总数30%)作为模型的验证集(Validation set,简写为V),其余52批样本(占样本总数70%)作为校正集(Calibration set,简写为C),以校正集样本建立PP模型,对所建模型进行保存,然后以验证集样本对模型的泛化能力及稳健性进行验证。将当归质量评价的指标集数据(表2)导入DPS V 7.0.5数学软件中,选择“数据规格化”进行无量纲化处理,选中校正集数据,然后选择 “投影寻踪综合评价法”功能,取局部密度控制参数α为0.10。
2.4.2 最佳投影方向分量值的确定 按“2.4.1”项运行后得出14个评价指标的最佳投影方向分量值为a*=(0.357 0,0.280 1,0.296 5,0.365 2,0.209 9,0.389 7,0.381 9,0.190 2,0.275 6,0.175 3,0.148 5,0.198 7,0.074 2,0.145 4)。最佳投影方向分量值代表了相应各指标的权重,实际反映出各评价指标对当归药材质量的贡献程度。14个评价指标对当归药材质量的贡献程度由大到小排序为挥发油提取率>醇溶性浸出物>Z-藁本内酯 >阿魏酸>正丁烯基苯酞>正丁基苯酞>Fe>亚油酸>Ca>Zn>Mn>Mg>K>Na。
2.4.3 PP模型的验证及分析 根据最佳投影方向的分量值a*,由式 (5)求得校正集样本的最佳投影值z*,然后选中验证集数据,执行所建模型,求得验证集样本的最佳投影值z*,结果见图1。由图1可见,投影值(Projection value)在45~55之间的样本共有37批,其中校正集样本25批,验证集样本12批,投影值在35~45之间的样本共有23批,其中校正集样本17批,验证集样本6批,投影值在25~35之间的样本共有15批,其中校正集样本10批,验证集样本5批,验证集样本与校正集样本的批次及投影值的分布相一致。对样本的最佳投影值z*按集内与整体分别进行大小排列,得到各样本的优劣排序,见表3。可知,校正集样本中,排名在前26名内的样本甘肃岷县产有11批,渭源县产有3批,宕昌县产有4批,漳县产有2批,武都县产有1批,分别占集内各自产地样本总数的 84.6%、37.5%、80.0%、28.6%及20.0%,集内云南产3批当归样本排名均在前26名内。验证集样本中,排名在前12名内的当归样本甘肃岷县产有6批,渭源县产有2批,漳县产有2批,武都县产有2批,分别占集内各自产地样本总数的85.7%、100%、66.7%及100%。可见,校正集与验证集分析结果一致,两者均表明甘肃岷县、渭源县、宕昌县、武都县、漳县以及云南产当归样本的投影值较大,质量较好。上述分析共同表明,该模型的泛化能力及稳健性较好。
对所有当归样本进行整体分析,可知投影值排名在前37名的样本中,岷县产有17批,渭源县产有6批,漳县产有4批,宕昌县产有4批,武都县产有3批,分别占各自产地样本总数的85.0%、60.0%、40.0%、57.1%与60.0%,云南产4批当归样本排名均在前37名,这些产地的当归样本的平均投影值较大,质量较好,这样的排序与当归药材的道地性内涵及产地实际情况相符。各产地当归样本的平均投影值 (见图2)与上述分析结果一致。
图1 校正集与验证集样本的投影值分布图Fig.1 Projection value distribution of calibration set and validation set
表3 样本集投影值及排名Tab.3 Projection value and rank of sample set
图2 各产地当归样本的平均投影值Fig.2 Average projection value of samples froMdifferent grow ing areas
3 讨论
基于投影寻踪法的中药质量评价模型可将高维的指标数据转化到低维,实现了多层次、多角度的中药质量综合评价。该模型不依赖于人为的等级判别标准,由于其最佳投影方向是通过模型优化获得的,因此客观性强,能更好地反映不同评价指标对中药质量的贡献差异,克服了一般评价方法中权值存在较大主观性的问题。利用该方法可以在影响中药质量的众多因素中识别和优选主要因素,减少综合评价的工作量以及次要因素对其结果的影响。经验证,本实验所建的中药质量评价PP模型泛化能力较强,稳健性较好,校正集与验证集样本的投影值分布均匀,两者所得结论相一致。但也应注意到,该模型在实际运用中应尽量增加校正集样本容量,扩大评价的药材产地,使模型的泛化能力及稳健性进一步增强,增加实用性。
各评价指标对当归药材质量的贡献程度为:挥发油提取率>醇溶性浸出物>Z-藁本内酯>阿魏酸>正丁烯基苯酞>正丁基苯酞>Fe>亚油酸>Ca>Zn>Mn>Mg>K>Na。以上结果表明,有机成分对当归质量的贡献程度总体大于无机元素,而且Fe元素的贡献程度大于其他无机元素,这与当归防病治病的最主要活性成分为有机成分及Fe元素的事实一致。挥发油提取率与醇溶性浸出物含量是贡献程度最大的指标,反映了当归药材中有机酸类、苯酞类以及内酯类等多种有效部位,也是《中国药典》2010年版规定的当归综合质量评价的主要考察指标。阿魏酸是当归活血、调经、止痛的主要活性成分[12],也是 《中国药典》2010年版规定的当归质量控制的主要特征指标[11];Z-藁本内酯在当归挥发油中含有量最高,其次为正丁烯基苯酞及正丁基苯酞,其中Z-藁本内酯是评价当归挥发油及当归药材重要的指标之一[13];Fe元素与当归的补血作用密切相关[14]。校正集与验证集分析结果均表明,甘肃岷县、渭源县、宕昌县、武都县、漳县以及云南产当归样本的投影值较大,质量较好,这与当归药材的道地性内涵及产地实际情况相符,对支持 “岷归” (指甘肃岷山一带所产当归)和 “云归”(指云南一带所产当归)作为道地药材具有很大的意义和价值。
[1]延春霞,周 健,金城基,等.基于多指标成分多波长测定的防暑喷雾剂质量评价方法研究[J].中成药,2013,35(4):713-717.
[2]Qin B Y,Lin X K.Construction of response surface based on projection pursuit regression and genetic algorithm[J].Phys Proc,2012,33:1732-1740.
[3]Hou S,Wentzell P D.Fast and simplemethods for the optimization of kurtosis used as a projection pursuit index[J].Anal ChiMActa,2011,704(1-2):1-15.
[4]张 静,谢新亚,张吉兵,等.基于混沌遗传算法的投影寻踪分类法与模糊综合评判法在农业机械选型中的比较[J].江苏农业科学,2013,41(12):400-401.
[5]李祚泳,张正健,余春雪.基于投影寻踪回归的指标规范值的水质评价模型[J].水文,2012,32(3):6-12.
[6]王益伟,罗周全,杨 彪,等.基于投影寻踪模型的矿山地下水灾害分级评价[J].中国安全生产科学技术,2014,10(3):42-46.
[7]楼际通,楼文高,余秀荣,等.商业银行个人信用风险评价的投影寻踪建模及其实证研究[J].经济数学,2013,30(4):26-32.
[8]王 芳,冯艳芬,卓 莉,等.基于改进遗传算法投影寻踪的大城市郊区耕地安全综合评价[J].热带地理,2013,33(4):373-380.
[9]赵西宁,王玉宝,马学明,等.基于遗传投影寻踪模型的黑河中游地区农业节水潜力综合评价[J].中国生态农业学报,2014,22(1):104-110.
[10]宋秋月,付迎波,刘 江,等.当归的化学成分研究[J].中草药,2011,42(10):1900-1904.
[11]国家药典委员会.中华人民共和国药典:2010年版一部[S].北京:中国医药科技出版社,2010:124,附录62,附录63.
[12]赵东平,杨文钰,陈兴福.阿魏酸的研究进展[J].时珍国医国药,2008,19(8):1839-1841.
[13]杜俊蓉,白 波,余 彦,等.当归挥发油研究新进展[J].中国中药杂志,2005,30(18):1400-1406.
[14]张 玉,戴立泉,王凯平.正交试验优化当归多糖铁的合成条件研究[J].中成药,2007,29(4):581-583.
Quality evaluation of Angelica sinensis based on projection pursuitmodel
GU Zhi-rong1,2, ZHANG Ya-ya2, WANG Ya-li1,2*, SUN Yu-jing1,2
(1.Center of Scientific Experiment,Gansu University of Traditional Chinese Medicine,Lanzhou 730000,China;2.Institute of Angelica sinensis,Gansu University of Traditional Chinese Medicine,Lanzhou 730000,China)
AIMTo use projection pursuitmodel to evaluate the quality of Angelica sinensis.METHODSSeventy-five batches of Angelica sinensis growing in Gansu and Yunnan Province were collected and builtof a sample set,the contents of ferulic acid,3-butylphthalide,Z-butylidenephthalide,Z-ligustilide,linolic acid,volatile oil,
Angelica sinensis;projection pursuit;quality evaluation
R282.6
:A
:1001-1528(2015)05-1025-07
10.3969/j.issn.1001-1528.2015.05.022
2014-06-12
国家自然科学基金 (30960037);甘肃省发改委战略新兴产业和产业技术研究与开发专项项目 (2011);甘肃中医学院研究生创新基金项目 (CX2014-06)
顾志荣(1988—),男,硕士,研究方向为中药分析和质量控制。Tel:13519311935,E-mail:sanxincao92@sina.com
*通信作者:王亚丽 (1963—),女,博士,教授,博士生导师,研究方向为中药分析和化学计量学研究。E-mail:cnwy11166@hotmail.comand ethanolic extract coupled with the inorganic element contents of Fe,Zn,Mn,Mg,Ca,Na and K were composed of index set,and DPSV 7.0.5 statistics softwarewas employed to establish the projection pursuitmodel of quality evaluation.RESULTSThe results showed that the contribution degree of evaluation index to the quality of Angelica sinensis ranked in descending order,volatile oil>ethanolic extract>Z-ligustilide>ferulic acid>Z-butylidenephthalide>3-butylphthalide>Fe>linolic acid>Ca>Zn>Mn>Mg>K>Na.CONCLUSIONThe quality evaluation result based on established projection pursuitmodel is in line with actual situation of Angelica sinensis.