数据分析应用于中药谱效关系中的研究进展

2018-01-18潘杰刘德胜颜贵明

中医药学报 2018年4期

潘杰,刘德胜，颜贵明

(安徽中医药大学，安徽合肥 230012)

传统中药方剂常常是多种中药配伍而成，具有成分复杂、不明确和药理作用机制不明等特点。这些特点使得中药药效饱受争议，难以在国际上进一步推广。近年来，中药学研究者们致力于中药药理药效的研究。大部分研究集中在通过对药材的有效成分进行提取和分离得到单个有效成分，如人参皂苷[1]和青蒿素[2]等，再对提取出来的单个有效成分进行药理和药效学研究。虽然这样的研究克服了中药方剂成分复杂的问题，并且在一定程度上解释了单个有效成分的药理学活性及作用机制，但是其作用疗效相对于原本的中药方剂却大打折扣，即使在剂量加倍的条件下，其作用效果依旧不佳。于是越来越多的研究者提出不同药理机制已明确的有效成分之间是否可以协同作用的概念。中药谱效关系已经被广泛地运用到了中药药效研究、药物配伍、炮制工艺改良和药效预测等领域[3-4]。该方法是指将已获得的中药指纹图谱与中药的药理药效学研究成果，通过各种生物信息学方法，建立两者的线性或非线性相关关系，最终得到“谱-效”映射关系，用于预测单味药物或中药复方制剂的药效和药理机制[5]。不可否认的是，数据分析在“谱-效”建模过程中发挥了重要的作用。而数据分析手段的科学性和合理性影响着“谱-效”建模的准确性和有效性。近年来，随着大数据时代的来临，越来越多谱效分析研究开始出现，对不同的数据分析算法的了解和选择决定了最终“谱-效”建模的有效性。本文将就近十几年以来的谱效分析的数据分析算法进行综述，使读者能充分认识这些数学建模方法，择优选择。

1 有效成分与药效的关联度预测

对各有效成分与药效之间的相关性预测可采用人工神经网络、灰关联度分析和相关分析等方法，这些数据分析方法可以建立中药图谱与药物有效性的关系，为中药药效预测提供可能。

1.1 灰关联度分析(grey relational analysis，GRA)

关联度是指两个变量的随时间或其他的实验条件的变化趋势的相关性，若两个变量的同向变化趋势程度高，则两个变量的关联度高，反之则关联度低。灰关联度分析即通过度量变量的发展趋势的相同或相异程度，来衡量相关性。这类相关分析是对单一观察对象表现现象的表观评估，这些具有关联性的变量其本质上常常是互相影响，具有因果关系、协同关系或者是拮抗关系的。通过相关关系在一定程度上可以预估变量内部本质的互作关系。灰关联度分析用于样本的信息量单一，影响因素复杂的图谱，可以客观地体现各成分间的影响和互作。其基本分析步骤为:①分析中药图谱，仔细对比获得共有峰，用相应的药效学参数指标来作为评估标准，无量纲化处理参考数列和比较数列，消除不同计量单位引起的差异;②计算得到药效指标和共有峰之间的绝对差值;③计算得到药效指标与每个特征峰间的关联系数，以平均值法求得关联度[6]。如果两个研究变量在随实验加载条件变化而变化过程中的一致性程度较高，那么就定义为两者关联度比较大，相反，变化一致程度低则两者关联度小。梁建钦等[7]从芒果叶中利用不同极性溶剂提取到了有效物，已知这些提取物的抗炎特性差异很大，通过 HPLC 法建立指纹图谱。将昆明小鼠随机分为三组，对照组给予生理盐水作为阴性对照，地塞米松组作为阳性对照，实验组给予芒果叶提取物，经二甲苯诱导炎症后，通过测定耳肿胀度作为抗炎药效指标。数据经统计分析，把芒果叶不同极性提取物的抗炎药效作为参考序列，把芒果叶不同极性溶剂提取物图谱中特征峰峰面积数据作为比较序列，先对两组数列进行无量纲化处理，求得两组数列的灰色关联系数，分别计算各个指标与参考序列对应元素的关联系数的均值，称之为为关联序，最后对关联序进行排序，排序靠前则为重要药效物质。最终发现了芒果叶提取物抗炎作用的部分物质基础是芒果苷及X1(关联系数=0.901 6)，X3(关联系数=0.955 8)峰。

1.2 人工神经网络(artificial neural networks，ANNs)

ANNs是一种模拟人类神经元网络信号传递方式的并进行信息化处理的数学建模算法。通过模仿大脑信号处理和记忆信号等方式进行信号归纳处理。它具有以下几个特点(1)非线性,(2)非局限性,(3)非常定性,(4)非凸性。它的优点在于其非线性拟合能力，且不需要实现建立数学模型，充分考虑了事物内部作用的复杂性及关系的模糊性，对复杂的信息进行简化建模处理。其研究程序一般为:①利用已有的光谱/色谱提取化学组分信号;②对信号进行转换和压缩，用来提取特征峰的有效信号;③将特征峰的有效信号与相对应的药效学指标建立一定的映射函数关系，同时预测特征峰的综合药效。许雯雯等[8]在建立气滞胃痛颗粒全时段多波长融合指纹图谱分析方法的基础上，对6味药材随机配比成不同比例，用LPS诱导小鼠单核巨噬细胞释放TNF-α，IL-6，NO，检测各配比对这些细胞因子产生的抑制率作为抗炎药效指标，先用灰色关联度分析将药效指标与各组HPLC指纹图谱关联得出各色谱峰对抗炎活性的关联程度，再用BP神经网络进行拟合：先通过程序算法得到BP网络预测值，再对测定值和预测值进行线形回归，最后得到回归系数为0.983，说明本次实验的预测性能较佳。

1.3 双变量相关分析(bivariate correlations analysis，BCA)

相关分析是通过对样本原始数据进行统计学分析，计算其相关性系数来衡量两组或几组数据之间的关系的一种算法[9]。其基本步骤为:①两组变量的正态性验证;②两组数据一个作为横坐标，一个作为纵坐标做散点图，直观判断两组数据是否相关和相关类型;③求得相关系数;④对相关系数进行假设检验，得出结论。刘旭等[10]通过结扎大鼠冠状动脉造急性心肌缺血大鼠模型，利用HPLC获得川芎提取物指纹图谱，将各有效成分提取出来并给模型大鼠给药，测定血清SOD活性、MDA含量作为抗心肌再灌注损伤药效评估指标。最后将川芎提取物药效数据与指纹图谱的共有峰的相对峰面积相关联，运用双变量相关分析，最终发现阿魏酸、川芎嗪可显著降低血清中丙二醛(MDA)等的含量，可显著升高血清超氧化物歧化酶(SOD)活力，均属于中药川芎抗心肌缺血再灌注损伤的主要有效成分。

2 阐明各成分对药效贡献率的方法

通过传统的药理学和药效学研究，我们明确了有效成分的药效作用。再通过有效成分与药效的关联度预测，我们可以得到药物的谱效关联性。但具体有效成分的分析需要通过多元线性回归和偏最小二乘回归分析等统计学数据分析进行进一步阐明。构建准确科学的回归模型，可以初步衡量各有效成分对药效的贡献程度。

2.1 多元线性回归(multiple linear regression，MLR)

多元线性回归是通过建立多个自变量和单个因变量的回归模型，对每个自变量对因变量的影响程度进行参数评估的统计学经典算法。MLR是研究单个因变量与多个自变量间的线性回归模型构建的统计学方法[11]。通常用于构建非表数据与部分表观易分析测得指标的统计学算法，从而实现通过易测指标对难测指标进行预测分析。其主要想法是:①先量化处理数据，选取并引入影响程度较大的变量;②计算逐步回归方程;③对回归方程进行假设检验并评价其有效性。吴尤娇等[12]利用HPLC分析方法得到广西不同产地的10批毛郁金药材的指纹图谱分析。通过高脂饲料喂养建立高脂血症大鼠模型，连续3周给药，设正常组、高脂模型组、辛伐他汀组和10批不同产地毛郁金乙醇提取物给药组，以对高脂大鼠血清CHOL、TG含量降低程度作为降脂药效指标，采用多元线性回归分析研究各色谱与降血脂作用的相关性。

2.2 偏最小二乘回归分析(partial least squares，PLS)

偏最小二乘回归分析是综合了多因变量对多自变量的回归建模分析和主成分分析在内的多元数据降维分析方法[13]。特别当各变量内部高度线性相关时，用偏最小二乘回归分析更有效。另外，偏最小二乘回归较好地解决了样本个数少于变量个数等问题。其主要方法步骤为:①对自变量与因变量进行线性组合;②转变成无相互关系的综合变量;③对新构建的综合变量进行回归分析。邓书鸿等[14]通过 HPLC 获得三类黄芪提取物指纹图谱，以小鼠自入水后到沉入水中 8 s 不能浮出水面的时间来作为衡量抗疲劳药效的指标。采用偏最小二乘回归分析方法分析黄芪提取物 HPLC 指纹图谱与抗疲劳药效作用之间的谱效关系。最终结果发现对谱效关系有重要贡献的变量共有36个(包括黄芪多糖和35个色谱峰)。

3 重组数据结构探寻主要活性成分的方法

随着越来越多的中药化学成分的指纹图谱的阐明，信息多样的中药图谱所包含的信息也越来越多样化。由于中药成分的复杂性，我们希望找到最主要的药效成分来进一步进行新药开发。但往往重要的有效成分并不是简单地配比，而是多个变量以不同的效率去影响总体的药效。通过主成分分析及典型相关分析的多因素降维算法，将原来多个维度的数据降维成二维或三维数据进行分析，用以初步判断各个化学成分对药效的贡献效益大小。

3.1 主成分分析法(principal component analysis，PCA)

主成分分析法是经典的聚类分析方法之一。主成分的确定由累计贡献率和以特征值决定，累计贡献率以>85%且特征值以λi≥1为佳[15]。其基本建模步骤是:①原始指标数据标准化，并求得各成分间的相关系数矩阵R;②求得R矩阵的特征值、特征向量和贡献率，用贡献率与特征值确定主成分个数并解释主成分含义;③合成主成分，并得到综合评定。刘青萍等[16]采用HPLC法获取了12批补阳还五汤全方和14批补阳还五汤精简方的指纹图谱数据，采用大脑中动脉线栓法建立大脑中动脉闭塞模型，检测脑干湿重和脑梗死面积作为脑损伤保护药效评估指标，运用主成分分析法对采集的数据进行降维处理，再运用灰色关联度法将指纹图谱特征峰和脑损伤的保护药效关联起来，最终发现保留时间为tR=6.47、20.65、26.40 min的化学成分，调控脑梗死面积、脑水肿的贡献度最佳。

3.2 典型相关性分析(canonical correlation analysis，CCA)

典型相关性分析利用典型的相关系数对两组变量线性相关程度进行定量描述，是一种简化数据结构的分析方法[17]。他的特点是可以通过研究相关关系较大的几对典型代表变量，替代了两组变量之间的复杂相互关系。分析的步骤:①确定相关分析中的几组贡献率较大的典型变量;②提取典型变量;③正态性检验分析;④估计典型模型，评价拟合情况，计算相关系数;⑤解释典型变量;⑥显著性检验。于海帅等[18]利用HPLC方法得到了7种产地漏芦的指纹图谱，采用噻唑蓝法检测了几种漏芦对胃癌细胞的抑制增殖作用作为药效研究指标，利用典型相关分析对漏芦成分、药效数据进行相关分析。

4 总结

中药谱效关系的建立的核心在于建立中药指纹图谱与中药药理药效的映射关系，当然这也是它的难点所在。中药指纹图谱包括生物指纹图谱和化学指纹图谱，生物图谱包括DNA图谱和蛋白图谱，主要用于中药的鉴定，而化学指纹图谱则包括了色谱图谱和光谱图谱，也就是我们传统意义上的谱效分析中的“谱”[19]。中药药理药效学研究与传统意义上的药效学研究的方法一致，通过离体细胞实验和在体动物实验两种实验方法进行研究，最终目的在于确定目标药物制剂的药物效应和药物作用靶点。值得注意的是，中药指纹图谱的研究和药理药效的研究通常是分开独立进行的，在研究过程中两者是互相独立的，要找到两者的相关联系需要选择合适的数据处理技术来建立两者之间的相互映射关系。

第一步需要找到指纹图谱与药物之间的相关关系。自然界中各个对象之间常常存在许许多多的互作关系，比如协同、拮抗或者因果关系等，两个对象之间可能存在几种以上的互作关系，所以当很多事物联系成一个网络的时候，其复杂程度显而易见。相关关系是通过估量两个事物的变化趋势和走向的一致性，来初步推测两者之间关联性的一种算法，通过容易观测到的指标之间的变化来对对象内部联系进行推测。建立初步确定一般相关关系之后，需要开始第二歩，即通过简单的回归分析进行线性或非线性拟合，初步判断多个自变量对同一个因变量作用的比重。但我们都知道，自然环境中的因素并不是简单的配比，它具有数量多且关系复杂的特点，因此这时候我们需要进行第三步，即对数据进行降维分析，将复杂且多的数据降成二维或三维的数据，并寻找到配比最合理，拟合最佳的方式，更加全面地评估各组分对于总体药效的奉献比重。

当然所有的数据处理算法都有各自的优势和劣势，为了能更加准确合理的对药效关系评估，需要多种算法的结合和相互验证，以建立最为科学合理的“谱-效”数学模型。随着信息化时代的来临，各个领域都面临着大数据的革新，在生命科学领域和药物研究领域更是如此。其实随着时代的进步，如何更加高效和科学的开展科学研究已经成为一个我们不能回避的问题。比如在如今的中药药效关系研究当中就存在这样一个问题，每个进行药物成分研究的研究人员在进行有效成分提取过后都会对药效进行研究，然后建立相应的中药效谱关系。但研究者们所选用的数据算法常常参差不齐，直接影响了最后效谱关系的有效性。是否可以构建一个数据库，做药理药效研究的研究者将数据上传，然后统计分析专家从数据库下载数据，最终建立合理的中药效谱关系，它是一个一对多的关系，可以有效地将这些药理药效研究进行多次利用，在很多领域已经实现了这种平台搭建，比如癌症的基因组学和蛋白组学数据库。总的来说，高效准确的数据处理和分析方法的科学使用必将推动中药谱效关系研究的蓬勃发展。