基于肾上腺腺瘤表达谱寻找重要反应通路
2018-11-14柴小利
柴小利,张 旭
(西南大学 数学与统计学院, 重庆 400715)
原发性醛固酮增多症(PA)是指由于肾上腺皮自主性醛固酮分泌增多而导致以高血压、低血浆肾素活性、高醛固酮血症和低钾血症为特征的临床综合征,是继发性高血压常见病因之一。原醛最常见的病因是特发性醛固酮增多症(IHA)和肾上腺瘤(APA),分别占65%和30%[1-2]。大量的证据表明:大概有10%的高血压病人患有PA,而且PA可能是导致继发性高血压常见病因之一。醛固酮浓度的升高不仅造成高血压,还直接导致血管内皮损伤、组织纤维化,从而更容易导致心脑血管并发症及肾脏损害[3-4]。在APA中,醛固酮的产生失去了正常的调节,在低血管紧张素的条件下继续产生醛固酮。醛固酮在APA 的合成机制仍然不大清楚。确定肾上腺腺瘤中醛固酮合成的调节机有助于我们治疗APA。本研究利用在R中的 limma对来自基因芯片共数据库 (GEO)的5个正常的肾上腺和10个肾上腺腺瘤基因的表达谱芯片数据做进一步的生物信息学分析,寻找重要反应通路,以了解 APA的表达情况,为临床药物治疗提供了依据。其中正常的肾上腺样本来自肾切除术的肾癌患者,APA肾上腺样本来自Conn综合征患者。
1 数据和方法
1.1 数据收集和整理
该数据集为肾上腺瘤基因微阵列数据,总共 54 675个基因的表达量,来源于 GEO 公共数据库(http://www.ncbi.gov.geo/query/acc/.cgi?acc=GSE8514),其中包括了5个正常的肾上腺样本和 10 个肾上腺腺瘤样本,用 TRIzol Reagent 提取总 RNA 后扩增、逆转录和荧光标记等步骤与 Affymetrix humanHG-U133+2 oligonucleotide 芯片杂交,经 Affymetrix Gene ChipScanner 3000 扫描后得到原始图像数据,再经 MAS5 标准化处理后输出芯片数据[5]。
1.2 基因芯片预处理
基于RMA方法优化的gcrma方法,采用多芯片模型,需要对所有芯片一起进行标准化,背景校正时,基于PM的信号分布采用随机模型来评估表达值,汇总后的数据经过以2为底的对数进行转化,数据标准化,使用 R 软件“affy”包计算同一基因对应多个探针的平均值。通过 Affymetrix 注释文件注释探针[6]。样品聚类根据 Pearson相关系数分析芯片矩阵中不同样品之间的距离来评估芯片质量,并选择0.2的高度截距以剔除潜在的不合格的样本芯片。利用R软件的Affy包[7]进行后续背景校正和归一化处理, LIMMA包[8]进行差异表达分析,并且应用贝叶斯检验方法进行多重检验校正。为了避免可能因素线性分析而造成的假阳性结果,我们将P值调整为错误发现率(FDR),并选择FDR<0.05,基因表达值倍数变化(Fold change,FC)≥2作为阀值,筛选差异基因。
1.3 KEGG通路富集
采用DAVID在线分析平台对差异基因京都基因与基因组百科全书通路(Kyoto Encyclopedia of Genes and Genomes pathway, KEGG pathway)分析[9]。差异基因的分析主要集中在两个方面:一个是为了确定差异表达基因的功能,包括细胞组成分析、分子功能分析、生物过程分析;另一个是为了确定不同样本间差异基因所参与的最主要代谢途径和信号转导途径而做的KEGG pathway分析,取P值小于0.05,具有统计学意义。
2 数据分析
2.1 基因芯片处理结果
经过标准化处理,以FDR<0.05,基因表达值倍数变化(Fold change,FC)≥2为筛选条件,5个正常的肾上腺样本和10个肾上腺腺瘤样本共筛选出163个差异基因,其中上调29个,下调134个。下面列出前10个差异基因,如表1所示。研究表明,KLF10基因在多种肿瘤细胞中表达量明显下调,使其抑制肿瘤细胞的作用降低。KLF10基因与肿瘤的发生和发展密切相关,对其深入研究可以更好地了解肿瘤发生和发展的机制。Kruppel样转录因子10(KLF10)是Kruppel样转录因子家族成员之一,参与调节细胞的增殖、周期和凋亡等多种生命活动[9]。Dak编码的蛋白质为一种激酶,Dak基因过表达会抑制黑色素瘤的分化,研究表明Dak与丙三醇代谢有关[10]。生物数据见表1。
表1 前10个差异基因的生物数据
GeneLog FCAve ExprtP.Valueadj.P.ValBXXYLT12.357 5883.903 9496.032 7940.000 0160.020 1073.136 231APLP14.120 8884.798 3255.659 7160.000 0330.028 3622.493 670PENK4.260 8097.088 8235.636 1690.000 0350.028 3622.452 374CALY3.033 2434.693 3355.550 6590.000 0410.032 4342.301 686SYNGR32.569 9944.553 0885.421 1920.000 0530.032 6142.071 409SSTR5-AS14.507 3745.968 3565.395 0090.000 0560.032 6142.024 534KLF101.250 1669.012 8395.378 2710.000 0580.032 6141.994 513DAK1.695 8349.107 7365.377 1680.000 0580.032 6141.992 534MFAP43.028 1995.568 2155.326 2400.000 0650.032 6141.900 931AVPR1A1.846 6326.267 6835.280 8730.000 0710.033 6691.819 015
这里根据前面的分析结果,调用pheatmap包来绘制差异表达谱热图,如图1所示,其中:红色表示高表达;黄色代表低表达;颜色越深差异表达量越高或越低。
图1 差异基因表达谱热图
从图1中可以得出正常肾上腺样本和肾上腺瘤样本聚类分界明确。
2.2 数据特点
Pearson相关系数,是衡量2个数据集合是否在一条线上,衡量定距变量间的线性关系的系数。
根据Pearson相关系数分析芯片矩阵中不同样品之间的距离来评估芯片质量,Pearson相关系数本质上是统计学方法中的一种线性相关系数,对它的分析通常是用来衡量定距变量间的线性关系考察2个事物(数据变量)之间相关程度的系数称为相关系数。相关系数的的绝对值越接近于1,表示相关性越强。对本文所选择的数据进行Pearson 相关系数分析,结果如图2所示。
图2 差异基因Pearson相关系数
从图2可以得出:各主要特征的相关度不高,即彼此信息近似正交,使用该特征效果较好。
对差异基因的分布利用贝叶斯标准差来观察差异基因的分布情况,结果如图3所示。
从图2、3中可以看出:只有XXYLTI探针的数据是异常值,其他的探针对数化值都落在1的附近。
图3 经过贝叶斯得到的准差的数化值的箱形图
2.3 KEGG通路分析结果
通过DAVID数据库对上调和下调差异表达基因进行KEGG通路分析。P<0.05为有统计学的显著差异存在。分析许多在肾上腺中表达的夸蛋白酶参与调节醛固酮的产生,结果如表2所示。发现,差异基因主要集中在细胞发展、苯丙胺反应、体内渗水平衡、雌二醇反应、去甲状腺合成、对核酸模板转录的负调节等通路中,从每一项的分析中就可以看出包含的基因数目和以及对应的基因名称。例如,苯丙胺存在抗胆碱作用,正常情况下胆碱受体和肾上腺受体处于平衡状态。在受到外界刺激下肾上腺受体分泌激素的同时阻止胆碱受体分泌激素,即抵抗自己的身体恢复到正常状态。
表2 差异基因的KEGG途径分析
通路ID通路名称基因数量P值基因0007275细胞发展100.004 148 223SLCO4C1,PRR15,HOXB7,EGFL6,HOXB8,OTX1,ENC1,EDA2R,TRIML1,IHH0007601视知觉60.007 327 465RBP4,CLRN1,WFS1,TH,CACNB2,CNGB30001975苯丙胺反应30.014 869 797TRDMT1,TH,DBH0003091体内渗水平衡30.015 799 592WFS1,CYP11B2,AQP20032355雌二醇反应40.017 516 142PENK,TH,HTR5A,IHH0042631细胞对缺水的反应20.017 937 054AVPR1A,AQP20086091心率传导调节30.018 733 642KCND3,CACNB2,CTNNA30007155细胞粘附80.020 767 497HES1,EGFL6,LAMC2,MFAP4,CD226,CTNNA3,DSCAM,APLP10042421去甲状腺合成20.023 844 991TH,DBH1903507核酸模板转录的负调节30.032 491 295SSX7,SSX5,SSX30070588钙离子跨膜运输40.035 031 332ATP2A3,SLC24A3,TRPA1,CACNB20042423儿茶酚胺生物合成的过程20.035 555 499TH,DBH0042048嗅觉行为20.035 555 499WFS1,GJB40019233感知觉30.039 094 653PENK,HOXB8,TRPA10042908异性生物质运输20.041 358 483SLC2A1,ABCB4
儿茶酚胺是一种含有儿茶酚和胺基的神经类物质,是肾上腺素能神经元合成和分泌的激素,肾上腺髓质铬细胞分泌肾上腺素和甲状腺激素。之前的研究中,在APA的治疗中就已经采取受体的拮抗剂作为药物应用于调节醛固酮的产生。(AVPR1A)精氨酸加压素受体,这个受体的活动是由G蛋白介导控制,它激活了一个磷酸钙离子系统[12]。(CCKBR)受体在中枢神经系统中发生,它们调节焦虑、镇痛、唤醒和神经松弛活动。这种受体通过激活磷脂钙使系统的G蛋白相结合来调节其作用。为了验证以上结果,通过David在线分析差异基因的KEGG通路图[11],结果如图4所示。
KEGG通路分析结果发现差异基因涉及的通路Ca2+离子信号通路、自半吞噬调节、刺激神经的配件。受f信号通路、自半吞噬调节、刺激神经的配体-受体相互作用,其中多个差异表达基因参与Ca2+离子信号通路,Ca2+为多种调节因素刺激醛固酮产生,临床上已经应用钙通道阻滞剂抑制醛酮的分泌,而且钙通道阻滞剂还可抑制血管平滑肌的收缩,减少血管阻力,从而使血压下降[13]。
图4 Ca2+信号通路
3 结束语
肾上腺瘤的发生发展是一个长期而复杂的过程,其病变过程常涉及到多个基因,寻找出正常肾上腺和肾上腺组织差异表达的基因尤其重要。基因芯片技术是后基因组时代兴起的DNA分析技术,通过对基因表达谱的分析筛选出163个差异基因,进而利用KEGG通路分析差异基因参与的主要通道。KEGG通路分析中,涉及的通路有钙离子通路。钙离子是醛固酮合成过程中的必需离子,临床上已经使用钙离子抑制剂用于治疗APA。总之,我们利用基因芯片技术并结合生物信息学相关知识进行分析,筛选出一系列差异基因,进而从分子水平上揭示肾上腺瘤发展的分子机制,为肾上腺瘤的研究工作提供了参考。