基于高通量芯片和生物信息学探索肌萎缩侧索硬化发病相关基因*
2016-07-05朱文浩黄晓江周匡果
朱文浩, 骆 翔 , 黄晓江, 王 伟△, 周匡果
华中科技大学同济医学院附属同济医院 1神经内科,2血液内科,武汉430030
基于高通量芯片和生物信息学探索肌萎缩侧索硬化发病相关基因*
朱文浩1,骆翔1,黄晓江1,王伟1△,周匡果2
华中科技大学同济医学院附属同济医院1神经内科,2血液内科,武汉430030
摘要:目的从分子水平揭示肌萎缩侧索硬化(ALS)的发病机制,为临床诊疗提供新工具。方法在GEO中检索ALS患者芯片数据,使用BRB-Array Tools、GSEA、GOEAST、TOPPGENE等生物信息学工具进行统合分析。结果对GSE56808和GSE26276两个样本集进行数据挖掘,发现6个共同差异表达基因,并进行样本层次聚类,功能富集主要集中在氧化应激、钙代谢障碍、炎症反应、血管生成、线粒体代谢、其它神经系统退行性疾病、PI3K/AKT通路、P38MAPK通路、NOTCH通路等模块上。利用多种分类预测工具构建出一个包含6个特征基因的最优化分类器,基本可用于区分ALS患者和健康对照组。结论利用多种生物信息学方法从不同的角度定义了ALS患者分子发病机制的表达特征,为进一步的生物学探索提供了依据。
关键词:肌萎缩侧索硬化;差异表达;基因芯片;生物信息学
肌萎缩侧索硬化(amyotrophic lateral sclerosis,ALS)是一种病情呈进行性发展的致死性的神经退行性病变,主要累及大脑皮质、脑干、脊髓前角等处的运动神经元,可导致患者肌肉萎缩、瘫痪、甚至死亡。目前该病尚缺乏特效治疗,预后不良,中位生存期仅为3~5年。研究发现ALS的神经退行性变是多方面的,涉及到神经元细胞和非神经元细胞。根据发病特征,可将ALS分为有家族遗传史的家族性ALS和无家族遗传史的散发性ALS,家族性ALS具有明显的遗传倾向,已发现其相关基因有SOD1、TARDBP等;而剩下的90%~95%的ALS为散发性,与家族遗传无相关性,被认为是一种复杂性疾病,对于该病的发病机制目前尚无定论[1]。因此,在散发性ALS患者的早期诊断及治疗、延长生存时间和提高生存质量等方面,我们仍面临巨大的挑战。高通量基因芯片是一种信息量大、灵敏度较高的工具,为研究散发性ALS发病机制提供了一种新的途径。本研究利用生物信息学技术,通过对2组散发性ALS患者基因表达芯片数据的统合分析,克服了个别芯片或单个实验室数据存在的不足,深入挖掘ALS相关基因功能和通路的变化,为该病诊断,药物研发及治疗等的探索提供了依据,为转化医学提供新的研究思路。
1材料与方法
1.1基因表达谱芯片数据
在美国国立生物技术信息中心(National Center for Biotechnology Information,NCBI)下的基因表达汇编(Gene Expression Omnibus,GEO)数据库中进行芯片样本筛选,样本需满足下列筛选标准:①ALS患者标本,而非动物模型;②散发性;③有原始的高通量芯片数据。归类整理后发现,由Raman等[2]提交的GSE56808样本集和由Shtilbans等[3]提交的GSE26276样本集满足以上要求。多项研究表明ALS患者皮肤纤维母细胞的转录组改变可代表ALS患者疾病进程[4-5],GSE56808正是利用的ALS患者与健康对照人群的纤维母细胞进行芯片研究的,它满足样本筛选标准共有12个,包括6个来源于ALS患者,6个来源于健康对照,采用的芯片分析平台为GPL570,即Affymetrix Human Genome U133 Plus 2.0类型。而GSE26276中满足上述标准共6个,其中ALS标本有3个,健康对照3个,来源于各自的骨骼肌样本,采用的芯片分析平台为GPL6244,即Affymetrix Human Gene 1.0 ST Array类型。
1.2差异基因的筛选和样本聚类
将GSE56808和GSE26276两组芯片分别导入软件BRB-Array Tools 4.4[6]中进行数据标准化和质量控制。采用中位值的方法将数据进行标准化,质量控制时要求:①截断信号强度大于10 000的值;②基因中位数值至少发生1.5倍改变,且不少于20%的样本数;③对数化后的基因表达量变异P值小于0.01;④数据缺失值不超过50%。基因过滤之后,再将样本分成两组表型(ALS患者与健康对照组)筛选差异基因。分别对两组数据集GSE56808和GSE26276进行非配对样本t检验,差异基因需满足:①P<0.05;②倍数变化> 2或者<0.5,倍数变化> 2为上调基因,<0.5为下调基因;③FDR<0.25。然后再交叉比较所获得的差异基因,从而克服单个芯片数据或单个实验室数据存在的缺陷,更加全面地从整体上对疾病进行研究。在GSE56808和GSE26276中,分别根据各样本基因表达情况,判别样本之间的距离,采用中心相关和平均距离的方法进行层级聚类。
1.3差异基因功能分析和基因集富集分析
利用GOEAST(http://omicslab.genetics.ac.cn/GOEAST/tools.php)和TOPPGENE(https://toppgene.cchmc.org/enrichment.jsp)在线分析工具进行GO(Gene Ontology)本体和KEGG(Kyoto Encyclopedia of Genes and Genomes)通路分析。利用Expression console软件将两组基因表达数据整理成芯片表达数据文件和表型数据文件,上传至GSEA(Gene Set Enrichment Analysis)分析平台中(http://www.broadinstitute.org/gsea/index.jsp),研究ALS相关基因表达与已定义的生物学过程功能模块相比,是否有一致的表达趋势。生物学过程相关的功能模块从分子标签数据库(Molecular Signatures Database,MSigDB)获得。
1.4分类预测工具寻找特征基因
为了研究ALS患者疾病相关的特征基因表达模式,本研究利用多种分类预测工具对两组患者样本进行判别分析,并将GSE56808和GSE26276两组数据集互相做交叉验证,通过创建分类器来判断某一样本究竟属于哪个分类(ALS患者组或对照组),从而寻找ALS患者的分子标签。选择最佳组合且尽量少数目的特征基因作为标签,可能会在生物学意义方面更易解释,在临床实践上更方便应用。分类预测工具包括混合协变量分类器(Compound Covariate Predictor)、对角线线性判别分析(Diagonal Linear Discriminant Analysis)、最近邻分类器(Nearest Neighbor Predictor)、最近邻质心分类器(Nearest Centroid Predictor)和支持向量机(Support Vector Machines)。
2结果
2.1差异基因的筛选和样本聚类
经过严格的数据过滤和筛选,GSE56808数据集中满足条件的差异基因有128个,其中在ALS患者中上调基因69个,下调基因有59个。GSE26276数据集中差异基因有154个,在ALS患者中上调基因114个,下调基因有40个。统合两组差异基因,共同差异基因有6个,分别为:CPNE8、CRY1、DCLK1、NPR3、S100A10、WSB1(图1A)。并利用6个共同差异基因分别在GSE56808(图1B)和GSE26276(图1C)样本中进行层次聚类,其中“0”表示健康对照组,“1”表示ALS患者样本。
2.2差异基因功能分析和基因集富集分析
对GSE56808和GSE26276两个样本集分别进行功能富集注释,并进行相互比较,重合的GO本体功能富集注释见表1,重合的GSEA基因集富集结果见表2。主要集中在凋亡、氧化应激、钙代谢障碍、炎症反应、血管生成、线粒体代谢、其它神经系统退行性疾病、PI3K/AKT通路、P38MAPK通路、NOTCH通路等功能模块上(图2、3)。
A:维恩图显示各个研究队列差异基因的数目及交集;B、C:利用6个共同差异基因分别在GSE56808(B)和GSE26276(C)样本中层次聚类图图1 共同差异基因及样本聚类Fig.1 Common differential expression genes and sample clustering
2.3分类预测工具寻找特征基因
本研究用多种分类预测工具构建出一个包含6个特征基因的最优化分类器,即CRY1、S100A10、CPNE8、WSB1、KLF9、NPR3,用于预测某一未知样本是ALS患者还是健康对照患者。各个预测方法的特异度、灵敏度、阳性预测值和阴性预测值如表3所示,“1”表示百分之百地正确判断哪些样本是ALS患者,“0”则为没有一个样本被预测正确。可以看出绝大多数的样本可以被正确地预测,说明这6个特征基因基本可以用于区分ALS患者和健康对照组。
表1 GSE56808和GSE26276重合的GO本体功能富集注释
表2 GSE56808和GSE26276重合的GSEA分析
在样本集GSE26276中,GSEA显示ALS患者较健康对照者来说,在有关凋亡(A),G2M细胞周期调节点(B),炎症反应(C),PI3K-AKT-MTOR信号通路(D)等模块上存在功能富集变化图2 GSE26276的GSEA富集分析Fig.2 GSEA of GSE26276
在样本集GSE56808中,GSEA显示ALS患者较健康对照者来说,在有关血管生成(A),凋亡(B),线粒体代谢(C),有关帕金森通路(D)等模块上存在功能富集变化图3 GSE56808的GSEA富集分析Fig.3 GSEA of GSE56808
样本集参数 混合协变量分类器对角线线性判别分析最近邻分类器最近邻质心分类器支持向量机GSE56808灵敏度0.920.830.920.921特异度0.920.830.920.921阳性预测值0.860.750.860.861阴性预测值0.860.750.860.861GSE26276灵敏度11111特异度11111阳性预测值11111阴性预测值11111
3讨论
ALS是一种以脑运动皮层、脑干和脊髓运动神经元进行性破坏为特征的致命的迟发性神经退行性疾病,发病后逐渐出现轴索变性、肌肉萎缩、肌肉瘫痪及死亡。迄今尚无公认能显著改善症状或逆转病程的有效治疗手段,ALS患者大多起病隐匿,临床表现多种多样,且缺乏绝对的生物学确诊指标,故对该病的早期诊断较为困难。利用多项国际合作计划建立的免费公共数据库,通过生物信息学探索高通量测序或基因芯片蕴藏的信息,可能为ALS分子发病机制研究提供了一种新的解决途径,从而为ALS靶向药物的研发及个性化治疗等更深入的探索提供了依据。
目前研究结果认为ALS的发病机制是多种因素相互交织的,而非单因素造成,它们或互为因果或互为协同关系影响着疾病的发生发展。主要包括氧化应激、兴奋性氨基酸毒性、细胞凋亡、线粒体功能障碍、轴突运输障碍、自身免疫机制、铁代谢和钙稳态障碍等[1]。本研究通过2个芯片样本集的差异基因功能分析和基因集富集研究提示,ALS引起的差异基因主要集中在凋亡、氧化应激、钙代谢障碍、炎症反应、血管生成、线粒体代谢、其它神经系统退行性疾病、PI3K/AKT通路、P38MAPK通路、NOTCH通路等功能模块上。例如:P38MAPK通路的活化,可促进IL-1及TNF-α的合成,促进炎症反应的发生,导致神经元的变性凋亡[7];PI3K/AKT信号通路参与调节神经元的突触可塑性、神经传导、蛋白质稳态及应激反应[8];血管生成障碍可直接引起缺血缺氧以及与神经变性病相关的毒性产物堆积,从而导致对神经元的损害等[9]。有趣的是,通过GSEA功能富集分析,我们发现ALS患者疾病功能模块竟富集到帕金森、阿尔茨海默病等疾病涉及的功能模块上,这点与流行病学资料也是相吻合的,5%~17%的ALS伴有帕金森病,而ALS患者中帕金森病的发病率比健康对照组高[10-11]。表明ALS可能不是一种独立的疾病,ALS与其它神经变性病在基因、病理生理、发病机制、临床表现等方面表现出部分重叠。在时间、环境和遗传因素等综合作用下,ALS可伴有其它神经系统变性病,表现出多系统疾病的相似性。
同时,本研究还通过GSE56808和GSE26276差异基因统合分析,发现有6个在ALS中共同变化的基因(分别为:CPNE8、CRY1、DCLK1、NPR3、S100A10、WSB1),其中不乏包括一些值得关注的,且已知与神经退行性变发生发展相关的基因。例如:DCLK1被认为是参与神经细胞发育、迁移、凋亡、轴突发生、钙稳态调节等多种生物学过程[12];CPNE8作为一种钙依赖的膜蛋白,目前已表明其异常表达在帕金森神经退行性变中起重要作用[13];而NPR3则主要参与大脑微血管内皮细胞及骨骼肌的代谢和生长相关等[14]。这些基因可能为治疗ALS提供一些新的靶点。此外,本研究通过分类预测工具寻找特征基因,并将GSE56808和GSE26276两组数据集互相做交叉验证,构建了6个特征基因构成的分类器,基本可区分绝大多数的ALS患者和健康对照,可能会为早期诊断ALS提供一种新思路,在临床实践上更易应用。
综上,本研究综合利用多种生物信息学手段,对两组不同来源的芯片数据进行统合。充分挖掘与分析公共数据库内基因芯片内蕴藏的信息,寻找ALS相关的分子标签、差异表达基因和功能模块及通路的变化,从不同的角度定义了ALS患者分子发病机
制的表达特征,为进一步的生物学验证的探索提供了依据,并有可能成为未来神经退行性疾病诊断和治疗的新靶点。
参考文献
[1]Katz J S,Dimachkie M M,Barohn R J.Amyotrophic lateral sclerosis:A historical perspective[J].Neurol Clin,2015,33(4):727-734.
[2]Raman R,Allen S P,Goodall E F,et al.Gene expression signatures in motor neuron disease fibroblasts reveal dysregulation of metabolism,hypoxia-response and RNA processing functions[J].Neuropathol Appl Neurobiol,2015,41(2):201-226.
[3]Shtilbans A,Choi S G,Fowkes M E,et al.Differential gene expression in patients with amyotrophic lateral sclerosis[J].Amyotroph Lateral Scler,2011,12(4):250-256.
[4]Allen S P,Duffy L M,Shaw P J,et al.Altered age-related changes in bioenergetic properties and mitochondrial morphology in fibroblastsfrom sporadic amyotrophic lateral sclerosis patients[J].Neurobiol Aging,2015,36(10):2893-2903.
[5]Yang S,Zhang K Y,Kariawasam R,et al.Evaluation of skin fibroblasts from amyotrophic lateral sclerosis patients for the rapid study of pathological features[J].Neurotox Res,2015,28(2):138-146.
[6]Simon R,Lam A,Li M C,et al.Analysis of gene expression data using BRB-Array Tools[J].Cancer Inform,2007,4(3):11-17.
[7]Frade J M,Ovejero-Benito M C.Neuronal cell cycle:the neuron itself and its circumstances[J].Cell Cycle,2015,14(5):712-720.
[8]Pignataro G,Capone D,Polichetti G,et al.Neuroprotective,immunosuppressant and antineoplastic properties of mTOR inhibitors:current and emerging therapeutic options[J].Curr Opin Pharmacol,2011,11(4):378-394.
[9]Keifer O P Jr,O’Connor D M,Boulis N M.Gene and protein therapies utilizing VEGF for ALS[J].Pharmacol Ther,2014,141(3):261-271.
[10]房效莉,曹幸毅,梅倩倩,等.肌萎缩侧索硬化与其他神经变性病重叠的研究进展[J]中华神经科杂志,2015,48(5):428-430.
[11]Manno C,Lipari A,Bono V,et al.Sporadic Parkinson disease and amyotrophic lateral sclerosis complex(Brait-Fahn-Schwartz disease)[J].J Neurol Sci,2013,326(1/2):104-106.
[12]Schenk G J,Engels B,Zhang Y P,et al.A potential role for calcium/calmodulin-dependent protein kinase-related peptide in neuronal apoptosis:invivoandinvitroevidence[J].Eur J Neurosci,2007,26(12):3411-3420.
[13]Reinhardt P,Schmid B,Burbulla L F,et al.Genetic correction of a LRRK2 mutation in human iPSCs links parkinsonian neurodegeneration to ERK-dependent changes in gene expression[J].Cell Stem Cell,2013,12(3):354-367.
[14]Chadwick J A,Hauck J S,Lowe J,et al.Mineralocorticoid receptors are present in skeletal muscle and represent a potential therapeutic target[J].FASEB J,2015,29(11):4544-4554.
(2016-01-11收稿)
Analysis of Amyotrophic Lateral Sclerosis Associated Genes Based on High-throughput Microarray and Bioinformatics
Zhu Wenhao,Luo Xiang,Huang Xiaojiangetal
DepartmentofNeurology,TongjiHospital,TongjiMedicalCollege,HuazhongUniversityofScienceandTechnology,Wuhan430030,China
AbstractObjectiveTo explore the molecular pathogenesis of amyotrophic lateral sclerosis(ALS),and provide novel tools for clinical diagnosis and treatment of ALS.MethodsGene expression profiles were obtained from GEO database.A set of bioinformatics tools,such as BRB-Array Tools,GSEA,GOEAST,TOPPGENE,were used to accomplish the data mining.ResultsBy combining the results of two independent samples GSE56808 & GSE26276,six common differentially expressed genes were identified,which were used to generate hierarchical clustering.Network and functional enrichment showed that ALS related genes were closely associated with oxidative stress,calcium metabolism disorders,inflammation,angiogenesis,mitochondrial metabolism,other neurodegenerative disorders and etc.They played essential roles in some important signal pathways such as PI3K/Akt,P38 MAPK,NOTCH,etc.The optimal six-gene classifier constructed by multiple prediction tools for classification could differentiate the ALS patients from healthy control subjects.ConclusionData Mining and Bioinformatics analysis can help to investigate the molecular pathogenesis of ALS in various perspectives,which provides the basis for further biological investigations on ALS.
Key wordsamyotrophic lateral sclerosis;differential expression;microarray;bioinformatics
中图分类号:R744.8
DOI:10.3870/j.issn.1672-0741.2016.03.002
*国家自然科学基金青年基金资助项目(No.81400122)
朱文浩,男,1983年生,主治医师,博士研究生,E-mail:whzhu@tjh.tjmu.edu.cn
△通讯作者,Corresponding author,E-mail:wwang_tjh@126.com