生物信息学方法鉴定ER阴性乳腺癌关键基因及预测潜在治疗药物
2021-07-09张渊源龚柳云韩苏夏
张渊源,龚柳云,韩苏夏
(1. 西安交通大学第一附属医院肿瘤放疗科,陕西西安 710061;2. 西安交通大学第一附属医院儿科,陕西西安 710061)
乳腺癌是一种常见的具有遗传倾向的恶性肿瘤,目前认为是一种具有不同分子表达和生物学行为的异质性疾病[1]。按照基因微阵列和免疫组化的结果将乳腺癌分为不同类型。雌激素受体(ER)是乳腺癌最重要的预后预测指标。ER阴性常与组织学分级增高、对化疗的敏感性低及易向内脏器官转移相关[2-3],而寻找治疗ER阴性乳腺癌的有效药物并阐明其分子机制是目前研究热点。
随着芯片技术的发展和普及,从公共数据库中可获取疾病基因表达数据,海量差异基因已能轻易获得。生物信息学技术的发展可使科研人员获取多个基因之间的相互联系。为了更好了解ER阴性乳腺癌的分子机制和预测治疗药物,本研究从GEO数据库下载ER阳性和ER阴性乳腺癌样本(GSE22219)的表达谱。GSE22219收集了216例早期原发性乳腺癌患者的10年随访、临床和人口统计学资料,使用R语言筛选ER阳性和ER阴性乳腺癌患者的差异表达基因,利用基因本体(GO)分析、京都基因与基因组百科全书(KEGG)途径分析和蛋白质-蛋白质相互作用(PPI)网络探讨ER阴性乳腺癌的可能机制,并通过Drugbank进行预测阴性乳腺癌的潜在治疗药物。
1 材料与方法
1.1 GEO芯片数据的获取与处理NCBI-GEO(https://www.ncbi.nlm.nih.gov/gds/)是一个免费的微阵列/基因图谱和下一代测序数据库,从中获得GSE22219表达图谱的原始数据。GSE22219收集了216例早期原发性乳腺癌患者的10年随访、临床和人口统计学资料。其中134例为ER阳性乳腺癌标本,其余为ER阴性乳腺癌标本,共检测了24 332个基因[4]。表达谱基于GPL6098(Illumina human Ref-8v1.0 expression beadchip)平台,所选取芯片利用R语言3.6.0进行数据标准化,根据平台注释信息将探针转化为基因名。
1.2 差异基因的筛选sva包是为识别、估计和消除高通量实验中不需要的变异源而设计的[5]。根据Perl脚本的性能对表达式配置文件进行注释和合并,使用R软件(3.6.0版)(加州大学伯克利分校)中的sva包进行数据规范化。随后,在R软件中使用Ggfortify包绘制数据的PCA结果。在R软件的limma软件包中筛选ER阴性和ER阳性受试者之间阈值调整P<0.05和|log FC|(fold change)>1的DEGs[6]。随后,使用R软件中的Pheatmap包绘制了DEGs的热图[7]。
1.3 差异基因GO功能富集和KEGG通路富集分析STRING(检索相互作用基因的搜索工具)是一个在线工具(https://string-db.org/cgi/input.pl),可以评估基因集合中的蛋白质-蛋白质相互作用(PPI)网络、信号通路、生物过程、分子功能等[8-9]。通过STRING对DEGs进行KEGG路径分析和PPI网络创建。GO是一种常用的生物信息学工具,它基于定义的特征提供个体基因组产品基因功能的综合信息。GO分析包括生物学过程(biological process, BP)、细胞定位(cellular component, CC)和分子功能(molecular function, MF)[10]。用R软件中的ClusterProfiler包进行GO分析,以P<0.05为阈值[11]。
1.4 核心基因的鉴定Cytoscape(3.7.1)是最成功的网络生物学分析和可视化工具之一。它包括了270多个核心函数和34个应用程序作为REST可调用函数,并提供了标准化的JSON接口,这些接口都有大量文献支持[12]。通过MCODE评分排序(MCODE 1.5.1),从PPI网络中识别ER阴性乳腺癌的关键基因。
1.5 药物预测分析DrugBank(https://www.DrugBank.ca)是一个通过相似或相反的基因表达谱连接疾病、基因和药物的数据库。自DrugBank发布以来,已被广泛用于药物设计、药物靶点发现、潜在小分子化合物预测、药物对接或筛选、普通药物教育和药物相互作用预测[13]。本研究利用Drugbank以靶向早期乳腺癌的上调基因发现小分子化合物,作为潜在的治疗药物。
2 结 果
2.1 差异基因的筛选情况为了鉴别ER阴性和ER阳性乳腺癌患者的差异表达基因,从GEO数据库中检索了GSE22219微阵列表达谱。在整合和规范化微阵列数据后,在ER阴性和ER阳性受试者之间筛选出69个差异表达基因(|logFC|>1,P<0.05,图1),其中包括19个上调基因,50个下调基因(图2、表1)。
表1 ER阴性和ER阳性乳腺癌的69个差异表达基因
图1 ER阴性和ER阳性乳腺癌的差异表达基因热分析
图2 ER阴性和ER阳性乳腺癌的差异表达基因火山图
2.2 蛋白质相互作用分析与核心基因鉴定构建了差异表达基因的蛋白质相互作用网络,确定了差异表达基因中最重要的基因,蛋白质相互作用网络中有63个节点和62个边缘节点,最重要的模块(得分=6.857)由Cytoscape插件MCODE识别,模块中AGR3、AGR2、TFF1、TFF3、FOXA1、ESR1、GATA3和SLC39A6被鉴定为乳腺癌的中枢基因(图3)。
图3 ER阴性和ER阳性乳腺癌的差异表达基因中蛋白质相互作用网络分析
2.3 差异表达基因的KEGG通路和GO富集分析结果
KEGG分析结果显示,差异基因主要参与醛固酮调节的钠重吸收(aldosterone-regulated sodium reabsorption)、PI3K-Akt信号通路(PI3K-Akt signaling pathway)、Rap1信号通路(Rap1 signaling pathway)、寿命调节通路-多物种(longevity regulating pathway- multiple species)、Ras信号通路(Ras signaling pathway)、乳腺癌(breast cancer)、寿命调节通路(longevity regulating pathway)、前列腺癌(prostate cancer)、癌症通路(pathways in cancer)、卵母细胞减数分裂(oocyte meiosis)、卵巢甾体生成(ovarian steroidogenesis)、肿瘤蛋白多糖(proteoglycans in cancer)、AMPK信号通路(AMPK signaling pathway)、FoxO信号通路(FoxO signaling pathway)、胰岛素信号通路(Insulin signaling pathway)、雌激素信号通路(estrogen signaling pathway)等(表2)。
表2 ER阴性和ER阳性乳腺癌的差异表达基因的KEGG分析
利用GO数据库分析出最显著生物学过程(BP)、细胞定位(CC)和分子功能(MF),结果主要包括泌尿生殖系统发育(urogenital system development)、干细胞分化(stem cell differentiation)、前列腺形态发生(prostate gland morphogenesis)、前列腺发育(prostate gland development)、造血干细胞分化(hematopoitetic stem cell differentiation)、前列腺腺泡发育(prostate glandular acinus development)、细胞外基质(extracellular matrix)、含胶原的细胞外基质(collagen-containing extracellular matrix)、单羧酸结合(monocarboxylic acid binding, 图4)。
图4 ER阴性和ER阳性乳腺癌的差异基因显著参与的KEGG信号通路和GO功能分析
2.4 药物预测分析对在ER阴性乳腺癌患者中的上调基因进行药物预测分析的结果显示,最重要的10种化合物是胶体燕麦粉、柠檬酸、乙醇、八甲基丙烯、碳酸氢钠、苯酚、除虫菊提取物、普鲁卡因、异丙醇、乙酰水杨酸(表3)。这些小分子化合物可能使上调基因发生逆转,而有望成为潜在治疗药物。
表3 潜在治疗ER阴性乳腺癌的小分子药物
3 讨 论
乳腺癌是全世界女性最常见的恶性肿瘤,也是女性死于癌症的主要原因。尽管在癌症研究领域取得了巨大进展,乳腺癌仍然是主要的健康问题,是当前生物医学的研究重点[14-16]。而ER阴性标志着其组织学分级增高、对化疗的敏感性低并易向内脏器官转移[17-18]。显然,需要对ER阴性乳腺癌的预防进行更多的研究。
(续表2)
本研究利用生物信息学方法,鉴定出了69个差异表达基因和8个核心基因(AGR3、AGR2、TFF1、TFF3、FOXA1、ESR1、GATA3和SLC39A6)。已有研究报道这些基因在乳腺癌的发展中有重要作用[19-20]。AGR2(anterior gradient 2)和AGR3(anterior gradient 3)属于人类前梯度家族,AGR3调节乳腺癌细胞迁移,能促进乳腺癌的发展和化疗反应,AGR2可能是乳腺癌潜在的药物靶点和生物标志物。血清TFF1和TFF3在乳腺癌患者中高表达[21]。ESR1(estrogen receptor α gene)和FOXA1(forkhead box protein A1)的表达是乳腺癌内分泌治疗的良好预后标志物[20,22]。GATA3表达下调推动乳腺癌进展[23]。SLC39A6(Zinc transporter ZIP6)属于蛋白质亚家族,是检测ER阳性乳腺癌的可靠标志物[24]。
KEGG分析显示69个差异表达基因主要富集在乳腺癌、前列腺癌等多种肿瘤发展相关通路中。已有报道显示,其中一些通路促进乳腺癌发展。例如,PI3K通路存在于多种癌症中,在乳腺癌细胞增殖中有重要作用[25]。Ras信号是乳腺癌患者生存率低下的关键决定因素,尤其是AMPK信号通路,最近的研究报道AMPK调节因子广泛用于乳腺癌的三阴性靶向治疗。AMPK信号通路异常在三阴性乳腺癌生长、生存和耐药性发展中起着核心作用[26]。GO注释中的BP分析表明,差异表达基因在泌尿生殖系统发育途径中富集。女性乳腺癌患者的泌尿生殖系统症状常常对女性的生活质量产生负面影响。GO注释的CC分析显示,异基因在细胞外基质中富集,据报道DEGs可以促进乳腺癌的侵袭性形成和转移[27]。GO的MF分析表明,异基因在一元羧酸结合中富集,NOOR等[28]已经证明乳腺癌细胞产生大量酸,这些酸必须被去除以防止细胞内代谢窒息。
本研究目的是寻找治疗ER阴性乳腺癌的潜在药物。首先,从GEO数据库中检索了GSE22219微阵列表达谱,此数据包含了ER阳性乳腺癌标本及ER阴性乳腺癌标本;利用生物信息学方法,用这个数据鉴定出了ER阳性乳腺癌与ER阴性乳腺癌病例中的69个差异表达基因,其中包括19个上调基因,50个下调基因;将这19个上调基因分别在DrugBank数据库中进行检索,从而得出与这19个上调基因相关的小分子药物,发现了21种潜在的小分子化合物可以逆转早期乳腺癌的上调基因。最重要的10种药物是胶体燕麦粉、柠檬酸、乙醇、八丙烯、碳酸氢钠、苯酚、除虫菊提取物、普鲁卡因、异丙醇、乙酰水杨酸。有报道与本研究结果一致,柠檬酸循环的变化与蒽环类药物对乳腺癌患者的心脏毒性有关[29]。尽管滥用乙醇(酒精)会促进乳腺癌的发展,但ZHAN等[30]证明了中华真地鳖700 mL/L乙醇提取物(ESWE)通过调节MAPK信号通路对乳腺癌具有抗增殖和抗侵袭作用。也有研究证明,苯酚通过p53独立的途径诱导乳腺癌细胞凋亡[31]。
以前研究提示,一些被预测的药物并没有直接作用于乳腺癌,如胶体燕麦粉、除虫菊提取物、普鲁卡因、异丙醇和乙酰水杨酸。因此,需要生物学实验研究进一步证实。