基于生物信息学的十二指肠腺瘤核心致病基因及其靶向治疗中药活性成分筛选
2021-03-24冯瑶陈新怡宋厚盼刘涛杨焘刘恒铭仇婧玥曾梅艳
冯瑶,陈新怡,宋厚盼,刘涛,杨焘,刘恒铭,仇婧玥,曾梅艳
(湖南中医药大学 1.中医诊断学湖南省重点实验室;2.医学院;3.中医学院,湖南 长沙 410208)
十二指肠腺瘤(duodenal adenoma, DA)是一类发生在十二指肠黏膜上皮的良性肿瘤,为十二指肠息肉最常见的一种表现形式。据报道,在接受食管胃十二指肠镜检查的患者中,DA发病率约0.4%,其中男性高于女性[1-2]。DA是最容易可视化的小肠增生性病变,也是唯一可以在早期阶段通过传统内窥镜检查方法检出、切除和随访的病变。DA作为一种癌前病变,常可在肿瘤中同时观察到良性组织与恶性组织,目前已广泛接受十二指肠腺瘤-腺癌发展假说[3]。现有研究表明,DA发生可能与Wnt/β-连环蛋白信号通路或鼠类肉瘤病毒癌基因(KRAS)、肿瘤抑制基因(APC)异常表达密切相关[4-5],但其具体发病机制目前仍不清楚。因此,本研究利用生物信息学方法,从GEO数据库获取DA基因表达芯片数据,并应用DAVID和STRING等数据库从分子水平对获取的数据进行分析,通过比较毒物基因组学数据库(Comparative Toxicogenomics Database, CTD)筛选出潜在的靶向治疗DA的药物,旨在获得更多与DA发生发展过程相关分子机制的生物学信息。
1 材料与方法
1.1 十二指肠腺瘤芯片数据采集
输入网址“http:∥www.ncbi.nlm.nih.gov/gds”,进入GEO数据库,在搜索栏输入检索词“Duodenal Adenoma”,搜索后获得符合研究需求的基因表达芯片数据集GSE102208。该数据集基于GPL21185芯片分析平台,由Sakaguchi 等[6]于2017年提交。GSE102208包含8个样本,其中4例DA患者十二指肠组织样本和4例健康者十二指肠组织样本。
1.2 GSE102208芯片数据的均一化处理
使用统计软件R3.2.1,运用affy程序包,采用相对对数表达(relative logarithmic expression, RLE)法进行质量控制,通过对原始数据进行稳健多阵列平均值模型(robust multi-array average, RMA)背景校正、标准化处理,再利用芯片平台的注释包将芯片数据集的所有探针符号转化为标准基因名,采用KNN法补充基因缺失值,将探针的平均值作为基因表达值,汇总后获取均一化表达水平数据。
1.3 GSE102208芯片数据的主成分分析
主成分分析(principal component analysis, PCA)主要功能是将多维特征映射到方差最大的多维空间,有助于简化分析和可视化多维数据,计算样本与样本之间的差异性。将芯片各样本矩阵数据导入OmicShare网站,绘制PCA图,观察DA患者和健康者十二指肠组织基因表达数据的分层状况。
1.4 差异表达基因筛选
对DA组与健康组基因样本芯片数据进行过滤和标准化处理后,利用GEO2R分析工具对GSE102208中的数据进行分析,获取全部差异表达基因(differentially expressed genes, DEGs)。以调整后P值≤0.05且|log2FC|≥1为筛选条件,利用ggplots包制作可视化DA组与健康组十二指肠黏膜DEGs火山图;进一步以调整后P值≤0.01且|log2FC|≥2为筛选条件,获得DA组与健康组十二指肠黏膜显著性DEGs,绘制可视化DA患者与健康者十二指肠组织显著性DEGs层次聚类热图。
1.5 显著性DEGs基因本体论功能富集分析
基因本体论(gene ontology, GO)是将DEGs从生物学过程、细胞组成和分子功能三个方面进行生物学功能注释的一种方法。将显著性DEGs输入DAVID 6.8数据库,Identifier选择“Official gene symbol”,物种选择“Homo sapiens”,点击“submit list”后收集“Biological process”、“Cell component”、“Molecular function”三个部分的数据进行显著性DEGs的GO功能富集分析。
1.6 显著性DEGs京都基因与基因组百科全书通路富集分析
京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes, KEGG)通路富集分析常用来分析靶点蛋白在信号转导通路中的作用,寻找DEGs所富集的关键通路。将显著性DEGs输入DAVID 6.8数据库,Identifier选择“Official gene symbol”,物种选择“Homo sapiens”,点击“submit list”后收集KEGG项下的数据进行显著性DEGs的信号通路富集分析。
1.7 DEGs涉及的蛋白质相互作用网络构建
将获得的DGEs导入STRING数据库,构建DA组与健康组十二指肠黏膜DEGs蛋白质相互作用(protein-protein interaction, PPI)网络,导出tsv格式的PPI数据,通过网络图像化软件Cytoscape 3.7.2(http:∥www.cytoscape.org/)对构建的生物学网络中的区域进行关联度分析并导出可视化结果。
1.8 核心DEGs筛选
Cytohubba插件可提供11种分析PPI网络的拓扑分析方法,以筛选生物网络中的关键基因。常用的拓扑分析方法包括基于最短路径的度值(degree)、边缘渗透分量、最大邻域分量、最大邻域分量密度、最大集团中心度和六个中心点等。采用cytohubba分析“1.7”获得的PPI网络,选择最常用的“度值”算法,获取核心DEGs。
1.9 靶向作用于DA核心致病基因的中药活性成分筛选
CTD涵盖了化学成分、基因、表型和疾病关系的人工策划信息,通过化学成分-基因相互作用,化学成分-疾病与基因-疾病关联,化学成分-表型相互作用和环境暴露数据四个领域帮助研究者了解疾病的易感性和潜在的防治策略[7]。在Search下拉列表中点击“Chemical-Gene Interaction”选项,依次在“Gene”输入框中将“1.8”获得的核心DEGs输入,获得可能靶向治疗DA的中药活性成分。
2 结果
2.1 芯片数据均一化处理结果
运用R软件对基因表达谱数据集GSE102208进行标准化正态处理,并绘制芯片数据相对表达值均一化箱线图(图1)。结果显示,8个样本的中位数基本位于一条水平直线(5.0左右),提示基因芯片质量良好,无异常表达,两分组之间的数据具有比较意义,可继续用于下一步分析研究。
图1 DA患者与健康者十二指肠组织基因芯片数据标准化处理
2.2 芯片数据主成分分析结果
如图2所示,图中每个点代表一个样本,样本间距离远近反映样本差异。经过批次校正后将遗传背景相似的个体聚类在一起,DA组与健康组样本之间可见明显分层,提示处理之后的芯片数据分布效果较好。DEGs能够有效地代表DA患者与健康者十二指肠组织样本间基因表达谱的差异。
图2 DA患者与健康者十二指肠组织基因芯片数据主成分分析图
2.3 DA患者与健康者十二指肠组织DEGs分析结果
通过分析基因芯片GSE102208中的数据,共筛选出DEGs 36 866个。利用GEO 2R分析工具,以调整后P值≤0.05,|log2FC|≥1为初步筛选条件绘制火山图(图3),图中每个点代表一个基因,红色为上调表达基因,绿色为下调表达基因,灰色代表无明显差异的表达基因。获得DA组与健康组DEGs 2 335个,其中上调基因1 379个(59.06%),下调基因956个(40.94%)。
图3 DA患者与健康者十二指肠组织DEGs分布火山图
2.4 DA患者与健康者十二指肠组织显著性DEGs筛选结果
以调整后P值≤0.01,|log2FC| ≥2为筛选条件,对GSE102208数据进行深度分析,共得到DA组与健康组十二指肠黏膜显著性DEGs 373个。其中显著上调基因270个(72.39%),显著下调基因103个(27.61%)。图4中每个方格代表一个基因,红色代表上调基因,绿色代表下调基因,方格颜色越深表示基因表达值越高。热图的每一行代表同一基因在不同样本中的表达情况,每一列代表所有显著性DEGs在同一样本中的表达情况。由此提示,DA患者与健康者十二指肠组织存在显著的DEGs。
图4 DA患者与健康者十二指肠组织显著性DEGs层次聚类热图
2.5 显著性DEGs GO功能富集分析结果
进行GO功能富集分析共获得GO条目358条,其中生物学过程34条(9.50%),细胞组成294条(82.13%),分子功能30条(8.37%)。选取差异最显著的8个功能进行排序分析。结果显示(图5),生物学过程变化主要涉及胆固醇流出、胆固醇稳态、胆固醇输入、脂蛋白生物合成、三酰甘油稳态等功能簇;分子功能变化主要涉及高密度脂蛋白颗粒结合、金属内肽酶活性、化学排泄物活性、氧转运体活性、细胞因子受体活性等功能簇;细胞组分变化主要涉及质膜组成成分、外泌体、刷状缘、极低密度脂蛋白颗粒、细胞表面等功能簇。
图5 DA患者与健康者十二指肠组织显著性DEGs GO功能富集分析
2.6 显著性DEGs KEGG通路分析结果
KEGG通路富集分析结果显示(图6),DA患者与健康者十二指肠组织显著性DEGs主要富集于20条信号通路,分别为维生素消化吸收相关通路、碳水化合物消化吸收相关通路、蛋白质消化吸收相关通路、胆汁分泌相关通路、矿物吸收相关通路、非洲锥虫病、脂肪消化吸收相关通路、细胞色素P450对外源物质代谢的相关通路、ABC转运蛋白相关通路、PPAR信号通路、脂肪细胞因子信号通路、PI3K-Akt信号通路、神经活性配体-受体相互作用通路、疟疾、心肌细胞肾上腺素能信号转导通路、胰高血糖素相关信号通路、胰岛素抵抗相关信号通路、肾素-血管紧张素系统相关通路、AMPK信号通路、脂肪细胞脂解调节相关信号通路。
2.7 DEGs的PPI网络分析结果
将筛选出的显著性DEGs导入STRING在线分析软件,得到由269个基因构成的PPI网络,再将PPI网络信息导入Cytoscape 3.7.2,得到由106个特征性基因靶点和196条蛋白互作关系构成的网络图,对上调表达基因和下调表达基因分别进行颜色标记,粉色表示上调基因,蓝色表示下调基因(图7)。其中,上调基因77个(72.64%),下调基因29个(27.36%)。
图6 DA患者与健康者十二指肠组织显著性DEGs KEGG通路分析
2.8 核心DEGs筛选结果
应用Cytohubba插件筛选DA组与健康组十二指肠黏膜核心DEGs,以度值为筛选标准,共得到载脂蛋白B(APOB)、表皮细胞生长因子(EGF)、载脂蛋白A1(APOA1)、葡萄糖转运蛋白2(SLC2A2)、麦芽糖酶糖化酶(MGAM)、载脂蛋白A4(APOA4)、二肽基肽酶- 4(DPP4)、磷酸烯醇式丙酮羧激酶-1(PCK1)、神经肽Y(NPY)、葡萄糖-6-磷酸脱氢酶(G6PC)等10个关键基因。这10个基因的度值分别为26、26、21、21、16、14、14、14、13、13。其中,度值最大的基因为APOB和EGF。分析发现APOB、EGF、APOA1、SLC2A2、MGAM、APOA4、PCK1、NPY、G6PC为上调表达基因,DPP4为下调表达基因。见图8。
图7 DA患者与健康者十二指肠组织显著性DEGs PPI网络
图8 DA患者与健康者十二指肠组织核心DEGs
2.9 靶向治疗DA的中药活性成分筛选结果
将上述得到的10个核心DEGs导入CTD数据库,以Count数为筛选条件,得到作用于APOB、EGF、APOA1、SLC2A2、MGAM、APOA4、DPP4、PCK1、NPY、G6PC的中药活性成分分别为6、5、5、5、1、2、3、5、3、3个,结果见表1。
表1 靶向作用于DA核心致病基因的中药活性成分
续表1
3 讨论
本文通过对GEO数据库GSE102208芯片数据进行分析,获得DA组与健康组十二指肠黏膜DEGs,其中显著性DEGs共373个,包含270个上调基因和103个下调基因。GO功能富集分析显示,这些基因主要富集于胆固醇输入、胆固醇稳态、胆固醇流出、脂蛋白合成、三酰甘油稳态等生物学过程。胆固醇是细胞膜的基本组成部分,在细胞增殖和生长中具有不可或缺的作用。快速增殖的肿瘤细胞往往需要大量的胆固醇和脂肪酸,这反映了DA组织中细胞增殖旺盛[8]。近年来研究也已证实,肿瘤的发生与胆固醇维持质膜的流动性和渗透性有关,膜胆固醇外流可通过推动肿瘤相关巨噬细胞再变性促进肿瘤的发生和发展[9]。脂蛋白是一类富含固醇脂和三酰甘油的球状微粒。在肿瘤患者中经常可以观察到脂蛋白的异常,高脂血症可为肿瘤进展提供足够的致瘤脂质[10]。但当前对于高密度脂蛋白和癌症发病率之间的关系仍存在争议,二者关系可能与肿瘤类型有关[11]。本研究发现,显著性DEGs在分子功能中主要富集在高密度脂蛋白颗粒结合过程,提示高密度脂蛋白可能会促进DA的发生。
KEGG结果显示,DA显著性DEGs主要富集在PI3K-Akt、PPAR、碳水化合物消化吸收、蛋白质消化吸收、脂肪消化吸收、胆汁分泌等信号通路。PI3K-Akt是一条调节细胞生长的信号通路,在蛋白质翻译、细胞凋亡调控中均发挥重要作用,已证实在多种癌症中过度激活[12]。PPAR信号通路过表达时,肿瘤生长能力增强,血管密度增高,且更易转移[13]。同时,这些信号途径也富集在三大营养物质代谢过程,与DA患者肠道功能紊乱密切相关。另有研究表明,腺瘤的肿瘤转化可能由十二指肠中高浓度胆汁酸和胰液诱发,在胆囊切除后,这种表现更加明显[14]。本文结果结合上述已有的研究结果表明,我们所预测的信号通路异常表达与DA发生发展密切相关,提示针对上述信号通路开展靶向治疗可能具有较好的可行性。
进一步研究发现,DA组与健康组核心DEGs与其他DEGs之间存在大量的相互作用,这些基因与DA发生、发展、浸润及转移密切相关。其中,APOB、APOA1和APOA4属载脂蛋白家族,其生物学功能主要富集在胆固醇转运、脂蛋白生物合成及三酰甘油三酯稳态等功能簇。APOB是在肝脏和小肠中合成的主要载脂蛋白,对促进饮食和内源性合成脂质在体内的运输中发挥重要作用。虽然没有确切证据证明APOB与DA的相关性,但Kim等[15]指出,结肠腺瘤的发生随葡萄糖代谢水平升高而增加,同时伴随着APOB水平升高,这可能与APOB的糖基化作用相关。低密度脂蛋白可通过促使葡萄糖与APOB赖氨酸形成共价键而进行糖基化,APOB糖基化与细胞异常增殖有关,且与肿瘤关系密切。Al-Jawadi等[16]研究发现,果糖摄入过多可特异性刺激小肠APOB表达,进而诱发高三酰甘油血症并促进小肠肿瘤生长,以上机制同样适用于DA,提示通过改善生活方式如限制糖的摄入以改善血糖代谢参数可抑制DA发展。APOA1是高密度脂蛋白的主要成分,具有抗炎、抗凋亡和抗氧化功能并参与胆固醇运输以及免疫应答调节。Zhang等[17]研究指出,APOA1可通过促进胆固醇外流抑制肠道肿瘤生长和转移。本文预测结果与上述研究结果相符,预示APOA1异常表达可能诱导DA发生与发展。
EGF是人体分泌的一种重要的细胞生长因子,其主要功能是促进表皮细胞分裂。在结肠癌患者中,EGF通过诱导血管内皮生长因子的产生而激活血管内皮细胞,促进肿瘤血管生成,并与其受体EGFR作用以促进肿瘤细胞增殖[18]。E-钙黏蛋白属钙黏蛋白超家族经典成员,是维持上皮细胞间连接和上皮表型的必需蛋白,其在各种肿瘤中表达降低并与癌的分化、侵袭和转移密切相关[19]。新近研究证明,E-钙黏蛋白在结肠肿瘤的发展中具有促进作用,E-钙黏蛋白乙酰化可通过上调β-连环蛋白通路促进结直肠肿瘤细胞的生长[20-21]。同时,EGF可通过下调E-钙黏蛋白诱导大肠癌细胞上皮间充质转化,从而促使癌细胞转移,促进肿瘤发展[22]。由此提示EGF-E-钙黏蛋白通路在DA恶性进展中发挥重要作用,通过抑制EGF表达或能阻止腺瘤进一步恶化。SLC2A2是一种可运输葡萄糖的脂溶载体,属SLC2A家族,对葡萄糖具有较高亲和力。SLC2A高表达可满足癌细胞的高葡萄糖代谢,促使腺瘤恶化[23]。Jeppsson等[24]研究指出,神经肽Y可通过上调肠上皮细胞PI3k-Akt途径调节上皮细胞增殖与凋亡,从而促使肿瘤发生,而G6PC则在葡萄糖代谢和细胞周期调控起重要作用[25]。
通过CTD数据库对靶向作用于DA核心致病基因的中药活性成分进行筛选,发现结合度较高的成分有白藜芦醇、槲皮素、人参皂苷、姜黄素和雷公藤甲素等。白藜芦醇是一种葡萄、浆果、花生及其他植物来源的天然多酚化合物,已广泛用于治疗和预防癌症的各种研究。白藜芦醇可通过调节成纤维细胞、巨噬细胞和T细胞相关信号通路发挥抑瘤作用,同时保护细胞免于氧化损伤和维持细胞稳态[26]。在结直肠癌中,白藜芦醇可增强E-钙黏蛋白表达,并通过AKT/GSK3β/Snail信号通路抑制肿瘤细胞侵袭和迁移[27]。槲皮素属黄酮醇类化合物,普遍存在于水果和蔬菜中。槲皮素可通过调节P13K/Akt/mTOR、Wnt/β-catenin等途径使细胞活力丧失,促进肿瘤细胞凋亡和自噬[28]。虽然目前没有临床证据表明槲皮素可以用于预防和治疗人类癌症,但可作为饮食补充剂和低毒性治疗分子用于肿瘤的预防。人参皂苷是一种主要存在于人参属药材中的固醇类化合物。人参皂苷Rg3R可通过显著下调大肠癌干细胞基因表达和抑制其上皮间充质转化治疗结直肠癌[29]。已证明人参皂苷Rb2可通过抑制TGF-β/Smad信号通路抑制大肠癌细胞上皮间充质转化[30]。姜黄素是从姜黄根部获取的活性物质,已被证实可通过多种方式抑制结直肠肿瘤发展。Telang等[31]研究指出,姜黄素可减少家族性腺瘤性息肉病患者的腺瘤数和复发,这为DA治疗提供了一定理论依据。雷公藤甲素是一种从中草药雷公藤中分离出的化合物,可抑制癌细胞生长并在包括急性髓细胞白血病在内的多种癌症如结肠癌、卵巢癌、肺癌中表现出临床前抗肿瘤活性,其抗肿瘤基础侧重于对细胞凋亡、自噬和上皮间充质转化的调节[32]。
综上所述,本研究采用生物信息学方法深入挖掘十二指肠腺瘤芯片数据,获得 373个显著性DEGs及其相关通路,这些显著性DEGs涉及胆固醇稳态、胆固醇流出、脂蛋白合成、三酰甘油稳态、高密度脂蛋白颗粒结合等多个生物学过程和分子功能,参与PI3K-Akt、PPAR、胆汁分泌等多条信号通路。研究还表明,APOB、EGF、APOA1、SLC2A2、MGAM、APOA4、DPP4、PCK1、NPY、G6PC异常表达可能在DA发生发展中发挥关键作用。进一步研究发现,白藜芦醇、槲皮素、人参皂苷、姜黄素、雷公藤甲素等中药活性成分可能是有效治疗DA的靶向药物。