基于生物信息学分析筛选胰腺癌差异表达基因
2023-03-10李威倩陈奕明张文婷苏莹珍帅红艳YuXin
李威倩,陈奕明,张文婷,苏莹珍,帅红艳,Yu Xin*
(1.大理大学基础医学院,云南大理 671000;2.大理大学临床医学院,云南大理 671000;3.昆明学院医学院,昆明 650214)
胰腺癌是发生于消化系统中恶性程度最高的肿瘤〔1〕。目前胰腺癌已成为全球第12 位常见的恶性肿瘤,是全球癌症病死的第7 大原因,也是中国第6 大癌症病死原因〔2〕。预计在未来30 年内胰腺癌将成为美国癌症病死的第2 大原因〔3〕,欧洲与癌症相关的第3 大病死原因〔4〕。因此,胰腺癌被称为“癌症之王”〔1,5〕。根治性手术治疗是目前唯一有效的治疗方法,但由于胰腺癌发病隐匿,早期难以确诊,超过80 %的患者确诊时已是晚期,手术治疗效果不佳〔6〕。即使对早期胰腺癌患者可行根治性手术并辅以放化疗和靶向治疗,但大多数患者术后存在局部复发和转移,术后5 年生存率仍不足10 %〔7-8〕。因此,有必要探索新的方法提高胰腺癌早期诊断率和改善患者的生存及预后。
目前,国内外研究人员逐渐把研究重点放到了分子靶向治疗方向,寻找有效的生物标志物既有助于提高胰腺癌的早期诊断率,又有利于探索新的胰腺癌治疗靶点,从而提供新的治疗思路。随着高通量基因组技术和基因芯片技术的兴起,使针对胰腺癌研究的二次分析成为可能。其中,基因表达综合(gene expression omnibus,GEO)数据库(https://www.ncbi.nlm.nih.gov/geo/)收录了各国研究人员及机构提交的基因表达数据,主要包括基因芯片、高通量测序数据,研究者可以在GEO 数据库搜索已发表的论文中涉及基因表达检测的数据。本研究旨在利用生物信息学方法对GEO 数据库中的胰腺癌基因芯片数据集进行分析,挖掘胰腺癌的差异表达基因(differentially expressed genes,DEGs),并针对DEGs 在人胰腺癌及癌旁组织中的表达水平进行研究,为探索胰腺癌的发病机制和潜在的治疗靶点提供新的线索和依据。
1 材料与方法
1.1 数据资料检索与收集以“pancreatic cancer”或“pancreatic adenocarcinoma”为关键词,在GEO 数据库中进行检索。纳入标准:种属“Homo sapiens”;同时具备肿瘤组织与配对正常组织。经过检索后选择平台GPL15207 上的数据集GSE107610。该数据集中包含胰腺癌组织样本39 例(GSM2872497~GSM2872551),正常组织样本2 例(GSM2872552~GSM2872553)。
1.2 DEGs 的确定对数据集GSE107610 中的矩阵数据进行筛选,选取其中的基因ID 号及基因表达水平。利用R 语言中的“Limma”软件包对上述数据进行分析以确定数据集中的DEGs,设定筛选条件为P<0.05,|log2FC|>1。
1.3 DEGs 的生物信息学分析利用R 语言,对筛选出的DEGs 进行GO 分析和KEGG 通路富集分析。在STRING 数据库(http://www.string-db.org)中导入DEGs 进行分析,寻找DEGs 对应的蛋白质之间可能存在的相互作用关系,构建蛋白质-蛋白质相互作用(protein-protein interaction,PPI)网络。将靶蛋白文件导入Cytoscape 软件,应用“cytohubba”软件包计算出PPI 网络中前15 个连通性较高的蛋白质,其对应的基因为核心基因。
1.4 核心基因表达验证经患者知情同意,选取在大理大学第一附属医院行胰腺癌切除术的胰腺癌患者的肿瘤组织及癌旁组织各3 例。为确认癌组织和癌旁组织的病理差异,取部分样本,在4 %甲醛固定液中固定24 h,流水冲洗30 min,脱水透明、石蜡包埋、4 μm 连续切片,经苏木精-伊红染色(hematoxylin and eosin staining,HE 染色)后在光学显微镜下观察组织病理表现。
筛选出4 个核心基因,通过实时荧光定量聚合酶链反应(polymerase chain reaction,PCR)检测核心基因在胰腺癌组织及癌旁组织中mRNA 的表达。取部分组织样本,使用FastPure Cell/Tissue Total RNA Isolation 试剂盒(Vazyme 公司)提取癌组织及癌旁组织中的总RNA,采用逆转录试剂盒(Vazyme公司)进行逆转录并进行实时荧光定量PCR 实验,荧光试剂采用ChamQ Universal SYBR qPCR Master Mix(Vazyme 公司),反应条件:95 ℃10 s,60 ℃30 s。引物序列见表1。
表1 实时荧光定量PCR 引物序列
1.5 统计分析采用GraphPad Prism 8.0 软件对数据进行统计分析,两样本均数的比较采用独立样本t 检验,P<0.05 为差异有统计学意义。
2 结果
2.1 DEGs 的筛选对GEO 数据库中的数据进行二次分析,筛选出与胰腺癌相关联的潜在分子靶点。对从GEO 数据库获得的GSE107610 数据集进行数据分析,筛选该数据集中差异表达水平超过2倍且校正后P<0.05 的基因进行后续研究,其中上调基因17 个,下调基因54 个。见表2。
表2 胰腺癌差异表达基因的筛选
2.2 GO 分析与KEGG 通路富集分析GO 分析主要包括3 个方面:分子功能、细胞组成和生物过程,分别描述了基因产物可能行使的分子功能、所处的细胞环境以及参与的生物过程。KEGG 通路富集分析从分子水平对基因参与的高级功能和信号通路进行分析。GO 分析和KEGG 通路富集分析将微观的DEGs 总结为宏观的功能信息,揭示基因及其功能的关系。GO 分析结果表明,在分子功能方面,DEGs 主要集中在调控乙醇脱氢酶、转运蛋白、视黄醇结合蛋白等的活性;在细胞组成方面,DEGs 主要表达在细胞外间隙、血小板α 颗粒,参与刷状缘膜、细胞膜的组成成分;在生物过程方面,DEGs 主要参与蛋白质水解、酒精代谢、外源性代谢、消化、免疫应答的调节等生物学过程。见表3。
表3 DEGs 的GO 分析结果
KEGG 通路富集分析显示,DEGs 主要参与的信号通路为蛋白质的消化和吸收、细胞色素P450参与的药物和外源性物质代谢、化学致癌作用、谷胱甘肽代谢、视黄醇代谢等。见表4。
表4 DEGs 的KEGG 通路富集分析结果
2.3 PPI 网络的构建与分析将DEGs 上传至STRING 数据库构建PPI 网络图。PPI 网络共包含68 个节点和142 个连接,将获得的分析数据按综合分数>0.15 进行筛选后下载。见图1A。把数据导入Cytoscape 中后通过cytohubba 插件获得连接度最高的前15 个核心基因:OTC,ACE2,SLC26A3,RBP2,SLC10A2,MEP1B,CES2,CYP3A4,GSTA2,ADH4,CPA2,ADH1A,CELA3A,REG1B,ANPEP。见图1B。
图1 DEGs 的PPI 网络图与核心基因筛选结果
2.4 核心基因表达验证选取临床患者部分胰腺癌组织与癌旁组织样本进行HE 染色,在光学显微镜下观察,胰腺癌组织样本较癌旁组织样本不规则腺体明显增多,细胞异型性显著。见图2A~B。
图2 胰腺癌组织及癌旁组织的病理形态图(HE,×200)
选择CPA2、ANPEP、ACE2、CELA3A 4 个核心基因,用实时荧光定量PCR 对胰腺癌组织及癌旁组织中的mRNA 表达水平进行检测,结果表明在胰腺癌组织中,CPA2、ANPEP 较癌旁组织显著降低,差异有统计学意义(P<0.01)。见图3A~B。CELA3A、ACE2 基因中mRNA 表达水平在胰腺癌组织的表达较癌旁组织明显增高,差异有统计学意义(P<0.05)。见图3C~D。
图3 胰腺癌组织及癌旁组织中的部分核心基因表达情况
3 讨论
胰腺癌是高度恶性的消化系统肿瘤,发病隐蔽,临床治疗效果不佳,5 年生存率低,预后极差〔9〕。胰腺癌的发病机制和如何改善患者预后依旧是临床及基础研究领域尚未攻克的难题。本研究通过生物信息学方法探索在胰腺癌的发生、发展中发挥重要作用的核心基因,为发现潜在治疗胰腺癌的靶点和早期诊断标志物提供思路。
本研究分析了基因表达谱GSE107610 中的39例胰腺癌组织样本和2 例正常组织样本,筛选出71个符合条件的DEGs,其中上调DEGs 17 个,下调DEGs 54 个。GO 分析及KEGG 通路富集分析表明这些DEGs 主要参与调节乙醇脱氢酶活性、蛋白质水解、酒精代谢及消化等过程。胰腺是重要的分泌腺体,其外分泌液中含有胰蛋白酶,对小肠内营养物质的消化(将蛋白质或大的缩氨酸分解成小的缩氨酸)具有关键作用〔10-11〕,生物信息学的数据分析结果与胰腺的功能一致。
依据关联度将筛选出排名前15 的核心基因分为4 个等级,每个等级抽选1 个基因即ACE2、CPA2、CELA3A、ANPEP 进行验证。在mRNA 水平,胰腺癌组织中CPA2、ANPEP 的表达相较癌旁组织降低,ACE2、CELA3A 的表达较癌旁组织增高。其中胰腺癌组织中ACE2、CELA3A 在mRNA 水平的表达与生物信息学分析结果略有差异,即表现为高表达,这一差异可能受肿瘤分期、病变组织分化程度及种族差异等多种因素影响导致。研究〔12-15〕发现,肿瘤标志物的表达会因肿瘤病变部位及肿瘤分期等不同而发生变化,ACE2、CELA3A 在胰腺癌中的具体变化情况,需要后续对更多临床样本进行分析与确认。
ACE2 作为关联性最强的核心基因,在肾素-血管紧张素系统中起到重要作用〔16〕。Yu 等〔17〕通过研究发现,ACE2 在胰腺中表达并且可以通过抑制p38 MAPK/NF-κB 信号通路保护胰腺。周琳等〔18〕通过构建过表达ACE2 基因的胰腺癌BxPC3 细胞株发现,ACE2 可以抑制肿瘤细胞的增殖。上述研究提示,ACE2 可能在胰腺癌发生过程中发挥抑癌基因的作用,未来可能成为胰腺癌治疗的新靶点。
CPA2 属于金属蛋白酶家族,由胰腺外分泌腺细胞分泌,参与蛋白质的分解代谢过程〔13〕。但目前鲜有关于CPA2 与胰腺癌的报道,其与胰腺癌的发生、发展是否有关还有待进一步研究。本研究中,通过对CPA2 在组织中的差异表达分析可以看出CPA2 在胰腺癌组织中的表达明显降低,这表明CPA2 可作为胰腺癌早期诊断的潜在标志物。
ELA3A 在肠道中参与蛋白质的消化和胆固醇的转运代谢〔19〕。目前,对于CELA3A 与胰腺癌的相关性尚不明确。但研究人员发现,ELA3B 作为CELA3A 的同工酶,在胰腺癌组织中ELA3B 基因的甲基化程度显著增加,揭示了该基因启动子区的高度甲基化导致了该基因在胰腺癌组织中的低表达〔20〕。综上所述,CELA3A 的低表达可能与其DNA 甲基化有关,可以在后续研究中对此机制进行深入探讨,利用表观遗传学及蛋白翻译后修饰方法探索胰腺癌新的发生机制,从而提供胰腺癌诊断的新靶点。
ANPEP/CD13 是一种锌依赖性肽酶,参与各种肽的代谢、血管形成及肿瘤生长〔21〕。ANPEP 已经被证实在多种肿瘤性疾病中呈高表达〔22-24〕,可作为检测肿瘤进展的标志物。值得注意的是,在某些癌症如肾癌组织中,ANPEP 的表达较正常组织是降低的〔25〕;在结肠癌患者的肿瘤组织和血浆中,肿瘤组织ANPEP 高表达患者的生存期较长,而血浆ANPEP高表达意味着患者较差的生存期〔26〕。在本研究中,ANPEP 在胰腺癌组织中也有较低的表达,由此说明ANPEP 的表达可能取决于癌症的类型和部位,后续需要更多临床数据来确认,但不能否认ANPEP 仍是有前景的癌症生物标志物,可用于癌症的早期诊断和治疗。
本研究利用生物信息学分析方法对胰腺癌的DEGs 进行了筛选,确定了部分核心基因ACE2、CPA2、CELA3A、ANPEP 与胰腺癌发生、发展有关的分子功能和通路,尽管生物信息学分析方法能够通过整合数据为探索胰腺癌的发生机制提供一定的思路,但是其真实性和在临床样本中的变化依然需要实验进行验证,本研究有效地结合了生物信息学方法与临床样本分析方法,为探索胰腺癌发生过程中标志物水平变化提供了依据,有望为胰腺癌的早期诊断和治疗提供新的思路。随着后续临床样本数据规模的扩大,有效结合生物信息学及临床结果将更有效地发现胰腺癌的内在发生机制,为更好地寻找胰腺癌的早期诊断甚至是治疗方法提供全新思路。