基于转录组学数据对肝细胞癌的研究
2021-04-27杨庆芳张泽立杨庆霞
杨庆芳 彭 彦 郭 飞 张泽立 杨庆霞
肝细胞癌(hepatocellular carcinoma,HCC,以下简称肝癌)是常见的消化系统恶性肿瘤之一,具有浸润性强,易转移、易复发的特点,并且预后差,死亡率高。其发生和发展是一个多因素、多步骤的复杂过程,受环境及自身因素的影响。目前还缺少有效的治疗方法,并且发病机制尚未完全明了。在肝癌的各项致癌因素中,肝硬化是导致肝癌的主要病因。在临床上,几乎所有被诊断为肝癌的患者都有肝硬化的病史[1]。针对肝硬化患者的筛查项目有助于诊断出早期肝癌[2]。尽管已经有很多研究被开展,实现对肝癌的早期诊断,并揭示肝癌的发生发展机制。比如Zheng团队[3]研究发现,SFN 蛋白在癌前病变组织和肝癌组织的蛋白表达谱有显著差异,并且在肝癌组织高表达,该结果提示SFN 蛋白可能在肝癌的发生中起到作用,可作为肝癌早期诊断的生物标志物。然而,由于缺少对肝硬化到肝癌这一恶化阶段基因组层面的分析,目前尚无在肝硬化人群中诊断出早期肝癌的有效方法[4]。基于此,本研究通过转录组学的肝癌数据,应用差异表达基因进行基因本体学和信号通路的富集分析,初步探讨肝癌发生发展过程中所参与的生物过程及信号通路。
1 材料与方法
1.1 研究对象 本研究所选取的样本为GEO 数据库(http://www.ncbi.nlm.nih.gov/geo/)中的GSE17548数据集,共包括17 个肝癌样本,20 个肝硬化样本数据。肝癌和肝硬化组织RNA 样品的微阵列分析是基于Gene Chip Human Genome U133 Plus 2.0 阵列的Affymetrix 平台。将CEL 文件下载后,是基于R 语言(http://www.r-project.org)平台进行分析,包括原始数据的读取和数据的归一化等预处理。
1.2 差异表达基因识别 对于GEO 下载的标准化后的数据,我们用DESeq2 软件包(DESeq2 package 1.16.1)进行差异表达的分析。DESeq2 包中提供的统计程序,是基于负二项式分布的模型来确定基因表达数据中的差异表达。使用Benjamini 和Hochberg的方法来调整所得的P 值以控制错误出现率,最终将调整后的P<0.05 以及log2FC>2 作为显著差异表达的阈值,挑选的基因作为差异表达基因。
1.3 差异表达基因功能分析 使用TopGO 软件包(TopGO package 2.34.0)对所筛选出来的差异基因,进行基因本体学(Gene Oncology,GO)分析。按照P<0.05 的标准,筛选出参与肝癌的生物进程的GO 条目。对识别的差异表达基因进行KEGG(Kyoto Encyclopedia of Genomes)通路富集分析。应用cluster-Profiler R 软件包分析KEGG 通路,从分子水平的信息中了解生物系统的功能和效用。
2 结果
2.1 差异表达基因识别 对17 个肝癌样本和20 个肝硬化样本的转录组学数据进行分析,通过差异表达基因分析,以揭示肝癌组与肝硬化组的差异。以ttest 显著检验所得P 值的对数值-lg(p-value)为纵坐标,以差异倍数的对数值log2(fold change,FC)为横坐标绘制火山图(见图1)。红点表示肝癌组织组相比于肝硬化组织组上调mRNA,蓝点表示肝癌组织组相比于肝硬化组织组下调,灰点表示未显著差异表达mRNA。以差异倍数FC>2 和P<0.05 为筛选阈值筛选差异表达基因,得出差异表达的基因共486 个。相对于肝硬化组织组,肝癌组织组有157 个基因上调,329 个基因下调(见表1),分别列举了肝癌组织相对肝硬化组织高表达和低表达的前20 个基因。
图1 差异表达基因的火山图
表1 肝癌和肝硬化组织差异表达基因前20
对表1 中的肝癌和肝硬化组织差异表达的20个基因进行聚类分析(见图2),在肝癌中差异表达的基因明显分成了两个部分,上调的基因聚在一起,下调的基因聚在一起。此外,基本上所有的肝癌样本和肝硬化样本也被区分开来。从这个聚类图可以看到,所筛选的这20 个基因,在肝癌样本和肝硬化具有较好的分类能力。
图2 差异表达基因的聚类分析热图
2.2 差异表达基因功能和通路富集分析 为了探究差异表达基因在肝癌和肝硬化发病中的生物学过程及其功能,将FC>2 且P<0.05 的差异基因进行GO富集分析(见图3),列举了前十个显著的GO 条目。差异表达基因显著富集到Cell cycle(细胞周期)、Cell division(细胞分裂)、Mitosis(有丝分裂)、Arachidonic acid metabolism(花生四烯酸代谢)等一系列跟癌症的发生发展密切相关GO 功能条目。
本研究利用KEGG 通路富集分析来找寻差异表达基因参与调控的相关通路(见表2)。研究发现,差异表达基因主要集中在Retinol metabolism(视黄醇代谢)、Chemical carcinogenesis(化学致癌作用)、Drug metabolism-cytochrome P450(药物代谢-细胞色素P450)、Cell cycle(细胞周期)、p53 signaling pathway(p53 信号通路)、Metabolism of xenobiotics by cytochrome P450(细胞色素P450 对外源物质的代谢)等16 个信号通路上。
图3 差异表达基因GO 富集分析
3 讨论
目前,肝癌发病机制及分子调控机制尚不明确。普遍认为是一个多基因参与、多步骤改变的复杂过程,目前缺乏有效的早期诊断手段。虽然,近年肝癌的生存率有所提高,但五年生存率仍不到10%。因此,早期及时发现和正确诊断肝癌对提高其根治率、改善患者预后具有重要意义。研究发现,促癌基因激活和(或)抑癌基因失活能使基因表达异常,导致细胞增殖及凋亡混乱,进而促进肿瘤的发生发展[5-6]。因此对这些变化的基因进行研究,或许能为肝癌的诊疗提供帮助。从转录组学角度来看,高通量测序可以通过分析样品中的全部RNA,进而对细胞中的转录组变化规律进行系统研究。将其应用于肝癌研究,能在分子层面鉴定与肝癌临床表型有关的枢纽基因,为进一步探索肝癌发病机制提供新的思路和理论基础,对理解肝癌分子遗传基础也具有重要意义。
表2 KEGG 分析差异表达基因参与的信号通路
本研究利用高通量测序技术及生物信息学方法,对肝癌组织和肝硬化组织样品进行转录组学分析。筛选到486 个差异基因,相对于肝硬化组织,肝癌组织有157 条基因表达上调,比如,基因SPINK1在肝癌组表达量为肝硬化组的3.02 倍(P<0.05)。Lee等[7]研究发现,SPINK1 能在HCC 患者高表达,其研究认为SPINK1 对肝癌细胞起着生长因子的作用,有增加肿瘤转移可能。相对于肝硬化组织,329 个基因表达下调,比如,基因CXCL14 在肝硬化组表达量为肝癌组2.46 倍(P<0.05)。Lin 等[8]发现,CXCL14 在肝癌组织,以及头颈部鳞状细胞癌和宫颈鳞状细胞癌是一种明显低表达的基因。基因FCN3 在肝硬化组表达量为肝癌组的2.35 倍(P<0.05)。研究显示,FCN3在HCC 中可作为肿瘤的潜在生物标志物[9-10]。本研究通过对差异表达显著的基因进行功能富集分析,发现在肝硬化恶化为肝癌的过程中,“细胞周期”“有丝分裂”等生物过程受到影响。这也暗示这些显著功能节点中包含的基因很可能与肝癌的发生发展相关。多项研究表明,各种细胞周期蛋白的异常激活导致不受机体控制的增殖是恶性肿瘤的特性之一[11-12]。王秀丽[13]研究发现,肝癌组织中细胞周期素依赖性激酶CDK1、CDK4 及细胞周期依赖性激酶抑制物CDKN2C 等持续高表达,导致细胞周期调控紊乱、细胞的恶性生长。为了进一步研究差异表达基因主要参与的代谢途径和信号通路,我们进行了KEGG 信号通路富集分析,并且发现差异表达基因主要集中在视黄醇代谢、化学致癌作用、药物代谢-细胞色素P450、细胞周期、p53 信号通路、细胞色素P450 对外源物质的代谢等16 个信号通路上。研究表明,非环状类视黄醇是一种合成的视黄醇类代谢物,能够抑制Ras/MAP 激酶信号转导,进而降低视黄酸受体磷酸化水平而阻止肝癌的进展[14]。细胞色素P450 主要存在于细胞的内质网和线粒体内膜上,在许多器官和组织中都有表达,但在肝脏中含量最为丰富[15],CYP1A2 是人体肝脏组织中主要的CYP 之一,Wuensch 等[16]发现,CYP1A2 在肝癌组织低表达,这与本研究结果一致。同时也有最新研究表明,在丙型病毒性肝炎相关肝癌中CYP1A2 已经可以作为判断患者早期术后复发的独立预测因子[17]。
本研究从整体上揭示差异基因的功能、代谢途径和信号通路,为研究肝癌的发病提供新的证据和研究思路。近年来,随着分子生物学、基因芯片和测序技术的发展,高通量数据海量增加,与肝癌生长、蔓延、转移有关的基因和蛋白也越来越受到关注。目前研究也取得巨大进展,这些成果对肝癌的早期诊断、药物选择、预后判断提供很大帮助,但由于肝癌相关的分子机制错综复杂,有许多研究尚处于实验阶段。因此,对肝癌分子机制的研究还有广泛的前景。