基于生物信息学分析软骨肉瘤的关键基因及发病机制▲
2023-07-17沈琦玮钟宗烨
沈琦玮 钟宗烨
(1 复旦大学附属中山医院手术室,上海市 200032;2 上海市老年医学中心手术室,上海市 201100;3 复旦大学附属中山医院康复医学科,上海市 200032)
软骨肉瘤是常见的恶性原发性骨肿瘤,占骨骼系统恶性肿瘤的1/3,发病人群以20~60岁成年人为主[1]。软骨肉瘤的年发病率为0.2/100 000,常发生在骨盆、股骨和肱骨等部位[2]。软骨肉瘤的远处转移风险较高,故大多数患者预后不良。软骨肉瘤细胞对放疗和化疗几乎不敏感,外科手术是目前唯一有可能治愈软骨肉瘤的方法[3]。目前软骨肉瘤的发病机制尚未完全阐明,寻找有意义的调控基因及信号通路,对预防及治疗软骨肉瘤具有重大意义。
虽然已有很多研究探索单个分子与软骨肉瘤的关系[3-5],但是软骨肉瘤的进展过程涉及多种基因,并且这些基因的表达变化会影响其他相关基因,产生相互作用。基因芯片技术是一种高通量检测手段,可同步检测上万个分子的表达水平,是探究基因之间相互作用的新方法[6]。因此,本研究利用人类软骨肉瘤基因芯片数据集,通过生物信息学技术分析软骨肉瘤的关键基因及可能的发病机制,探索其诊疗靶点,为该病的早期诊断、早期干预提供新思路。
1 材料与方法
1.1 基因芯片数据集的收集 从GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)下载两个人类软骨肉瘤相关基因芯片数据集GSE48418、GSE30835。其中,GSE48418数据集共6例样本,包括3例软骨肉瘤患者样本和3例健康对照者样本;GSE30835数据集共27例样本,根据所需组织样本类型,本研究选择其中的14例软骨肉瘤患者样本和4例健康对照者样本。GSE48418、GSE30835均是Illumina公司的产品,芯片平台号分别是GPL10558和GPL6884。
1.2 数据处理和差异表达基因分析 应用R语言软件(V3.6.3)中的sva包去除数据间的批次效应,并标注软骨肉瘤组和健康组。应用R语言软件中的limma包进行差异表达基因(differentially expressed genes,DEGs)分析,并对结果去重。以|log2FC|≥1且调整后P值<0.05作为DEGs的筛选条件。应用R语言软件中的ggplot2包绘制火山图,然后应用VennDiagram包对从两个数据集筛选出的DEGs取交集并制作韦恩图,获得共同DEGs。
1.3 富集分析 针对共同DEGs,利用DAVID数据库(https://www.david.ncifcrf.gov)进行基因本体论(Gene Ontology,GO)功能富集分析和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析,以调整后P值<0.05表示有统计学意义。使用R语言软件中的ggplot2包,根据分析结果绘制气泡图。
1.4 蛋白质-蛋白质相互作用网络的构建和关键基因的筛选 将共同DEGs导入STRING数据库(https://cn.string-db.org),设置筛选条件为置信度≥0.15、相互作用最大值=0,分析各DEGs之间的关系。将STRING数据库的运算数据导入Cytoscape软件(版本:3.8.0)进行可视化处理,构建蛋白-蛋白相互作用(protein-protein interaction,PPI)网络。应用Cytoscape软件中的MCODE模块,在保持自有系数的基础上发掘关系紧密的集团,再运用cytoHubba插件中的连接度模式筛选出前10个关键基因。
2 结 果
2.1 DEGs的筛选结果 在GSE48418数据集中筛选出2 587个DEGs,其中表达上调的基因有1 283个,表达下调的基因有1 304个;在GSE30835数据集中筛选出284个DEGs,其中表达上调的基因有125个,表达下调的基因有159个,见图1。两个数据集的共同DEGs有62个,包括28个表达上调的DEGs和34个表达下调的DEGs,见图2。
图1 DEGs分析结果
图2 韦恩图
注:A为GSE48418数据集,B为GSE30835数据集。图中绿色圆点代表表达下调的DEGs,红色圆点代表表达上调的DEGs,灰色圆点代表表达无差异的基因。
2.2 富集分析结果 GO功能富集分析结果显示,共同DEGs富集在细胞与基质黏附、细胞与基质黏附的调节、肌细胞迁移、小梁形态发生、小梁组成等生物学过程,富集在含胶原的细胞外基质(extracellular matrix,ECM)、内质网腔、胶原三聚体等细胞组分,涉及糖胺聚糖结合、ECM结构成分提供的抗压支持、含硫化合物结合等分子功能,见图3。KEGG通路富集分析结果显示,DEGs与黏着力、磷脂酰肌醇-3-激酶(phosphoinositide-3-kinase,PI3K)/蛋白激酶B(protein kinase B,AKT)、ECM-受体相互作用、糖尿病并发症中的晚期糖基化终末产物(advanced glycation end product,AGE)-AGE受体(receptor for AGE,RAGE)、蛋白质消化与吸收等信号通路相关,见表1。
表1 共同DEGs的KEGG通路富集分析结果
图3 共同DEGs的GO功能富集分析结果
注:仅展现前5个条目。BP为生物学过程,由上而下分别为细胞与基质黏附、细胞与基质黏附的调节、肌细胞迁移、小梁形态发生、小梁组成;CC为细胞组分,由上而下分别为含胶原的ECM、内质网腔、胶原三聚体、ECM组分、胶原三聚体复合物;MF为分子功能,由上而下分别为糖胺聚糖结合、ECM结构成分、含硫化合物结合、肝素结合、ECM 结构成分提供的抗压支持。
2.3 PPI网络及关键基因 PPI网络由39个节点和69条边组成,见图4A。根据连接度筛选出前10个关键基因,包括Ⅰ型胶原蛋白α1链(collagen type Ⅰ alpha 1 chain,COL1A1)、Ⅲ型胶原蛋白α1链(collagen type Ⅲ alpha 1 chain,COL3A1)、卵泡抑素样蛋白1(follistatin-like protein 1,FSTL1)、凝血酶敏感蛋白2(thrombospondin 2,THBS2)、Ⅳ型胶原蛋白α4链(collagen type Ⅳ alpha 4 chain,COL4A4)、细胞周期蛋白D1(cyclin D1)、细胞骨架相关蛋白4(cytoskeleton-associated protein 4,CKAP4)、胶原三螺旋重复蛋白1(collagen triple helix repeat containing protein 1,CTHRC1)、Ⅷ型胶原蛋白α1链(collagen type Ⅷ alpha 1 chain,COL8A1)、尿激酶型纤溶酶原激活因子(plasminogen activator,urokinase,PLAU),见图4B。
图4 共同DEGs的PPI网络及关键基因筛选结果
3 讨 论
软骨肉瘤是一种起源于软骨的恶性骨肿瘤,主要影响股骨、骨盆、膝关节和脊柱的软骨细胞,其发病机制和病因尚未被完全阐明[7]。探寻软骨肉瘤的生物标志物和分析其发病机制有助于疾病的预防、早诊断、早治疗及预后判断。
本研究通过分析基因芯片数据集获取软骨肉瘤的62个DEGs,包括28个表达上调基因和34个表达下调基因。GO功能富集分析结果显示,上述DEGs富集在细胞与基质黏附、细胞与基质黏附的调节等生物学过程,富集在含胶原的ECM、内质网腔等细胞组分,涉及ECM结构成分提供的抗压支持、糖胺聚糖结合等分子功能。KEGG通路富集分析结果显示,上述DEGs富集的主要信号通路包括PI3K/AKT信号通路、 ECM-受体相互作用信号通路等。软骨肉瘤的ECM主要由纤维状胶原蛋白组成,且糖胺聚糖是ECM的重要组成成分。既往研究显示,软骨肉瘤细胞是通过肿瘤内部和周围ECM的降解来侵入正常组织[8]。ECM的分解代谢反应在软骨肉瘤的发病过程中占主导地位,主要与ECM蛋白的损失及软骨破坏有关[9]。在软骨肉瘤中,PI3K/AKT/糖原合成酶激酶3β信号通路和Scr信号通路被异常激活,且两种通路可相互作用[10]。杨鹏[11]发现,基质细胞衍生因子1/趋化因子受体4信号通路可以通过PI3K/AKT信号通路增强Survivin的表达,从而调控软骨肉瘤细胞周期和上皮-间质转化。由此可见,相关DEGs可通过调控ECM代谢及PI3K/AKT信号通路来参与软骨肉瘤的发生。
本研究通过构建PPI网络,筛选出COL1A1、COL3A1、FSTL1、THBS2、COL4A4、cyclin D1、CKAP4、CTHRC1、COL8A1及PLAU这10个与软骨肉瘤相关的关键基因。其中,COL1A1是一种蛋白质编码基因,主要生成Ⅰ型胶原,在骨、真皮和肌腱中高表达。COL1A1已被发现在多种恶性肿瘤中高表达,例如胃腺癌组织[12]、肝细胞癌组织[13]等。FSTL1与心血管疾病、癌症、关节炎、肺纤维化和肥胖等多种疾病相关,可以作为评估病情的标志物,并具有作为治疗靶点的潜在价值[14]。FSTL1可以促使肿瘤侵袭,在促进肿瘤细胞转移中具有重要作用。THBS2主要参与细胞迁移的调节及肿瘤血管生成过程,在肺癌、胃癌等多种恶性肿瘤的发生和发展中具有重要作用[15]。Romeo等[16]发现COL4A4会干扰软骨的分化。有学者发现,硒可通过miR-29a-3p靶向调控靶基因COL4A2,从而促进鸡肝癌细胞的转移和侵袭[17]。cyclin D1则是已明确的癌基因[18],与肿瘤的侵袭和转移有关[19]。cyclin D1在高级别中央软骨肉瘤中低表达,可反映肿瘤细胞周期进程和细胞黏附功能的受损情况[16]。肝内胆管细胞癌患者体内的CKAP4表达增加,CKAP4表达水平与病灶大小、转移程度及TNM分期有关[20]。CTHRC1在胃癌、黑色素瘤、口腔癌等实体瘤中过表达,并在肿瘤发生和转移中起到重要作用[21]。COL3A1在胃癌的发生、发展中发挥了重要作用,敲减该基因可有效抑制胃癌细胞的增殖、侵袭及迁移[22]。COL8A1参与胃癌前病变进展为胃癌的过程,并可促进胃癌细胞增殖[23]。有学者发现,PLAU在宫颈癌中过度表达,敲减该基因可以抑制宫颈癌细胞的迁移和侵袭,是宫颈癌治疗的潜在靶点[24]。由此可见,上述多种关键基因与肿瘤的恶性生物学行为有关,可能在软骨肉瘤的发生、发展中起到重要作用。
综上所述,COL1A1、FSTL1、THBS2及cyclin D1等基因对软骨肉瘤的发生有重要作用,其可能通过调控ECM代谢和PI3K/AKT等信号通路来参与软骨肉瘤的发生。这些基因与信号通路可为软骨肉瘤的诊治提供新方向,值得深入研究。