基于生物信息学分析的骨肉瘤关键生物标记物的筛选
2022-03-28康治理刘晓伟武振方赵建宁
康治理,刘晓伟,武振方,何 鹏,赵建宁,许 斌
骨肉瘤是最常见的恶性骨肿瘤,常发生于儿童和青少年[1]。骨肉瘤起源于间充质细胞,常表现为成骨细胞及软骨细胞分化,主要特征为肿瘤细胞产生的类骨质[2]。骨肉瘤常为单发病变、症状隐匿,表现为局部疼痛和肿胀。在病变早期,病人有间歇性疼痛,尤其是在夜间,随着病情的恶化,持续性疼痛频繁发生。骨肉瘤常起源于长骨的干骺端,如股骨远端和肱骨近端[3]。有研究[4-5]显示,病人在确诊时有40%已发生远处转移,预后较差。目前关于骨肉瘤的发病机制尚未完全阐明,但有较多的研究表明其发病机制与基因和遗传因素密切相关,且目前主要治疗方式除手术外,大多需要接受药物化疗。基于阐明其发病机制及寻找更有效的化疗药物的需要,筛选和鉴定骨肉瘤生物标志物成为目前研究的热点。近年来随着基因芯片及高通量测序技术的发展,应用生物信息学的方法预测疾病靶标基因,分析其可能的分子机制,为后续试验提供更加可行思路及方案,以期探明疾病的发病机制及研究出新的靶标药物。本研究利用GEO(Gene Expression Omnibus)数据库中的基因芯片数据,通过生物信息学方法分析骨肉瘤组织中的关键(Hub)基因,提高对骨肉瘤各种病理生理学要素及其众多遗传变异的认识,有助于推进病人的个性化治疗策略,为早期发现和改善预后提供了可靠的分子标志及防治骨肉瘤远处转移的有效药物靶点。
1 资料与方法
1.1 基因芯片数据 GEO数据库(http://www.ncbi.nlm.nih.gov/geo)是一个主要由基因表达的微阵列和芯片研究产生的公共数据库,隶属于美国国立卫生研究院的NCBI[6]。从 GEO上下载基因芯片GSE14359、GSE16088、GSE32964的数据,根据平台中的注释信息,将探针转换成相应的基因符号。GSE14359数据包含10个骨肉瘤组织样本和2个非肿瘤组织样本。GSE16088含有3份骨肉瘤标本和14份非肿瘤样本。GSE32964含有31个骨肉瘤样本和1个非癌样本。
1.2 筛选差异表达基因(DEGs) 用GEO2R(http://www.ncbi.nlm.nih.gov/geo/geo2r)在线分析工具对骨肉瘤和非肿瘤组织标本进行DEGs筛查。GEO2R是一个交互式的在线工具,可用于比较一个GEO系列中的两个或多个数据集,从而识别出DEGs。错误发现率和P值被用来平衡假阳性的局限性和发现有统计学意义的基因。通过数据筛选除去没有相应基因名称的探针集或具有多个探针集的基因,logFC(fold change)≥1和P≤0.01具有统计学意义。
1.3 DEGs的KEGG和GO分析 DAVID 6.8(http://david.ncifcrf.gov)是一个集成了生物数据和分析工具,并提供了一套完整的基因和蛋白质功能注释信息供用户提取的生物信息数据库[7]。KEGG是一个用于从高通量实验技术生成的大规模分子数据集中了解高级功能和生物途径的数据库资源[8]。GO是一种用于注释基因和分析这些基因的生物学过程的重要生物信息学工具[9]。DAVID在线数据库被用于分析这些DEGs的生物学信息,P≤0.05认为具有统计学意义。
1.4 PPI网络构建 蛋白-蛋白相互作用(PPI)网络用 STRING(http://string-db.org)在线分析工具构建[10]。通过分析蛋白质之间的功能相互作用,深入了解疾病的发生或发展机制。在本研究中,选择置信度>0.4来构建PPI网络。Cytoscape 3.6.1是一个开源的用来可视化分子相互作用网络的生物信息学工具[11],其中的MCODE插件是从Cytoscape在线安装用来对查找出的作用紧密的基因集合聚类分析的工具。本研究中PPI网络是使用Cytoscape绘制的,其中最显著的基因模块使用MCODE和cytoHubba识别。
2 结果
2.1 DEGs筛选 通过GEO2R在线分析及在线作Venn图,在筛选GSE19345、GSE16088、GSE32964中具有统计学意义的探针后,取三者基因集合共计95个DEGs(见图1)。
2.2 GO分析和KEGG分析 对95个DEGs进行GO功能注释KEGG通路富集分析,发现差异基因的生物学过程(biological process,BP)主要富集在免疫应答、正向调节细胞分化、细胞黏附的调节等过程;细胞成分(cellular component,CC)主要集中在细胞质膜、细胞基底外膜、黏着斑等部分;分子功能(molecular function,MF)主要富集在蛋白结合、蛋白质异源二聚物活性、GTP酶激活剂活性等。KEGG主要富集在细胞黏附分子、抗原处理和呈递等信号通路(见图2)。
2.3 PPI网络构建和Hub基因筛选 将95个显著差异表达的基因导入STRING在线工具,将所得数据结果输入Cytoscape3.6.1软件进行可视化,利用Mcode插件筛选出作用最紧密的基因模块,然后使用cytoHubba插件按照MCC算法找出排名前10的Hub基因,分别为CD74、LAPTM5、CD163、MS4A6A、HLA-DRA、CD86、FCER1G、C1QB、TYROBP、AIF1(见图3)。
3 讨论
骨肉瘤是好发于儿童和青少年的最常见的恶性骨肿瘤,预后极差,5年生存率仅有60%~70%[12]。临床上很多骨肉瘤病例失去了早期治疗的机会,因此,发现潜在的诊断标志物和推进精准治疗的进行是目前亟待解决的问题,而这些发现能为骨肉瘤提供新的见解和潜在的治疗目标。近年来兴起的基因芯片技术使得我们能够探索骨肉瘤的基因改变,并已在其他疾病中被证明是一种识别新的生物标记物的有效方法。
本研究分析了3个mRNA芯片数据集,获得骨肉瘤组织与非癌组织间的差异,共鉴定出95个DEGs。GO和KEGG富集分析探讨DEGs之间的相互作用。GO功能注释发现生物学过程主要富集在免疫应答、细胞黏附、蛋白结合、蛋白质异源二聚物活性、GTP酶激活剂活性等过程,这些过程和肿瘤的发生、发展、复发及转移密切相关,如免疫应答已在既往研究[13]中被证实与肿瘤的发生发展及在治疗中发挥作用。KEGG结果显示主要富集在细胞黏附分子、抗原处理和呈递等信号通路,与GO功能注释结果基本一致。
对95个DEGs进行PPI网络分析和Hub基因筛选得到链接度最高的前10个基因,分别是CD74、LAPTM5、CD163、MS4A6A、HLA-DRA、CD86、FCER1G、C1QB、TYROBP、AIF1。CD74是主要组织相容性复合物Ⅱ类的恒定链,也是巨噬细胞游走抑制因子的受体,为一种Ⅱ型跨膜蛋白,可在多种及癌前病变恶性肿瘤组织中表达[14-15]。有研究[16]表明,CD74为人胶质母细胞瘤中表达上调最明显的分子,可看作其阳性预后标志物,成为治疗人胶质母细胞瘤的有吸引力的靶标。有学者[17]认为CD74在乳腺癌组织的细胞膜和细胞质中比在对照组乳腺组织中表达升高,CD74下调减少了乳腺癌细胞的侵袭和迁移,提出针对CD74的新药物和抗体可能是乳腺癌治疗的有效策略的结论。但CD74是否参与骨肉瘤的发生、发展及复发转移中,至今未有此类报道。既往很多研究揭示了CD74基因在人类恶性肿瘤演变进程中的重要作用,证明了CD74在转录水平上调控骨肉瘤的相关分子作用机制,将对骨肉瘤的早期诊断和及时有效的治疗以及治疗方式的转变具有极其重要的意义。
LAPTM5是一种溶酶体膜蛋白,主要表达于淋巴系和髓系来源的细胞,在免疫细胞和造血细胞中优先表达[18]。LAPTM5的异位过表达导致溶酶体靶向并诱导人HeLa细胞中凋亡蛋白家族成员Mcl-1下调,Bak活化和线粒体依赖性细胞凋亡[19]。LAPTM5降低引起G0/G1期的细胞周期停滞,从而导致膀胱癌细胞生长延迟,且下调LAPTM5的膀胱癌细胞中凋亡情况没有明显改变及显著减少细胞转移[20]。尽管LAPTM5在骨肉瘤的发生机制及进展中的作用尚不明确,但从基因芯片分析的结果可以推测其与骨肉瘤有着密切相关性,因此,可从LAPTM5基因出发,对骨肉瘤发生的分子机制和治疗靶点进行深入探索。
其他Hub基因如FCER1G,为IgE高亲和力受体,在上调异位抗原提呈细胞fcεRI中起着重要作用[21]。FCER1G启动子去甲基化导致特应性皮炎病人单核细胞FcεRI过度表达[22],且有证据表明该基因表达失控可能在癌症发展中起重要作用[23]。
很多骨肉瘤病人发现时已经发生远处转移,尤其是肺部转移,因此深入研究骨肉瘤转移、侵袭的分子机制显得尤为重要,对提高骨肉瘤的治疗效果有极大的影响。LIN等[24]通过前瞻性研究分析指出CD163阳性表达与较差的5年生存率显著相关,pSTAT1/CD163表达状态是肺癌5年生存率的唯一独立预测因子。另外一项研究[25]中,肺癌病人的恶性胸腔积液中CD163+肿瘤相关巨噬细胞(TAMs)高表达,经治疗后的胸腔积液中CD163+TAMs表达明显降低,研究证明肺癌引起的恶性胸腔积液中CD163+TAMs的积累与预后不良密切相关。通过上述研究可知,CD163是肿瘤发生和转移的关键调控基因,研究骨肉瘤侵袭、转移的分子机制可以从CD163基因出发,为解决骨肉瘤转移这一临床难题提供新途径。
虽然近年来医疗水平不断提高,治疗方案不断完善,但是骨肉瘤病人的生存率仍然没有较大提高,5年生存率≤20%[26],其早期转移及缺乏前体病变[27]等特点被认为是导致病人高死亡率的主要原因。为了应对其早期转移,目前临床上常早期发现骨肉瘤的时候即行胸部CT扫描,但是当病人肺部转移病灶较小时则难以检出,从而延误诊治[28],且复发性肺转移常需进行多次肺部侵入性检查或手术,使得病人预后极差[29]。此外,骨肉瘤无明确的癌前病变,基于以上两点,更加灵敏且特异的筛查方法就显得尤为重要。随着基因芯片和二代测序技术等的广泛开展,使研究人类癌症的基因表达谱变得更加方便,为分子靶标预测及分子靶向治疗提供更加明确的方向[30]。
本研究通过生物信息学相关分析方法利用基因芯片数据和在线数据分析网站,得到与骨肉瘤发生机制有关系的Hub基因,但是缺乏相应的实验数据作为支持验证,存在一定的局限性,故Hub基因的具体作用机制及在骨肉瘤发生、发展中的作用仍需进一步研究证实。