COL5A2对胃癌的价值-基于荟萃分析和生物信息学分析*
2021-11-23胡尚尚
胡尚尚,高 宇
(1.蚌埠医学院检验学院免疫学专业,安徽蚌埠 233000;2.蚌埠医学院生命科学院)
胃癌(gastric carcinoma,GC)占所有癌症死亡的8.2 %,是全球第三大癌症死亡原因[1]。目前,GC的治疗方法包括手术,化学疗法,放射疗法和免疫疗法,所有这些均可单独或组合使用[2]。胃癌患者5年总生存率大概为30.0 %~35.0 %[3]。因此,发展改进检测方法来诊断早期CG是至关重要的。COL5A2基因,即V型胶原α2链基因,编码一种低丰度纤维胶原的α链。该基因突变与埃勒斯-丹洛斯综合征Ⅰ型和Ⅱ型有关。在癌症研究中,少数报告指出了其在多种癌症的病理过程中的作用,包括结直肠癌和卵巢癌[4-5],先前的两项研究确定COL5A2是前列腺癌的潜在生物标志物[6-7]。近年来,大量的研究已经确定了许多与胃癌有关的基因[8-10]。这些基因有些可作为胃癌的治疗靶点和诊断标志物,但有些基因的对诊治胃癌的潜力仍未知。关于COL5A2与肿瘤之间的联系的证据有限,而且COL5A2在胃癌中的作用研究很少,差异表达的COL5A2在GC中的重要性及其在GC患者中的预后价值需要进一步研究。本研究在细胞水平和癌症基因组图谱(the cancer genome atlas,TCGA)数据库和基因表达汇编(gene expression omnibus,GEO)数据库分析COL5A2在胃癌中的表达及其诊断和预后价值,通过基因富集分析(Gene Set Enrichment Analysis,GSEA)结合TCGA数据揭示了COL5A2可能的分子功能。
1 对象与方法
1.1细胞培养和反转录定量聚合酶链反应(RT-PCR) 5种细胞系,包括HGC-27、SGC-7901、BGC-823和MGC-803 GC细胞系和正常人胃上皮-1细胞(GES)细胞系(所有细胞系购自武汉普诺赛生命科技有限公司)。培养基由100 U/mL青霉素、10.0 %胎牛血清和DMEM培养基组成,将细胞浓度调节至40.0 %~60.0 %后,细胞在37 ℃和5.0 % CO2下培养。采用TRIzol、无水乙醇、异丙醇、氯仿提取总RNA。以GAPDH为参考基因,扩增COL5A2,利用LightCycler®96 SW 1.1实时PCR系统对扩增产物进行RT-qPCR检测(诺唯赞生物科技有限公司)。实验在八联管中进行,每个样品三个复孔,并重复三次。用2-ΔΔCq法测定COL5A2相对表达量。(引物序列见表1)
表1 所用引物序列
1.2从GEO和TCGA数据库提取COL5A2表达的数据 基于癌症基因组图谱(TCGA)数据的肿瘤免疫评估资源(Tumor Immune Estimation Resource,TIMER)数据库分析几种癌症(包括胃癌)中COL5A2的mRNA水平(http://timer.comp-genomics.org/)[11]。从TCGA数据库(https://portal.gdc.cancer.gov/)下载GC患者的RNA测序数据,用R 3.6.1软件"limma"包进行处理数据并分析COL5A2在胃癌组织与正常组织的表达差异。使用以下搜索词在GEO数据库中获得包含GC样本的数据集:gastric AND(cancer OR carcinoma),用(Entry type)and Homo sapiens (Organism)的过滤器来指定搜索结果。制定以下排除标准进一步筛选搜索结果:(1)只包含GC组织而不包含正常组织的数据集;(2)仅包含细胞系样本的数据集;(3)正常组和肿瘤组各小于10;(4)不包含COL5A2表达的数据集。(5)重复的数据集。分析COL5A2在胃癌组织和正常胃组织中的表达差异,并用R软件绘制TCGA数据和GEO数据差异表达图。
1.3胃癌COL5A2 mRNA表达水平的分析 利用TCGA数据库和GEO数据库得到的数据集,全面分析COL5A2的表达。使用标准化均值差(SMD)方法评估连续变量COL5A2表达。采用Cohen分类评价总体效应大小,SMD<0.2,属于小效应;SMD在0.2~0.8之间,属于中等效应;SMD>0.8属于大效应。当有异质性时,来自GEO和TCGA的数据与随机效应模型结合(I2)>50.0 %,结果以森林图的形式呈现,并用Begg's检验和漏斗图用于评估出版偏倚。COL5A2表达的连续变量被转换为真阳性,假阳性,假阴性和真阴性计数。并计算灵敏度(Sensitivity,SEN)、特异性(Specificity,SPE)、阳性似然比(Positive Likelihood Ratio,PLR)、阴性似然比(Negative Likelihood Ratio,NLR)和诊断比(Diagnostic Odds Ratio,DOR)。绘制了综合受试者工作特征曲线(Summary ROC,SROC),并采用Deek漏斗图对纳入的研究进行发表偏倚检验。采用费根图(Fagan)计算诊断后概率,全面研究COL5A2的诊断价值。所有分析均使用STATA 12.0软件进行。
1.4COL5A2与临床病理特征的相关性分析 从TCGA数据库下载原发性胃癌患者的临床病理资料,选取有年龄(age)、性别(gender)、分级(garde)、TNM分期(TNM stage)、浸润深度(Invasion depth)、淋巴结转移(Lymph node metastasis)、远处转移(Distant metastasis)等临床病理资料的胃癌组织标本进行进一步分析。最后,根据COL5A2的中位数表达值将293例患者分为COL5A2高表达组和低表达组。采用卡方检验分析COL5A2表达水平与临床病理参数的关系。
1.5COL5A2对胃癌预后分析 利用Gene Expression Profiling Interactive Analysis (GEPIA)[12](http://gepia.cancer-pku.cn/index.html)网站基于TCGA数据和Kaplan Meier绘图仪在线数据库(http://kmplot.com/analysis/)分析COL5A2表达在胃癌患者中的预后价值。COL5A2使用的检查探针ID为221730_at,并计算95 %置信区间的对数秩P值和危险比(HR)。从TCGA数据库下载原发性胃癌患者的生存数据,采用R版本3.6.1软件,通过“Survminer”和“Survminer”软件包,利用单因素Cox回归分析和多因素Cox分析确定独立的预后因素。
1.6基因集富集分析(GSEA) 从TCGA数据库下载的375例胃癌患者中,根据COL5A2表达的中位数将其分为高表达组和低表达组。GSEA检测两组中排名靠前的基因富集的通路。对于每个分析,基因集排列的数量被设置为1 000。用标称(NOM)P值、假发现率(FDR)和归一化富集评分(NES)来识别每种表型的富集途径。
1.7与COL5A2共表达的基因分析 利用Coexpedia数据库(http://www.coexpedia.org/search.php)对COL5A2的共表达网络进行评估,以筛选与COL5A2相互作用的基因[13]。筛选出5个与COL5A2共表达并且与胃癌生存预后相关的基因进行进一步分析,并在TIMER数据库中验证它们与COL5A2的相关性。
1.8统计分析 统计分析采用STATA 12.0和R 3.6.1软件。采用独立样本t检验分析TCGA和GEO数据库中COL5A2 mRNA在胃癌组织和正常组织中的差异表达水平。皮尔逊卡方检验用于分析BICC1和临床特征变量之间的关联。采用Cox比例风险回归模型进行单因素和多因素分析。以P<0.05为差异有统计学意义。
2 结果
2.1COL5A2在胃癌细胞中高表达 与GSE-1相比,胃癌细胞中的COL5A2表达增高(图1)。
图1 COL5A2在胃癌细胞中差异表达图
2.2基于TCGA和GEO数据库的COL5A2 mRNA表达水平 通过TIMER分析TCGA RNA-SEQ数据来评估不同人类肿瘤中的COL5A2转录水平(图2)。胃癌组织中COL5A2 mRNA的表达高于正常胃组织。此外,与正常组织相比,COL5A2在乳腺浸润癌(BRCA)、胆管癌(CHOL)、结肠腺癌(COAD)、食管癌(ESCA)、头颈部癌(HNSC)、肾脏透明性细胞癌(KIRC)、胃癌等组织中高表达。在肾癌(KICH)、子宫内膜癌(UCEC)、肾乳头状细胞癌(KIRP)组织中表达降低。这些结果表明,COL5A2在多种肿瘤中异常表达。使用TCGA和GEO数据进一步评估了COL5A2在胃癌组织中的表达水平,通过排除标准从GEO数据库中选择了包含胃癌组织和正常胃组织样本的17个数据集(GSE13861,GSE26899,GSE26942,GSE29272,GSE30727, GSE33429,GSE13911,GSE19826,GSE27342,GSE54129,GSE63089,GSE64951,GSE65801,GSE79973,GSE84787,GSE112369,GSE118916),TCGA数据和GEO数据库的17个数据集共包括1 387例胃癌组织和568例正常组织(表2)。在TCGA数据库和17个GEO数据集分析中(除GSE30727),COL5A2在GC组织中的表达水平高于正常组织(图3)。随后对GC中COL5A2的表达水平进行了荟萃分析,GC组织中的COL5A2表达相比正常组织中表达上调[SMD=1.31,95 %置信区间(CI):1.19-1.42;P<0.001](图4A)。Begg's检验(P=0.34)和漏斗图中未发现明显的出版偏倚(图4B)。总体而言,这些结果表明COL5A2在胃癌组织中的表达高于正常组织。
图2 COL5A2在多种肿瘤中差异表达图
图3 相对于正常组织COL5A2在胃癌组织中高表达(除GSE30727)
图4 COL5A2表达的森林图(A)和漏斗图(B)
表2 TCGA数据和GEO数据集信息汇总
2.3COL5A2在GC患者中的诊断价值 绘制TCGA数据和GEO数据库中的17个数据集的ROC曲线(图5),GEO数据库的15个数据集(除GSE26942,GSE30727)和TCGA数据显示出较强的诊断潜力(P<0.05)。进一步对TCGA数据和GEO数据进行荟萃分析,对来自18个COL5A2研究的SEN和SPE数据进行了汇总,并以森林图的形式显示。从敏感性和特异性的数据来看,研究之间存在异质性(分别为I2=76.77 %和I2=86.02 %)(图6),因此在分析中选择随机效应模型。森林图结果:(1)SEN:0.80(95 %CI:0.76-0.85)(图6A);(2)SPE:0.88(95 %CI:0.79-0.93)(图6B);(3)PLR:5.61(95 %CI:3.24-9.71)(图6C);(4)NLR:0.25(95 %CI:0.20-0.31)(图6D);(5)DOR:24.41(95 %CI:13.12-45.40)(图6E);(6)通过绘制综合受试者工作特征曲线(SROC)并计算AUC来评估诊断的准确性(AUC=0.88,95 %CI:0.85-0.91)(图6F)。此外,进行Fagan列线图评估COL5A2的临床实用性,如图所示(图6G),结果表明,如果将前检测概率设置为20 %,PLR为7,后检测概率为52 %,NLR为0.22,后检测概率将降至5 %。Deek检验漏斗图未发现明显的出版偏倚(P=0.5)(图6H)。
图5 COL5A2表达的ROC曲线图
图6 COL5A2对肿瘤诊断的SEN森林图(A),SPE森林图(B),PLR森林图(C),NLR森林图(D),DOR森林图(E),SROC曲线(F),Fagan图(G),DEEK漏斗图(H)
2.4胃癌患者COL5A2的表达与临床变量的关系 胃癌患者的性别、TNM分期、浸润深度和生存状态间COL5A2的表达差异有统计学意义(P<0.05)。年龄、分级、淋巴结转移、远处转移间COL5A2的表达差异无统计学意义(P>0.05)。见表3。
表3 胃癌患者COL5A2表达水平与临床病理变量的关系
2.5COL5A2是胃癌中一个独立的不良预后因素 COL5A2的高表达均与较短的总生存期相关,如图7A(Hr=1.5,P=3.1e-12)和图7B(Hr=1.3,P=3.1e-12)所示。COX单因素生存分析显示,年龄(P=0.0072)、TNM分期(P=0.0002)、远处转移(P=0.0012)和COL5A2表达是影响胃癌患者生存时间的重要因素,见表4。多变量Cox生存分析显示,年龄和COL5A2表达是胃癌患者不良预后的独立预测因素(均P<0.05;图7C)。总体而言,提示COL5A2是一个不利的预后因素和独立的预后标记物。
图7 胃癌患者COL5A2高表达与生存率差有关(A),GEPIA使用TCGA数据分析COL5A2高和COL5A2低GC患者的总体生存率(B),在Kaplan-Meier绘图仪数据库中使用GSE14210(n=145)、GSE15459(n=200)、GSE22377(n=43)、GSE29272(n=268)、GSE51105(n=94)和GSE62254(n=300)数据集分析COL5A2高和低COL5A2患者的总生存率(C)多因素Cox分析显示不同因素的危险比(HR)
表4 单因素Cox分析显示不同临床变量的危险比(HR)
2.6GSEA识别GC中与COL5A2相关的信号通路 对COL5A2低表达和高表达的样本进行了GSEA分析,以预测COL5A2相关的信号通路。178条信号通路中有159条上调,其中9条信号通路在NOMP<0.05、FDR<0.25和NES>1.5处丰富,其中4条与胃癌的发生发展有关。高COL5A2组参与胃癌发生的相关术语有“DNA错配修复(DNA mismatch repair,MMR)”、“嘌呤代谢(Purine metabolism)”、“核苷酸切除修复(Nucleotide excision repair)”、“基底切除修复术(Base excision repair)”富集结果的汇总如图8A-D所示。
图8 COL5A2高表达样本中富集的GSEA通路图
2.7GC中与COL5A2共表达的基因分析 利用Coexpedia进行数据挖掘,筛选出与COL5A2共表达的基因(图9)。通过边缘LLS分数筛选出与COL5A2共表达的前5个与胃癌患者总体生存率较差的相关基因,包括V型胶原α1链(collagen type V alpha 1 chain,COL5A1)、I型胶原α1链(collagen type I alpha 1 chain,COL1A1)、Versican(VCAN)、骨膜素(periostin,POSTN)、ADAM金属肽酶结构域12(ADAM metallopeptidase domain 12,ADAM12)。并在TIMER数据库中验证了COL5A2与这些基因的相关性,结果表明,COL5A2与COL5A1(r=0.918,P=1.09e-167)、COL1A1(r=0.906,P=2.41e-156)、VCAN(r=0.875,P=5.87e-132)、POSTN(r=0.859,P=3.99e-122)、ADAM12(r=0.812,P=1.89e-98)呈正相关(图10)。COL5A2及其共表达基因可能共同促进了胃癌的发生。
图9 胃癌中COL5A2共表达基因网络图蓝色表示与胃癌患者总体生存率较差显著的相关基因,包括COL5A1、COL1A1、VCAN、POSTN、ADAM12
图10 COL5A2与其共表达基因相关性图
3 讨论
胃癌是人类消化系统常见的恶性肿瘤,尽管过去几十年来胃癌的诊断和治疗策略有了很大的改善,但胃癌患者的预后仍然很差。临床上用于GC早期检测的肿瘤标志物包括癌胚抗原(CEA)、碳水化合物抗原(CA)-CA19-9、CA72-4、CA125、CA24-2、CA50,以及胃蛋白酶原和甲胎蛋白(AFP)[14]。然而,这些血清生物标志物的特异性和敏感性很差,迄今为止,没有一种是GC诊断的唯一方法[15]。目前胃癌发生的分子机制尚不清楚,研究表明基因表达异常可能参与肿瘤的发生,并可成为诊断肿瘤的标志物[16-17]。最近的研究表明,基于GEO数据集和TCGA数据已经确定了不同类型的基因生物标志物。例如,基于生物信息学分析Ⅰ型胶原α2链(collagen type I alpha 2 chain,COL1A2)是一种新的提高胃癌临床预测的生物标志物[18]。荟萃分析和生物信息学分析表明FKBP脯氨酰异构酶10(FKBP prolyl isomerase 10,FKBP10)可能是治疗GC的潜在治疗靶标[19]。
然而,胃癌发生的分子机制尚不清楚。本文通过荟萃分析证实COL5A2在胃癌组织中的表达增高。从荟萃分析的结果中可知COL5A2的表达对胃癌的诊断有价值。并且COL5A2的表达与与胃癌患者的性别、TNM分期、浸润深度和生存状态相关。此外,COL5A2过表达与预后不良和总生存率相关。总体而言,本研究的结果表明COL5A2可能是参与GC发育的关键靶基因。
为了研究COL5A2在胃癌发生中的分子功能和潜在机制,进行了GSEA探索富含高COL5A2表达样品的途径,并鉴定了4种上调途径(与胃癌发生发展有关)。高COL5A2组参与胃癌发生的相关术语有“DNA错配修复(DNA mismatch repair, MMR)”、“嘌呤代谢(Purine metabolism)”、“核苷酸切除修复(Nucleotide excision repair)”、“基底切除修复术(Base excision repair)”。缺失的DNA错配修复(MMR)导致了一种称为微卫星不稳定性(MSI)的强突变表型,MSI是20 %的胃癌中发生胃癌的主要途径[20]。Y V Dumanskiy等人研究表明胃腺癌患者中观察到嘌呤代谢紊乱,嘌呤代谢紊乱程度可反映了病程的严重性,并与肿瘤过程定位有关,有预测价值[21]。Jingwei Liu等人的研究中核苷酸切除修复途径可增加患胃癌和萎缩性胃炎的风险[22]。这些研究表明COL5A2可能参与了胃癌相关的KEGG通路。COL5A2可能通过影响这些信号通路促进胃癌的发生发展。
COL5A2共表达网络和TIMER数据库分析结果表明,COL5A2与COL5A1、COL1A1、VCAN、POSTN、ADAM12有很强的相关性。如HOTAIR通过刺激miR-1277-5p并上调COL5A1来调节GC的生长,而COL5A1介导的GC细胞增殖是通过对肿瘤微环境的影响而介导的[23]。Quan Wang等人研究表明miR-129-5p通过选择性抑制COL1A1从而抑制GC细胞增殖、迁移和侵袭[24]。Ye Cheng等人的实验中,高VCAN表达的GC患者进展后生存率(PPS)、首次进展(FP)和总生存率(OS)较低,体外实验结果显示VCAN基因敲除抑制、增殖、侵袭和迁移GC细胞水平,而VCAN的过度表达则起相反的作用[25]。Hai Zhong等人研究研究表明骨膜炎素表达逐渐增加,与无病生存率和总生存率密切相关。免疫组化和Western印迹分析表明,POSTN蛋白在胃癌组织和转移灶中的表达明显高于癌旁正常胃粘膜组织。另外,POSTN在进展期胃癌组织中的表达高于早期胃癌组织,并且POSTN在永生化人胃癌细胞系中的异位表达可增加胃癌细胞的转移和侵袭[26]。Takaya Shimura 等人的研究中,ADAM12在胃癌组织和尿中高表达,尿中ADAM12可作为胃癌潜在诊断标志物[27]。COL5A2及其共表达基因可能共同参与了胃癌的发生,导致胃癌患者生存率较低。
综上所述,本文证实COL5A2在胃癌中的高表达,对胃癌具有诊断价值,进一步分析了COL5A2在胃癌中的预后作用及潜在分子机制,COL5A2可作为胃癌的诊断标志物和治疗靶点。