TNS4在肺腺癌中的表达及预后分析
2022-09-08刘亚锋邢应如周家伟
张 鑫,吴 静,2 ,刘亚锋,邢应如,周家伟,谢 军,胡 东,2*
(1.安徽理工大学医学院,安徽 淮南 232001;2. 安徽理工大学职业健康安全工程实验室,安徽 淮南 232001;3. 安徽理工大学附属肿瘤医院,安徽 淮南 232035)
肺癌是最常见的恶性肿瘤,占全球癌症死亡率第1位[1]。肺腺癌是非小细胞肺癌(non-small cell lung cancer,NSCLC)中的一种常见亚型,大约占肺原发肿瘤的40%,其恶性程度虽较低,但由于其易复发,仍有超过30%的患者面临着术后复发的风险[2]。在分子靶向药物和免疫检查点抑制剂的有效的治疗策略下,肺癌的存活率已经提高[3]。然而,治疗远处转移患者的疗效仍是有限的[4]。在肺腺癌中,很小的原发肿瘤也会发生转移,晚期预后较差,平均5a生存率低于20%[5-6]。目前肺腺癌缺乏特异且灵敏的诊断标志物及预后判断标志物,因此亟需寻找新的生物标志物用于肺腺癌的早期检测和开发有效的临床相关预测模型。
张力蛋白4(Tensin 4,TNS4)是一种多功能细胞因子,其异常表达与肿瘤相关[7]。研究表明,TNS4是在多种癌症中过表达的肿瘤基因,如乳腺癌、大肠癌、肝癌、肺癌等[8-10],在调节细胞黏附、运动、侵袭以及上皮间质转化等方面发挥重要作用[11-14]。尽管TNS4已被确定为多种癌症的肿瘤基因,但其在调节黏附、运动、侵袭和转移等的作用机制仍不明确,因此TNS4在肺腺癌中的应用有待进一步研究。
为探讨TNS4在肺腺癌的发生发展及生存预后的意义,本研究通过对TCGA公共数据库中肺腺癌的基因组和临床信息组进行分析,并利用Cox回归分析筛选与肺腺癌预后相关的临床特征,联合临床信息构建临床预测模型,以期为TNS4基因在肺腺癌的生存预测提供新的方法。
1 材料与方法
(1)数据下载及预处理
从TCGA公共数据库中(https://tcga-data.nci.nih.gov/tcga/tcgaHo-me2.jsp)下载551例肺腺癌患者组织标本的mRNA-Seq数据与486例临床信息,并进行预处理:提取mRNAs原始数据;标本编号与癌和癌旁信息匹配;删除临床信息缺失及患者生存时间为0的样本。
(2) TNS4的表达预后及临床相关性分析
用R语言软件中limma、Scatter和Paired-Plot软件包对497例癌组织样本和54例癌旁组织样本中配对样本和非配对样本中TNS4基因mRNA表达水平进行差异分析,用survival包将癌组织样本中TNS4基因mRNA表达分为高低两组,并分析两组和患者预后的相关性,用R(beeswarm)包分别计算TNS4基因表达与临床特征的相关性。
(3)单-多因素Cox回归分析
考虑到不同病人个体特征可能会影响到患者的生存率,因此将患者的性别、年龄和疾病分期(stage)、疾病分型(T,M,N)都纳入分析。用单因素Cox分析有统计学意义的临床参数进行校正后纳入多因素Cox回归中用于分析临床参数与肺腺癌生存预后的关系,以P<0.05为筛选条件。
(4)随机分组
本研究将325例临床信息与表达TNS4的标本进行匹配,得到317例可用数据,然后采用随机数产生法将317例肺腺癌患者随机分为训练集、验证集和总体标本集3个队列,总体标本集317例,训练集(222例)用于学习标本特征和估计模型,验证集(95例)用于作为内部验证队列验证模型的预测性能。
(5) 列线图模型建立和验证
使用R包survival对矩阵数据进行Cox多因素回归筛选和肺腺癌患者预后相关的变量作为基准变量,结合变量重新建模,分别计算模型AIC值,选取AIC值最小的模型使用rms包进行列线图可视化构建。分别使用ROC曲线及校正曲线两种方法对列线图模型进行内部验证。
(6) 统计学分析
使用SPSS20.0进行统计分析。癌组织与癌旁组织表达量比较用配对t检验。临床病理参数相关性分析及组间比较采用χ2检验。Kaplan-Meier生存分析采用R语言Survival包,显著性分析为Log-rank检验。单-多因素Cox回归分析将患者年龄、性别、TNM分期、病理分期、TNS4表达水平等指标量化赋值,P<0.05为差异有统计学意义。列线图采用R3.5.2语言rms和survival包进行绘制,survcomp包用于评价模型预测能力的C指数及其95%CI的计算。
2 结果
(1) TNS4的表达预后及临床相关性分析
运用R语言中limma、Scatter和Paired-Plot软件包对551例肺腺癌患者的癌及癌旁组织和54例来自同一病人的癌及癌旁组织中TNS4表达差异进行可视化分析。如图1(a)所示,在非配对样本中TNS4在癌组织中显著高表达,差异有统计学意义(P<0.01)。为了消除数据来自不同样本的异质性,分析配对样本中TNS4表达水平,如图1(b)所示, TNS4在配对癌组织中同样显著高表达, 差异有统计学意义(P<0.01)。 用survival包分析TNS4表达水平与肺腺癌患者总体生存期, 结果如图1(c)所示, TNS4高表达的患者总体生存期明显差于低表达的患者(P<0.01)。为了研究TNS4基因在不同疾病分期及疾病分型(T,M,N)中表达水平, 将疾病分期stage分为两组: Ⅰ/Ⅱ和Ⅲ/Ⅳ; T分为两组: T1和T2~4;M分两组:M0和M1; N分为两组: N0和N1~3。 用R中beeswarm包分别计算TNS4基因与临床特征的相关性, 结果如图1(d)所示,疾病分期中,III/IV中TNS4表达水平高于I/ II期(P<0.01),可见随着病人疾病期别的进展,TNS4表达会增加。在T和N分型中,随着进展,TNS4同样会上调(P<0.01)。但是在TNS4与M分型之间无相关性(P>0.05)。由此猜测TNS4的上调会促进肿瘤的生长及淋巴扩散,但是并不影响肿瘤的转移。
(a)TNS4表达量 (b)配对样本TNS4表达量 (c)TNS4生存曲线
(2)单-多因素Cox分析肺腺癌患者临床因素
考虑到不同病人个体特征可能会影响到患者的生存率, 因此将患者的性别、 年龄和疾病分期(stage)、 疾病分型(T,M,N)都纳入分析,性别分为男和女;年龄分两组:>65岁和≤65岁; 疾病分期stage分为两组:Ⅰ/Ⅱ和Ⅲ/Ⅳ;T分为两组:T1和T2~4;M分两组:M0和M1;N分为2组:N0和N1~3。在单因素Cox分析中T分型、N分型、疾病分期和TNS4表达状态均能够显著影响患者的预后(P<0.01),性别、年龄、M分型对预后没有明显影响,多因素分析结果显示TNS4的表达状态和疾病分期是影响肺腺癌患者预后的独立因素(P<0.01)(见表1)。由于临床上疾病分期是评估患者预后的金指标, 可见TNS4基因具有准确预测患者预后的能力。
表1 肺腺癌患者临床相关因素分析
(3) 列线图模型的构建与验证
多因素分析中,筛选出TNS4的表达状态和疾病分期都是影响肺腺癌患者预后的独立因素(P<0.01)。由于疾病分期是预后的金指标,如果联合TNS4的表达状态和疾病分期来共同预测患者预后,将会得到更准确的结果。考虑到临床中年龄也是肺腺癌患者的一个重要预后因素,因此也纳入分析。用总标本集中TNS4基因联合临床信息构建肺腺癌患者3a和5a的临床预测列线图模型,如图2(a)所示,病人分为两组,定义≥65岁分值1,<65岁值为0。疾病分期分为I、II、III和IV,定义分值分别为0、23、43和37。TNS4的分值根据病人的TNS4基因表达水平来定义,TNS4基因表达水平为1得分为0.55。假设一个病人62岁,疾病分期分为II,TNS4基因表达水平为10,那么这个病人总得分为28.5,此病人3a生存率大约为41%,5a生存率大约为21%。也就是说,在这个模型中可以根据病人的得分准确预测其3a及5a的预后,将这个得分定义为风险评分。分别计算每个病人的风险评分,并根据风险值中位数,划分为高风险与低风险组,在3个数据集中分别分析风险评分和预后相关性。结果如图2(b)~(d),风险评分对患者预后的影响均具有统计学意义(P<0.01),且高风险的患者生存率明显降低。相比较其他数据集,总体标本集更能反映患者的预后。
(a)肺腺癌患者的3a和5a临床预测列线图模型
ROC曲线指受试者工作特征曲线,是反映敏感性和特异性连续变量的综合指标,AUC值(曲线下面积)越大,诊断准确性越高。如图3所示,本研究用ROC曲线验证3个数据集构建模型预测患者3a及5a预后的准确性,如图3(a)~(f),3个数据集中预测3a预后能力的AUC值分别为0.699、0.681和0.704,预测5a预后能力的AUC值分别为0.684、0.627和0.686。所有AUC值均大于0.600,因此模型具有准确预测能力。在3a和5a AUC值中,总标本集的AUC值均大于训练集大于验证集。可知模型纳入的病人数据越多,结果越准确,且模型预测患者3a生存率更准确。同时,用校准曲线验证3个数据集构建模型预测患者3a和5a预后的准确性。校准曲线是实际结果和预测结果的对比,曲线越接近对角线,说明预测效果越好。如图4(a)~(f),该模型可以准确预测LUAD患者3a和5a的生存率,但相较于验证集,训练集和总体标本集具有更高的预测准确性。
(a)训练集ROC曲线 (b)验证集ROC曲线 (c)总体标本集ROC曲线
(a)训练集校准曲线 (b)验证集校准曲线 (c)总体标本集校准曲线
3 讨论
越来越多的研究发现,TNS4在肺腺癌中异常表达往往与患者预后密切相关[15]。本研究分析发现癌组织中TNS4显著高表达,并且高表达TNS4的患者预后较差。这和已有研究结果一致,证明TNS4可作为诊断肺腺癌患者的预后标志物。
有细胞学实验研究表明,高表达TNS4蛋白的肿瘤细胞运动和侵袭能力加强[16-18],而肿瘤细胞活力增强,往往会导致患者疾病分期及分型的加重[19-20]。本研究发现随着TNS4的上调,会促进肿瘤的生长及淋巴扩散及转移。由此可知,高表达TNS4的肺腺癌患者往往疾病分期及分型更重,这与TNS4可能会提高肺腺癌细胞的活力密切相关。同时TNS4作为一种原癌基因,已被认为是多种恶性肿瘤中极具潜力的生物标志物和治疗靶点[21],然而鲜有文献论证TNS4是否可以指导肺腺癌的治疗情况。如果抑制肺腺癌患者中TNS4表达,将会改善患者疾病分期,提高患者生存率,TNS4抑制剂将会是肺腺癌的一种有效治疗方法。
列线图模型是一种临床医生利用患者个体化信息预测癌症患者生存率的新方法,因其简单准确性价高而越来越受到人们的重视[22]。已有研究发现将TNS4等预后基因合并患者临床信息构建的列线图可以预测患者预后[23]。本研究构建了TNS4合并患者临床信息的预后列线图模型,发现该模型可以准确预测患者3a和5a生存率。这对临床上治疗肺腺癌患者具有重大意义,临床医生可以根据患者TNS4表达水平,更加准确地判断患者疾病程度,也可以结合患者TNS4表达和临床信息,准确预测患者预后生存率,从而制定准确有效的治疗方法。尽管列线图模型可以准确预测癌症患者生存率,但模型可行性往往需要大量的数据及多种验证方法进行验证[24]。很多研究都会将患者数据进行拆分,并运用ROC曲线和校准曲线来验证预后基因合并癌症患者临床信息构建预后列线图模型的可行性[25]。本研究将患者数据拆分为3个数据集,运用以上两种方法验证了在3个数据集中均具有构建模型的可行性,且数据集中患者数据越多,模型的可行性和准确性越高。由此可知,本研究构建的模型是足够准确的,在临床上有一定的应用价值,有助于促进肺腺癌患者个体化治疗和生存评估的普及。
4 结论与展望
本研究揭示了TNS4在肺腺癌中的表达意义及临床价值,TNS4可以作为肺腺癌的一个潜在诊断及准确预后指标。同时,开发的列线图预后模型,不仅降低了肺腺癌治疗的成本,还促进肺腺癌患者的个体化治疗及生存评估。
本研究不足之处在于,TCGA数据集中提供的是mRNA水平的表达数据,可能无法完全代表TNS4在蛋白质水平的表达情况。同时,TCGA数据库中缺乏治疗信息可能会对结果产生影响。如果增加更多的病人临床治疗信息,预后列线图模型和评分系统将会更加完善。在今后的研究中,将收集更多的肺腺癌患者临床数据,完善列线图模型,进一步研究TNS4调控肺腺癌肿瘤生长及淋巴扩散的具体机制。