TP53、P16及K-ras在胆囊高级别上皮内瘤变及早期癌中的表达及随机森林预测模型的建立
2021-01-14吴予涵蔡志强司书宾耿智敏
李 起,吴予涵,张 瑞,陈 晨,蔡志强,司书宾,耿智敏,张 东
(1.西安交通大学第一附属医院肝胆外科,陕西西安 710061;2.西北工业大学机电学院工业工程系,陕西西安 710072)
胆囊癌(gallbladder carcinoma, GBC)是最常见的胆道系统恶性肿瘤,居消化道肿瘤第6位,恶性程度高,预后极差[1]。目前关于GBC的发病机制尚不明确,普遍认为GBC的发生是自身基因易感性和环境因素相互作用的结果[2]。研究发现,慢性炎症与肿瘤形成密切相关,胆囊慢性炎症是GBC发生的重要危险因素[3]。胆囊黏膜在长期的炎症刺激下,可导致低级别上皮内瘤变向高级别上皮内瘤变转变,最终发展为GBC,在整个癌变的过程中伴随相关抑癌基因的失活及癌基因的突变[4-5]。抑癌基因TP53、P16和癌基因K-ras可以调节细胞生长、增殖,调控细胞周期,诱导细胞凋亡、血管生成,维持DNA稳定,当其发生突变后,基因正常的生理功能缺失而参与肿瘤的发生[6-8]。因此,在慢性胆囊炎向GBC转化的过程中,胆囊上皮内瘤变是其中间环节,当TP53、P16及K-ras发生突变后,可促进肿瘤的发生。
随机森林是一种机器学习集成算法,已广泛应用于医学领域[9-10]。随机森林通过建立多棵决策树并对各决策树的预测结果进行投票(平均)以得到最终结果,具有与决策树相同的完成分类及回归任务的作用[10-11]。随机森林的核心思想为自助抽样,通过对样本和特征进行有放回采样而建立多棵不同的决策树,能够增强模型的鲁棒性和泛化能力[11]。本研究采用免疫组织化学SP法检测不同胆囊病理组织中TP53、P16及K-ras的表达差异,基于患者临床病理资料,建立各基因突变的随机森林预测模型。
1 资料与方法
1.1 一般资料收集2013年1月至2018年12月于西安交通大学第一附属医院行胆囊切除术的71例患者的临床病理资料,其中男性27例,女性44例;年龄20~90岁,平均(59.73±14.92)岁;病史≥10年者11例,<10年者60例;就诊时具有腹部症状者44例,无腹部症状者27例;术前超声提示胆囊液性暗区清晰者27例,欠清晰者44例;胆囊壁光滑者22例,毛糙者49例;胆囊大小/壁厚比值正常者52例,异常者19例;异常回声团直径≥2 cm者23例,<2 cm者48例;异常回声数量呈单个者30例,呈多个者41例;合并胆囊结石者37例,合并胆囊息肉者34例;胆囊壁厚>3 mm者33例,≤3 mm者38例;术后病理证实为胆囊慢性炎者20例,胆囊高级别上级内瘤变者28例,早期GBC(Tis-T1期)者23例。本研究通过西安交通大学第一附属医院伦理委员会审批。所有患者及家属均签署知情同意书。
1.2 方法
1.2.1标本来源和主要试剂 所有标本均来自西安交通大学第一附属医院病理科。在进行取材切片前,由病理科医师对切片再次阅片证实,病理科技师严格按照标准条件进行5 μm连续切片。一抗为兔抗人TP53、P16(INK4A)及K-ras单克隆抗体,二抗为鼠抗兔单克隆抗体,以上试剂均购自北京博奥森生物技术有限公司。辣根过氧化物酶标记的羊抗兔抗体、免疫组化SP试剂盒及DAB显色试剂盒购自北京中杉金桥生物技术有限公司。
1.2.2免疫组化方法 采用免疫组化法对所有标本中TP53、P16及K-ras的表达进行检测,操作流程均按照SP试剂盒操作程序进行。对石蜡切片脱蜡,使用过氧化氢封闭组织内源性过氧化酶,使用柠檬酸缓冲液(pH=6.0)进行抗原修复。将山羊血清、一抗(1∶200)及二抗分别滴加组织中,作用时间分别为15 min、过夜及40 min。随后滴加辣根酶标记卵霉链白素,DAB显色4 min、苏木素复染2 min、自来水返蓝、梯度乙醇脱水、二甲苯透明及中性树胶封片,加盖玻片后镜下观察。用已知的TP53、P16及K-ras表达阳性的GBC切片作为阳性对照,用PBS代替一抗作为阴性对照。
1.2.3结果判定 TP53阳性的判定标准为光镜下棕黄色颗粒定位于组织细胞核中,而P16及K-ras阳性的判定标准为光镜下棕黄色颗粒定位于组织细胞质中。高倍镜下随机选取5个视野,对各视野中的150个细胞进行计数,计算出平均阳性细胞率。阴性表达的判定标准为阴性细胞率均值<15%,阳性表达的判定标准为阳性细胞率均值≥15%[12]。
1.3 统计学分析采用统计学软件SPSS 19.0进行分析。各基因表达情况与患者临床病理资料分析采用行×列的χ2检验,采用配对χ2检验进行关联性分析并计算Pearson列联系数来表示关联程度。P<0.05为差异具有统计学意义。
1.4 随机森林模型的建立采用Python3.7软件完成随机森林预测模型的建立。基于本研究样本量,为避免因划分训练集和验证集导致训练样本过少和过拟合的发生,使用留一验证法建立随机森林模型并评估模型效果[13]。即每次选择一个样本作为验证集,使用其余样本作为训练集建立随机森林预测模型,直至所有样本都已被作为验证集时完成预测。绘制ROC曲线,分析模型预测性能,当AUC<0.70时诊断价值较低,AUC 0.7~0.9时诊断价值为良好,当AUC>0.9时具有较高诊断价值。
2 结 果
2.1 TP53、P16及K-ras与患者临床病理特征的分析TP53、P16及K-ras表达的阳性表达率与胆囊腔内合并结石或息肉有关。胆囊息肉组中TP53、P16及K-ras的阳性表达率分别为23/34(67.65%)、24/34(70.59%)及20/34(58.82%),胆囊结石组中TP53、P16及K-ras的阳性表达率分别为12/37(32.43%)、14/37(37.84%)及6/37(16.22%)。胆囊息肉组中3种基因阳性表达率明显高于胆囊结石组,差异具有统计学意义(P<0.05,表1)。
TP53、P16及K-ras在慢性胆囊炎组中阳性表达率分别为5/20(25.00%)、6/20(30.00%)及3/20(15.00%),胆囊高级别上皮内瘤变组中阳性表达率分别为15/28(53.57%)、16/28(57.14%)及11/28(39.29%),早期GBC组中阳性表达率分别为15/23(65.22%)、16/23(69.57%)及12/23(52.17%)(图1)。3种基因在胆囊不同组织病理类型中阳性表达率不同,在胆囊高级别上皮内瘤变组及早期GBC组阳性表达率均高于慢性胆囊炎组,差异具有统计学意义(P<0.05),而在胆囊高级别上皮内瘤变组与早期GBC组之间3种基因的表达率无统计学差异(P>0.05)。综上,各基因阳性的表达率与胆囊病理组织类型有关,差异具有统计学意义(P<0.05,表1)。TP53、P16及K-ras阳性表达率在不同性别、年龄、是否伴有腹部症状、液性暗区是否清晰、胆囊壁是否光滑、大小/壁厚是否正常、异常回声团大小、异常回声团数量及胆囊壁厚度的分组中无统计学意义(P>0.05,表1)。
表1 TP53、P16及K-ras表达与患者临床病理特征之间的关系Tab.1 Expressions of TP53, P16 and K-ras and their relationship with clinicopathological features of the patients
续表1
2.2 TP53、P16及K-ras表达的相关性分析TP53和P16均阳性表达者为24例,均阴性表达者22例,表达一致率为64.79%(46/71);经关联性分析发现,胆囊病理组织中TP53和P16的表达具有一定相关性(χ2=6.285,P<0.05,r=0.298,表2)。TP53和K-ras均阳性者24例,均为阴性者30例,表达一致率为76.06%(54/71);关联性分析结果显示,胆囊病理组织中TP53和K-ras表达具有一定相关性(χ2=19.595,P<0.001,r=0.525,表3)。P16与K-ras均阳性表达者18例,均阴性表达者25例,表达一致率为60.56%(43/71);关联性分析结果显示,胆囊病理组织中P16与K-ras具有一定相关性(χ2=4.070,P<0.05,r=0.239,表4)。
表2 TP53和P16在胆囊病理组织中表达的相关性分析Tab.2 Correlation between the expressions of TP53 and P16 in gallbladder pathological tissues
表3 TP53与K-ras在胆囊病理组织中表达的相关性分析Tab.3 Correlation between the expressions of TP53 and K-ras in gallbladder pathological tissues
表4 P16与K-ras在胆囊病理组织中表达的相关性分析Tab.4 Correlation between the expressions of P16 and K-ras in gallbladder pathological tissues
图1 TP53、P16及K-ras在慢性胆囊炎、胆囊高级别上皮内瘤变及早期GBC中的阳性表达
2.3 随机森林模型的结果基于患者性别、年龄、病史、是否具有腹部症状、术前超声检查及术后病理检查等临床病理因素建立随机森林模型,采用留一验证法所得模型准确性评估结果如下:TP53突变预测模型的AUC为77.42%,模型精度为76.06%;P16突变预测模型的AUC为80.06%,模型精度为76.06%;K-ras突变预测模型的AUC为71.75%,模型精度为67.61%(图2)。结果表明,随机森林预测模型对3种基因突变的预测均能取得较高的准确性。
图2 基于随机森林模型预测不同基因突变的ROC曲线
3 讨 论
GBC的早期诊断对患者治疗方案的选择、预后及生存质量具有重要的价值。随着对GBC分子生物学研究的深入,发现TP53、P16及K-ras等突变是GBC发生的早期事件,对GBC的早期诊断具有一定的参考价值[2,4]。
TP53发生突变后基因编码的蛋白结构改变,失去抑癌作用,促进肿瘤发生,可作为肿瘤恶性程度的重要参考指标[6]。国内学者研究发现,TP53在低级别上皮内瘤变、高级别上皮内瘤变及GBC中的阳性率分别为20%、44.44%及82.05%[14];研究发现,TP53在GBC中突变率为45%~73%[15-16]。本研究中TP53在慢性胆囊炎、胆囊高级别上皮内瘤变及早期GBC中的阳性表达率分别为5/20(25.00%)、15/28(53.57%)及15/23(65.22%),与上述研究结果较为接近。
目前认为P16突变与GBC的发生密切相关,其可作为GBC预后的标志物[17-18]。本研究中P16在慢性胆囊炎、胆囊高级别上皮内瘤变及早期GBC中的阳性率分别为6/20(30.00%)、16/28(57.14%)及16/23(69.57%)。全志伟等[19]研究发现,随着病理组织越接近肿瘤,P16突变率越高,与本研究结论一致。而有研究发现,P16在胆囊炎症期突变率高于GBC,表明P16突变是GBC癌变的早期事件[20]。
当K-ras发生突变时,失去降解GTP的功能,导致磷脂酶C持续活化后产生大量IP3和DG,还可激活其下游信号传导通路,引起细胞过度增殖导致癌变[21]。在GBC中K-ras突变最常见的突变位点为12号密码子,与GBC的发生和不良预后密切相关[22]。本研究中K-ras在慢性胆囊炎、胆囊高级别上皮内瘤变及早期GBC中的阳性率分别为3/20(15.00%)、11/28(39.29%)及12/23(52.17%),表明越接近肿瘤组织,突变率越高,与国内研究结论一致[23-24]。本研究结果表明,TP53、P16及K-ras的突变具有相同的规律,即在部分慢性胆囊炎中已发生突变,随着组织异型性增加,其突变率也均随之升高。因此,TP53、P16及K-ras的突变是GBC发生的早期事件,在慢性胆囊炎向GBC转变的过程中发挥重要的作用,促进胆囊上皮内瘤变发生癌变。
TP53可调控其下游与细胞增殖、分化有关的基因,如P16基因、K-ras基因等。当TP53突变后可异常激活P16相关Rb蛋白异常磷酸化,K-ras突变后可通过其下游信号通路促进P16表达上调,从而促进肿瘤的发生[7,25]。因而,在配对分析中发现,TP53、P16及K-ras基因两两之间具有较高的表达一致率和一定的相关性(P<0.05),与多项研究结论一致[19,23]。因此,TP53、P16及K-ras的突变在胆囊炎向GBC的发生发展过程中发挥协同作用,最终导致GBC的发生。
胆囊息肉与GBC发生密切相关,约5%肿瘤性息肉最终发展为GBC[26]。本研究发现,在合并胆囊息肉的胆囊组织中,TP53、P16及K-ras基因的阳性表达率明显高于胆囊结石组,差异具有统计学意义(P<0.05)。因此,应重视对易发生GBC的高危性胆囊息肉的识别,尤其是单发的直径>10 mm的肿瘤性息肉,癌变可能性高,应给予患者行胆囊切除,预防癌变[27]。
本研究旨在分析各基因阳性表达与患者临床病理特征间的关系,主要包括术前超声及术后病理检查,超声检查对胆囊良恶性疾病的诊断及筛选具有重要的诊断价值,而病理检查是胆囊良恶性诊断的金标准[28]。因常用的机器学习预测模型无法完成多标签预测任务,即无法同时完成多个目标的预测,故需分别对不同预测目标建立其预测模型[11]。纳入患者性别、年龄、病史、临床症状、术前超声检查及病理资料,基于随机森林建立的TP53、P16及K-ras突变预测模型具有良好的精度。但基于回顾性资料建立的预测模型,仍需进一步行前瞻性研究验证其准确性。对于慢性胆囊炎疑似恶变患者,术前需获得性别、年龄、病史、临床症状、术前超声检查及血清学基因检测(NGS)等数据,通过随机森林模型预测其恶变的概率,可有助于术前早期诊断,并指导治疗。
综上所述,TP53、P16及K-ras的突变在慢性胆囊炎向GBC转变的过程中发挥重要的作用,可能参与促进胆囊上皮内瘤变发生癌变。早期联合检测胆囊病理组织中TP53、P16及K-ras基因的表达情况,有助于提高GBC的早期诊断。基于随机森林建立的各基因突变预测模型具有良好的准确性,可为研究GBC的发生机制及早期诊断提供参考。