APP下载

联合肝癌患者病理和预后相关蛋白数据构建肝癌预后决策树模型

2020-05-07张红雁

安徽医学 2020年3期
关键词:队列决策树染色

汪 泓 阳 霞 张红雁

肝细胞癌(hepatocellular carcinoma,HCC)是全球癌症相关死亡的第三大原因[1]。手术切除是根治肝癌的重要手段,但患者预后差异很大[2]。对肝癌患者预后精准评估,可为治疗方案的选择提供依据,从而延长其生存期。目前,尚缺乏反映肝癌分子生物学特征的预后因子,临床常用的肝癌预后分期系统的准确性有待提高[3-4]。 研究[5-6]表明,从TCGA数据库中可获取肿瘤组织的反相蛋白质阵列(reverse-phase protein arrays,RPPA),利用高通量的生物信息学筛选方法有助于精准找寻和成功鉴定肝癌预后分子标志物以评估患者预后[7]。决策树分析方法已在预测恶性胸膜间皮瘤、重症急性胰腺炎、急性肝功能衰竭等疾病的预后中表现出良好的风险分层特性[8-12]。本研究通过分析TCGA数据库 HCC RPPA数据,选择预后蛋白标志物Tubulin α-1B、PAI-1和B-raf用于775例肝癌患者组织免疫组织化学(immunohistochemistry,IHC)染色,联合患者临床病理信息,采用决策树方法构建肝癌预后模型并验证,为临床判定肝癌患者预后提供参考。

1 资料与方法

1.1 一般资料 收集1998年1月至2010年12月中山大学肿瘤防治中心775 例HCC患者石蜡包埋病理标本。纳入标准:所有病例均病理确诊为肝细胞癌;均为根治性肝癌切除患者,且术前或术后未进行抗肿瘤治疗;患者临床病理资料齐全、随访数据完整。临床病理资料包括年龄、性别、肝炎病史、血清甲胎蛋白、肝硬化情况、肿瘤数目、大小、分化程度、分期和血管浸润程度等。肿瘤分化程度根据Edmonson等[13]诊断标准鉴定。TNM分期根据美国癌症联合委员会的分类定义[14]。随访时间:第1年每3个月随访1次,随后2年每6个月随访1次,此后每年随访1次。随访观察总生存时间(overall survival,OS)和无病生存时间(disease-free survival time,DFS)。OS定义为从肝癌手术至患者死亡,或最后一次随访的间隔时间。DFS定义为从肝癌手术到肿瘤复发的间隔时间。肿瘤复发(包括肝内复发或转移)需通过超声、CT或MRI鉴定。最后一次随访存活的患者或未诊断出肿瘤复发的患者,以及其他原因导致患者死亡被视为删失数据。

1.2 方法

1.2.1 筛选肝癌预后蛋白标志物 从TCGA数据库获得182例肝癌患者的RPPA数据、临床病理及预后信息。利用Cox比例风险回归模型进行单因素生存分析,计算风险比(hazard ratio,HR)及95%置信区间(confidence interval,CI),将差异有统计学意义的预后相关蛋白纳入LASSO回归分析,筛选出影响肝癌预后的关键蛋白标志物。构建LASSO逻辑回归使用R软件(版本3.4.3)和“ glmnet ”软件包[15]。

1.2.2 肝癌组织预后蛋白标志物IHC染色及评估 将福尔马林固定、石蜡包埋的病理组织块和相应的HE染色玻片比对以进行组织微阵列(Tissue microarray,TMA)采样。由病理科具有高级职称的医师阅片并标记癌旁肝组织和肝癌组织区域。将组织重新嵌入新的石蜡块中,4 μm切片并进行后续IHC染色[16]。兔单克隆抗TUBA1B抗体(ab108629,Abcam)以1∶1 500稀释。兔单克隆抗B-raf 抗体(ab33899,Abcam)和兔多克隆抗PAI-1抗体(AF5176,Affinity Biosciences)的稀释度均为1∶200 。

从0~12分对IHC染色强度和比例进行评分[17]。染色强度等级:0分,IHC无染色;1分,染色弱;2分,染色适中;3分,染色强。染色比例:0分,没有检测到阳性染色细胞;1分,<25%的细胞染色;2分,25%~50%的细胞染色;3分,50%~75%的细胞染色;4分,>75%的细胞染色。IHC分数是通过强度和比例相乘来计算。根据2位病理科医师评分结果的平均值确定最终IHC得分。

1.2.3 肝癌患者预后决策树模型的构建及验证

1.2.3.1 分组 通过计算机生成的随机数将775例肝癌患者分为训练队列544例和验证队列231例。训练队列中,男性489例,女性55例;年龄13~77岁,平均(49.1±11.9)岁,随访0.1~117.1 个月,中位随访时间18.9 个月。验证队列中,男性199例,女性32例;年龄14~74岁,平均(48.3±12.3)岁,随访0.1~118.2个月,中位随访时间20.4 个月。

1.2.3.2 建模 使用R软件(版本3.4.3)和软件包“rpart”进行决策树分析。参数设置:目标变量为肝癌患者预后,预测变量为多因素Cox比例风险回归分析结果中肝癌预后的独立预测因素,包括肿瘤大小、肿瘤数目、血管浸润、TNM分期、淋巴转移、Tubulin α-1B、B-raf。通过ROC曲线计算预测模型的特异度,通过比较不同模型曲线下面积评估模型预测能力。

2 结果

2.1 预后相关蛋白的确定、表达及其与临床病理特征的关系 从TCGA数据库290个蛋白中筛选出21种与肝癌患者总生存时间相关的候选蛋白(见图1A)。利用LASSO逻辑回归通过降维鉴定出3个预测标志物:Tubulin α-1B、PAI-1和B-raf。Kaplan-Meier生存分析显示,TCGA数据库中这3种蛋白标志物高表达,则肝癌患者预后差(见图1B)。通过IHC检测这3种蛋白在775 例肝癌患者中的表达,结果显示Tubulin α-1B 、PAI-1和B-raf 均表达于肝癌细胞的胞质中(见图2A、2D、2G)。相比癌旁肝组织,Tubulin α-1B在肝癌组织中表达上调,并与肝癌患者生存时间短显著相关(见图2 A~C),而PAI-1或B-raf的表达在癌旁肝组织和肝癌组织中差异相对较小 (见图2 D~F和G-I)。在训练队列和验证队列中,均可观察到肿瘤分化、血管浸润和包膜完整与Tubulin α-1B的表达有关(表1)。而PA1-1和B-raf的表达与临床病理参数之间几乎无相关性。

图1 利用TCGA数据库筛选肝癌预后相关蛋白

注:A为TCGA RPPA数据库中肝癌预后相关蛋白的单因素生存分析;B为TCGA RPPA数据库中3个最重要的肝癌预后相关蛋白Tubulin α-1B、PAI-1和B-raf的Kaplan-Meier生存分析

图2 相关蛋白与肝癌患者预后的相关性

注:A、D、G为癌旁肝组织、低风险肝癌组和高风险肝癌组中Tubulin α-1B、PAI-1和B-raf 蛋白表达;B、E、H为 Mann-Whitney检验比较癌旁肝组织(N)、肝癌组织(T)以及不同风险组之间Tubulin α-1B、PAI-1和B-raf 的表达差异;C、F、I为Kaplan-Meier分析775例肝癌患者中Tubulin α-1B、PAI-1和B-raf 表达与患者总生存时间的相关性

表1 Tubulin α-1B表达与患者临床病理参数的关系[例(%)]

续表1

参数训练队列验证队列例数低表达高表达χ2值P值例数低表达高表达χ2值P值纤维化3.6380.0560.0430.836 阴性9850(51)48(49)4427(61.4)17(38.6) 阳性421259(61.5)162(38.5)184116(63)68(37)肿瘤大小(cm)0.1250.7240.4200.517 <512472(58.1)52(41.9)6744(65.7)23(34.3) ≥5396237(59.8)159(40.2)16299(61.1)63(38.9)肿瘤数目1.0450.3071.2820.257 单个344199(57.8)145(42.2)14997(65.1)52(34.9) 多发176110(62.5)66(37.5)8046(57.5)34(42.5)肿瘤分化9.1260.0035.8250.016 高分化4939(79.6)10(20.4)1816(88.9)2(11.1) 中低分化471270(57.3)201(42.7)211127(60.2)84(39.8)TNM分期3.3130.0690.0500.823 I222142(64)80(36)9057(63.3)33(36.7) II~IV298167(56)131(44)13986(61.9)53(38.1)血管浸润5.1220.0244.8060.028 阴性420260(61.9)160(38.1)188124(66)64(34) 阳性9949(49.5)50(50.5)4019(47.5)21(52.5)包膜3.9750.0466.5580.010 不完整299167(55.9)132(44.1)13374(55.6)59(44.4) 完整220142(64.5)78(35.5)9468(72.3)26(27.7)淋巴转移0.0750.7840.0000.990 阴性485288(59.4)197(40.6)220138(62.7)82(37.3) 阳性3421(61.8)13(38.2)85(62.5)3(37.5)

2.2 Tubulin α-1B 表达与肝癌患者预后的相关性 Tubulin α-1B 高表达与肝癌患者OS和DFS短高度相关(见图2C)。单变量分析显示,在训练和验证队列中,肿瘤大小、肿瘤数目、包膜完整、血管浸润、淋巴转移 和TNM分期,以及Tubulin α-1B 表达是肝癌预后的预测因子 。多变量分析表明,在两个队列中Tubulinα-1B高表达是肝癌患者预后差的独立预测因素。见表2、3。

表2 在训练队列中肝癌患者预后的单因素和多因素分析

续表2

变量单因素分析多因素分析HR (95% CI)P 值HR (95% CI)P值DFS 年龄 (<49岁 vs ≥49岁)0.790(0.619~1.006)0.056 性别 (女性 vs 男性)0.898(0.599~1.347)0.603 HBV (阳性 vs 阴性)1.203(0.874~1.656)0.257 肿瘤大小 (<5 cm vs ≥5 cm)1.147(0.869~1.514)0.333 肿瘤数目 (单个vs 多个)1.072(0.822~1.399)0.606 包膜 (不完整 vs 完整)0.945(0.740~1.206)0.648 肝纤维化 (阳性 vs 阴性)0.865(0.639~1.169)0.345 甲胎蛋白 (<20 ng/mL vs ≥20 ng/mL)1.391(1.021~1.895)0.0361.296(0.938~1.791)0.116 血管浸润 (阳性 vs 阴性)1.585(1.157~2.169)0.0041.437(1.029~2.007)0.034 分化程度(高分化 vs 低中分化)1.211(0.813~1.806)0.347 TNM (I vs II-IV)1.137(0.890~1.453)0.304 淋巴转移 (阳性 vs 阴性)0.803(0.439~1.471)0.478 PAI-1 (低表达vs 高表达)0.982(0.757~1.273)0.889 Tubulin α-1B (低表达vs 高表达)1.394(1.078~1.802)0.0111.323(1.019~1.716)0.035 B-raf (低表达vs 高表达)1.030(0.784~1.354)0.832

表3 验证队列中肝癌患者预后的单因素和多因素分析

2.3 决策树模型验证结果 依据肝癌患者存活少于或多于19 个月(肝癌患者的中位生存时间)分为预后不良组或预后良好组,将其设为决策树目标变量。将多变量分析结果中的独立预测因素纳入决策树分析,将其设为决策树预测变量。在构建的决策树模型(见图3A)中,初始分叉节点为TNM分期,Tubulinα -1B 蛋白IHC得分为 4(得分≤4为低表达组,得分>4为高表达组)、肿瘤大小和血管浸润为决策树的分叉节点。由此,决策树模型分为低风险组(组1a和组1b)、中风险组(组2a和组2b)以及高风险组(组3a和组3b)。预后好的低风险组具有以下特征之一:①TNM分期I期且Tubulin α-1B 低表达;②TNM分期I期、Tubulin α-1B 高表达且肿瘤大小< 5 cm。中风险组具有以下特性之一:①TNM分期I期、Tubulin α-1B 高表达且肿瘤大小≥5 厘米;②TNM分期II-IV期、Tubulin α-1B 低表达且无血管浸润。预后差的高风险组具有以下特征之一:①TNM分期II-IV期且Tubulin α-1B 高表达;②TNM分期II-IV期、Tubulin α-1B低表达且存在血管浸润。同时,在231例肝癌患者中验证了构建的决策树模型(见图3A)。在训练队列中,决策树模型预测预后的auROC为0.728(95%CI:0.684~0.772)。Cox模型有类似的准确度,auROC为0.742(95%CI:0.699~0.785,P=0.329 )。在验证队列中,决策树模型和Cox模型也表现出较好的预测准确性,auROC分别为0. 741(95%CI:0.675~0.806)和0.737(95%CI:0.672~0.802,P=0.456)。决策树模型、Cox模型及纳入CART分析中的临床病理特征预测肝癌患者预后的能力差异如图3B所示。在训练和验证队列中,决策树模型评估的风险等级与肝癌患者总生存时间和无病生存时间显著相关,表明决策树模型可预测肝癌患者预后风险(见图3C)。

图3 决策树预后模型和验证结果

注:A表示在训练队列(n=544)和验证队列(n=231)中使用决策树模型区分肝癌不同风险组。决策树的节点包括TNM分期(根节点)、Tubulin α-1B 、肿瘤大小和血管浸润。组1a和组1b为肝癌低风险组;组2a和组2b为肝癌中风险组;组3a和组3b为肝癌高风险组;B为训练队列和验证队列中决策树模型、Cox模型以及每个独立变量预测肝癌患者预后的ROC曲线;C为训练队列和验证队列中使用决策树模型对肝癌患者预后进行生存分析

3 讨论

由于肝癌治疗手段有限及患者预后差,临床医生正在考虑开发简易实用的预后模型,用于治疗决策和预后评估。本研究构建的肝癌组织蛋白表达与临床病理数据相结合的综合预后模型,可预测肝癌患者预后。模型中临床病理参数,如TNM分期、肿瘤大小和血管浸润,代表了肿瘤的总体特征,而与预后相关的蛋白Tubulin α-1B的表达则在分子水平反映肿瘤的恶性程度。临床病理参数与肿瘤组织IHC评分的组合,不仅可以区分不同的生存风险组,而且符合分子与细胞生物学机理,更重要是在临床上简易可行。决策树模型中鉴定出TNM分期中被忽视的新的患者亚群,同时也体现出了在判断肿瘤恶性程度中临床病理数据与肿瘤生物学标记之间的相互作用。

本研究通过分析TCGA数据库,利用LASSO逻辑回归,鉴定出3个肝癌预后标志物:Tubulin α-1B、PAI-1和B-raf。其中PAI-1是一种丝氨酸蛋白酶抑制剂,可抑制纤维蛋白溶酶原激活剂tPA 和uPA[18]。它可调节血管内纤维蛋白溶解,调控细胞侵袭和迁移。PAI-1可促进肿瘤血管生成[19]。催乳素可抑制PAI-1 的抗纤溶活性,从而抑制肿瘤的血管形成[20]。PAI-1抑制剂SK-216 可以抑制血管生成,可用于恶性胸膜间皮瘤的治疗[21]。B-raf是Raf丝氨酸/苏氨酸激酶家族的成员之一,是MAPK信号转导途径的组成成分,可介导细胞增殖与迁移[22]。恶性肿瘤的体细胞突变可激活Raf蛋白亚型[23]。微管蛋白是细胞骨架的主要成分,其主要生物学功能与细胞黏附、运动、DNA复制和细胞分裂有关[24]。已发现几个微管蛋白家族成员参与肿瘤进展[25]。α-tubulin乙酰化的升高增加了乳腺癌的转移潜力[26]。Tubulin α-1B 在肝癌组织中表达上调可促进肝癌细胞增殖,且Tubulin α-1B 高表达与肝癌患者总生存时间短以及紫杉醇耐药相关[27]。本研究即通过IHC评估肝癌组织中Tubulin α-1B 中的表达,结合临床病理资料,构建决策树模型来预测肝癌患者的预后。

本研究通过CART方法构建决策树进行多变量分析。CART分析是一种机器学习算法,可以通过使用临床病理数据和生物标志物表达量来预测患者总生存。决策树模型与传统多元回归方法建模相比具有多项优势。首先,决策树模型不受缺失数据限制,例如临床数据部分缺失或IHC染色失败。统计结果适用于所有纳入研究的临床病例。其次,决策树模型可以明确输入变量之间的复杂的交互作用,并提供“if-then”规则来支持判断和决策。在本研究中,虽然TNM分期主导了决策树模型中上级决策规则,但生物标记物有助于下级决策的制定。第三,相比于从逻辑回归衍生出的复杂模型[28],决策树模型使用图形方式显示决策方式更加容易理解和应用。但本研究仍存在不足之处。首先,CART分析具探索性。纳入风险因素的重要性可能被高估或出现模型的过拟合。其次,由于本研究是回顾性的,可能会产生一定的数据偏差。第三,本组数据是单中心的,决策树模型的构建与验证均在同中心检测。因此,需要进行更大范围的多中心前瞻性研究,以改善和进一步验证决策树模型。

综上所述,利用肝癌患者的临床病理信息和预后相关蛋白数据,采用决策树方法构建肝癌的预后模型,可用于肝癌患者危险分层和预后评估。

猜你喜欢

队列决策树染色
无限路及其笛卡尔积、直积的孪生α-距离边染色
节水染色和非水介质染色技术的研究进展
若干Mycielski图的邻点扩展和可区别全染色
队列队形体育教案
信息时代基于决策树对大学生情绪的分类
队列里的小秘密
基于多队列切换的SDN拥塞控制*
简述一种基于C4.5的随机决策树集成分类算法设计
在队列里
两类图的b—染色数和研究