基于数据挖掘方法的甲状腺结节良恶性CT分类模型的建立
2019-11-20梁红琴朱立强王健
梁红琴,朱立强,王健*
1.陆军军医大学第一附属医院放射科,重庆 400038;2.解放军第三二二医院质控科,山西大同 037006; *通讯作者王健 wangjian811@gmail.com
随着碘摄取率、肥胖、胰岛素抵抗及基因等因素的影响,甲状腺癌的发病率有所升高,约占全身肿瘤的 1%[1]。超声针刺细胞学是判断甲状腺结节性质的首选检查,但主观依赖性及周围结构探测的局限性仍然是客观存在的问题[2]。CT检查图像受主观因素影响小,在术前可以提供详尽的信息,可以对肿块与周围结构的关系以及淋巴结是否转移及转移情况做出直观的评价,对临床决策起到不同程度的指导作用。本研究回顾性分析我院甲状腺结节143例,采用数据挖掘的方法,根据甲状腺结节CT特征指标建立分类模型,以病理结果作为“金标准”,对甲状腺结节的良恶性做出判别。
1 资料与方法
1.1 研究对象 回顾性分析2016年2—8月我院甲状腺结节患者143例。纳入标准:经超声检查发现结节,最大径>1 cm。排除标准:甲状腺图像显示不清,完全囊变病变。选取2017年4—7月甲状腺结节患者55例进行数据验证,最后均经病理证实。临床表现:无症状及体检发现甲状腺结节115例,颈部粗大伴疼痛83例。
1.2 临床及影像学资料收集 从临床大数据系统收集患者的临床资料(包括性别、年龄及病史),从医师工作站PACS系统收集影像学资料(包括结节最大径、增强后边界、CT强化值、淋巴结转移及钙化)。
1.3 CT检查 采用Siemens Somatom Definition Flash双源CT进行扫描。扫描参数:管电压100~120 kV,管电流100~125 mA。扫描范围为颅底至胸廓入口处,层厚1 mm。扫描范围从气管分叉至颅底层面。对比剂采用40~60 ml碘佛醇(300 mgI/ml),通过CT高压注射器经肘正中静脉注射,注射速度2.5~3.0 ml/s。分别于注射对比剂30 s、50 s后扫描。扫描前告知患者检查过程中不要做吞咽动作并训练屏气呼吸。轴位结合多平面重组观察。
1.4 影像学测量标准 ①肿瘤的最大径:CT增强扫描后病灶的最长径;②CT强化值:观察图像,通过三维定位测量同一感兴趣区(ROI),取在甲状腺最大层面中心区域,直径1 cm左右,增强后ROI为病灶中明显强化区域,避开囊变、钙化;③增强后病变边界情况:结节边缘有模糊征,与正常组织或周围组织分界不清,界定为边界不清楚;④淋巴结显示界定标准:长径/短径≤2、边界模糊,增强强化不均匀或成簇分布融合。见图1、2。
所有测量数据由2名具有10年临床经验的放射科医师在不了解结节性质的情况下测定,测量结果最终由同一名统计人员与病理结果进行对照。
图1 男,49岁,右甲状腺滤泡性癌。A.平扫期,右侧甲状腺上极可见不规则低密度影,CT值约63 Hu;B.动脉期,CT值约123 Hu;C.静脉期,CT值约117 Hu
图2 男,61岁,左甲状腺腺瘤伴滤泡上皮增生。A.平扫期,左侧甲状腺中极可见不规则低密度影,CT值约56 Hu;B.动脉期,CT值约157 Hu;C.静脉期,CT值约197 Hu
1.5 病理学诊断及分组 所有患者的结果均经手术病理检查证实,按病理结果分为良性组56例和恶性组87例。
1.6 统计学方法 使用SPSS 18.0软件,符合正态分布的计量资料以±s表示,组间比较采用独立样本t检验;计数资料比较采用χ2检验。分别采用Fisher线性判别方法和非条件Logistic回归算法建立数据挖掘模型,得到判别方程,用判别函数回代分类,与实际病理结果进行比较,得到判别的正确率。采用受试者工作特征(ROC)曲线下面积比较两个模型的诊断效能。P<0.05表示差异有统计学意义。
2 结果
2.1 患者一般情况 两组患者性别及平扫期 CT值差异无统计学意义(P>0.05),年龄、结节大小、淋巴结显示、动脉期CT值、静脉期CT值差异有统计学意义(P<0.05,表1)。
表1 两组患者临床指标及CT值比较
2.2 分类结果 以病理分型为目标变量,年龄、性别、大小、包膜完整性、淋巴结是否显示、平扫期CT值、增强扫描动脉期CT值及静脉期CT值作为影响因素建立模型。
2.2.1 Fisher判别 应用线性判别函数值判断样本所属类别,即将自变量代入判别方程,根据因变量Y和阈值 YC值的大小判断样本属于哪一类。如果Y1>YC,则样本判定为恶性;如果 Y1 Fisher线性判别分类结果见表2。将平扫期CT值、静脉期CT值、结节大小、淋巴结显示等变量纳入模型,模型的敏感度为96.6%(84/87),特异度为91.1%(51/56),约登指数为94.4%。判别函数:良性 p0=-25.248+0.158×平扫期 CT值+0.215×静脉期 CT值+6.102×结节大小+0.872×淋巴结是否显示;恶性Y1=-21.469+0.220×平扫期CT值+0.135×静脉期 CT值+7.937×结节大小+6.694×淋巴结是否显示。 表2 Fisher线性判别分类结果[例(%)] 2.2.2 非条件Logistic回归 将平扫期CT值、静脉期 CT值、淋巴结显示等变量纳入模型,敏感度为95.4%(83/87),特异度为92.9%(52/56),约登指数为 94.4%(表3)。构建的模型如下:LogitP=8.564+0.196×平扫期 CT值-0.170静脉期 CT值+6.408×淋巴结显示。 表3 非条件Logistic回归分类结果[例(%)] 2.2.3 模型分类能力比较 从模型的回代结果看,两种方法对结节性质的判断结果均较为理想。Fisher判别ROC曲线下面积为0.938(95%CI0.889~0.987,P<0.05),非条件Logistic回归ROC曲线下面积为0.941(95%CI0.895~0.988,P<0.05),两者比较差异无统计学意义(Z=0.3,P=0.765);判别模型与非条件 Logistic回归的泛化能力一致,敏感度为 66.7%(28/42),特异度为 92.3%(12/13),约登指数为72.73%(40/55)。见图3。 使用 55例甲状腺结节患者进行验证,Fisher判别及非条件Logistic回归敏感度均为66.7%(28/42),特异度均为 92.3%(12/13),约登指数为 72.7%(40/55),但对具体样本的判别结果有所差异。 图3 Fisher判别与非条件Logistic回归ROC曲线 近年研究显示,年龄、性别、钙化大小及形态、结节形态大小、边缘、边界情况(包膜完整性)、增强后CT值变化、淋巴结显示等因素对结节良恶性具有鉴别意义及相关性[3-5]。本研究结果显示,甲状腺结节良性组与恶性组患者年龄、结节大小、淋巴结显示、动脉期 CT值、静脉期 CT值差异有统计学意义(P<0.05)。通过数据挖掘的方法综合分析上述几个因素,增强CT值及变化幅度值、结节大小及淋巴结显示这3个客观变量进入模型,提示这些因素在鉴别甲状腺良、恶性结节中意义明显。本研究发现,恶性结节增强后表现有2个特征,一是强化程度较低,CT值变化较低;二是快进快出强化方式,即静脉期CT值变化不明显或有所减低;而良性结节增强后呈明显持续强化表现,与以往报道相符[6-8]。这是因为甲状腺癌的生长与其他恶性实体肿瘤一样存在血管依赖性[9],尽管肿瘤组织内有大量的新生血管生成,但同时这种恶性生长又会破坏大量的组织结构,包括供血动脉网及周围毛细血管网,新生血管增长的数量远不及破坏的血管多,静脉壁较动脉薄,其受侵犯的程度较动脉明显,使恶性肿瘤的强化幅度偏低,呈现相对的快进快出征象。以往研究报道良性结节摄碘率及强化程度均较恶性结节高[10],其生长方式是膨胀性生长,对周围组织及血管起着推挤的作用,其生长速度较慢,其内及周围供血动脉及毛细血管网存留较多[11-12],增强后出现强化程度明显,强化方式为渐进性强化特点,这是增强后CT值作为筛选变量进入鉴别甲状腺良、恶性结节模型的原因。肿瘤的大小可以反映其生长过程和发展,肿瘤越大,表明其生长时间越长或速度越快。不同肿瘤的生长速度不同,良性肿瘤一般生长较缓慢,恶性肿瘤生长速度较快,特别是成熟的低分化恶性肿瘤,可能在短时间内形成肿块,并容易发生坏死、出血等继发改变。本研究发现,恶性结节直径约为2.5 cm,与文献[13]报道的甲状腺癌平均直径约 2.8 cm近似。结节大小与恶性相关性较明显,可能与肿瘤倍增时间、生产与死亡的比例有关。Li等[14]报道肿瘤边界不清、直径>2 cm与颈淋巴结转移有一定的相关性。本研究中淋巴结转移也进入模型中,其病理基础是:肿瘤先累及位于淋巴结皮质边缘的网状淋巴窦,然后沿淋巴结分布侵袭破坏相应的淋巴组织,并且随着恶性肿瘤不断长大,肿瘤细胞沿淋巴管、组织间隙、血管或神经束连续浸润生长,其体积越大,越容易突破包膜,对周围正常结构破坏侵袭范围越广,与淋巴管接触面积越大,故越容易引起淋巴结转移。分类和回归是数据挖掘中非常重要的任务,应用最为广泛,其目的是从已知的历史数据记录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测[15]。两种模型对结节性质的判断结果均较为理想,可以提高对甲状腺结节性质的判定。 本研究存在一定的局限性:①研究对象的代表性不足,仅包括了在我院进行手术的病例;②甲状腺微小癌的研究未纳入;③后期模型泛化能力一般,主要是因为敏感度稍差,其原因可能是因为模型过于依赖结节大小,而以结节大小在55例验证中发生了较多误判;④模型仅对良恶性进行判别,对于具体的病理分型未做出识别。针对以上不足,在今后的研究中需要进行大样本支持并进行多中心、多区域合作,进一步证实本研究结果的稳定性、可重复性及代表性,并以病理结果为“金标准”,采用大样本数据对微小癌、甲状腺常见良、恶性结节病理分型进行后期细化研究。3 讨论