APP下载

基于超声特征构建机器学习模型预测浸润性乳腺癌Luminal分型

2022-11-10孙芳许永波崔广和李鑫焱董景云焦玉婷唐丽玮

实用医学杂志 2022年18期
关键词:浸润性分型队列

孙芳 许永波 崔广和 李鑫焱 董景云 焦玉婷 唐丽玮

滨州医学院附属医院超声医学科(山东滨州 256600)

乳腺癌是女性发病率、死亡率最高的恶性肿瘤,近年来其发病率逐年增加[1]。乳腺癌属于高度异质性疾病,不同分子亚型的乳腺癌具有不同的生物学行为、治疗方法及预后[2]。根据2019年《St.Gallen 国际乳腺癌治疗专家共识》与《中国抗癌协会乳腺癌诊治指南与规范(2019年版)》[3],以雌激素受体(estrogen receptor,ER)、孕激素受体(progesterone receptor,PR)、人表皮生长因子受体-2(human epidermal growth factor receptor-2,HER-2)和Ki-67 表达情况为依据,将乳腺癌分为四种分子亚型:Luminal A 型、Luminal B 型、HER-2 过表达型和三阴型[4],其中前两型为Luminal 型,对内分泌治疗有效,总体预后良好,后两型为非Luminal 型,对内分泌治疗无效且分化级别高、总体预后差[5],临床医师会依据患者具体的分子亚型来确定治疗方法。

目前临床上对浸润性乳腺癌的分子分型主要是通过病理学检查、免疫组织化学和焚光原位杂交检测分析,均为有创性检查,且由于肿瘤的异质性,对取材标本进行的分子亚型评估可能不能代表整个肿瘤[6]。因此,目前需要一种无创的方法预测浸润性乳腺癌的Luminal 分型。机器学习作为人工智能的一个分支,能处理大量和多维数据,越来越多地被应用于医学领域,用于疾病的诊断、治疗及预后,已在一定程度上超越了传统统计学[7]。既往研究[8]显示,机器学习在疾病的预测方面具有显著优势。本文基于超声特征构建机器学习模型预测浸润性乳腺癌Luminal 分型,从而为临床治疗及预后评估提供参考依据。

1 资料与方法

1.1 研究对象回顾性分析2015年1月至2020年12月于滨州医学院附属医院乳腺外科529 例经术后病理证实为浸润性乳腺癌患者的超声声像图特征及免疫组化特征,根据免疫组化特征将患者分为Luminal组356例和非Luminal 组173例。平均发病年龄(40.33±8.01)岁,绝经前患者343 例(343/529,64.7%)。记录患者的发病年龄和月经状态。纳入标准:(1)术前1 周均行超声检查,图像清晰可查;(2)术后病理均为浸润性乳腺癌,并行免疫组化检查;(3)首发单发患者,术前未行化疗和放疗等治疗;(4)无其他恶性肿瘤病史。本研究已获本院伦理委员会批准,患者均知情同意。

1.2 超声仪器与图像分析所有患者术前一周均行超声检查,超声仪器包括LOGIQ E9、RS80A、Mylab Twice、SuperSonic Imagine AixPlorer 等,探头频率为4~15 MHz。由工作十年以上的超声医师分析结节特征,根据第五版乳腺影像报告和数据系统(Breast Imaging Reporting and Data System,BIRADS)超声影像词典[9]记录结节的超声特征,包括大小、位置、形状、方向、边缘、内部回声、后方回声、钙化类型等。大小根据肿物的最大径线分为0 ~2 cm、2 ~4 cm、>4 cm;位置分为内上象限、外上象限、内下象限、外下象限、乳晕区五类;形状分为圆形、椭圆形、不规则形三类;根据与皮肤的关系,方向分为平行生长、垂直生长两类;边缘分为光整、不光整(模糊、毛刺、成角、微分叶);内部回声分为无回声、低回声、等回声或高回声、混合性回声;后方回声分为无变化、增强、衰减、混合型四类;钙化类型分为无钙化、结节内钙化、结节外钙化和导管内钙化四类。

1.3 免疫组化特征所有术后标本均进行HE 染色和免疫组化检查,根据美国临床肿瘤学会/美国病理学家学会指南[10]进行检测,检测指标包括ER、PR、HER-2 及Ki-67。ER、PR 表达情况根据肿瘤细胞核着色情况进行判定,阳性定义为至少≥1%的肿瘤细胞染色[11]。根据免疫组织化学及荧光原位杂交技术检测对HER-2 表达情况进行判定,结果分为-、+、++、+++,-、+为阴性,++、+++为阳性。Ki-67 表达以细胞核内出现棕黄色颗粒百分数进行计数,将Ki-67 阳性细胞数≤14%视为低表达。按照2013年St.Gallen 乳腺癌会议[12]对乳腺癌分子亚型的定义如下:Luminal A 型为ER 阳性/PR 阳性,HER-2 阳性,Ki-67 <14%;Luminal B 型为ER 阳性/PR 阳性,HER-2 阴性,Ki-67 ≥14%或者ER 阳性/PR 阳性,HER-2 阳性,Ki-67 任何水平;HER-2 过渡表达型为ER 阴性、PR 阴性、HER-2 阳性,Ki-67 任何水平;三阴型为ER 阴性、PR 阴性、HER-2 阴性,Ki-67 任何水平。

1.4 模型建立与验证SPSS Modeler18.0统计软件,由软件自动随机选择所有样本的70%(共370 例)作为训练队列,分别使用logistic 回归分析、支持向量机(support vector machine,SVM)、贝叶斯网络、随机森林、决策树等5 个分类器构建模型,将剩余30%的样本(共159 例)作为验证队列对模型进行验证。采用模型原始倾向评分的受试者工作特征曲线(receiver operating characteristics,ROC)曲线下的面积(area under the curve,AUC)来评估不同模型的诊断效能。以SVM 为例,筛选预测重要变量,对各个变量重要性进行定量评分。

1.5 统计学方法应用SPSS Statistics 25.0 软件,计量资料以均数±标准差描述,使用Kolmogorov-Smirnov 检验正态性分布,使用独立样本t检验比较组间差异;计数资料以例(%)表示,采用χ2检验比较组间差异。应用MedCalc 软件,采用模型原始倾向评分的ROC 的AUC,比较5 种模型训练队列和验证队列的预测效能,并使用De-long 方法对5 种模型的预测效能进行对比。

2 结果

2.1 训练队列及验证队列的临床特征及超声特征训练队列包括Luminal 型249 例和非Luminal型121 例,临床特征如下:平均发病年龄(42.48 ±10.21)岁,绝经前患者248 例(248/370,66.8%);验证队列包括Luminal 型107 例和非Luminal 型52例,临床特征如下:平均发病年龄(41.90 ± 10.33)岁,绝经前患者95 例(95/159,59.7%)。比较总队列、训练队列和验证队列患者一般信息及超声特征,差异均无统计学意义(均P>0.05)。

2.2 5 种机器学习模型的预测能力在训练队列中,logistic 回归分析、SVM、贝叶斯网络、随机森林、决策树预测能力比较,logistic 回归分析与SVM有较高的预测能力,使用De-long 方法与其他模型对比,logistic 回归分析与SVM 的预测能力高于其他模型,差异有统计学意义(均P<0.05)。同样,在验证队列中,5 种模型预测能力比较,logistic 回归分析与SVM 预测能力最高,与其他模型相比,差异有统计学意义(均P<0.05,图1、表1)。

表1 5 种模型在训练队列和验证队列中预测能力的AUC 比较Tab.1 AUC comparison of the predictive abilitity of the five models in the training cohort and the validation cohort ±s

表1 5 种模型在训练队列和验证队列中预测能力的AUC 比较Tab.1 AUC comparison of the predictive abilitity of the five models in the training cohort and the validation cohort ±s

模型决策树贝叶斯网络SVM Logistic随机森林训练队列AUC±SE 0.717±0.037 0.765±0.034 0.843±0.025 0.854±0.024 0.721±0.035 95%CI 0.668 ~0.762 0.718 ~0.807 0.802 ~0.878 0.814 ~0.888 0.673 ~0.766验证队列AUC±SE 0.720±0.048 0.671±0.051 0.865±0.039 0.846±0.036 0.790±0.040 95%CI 0.643 ~0.788 0.592 ~0.743 0.802 ~0.914 0.781 ~0.899 0.718 ~0.850

图1 5 种模型对浸润性乳腺癌Luminal 分型预测能力的ROC 比较Fig.1 5 models for Luminal type in the training cohort and the validation cohort,respectively

2.3 预测变量的重要性使用SVM 模型进行预测变量重要性分析,在所有预测变量中,影响Luminal分型的最重要的三个因素分别为结节大小、边缘、钙化,变量相对重要性见图2。使用SVM 建模示例:图3 所示患者,女,年龄39 岁,绝经前,左乳外上象限单发病灶,最大直径1.5 cm,形状不规则,边缘呈毛刺征,结节内见微钙化,后方回声衰减。Moderler SVM 建模,Luminal 型概率为0.867,术后免疫组化为Luminal A 型。

图2 使用SVM 分析各预测变量重要性Fig.2 Analyze the importance of predictive variables using SVM

图3 使用SVM 建模举例Fig.3 An example using SVM to construt the predictive modle

3 讨论

乳腺癌的高度异质性决定了其分子分型在乳腺癌诊断及治疗中的作用[13],因此通过无创的方法尽可能准确地判断乳腺癌的Luminal 分型对于临床医师的诊疗具有至关重要的意义。机器学习作为人工智能的分支,主要包括logistic 回归分析、SVM、神经网络、贝叶斯网络、决策树、随机森林等分类器,通过大量高维复杂数据建立模型,可以消除观察者的主观差异[14],近几年在医学领域的应用越来越广泛[15],很多学者研究[16]表明机器学习可以用来研究疾病的诊断及治疗预后。目前尚未有研究基于原发灶超声特征建立机器学习模型预测浸润性乳腺癌Luminal 分型。本研究回顾性分析了529 例浸润性乳腺癌患者的原发灶超声声像图特征,基于logistic 回归分析、SVM、贝叶斯网络、决策树、随机森林等建立机器学习模型预测浸润性乳腺癌的Luminal 分型,得出SVM 与logistic 回归分析具有较高的预测价值,影响Luminal 分型的最重要的三个因素分别为结节大小、边缘、钙化。

本研究选取了logistic 回归分析、SVM、贝叶斯网络、决策树、随机森林等5 种机器学习模型,结果显示,在训练队列和验证队列中,SVM 与logistic回归分析均具有较高的预测能力。SHE 等[16]建立机器学习模型预测孤立性肺结节的良恶性,同样得出SVM 与logistic 回归分析均具有较高的预测能力。logistic 回归模型是一种广义的线性模型,属于数据挖掘中最基本的模型,已广泛用于疾病的病因诊断、预后及危险因素分析[17-18]。SVM作为典型的机器学习模型,与logistic 回归分析原理不同,logistic 回归分析使用加权最小二乘算法,而SVM 使用结构风险最小化准则,可直接找到最佳截断平面,最大程度地减少常见的分类错误[19]。因此,在分类问题中,SVM 通常表现出与logistic 回归分析具有相同或更高的性能。而其他模型,决策树通过“是”与“否”进行数据分类,仅适用于小规模数据;而神经网络主要处理非线性数据,且需要大量的参数。

使用SVM 模型分析各预测变量重要性,得出影响Luminal 分型的最重要的三个因素分别为结节大小、边缘、钙化。根据肿瘤TNM 分期,癌灶越大,恶性程度越高,Luminal 型乳腺癌的肿瘤体积一般较非Luminal 型的体积小,预后及分化情况良好。既往研究表明Luminal 型乳腺癌多出现形状不规则、边缘毛刺、纵向生长等特征[20-21],与本研究结果基本一致。肿瘤边缘不光整(微分叶、成角或毛刺)代表肿瘤侵袭性生长及快速增长,此外,肿瘤边缘的不光整可能会使肿瘤细胞以不同的生长速率侵犯周围组织,导致高基质反应和纤维结缔组织增生,这是一种早期保护机制,可以在一定程度上限制癌细胞的扩散。三阴性乳腺癌多形状规则、边缘规整[21],不伴有微钙化,可能与其呈挤压式生长,周围组织增生反应较轻有关。

本研究尚存在一定的局限性,所选取的患者为单中心沿海地区患者,有一定的选择偏倚,且相对于以往数据挖掘研究,本研究样本量较少,下一步需扩大样本量,同时进行多中心研究;其次,本研究的超声特征由超声医师读取,未来的研究可使用机器学习模型直接从超声影像中提取特征进行研究。

综上所述,本研究结果显示机器学习模型可用来预测浸润性乳腺癌Luminal 分型,SVM 与logistic回归分析具有较高的预测性能,影响Luminal 分型的最重要的三个因素分别为结节大小、边缘、钙化,从而为临床乳腺癌Luminal 分型提供诊断依据。对于大量高维数据,期望SVM 数据挖掘方法可以作为传统的logistic 回归分析有效替代方法,以更准确和及时的方式识别关键变量,从而为临床治疗提供指导。

猜你喜欢

浸润性分型队列
特殊浸润性表面构建及其抑制酸奶黏附的研究
肺炎克雷伯菌RAPD基因分型及其与氨基糖苷类药敏分型对比研究
基于车车通讯的队列自动跟驰横向耦合模型
同期经尿道手术治疗非肌层浸润性膀胱癌(NMIBC)合并良性前列腺增生(BPH)患者的效果观察
队列队形体育教案
CT三维及X线在股骨转子间骨折分型的可靠性
浸润性乳腺癌能治好吗
分层结构多孔氧化铝膜的制备和性能研究
青春的头屑
复杂分型面的分型技巧