APP下载

中央型腰椎管狭窄责任节段的CT 脊髓造影影像组学与机器学习研究*

2023-08-22范国鑫许智鹏张晓玲崔敬禄

中国疼痛医学杂志 2023年8期
关键词:组学节段机器

范国鑫 许智鹏 张晓玲 崔敬禄 廖 翔△

(1 深圳大学医学部生物医学工程学院,医学超声关键技术国家地方联合工程实验室,广东省生物医学信息检测与超声成像重点实验室,深圳 518060;2 华中科技大学协和深圳医院疼痛科,深圳 518052;3 中山大学附属第三医院脊柱外科,广州 510630)

腰椎管狭窄症是中老年人常见的腰椎退行性疾病,全世界预计有1.03 亿人受到影响[1]。其中,中央型腰椎管狭窄(central lumbar stenosis, CLS)是最常见的一种类型,主要由于关节突的增生内聚、黄韧带肥厚和退变椎间盘的挤压导致硬脊膜的受压,表现为间歇性跛行伴或不伴根性症状,严重影响病人的生活质量[2]。近年来,以脊柱内镜[3]为代表的微创手术在CLS 的减压治疗上越来越受到疼痛科医师、脊柱外科医师、神经外科医师的青睐[4]。然而,CLS 微创减压的有效性很大程度上取决于诊断定位的准确性,但多节段CLS 责任节段的判定仍具有一定挑战性,因为CLS 的诸多临床症状不具备节段特异性,特别是没有根性症状的病人。因此,多节段CLS 责任节段的判定严重依赖于影像检查和经验解读。然而基于人类肉眼的影像解读容易忽视三维影像的深层特征。因而,充分挖掘影像学的量化特征是改善多节段CLS 定位诊断的重要手段,同时智能化的辅助诊断是现代医学的未来发展方向。

当前,具备CLS 诊断价值的影像模态主要有计算机断层扫描(computed tomography, CT)和磁共振成像(magnetic resonance imaging, MRI)。其中,普通MRI 是评估CLS 的常规影像方式,但它扫描层数比较局限,且可能对狭窄的严重程度估计不足[1,2,5]。CT 脊髓造影(CT myelography, CTM)在检测CLS 方面更加可靠和敏感,特别是在多节段狭窄病人中。如何充分挖掘CTM 的定量特征以及高效整合特征、完成CLS 责任节段的判定是亟待解决的问题。其中,影像组学是当前提取挖掘高通量影像定量特征主流技术之一[6],而机器学习(machine learning, ML)是被广泛接受的高效整合数据特征以完成特点目标预测的计算机算法[7,8]。当前已有许多关于CLS 的MRI 定量分析研究[9~12]及机器学习预测研究[13~16]。然而,目前尚无关于CLS 的CTM 影像组学和机器学习研究。为此,本研究的目的为基于多种特征选择方法筛选利于CLS 责任节段判定的CTM 影像组学特征;并基于多种机器学习算法构建CLS 的责任节段预测模型。本研究创新性的率先挖掘CLS 病人CTM 影像肉眼忽视的影像组学特征;为当前多节段CLS 的责任节段定位诊断提供智能化的CTM 诊断方案。

方 法

1.一般资料

本研究已通过华中科技大学协和深圳医院和中山大学附属第三医院机构伦理审查委员会审核以及知情同意的豁免(伦理批号KY-2022-031-01 和中大附三医伦[2020] 02-252-01)。回顾性分析2015 年1 月至2021 年12 月放射科接受CTM 检查的影像资料。记录病人的基线特征包括年龄(岁)、性别(男性、女性)、责任节段。

纳入标准:①接受CTM 扫描的多节段或单节段CLS 病人;②未接受过腰椎手术;③年龄不小于18 岁。

排除标准:①并发椎管内肿瘤、先天性脊柱畸形(如脊髓栓系等);②身体其他部位的金属内植物影响图像质量不高的数据;③造影剂注射失败(如造影剂硬膜外分布)。

2.影像组学特征

鉴于1 个腰椎CTM 含有5 个节段,意味着每个病例均可能存在至少1 个责任节段(见图1),因而不宜以病例为样本进行机器学习建模,否则目标结局的组合太多。如果以节段为样本构建机器学习模型,将获得每个节段是否为责任节段的概率,更具有实际参考的价值。因此,本研究以节段为样本在3D Slicer 4.11[17]上对腰椎CTM 中每个节段的最狭窄层面的硬脊膜轮廓进行勾画[18]。图像标记过程先由1 名专家独立完成,然后由另2 位专家审核,如有争议之处由3 位专家进行投票修改[19]。责任节段即为该节段存在中央型腰椎管狭窄伴或不伴根性症状,其判定依据为高年资医师通过CTM影像和病例中是否接受了微创减压手术综合确定,其综合评定标准:①不管是单节段还是多节段手术病人,其术后MacNab 评分评定为优或良;②多个节段接受手术病例的责任节段由3 名高年资医师再次投票裁决。基于勾画好的硬脊膜边界的感兴趣区域 (region of interest, ROI),利 用3D Slicer 4.11 的PyRadiomic 模块提取每个病人所有节段的影像组学特征(纹理特征、强度一阶特征、形状特征等),以节段为样本生成每个样本的csv 格式文件(见图2),最后利用Python 3.8 对所有样本进行合并。

图1 基于机器学习和CTM 影像组学特征构建预测模型的主要流程Fig.1 The main process of building a prediction model based on machine learning and CTM radiomic features

图2 基于CTM 的影像组学特征提取与节段样本数据分布(A) 非责任节段与责任节段样本的影像组学特征提取示例;(B) 非责任节段与责任节段的样本分布比例与数量Fig.2 Radiomic features extraction and segmental sample data distribution based on CTM(A) Examples of radiomic features of non-culprit versus culprit segment samples; (B) Sample distribution ratio and number of non-culprit segments and culprit segments.

3.模型开发

筛选出的病人数据分为3 个子数据集(训练集:验证集:测试集 = 6:2:2)。所有初始分类器都进行五折交叉验证,并使用测试数据集进行独立测试。本研究采用了6 种常见的特征选择方法[20],包括嵌入树(Embedding Tree)、嵌入随机森林(Embedding RF)、嵌入逻辑回归器(Embedding LR)、嵌入线性支持向量分类器(Embedding LSVC)、最大信息系数 (MIC)、递归特征消除(RFE);采用了12 种ML 算法,即多层感知机(MLP)、梯度提升(Gradient Boost)、自适应提升(Ada Boost)、逻辑回归(Logistic)、装袋(Bagging)、线性判别分析(LDA)、随机森林 (RF)、额外树 (Extra Tree)、支持向量机(SVM)、决策树(Tree)、K-最近邻 (KNN) 和高斯朴素贝叶斯 (NB)。于是从6×12 组合中开发出72 个预测模型,再从交叉验证的结果中选取最优的预测模型进行测试集的评估。

4.统计学分析

所有数据处理采用Python 3.8,所有分类器的预测均为二分类,即是否为责任节段。使用操作特征曲线 (receiver operating characteristic curve, ROC)、临床决策曲线和校准曲线评估预测能力。主要的评估指标为ROC 曲线下面积(area under the curve,AUC)值、灵敏度、特异度、阳性预测值 (positive predictive value, PPV)、阴性预测值 (negative predictive value, NPV) 等。另外,对基本信息的计数资料采取卡方检验进行比较子数据集的统计比较,对计量资料采取独立样本t检验进行比较,P< 0.05 被认为差异具有统计学意义。

结 果

本研究共纳入219 例病人,其基本信息特征(年龄、性别、节段)在训练集和测试集的分布无显著性差异(见表1)。共纳入1095 个节段样本,约35%的节段样本为责任节段(见图2B)。72 个预测模型在交叉验证集的平均AUC(见图3)。其中,基于RFE 所筛选的特征而构建的12 种机器学习模型有7 个模型的平均AUC 高于0.85,且逻辑回归模型、多层感知机模型和装袋模型的AUC 三者最高(均在0.86 以上)。基于最大信息系数方法所筛选的特征而构建的12 种机器学习模型的平均AUC则均低于0.85,基于嵌入树方法所筛选的特征而构建的12 种机器学习模型只有4 个模型的平均AUC高于0.85。与此类似,基于嵌入随机森林、嵌入逻辑回归器、嵌入线性支持向量分类器三种特征选择方法所筛选的特征而构建的机器学习模型中,其在交叉验证集的平均AUC 高于0.85 的分别只有3 个、4 个和4 个。因此,递归特征消除方法为表现最出色的特征选择方法。

表1 所纳入219 例病人的基本信息Table 1 Basic information of 219 patients

图3 不同特征选择方法与机器学习算法构建的72 个预测模型的AUC 数值高低(A) 递归特征消除(RFE)与12 种机器学习算法;(B) 最大信息系数 (MIC)与12 种机器学习算法;(C) 嵌入树(Embedding Tree)与12 种机器学习算法;(D) 嵌入随机森林(Embedding RF)与12 种机器学习算法;(E) 嵌入逻辑回归器(Embedding LSVC)与12 种机器学习算法;(F) 嵌入线性支持向量分类器(Embedding LR) 与12 种机器学习算法Fig.3 The AUC of 72 prediction models constructed by different feature selection methods and machine learning algorithms(A) RFE with 12 machine learning algorithms; (B) MIC with 12 machine learning algorithms; (C) Embedding tree with 12 machine learning algorithms; (D) Embedding RF with 12 machine learning algorithms; (E) Embedding LSVC with 12 machine learning algorithms; (F) Embedding LR with 12 machine learning algorithms.

在交叉验证集中表现出色的前3 模型在独立测试集的预测表现同样出色。其中,逻辑回归模型在独立测试集的AUC 为0.844(见图4),多层感知机模型在独立测试集的AUC 为0.844(见图5),装袋模型在独立测试集的AUC 为0.846(见图6),展示了非常高的区分度。它们的校准曲线和临床决策曲线均显示前3 模型同时具备较高的预测一致性和临床效用性。本研究还总结了前3 预测模型的灵敏度、特异度、阳性预测值 (PPV)、阴性预测值 (NPV)等其他性能评价指标(见表2),其中多层感知机模型的灵敏度较差,装袋模型的灵敏性和特异度均稍高于逻辑回归模型。鉴于前3 模型均是利用递归特征消除的方法所筛选的特征,递归特征消除法(见图7)所筛选的影像组学的形态特征比较少,仅有最大2D 直径列、伸长率和最大轴长度共3 个源自原图像的形状类特征。剩下的特征均为滤波特征,可分为2 个强度一阶特征和10 个纹理特征,也可分为9 个小波样 (wavelet) 特征和3 个高斯拉普拉斯算子 (Laplacian of Gaussian, LoG) 特征。

表2 最佳3 个预测模型的其他性能指标比较Table 2 Comparison of other performance metrics of the best 3 forecasting models

图4 逻辑回归模型的性能评价与模型可解释性(A) 交叉验证的AUC 表现;(B)独立测试的AUC 表现;(C)临床决策曲线;(D)校准曲线Fig.4 Performance evaluation and model interpretability of Logistic classifier(A) ROC curve of cross-validation; (B) ROC curve of Logistic on test set; (C) Decision curve analysis (DCA); (D) Calibration curve.

图5 多层感知机模型的性能评价(A) 交叉验证的AUC;(B) 独立测试的AUC;(C) 临床决策曲线;(D) 校准曲线Fig.5 Performance evaluation of MLP classifier(A) ROC curve of cross-validation; (B) ROC curve of MLP on test set; (C) Decision curve analysis (DCA); (D)Calibration curve.

图6 装袋模型的性能评价(A)交叉验证的AUC 表现;(B) 独立测试的AUC 表现;(C) 临床决策曲线;(D) 校准曲线Fig.6 Performance evaluation of bagging classifier(A) ROC curve of cross-validation; (B) ROC curve of bagging on test set; (C) Decision curve analysis (DCA); (D)Calibration curve.

图7 递归消除法所选择的特征(A)特征重要性排序;(B) 特征分类与含义Fig.7 Features selected by recursive feature elimination (RFE)(A) Ranking of feature importance; (B) Feature classification and meaning.

讨 论

基于CTM 影像组学的特征筛选和机器学习建模有望优化多节段CLS 的临床诊断。本研究成功筛选出15 个CLS 责任节段影像组学预测因子,且多数为医师肉眼难以辨识的纹理特征,还发现RFE 是最优的特征选择方法,逻辑回归模型、多层感知机模型和装袋模型的预测模型性能均具备较高的准确性、临床实用性和可解释性,但装袋模型的灵敏度更高,或具备更高的临床应用潜力。本研究初步证实了机器学习辅助CTM 定位多节段CLS 责任节段的潜在价值。

多节段CLS 微创减压手术的重要前提是精准定位责任节段,否则多个可疑节段需开放手术的广泛减压。开放手术虽然尽可能地保证了手术疗效,但是其创伤远远大于微创减压手术。因而,疼痛科医师、骨科医师或神经外科医师在考虑为多节段CLS行微创减压手术时必须要提高自身判定责任节段的能力。鉴于CLS 的诸多临床症状不具备节段特异性,且不一定伴有根性症状,因而手术医师的影像阅片评估能力非常重要。不同影像模态的选择取决于成本、设备、放射科医师的技能和病人安全等问题。CT 和MRI 是评估椎管狭窄的主要成像技术,但两种方式均存在一定的局限性。例如,CT 擅长评估骨狭窄,但它无法像MRI 那样清晰地显示软组织。MRI 准确有效,但可能会对于狭窄的严重程度估计不足[1,2],因为它往往只能提供局限层面的椎管和神经的评估。即使扫描特殊序列的薄层MRI(如腰骶丛神经成像)[21],其软组织钙化的显影、侧隐窝的评估、空间分辨率等方面仍有不足,还存在价格更高、扫描时间更长的局限性。CTM 是一种结合了脊髓造影和CT 高分辨率的成像方式,是否优于常规MRI 仍存在争议,但如果临床上发现常规MRI 和CT 定位CLS 仍存在困难时,医师常常会建议病人行CTM 检查。Weisenthal 等[22]研究揭示,CTM 扫描在检测腰椎狭窄方面更加可靠和敏感,尤其是在多节段狭窄的病人中。因此,CTM 依旧是CLS 诊断或影像评估非常重要的补充方案。本研究基于影像组学特征和机器学习预测责任节段有望充分挖掘CTM 关于CLS 的辅助诊断价值。

硬脊膜的量化和定性分析是评估CLS 严重程度的重要步骤,但CLS 的影像学评估仍缺乏共识[23]。例如,硬脊膜横截面积经常被用来评估CLS,一般认为硬脊膜横截面积小于100 mm2被认为是诊断L4/L5和L5/S1节段是否具有CLS 的阈值[24],但其他节段的硬脊膜横截面积的阈值仍缺乏标准,而轻、中、重等严重程度更无统一的依据。另外,硬脊膜的移位程度、造影剂的充盈程度等定性评估也是评估CLS 的重要依据[25],但该依据却缺乏量化的标准。因此,非常有必要利用新的技术手段进一步挖掘CTM 的诊断价值。影像组学是一种高通量地提取影像ROI 多维特征的热门技术,可结合机器学习充分挖掘其中的关键信息,实现对ROI 精准量化评估,并最终辅助疾病的诊断、分类或分级[26]。本研究成功发现了15 个与责任节段相关的影像组学预测因子,包含10 个纹理特征、3 个形状特征和2 个强度一阶特征。其中,2 个强度一阶特征分别为四分位范围和特征值的百分之10 的值,客观上反映了临床医师主观性的充盈程度。3 个形状特征分别为伸长率、最大轴长度和最大2D 直径列,也增加了有别于硬脊膜横截面积的反映硬脊膜大小的形状指标。另外,还有灰度不均匀性、低灰度区域强调、灰度方差等10 个纹理特征,这些纹理特征反映的是硬脊膜内神经的拥挤程度及其间隙间造影剂的分布,并不像形状特征和强度一阶特征那般容易被临床医师肉眼辨识。因此,硬脊膜的纹理特征也是评估CLS 责任节段的重要影像特征,应该受到临床医师的重视。

当然,本研究并未明确上述15 个影像组学预测因子的阈值,因为没有哪个影像组学预测因子具备绝对的重要性,因而整合15 个预测因子预测个体的概率更有意义[27]。本研究纳入了6 种特征选择方法和12 种机器学习算法,构建了72 个CLS 责任节段预测模型。经过交叉验证,本研究发现REF为最优的特征选择方法,与其结合的在交叉验证中AUC 前3 的预测模型分别为逻辑回归模型、多层感知机模型和袋装模型。AUC 反映的是预测模型的区分能力,测试集中装袋模型的AUC 稍高于其他2个模型。当然,还需考虑灵敏度、特异度等其他区分度评价指标。多层感知机模型的特异度虽然高但灵敏度较差,而逻辑回归模型在灵敏度和特异度方面均不如装袋模型。鉴于本研究的机器学习建模是以节段为对象,因而当含有5 个节段需要机器学习辅助预测时,灵敏度高的预测模型更能帮助医师做出有利的决策。从这个角度而言,灵敏度更高的装袋模型更具临床应用前景,因为它不容易让医师漏掉需要手术的责任节段,从而导致病人接受了微创手术但效果不佳。除了评估预测模型的区分度,校准度也是很重要的性能评估指标,因为区分度高的预测模型并不能反映模型预测出的概率与结局实际发生概率的一致性。然而,校准曲线显示逻辑回归模型、多层感知机模型和袋装模型在校准度上并未有明显差异。最后,本研究还引入了临床决策曲线,是一种评估临床效用的方法,其优势在于它将病人或决策者的偏好整合到分析中,反映的是该预测模型是否真的值得被采用借鉴[28]。从临床决策曲线结果可知,逻辑回归模型、多层感知机模型和袋装模型均具备临床应用的潜力,三者间无明显差异。因此综上所述,灵敏度更高的装袋模型或是当前最优的基于CTM 影像组学特征预测CLS 责任节段的机器学习模型。

本研究可能存在以下几点局限性。首先,本研究作为CTM 影像组学的初步探索,目的仅是挖掘了机器学习算法对CLS 责任节段预测的辅助价值。后续的研究仍需纳入更多的数据进行外部验证,且与人工测量的影像特征的预测性能进行比较。另外,责任节段和非责任节段的数据分布不均匀,这可能会影响机器学习预测模型的性能。从最终结果可知,前3 模型的AUC 在0.84-0.86 之间,表现出非常出色的区分能力,但是否还能继续提高,且这种性能提高的潜力是否可以受数据均匀分布的影响仍有待后期研究证实。其次,本研究未同时纳入病人症状体征等临床数据、同期MRI 等其他模态数据一并构建预测模型。理论上,与医师在临床上综合各类信息的所作判断决策类似,基于机器学习的多模态数据的特征提取和融合预测有望进一步提升预测模型的性能,但临床上回顾性收集同一病人的各模态数据非常困难。各模态数据的不完整性给机器学习算法带来不小的挑战,仍需前瞻性的研究设计和算法优化。最后,由于CTM 对于神经根的显影尚有不足,本研究并未勾画神经根的轮廓以提取影像组学特征,从而同步探索基于CTM 和机器学习预测神经根管狭窄的辅助价值。当然,勾画矢状位图像的椎间孔或轴位侧隐窝的ROI 也可以提取影像组学特征,不必局限于神经根的显影,至于其诊断价值的高低仍需进一步的探索,研究者已同期开展了相关研究方案的实施,期待相关发现早日与同行分享。

本研究发现RFE 是筛选CTM 影像组学最优的特征选择方法,但影像组学预测因子多数为医师肉眼难以辨识的纹理特征。本研究初步证实基于CTM和机器学习预测CLS 责任节段的可行性,也初步表明了机器学习在CTM 定位CLS 责任节段的辅助价值和应用潜力。其中,逻辑回归模型、多层感知机模型和装袋模型在区分度、校准度和临床效用上均表现出色,但装袋模型似乎更优。

利益冲突声明:作者声明本文无利益冲突。

猜你喜欢

组学节段机器
顶进节段法最终接头底部滑行系统综合研究
机器狗
机器狗
口腔代谢组学研究
未来机器城
基于UHPLC-Q-TOF/MS的归身和归尾补血机制的代谢组学初步研究
代谢组学在多囊卵巢综合征中的应用
桥梁预制节段拼装施工技术发展概述
预制节段拼装桥墩研究进展
蛋白质组学在结核杆菌研究中的应用