APP下载

基于机器学习和CT三维重建技术的成人耻骨联合年龄推断

2023-10-13熊剪曹永杰马永刚杨孝通张吉黄平1万昌武

复旦学报(医学版) 2023年5期
关键词:耻骨骨骼年龄

熊剪 曹永杰 马永刚 杨孝通 张吉 黄平1, 万昌武

(1贵州医科大学法医学院 贵阳 550004; 2司法鉴定科学研究院/上海市法医学重点实验室/司法部司法鉴定重点实验室/上海市司法鉴定专业技术服务平台 上海 200063; 3南京医科大学基础医学院2021级博士研究生 南京 211166;4西安交通大学附属三二O一医院影像科 汉中 723000; 5山西医科大学法医学院 太原 030001)

年龄推断是法医个体识别实践中的重要一环,精确的推断年龄可有效缩小信息查找范围。未成年人年龄推断的研究已趋于成熟,但成人年龄推断方法的发展相对较缓。在法医工作中,成年人的骨骼年龄推断才是经常面临的问题,因此国内外学者开展了大量研究,探索耻骨联合面、髂骨耳状面、肋骨胸骨端和颅缝等指标应用于成年人年龄推断的可行性[1-3]。其中耻骨联合在成年后仍表现出规律的增龄性变化,可作为成人年龄推断指标。Suchey-Brooks分级方法根据耻骨联合形态变化整体分为6个等级[1],将其研究样本每一等级的平均年龄作为预测年龄进行成人年龄推断,是最常用的耻骨联合整体分级年龄推断方法[4]。Hanihara等[5]通过对耻骨联合表面的7个特征进行评分,使用线性回归模型预测年龄,是最常用的特征评分年龄推断方法。

随着薄层扫描CT技术和容积再现技术(volume rendering technique,VRT)的快速发展,与耻骨联合面表面的形态学变化特征相结合的研究逐年增多。相较于传统方法,CT扫描避免了在复杂的处理过程中对真实骨骼脆弱部分的损害,同时清晰还原骨骼表面形态特征[6]。其次,在建立庞大的参考样本数据库时,CT数据可以实时更新和共享,有利于推进不同地区不同人群的骨龄研究。Suchey-Brooks分级方法已广泛应用于CT三维重建模型[7-9],Hisham等[7]应用于马来西亚人群时,以分级年龄范围为标准的准确率达97.8%,而Hall等[8]应用于澳大利亚样本时,男性准确率仅67%。这种整体分级方法只能预测分级的平均年龄,存在较大方法误差,且评价过程较主观,应用于不同样本时差异较大。而特征评分法通过对各个特征的形态变化进行描述和评分,能相对客观地定量评估骨骼形态变化,从而得出确切年龄。目前尚缺乏适用于耻骨联合三维模型的特征评分体系。

既往研究常用线性回归来拟合耻骨联合特征评分与年龄的关系[9],但线性回归模型用于年龄推断时存在较大误差。机器学习算法的蓬勃发展为建立年龄推断模型提供了新思路和新方法,已应用于肋软骨[11]、骨盆[12]和颅缝[13]年龄推断中。机器学习回归模型在处理年龄推断问题时具有一定的优势,相较于线性回归,更适用于处理复杂的多维数据,可以提取数据中隐藏的有效信息[14],并识别年龄和骨骼形态变化特征之间的变量关系[15]。因此,机器学习回归模型结合耻骨联合形态变化的方法在成年人的年龄推断中具有很大的潜力。

本研究通过观察耻骨联合三维重建模型的形态学变化,建立新的特征评分体系;使用机器学习回归模型拟合训练样本特征评分与年龄的关系,建立成年人年龄推断模型,旨在进一步提升成人年龄推断的准确性。

资料和方法

研究对象回顾性收集2018年1月1日—2020年12月31日陕西省汉中医院放射科的734例腹部或盆腔CT扫描病例资料,其中男性350例、女性384例。排除影响耻骨联合增龄性变化的疾病、外伤、手术史及骨骼畸形等情况,从上述CT数据中随机抽样选取男性315例(中位年龄45.5岁)、女性334例(中位年龄46岁)作为训练集进行模型训练和参数选择,剩余的85例样本作为测试集。

为评价模型的泛化能力设置3个独立测试集。(1)临床CT测试集:男性35例(中位年龄44岁)、女性50例(中位年龄34.5岁);(2)PMCT测试集:回顾性收集的2013—2019年司法鉴定科学研究院96例死后CT扫描,男性51例(中位年龄53岁)、女性45例(中位年龄57岁);(3)真实骨骼CT测试集:收集司法鉴定科学研究院2000—2008年保存完好的82例真实耻骨,男性40例(中位年龄32.0岁)、女性42例(中位年龄34.5岁)。采用薄层CT将耻骨放置于解剖位置进行扫描。训练集及各测试集样本年龄分布见表1。

样本收集符合医学伦理规定,经司法鉴定科学研究院医学伦理委员会审查同意(2020-03-27),由于研究对象的匿名性和本研究的回顾性,伦理委员会予以免除患者知情同意书。

仪器临床来源的腹部或盆腔CT扫描均采用Optima CT660 (美国GE Healthcare公司),扫描厚度为0.625 mm,管电流为300 mA,管电压为120 kV。测试样本使用CT-SOMATOM Definition AS (德国Siemens Medical Solutions公司)扫描,管电压为120 kV,管电流为110 mA,扫描厚度为0.6 mm。

所有样本均保存为医学数字成像与通信(DICOM)文件,数据导入RadiAnt DICOM Viewer 4.6.5软件(波兰Medixant公司)中进行3D虚拟重建,对耻骨联合形态进行观察对特征评分。

评分方法第一步,3名观察者(A为法医学博士研究生,B、C为法医学硕士研究生)按照Suchey-Brooks分级方法[1]对所有的耻骨联合虚拟模型进行分级。第二步,根据分级结果观察样本,同时参考已建立的评分系统的特征[5,10],筛选出7个在VR重建模型上可观察到的年龄相关性形态学特征,即腹侧缘、背侧缘、联合面下端、联合面上端、腹侧斜面、耻骨结节、联合面沟嵴(图1)。第三步,3名观察者依次对649例虚拟骨骼样本进行观察,根据特征的时序性变化将其细分为3~5个阶段,并为每个阶段赋予分数,其中两位观察者的评分一致即作为最终标准。形态特征及其相关的评分标准如表2所示,各特征的评分用于评估双侧和性别差异、确定与年龄的相关性,并推导回归模型。

图1 耻骨联合三维重建不同特征的形态变化Fig 1 Different morphological characteristics of pubic symphysis in three-dimensional reconstruction

统计学分析使用独立样本t检验分析虚拟耻骨联合模型形态的左右两侧差异和男女性别差异,双侧检验以P<0.05评定显著性。观察者内和观察者间一致性使用Cohen’s kappa检验进行评估,从总训练样本中随机抽取50例样本,由2位观察者(A和B)重复评估。初次评估3周后,第一位观察者对50例样本进行再次评估以计算观察者内误差。对所有649例训练样本进行Spearman相关性检验,用于评估腹侧缘等级、背侧缘等级、联合面下端等级、联合面上端等级、腹侧斜面等级、耻骨结节等级和联合面沟嵴等级与实际年龄之间的相关性。

机器学习年龄推断模型的构建及检验利用训练集(n=649)耻骨联合特征所获得的评分,采用梯度提升回归(gradient boosting regression,GBR)(参数设置:最大叶节点数=20,最大深度=2)、决策树回归(decision tree regression,DTR)(参数设置:最大叶节点数=20)、支持向量机回归(support vector regression,SVR)(参数设置:惩戒参数=0.5)、贝叶斯岭回归(Bayesian ridge regression,BRR)(参数设置:最大迭代次数=300)、集成学习回归(adaptive boosting,AdaBoost)(参数设置:最大迭代次数=100)、多层感知机回归(multilayer Perceptron,MLP)(参数设置:最大迭代次数=300)等机器学习回归算法来推导耻骨形态特征与年龄之间的关系[16]。模型其余参数与scikit-learn网站(https://scikit-learn.org)默认参数一致。应用K折交叉验证(K=10)评估回归模型的预测性能。

所有模型完成训练后,分别计算训练集、10折交叉验证及每个测试集的预测年龄和真实年龄之间的平均绝对误差(mean absolute error,MAE)、平均误差(mean error,ME)、均方误差(root mean square error,RMSE)、绝对误差5岁以内百分比(AE<5%)和绝对误差10岁以内百分比(AE<10%),以比较各模型的准确性和泛化能力。采用Bland-Altman图和组内相关系数(ICC)分别评估测试样本的模型预测年龄与真实年龄的相关性和一致性。

采用IBM SPSS 21.0(美国IBM公司)进行耻骨联合特征评分与年龄的相关性分析,通过scikit-learn(V 0.17)和python(V 3.8)进行模型训练和测试。

结 果

耻骨联合各特征评分与年龄的相关性分析虚拟耻骨联合模型形态的左右两侧差异无统计学意义,而性别差异有统计学意义,因此按性别分别建立预测模型。结果显示耻骨联合形态各特征K值都在0.815以上,表明不同观察者对三维重建模型上不同形态特征的评分具有良好的一致性。男性和女性耻骨联合各特征及其评分与真实年龄分布如图2和3所示,可见各特征等级变化趋势随年龄升高而增加,且各等级间存在明显差异。年龄与耻骨联合各特征等级高度相关,所有相关系数均有统计学意义(P<0.05,表3),男性耻骨表面沟嵴等级与年龄相关性最高(r=0.814,P=5.5349E-8),女性腹侧斜坡等级与年龄相关性最高(r=0.838,P=1.3131E-10)。总体腹侧斜坡等级与年龄相关性最高(r=0.800,P=1.6513E-16)。

图2 男性年龄分布与形态特征等级Fig 2 Age distribution according to morphological feature scores in males

图3 女性年龄分布与形态特征等级Fig 3 Age distribution according to morphological feature scores in females

表3 形态特征等级和真实年龄之间的Spearman相关系数Tab 3 Spearman’s correlation between chronological age and morphological feature scores

训练集与交叉验证集结果通过拟合训练集和交叉验证集数据分性别建立GBR、SVR、DTR、AdaBoost、MLP和BRR等6种年龄估计模型。男性和女性所有年龄推断模型在训练集、10折交叉验证集及各独立测试集上的性能评估如表4和5所示。男性中,AdaBoost的综合准确性最高,训练集MAE为5.23岁,RMSE为6.90岁,AE<5%及AE<10%分别为58.73%和80.95%;10折交叉验证集MAE为6.10岁,RMSE为8.35岁,AE<5%和AE<10%分别为59.14%和82.86%。女性中,GBR的综合准确性最高,训练集MAE为3.94岁,RMSE为5.25岁,AE<5%和AE<10%分别为69.46%和93.11%;10折交叉验证集MAE为5.12岁,RMSE为6.71岁,AE<5%和AE<10%分别为67.45%和92.45%。

表4 男性中训练集、验证集和测试集样本年龄推断的准确性Tab 4 Accuracy of adult age estimation in the samples of training set, validation set and test sets in males

表5 女性中训练集、验证集和测试样本集年龄推断的准确性Tab 5 Accuracy of adult age estimation in the samples of training set, validation set and test sets in females

测试集结果用训练好的模型分性别对3个独立测试集进行年龄预测以评估模型的准确率和泛化能力。3个独立测试集中各模型的性能如表4和5所示,男性中年龄推断模型的误差较低(MAE<10岁),AdaBoost在3个测试集上表现最好,MAE为5.23~7.04岁,RMSE为7.70~8.98岁,AE<5%和AE<10%分别为47.0%~51.4%和65.7%~82.5%。在40~70岁的年龄区间内,男性AdaBoost年龄推断模型的MAE均<10岁(表6)。该模型在3个独立测试集上的预测年龄与真实年龄之间高度相关(临床CT测试集:ICC=0.788;PMCT测试集:ICC=0.827;真实骨骼CT测试集:ICC=0.894),Bland-Altman图显示预测年龄与真实年龄之间的平均差异在-0.18~-4.67岁(图4)。

图4 男性中AdaBoost模型在3个测试集中的预测年龄和真实年龄之间的相关性Bland-Altman图Fig 4 Bland-Altman plot of the correlation between predicted age and true age in the 3 test sets analyzed by AdaBoost model in males

表6 男性AdaBoost年龄推断模型用于测试集每10岁年龄组的准确率Tab 6 Accuracy of the male AdaBoost age inference model for test set per 10 years age group

女性年龄推断模型中,GBR在3个测试集上表现最好,MAE为5.02~5.71岁,RMSE为6.44~7.63岁,AE<5%和AE<10%分别为54.00%~62.30%和83.33%~88.00%。在10~70岁的年龄区间内,女性GBR年龄推断模型的MAE<10岁(表7)。该模型在3个独立测试集的预测年龄与真实年龄之间高度相关(临床CT测试集:ICC=0.930;PMCT测试集:ICC=0.923;真实骨骼CT测试集:ICC=0.881)。Bland-Altman图显示预测年龄与真实年龄之间的平均差异在-0.74~-2.49岁(图5)。

表7 女性GBR年龄推断模型用于测试集每10岁年龄组的准确率Tab 7 Accuracy of the female GBR age inference model for test set per 10 years age group

讨 论

成年人年龄推断是法医实践中经常面对的重要难题。由于成年后多数骨骼发育基本停止,骨骺和牙齿等发育相关的观测指标难以直接用于成人年龄推断。耻骨联合表面形态不仅在年轻时表现为规律的骨骺融合,在老年时也表现为有据可循的退行性变化。这些变化呈现阶段性,可以划分为明确的年龄段或等级,在成年人的年龄推断时具有良好表现[16]。

Hanihara等[5]通过对70例双侧耻骨联合进行研究后,选择对沟嵴、耻骨结节、耻骨表面下端、骨化结节、腹侧缘、背侧缘、耻骨联合表面边界等7个特征进行描述,并根据时序性变化分别赋予1~4分,使用多元回归和量化理论模型对所得评分进行分析,获得年龄推断方程,从而定量评估骨骼年龄。有效避免了评估整体分级带来的主观性误差,提高了年龄推断的准确性。Chen等[10]在此基础上,用262例中国汉族男性耻骨联合作为训练样本,增加了腹侧斜坡、联合面骨质作为特征,使用相同的方法获得年龄推断方程,对骨骼年龄进行定量评估。然而,这些年龄推断方程未在独立测试样本上进行验证,其适用性和准确率有待进一步检验。

本研究采用薄层扫描CT技术和容积再现技术,沿用Suchey-Brooks的分级思路,对训练集中649例耻骨联合三维重组模型进行形态学分析,发现孔隙度和联合面骨质在VR上难以观测,与Wink等[17]及Villa等[18]研究结果一致,因此舍弃此类特征作为评分指标。同时参考Chen等[10]和Hanihara等[5]评分系统中耻骨联合形态特征,选择了在容积再现上能清晰表现的腹侧缘、背侧缘、联合面下端、联合面上端、腹侧斜面、耻骨结节、联合面沟嵴等7个特征作为研究对象。Telmon等[19]也通过研究表明,这几类特征在虚拟模型上的增龄性变化表现与真实骨骼间无统计学差异。观察训练样本特征的形态变化,重新划分评分等级,并与年龄进行相关性分析,结果表明重新划分的等级与年龄高度相关。训练集男女样本整体相关性均有统计学意义(P均<0.001):腹侧缘(r=0.738)、背侧缘(r=0.700)、联合面下端(r=0.728)、联合面上端(r=0.776)、腹侧斜面(r=0.800)、耻骨结节(r=0.728)、联合面沟嵴(r=0.796)。评分随年龄增加而升高,且各评分之间差异显著,由此证明新的评分系统适用于建立年龄推断模型。

既往的研究中,对髋臼、颅缝、髂骨、坐骨结节等骨骼形态变化等级评分后,常用数学统计理论推断年龄,如直线回归、多元逐步回归、理论量化模型等线性回归分析[20-22]。效率及准确率较传统分级方法有所提升,但线性回归分析在处理年龄推断问题上具有局限性:(1)法医学年龄推断特征评分与年龄之间不属于线性结构,而线性回归只能描述变量间的线性关系。(2)传统的线性回归数学统计模型无法处理异常值,在数据存在噪声时会导致预测结果存在巨大误差。使用机器学习非线性回归模型能在多维空间中对数据进行拟合,可以处理复杂的非线性关系,通过正则化等数据预处理方式可以降低噪音影响,适用于建立年龄推断模型。Zhang等[23]使用5种机器学习回归模型对502例肋骨的形态变化等级评分与年龄的关系进行建模,其中DTR模型在测试集上表现最佳,男性MAE为5.31岁,但老年样本较少,且未在不同样本上进行验证。Fan等[24]使用5种机器学习回归模型对230例颅缝的愈合等级评分与年龄的关系进行拟合,其中SVR模型在测试集上表现最佳,得到的最小MAE为7.73岁,精确度较传统的线性回归方程有所提高。一方面由于颅缝的愈合等级与年龄相关性在老年时稍显不足,另一方面训练集中老年样本较少,所以在<30岁或>60岁的年龄段表现欠佳,MAE>10岁。本研究在获得耻骨联合形态变化等级评分后按男性和女性分别建立6个机器学习回归模型,同时分别在临床CT样本、PMCT样本和真实骨骼CT扫描样本上进行验证。结果显示:男性AdaBoost年龄推断模型在3个独立测试集上都表现良好,整体MAE分别为5.23、7.04和5.77岁。女性GBR年龄推断模型应用于3个独立测试集时,整体MAE分别为5.16、5.02和5.71岁。男性和女性年龄推断最优模型MAE显示各年龄段误差无明显差异,在60岁以后的年龄段MAE<10岁。Savall等[25]使用传统耻骨年龄推断方法在评估法国男性个体年龄时,60岁以后年龄段MAE>10岁(56~95岁男性MAE为14.1~33.0岁)。相较之,本研究提高了老年的年龄推断准确率。本研究建立的男性和女性年龄推断模型适用于不同来源的CT数据,在实际案例中可应用于不同场景。

本研究的创新性:通过观察耻骨联合CT重建模型的增龄性形态学变化,建立了虚拟耻骨联合表面形态特征评分系统,并使用机器学习回归算法对耻骨联合各特征评分数据进行拟合,建立量化的成人年龄推断模型,相较于传统分级方法降低了主观性误差,提高了年龄推断准确率。本研究的不足:训练样本还不够充足,且分布不均匀;特征评分过程仍存在一定的主观性误差,后期考虑引入机器学习图像识别技术替代人工评分过程来完全消除主观性误差。

作者贡献声明熊剪 论文构思、设计和撰写,文献调研,可行性分析,数据整理,构建模型。曹永杰 可行性分析,论文修订。马永刚,杨孝通数据收集,绘制图表。张吉,黄平 绘制图表,研究设计,数据分析。万昌武 研究设计,论文构思和修订。

利益冲突声明所有作者均声明不存在利益冲突。

猜你喜欢

耻骨骨骼年龄
变小的年龄
孕晚期耻骨痛,从容应对
做家务的女性骨骼更强壮
三减三健全民行动——健康骨骼
经会阴超声对孕妇耻骨联合分离症的诊断价值
骨骼和肌肉
年龄歧视
算年龄
穴贴耻骨联合痛点治腰痛
100例晚期妊娠妇女正常耻骨间距超声测量