融合中华-05注意力与叠加纹理构建残差网络智能模型评估骨龄
2022-08-08郭子昇王吉芳沈孝龙
郭子昇,王吉芳,沈孝龙,苏 鹏
(北京信息科技大学机电工程学院,北京 100192)
准确评估骨龄具有重要意义,目前我国所用主要方法为G-P(Greulich-Pyle)图谱法[1]和TW(Tanner and Whitehouse)评分法[2],均基于欧美青少年数据制定。2006年提出的中华-05评分法[3]包括TW3-C RUS(radius, ulna, and short bone)、TW3-C Carpal(腕骨)和RUS-CHN 3种方法,通过观察非惯用手X线片中的腕、掌及指骨等骨骼形态结构推断目标年龄,更适于我国人群,但仍存在耗时长、精度低及操作复杂等缺点。随着计算机技术的发展,骨龄评估逐渐向自动化及人工智能方向发展[4],如基于深度学习(deep learning, DL)的卷积神经网络(convolutional neural networks, CNN)[5]。本研究通过融合中华-05注意力与多层纹理叠加建立残差网络智能模型,观察其评估骨龄的准确性。
1 网络模型设计与训练
1.1 数据集 采用北美放射学会(Radiological Society of North America, RSNA)公开数据集中的手骨X线片,受试者月龄范围为1~228个月,含12 611幅训练图像、1 425幅验证图像和200幅测试图像;截取前1 376幅训练图像原始文件作为测试集,以其余图片为训练集;按原始文件骨龄编号,以12个月为1岁,将测试集、训练集图像的新编文件归为0~18岁,共计19类。
1.2 实验平台 CPU为Intel(R) Core (TM)i7-9750H,GPU为NVIDIA GeForce GTX 1650,内存8G;Windows10 64位系统。编程软件包括Tensorflow2.1.0、Keras框架、Python3.7语言及PyCharm2019.3.3编辑器。
1.3 深度残差网络模型设计
1.3.1 局部二值模式(local binary pattern, LBP)多层叠加纹理增强层 引入LBP、圆形LBP及旋转不变LBP算子的多层叠加纹理增强处理层(图1),计算公式依次为(1)~(3)。若计算值非整数,则以双线性插值计算插值点,见公式(4):
(1)
(2)
(3)
(4)
式(1)为LBP算子,(xc,yc)为中心像素,ic为中心像素灰度值,ip为P点像素灰度值,s为符号函数,p为邻域P个采样点中第p个采样点。式(2)为圆形LBP算子,以可变半径的圆(P=16,R=2)对近邻像素进行编码,其中R为采样半径,P为第P个采样点,p为采样数目。式(3)为旋转不变LBP算子,对圆形邻域进行二进制编码,再通过不断旋转及循环位移得到一系列初始定义值,取其最小值作为该邻域LBP值。
1.3.2 中华-05空间注意力机制 基于中华-05评分法设计空间注意力机制,包含尺、桡骨远端、第1、3、5掌骨、拇指近节指骨、中指和小指中节指骨、拇指、中指、小指远节指骨近端共11个易识别骨骼发育程度的区域。各骨骼连接处骨骺骨干宽度差距、钙化程度及融合程度所致相应手部X线片区域灰度值存在差异,将其作为空间注意力机制的11个ROI引入空间网络变压器[6]与11个识别网络。
以中华-05空间注意力机制根据图像特征自动搜索11个特定区域,资源分配倾向于关键区域,利用空间网络变压器对原始输入图像进行逐层空间区域学习,输出11个由更具辨识能力特征映射组成的子区域,再将其反馈于11个识别网络,后者在特征映射后的隐藏层加入压缩激活块[7],并输入一幅手部X线片图像,随之输出一个D维向量;将所有网络输出连结成一个N×D维向量组,分别设置N和D为11和512,输入至全连接层中,由softmax层输出整图骨龄评分值(图2)。
1.3.3 集成化残差网络模型 参照文献[8]设计集成化残差网络模型,以残差块为基本单元,堆叠卷积层、批量处理归一化层和修正线性单元(rectified linear unit, ReLU);残差块计算公式如下:
xl+1=f(x1+F(xl,Wl))
(5)
式中,xl+1为第l+1层残差单元输入,F(xl,Wl)为残差函数,Wl为第l层残差单元的权重,f(…)为ReLU。
构建50层深度残差网络,第1层设置卷积层,其后连接池化层,最后连接16个瓶颈残差模块(图3A);分别于每个残差模块后连接1个池化层和1个激活层,最后连接全连接层,堆叠方式见图3B。
1.3.4 ZH05-DL-ResNet50 构建集成融合多层叠加纹理增强层与中华-05空间注意力机制的智能骨龄评估模型ZH05-DL-ResNet50(图4),于50层深度残差网络顶层,引入LBP多层叠加的纹理增强处理层,对原始数据集进行多层叠加纹理增强处理,并于底层加入测试集输入的X线片多层叠加纹理增强处理层,最后于池化层后引入中华-05空间注意力机制。
1.4 模型训练与评价
1.4.1 数据增强 为优选LBP纹理增强层叠加顺序,验证引入改进处理层的有效性,对数据集依次进行LBP多层叠加纹理增强处理,对各增强处理图集进行遍历处理,并采用CNN依次设置120轮训练,以测试集中平均绝对误差(mean absolute error, MAE)最低的组合顺序为最优,见公式(6)。
(6)
式中,N为样本数,ytrue为真实值,ypred为预测值。
1.4.2 训练策略 采用改进模型ZH05-DL-ResNet50对数据集进行多次训练,训练图片为三通道,设类别数为19,每次喂入模型16幅图片,并调整输入图片宽、高皆为224,设置缩放因子为1/255,以增强模型泛化能力;设初始学习率为0.000 1,配置optimizers.Adam优化器,结合fit_generator训练方式以节约内存;计算骨龄预测值和真实值的准确率(accuracy, AC)作为模型输出,并结合测试集所计算的MAE综合判断模型性能。
1.4.3 模型评价 对ZH05-DL-ResNet50模型与传统CNN训练时池化层、全连接层性能进行可视化比较。绘制偏置权重分布直方图,评价ZH05-DL-ResNet50模型与传统CNN、50-layers ResNet、DL-ResNet50及其他文献模型评估骨龄的性能。AC为模型在训练集与测试集中正确分类样本占比,MAE反映预测值与真实值的吻合程度, MAE为0提示模型完美。权重表示神经元之间的连接强度,其值表示分类概率的大小。偏置值代表不断调整寻优使样本正确分类的值。
2 结果
2.1 数据增强处理层对比结果 旋转不变LBP-LBP-圆形LBP组合测试集的MAE最低,故以此组合顺序设置多层叠加纹理增强层,见图5。
2.2 模型可视化分析 50-layers ResNet的AC较CNN有所提升,且AC曲线收敛明显加快;DL-ResNet50的AC较50-layers ResNet进一步提升;ZH05-DL-ResNet50曲线收敛最快,AC最高(98.14%),预测测试集骨龄的MAE计算值为0.312岁,预测效果极佳。见表1及图6。
表1 网络模型训练结果
2.3 模型评估与精度 ZH05-DL-ResNet50批量数据均值方差期望走势波动较CNN明显减小,全连接层卷积核权重值皆在0附近颜色最深,即在0附近区域权重值取值频次最高,而ZH05-DL-ResNet50波动范围明显更小,见图7。传统CNN训练过程卷积层的权重曲线缺乏结构性,规律性差;而ZH05-DL-ResNet50的卷积层权重曲线规律、平滑,具有结构性,见图8。
与其他骨龄评估模型相比,ZH05-DL-ResNet50改进模型的MAE更低而AC更高,见表2。
表2 ZH05-DL-ResNet50与文献中的其他模型评估骨龄结果比较
3 讨论
基于DL的CNN用于检测图像和分类任务表现出色。IGLOVIKOV等[20]引入CNN,提出针对整幅手部X线片的DL骨龄评估模型,因无针对性ROI,整体评估准确性一般;SPAMPINATO等[12]提出DL骨龄评估模型BoNet,以TW法细化提取ROI,并以涵盖0~18岁多种族人群手部X线片的公共数据集进行验证,其MAE为0.8岁;边增亚[21]提出基于腕骨的骨龄评估方法,以CNN对腕骨ROI进行训练并评估骨龄;WANG等[22]提出基于CNN的骨龄分类系统,以TW法根据尺、桡骨不同发育阶段的不同特征评估骨龄。以上研究均有所缺陷,如基于整幅手部图像或某特征区域进行学习训练可致评估精度较低,依据欧洲标准的TW或G-P法训练ROI可能影响模型泛化能力、导致用于我国人群存在不足,训练及预测评估模型时过度关注数据集的传统数据增强手段而忽略医学图像的单通道、小对比度、复杂纹理及细粒度图像识别等特征,可致模型训练和预测效果不佳。
本研究引入LBP算子的多层叠加纹理增强处理层,使图像灰度不变,减少无关信息对训练及预测精度的干扰;依照中华-05评分法设计新的空间注意力机制,针对我国人群手骨特征进行训练。相比G-P图谱法及TW评分法,中华-05评分法所测同年龄段骨龄与生活年龄差值的平均数和中位数更接近0值水平线,大部分箱体相对较小,且介于-1~1之间[23]。通道注意力、轻量级卷积块注意力、挤压和激发注意力及空间注意力[24]等机制用于处理自然语言、分类图像及分割语义等任务表现出色,相比原始卷积网络可减小处理高维输入数据计算负担,通过结构化选取输入子集,降低数据维度,使网络更专注于训练ROI和其针对性特征,且各ROI空间注意力权重更高,使模型训练更加聚焦;以空间网络变压器针对原图进行逐层学习,并截取分辨率适宜的子图,等同于放大手部X线片中的关键部位,以清晰展现局部信息,进而提取表达能力更强的特征,为进一步处理提供基础。
针对性特征改进残差网络模型现已用于智能诊疗领域中的众多医学成像计算机视觉任务[6]。残差网络易于优化,跳跃式连接的残差块可将输入信息直接传至输出层,缓解网络深度增加带来的梯度消失及爆炸问题。为融合注意力机制与叠加纹理层,测试混合改进模型性能,本研究引入残差网络,并在相同参数下可视化分析数据分布、权重及偏置等重要指标,观测训练过程中的模型性能。
本研究成功建立融合中华-05空间注意力机制与LBP多层纹理叠加的混合改进式残差网络模型,50-layers ResNet的AC较传统网络模型CNN有所提升,表明引入残差网络可有效解决梯度消失及爆炸问题,协助提高训练性能;DL-ResNet50的AC进一步提升,提示LBP多层纹理叠加增强层对骨龄值划分具有明显效果,可将更细致的手部骨骼纹理特征作为网络输入端;ZH05-DL-ResNet50的AC最高,表明中华-05空间注意力机制使网络更专注于训练11个易识别骨骼发育程度的ROI及其针对性特征,ROI内骨骺及骨干宽度、钙化情况、融合程度等特有图像特征对分类训练残差网络更具针对性,使算力分配更倾向于手骨特征的重要区域,可释放网络整体计算负担,进一步降低无关信息干扰,并协助提高训练AC。
综上,本研究成功建立的中华-05注意力与叠加纹理的残差网络智能模型可提高评估我国人群骨龄的准确率。但本研究仅对集成模型的性能进行了技术改进,未对数据集样本分布、性别差异及网络初始学习速率加以处理,尚有一定提升空间,有待后续进一步完善。