基于双层回归森林模型的头影测量图像结构特征点自动定位
2019-08-14戴修斌谢理哲
秦 臻, 戴修斌, 谢理哲
1.南京邮电大学通信与信息工程学院,南京210003
2.南京邮电大学地理与生物信息学院,南京210023
3.南京医科大学口腔疾病江苏省重点实验室,南京210096
X射线头影测量图像分析技术是现代口腔正畸、正颌治疗和颌面部手术的基础[1].该技术首先标记出X 射线头影测量图像中牙颌及颅面的19 个结构特征点位置,然后测量并计算这些标志点之间的角度、距离或比例,再与正常人相关数据进行分析比对以拟定治疗计划[2-6].由此可见,结构特征点的定位准确率对口腔疾病的临床诊断、治疗、手术决策有着重要的影响.
口腔临床通常以医生手动标记方式定位X射线头影测量图像中的结构特征点,然而这种定位方式不仅费时费力,而且医生临床经验、个人精力和所受压力的差异性也会直接影响到结构特征点定位的准确性[7].因此,发展准确的X射线头影测量图像结构特征点自动定位方法具有重要的临床价值.
目前,学者们已开始关注X射线头影测量图像中结构特征点的自动定位问题.例如:文献[8]基于随机森林模型的相似图谱估计结构特征点可能位置;文献[9]从图像中获得Haar-like特征并训练出关于特征点的随机森林(random forest, RF)分类器用于X射线头影测量图像中结构特征点的自动定位,然后采用游戏最优化方法(game-theoretic optimization, GTO)达成了外观模型和形状模型的一致性,最后按照获得的结构特征点进行测量分析;文献[10]结合随机森林方法和稀疏形状结构训练出可以定位结构特征点的回归预测模型;文献[11]将基于随机森林的回归投票方法和局部条件模型相结合并提出了一种X射线头影测量结构特征点的自动定位系统.
为了进一步提高定位准确率,本文提出了基于上下文感知双层回归森林模型的X射线头影测量图像结构特征点自动定位方法.该方法首先以训练图像中采样点的外观特征及采样点到当前目标特征点的偏移向量为输入,训练第1 层回归森林模型;然后将第1 层回归森林模型作用于训练图像,从而获得目标特征点的偏移向量和偏移距离图;接着从偏移距离图中提取采样点的上下文特征,并结合已有的外观特征训练获得第2层回归森林模型.当获得新的X射线头影测量图像时,将训练好的两层回归森林模型依次作用于待检测图像,即可获得图像中每个像素关于目标特征点的偏移向量;最后利用回归投票方法[12]即可从偏移向量中计算出该特征点的坐标.为了提高定位效率和准确率,本文还采用多分辨率方式进行模型训练和目标特征点定位.
1 方法介绍
本文提出的基于上下文感知双层回归森林模型的X射线头影测量图像结构特征点自动定位方法主要分为训练阶段和测试阶段两部分,其总体流程如图1 所示.在训练阶段,针对每个目标特征点分别采用多分辨率方式训练基于上下文感知双层回归森林模型的检测器;在测试阶段,将已训练的检测器作用于新获得的待检测图像,生成图像中每个像素关于目标特征点的坐标偏移向量后利用回归投票算法获得目标点的坐标.
1.1 训练上下文感知双层回归森林模型
本文通过训练上下文感知双层回归森林模型来获得特征点检测器.针对某一个目标特征点的检测器训练包括以下步骤:
步骤1从训练图像中随机选取N个采样点.
步骤2计算每个采样点的随机Haar-like 特征作为该点外观特征,并将随机Haar-like特征定义为[13]
式中,PI(X)表示图像I 中以采样点X 为中心点的图像块,Z 表示Haar-like 特征二维平面函数的数量,ph∈{−1,1}表示第h 个二维平面函数的极性, ah∈R2表示第h 个二维平面函数的中心位置,sh表示第h 个二维平面函数的尺寸.改变Z、ph、ah、sh这4个参数可以产生一系列随机Haar-like 特征,如图2 所示.
图1 本文方法流程图Figure 1 The flowchart of the proposed method
图2 本文所用Haar-like特征Figure 2 Haar-like features used in this paper
步骤3以采样点的随机Haar-like 特征及采样点到目标特征点的坐标偏移向量为输入训练第1 层回归森林模型,使得该模型能够学习像素点外观特征和该点到目标特征点的坐标偏移向量之间的非线性连接.
步骤4将训练获得的第1 层回归森林模型作用于训练图像,以便预测训练图像每个像素到目标特征点的坐标偏移向量,再用L2 范数从坐标偏移向量中计算得到偏移距离.对于二维坐标偏移向量w = [w1, w2],基于L2 范数的偏移距离为一旦计算出每个像素到目标特征点的偏移距离,即可形成每幅训练图像对应的第1 层偏移距离图,如图4 中的(a)和(b)所示;
步骤5利用式(1)从第1 层偏移距离图中计算采样点的上下文特征,并将其与步骤2 获得的采样点外观特征组合后作为新的输入训练第2 层回归森林模型;然后将训练好的第2 层回归森林模型作用于训练图像,即可估计出训练图像中每个像素到目标特征点的二维坐标偏移向量.
通过L2 范数可将步骤5 获得的坐标偏移向量转换成第2 层偏移距离图,如图3 中的(c)和(d)所示.分别比较图3 中的(a)和(c)、图3 中的(b)和(d)可以发现:与第1 层偏移距离图相比,加入上下文特征后获得的第2 层偏移距离图质量得到了明显的改善.
所有19 个目标特征点的检测器均可按照以上训练步骤获得.
图3 不同特征点的第1 层和第2 层偏移距离图对比Figure 3 Comparison between the first-layer and the second-layer deviation distance maps for the two different landmarks
1.2 特征点定位
使用训练好的检测器即可定位新获得X 射线头影测量图像中的特征点.首先,根据式(1)计算待检测图像中每个像素点的外观特征;然后将这些外观特征作为输入,从而使第1层回归森林模型输出所有像素点关于当前目标特征点的第1 层坐标偏移向量;接着从L2 范数计算得到的第1 层偏移距离图中提取上下文特征,并将这些特征和已获得的外观特征一起作为第2 层回归森林的输入数据,进一步得到第2 层坐标偏移向量;最后用回归投票方法[13]求得目标特征点的坐标.
1.3 基于多分辨率的模型训练和特征点定位
为了减少计算时间并提高检测准确率,可以借助多分辨率方式实现1.1 和1.2 节中所述模型训练和特征点定位.对于多分辨率模型训练而言,在最低分辨率下进行模型训练时,采样点将从整幅图像范围内选取;随着图像分辨率的逐渐升高,当前分辨率下用于训练的采样点只从上一个较低分辨率图像所获目标特征点位置附近选取.当基于多分辨率的训练过程结束时,可以针对每一个结构特征点获得一系列不同分辨率下的检测器.
在测试初始阶段,根据训练阶段设定的不同分辨率对待定位图像进行重采样;然后将不同分辨率下的检测器作用于相应分辨率下的重采样图像,可获得不同分辨率下所有像素点关于当前目标点的坐标偏移向量.在最低分辨率情况下,本文利用回归投票方法使得重采样图像中每一像素都能给可能的目标点所在位置投票,则得票最多的像素点即为最低分辨率下的目标特征点;而在更高分辨率下,并不是测试图像中所有像素均参与回归投票, 而只有从上一较低分辨率条件下获得特征点位置附近的像素点才参与.
采用多分辨率的方式可以避免图像中远离目标特征点的像素参与回归投票过程,不但提高了计算效率,而且减少了无关像素对定位结果的干扰.
2 实验结果和讨论
本文所用实验数据来自2015年IEEE ISBI 公共数据集[15],该数据集包含训练和测试图像各150 幅,每幅图像的像素尺寸为0.1 mm×0.1 mm,图像大小为1 935×2 400.从训练图像中选取50 幅图像作为训练集,从测试图像中选取100 幅图像作为测试集.实验数据中所用19个结构特征的位置和名称分别如图4 和表1 所示.
图4 X 射线头影测量图像中的结构特征点Figure 4 Anatomical landmarks in a cephalometric X-Ray image
实验中所用参数设置如下:回归森林算法所用决策树数目为100,每棵决策树的最大深度为15,每个叶节点中的最大训练样本为5,每个采样点的特征数设为1 000.设Haar-like 特征二维平面函数的数量Z 为{1, 2},尺寸sh设为{3,5},图像块PI大小等于30×30.
为了定量评估特征点定位精度,本节将采用通用的两组评价标准.第1 组评价标准为平均径向误差(mean radial error, MRE)和标准差(standard deviation, SD)[16],可分别定义为
表1 X 射线头影测量图像中结构特征点的描述Table 1 Description of anatomical landmarks in a cephalometric X-Ray image
式中,Ri表示第i 个图像检测结果与真实值的径向误差,N 表示测试图像数量.
第2 组评价标准是检测成功率(uccess detection rate, SDR),定义为[16]
式中,Ld和Lr分别表示检测出的特征点及其对应的真实点;b 为误差允许范围值,包括2.0 mm、2.5 mm、3.0 mm、4.0 mm;M 表示已检测出的特征点总数;#{θ}表示符合条件θ的已检测点数目.
图5 给出部分测试图像的结构特征点自动定位结果(蓝色标记点)以及对应的真实位置(红色标记点).从图5 中可以看出,本文方法所获结果虽然不能与真实位置完全重合,但其定位结果与真实位置偏差较小.
为了定量评价本文方法的性能,分别给出了使用本文方法对100 幅测试图像中19 个结构特征点定位结果的平均径向误差值和平均标准差,如图6 和7 所示.从这2 幅图中可以看出:对于所有结构特征点,本文方法所获结果的平均径向误差不超过4 mm,平均标准差均小于2.5 mm.当误差允许范围值分别为2.0 mm、2.5 mm、3.0 mm、4.0 mm 时,100 幅测试图像中所有结构特征点定位结果的平均检测成功率如图8 所示.从图8 中可以看出:误差允许范围4.0 mm 对应的平均检测成功率为82.05%,也就是说本文方法所得结果中误差小于4 mm 所占的比例不小于82%.图5∼8 的实验结果表明,采用本文方法不但能有效地实现X射线头影测量图像中结构特征点的自动定位,而且能获得较高的定位准确率.
图5 部分测试图像的特征点定位结果及其对应的真实位置Figure 5 The detected landmarks and their corresponding real positions in some testing images
图6 100 幅测试图像特征点定位结果的平均径向误差值Figure 6 The mean radial errors of the detected landmarks in 100 testing images
图7 100 幅测试图像特征点定位结果的平均标准差值Figure 7 The average standard deviation of the detected landmarks in 100 testing images
图8 100 幅测试图像特征点定位结果的平均检测成功率Figure 8 The average success detection rates of the detected landmarks in 100 testing images
图9 和10 比较了本文方法与Chu[11]、Chen[17]、Mirzaalian[9]等方法所得到的结果,其中图9 给出了本文方法与其余3 种方法所得结果的平均检测成功率.从图9 中可以看出:当误差允许范围分别为2.0 mm、2.5 mm、3.0 mm 时,本文方法所得结果的平均检测成功率与其他方法相比并不占优;但是当误差允许范围为4.0 mm 时,本文方法所得结果的平均检测成功率高于其他3 种方法.图10 给出了本文方法与其余3 种方法所得结果的平均径向误差,可以看出本文方法和Chu 方法对大部分特征点定位结果的平均径向误差均超过2.0 mm,而Chen 和Mirzaalian 等方法虽然有部分特征点(例如第7∼9 个特征点)定位结果的平均径向误差小于2.0 mm.但是Chu、Chen 和Mirzaalian 等方法所得结果的平均径向误差波动较大,对第4 个和第10 个特征点定位结果的平均径向误差已分别超过5.0 mm 和4.0 mm,尤其是Mirzaalian方法对第4 个特征点定位结果的平均径向误差甚至接近6.0 mm.相比而言,本文方法对所有目标特征点定位结果的平均径向误差都集中在2.0∼4.0 mm 范围内,且误差值波动较小.这说明本文方法虽然对部分特征点的定位精度并非最高,但是从整体来看其定位精度最稳定.
图9 本文方法定位结果的平均检测成功率与其他方法的比较Figure 9 The comparison of average success detection of the detected landmarks obtained by our method and the other ones
图10 本文方法定位结果的平均径向误差与其他方法的比较Figure 10 The comparison of mean radial errors of the detected landmarks obtained by our method and the other ones
3 结 语
本文提出了一种基于上下文感知双层模型的X射线头影测量图像结构特征点自动定位方法.该方法首先从训练图像中提取外观特征,并以此外观特征训练第1 层回归森林模型;然后利用第1 层回归森林模型生成偏移距离图,并从中提取上下文特征;接着将上下文特征和外观特征结合训练第2 层回归森林模型.将训练好的模型作用在待检测图像上获得针对目标特征点的坐标偏移向量后,可使用回归投票的方法求得目标特征点的坐标.本文方法将图像中蕴含的上下文信息和外观信息相结合,实现了X射线头影测量图像中结构特征点的自动定位,并借助多分辨率的方法达到了提高特征点自动定位效率和计算速度的目的.实验结果表明,本文方法能自动定位X 射线头影测量图像中的结构特征点,相比于其他自动定位方法,本文方法的总体性能略优且稳定性较好.