基于迁移学习与多视角感兴趣点的膝关节运动追踪网络

2021-11-23王聪谢帅宁李康王重阳刘旭东赵亮蔡宗远

工程 2021年6期

王聪，谢帅宁，李康，王重阳，刘旭东 ,*，赵亮 *，蔡宗远 a,c,*

a Shanghai Key Laboratory of Orthopaedic Implants & Clinical Translational R&D Center of 3D Printing Technology, Department of Orthopaedic Surgery, Shanghai Ninth People’s Hospital, Shanghai Jiao Tong University School of Medicine; School of Biomedical Engineering & Med-X Research Institute, Shanghai Jiao Tong University, Shanghai 200030, Chinab SenseTime Research, Shanghai 200233, China c Engineering Research Center of Digital Medicine and Clinical Translation, Ministry of Education, Shanghai 200030, China d Department of Orthopaedics, New Jersey Medical School, Rutgers University, Newark, NJ 07103, USA e Department of Orthopaedics, Shanghai Jiao Tong University Affiliated Sixth People’s Hospital, Shanghai 200233, China

1. 引言

对于了解膝关节的正常功能[1]、膝骨性关节炎的发展[2]、膝盖损伤机制[3]、假体设计优化[4]、术前规划和术后康复[5]等众多骨科用途而言，膝关节运动学有着至关重要的意义。此外，在肌肉骨骼系统的相关生物力学研究中，膝关节运动学测量也是必不可少的。临床领域对运动学的需求量巨大，在这种情况下，就需要有一种高效且可靠的方法来测量关节的动态运动。

目前，研究人员可以采用多种测量工具对三维（3D）膝关节运动进行量化，然而，只有少数工具能够提供毫米级的精度以及快速的追踪速度。基于皮肤标记的光学追踪系统在人体运动分析中得到了广泛的应用，但其准确性受到标记的相关软组织伪影的影响，这种伪影可以引起高达40 mm的偏移[6]。虽然一些研究人员尝试通过建立数学模型来降低软组织漂移的影响[7-9]，但在使用基于皮肤标记的运动捕捉技术时，这个问题仍然没有得到解决[10]。随着医疗成像技术的发展，部分技术手段可以直接测量动态的关节运动，如核磁共振（MR）断层扫描以及计算机断层扫描（CT）[11,12]。然而，这些技术的临床推广受到以下因素的限制：时间分辨率低、运动范围（ROM）有限、需要控制运动速度、图像质量低、辐射量无法忽略不计[13,14]。相较于传统的X射线摄影（图1），双荧光透视成像系统（DFIS）的精确度高[15]、易于测量、运动范围广[16]、辐射低，因此，在过去十年里，该系统在人体关节运动分析中得到了广泛的应用。

为了在双荧光透视成像系统中确定目标（即人体膝关节）的姿态，该系统在测量过程中采用二维（2D）—3D配准技术来使体数据（如计算机断层扫描图像）与荧光透视（连续的X射线图像）相匹配。研究人员通过反复调整计算机断层扫描体数据的3D位置，同时生成大量的数字重建放射影像（DRR），直到数字重建放射影像接近最真实的X射线图像为止[17]。随着双荧光透视成像系统在临床应用中日益广泛的使用，研究人员尝试了多种自动配准方法以加快2D—3D配准过程。当前，基于优化的配准方法已经被广泛研究，主要包括优化器以及衡量图像之间相似性的相似度指标[18,19]。虽然基于优化的配准方法具有较高的准确性[20-22]，但其仍有一些缺点（例如，配准初始化的要求颇为严苛，并且优化期间计算数字重建放射影像和迭代的计算成本较高）限制了双荧光透视成像系统的广泛使用[23]。

图1. 用于测量膝关节动态运动的虚拟双荧光透视成像系统。

随着近几年来机器学习的迅猛发展[24,25]，人们已开发了多种基于学习的方法，用于测量关节运动。相较于基于优化的方法，其优势在于计算效率高和捕获范围广[21,26-28]。但是，由于采用大量真实的标记数据来训练这样的模型是不切实际的，因此，我们通过合成X射线图像（即数字重建放射影像）来训练这些方法。尽管如此，我们仍然需要大量的真实图像，以保障配准的鲁棒性[22,27]。另一个问题是数字重建放射影像与X射线图像之间的差异。相较于数字重建放射影像，荧光透视影像的边缘更模糊，且存在几何变形和强度不均匀的问题[29,30]。因此，通过数字重建放射影像训练的网络并不能被理想地泛化到荧光透视影像场景[22]。过往的研究构建了多种物理模型，如通过额外测量X射线的质量来生成更加真实的数字重建放射影像[31,32]。但近期，Haskins等[24]开展的一项研究证明，我们能够通过在跨模态配准中，使用迁移学习，来节省构建复杂数字重建放射影像模型或收集真实临床图像的时间。

本文中，我们开发了一个伪孪生多视角配准框架，以解决真实荧光透视影像数量有限的问题。我们提出的方法结合了伪孪生点追踪网络和特征迁移网络。借助多视角配准网络、成对的数字重建放射影像以及荧光透视成像系统，我们追踪膝关节上选定的点，从而确定膝关节的姿态。特征学习网络使用数字重建放射影像和荧光透视影像，对特征提取器进行训练。为了解决真实荧光透视影像数量有限的问题，我们采用数字重建放射影像以及ImageNet上预先经过训练的特征学习网络，对多视角配准网络进行了训练。

本文的其余部分内容如下：第2节综述了基于深度学习的2D—3D配准和领域自适应；第3节介绍了与基于深度学习的2D—3D配准有关的问题；第4节介绍了各项实验及其结果；第5节对本文进行了总结。

2. 相关工作

2.1. 基于学习的方法

由于基于优化的配准会产生大量的计算成本，研究人员最近开发了基于学习的配准方法以避免此问题[24]。鉴于卷积神经网络（CNN）的优异表现，将其用于提取数字重建放射影像和荧光透视影像中的特征，之后可由分层回归器估算刚性目标的姿态[33]。虽然卷积神经网络模型能提高配准的鲁棒性，但其仅限于特征较强的目标（如医疗植入物），因此无法对解剖结构进行有效配准。Miao等[28]提出了一种强化学习网络，通过马尔可夫决策过程，实现了脊柱X射线图像和计算机断层扫描图像的配准。虽然他们利用多智能体系统对这一方法进行了改进，但由于他们提出的方法在搜索期间无法收敛，因此仍可能失效。近期，人们多次尝试利用点对应网络对刚性目标进行配准操作[27,34,35]，提高了解剖结构的有效性和准确性。这些方法克服了迭代姿态搜索计算成本高昂和不收敛的问题，并通过引入多视角避免了平面外的误差。

2.2. 领域自适应

合成数据（即数字重建放射影像）和真实数据（即荧光透视影像）之间的差异（又被称为偏移）是基于学习的配准方法所面临的另一挑战。在基于学习的配准方法中，训练数据和实际场景数据必须处于同一特征空间，并且必须具备相同的分布[36]。相较于为了生成数字重建放射影像而构建复杂的模型，领域自适应是一种更简单的方法，该方法可以解决不同图像之间的域差异[37]，并且领域自适应已在众多医疗用途中得到了应用，如X射线分割[38]以及多模态图像配准[21,22,39]。针对2D—3D配准，Zheng等[21]提出将成对的领域自适应模块整合到预先训练过的卷积神经网络中，该神经网络利用数量有限的训练数据，执行刚性配准。该网络通过数字重建放射影像进行训练，它在合成数据方面表现良好；因此，研究人员利用领域自适应转化真实特征，使其接近合成特征。然而，现有方法仍然不适用于人体关节（如膝盖和臀部）。因此，研究人员需要设计出一种无需使用大量临床X射线图像的人体关节配准方法。

3. 方法

2D—3D配准旨在由成对的多视角荧光透视影像估算3D体数据的六个自由度（6DOF）。接下来，我们将首先介绍追踪系统和基于点追踪的多视角2D—3D配准（第3.1节）。然后，在第3.2节和第3.3节将详细介绍我们工作的两个主要部分。

3.1. 基于多视角的配准

3.1.1. 基于六自由度的2D—3D刚性配准

我们将膝关节上每块骨骼的配准视为一个单独的2D—3D配准过程。我们将每块骨骼的姿态重现定义为通过转换矩阵T4×4对计算机断层扫描体数据进行姿态调整。该转换矩阵具有六个平移和旋转要素(x, y, z, γ, α, β)，使用欧拉角进行表示[40]。转换矩阵T4×4可以表示为4×4的齐次矩阵，姿态P可以按如下方式推导得出：

3.1.2. X射线成像的三维投影几何

在虚拟双荧光透视成像系统中，在生成数字重建放射影像时，利用每个成像平面的四个角以及X射线源的位置，建立针孔光学模型（图1）。在对双视角荧光检查法进行多项式扭曲校正和空间校正后，结合Amira软件（ThermoFisher Scientific, USA）分割计算机断层扫描体数据，然后由光线投射算法[41]生成数字重建放射影像。采用转换矩阵T4×4，可以按如下方式计算得出最终的数字重建放射影像的IDRR：

式中，l(p,s)为X射线成像模型中连接X射线源和图像平面的射线s；p为射线上的一点；μ(·)为体数据中某一点转换后的衰减系数。

3.1.3. 多视角配准

根据以前的文献，单视角2D—3D配准是不适定问题；因此，我们采用双视角荧光透视影像进行配准，以减少面外误差[42]。由于基于点的配准方法可用于解剖结构[27,34,35]，我们通过追踪双荧光透视成像系统中表面模型上的一组选定的点（图2），测量了膝关节的运动情况，并将选定的点表示为Pbone= [p1, p2, p3, ..., pN]。所有选定点的2D投影将被伪孪生多视角配准网络追踪（第3.2节）。从所有提供的视角对选定点进行追踪后，我们利用三角测量[43]，重现这组点的3D位置，即PE=为了确定最终的转换矩阵T，我们进行了普式分析[44]：

通过转换矩阵T，重现了每块骨骼的最终姿态。

3.2. 伪孪生点追踪网络

在本方法中，我们通过一个伪孪生网络从每个视角追踪上文所述选定点。该伪孪生网络包括两个分支：一个是来自牛津大学视觉几何组（VGG）[45]的用以提取数字重建放射影像特征的网络；另一个是特征迁移网络，用于从真实影像中提取人工合成影像特征（第3.3节）。整体的工作流程图如图3所示。本网络的输入是非匹配的数字重建放射影像与真实的荧光透视影像，网络的输出是在荧光透视影像中追踪到的点。在图3中，网络的上部分支将输出尺寸为M × N × C的数字重建放射影像特征图FDRR，其中N和M为数字重建放射影像的长和宽，C为特征通道数；网络的下部分支将通过不共享权重的伪孪生特征迁移网络输出透视影像的特征图Ffluoro。在得到Ffluoro和FDRR两个特征图后，网络将通过一个卷积层来定量两特征的相似度[27]。具体表示为：

式中，W为学习加权因子，用于为每个选定的点找到更优的相似性。在训练过程中，需将目标函数最小化，该目标函数为欧氏距离损失函数（即配准损失函数），具体表示为：

式中，pfluoro为被追踪的2D点；pdrr为数字重建放射影像中位置已知的2D点。根据从不同视角追踪的2D点，利用三角测量[43]，重新构建3D点。

3.3. 使用域适应的特征迁移

为了提取荧光透视影像的特征，我们提出了一种基于迁移学习的方法，用于降低合成图像（如数字重建放射影像）与真实X射线图像（如荧光透视影像）之间的域差异（图4）。

图2. 多视角配准方法工作流程。在骨骼表面上选定一组点，并在虚拟双荧光透视成像系统中从各个视角对其2D投影进行追踪，以重新构建出其3D位置。利用普式分析[44]，由重建3D点确定最终的变换矩阵。

图3. 点追踪网络的框架。将成对的数字重建放射影像和荧光透视影像导入网络，由VGG和特征迁移网络分别提取其特征。通过搜索数字重建放射影像中选定点附近最为相似的特征图块，追踪荧光透视影像上的选定点。Conv：卷积层（convolution layers）。

为了缩小两个域之间的差距，我们采用了领域自适应法，在提取荧光透视影像的特征时，使用了额外具有余弦相似性的成对VGG网络（图5）。我们采用基于模型的手动配准法[9]，还原了成对的荧光透视影像的空间位置，并利用这一空间位置结合体数据生成数字重建放射影像，这些匹配的影像主要用于后续训练。我们将余弦相似性作为代价函数，测量两个域之间的差距。针对追踪问题，余弦相似性可表示为：

式中，||·||代表L2-范数；〈·〉代表点积；FX与FD为特征图。为了提高特征迁移的效率，我们采用在ImageNet上接受预先训练的权重，对本方法进行了优化。

4. 实验与结果

4.1. 数据集

本研究经过了伦理审查委员会的批准。研究中，我们收集了三个受试者的膝盖的断层扫描图像，所有受试者均执行两到三个动作，这些动作通过双平面荧光透视成像系统（BV Pulsera, Philips, the Netherlands）拍摄，拍摄帧率为每秒30帧。我们还获得了所有受试者膝盖的计算机断层扫描（SOMATOM Definition AS; Siemens, Germany）图像，扫描范围为膝关节线近端30 cm和远端30 cm的区域（厚度为0.6 mm；分辨率为512 × 512）。荧光透视影像的大小为1024 × 1024，像素间距为0.28 mm。我们利用双平面荧光透视成像系统的几何成像参数，如多项式扭曲校正参数[46]以及X射线源和探测器平面的位置，构建了一个虚拟双荧光透视成像系统，在该系统中，我们采用手动方式重现了每块骨骼的空间位置[47]。在本研究中，我们使用了143对配准的荧光透视影像（图6），其中91对匹配影像用于训练荧光透视影像的特征迁移网络以及点追踪网络，剩余的影像则作为测试集。此外，本研究还进行了三折交叉检验。为了评估2D—3D配准算法，我们使用了一种3D误差测量方法，即目标配准误差（TRE）[48]。此外，我们计算了用于确定3D误差的平均目标配准误差（mTRE），其定义为选定点之间的平均距离。

图4. 成对合成图像和真实图像的特征迁移网络。根据手动配准后的姿态，生成合成图像（即数字重建放射影像）。

图5. 合成X射线图像特征提取的过程。

式中，Pbone表示选定的点；PE表示估算的点。成功率定义为平均目标配准误差低于10 mm的所有测试案例的占比。

4.2. 跨域特征提取分析中的损失选择

在真实X射线图像的特征提取中，我们将余弦相似性定义为损失函数，为了选择更好的损失函数，我们还将均方差作为损失函数[22]。损失函数的位置也可能会影响特征提取层的效果。因此，我们首先比较了不同卷积层上的损失函数的效果。为了从真实的荧光透视影像中获得跨域特征的最佳效果，我们将已确定的损失函数应用在成对的卷积层2、卷积层3、卷积层4和卷积层5之间。如图7所示，我们根据最终配准效果将余弦相似性称为损失函数。此外，余弦相似性在卷积层5之间的位置表现最优（参见附录A中的表S1）。

4.3. 采用或未采用迁移训练网络分析

为了检测本研究中的基于特征的迁移学习法的效果，我们将这一方法与孪生配准网络（即POINT2network）[27]进行了比较。此外，本研究还比较了微调，以期找到一种更优的方式，以减少荧光透视影像与数字重建放射线影像之间的差异。我们在ImageNet数据库中预先训练了拟定方法的权重。我们将每种方法的10次测试的平均表现用作最终表现，并报告了第10个、第25个、第50个、第75个和第95个百分位上的平均目标配准误差结果，以证明每种方法的鲁棒性。相较于孪生配准网络，拟定的基于特征的迁移学习方法的表现更优异（图8），并且优于配准成功准确率几乎为零的微调法（参见附录A中的表S2）。

图7. 在不同卷积层使用余弦相似性和均方差的成功率。

4.4. 三折交叉验证

在本研究中，我们采用了三折交叉验证，并在采用迁移学习和不采用迁移学习这两种情况下比较了伪孪生配准网络。因此，将三个实验对象中的两个用于系统训练，最后一个则用于系统验证。通过随机转换测试对象，对这一方法进行十次迭代。在每次迭代中评估其表现（平均目标配准误差）。最终，对所有十次迭代记录的表现取平均值，得到最终的平均目标配准误差。我们记录了第10个、第25个、第50个、第75个和第95个百分位上的平均目标配准误差结果（表1）。最终的三折交叉验证证明，我们提出的方法在特征迁移方面表现更优异。

表1 采用迁移学习和不采用迁移学习情况下的三折交叉验证

5. 结论

为了通过数字重建放射影像解决基于学习的2D—3D刚性配准中真实荧光透视影像数量有限的问题，我们提出了一种基于多视角的伪孪生配准框架。我们提出的方法可以降低对真实X射线图像的需求。由于能够将真实特征转化为人工合成特征，我们提出的方法优于微调的伪孪生网络。本次研究还估算了采用迁移学习和不采用迁移学习这两种情况下的POINT2network。结果表明，我们提出的伪孪生网络的成功率和准确率高于孪生点追踪网络。借助少量的训练数据，我们提出的方法可以作为优化型配准法的初始化步骤，以提高配准成功率。尽管如此，目前的工作仍然存在几方面的局限性。首先，由于我们的方法是针对至少两个荧光视角设计的，因此需要利用多视角数据来重建膝关节3D位置；否则，由于物理成像原理的限制，面外平移和旋转误差将较大。其次，相较于基于优化的方法，我们提出的方法无法达到亚毫米级的精度。与其他基于学习的方法类似，我们提出的方法没有较高的准确性，但相较于基于优化的方法，由于其在匹配期间无需采用迭代步骤，因此其速度更快。在临床骨科实践中，精确的关节运动学研究对于确定康复方案[5]、手术规划[1]和功能评估[47]是必不可少的。单独来看，我们提出的方法并不适用于测量人体关节运动。因此，把我们的方法和基于优化的方法结合起来，将会是一个可行的解决方案。

图8.不同配准网络下的平均目标配准误差。

致谢

本项目由国家自然科学基金委员会（31771017、31972924和81873997）、上海市科学技术委员会（16441908700）、上海市教育委员会扶持的创新研究计划（ZXWF082101）、国家重点研发计划（2017YFC0110700、2018YFF0300504和2019YFC0120600）、上海自然科学基金会（18ZR1428600）、上海交通大学跨学科项目（ZH2018QNA06、YG2017MS09）资助。

Compliance with ethics guidelines

Cong Wang, Shuaining Xie, Kang Li, Chongyang Wang, Xudong Liu, Liang Zhao, and Tsung-Yuan Tsai declare that they have no conflict of interest or financial conflicts to disclose.

Appendix A. Supplementary data

Supplementary data to this article can be found online at https://doi.org/10.1016/j.eng.2020.03.016.