APP下载

多模态硬币图像单应性矩阵预测

2022-07-03邓壮林张绍兵

图学学报 2022年3期
关键词:光源硬币模态

邓壮林,张绍兵,3,成 苗,3,何 莲,3

多模态硬币图像单应性矩阵预测

邓壮林1,2,张绍兵1,2,3,成 苗1,2,3,何 莲1,2,3

(1. 中国科学院成都计算机应用研究所,四川 成都 610041;2. 中国科学院大学计算机科学与技术学院,北京 100049;3. 深圳市中钞科信金融科技有限公司,广东 深圳 518206)

对不同成像条件下拍摄的硬币图像进行配准是硬币表面缺陷算法的前置任务。然而,基于互信息的传统多模态配准方法速度慢、精度低,现有的通过基于深度学习的单应性矩阵预测方法实现的图像配准只适用于单模态的任务。为此,提出一种基于深度学习的适用于多模态硬币图像的单应性矩阵预测方法,进而使用预测的单应性矩阵完成图像配准。首先,使用单应性矩阵预测层预测输入图像对间的单应性矩阵,使用单应性矩阵对待配准图像进行透视变换;然后,使用图像转换层将透视变换后的待配准图像和目标图像映射到同一域,图像转换层可在推理时去除从而减少推理时间;最后,计算同一域下的图像间的损失,并进行训练。实验表明,该方法在测试集上的平均距离误差为3.417像素,相较于基于互信息的传统多模态配准方法5.575像素的平均距离误差降低38.71%。且配准单对图像耗时为17.74 ms,远低于基于互信息的传统多模态配准方法的6 368.49 ms。

单应性矩阵;图像配准;硬币;图像转换;多模态

单应性矩阵在图像刚性配准中发挥了重要作用[1]。若有一对从不同角度拍摄的同一平面的图像,使用单应性矩阵对其中一幅图像进行透视变换,可以使其和另一幅图像配准[2]。在拍摄的物体近似平面(不是平面但拍摄位置相对于物体深度足够远)或拍摄2幅图像的镜头仅有旋转运动时,使用单应性矩阵仍然能够配准图像。目前针对单模态图像对间的单应性矩阵预测已经得到了广泛地研究,传统方法和基于深度学习的方法[1-4]均取得了良好的效果。

对不同成像条件下拍摄的硬币图像进行配准是硬币表面缺陷检测算法[5]的前置任务。如图1所示,在穹顶光源下拍摄的硬币图像纹理信息丰富,所以图像中的细微划痕也清晰可见,但是丢失了颜色信息;同轴光源下拍摄的硬币图像有丰富的颜色信息,但是图像中的细微划痕与污渍混合难以分辨。所以需要融合2种图像的特征进行图像增强。然而由于2种硬币图像的成像系统不同,硬币的相对位置会发生偏移,需要首先预测跨模态图像间的单应性矩阵,从而实现多模态硬币图像的配准。为满足工业生产场景中的需求,该配准方法需要精度高、速度快。

图1 不同光源下的硬币图像((a)同轴光源下拍摄的硬币图像;(b)穹顶光源下拍摄的硬币图像)

现有的基于深度学习的单应性矩阵预测方法只适用于单模态图像的配准[1-4],不能解决多模态硬币图像配准。传统的基于互信息的多模态配准方法可以用于多模态硬币图像配准,但是其配准精度不高,且速度过慢,无法满足工业生产场景中的需求。

为解决上述问题,本文提出了一种用于多模态硬币图像的单应性矩阵预测方法,使用预测的单应性矩阵可完成图像配准。该方法基于深度学习,将网络分为单应性矩阵预测层和图像转换层2部分。训练也分为2个阶段,首先训练图像转换层,通过该层可将2个模态的图像映射到同一域,该层仅用于训练阶段,其能简化跨模态的损失函数的设计。然后训练单应性矩阵预测层,这一阶段的训练通过使用之前的图像转换层,实现无监督训练。实验结果证明本文提出的方法配准精度高、速度快。同时,本文提出的网络与训练方法可以应用到其他多模态刚性图像配准任务中,如红外光与自然光图像配准,多模态遥感图像配准等。

1 研究现状

1.1 配准方法的分类

按照图像的形变方式,图像配准可分为刚性配准和非刚性配准。非刚性配准适用于不规则形变的图像间的配准[6],如医学图像配准。刚性图像配准中通常图像间没有不规则的形变,如遥感图像配准。由于硬币图像间没有不规则的形变,所以属于刚性配准。

按照图像对是否由相同的成像系统拍摄,图像配准还可以分为单模态配准和多模态配准。单模态配准是由相同成像系统拍摄的图像间的配准,如文献[2]中配准视频中的相邻帧。多模态配准是不同成像系统拍摄的图像间的配准,如红外图像与自然图像的配准,医学中CT图像与磁共振图像的配准等。配准穹顶光源和同轴光源下拍摄的硬币图像,也属于多模态图像配准。

1.2 基于传统方法的单模态刚性图像配准

基于传统方法的单模态刚性图像配准又可以分为基于区域的方法和基于特征的方法,基于特征的方法通常通过图像特征计算图像间的单应性矩阵[7]。首先,分别提取2幅图像的关键点,需要用到局部不变特征,如SIFT (scale-invariant feature transform),SURF (speeded up robust features)[8],ORB (oriented fast and rotated brief)[9],AKAZE (accelerate-KAZE)[10]等。然后使用特征匹配得到2幅图像的关键点,并使用RANSAC (random sample consistency)和MAGSAC (marginalizing sample consensus)[11]等算法进行离群剔除。最后,使用4对最佳匹配的关键点对通过直接线性变换(direct linear transform)[3]计算出单应性矩阵。

这类方法能够很好地解决单模态图像间的单应性矩阵预测,但是无法解决多模态图像间的单应性矩阵预测。本文方法参考了这类方法中使用单应性矩阵进行透视变换来完成刚性配准。

1.3 基于深度学习的单模态刚性配准

2016年,文献[1]首次提出用于单应性矩阵预测的深度神经网络。该网络的输入是原图像和其进行随机的透视变换后的图像,输出的是2幅输入图像之间的单应性矩阵,并将随机的透视变换所用到的单应性矩阵做为ground truth,进行监督学习。该网络取得了与传统方法相近的效果,证明了深度神经网络用于单应性矩阵预测的可行性。

文献[3]在2018年提出的无监督深度单应性矩阵预测方法,相较于文献[1]的有监督方法,能更准确地预测真实图像对之间的单应性矩阵,这是由于监督方法中生成的训练图像没有深度差异。该方法使用预测的单应性矩阵和空间变换网络(spatial transformer networks,STN)[12]层透视变换待配准图像得到预测图像,并计算预测图像和目标图像间逐像素的光度损失,从而实现无监督训练。

文献[2]在2020年提出内容感知的无监督深度单应性矩阵预测方法,使用内容感知掩模,在低纹理、低光照等有挑战性的预测场景中取得了相较于文献[1,3]更好的效果。

文献[4]提出了动态场景的深度单应性矩阵预测方法,使用多尺度神经网络同时进行动态内容检测和单应性矩阵预测,在具有动态场景、模糊伪影和低纹理的测试集中取得了比文献[1,3]更好的效果。

尽管基于深度学习的单应性矩阵预测已经取得了良好的效果,但这类方法目前仅在单模态图像间有效。本文方法参考了该方法中使用深度神经网络预测图像间的单应性矩阵。

1.4 基于传统方法的多模态刚性图像配准

互信息(mutual information)使用2幅图像的熵和其联合熵来定义2幅图像之间的关系,即

其中,(img)和(img)分别为2幅图像各自的熵;(img,img)为2幅图像的联合熵。在基于互信息的多模态图像配准时,若一对图像处于某个相对位置时其之间的互信息最大,则认为这对图像在该相对位置上为配准状态。基于互信息及其改进的多模态图像配准已经广泛应用于医学图像配准[13-14]、遥感图像配准[15]等方向。

该传统方法解决了多模态图像的刚性配准问题,与本文所要解决的问题相同。在3.4节中实现了该传统方法,发现其存在配准精度低、速度慢的问题。由于尚未具有代表性的基于深度学习的多模态刚性配准方法,将该传统方法和本文基于深度学习的方法做对比。

1.5 基于深度学习的多模态非刚性图像配准

基于深度学习的多模态图像配准在医学图像、自动驾驶等领域已经有了深入地研究。文献[16]通过生成数据克服收集ground truth的困难,实现了需要监督训练的跨模态图像配准方法。但是其效果受真实数据和生成数据间的差异影响。

为了改进前述方法,实现无监督的跨模态图像配准解决方案,文献[17-19]使用跨模态的相似性度量做为损失函数进行训练。这些跨模态的相似度度量使用互信息、归一化互相关或由作者自己设计。然而,这些相似度量往往只适用于特定的模态间,并且设计很困难[20]。

为了简化跨模态相似度量的设计,文献[20-22]利用了图像转换网络[23-24],将多模态的图像配准问题简化为单模态的配准问题。具体方法为对多模态的图像对在图像转换层进行转换,将多模态的图像映射到公共域。使用公共域下的图像对预测变形场,并经过变形场扭曲后的待配准图像和目标图像计算逐像素的光度损失。

相比于1.3节中的方法,这类基于深度学习的配准方法解决了多模态图像间的配准问题,并且是非刚性配准。本文方法参考了图像转换网络的思想,设计了更简单、高速的图像转换层。与上述预测变形场进行非刚性配准的方法不同,本文方法预测单应性矩阵进行刚性配准,并且仅将图像转换层用于损失的计算,在推理阶段省略图像转换层加速推理。

2 算 法

2.1 网络结构

2.1.1 网络整体结构与设计思路

如图2所示,该网络包含单应性矩阵预测层和图像转换层2个部分。网络的输入为待配准图像和目标图像,待配准图像是同轴光源图像,目标图像是穹顶光源图像。由于硬币图像配准是刚性配准,即使用单应性矩阵完成刚性配准,网络的前半部分设计为单应性矩阵预测层。使用单应性矩阵预测层输出的单应性矩阵对待配准图像进行透视变换,得到与目标图像配准的预测图像。由于预测图像为同轴光源图像,目标图像为穹顶光源图像,需要将不同光源下拍摄的多模态图像映射到同一域,以计算预测图像和目标图像间的逐像素光度损失,所以设计了图像转换层。其仅用于单应性预测层训练阶段的计算损失,推理阶段可省略以加速推理。

单应性矩阵预测层和图像转换层需要分别训练。首先训练图像转换层,完成后冻结图像转换层的参数,再进行单应性矩阵预测层的训练,其训练是无监督的。

图2 网络结构

2.1.2 单应性矩阵预测层

2.1.3 图像转换层

图像转换层有2个相互独立的转换层,分别用于2种不同模态图像的转换。每个转换层采用包含3个卷积层的全卷积网络,其输入大小为××1的原图像,输出大小为××1的特征映射。具体每一个卷积层的结构如图2所示。图像转换层通过训练获得将不同模态图像映射到同一域的能力,具体损失函数和训练过程在2.2.1节中介绍。

2.2 损失函数与训练过程

2.2.1 图像转换损失

训练整个网络需要先训练图像转换层,在图像转换层训练时需用到已经配准的多模态图像对。因为此时单应性矩阵预测层还没有训练生效,所以需要手工配准少量的图像。损失函数为

其中,和是已经配准的2幅不同模态的图像,和分别为和经过各自的图像转换层的输出。如果2个模态的图像成功映射到一个公共域,由于是已经配准的,则其之间的L1距离应该很小。

2.2.2 单应性矩阵预测损失

3 实验与分析

3.1 数据集与评价指标

实验数据集采集自某造币厂提供的109枚硬币,分别使用同轴光源和穹顶光源对硬币进行成像,图像的分辨率为672×672。由于采集数据时,不同光源的成像系统的镜头相对于硬币的位置是变化的,所以采集的原始图像对未配准。采集到的图像如图4所示。数据集包含3部分:①3 600对图像的单应性矩阵预测层训练集;②361对图像的图像转换层训练集;③900对图像的测试集。

图4 采集的原始图像以及差异示意图((a)同轴光源图像;(b)穹顶光源图像;(c)处理后的叠加图像)

单应性矩阵预测层训练集的3 600对图像由60个硬币的同轴光源图像和穹顶光源图像组合得到。由于单应性矩阵预测层采用无监督的训练,这部分图像不需要手工标注配准。

图像转换层训练集的361对图像由19个硬币的同轴光源图像和穹顶光源图像组合得到。图像转换层训练集的不同光源图像间需要手工标注配准,即手工记录每一幅图像上特定的4个点的坐标。任意选取一对硬币图像,根据2幅图像上的4对对应点,使用直接线性变换(direct linear transform)计算出单应性矩阵,实现一对图像的配准。

测试集的900对图像由30个硬币的同轴光源图像和穹顶光源图像组合得到。测试集的不同光源图像需要手工标注配准,用于算法效果量化。该量化方法与文献[1-3]中的方法类似,手工记录每一幅图像上特定的4个点的坐标,如图5所示。将一对测试集硬币图像输入深度网络后得到网络预测的单应性矩阵,使用该矩阵对同轴光源图像上记录的4个坐标进行坐标映射,得到4个预测点的坐标。求4个预测点的坐标与穹顶光源图像上4个标注点的坐标的平均距离误差,该距离越小,则配准效果越好,当距离为0时,透视变换得到同轴光源图像与穹顶光源图像完全配准。距离误差为

其中,和为预测点的坐标;和为标注点的坐标。

3.2 实验细节

3.2.1 实验环境

实验使用NVIDIA GEFORCE RTX 2080显卡,Ubuntu 16.0.4.1操作系统,pytorch 1.5.1深度学习框架。实验中训练与测试均在NVIDIA GEFORCE RTX 2080显卡上完成。基于深度学习的方法和传统的基于互信息的多模态配准方法均在同一台计算机上进行,环境完全一致。

3.2.2 数据增强与训练超参数

单应性矩阵预测层训练阶段,将输入不同模态的2幅图像分别随机顺时针或逆时针旋转0°~2°,随机向左或向右平移0~17个像素,随机向上或向下平移0~17个像素。图像转换层训练阶段同样将输入的2种不同模态的图像进行随机的旋转和平移,其旋转角度和平移量完全相同,保证图像对在变换后也处于配准的状态。

图像转换层训练的初始学习率为0.001,batchsize为16,学习率每570步下降10%。单应性矩阵预测层训练的初始学习率为0.001,batchsize为16,学习率每2 800步下降10%。

3.3 图像转换层位置

图像转换层除了放置在单应性矩阵预测层后方(图2网络结构),还可以放置于单应性矩阵预测层前方。图像转换层如果放置在单应性矩阵预测层前方,2种不同模态的图像将会在输入单应性矩阵预测层之前被映射到同一域,从而使得该任务转换为单模态图像间的单应性矩阵预测,和文献[1-4]中的任务类似。该过程为

下一节将介绍采用此种方案的实验效果。在效果相似时优先采用图2中的网络结构,因为在该网络结构中,图像转换层仅在训练过程中被需要,在推理过程中只需要得到单应性矩阵,可省略图像转换层,以缩短推理时间。

3.4 传统的基于互信息的多模态配准方法结果

传统的基于互信息的多模态配准方法为:对待配准图像进行平移和旋转,每一次平移或旋转后,通过式(1)计算其与目标图像间的互信息值。反复迭代,找到待配准图像与目标图像互信息最大的平移和旋转值,作为结果。

为了加速该算法,先进行粗配准,每次平移10像素,旋转5°,粗配准后再在其结果上每次平移1像素,旋转1°进行细配准,以细配准结果做为最终结果。因为本文提出的基于深度学习的多模态单应性矩阵预测方法使用了GPU加速运算,为了对比公平,该传统方法同样通过CuPy 9.5.0[25]使用GPU加速运算。

尽管已经提升了该算法的速度,传统的基于互信息的多模态配准方法仍耗时巨大,在本文的实验环境中单对图像配准平均耗时6 368.49 ms,在实际应用中无法满足时间要求。而本文方法处理时间仅为17.74 ms。在配准效果方面,传统的基于互信息的多模态配准方法的平均距离误差为5.575像素高于本文方法的3.417像素,部分配准效果对比如图6所示。

3.5 实验结果以及分析

根据单应性矩阵预测层的输入是灰度图或彩色图、单应性矩阵预测层采用resnet18或resnet34、图像转换层放置在单应性矩阵预测层前或后、损失函数采用L1或L2这4个条件,得到16种实验方案,见表1。测试记录每种实验方案在测试集上的平均距离误差和平均推理耗时,综合考虑配准精度和时间,采用实验方案3为最终方案,该方案单应性矩阵预测层的输入是灰度图,单应性矩阵预测层采用resnet18,图像转换层放置在单应性矩阵预测层后,损失函数采用L1。

图6 配准结果((a)配准前平均距离误差18.955像素;(b)基于互信息的配准方法平均距离误差5.575像素;(c)本文方法平均距离误差3.417像素)

表1 实验结果

采用L1作为损失函数的方案1,3,5,7,9,11,13,15分别与采用L2作为损失函数的方案2,4,6,8,10,12,14,16相对应。见表1,除损失函数外,对应的方案单应性矩阵预测层输入、单应性矩阵预测层结构和图像转换层位置均相同。损失函数采用L1的8种实验方案比其对应的损失函数采用L2的实验方案平均距离误差小0.180~0.358像素,且由于推理时不计算损失,所以损失函数的选择对推理耗时不产生任何影响。实验证明了此任务中L1损失函数在不影响推理耗时的情况下取得了更小的平均距离误差,保留采用L1作为损失函数的8种方案。

在保留的方案中,图像转换层放置在单应性矩阵预测层前的方案1,5,9,13与图像转换层放置在单应性矩阵预测层后的方案3,7,11,15相对应。表1中,除图像转换层放置不同,对应方案中的其他条件的选择均相同。图像转换层放置在前的方案1和9比其相对应的放置在后的方案3和11平均距离误差分别小0.010像素和0.020像素,图像转换层放置在前的方案5和13比其相对应的放置在后的方案7和15平均距离误差分别大0.030像素和0.084像素。方案1,5,9和13的平均推理耗时分别比方案3,7,11和15多3.90 ms,2.44 ms,3.73 ms和2.55 ms,符合3.3节中的描述。从实验结果可以看出,图像转换层放置在单应性矩阵预测层前、后对平均距离误差的影响不大,所以保留平均推理耗时更少的图像转换层放置在单应性矩阵预测层后的方案3,7,11和15。

在方案3,7,11和15中,单应性矩阵预测层结构采用resnet34的方案7和15比采用resnet18的方案3和11平均距离误差分别小0.130 (3.80%)像素和0.027 (0.82%)像素,但是推理耗时多5.37 (30.27%) ms和5.19 (28.64%) ms。由于在实际应用中,目前的平均距离误差均已满足需求且差距极小,单应性矩阵预测层结构采用速度更快的resnet18,保留方案3和11。

方案3单应性矩阵预测层的输入是灰度图,方案11输入是彩色图。表1中,方案3和方案11的其他条件均相同。方案3的平均距离误差比方案11大0.110像素,平均推理耗时小0.38 ms。在单应性预测层主干网络相同时,输入图为彩色的方案参数量更多,所以平均推理耗时增加。由于平均距离误差均已满足需求且差距极小,所以选择速度更快的方案3。

4 结束语

为了预测多模态硬币图像间的单应性矩阵,本文设计了图像转换层改进现有的单模态单应性矩阵预测深度神经网络,从而完成跨模态的单应性矩阵预测任务;通过进行对比实验,确定单应性矩阵预测层的输入是灰度图、单应性矩阵预测层的主干网络采用resnet18、图像转换层放置在单应性矩阵预测层后、损失函数为L1的方案为最终方案。本文方法配准精度高、推理速度快,在测试集上的平均距离误差为3.417像素,相较于传统的基于互信息的跨模态图像配准方法的5.575像素减小38.71%,平均推理耗17.74 ms时,相较于传统的基于互信息的跨模态图像配准方法的6 368.49 ms显著缩短。

本文方法局限性包括:相机畸变、拍摄视角变化带来的非平面物体成像内容变化等问题,其会破坏待配准图像与目标图像间的透视变换关系,导致所有基于单应性矩阵预测的配准方法包括本文方法误差加大甚至无法配准,在具体应用中应当评估该方法是否适用。由于网络训练是分阶段进行的,需要先完成图像转换层的训练后,再进行单应性矩阵预测层的训练,该过程较为繁琐,后续可进一步优化网络结构和损失函数,实现端到端的训练。

[1] DETONE D, MALISIEWICZ T, RABINOVICH A. Deep image homography estimation[EB/OL]. (2016-06-13) [2020-12-17]. https://arxiv.org/pdf/1606.03798.pdf.

[2] ZHANG J R, WANG C, LIU S C, et al. Content-aware unsupervised deep homography estimation[C]//Computer Vision – ECCV 2020. Cham: Springer International Publishing, 2020: 653-669.

[3] NGUYEN T, CHEN S W, SHIVAKUMAR S S, et al. Unsupervised deep homography: a fast and robust homography estimation model[J]. IEEE Robotics and Automation Letters, 2018, 3(3): 2346-2353.

[4] LE H, LIU F, ZHANG S, et al. Deep homography estimation for dynamic scenes[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 7649-7658.

[5] 王品学, 张绍兵, 成苗, 等. 基于可变形卷积和自适应空间特征融合的硬币表面缺陷检测算法[EB/OL]. (2021-04-14) [2021-09-08]. https://kns-cnki-net.webvpn.las.ac.cn/kcms/ detail/51.1307.tp.20210413.1607.002.html.

WANG P X, ZHANG S B, CHEN M, et al. Coin surface defect detection algorithm based on deformable convolution and adaptive spatial feature fusion[EB/OL]. (2021-04-14) [2021-09-08]. https://kns-cnki-net.webvpn.las.ac.cn/kcms/detail/51.1307.tp.20210413.1607.002.html(in Chinese).

[6] 刘爽. 基于多约束深度网络的MRI非刚性配准研究[D]. 大连: 大连理工大学, 2021.

LIU S. The research of MRI non-rigid registration based on multi-constrained deep network[D]. Dalian: Dalian University of Technology, 2021 (in Chinese).

[7] MA J Y, JIANG X Y, FAN A X, et al. Image matching from handcrafted to deep features: a survey[J]. International Journal of Computer Vision, 2021, 129(1): 23-79.

[8] BAY H, ESS A, TUYTELAARS T, et al. Speeded-up robust features (SURF)[J]. Computer Vision and Image Understanding, 2008, 110(3): 346-359.

[9] RUBLEE E, RABAUD V, KONOLIGE K, et al. ORB: an efficient alternative to SIFT or SURF[C]//2011 International Conference on Computer Vision. New York: IEEE Press, 2011: 2564-2571.

[10] ALCANTARILLA P, NUEVO J, BARTOLI A. Fast explicit diffusion for accelerated features in nonlinear scale spaces[J]. IEEE Trans. Patt. Anal. Mach. Intell, 2011, 34(7): 1281-1298.

[11] BARATH D, MATAS J, NOSKOVA J. MAGSAC: marginalizing sample consensus[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 10189-10197.

[12] JADERBERG M, SIMONYAN K, ZISSERMAN A, et al. Spatial transformer networks[C]//The 28th International Conference on Neural Information Processing Systems. New York: ACM Press, 2015: 2017-2025.

[13] 曹国刚, 朱信玉, 陈颖, 等. 基于改进头脑风暴优化算法的医学图像配准方法[J]. 数据采集与处理, 2020, 35(4): 730-738.

CAO G G, ZHU X Y, CHEN Y, et al. Medical image registration based on improved brain storm optimization algorithm[J]. Journal of Data Acquisition and Processing, 2020, 35(4): 730-738 (in Chinese).

[14] 岳根霞. 基于遗传算法的多模态病变图像关联挖掘仿真[J]. 计算机仿真, 2021, 38(2): 225-229.

YUE G X. Image association and mining simulation of multi-modality lesion based on genetic algorithm[J]. Computer Simulation, 2021, 38(2): 225-229 (in Chinese).

[15] 李培, 姜刚, 马千里, 等. 结合张量与互信息的混合模型多模态图像配准方法[J]. 测绘学报, 2021, 50(7): 916-929.

LI P, JIANG G, MA Q L, et al. A hybrid model combining tensor and mutual information for multi-modal image registration[J]. Acta Geodaetica et Cartographica Sinica, 2021, 50(7): 916-929 (in Chinese).

[16] SCHNEIDER N, PIEWAK F, STILLER C, et al. RegNet: Multimodal sensor registration using deep neural networks[C]// 2017 IEEE Intelligent Vehicles Symposium. New York: IEEE Press, 2017: 1803-1810.

[17] MAHAPATRA D, ANTONY B, SEDAI S M, et al. Deformable medical image registration using generative adversarial networks[C]//2018 IEEE 15th International Symposium on Biomedical Imaging. New York: IEEE Press, 2018: 1449-1453.

[18] BALAKRISHNAN G, ZHAO A, SABUNCU M R, et al. An unsupervised learning model for deformable medical image registration[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 9252-9260.

[19] BALAKRISHNAN G, ZHAO A, SABUNCU M R, et al. VoxelMorph: a learning framework for deformable medical image registration[J]. IEEE Transactions on Medical Imaging, 2019, 38(8): 1788-1800.

[20] ARAR M, GINGER Y, DANON D, et al. Unsupervised multi-modal image registration via geometry preserving image-to-image translation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 13407-13416.

[21] QIN C, SHI B B, LIAO R, et al. Unsupervised deformable registration for multi-modal images via disentangled representations[C]//The 2019 International Conference on Information Processing in Medical Imaging. Cham: Springer International Publishing, 2019: 249-261.

[22] HUANG X, LIU M Y, BELONGIE S, et al. Multimodal unsupervised image-to-image translation[M]//Computer Vision – ECCV 2018. Cham: Springer International Publishing, 2018: 179-196.

[23] LEE H Y, TSENG H Y, HUANG J B, et al. Diverse image-to-image translation via disentangled representations[M]// Computer Vision – ECCV 2018. Cham: Springer International Publishing, 2018: 36-52.

[24] ISOLA P, ZHU J Y, ZHOU T H, et al. Image-to-image translation with conditional adversarial networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 5967-5976.

[25] OKUTA R, UNNO Y, NISHINO D, et al. Cupy: a numpy-compatible library for nvidia gpu calculations[EB/OL]. [2021-07-19]. https://xs.dailyheadlines.cc/scholar?q=Cupy%3A +a+numpy-compatible+library+for+nvidia+gpu+calculations.

Homography estimation for multimodal coin images

DENG Zhuang-lin1,2, ZHANG Shao-bing1,2,3, CHENG Miao1,2,3, HE Lian1,2,3

(1. Chengdu Institute of Computer Applications, Chinese Academy of Sciences, Chengdu Sichuan 610041, China; 2. School of Computer Science and Technology, University of Chinese Academy of Sciences, Beijing 100049, China; 3. Shenzhen CBPM-KEXIN Banking Technology Company Limited, Shenzhen Guangdong 518206, China)

Registration of coin images under different illuminant is the predecessor of coin surface defect detection. However, the traditional multimodal registration method based on mutual information is slow and low accuracy, and the existing image registration methods realized by homography estimation based on deep learning only work in single-mode tasks. A homography estimation method based on deep learning for multimodal coin images is proposed in this paper, and image registration can be realized with the estimated homography. First, the homography estimation layer is used to estimate the homography between the pair of input images, and the homography is used for perspective transformation of the image to be registered; Then, the image translation layer is used to translate the pair of images to the same domain, and this layer can be removed in inference so as to reduce the inference time; Finally, train the network with the loss calculated using the pair of images in the same domain. Experiments show that the average distance error of the proposed method on the test set is 3.417 pixels, which is 38.71% lower than the traditional multimodal registration method based on mutual information. The inference time of the proposed method is 17.74 ms, which is much less than 6368.49 ms of the traditional multimodal registration method based on mutual information.

homography; image registration; coin; image to image translation; multimodality

TP 391

10.11996/JG.j.2095-302X.2022030361

A

2095-302X(2022)03-0361-09

2021-09-24;

2022-02-11

24 September,2021;

11 February,2022

邓壮林(1996–),男,硕士研究生。主要研究方向为人工智能与机器视觉。E-mail:917687496@qq.com

DENG Zhuang-lin (1996-), master student. His main research interests cover artificial intelligence and machine vision. E-mail:917687496@qq.com

张绍兵(1979–),男,正研级高级工程师,硕士。主要研究方向为高速图像处理、缺陷检测、深度学习。E-mail:zhangshaobing@cbpm-kexin.com

ZHANG Shao-bing (1979-), senior engineer, master. His main research interests cover high-speed image processing, defect detection and deep learning. E-mail:zhangshaobing@cbpm-kexin.com

猜你喜欢

光源硬币模态
基于BERT-VGG16的多模态情感分析模型
多模态超声监测DBD移植肾的临床应用
跨模态通信理论及关键技术初探
光源改变光环境
享受LED光源的卓越色彩 Acer(宏碁)PD1530i
让硬币飞
巧移硬币
鲜艳迷人的HLD光源4K HDR新贵 BenQ(明基)X12000H
LED照明光源的温升与散热分析
硬币