APP下载

基于分段组合特征降维的交叉视角目标定位研究

2023-09-24赵化启

现代计算机 2023年13期
关键词:降维子集分段

刘 琳,赵化启

(佳木斯大学信息电子技术学院,佳木斯 154007)

0 引言

交叉视角目标定位是根据参考图像找到无人机图像中目标位置的过程。交叉视角目标定位技术具有广阔的应用前景,能够实现无人机定位、导航以及事件检测等任务[1-3]。早期的图像地理定位任务是通过查询图像与带地理标签的街景图像匹配来完成的[4-5],然而由于带地理标记的图像大部分集中在城市地标中,从而限制了该方法的应用。Lin 等[6]最早提出了交叉视角图像匹配,并制作了包含地面图像、航空图像以及地面属性图像的数据集,图像定位成功率为17%。而后学者们也提出了基于地面图像与航空图像的地理定位数据集[7-8]。目前基于深度学习的方法已经广泛应用于交叉视角目标匹配任务,比如Liu 等[8]提出了OriCNN,提高了所学特征的分辨性; Hu 等[9]提出了CVM-Net,使用完全卷积层提取局部图像特征并结合Net-VLAD[10]将其编码为图像全局描述符。考虑到地面图像与航空图像存在差异,Zheng 等[11]提出了University-1652 数据集,该数据集包括了三个视角的数据,包含了无人机图像、卫星图像以及地面图像,能够更好地学习视角不变特征,弥补了不同数据间外观的差异。Wang 等[12]提出了LPN(local pattern network)网络,充分利用了图像相邻区域的上下文信息,提高了交叉视角目标定位的精度。薛朝辉等[13]提出了一种融合NetVLAD 和三元神经网络的交叉视角图像定位方法,取得了较高的定位精度。

虽然基于深度学习的方法在交叉视角目标定位上取得了较好的效果,但是存在学习所得特征维度过高、区分性不足的缺点,这会影响交叉视角目标定位的速度和精度。因此,针对上述问题,本文先通过Resnet-50 网络选取实例损失[14]作为损失函数,选取University-1652数据集的无人机图像及卫星图像进行训练得到特征提取模型。另外,图像经过特征提取后,提出了一种分段组合降维方案对图像全局特征进行降维,保留了特征的主要信息并降低了特征维度,最终提高了交叉视角目标的检测精度和速度。

1 基于迭代降维的交叉视角图像定位

1.1 整体框架

本文所提方法整体框架如图1所示,包括了训练以及检测两个步骤。其中训练网络为Resnet-50 网络,训练数据为无人机图像和卫星图像,并选取实例损失作为损失函数进行训练得到特征提取模型。在检测阶段,将目标图像(无人机图像)和卫星图像数据库输入到特征提取模型,得到512维的全局图像特征,基于主成分分析(PCA)方法提出了一种迭代特征降维方案对特征进行降维,最后将两者特征进行相似性比对得到目标图像的匹配图像。

1.2 特征提取网络

本文选取ResNet-50[15]作为网络的主干,其中ResNet 是一种残差神经网络,主要思想是在传统的卷积神经网络中加入残差学习,这样可以避免在网络模型层数加深后出现学习退化问题。残差网络结构的应用,在避免上述问题出现的同时使得网络系统性能得到一定提升。由此可见,ResNet-50 是一种简单易用、性能优化、内部结构提供更小卷积内核的残差学习网络架构。本文所用到的ResNet-50 的网络结构组成是通过49 个卷积层和1 个全连接层组成的。其中,从输入到输出分别由5 个阶段组成,第1阶段是对输入的预处理操作,后4个阶段是由结构相似的Bottleneck 组成。第2 阶段的Bottleneck数量是3 个;第3 阶段的Bottleneck 数量是4 个;第4 阶段的Bottleneck 数量是6 个;第5 阶段的Bottleneck数量是3个。

1.3 损失函数

了解语义关系,本文需要一个目标来消除不同视角间的差距。因为所提供的数据集为每个目标地点提供了多个图像,所以可以将每个地点视为一个类来训练分类模型。鉴于图像语言双向检索的最新发展,采用一种称为实例损失的分类损失进行训练。其主要思想是共享分类器可以将获取到的不同图像映射到同一个共享特征空间。我们将xs、xd和xg表示为位置c的三个图像,其中xs、xd和xg分别是卫星视图图像、无人机视图图像和地面视图图像。给定来自两个视图的图像对{xs,xd},基本实例损失可以表述为

其中,Wshare是最后一个分类层的权重。p(c)是对c类的预测可能性。与传统的分类损失不同,共享权重对高级特征提供了软约束。其中,可以把W看作一个线性分类器。优化后,不同的特征空间与分类空间对齐。在本文所研究内容中,通过进一步扩展基本实例丢失处理不同来源的数据。例如,如果提供了一个以上的视图,则只需要包括一个以上的条件项:

1.4 基于分段组合的降维方案

分段组合降维是基于PCA(principal component analysis)完成的,包括了特征分段与特征组合两部分。首先,通过对特征进行划分,可以得到若干特征子集,对若干特征子集分别进行PCA 降维,最后将降维后的特征子集汇集到一起得到分段降维结果。然后,是特征组合,在特征分段部分设置不同的划分维度,可以得到不同维度的特征子集,将这若干个不同维度的特征子集汇集到一起进行二次降维,得到最终降维结果。PCA降维过程如下:

设查询图像经过特征提取模型所得的特征维度为M维,数据可以表示为X=(X1,X2,…,XM),其中Xk是一个N*1维的列向量,则X是一个N*M的矩阵,降维后的低维度输出是f(f<<M)。其主要步骤为如下几个部分:

(1)去除平均值。

式中,i= 1,2,…,N;k= 1,2,…,M。

(2)计算原始数据集高维数据均值的标准矩阵。

(3)计算协方差矩阵。

(4)计算协方差矩阵的特征值λ1,λ2,…,λM,其中前一个λ取值是远大于后一个的取值,以及其对应的特征向量a1,a2,…,aM,并且将求得的特征值进行排序,依次是从大到小进行排序,相对应的特征向量也会随着特征值的大小顺序进行依次排列;通过特征值的具体数值可以计算主成分所包含的贡献率ηi和累计贡献率ω。

(5)取最大的f个特征值(f<<M),将其对应的特征向量a1,a2,…,af组成一个转换矩阵B=[a1,a2,…,af],利用以下公式计算得到原始目标检测视图数据X降至f维的数据Y。

通过以上变换之后,原始特征中的绝大部分信息都可以排在前面的数个主成分分量中,其他比较靠后分量所包含的信息基本就是噪声,所以PCA算法在一定程度上也起到了降噪的作用。

2 实验分析

2.1 实验数据集

本文选用University-1652 数据集进行实验,University-1652 数据集包含了72 所大学的1652座大学建筑作为目标,包含了无人机图像、地面图像以及卫星图像。其中,作者使用谷歌地球提供的3D 模型来模拟无人机相机,通过改变视角来收集模拟图像作为无人机图像,通过Google 地图来收集目标建筑的街景图像作为地面图像。最后,每个目标建筑平均有1张卫星图像、54张无人机图像及3.38张真实街景图像。选取其中1402 座具有完整数据的目标建筑进行实验,将1402组图像划分为不重复的训练集和测试集,剩余250组图像作为噪声干扰辅助训练。

2.2 评价准则

Recall@K 是对首个匹配图位置敏感的评估协议,并可以使用到图库里只有一个真实匹配图的测试集的情况。但是,在University-1652数据集中,图库有许多视点不一致的实际匹配图像,使得Recall@K 无法准确表示出其他地面图像的匹配程度。所以,在Recall@K 的基础上,也采用平均精度(AP)。平均精度(AP)实际上真正表示的是精度召回(PR)曲线下面的面积之和,能得到图库中所有地面的实际图像。针对Recall@K,主要计算AP并给出所有查询的平均AP的数值。在对University-1652数据集进行PCA降维后,其主要的评价仍然考虑上述给出的几个重点标准,体现出对原始数据创新降维后各个评价的数值变化。

其中,AP(average precision)为平均精准率,具体是(某一个类别)每个样本的精确率求和/样本总数N。

Recall@K 为预测正确的相关结果占所有相关结果的比例:

2.3 实验结果

实验选取101张卫星图像作为目标图像,与卫星图像对应的无人机图像作为待匹配图像,通过训练的特征模型得到整体特征分别用query_f 和gallery_f 来表示。其中目标图像的特征维度是101*512,待匹配图像的特征维度是5022*512。设置分段降维实验以及分段组合降维实验来验证本文所提方法的有效性。

2.3.1 分段降维实验

通过对特征进行划分,可以得到若干特征子集,对若干特征子集分别进行PCA 降维,最后将降维后的特征子集汇集到一起得到最终的特征降维结果。如图2所示,实验分别选取划分后特征子集维度为3、4、5、10、15、20、25、30、35、40、45、50 维进行对比,评价指标为AP 和Recall。以特征子集维度为3 维为例,是将原特征中相邻的3 个维度降成1 维,并以类推,直至完成整体特征降维。未进行降维时,AP 为47.5%、Recall@1 为40.66%、Recall@5 为71.51%、Recall@10 为83.71%、Recall@top1 为52.55%。使用经过降维后的特征进行评价时,指标均优于未降维的特征。其中,将特征划分子集维度为20 维时,效果能达到最好,其AP 为49.48%、Recall@1为42.81%、Recall@5为72.94%、Recall@10 为84.35%、Recall@top1 为54.62%。图3、图4 分别为不同分段数降维后的Recall@1和AP 评价结果,可以直观看出将特征划分子集维度为20维时,效果能达到最好。

图2 不同分段数降维后的整体评价结果

图3 不同分段数降维后的Recall@1评价结果

图4 不同分段数降维后的AP评价结果

2.3.2 分段组合降维实验

在上面分段降维实验的基础上,再进一步对不同维度的特征子集进行整合降维。具体为,首先按照2.3.1 节描述,将整体特征划分为子集维度为3、4、5的子集,分别对这三个维度的特征子集进行降维,随后三个降维后的特征子集汇合到一起进行二次降维。本节实验选取了子集为3、4、5,20、25、30,25、30、35 和30、35、40 维度的特征子集进行实验,整体结果如图5 所示,二次降维结果仍然比未降维特征要好,其中子集维度为3、4、5进行二次降维的实验结果最优。图6为不同维度整合二次降维后的Recall@1 评价指标,从中可以看出经过二次降维后Recall@1 的数值均高于分段降维的实验结果,其中子集维度为3、4、5 的Recall@1 值最高为44.92%。图7 不同维度整合二次降维后的AP评价指标,从中可以看出经过二次降维后AP的数值均高于分段降维的实验结果,其中子集维度为3、4、5 的AP 值最高为51.42%,达到了最高精度。

图5 不同维度整合二次降维后的整体评价结果

图6 不同维度整合二次降维后的Recall@1评价指标

图7 不同维度整合二次降维后的AP评价指标

3 结语

针对交叉视角目标定位任务,本文首先通过Resnet-50 网络,并选取实例损失作为损失函数,选取University-1652数据集的无人机图像及卫星图像进行训练得到特征提取模型。然后,图像经过特征提取后,本文提出了一种分段组合降维方案对图像全局特征进行降维,保留了特征的主要信息并降低了特征维度。实验表明分段降维后的AP 和Recall@1 对比原始特征进行匹配分别提升了1.04 倍和1.05 倍。在分段组合降维对比原始特征匹配的AP 和Recall@1 分别提升了1.08 倍和1.1 倍。实验结果表明,通过分段组合降维方案能够有效提高交叉视角目标定位精度。

猜你喜欢

降维子集分段
混动成为降维打击的实力 东风风神皓极
拓扑空间中紧致子集的性质研究
一类连续和不连续分段线性系统的周期解研究
连通子集性质的推广与等价刻画
关于奇数阶二元子集的分离序列
降维打击
分段计算时间
3米2分段大力士“大”在哪儿?
每一次爱情都只是爱情的子集
抛物化Navier-Stokes方程的降维仿真模型