APP下载

基于无监督深度学习的跨模态数据目标检索

2021-11-17冲,刘

计算机仿真 2021年3期
关键词:权值编码器模态

纪 冲,刘 岩

(内蒙古农业大学计算机与信息工程学院,内蒙古 呼和浩特 010018)

1 引言

移动设备、社交网络以及自媒体平台的蓬勃发展,图像、文本、音频以及视频等多媒体数据出现了指数级的上涨趋势,但这些具有差异性的数据往往可能是在对同一事件或者主题进行描述,所以,用户迫切希望在海量多媒体数据中,通过其中一种模态检索到其它相关联的模态数据,此类检索也叫作跨模态检索。当前的检索技术分为单模态与多模态检索,前者的检索目标必须为相同模态种类,而后者则通过融合不同模态,依据模态的互补信息,达成检索目的,该检索阶段中必须确保查询集和检索集两者之一具有相同模态,该方法虽然可以处理多种模态数据,但是无法完成不同模态间的跨模态检索。近年来,跨模态检索技术得到了众多相关学者的广泛关注,并成为学术领域的研究热点。

文献[1]提出的异构哈希网络下跨模态人脸检索方法,利用图像与视频分支,在一个公共空间中进行人脸图像与人脸视频映射以及非线性哈希函数学习,应用Fisher、softmax以及三元排序等损失函数对哈希网络进行训练,通过设定Fisher为公共空间判别力,softmax指代空间表达的可分性,将三元排序用于检索性能提升,完成人脸视频数据集合的跨模态人脸检索;文献[2]为了获取更加真实精准的物体材质分析结果,构建了一种表面材质的跨模态检索方法,经过梅尔频率倒谱系数特征提取,利用卷积神经网络取得图像特征,通过典型相关分析达成特征与子空间的映射操作后,根据欧氏距离得到检索结果;而文献[3]则针对跨模态检索算法中不同模态数据间的潜在语义关联,设计出一种融合多层语义的跨模态检索模型,基于深度玻尔兹曼机的双向框架属性,建立文本模态各抽象层次与图像模态各抽象层次关系,依据挖掘到的模态抽象层内在关联,达成数据集检索。

由于上述方法均没有将模态内数据结构与模态间结构匹配关联考虑在内,为此,提出一种基于无监督深度学习的跨模态数据目标检索方法。

2 无监督深度学习网络构建

无监督深度学习网络主要由栈式自编码[4]神经网络与深度信任网络两部分共同架构而成,基于自编码器与受限玻尔兹曼机[5]的基本单元,通过栈式框架完成深层神经网络的创建。

2.1 栈式自编码神经网络模块

由各层自编码器组成的栈式自编码神经网络中,自编码器具备稀疏性与降噪性两种属性,通过将下一层自编码器的输出作为上一层自编码器的输入,实现所需层数的迭代操作。

假设第k层自编码器W(1)、W(2)、b(1)以及b(2)的对应参数分别是W(k,1)、W(k,2)、b(k,1)以及b(k,2),那么,采用下列两个表达式,对该层自编码器的编码方式进行描述

z(l+1)=W(l,1)a(l)+b(l,1)

(1)

a(l+1)=f(z(l+1))

(2)

式中,矢量为a(l),用于表示第l层神经元[6]的激活状态。若解决事件类别属于分类问题,则可以在最顶层设置一个分类器。

同理,能够推导出下列两个表达式,来表示第k层自编码器的解码方式

z(n-l)=W(n-l,2)a(n-l+1)+b(n-l,2)

(3)

a(n-l)=f(z(n-l))

(4)

式中,神经网络的层级总数是n。

利用贪婪的逐层初始化策略,对栈式自编码神经网络进行初始化处理,操作起始点为神经网络的最底层,随后根据所得的初始化参数W(1,1)、W(1,2)、b(1,1)以及b(1,2),对首层的隐含层神经单元激活状态a(1)进行求取,因为第二层自编码器的输入即为首层的输出,所以,依据第二层自编码器的输入a(1),对该层的网络参数W(2,1)、W(2,2)、b(2,1)以及b(2,2)进行初始化,从而取得第二层的隐含层神经单元激活状态a(2),待到达所需层数时,该迭代操作终止。若顶层存在分类器,那么,可将输入设定为最顶层的激活状态,进而实现分类器所需参数的初始化处理。

2.2 深度信任网络模块

构建深度信任网络(deep belief network,简称DBN)的基本单元为受限玻尔兹曼机,通过逐层初始化与整体反馈策略,不仅使深层网络的训练弊端得以有效解决,降低了网络训练复杂度,而且掀起了深度学习的探索浪潮,该网络既能够做判别使用,也能够用于生成操作。

利用无向连接把图中的h2层与h3层联立为联合内存,而x与h1、h1与h2的层间都为有向连接,其中,认知权值是由底层向上层的权值,功能是按照从下到上的顺序产生认知,而生成权值则是由顶层向下层的权值,功能是按照从上到下的顺序生成数据。最底层属于可见层,决定因素为训练数据,且该层级矢量中的每一维均可利用该层的神经元表示。深度信任网络的预训练模式为逐层进行,在对各层实施训练的过程中,依据可见层对隐藏层进行推断,随后再将该隐藏层作为下一层级的可见层。

图1 深度信任网络框图

深度信任网络的训练流程描述如下:

1)把训练数据作为输入项,对受限玻尔兹曼机的底层进行训练;

2)根据上一层级生成的隐藏层状态输入项,完成该层级受限玻尔兹曼机的训练;

3)迭代操作第二步,待生成所需隐藏层数后结束;

4)如果顶层的受限玻尔兹曼机训练数据存在标签,则需要在训练过程里添加神经元作为分类标签,共同完成训练。若顶层受限玻尔兹曼机包含10个神经元,并划分训练数据为两个类别,则顶层受限玻尔兹曼机含有12个神经元,当各训练数据归属于对应的类别时,该类别的对应神经元标签标记为1,否则,标记成0。

深度信任网络的调优阶段将代价函数设定为交叉熵,通过wake流程与sleep流程,使优化参数满足最小化条件。其中,wake流程即为认知阶段,根据外界特征与认知权值,完成各层结点状态的生成,再采用梯度下降法,对各层间的生成权值进行修改;而sleep流程即为生成阶段,依据顶层表示与生成权值,得到底层状态,从而实现认知权值的更改。

3 基于无监督深度学习的跨模态数据目标检索

基于架构的无监督深度学习网络,对跨模态数据目标检索方法进行设计。

3.1 跨模态对应受限玻尔兹曼机搭建

为了实现跨模态数据目标检索,将单模态受限玻尔兹曼机扩展为跨模态对应受限玻尔兹曼机,其构建示意图如下所示。

图2 对应受限玻尔兹曼机框架图

从图2中可以看出,对应受限玻尔兹曼机中两个单模态受限玻尔兹曼机拥有的神经元个数相同,在表示层进行关联的各模态相似约束用图中虚线来表示。

假设跨模态搜索的数据目标分别是图像与文本,则从两目标受限玻尔兹曼机的输入层到表示层的映射函数分别用fI(·)与fT(·)表示,包含目标受限玻尔兹曼机输入层与表示层间权值W、输入层偏置[7]c以及表示层偏置b等所有指标在内的参数均表示为θ,得到θ={WI,cI,bI,WT,cT,bT},其中,图像为I,文本为T。

minimizeθLD+αLI+βLT

(5)

式中,α与β不能取值为0,在表示空间内数据目标之间的欧几里得距离总和为LD,也叫作多模态关联偏差,数据目标受限玻尔兹曼机的优化目标函数分别是LI与LT,其表达式分别如下所示

(6)

(7)

(8)

利用一种轮流优化方法对目标函数进行计算,基于图像与文本数据目标的似然,采取对比散度算法实施参数更新,再根据关联偏差,利用梯度下降算法更新参数。该学习算法的流程描述如下:

1)采用下列对比散度计算公式,对图像受限玻尔兹曼机的参数进行更新

θ←θ+ε·α·Δθ

(9)

式中,θ∈(WI,cI,bI),学习速率为ε。

2)文本受限玻尔兹曼机的参数更新,由下列对比散度计算公式完成。

3)结合关联误差,通过下列梯度下降法实现参数更新

(10)

σI(·)=σ(·)(1-σ(·))

(11)

4)对上述三个阶段进行迭代操作,直到收敛后结束。

3.2 跨模态数据目标检索流程

随着多模态信息的不断增加,其数据量日益庞大,根据数据目标之间存在的关联性进行跨模态检索,具有一定的实践意义,其检索具体流程描述如下:

1)数据预处理:因为各模态数据均为非结构化或半结构化,且其中会产生不相关的噪声,因此,为了准确提取数据特征,要对各模态数据实施预处理。初始所提数据通常为所提文档,无法直接采用无监督深度学习网络进行训练,所以,先利用结构分词模型执行分词处理,再使用word2vec[9]实施词向量化,最后,依据单词和文本的相关性,构建词向量矩阵(即文本);图像数据的尺寸大小不一,应用OpenCV统一调整图像大小为相同尺寸后完成去噪处理。

2)数据特征提取:图像经过预处理被转换为用来表示空间的特征向量,统计图像“词频”就是对特征集合“单词表”中与各特征相对应的“单词”出现次数进行统计,结合所得词频数据与全部图像信息,架构图像特征向量空间;利用LDA模型对预处理的文本单词实施建模,随后依据单词的主题分布推导出文本主题分布状况[10]。

3)跨模态检索:根据无监督深度学习网络创建的对应受限玻尔兹曼机模型,得到图像与文本之间的关联误差,利用提取的数据目标特征,完成图像与文本的跨模态检索。

4 仿真研究

4.1 仿真环境

仿真环境的硬件配置是:32位Windows7系统,Pentium四核3.2GHz处理器,运行内存2GB;软件配置为MATLAB R2012a版本。

4.2 测试指标

检索性能评估指标设置成平均值平均精度mAP,已知任意查询点q和该点的前R个查询结果,则其平均精度计算公式如下所示

(12)

式中,查询点q的实际近邻个数为L,前r个检索到的文档精度为P(r),指示函数表示为δ(r),若指示函数取值是1,则第r个文档与检索到的文档具有关联性,反之,若取值为0,则不存在相关性。因此,推导出下列平均值精度表达式

(13)

其中,查询点数量是Q。

4.3 检索性能评估

为了验证所提方法的适用性与理想性,分别采用文献[2]方法、文献[3]方法与所提方法进行仿真,仿真数据集合分别是由3000个多媒体文档构成的wiki data集合与由25000个多媒体文档组成的mirflickr-25K数据集合。下图分别是不同方法检索数据集合的跨模态检索精度。

图5 不同方法检索示意图

通过图中曲线走势可以看出,检索较小的wiki数据集合时,三种方法均具有良好的检索精度,虽然评估参数值相同,但所提方法仍有较为明显的优势;当对数据较多的mirflickr-25K集合进行检索时,典型相关分析策略与自学习哈希方法的平均精度参数并没有随着数据量的增加而提升检索性能,反而出现下降情况,而所提方法则呈现出数据越多、精度越高的趋势,具有显著的优越性。

4.4 检索效率对比

为了验证所提方法的检索效率,对比不同方法检索所用时间,对比结果如图6所示。

图6 不同方法检索用时对比图

如图所示,相比传统方法,所提方法检索用时最少,充分证明所提方法检索效率更高,实际应用性较高。

5 结论

由于当前检索技术的研究多数仍集中在本质为单模态检索的领域中,造成模态无法被检索成功,为此,提出一种基于无监督深度学习的跨模态数据目标检索方法。该方法既推动了相关机器学习理论的应用与发展,也满足了检索方式多样化的需求,具备重要的应用价值,为后续研究奠定了数据资源。

猜你喜欢

权值编码器模态
基于ResNet18特征编码器的水稻病虫害图像描述生成
WV3650M/WH3650M 绝对值旋转编码器
联合仿真在某车型LGF/PP尾门模态仿真上的应用
WDGP36J / WDGA36J编码器Wachendorff自动化有限公司
基于老年驾驶人的多模态集成式交互设计研究
基于Beaglebone Black 的绝对式编码器接口电路设计*
模态可精确化方向的含糊性研究
财务风险跟踪评价方法初探
基于洪泛查询的最短路径算法在智能交通系统中的应用
日版《午夜凶铃》多模态隐喻的认知研究