基于改进关系网络的小样本学习
2020-07-13孟树林吴洛天汪曙光
王 年,孟树林,吴洛天,汪曙光,张 艳
(1.安徽大学 电子信息工程学院 安徽 合肥 230601;2.清华大学 合肥公共安全研究院 安徽 合肥 230601)
一般情况下,深度学习需要大量的数据作为训练样本.而大量数据的获取、标注等环节无疑是一项耗时、耗力和繁琐性的工作,而且还存在大量数据无法收集的情况,例如医学影像的获取需要考虑伦理、道德等因素,稀有动物、植物数据稀少,不易收集等.人类作为高等智能生物,从出生那刻开始,就不停地接受各种各样的训练,包括语言知识和行为能力等.但人类有能力通过很少的样本学习新的知识,因此,设计出像人类一样具有出色学习能力的模型成为新的挑战.小样本学习[1]就是通过概括、类比有限先验知识(少量标记样本),推广到新任务中(识别新的类).基于微调的方法[2-4]核心是迁移思想,用源域大量标注好的数据训练基础网络,然后采用少量目标域标注数据对这个基础网络进行微调,可以达到不错的效果.数据生成[5-6]是小样本学习的一种处理方式,它可以避免模型在有限的数据上训练、优化,有很大的提升空间.现在,小样本问题常常与元学习联系在一起.元学习[2,4,7-8]也被称为学会学习,在元训练阶段将数据集分为不同的元任务,在类别变化的情况下提升神经网络的泛化能力.在元测试时,面对全新的类别,不需要改变已有模型就能实现识别任务.孪生网络[9]和原型网络[10]关注提取输入数据的特征,这样就可以用固定的最近邻或线性分类器识别.关系网络[11]与其他高效的比较网络或度量方式类似,不同之处在于关系网络不满足单一且固定的距离度量方式,由训练好的网络充当分类器,称之为关系模型.
论文在关系网络的基础上,设计了一个高效、通用并且端到端的小样本学习框架.该网络由两部分组成,一是嵌入模型,二是关系模型.嵌入模型用来提取图像的特征,由4个卷积层组成.论文采用inception块[12]代替原有的第3个卷积层,来提升网络的特征表达能力.关系模型获得查询样本与对照样本之间的相关性得分,即度量它们之间的相似性,实现小样本的识别任务.感受野块(receptive field block,简称RFB)[13]是受到人类视觉系统的启发,应用多分支的膨胀卷积设计的一种类似于inception块的网络结构.把RFB置于关系模型的起始位置,来提高关系模型的度量能力.在公开的miniImagenet和Omniglot数据集上实验表明,这两种卷积块在提升关系网络特征表达能力的同时,也提升了网络的度量能力,使得关系网络能更高效地识别新的样本.
1 相关工作
1.1 小样本学习
1.2 关系网络
关系网络的结构如图1所示,是一种端到端的结构.嵌入模型用来提取输入样本的抽象特征,由4个卷积层和两个最大池化层构成,每个卷积层包含卷积核尺寸为3*3、通道数为64的卷积层,Relu层和batch norm层.训练好的嵌入模型对输入数据拥有抽象概括和归纳的能力,网络一般不宜过深.常用4个卷积层或浅层ResNet网络作为特征提取网络.嵌入模型提取对照样本和查询样本的特征,将查询样本复制C份,与每类提取的对照样本特征按通道级联在一起,输入关系模型.关系模型由两个卷积层和两个全连接层组成,最后输出对照样本和查询样本的相似性得分,即关系得分.与传统固定度量方式如欧式度量、余弦度量等不同,关系网络的创新点之一是通过网络训练得到一个高效的非线性距离度量.
关系网络采用的均方差损失函数为
ri,j=gφ(C(fφ(xi),fφ(xj))),i=1,2,…,C,
(1)
其中:ri,j为查询样本i与对照样本j的相关得分,C(·)为级联提取到的查询样本和对照样本的特征.
(2)
其中:I(·)为指数函数.当条件为真时,即查询样本和对照样本属于同一类时,函数值为1;当查询样本与对照样本不属于同一类,函数值为0.通过最小化均方差损失来优化嵌入模型和关系模型的参数.
图1 关系网络结构
2 改进关系网络
图2为基于改进关系网络的小样本学习框架.由图2可知,基于改进关系网络的小样本学习分为两个部分:①嵌入模型fφ.它作为特征提取模块,提取查询样本和对照样本的特征.论文采用inception块替换原有的卷积层3,提高嵌入模型的特征提取能力.②关系模型gφ.关系模型得出级联后的查询样本和对照样本的相关得分,由此判断查询样本的类别.论文在关系模型的第一个卷积层前加入感受野块,提升关系模型的度量能力.模型采用均方差损失函数和Adam优化器.
图2 基于改进关系网络的小样本学习框架(FC代表全连接层)
2.1 inception块
获得高质量模型可以通过增加网络深度或网络宽度,论文从增加网络宽度的角度出发,用一个inception块[12]替换原嵌入模型的第3个卷积层,如图3所示.inception块可以代替人工确定卷积层中过滤器的类型或者确定是否需要创建卷积层和池化层.通常情况下,直接采用最大或平均池化来降低特征图的大小,可能会带来特征表达方面的问题.
论文采用的inception块共有3条分支:分支1中的1*1的卷积层起到了降低通道数的作用,后面的两个3*3的卷积层可以获得更加抽象的语义特征;分支2采用常规3*3大小、步长为2的卷积层;分支3是一个最大池化层,用来保留更多的纹理信息.将这3条分支得到的不同特征图拼接在一起,可提高嵌入模型的特征表达能力.
图3 inception块的网络结构(k,s,p分别代表卷积核大小、步长和补白)
2.2 感受野块
神经科学研究发现,在人类视觉皮层中,感受野(population receptive fields,简称pRF)的大小与视网膜脑图偏心率成函数关系.Liu等[13]受到人类视觉系统的RF(receptive fields)结构[14]启发,设计一种类似于inception块的结构,称之为感受野块.不同大小卷积核与感受野尺寸相对应,并利用膨胀卷积的膨胀率来控制偏心率.总的来说,利用RF的尺寸和偏心率的关系,可增强特征的可分性和鲁棒性.RFB的网络结构如图4所示.
图4 RFB的网络结构(“rate”代表膨胀卷积的膨胀率)
由图4可知,RFB的网络结构大量采用1×1的卷积层来减少特征的通道数.采用两个3×3的卷积层替换5×5的卷积层,可以减少网络的参数量以及加深网络的非线性程度;使用1×n和n×1的卷积层代替n×n的卷积层,同样达到减少网络参数和增强非线性的功能;最后,将所有分支提取的特征连接在一起.论文将RFB添加在关系模型中,提升关系模型的度量能力.
3 实验结果与分析
实验在miniImagenet和 Omniglot数据集上进行,针对C-wayK-shot问题,实验设置不同的C,K值验证论文所设计模型的性能.初始学习率设为5×10-4,采用Adam梯度下降算法,总迭代105次.
3.1 Omniglot数据集
Omniglot[15]数据集一共32 460幅单通道字符图像,包含1 623类不同种类的字符,来自50个不同的字符表(alphbets),每个字符由20个不同的人通过亚马逊的Mechanical Turk在线绘制.其中1 200类字符通过90,180,270°旋转扩充数据集,剩余423类用于测试,所有输入图像尺寸为28×28,如图5所示.
图5 Omniglot数据库图像样本示例
论文提出的方法没有进行微调.在测试时,准确率是600个批样本准确率的均值并且置信为95%.在Omniglot数据集上的识别率如表1所示.由表1可知,论文提出的方法仅在5-way 5-shot上实验时,比MAML低0.1%.在其他情况下,达到最好的识别准确率,尤其是在20-way上,分别比关系网络提高了0.2%,0.3%,并且高于其他方法.在5-way 1-shot上,论文提出的方法比关系网络高0.1%,达到99.7%.总的来说,在Omniglot数据集上,基于改进关系网络的小样本学习的识别率整体高于关系网络,与其他小样本学习方法相比,论文提出的改进算法同样具有优异性能.
表1 在Omniglot数据集上的识别率
3.2 miniImagenet数据集
miniImagenet数据集由文献[20]提出,共6万张84*84大小的RGB图像,包含100类、每类600张图像样本.参照文献[20]把数据集分成训练集、验证集和测试集,分别为64,16,20类样本.在5-way 1-shot 和5-way 5-shot上进行实验,样本示例如图6所示.
图6 miniImagenet数据库图像样本示例
由于背景复杂、类间差异小等因素,miniImagnet的识别难度整体比Omniglot高.在miniImagenet数据集上的识别率如表2所示.在miniImagenet数据集上,基于改进关系网络的小样本学习在5-way 1-shot,5-way 5-shot上识别率分别达到52.89%,67.15%,比关系网络分别提高2.4%,1.8%.相较于其他方法,基于改进关系网络在5-way 5-shot上仍然有一些差距,比MxML低2.2%,比MAML++低1.2%.但在5-way 1-shot实验中,论文方法的识别率比MxML高了1.5%,比MAMA++高0.7%.总之,基于改进关系网络能够有效提升关系网络在miniImagenet数据集上的识别率.
表2 在miniImagenet数据集上的识别率
3.3 消融实验
由于改进关系网络在Omniglot数据集上已经达到很高的准确率,论文只在miniImagenet数据集上对比两种卷积块对实验结果的影响.在miniImagent数据集上不同方法的准确率对比如表3所示.从表3可知:首先单独用inception块替换嵌入模型的卷积层3,在5-way 1-shot,5-way 5-shot上分别有0.7%,0.3%的提升,表明运用inception块能够提升网络的特征表达能力;其次,感受野块在1-shot,5-shot上分别提升0.9%,0.3%;最后,在inception 块的基础上,添加感受野块,比单独使用inception块分别提高了1.7%,1.5%,证明采用结合人类视觉系统设计的RFB在小样本学习中的有效性.
表3 在miniImagent数据集上不同方法的准确率对比
4 结束语
论文在关系网络的基础上,采用两种卷积块结构设计了一个新的小样本学习框架.这两种卷积块在提高关系网络的特征表达能力的同时,也提升了网络的度量能力.实验结果表明基于改进关系网络极大地提升了网络在小样本领域的识别能力.