APP下载

一种基于对抗正则化的图像特征提取方法

2021-05-10张春晓

小型微型计算机系统 2021年5期
关键词:正则分类器特征提取

张春晓,何 军

(南京信息工程大学 电子与信息工程学院,南京 210044)

(南京信息工程大学 人工智能学院,南京 210044)

1 引 言

图像分类一般是先通过生成器提取特征,再将特征输入分类器进行分类.随着深度学习[1]在机器学习、计算机视觉领域的快速发展,卷积神经网络[2]在图像分类中得到良好的应用.相比于传统的方法,基于CNN卷积的特征提取算法的优点是不需要大量的人工标注信息[3].1998年,Yann LeCun等人[4]通过MNIST手写识别数字表明卷积神经网络优于先前所有模型并命名LeNet-5.2012年,Krizhevsky等人[5]提出AlexNet,该模型增加了ReLU激活函数和Dropout[5],在一定程度上提高了训练速度并降低了计算量,2014年后 VGG、GoogleNet、ResNet、SeNet等先后被提出[6-9],神经网络的特征提取能力不断增强,图像分类精度也不断提高.与此同时,出现了针对梯度消失、过拟合、欠拟合等问题的各种训练技巧,如引入Dropout、批量一体化[10]等.

近几年随着生成式对抗网络模型(Generative Adversarial Network,GAN)[11]的提出,特征提取技术和分类技术在无监督学习(Unsupervised Learning)和半监督学习(Semi-Supervised Learning)领域也有了一定突破.在无监督分类领域,文献[12,13]等通过对抗训练鼓励目标域特征与源域特征对齐问题,然而忽略了类别信息,特征生成器往往会输出不具有区分性的特征(如角度、光照等)影响分类准确度.因此Saito K等人[14]提出对抗Dropout正则化(Adversarial Dropout Regularization,ADR)方法用于无监督的域适应领域,通过生成器和分类器的相互对抗寻找类之间决策边界,从而鼓励生成器输出更多类别信息.为了提高图像特征提取质量,注意力机制的引入提高了分类的精度[15-18],文献[19]将多模态注意力嵌入语义图检测每个类别的区分性特征.文献[20]从信息论角度出发,采用改进的互信息对数据进行实时提取,在最大程度保留原始数据信息的基础上提高了分类效率.文献[21]通过迁移学习提高特征提取质量并引入多输入卷积神经网络进行分类,在花卉识别方面取得良好结果.目前特征提取的缺陷主要集中以下两点:1)模型针对特定数据集进行处理,模型泛化能力不强;2)是模型的特征提取能力仍有欠缺,在小样本数据集上训练时由于生成器的特征提取能力不足,导致分类精度不高.

为了提高分类模型特征提取能力,本文从正则项角度出发,在ADR方法基础上归纳出一种基于对抗性正则化特征提取方法(Feature Extraction with Adversarial Regularization,FE-AR)用于图像分类,将基于对抗的正则化项应用于分类目标函数中,促使生成器的输出更具有区分性特征(discriminative features).选取3层卷积网络进行理论验证,在VGG网络进一步探究,并研究在生成器和分类器在经过对抗正则化训练后对分类精度的影响.为了验证算法的可行性,本文分别SVHN、CIFAR10、CIFAR100、CUB_200_2011上进行分类实验.实验结果表明,加入对抗正则化训练能够指引生成器输出具有代表性的类别信息并提高分类精度.

2 相关工作

2.1 Dropout正则化

Dropout是一种防止神经网络过拟合的正则化方法,在训练过程中,以概率P随机从神经网络中删除神经元来减少数据间的协同性(co-adaptations),促使神经元之间相互独立,不同的神经元学习输入数据的不同特征,提高模型泛化能力.本文以对抗的方式使用Dropout来提高生成器的特征提取能力,训练分类器对由Dropout引起的噪声具有判别性,对特征生成器进行正则化,使其产生鲁棒性特征.

2.2 对抗正则化

假设样本图片为X,模型由特征生成器G和分类器C组成.X经过生成器G得到特征z,分类器C通过Softmax函数将特征z分成K个类别,p(y|x)表示输入X的后验分布,其中y表示分类的类别.

对抗正则化[14]不同于GAN需要单独训练一个判别器D,分类器C也充当判别器的角色来检测分类边界附近的特征编码,生成器G避免在分类边界区域附近生成特征.在分类边界的特征会引起后验p(y|x)的变化最大,导致错误分类.因此通过两次Dropout得到两个后验分布,分类器最大化后验分布的差异,鼓励C网络对噪声信息敏感,不同神经元学习输入X的不同特征.生成器最小化后验分布的差异,生成远离分类边界的目标特征,以减少p(y|x)的变化.如图1所示,经过对抗训练鼓励生成器G生成远离分类边界特征.

图1 不同类别特征空间

2.3 分布距离的度量

衡量两个概率分布p1(y|x)和p2(y|x)之间的距离是概率估计中常见问题,本文主要介绍以下3种不同的衡量标准.

1)全变差距离(Total Variance Distance,TVD):若经过Dropout后,C网络得到两个分布对应的输出为y1、y2则变差距离如公式(1)所示:

(1)

2)KL散度(Kullback-Leibler Divergence):KL散度用来度量两个分布和之间的不相似度(dissimilarity),KL散度如公式(2)所示:

(2)

3)JS散度(Jensen-Shannon Divergence):JS散度解决了KL散度不对称问题,JS散度如公式(3)所示:

(3)

3 对抗正则化模型

如图2所示,将特征z输入到C的过程重复两次并通过Dropout得到两个后验分布p1(y|x)和p2(y|x).衡量两分布之间距离的差异性,越大表明提取的特征在分类边界,两次预测的分类结果相差越大.

图2 基于对抗正则化训练的分类模型

为了提高分类器C网络对于特征的敏感度,训练C网络最大化两分布的距离后反馈给G网络,生成器网络G最小化两分布的距离生成远离分类边界更具有代表性的分类特征.G和C在训练过程中相互交替,从而提高G网络的特征提取能力.

在图像分类任务中,网络优化的目标函数为最小化交叉熵,交叉熵越小,表示预测值与真实值越接近,如公式(4)所示:

(4)

本文引入的对抗正则化函数如公式(5)所示:

(5)

C网络除了要最大化分布p1(y|x)、p2(y|x)间距离找到类别分类的边界,同时还要保证分类正确.C网络优化的损失函数如公式(6)所示:

(6)

不同于ADR方法在优化G网络时只最小化敏感度优化量分布的距离.本文G网络的目的是提取远离分类边界的特征,同时也保证分类的准确性,G网络优化的损失函数如公式(7)所示:

(7)

将对抗正则项用于图像分类中,可以鼓励分类器中不同神经元学习到输入X不同特征.由于在训练中最大化Dopout后两分布的距离,C网络的神经元会尽力捕捉不同的特征来提高自身的敏感度.G网络通过最小化会输出远离分类边界更具有类别代表性的特征.实验中为了加快收敛速度,首先通过公式(4)预训练分类模型,其次通过公式(6)、公式(7)对模型进行对抗训练.具体步骤见算法1.

算法1.基于对抗正则化的特征提取算法

输入:训练集X,标签Y,Parameters:batchsize,local_step,total_step

输出:图像特征提取与分类模型

1.i=0

2.While i <= total_step

3. if i <=local_step

4. 通过公式(4)预训练分类模型

5. else

6. Dropout分类器得到p1(y|x)

7. Repeat得到p2(y|x)

8. 固定生成器,通过公式(6)训练分类器

9. 固定分类器,通过公式(7)训练生成器

10. end if

11.end while

4 实验及结果分析

4.1 数据集信息

为了验证本文方法的可行性,本文在SVHN、CIFAR-10、CIFAR-100进行普通分类实验,选取CUB_200_2011细粒度分类实验.表1是对数据集的描述.

表1 数据集信息

4.2 实验设置

1)实验环境:实验操作系统为64-bit Ubuntu16.04,CPU型号为E5-2620v3,内存为32G,处理器为Intel® Xeon(R)CPU E5-2620 v3@ 2.40 GHz,GPU型号为GeForce TITAN X.编程语言为python,实验框架为Tensorflow.

2)实验网络:本文使用两种卷积网络模型进行实验:1)在3层卷积网络进行验证,选取3层卷积为特征生成器,3层全连接层为特征分类器,使用卷积核大小为3*3,网络结构如图3所示;2)在VGG网络进一步实验,并对VGG网络最后全连接层参数做了调整,使用5层卷积层作为特征生成器,3层全连接层作为分类器.

图3 3层卷积网络结构

3)参数设置:实验中,Dropout的比例为0.5.对于SVHN、CIFAR10、CIFAR100分别在3层卷积和VGG网络进行实验.每次输入batchsize为64,使用adam优化器,预训练阶段,学习率大小为1e-3,对抗训练阶段,G网络和C网络学习率大小为1e-4.

CUB_200_2011使用的网络为在ImageNet预训练的VGG,输入的batchsize为32,使用随机梯度下降优化模型,预训练阶段,首先对VGG网络全连接层以学习率1e-3进行更新,再对整个网络以1e-4的学习率进行调整.对抗训练阶段,G网络和C网络模型学习率大小为1e-5.

4.3 对抗正则化有效性

本小节验证对抗正则化的有效性,选取3层卷积网络作为特征生成器,3层全连接层作为分类器进行实验验证.加入对抗训练后,SVHN、CIFAR10和CIFAR100在3层卷积网络的正确率分别为95.38%、87.93%、73.44%,加入对抗训练后比基线网络分别提高了0.71%、6.69%、10.94%,相比于ADR方法分类精度也有所提高.如表2所示.

表2 加入对抗正则项测试集准确率对比(百分比)

加入对抗正则项后网络的特征提取能力增强,分类准确率在不同数据集都有了提升.相比于原始ADR方法,FE-AR在优化G网络的同时考虑最小化交叉熵,进一步提高了分类精度.

为进一步探究,以CIFAR10数据集为例,图4和图5分别表示加入对抗正则项后模型在测试集准确率和损失函数的对比.从图4可以看出,在相同的Epoch下,本文的模型得到的准确率高于ADR方法,且随着训练步数的增加,模型也逐渐稳定.从图5看出加入对抗正则化项后,交叉熵损失明显降低.相比于ADR,FE-AR的训练方法得到的模型更加稳定.随着交叉熵损失的减小,测试集的分类精度不断提高.这意味着分类器网络能鉴别非区分性(non-discriminative)的特征,生成器网络学习避免提取这些特征,提高了分类精度.

图4 CIFAR10在测试集正确率对比

4.4 不同方法对比

为了对FE-AR方法进一步验证分析,在VGG网络结构下,选取不同方法在SVHN、CIFAR10、CIFAR100的识别精度与本文方法进行对比,如表3所示.

表3 FE-AR与现有方法在数据集上的对比(百分比)

从表3可以看出,加入对抗正则化后的分类精度在3个数据集上分别提高了0.68%、2.69%、4.87%,在SVHN和CIFAR10数据集上本文方法优于其他.虽然在CIFAR100数据集上没有达到最优水平,但相比于VGG网络有了明显提升,经过对抗训练的生成器输出的特征更具有代表性.在训练过程中,分类器网络学习鉴别对分类不重要的信息,生成器学习“欺骗”分类器.如果生成器输出不具有类别信息的特征,这些特征将被分类器用来提高自身敏感度后再经过和生成器网络的对抗训练促使生成器的特征更加具有类别区分性.

4.5 不同度量方法比较

为了比较不同分布概率分布度量方法对于特征空间的影响,以SVHN为例,讨论全变差距离、KL散度和JS散度3种分布距离度量方法与实验精度的关系.如图6所示.

图6 SVHN在不同度量方法下的分类精度

从图6可以看出,选取合适的概率分布度量方法对于图像特征提取和分类精度有很大关系.本文所选择的3种度量方法都对分类精度有了提高,其中使用JS散度作为分布度量方法的模型更为稳定.这是因为相比于KL散度,JS散度解决了非对称问题且值域范围限制在[0,1],对于相似度的判别更加确切.

4.6 细粒度分类实验

为了验证FE-AR方法具有普遍性,选取CUB_200_2011进行细粒度分类测试.由于细粒度分类相比于普通图像分类更复杂,所以选取VGG作为基线网络.对数据预处理,随机裁剪大小为224×224×3,VGG网络最后一层全连接层参数改为200,其他参数设置见4.2小节,结果如表4所示.

表4 不同方法下的细粒度分类精度比较(百分比)

5 总 结

本文从图像特征提取的训练角度出发,提出一种提高图像分类精度的对抗正则化方法.通过特征生成器和分类器的对抗训练,鼓励生成器输出具有类别信息的特征,在一定程度上提高模型的泛化能力.实验表明,本文方法在普通数据集的特征提取和分类任务中优于其他,并在细粒度分类任务中有良好的表现.同时实验发现选择合适的度量方法对于特征提取及分类精度至关重要,作者在后续工作中对概率分布度量方法进一步进行探讨.

猜你喜欢

正则分类器特征提取
同步定位与建图特征提取和匹配算法研究
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
学贯中西(6):阐述ML分类器的工作流程
基于朴素Bayes组合的简易集成分类器①
任意半环上正则元的广义逆
基于MED—MOMEDA的风电齿轮箱复合故障特征提取研究
sl(n+1)的次正则幂零表示的同态空间
绿色建筑结构设计指南
基于AdaBoost算法的在线连续极限学习机集成算法
基于曲率局部二值模式的深度图像手势特征提取