APP下载

基于多视角学习和注意力的特征选择算法

2020-11-17庞华鑫韦世奎马俊才赵玉凤

北京交通大学学报 2020年5期
关键词:实例注意力矩阵

庞华鑫, 韦世奎, 马俊才,赵玉凤, 赵 耀

(北京交通大学 计算机与信息技术学院,北京 100044)

图像识别和检测一直是计算机视觉领域中的基础性工作之一,受到大量学者关注[1-2].然而,由于图像中包含的信息丰富多样,很难准确且快速地从图像中排除噪声信息,挑选出关键的特征信息来进行

目标识别[3].在其他智能化研究领域尤其自动化疾病诊断[4]工作中也面临着类似的困难.患者自身的症状表现具有多样性和复杂性,准确地疾病诊断一直受到无关症状的干扰.快速且准确地捕捉与疾病类型相关的特征群是急需解决的问题[5].因此,构建一种准确且快速的特征选择算法是必要的且具有实际意义.

许多学者构建多种算法来实现特征选择.传统算法领域,算法根据样本多种属性作为评判特征相关性的标准,如基于统计理论的T-Score法[6]、基于信息增益的SURI法[7]和基于相似度的SPEC法[8]等.此外,有学者还尝试采用多实例学习去捕捉关键特征子集,并且应用到疾病分类任务[9]中.最近,研究人员借助神经网络学习数据复杂模式并挑选出相关度高的特征.如AFS[10]采用新颖的注意力机制[11-13]进行特征挑选,取得了优良的性能.但是,这些方法并没有考虑到特征全局属性和特征间交互性,其利用的特征信息有限,导致选择出的特征不够全面.

为了解决上述问题,本文作者提出基于多视角学习和注意力机制的端到端的算法模型.模型主要包含多实例生成器、多视角表征学习和注意力机制3个核心模块.多实例生成器产生潜在相关度高的特征组合;多视角表征模块从特征基础属性、全局融合性和特征间交互性等不同视角深入挖掘特征多维度的信息;注意力机制模块借助这些信息,评判特征与标签之间的相关度,挑选出相关度高的特征信息用于模型的标签分类.本算法不仅为每类标签挑选出最具代表性的特征群,而且利用特征的多维信息来提升模型分类准确率,超过了多数基准算法性能.

1 特征选择算法

基于多视角学习和注意力机制的特征选择系统框架如图1所示.系统框架主要包括特征组合,特征表征和特征融合3个关键部分.首先,采用多实例生成器模块用于实现初步的特征组合功能.其次,利用本文所提的一种新颖的多视角表征模块来实现特征表征功能.最后,使用自注意力机制模块将不同角度的特征信息进行融合.进而对标签类别进行预测和分类.

1.1 实例生成模块

首先,定义数据集X∈RL×N,L表示该数据集中包含的样本总数,N表示每个样本拥有的特征数量.变量xl,n表示第l样本的第n特征,取值为0或1.其次,规定数据集样本的标签类别总数为C类.

为了获得代表性的特征组合,为后续的建模特征组合表征提供便利,本文拟将多实例学习引入到特征实例的生成过程中.根据多实例学习思想,构建了多实例生成器,帮助每个样本产生多种多样的特征组合,并组合成样本实例包.

为了避免引入任何先验信息,并更好地验证本文方法的实用性和有效性,多实例生成器从每个样本中随机选择m个特征组成一个实例.并将这个过程重复T次.这样每个样本可以产生实例包I0={i1,i2,…,iT}∈RT×m.其中m=p*e,p为比例参数,设计相关实验选择出最佳的比例值为0.7.e值为样本中特征值为1的数量(即xl,n=1).不同样本的e值不同,导致样本的实例包具有不同的维度,该现象既会使特征之间的位置相关信息丢失,又不利于机器学习算法的实施和开展.

面对上述问题,本文应用一种高效的填补策略来保持特征的位置不变性.首先,设置填补的空白向量维度为1×N.然后,在多实例生成器随机选择特征时,记录被选择的特征的位置序号,再根据选择特征的位置序号将其填补到空白向量中的特定位置.最终得到每个样本填补后的实例包为I={i1,i2,…,it}∈RT×N.此方法能够保证实例包的维度相同且特征位置信息不变.

1.2 多视角表征模块

在多种类型的数据中,特征与标签不止存在独立的映射关系,同时特征之间交互性也和标签存在一定的关联性.为了深入研究特征与标签类别的对应性,本模块旨在描绘和挖掘各种特征的不同维度信息,从全局和交互性两个视角进行表征.对于全局视角,利用全局卷积表征(Global Convolution Representation, GCR) 方法来挖掘在实例中特征的全局和共享式信息.对于交互式视角,本文创新地提出自适应相关表征(Adaptive Correlation Representation, ACR)方法来捕捉特征之间交互信息,具体细节如下:

1)全局卷积表征.

卷积神经网络能有效地从不同的数据格式(图像,语音和文本)中提取到高层次的全局信息,它的能力已经得到证明和认可[14].基于文献 [1-2],本文将卷积算法进一步延伸到实例包的全局表征工作中.全局表征模块使用多个卷积滤波器将实例中所有的特征信息进行融合,挖掘出实例序列中有价值的全局信息.所有滤波器的权重和偏置参数是在所有输入实例中被共享.在模型中,所有滤波器权重参数矩阵被定义为W∈RN×F,其中:N是单个卷积核的维度,等于实例序列的长度;F为滤波器的个数.卷积计算结果如下

G=I*W+B

(1)

式中:G∈RT×F和B∈R1×F分别表示样本实例包提取出的全局信息表征矩阵和偏置参数向量;*表示卷积操作运算符.在卷积运算,采用非线性激活函数tanh函数计算卷积输出.通过应用多个卷积滤波器,全局表征模块能捕捉到多空间融合的实例特征信息.

2)自适应相关表征.

作为对单一特征信息的补充,特征之间的交互信息在标签分类过程中也发挥不可替代的作用.同时由于特征的分布是随机的且分散的,普通的局部卷积滤波器只拥有有限的感受野,只能捕捉到空间邻近的特征交互信息,缺少抽取长距离的非邻近特征互信息的能力.为了充分地从实例中挖掘这些信息,提出了跨距离的交互表征谱算法,它能灵活地表示出实例序列中所有特征的交互信息.表征谱(相关度矩阵)定义为A∈RT×N,其计算方式如下

A=Φ(V,Θ(I,I))

(2)

式中:V∈RN×N是贡献度权重矩阵,其含义为在标签分类决策过程中,每一对特征交互信息所发挥贡献度.它是被随机初始化和在训练过程不断迭代更新.Φ(·)是本文提出一种新的计算策略,其计算细节如下:首先,采用Θ(·)逐个计算实例中每一个特征与其他之间的交互信息,构成N×N的矩阵;然后,将产生的矩阵与贡献度矩阵V做点乘运算,即对应位置值相乘.再做列向求和运算,得到1×N向量;最后将单个样本实例包中所有实例做上述运算,得到N×N矩阵.为了防止数值范围过大问题,采用sigmoid函数将矩阵值约束规范到值域[0,1]中.对于端到端深度模型,难点是在训练过程中去计算数据集的特征交互信息.鉴于此,设计出一种高效的函数Θ(·)去表征两两特征间的互补信息.定义

(3)

式中:i表示实例矩阵I中的元素;γ是被设置为一个极小常数值,目的是避免在训练阶段反向传播过程中相关参数梯度消失,确保贡献度矩阵V能正常被更新.

由于相关度矩阵A包含了噪声特征的交互信息,应该消除这些噪声信息只留下有意义的特征信息.采用一种特殊的矩阵正则式来规范贡献度矩阵V,将不相干的特征互权重尽可能地降低.根据文献[15],进一步将L(2,1)延展成L(2,p)(0

(4)

当p在值域(0,1)中时,L(2,p)正则式是伪范数,不遵循三角不等式关系,且离群噪声量明显少于L(2,1)的噪声量.通过可视出规范化后的贡献度矩阵V,可以发现部分潜在的无关特征交互贡献值接近0,这意味着来自无意义的特征干扰能被有效地去除.此外,关键特征权重被均匀分配,防止模型出现过拟合现象.通过设计实验,当p=1/2时,V中值分布稀疏且精炼,模型预测性能更好.

最后,假设两个表征模块(全局卷积表征和自适应相关表征)对模型的分类性能有相同的贡献,于是,将两个表征向量进行拼接整合,得到实例包的表征整合矩阵P∈RT×(N+F).

1.3 注意力机制模块

作为一种特殊的注意力机制,自注意力仅仅借助数据本身信息去计算权重,在许多任务中成功应用.自注意力机制又可以细分为乘性和加性两类.相比于加性类,乘性类只有一层前馈神经网络,借助矩阵点乘原理来减少计算的复杂度,运算速度更高.因此,本模块采用乘性自注意力机制模块来对多个实例表征进行打分,其定义如下

(5)

式中:参数矩阵Ha和Wa被随机初始化,然后在训练过程中迭代更新.为了尽可能地消除表征矩阵中噪声信息干扰,同时增强所有关键的特征信息,本文算法采用软注意力机制法去权重化实例整合表征,再求得样本总体表征.表征整合的具体过程如下

(6)

(7)

式中:ei表示注意力向量E的元素值;αi表示经过归一化后的注意力权重;gsoft∈R1×(N+F)表示样本总体表征向量.该向量直接作为模型分类器-多层感知器的输入.

1.4 优化目标及损失函数设置

模型的优化目标为

O=min[loss(L)+λR(V)]

(8)

式中:R(V)表示正则化项,具体参考式(4);λ是调节规范化贡献度矩阵的惩罚力度系数.为了获得每个类别的交互表征谱,本文为每类标签构建一个训练框架.但是所有框架的损失函数L都采用交叉损失熵优化模型的核心参数.交叉损失熵函数如下

(9)

式中:yi表示样本的真实标签值;pi表示模型的预测值;M为样本数据总量.

损失函数的优化器选择的是Adam优化法.由于多实例生成器在为每个样本构建实例集时,存在随机选择的过程,为了验证本文方法的有效性及鲁棒性,所有的实验将重复进行5次,实验展示结果为所有实验的平均值.

2 实验结果分析

实验环境Intel Core i5-7500CPU,主频3.2 GHz,16 GB运行内存,操作系统为Windows 10,采用TensorFlow 1.12.0深度框架进行实验.

实验设置细节:算法代码采用梯度化搜索法设定主要的常数型超参.具体地,全局表征的隐藏层单元数为128,交互表征的神经个数等于样本中特征数.此外,分类器-多层感知器(MLP)有两个隐藏层,单元数分别为128和64,激活函数为线性整流函数(ReLU).优化器选择的Adam优化,其学习率为动态学习率来最小化损失.模型训练迭代量为120,为了防止过拟合,当验证损失超过10代不下降时,模型就会自动停止训练.

2.1 数据集及评价指标

采用两个不同数据集来验证模型的性能,分别为:中国中医科学院中医药防治艾滋病试点项目病例数据集(AIDS dataset)[16]和手写数字识别数据集(MNIST dataset)[17].其中AIDS数据集由结构化文本组成,包含12 000条样本,7个类别.为了满足本文模型的输入格式要求,将MNIST数据集中28×28大小的照片进行预处理:首先将图片矩阵进行铺展,转化成1×784的向量格式;然后将大于1的像素值规约成1.

为了衡量所有模型的分类性能,采用机器学习中常见的度量指标:准确率(A)、微观和宏观F1值、ROC曲线下面积(RA).准确率主要评估提出的模型预测正负样本的全面综合能力.预测指标的宏观和微观视角常被用来度量多类别分类的性能:1)微观F1值用来评估分类器在类不平衡情况下的性能特异性.2)由于每个类在宏观度量评估中贡献相同,宏观F1值更适合评估不同规模的类之间的平等表现.ROC曲线下面积衡量的是二元分类模型随机选择的正类的数量多于负类的概率.RA越高,模型性能越好.F1值计算形式为

(10)

式中:F1micro,F1macro分别为微观和宏观F1值.

2.2 不同视角的表征对比

本文提出了全局卷积表征(GCR)和自适应相关表征(ACR) 两种不同视角的表征.由于整合的特征信息存在差异,两种表征对于模型性能的贡献度不同.为了探究两种表征对模型影响的差异性,按照以下方式设计实验:1)重新为每一类构建两个模型,且包含一个表征类型;2)为了确保实验的公平性,这两个模型都使用相同的AIDS数据集进行训练,记录实验结果RA值,如表1所示.可以观察到两个表征在不同类别上都有可比较的性能.对于每一类,两个表征相结合的模型性能超过两个单独表征模型性能.这说明GCR和ACR具有互补性,本文设计的表征模块能从稀疏和复杂的特征序列中学习到多种视角的特征信息,再适当融合两者来高效地进行分类任务.模型分类成绩越好,选择出的特征相关度就越高.

表1 不同表征性能比较Tab.1 Performance comparison of both representations %

2.3 性能比较及案例分析

本节主要分析和比较多实例多视图表征学习算法与其他经典或先进的算法优劣之处,比较算法主要有:朴素贝叶斯网络(Bayes)[18]、支持向量机(SVM)[19]、随机森林(RF)[20]、梯度下降树(GBDT)[21]、基于注意力特征选择(AFS)[10]、深度分解机(DFM)[22]、分解神经网络(FNN)[23]和多层积网络(PIN)[24].其中Bayes、SVM、RF和GBDT是已经成熟的算法模型,参数设置是参照了scikit-learn算法包[25].而对于AFS、DFM、FNN和PIN的参数都是根据其文献叙述和公开源码进行设置,只对其中涉及到数据格式和特征数量的参数进行微调.所有模型在两个典型数据集的实验结果被记录在表2和表3中.

根据表2所示,本文模型取得了最好的成绩,超过当前许多前沿的模型性能.基准模型典型算法RF和GBDT以信息增益理论为基础,充分地发掘每一个特征与标签之间的相关性,计算特征对分类结果的贡献度,再按照等级划分进行分类预测.而AFS首先采用多头注意力法来挑选出关键性的特征群,再利用特征群信息做分类,不仅能保持重要特征信息的完整度,又能减少噪声特征的影响.大多数方法都没有较好地挖掘特征之间的交互信息,没有探索交互信息对模型分类性能的影响,因此基于注意力和多视角表征算法能提取出特征间的交互信息,并将其应用到标签分类中,得到的实验结果有较大的提升,其准确率提升了约4%.从而证明特征交互信息在分类任务中发挥了重要作用.

在表3中,对于AFS模型,当选择特征数量为95个时,实验的各个指标成绩达到最佳.然而对于多实例多表征学习模型,当多实例生成器选择的图片的特征数量为120个左右时,针对不同的特征组合实例,模型能得到理想的特征交互表征向量,并且其分类性能表现得较好.

表2 在AIDS数据集上各算法性能比较

表3 在MNIST数据集上各算法性能比较Tab.3 Performance comparison on MNIST dataset %

为了进一步验证注意力机制能为本文模型提供更好的可解释性,且能利用多视角表征的有用的信息为每个样本选择出代表性的特征群,设计以下流程实验:对于每个类别的样本集,从所有测试样本中选择出最具代表性实例,然后统计出每个特征的出现频数,最后归一化和可视化这些特征频数.图2展示出模型为每个数字的关键特征的权重热力图.图2中每个像素代表一个特征,具有更大权重的特征所对应的像素值以更明亮的色调展示,反之用冷色调展示.与AFS提取特征点相比,本文模型提取的特征点分布具有规律性,能展示出每个数字的关键节点的信息,利用有限的节点特征,模型可以准确地预测出数字类别,降低检测复杂度,提升识别效率.这些数字图片热力图说明基于注意力机制和多视角表征模型能够从不同的可判别性的局部区域和数字边缘捕获到关键性的特征群并能学习特征之间的交互信息.利用特征的原始信息和交互信息,不仅能提高分类性能,而且使选择出的特征群更具代表性且符合实际.

3 结论

1)构建了基于注意力机制和多视角表征学习模型来为每个标签选择出更具代表性和切合实际的特征群.模型主要特征由实例生成器、多试图表征模块和自注意力机制模块3个方面组成.本模型在不同类型数据集上的实验性能超过多个基准模型算法,展示出其高效性和稳定性.同时,它能借助自注意力机制模块中权重向量为每个标签挑选出最具代表性特征群.

2)模型能从特征原始属性、全局特征融合属性和特征间交互性等多个维度挖掘特征信息,同时借助注意力机制对这些信息进行整合,既提升了模型分类的准确度和计算效率,又为标签挑选出关键性特征群,为其他任务开展提供便利.

猜你喜欢

实例注意力矩阵
让注意力“飞”回来
多项式理论在矩阵求逆中的应用
A Beautiful Way Of Looking At Things
矩阵
矩阵
矩阵
完形填空Ⅱ
完形填空Ⅰ
阅读理解两则