APP下载

结合稀疏表示和邻域互信息的类属属性学习

2020-06-11赵冬冬

电子技术与软件工程 2020年1期
关键词:互信息信息熵邻域

文/赵冬冬

(安庆师范大学计算机与信息学院 安徽省安庆市 246011)

1 引言

近年来,很多的学者倾心于多标记的学习研究中,并且提出了很多行之有效的多标记学习算法。每个标记都存在他本身固有的属性,而这些固有的属性对于判断样本是否含有某些标记特性时,提供了更加有力的证据。从而Zhang[1]等人提出了基于标记类属属性的多标记学习算法。互信息是信息论和统计学中一种经典的统计算法,常用来计算样本和类别的相关性,Hu[2]等人提出一个假设,将具有相似特征值的样本划分为相同的类或邻域类,并将邻域概念整合到香浓熵信息论中,提出了一种新的信息度量,称为邻域信息熵,互信息越大则表示候选特征越重要。

本文提出了结合特征稀疏表示和邻域互信息的类属属性学习方法。首先,采用最小二乘法回归作为目标函数,通过添加L1 正则化稀疏表示特征。但是对于各标记而言,使用lasso 回归所提取的类属属性可能还存在一定的冗余,因此我们将各标记和已提取的(LSF)进行再次属性约简。随后,通过邻域互信息将各标记的类属属性进一步约简,结合邻域信息熵对新的特征空间中所有特征分别计算其与标记空间的邻域互信息,根据邻域互信息的大小对特征依次进行排序,并取前90%作为最终的特征子集。本文所提的算法在6 个多标记数据集上进行了测试,实验结果说明本文算法是有效的。

2 多标记学习及其邻域信息熵

2.1 多标记学习框架

定义[3]X=Rm表示m 维样本空间,样本集合类别标记集合给定多标记训练集在特征空间中,样本xi用m 维属性向量来表示,样本xi对应于标记空间中的标记集合记为当xi含有标记时

2.2 邻域信息熵

Hu[4]等将邻域概念与香农信息理论进行了融合。林等将邻域信息熵推广到了多标记学习中。下面将介绍邻域信息熵的定义:

Hu[4]等将邻域概念与香农信息理论进行了融合。林等将邻域信息熵推广到了多标记学习中。下面将介绍邻域信息熵的定义:

定义1[4]给定样本集合标记集合样本xi在标记li下的邻域大小为:

表1:多标记数据集

定义2[4]样本集合特征集合为F,特征f,样本xi在特征f 下的邻域用表示。样本的不确定性定义为:

一组样本集合的平均不确定性定义为:

定义3[4]给定一个特征fi和标记空间L,那么,特征与标记空间的邻域互信息定义为:

3 结合稀疏表示和邻域互信息的类属属性学

3.1 基于稀疏表示的特征降维

Lasso 算法是一种同时进行特征选择和正则化的线性回归分析方法稀疏矩阵,其基本思想是在回归系数绝对值之和小于一个阈值的条件下,使残差平方和最小化,将相关性较低的变量的系数压缩为0,然后删除这些特征变量,从而达到降低特征空间维度的目的[5]。

其中X 为特征的矩阵表达形式,Y 为标记的矩阵表达形式,α 控制稀疏性,W 即所要求的稀疏表达系数矩阵。通过对误差函数施加L1 正则化达到稀疏化稀疏矩阵W 的效果。由于目标函数存在L1 正则项,无法求其封闭解。因此,本文通过Adam 算法进行问题求解。

3.2 邻域互信息对多标记特征进行重要度排序

表2

互信息已被证明是一种有效度量特征与标记空间相关性的评价准则。根据定义(4)可知,候选特征与类别标记的邻域互信息越大,则说明该候选特征越重要,否则,特征的重要性越低。利用Lasso降维后的特征空间记为给定特征fi和fj及标记空间L,若存在:

则表示特征fi对标记类别的重要度大于特征fj,根据公式(6)所计算的邻域互信息值的大小对特征依次进行排列

为了对某个标记已选类属属性进行再次的特征约简,我们将得到的特征排序提取其90%特征,最终得到m 个标记冗余特征约简后的类属属性。我们通过SVM 分类器去构建最终的分类模型,得到m 个标记的预测模型。

4 实验结果

4.1 数据描述

本文采用了Emotions、Genbase、Medical、Yeast、Enron、Rcv1sub1 这6 个数据集来验证本文算法的有效性,各数据集的相关信息见表1[6]。数据均来自于http://mulan. sourceforge. net / datasets.htm.对维度约简后的特征空间以SVM 作为分类器进行训练和测试.实验选取多标记常用的4 种性能评价指标。表中 ↑ 表示指标数值越大越好,↓ 表示指标数值越小越好。实验所得的最好结果用黑体字表示。各实验结果后面“()”内的值表示每个数据集在各算法上的排序。

用于实验的多标签数据集。“Card”,“Den”“Type”分别表示标签基数、标签密度和特征类型。见表1。

4.2 结果分析

见表2。

(1)在Hamming-Score 指标上的6 个数据集中有2 个并列排名第一,其中在Emotions 数据集上,仅比最优值相差0.001,在Rcv1sub1 数据集上仅比最优值相差0.008,平均性能较好。

(2):在Exact-Match 指标上的6 个数据集中有5 个排名第一,1 个BR 与LLSF 并列第一,平均排序第一,性能最优。

(3)在MacroF1 指标上的6 个数据集中有5 个排名第一,一个第二且比最优值相差0.002,平均排序第一,性能最优。

(4)在MicroF1 指标上的6 个数据集中,有3 个排名第一,两个并列第一,平均排序第一,性能最优。

综合来看,在4 个评价指标的所有平均排序均优于其他算法,证明了本文所提算法的有效性。

5 结束语

本文通过引入最小二乘法回归作为目标函数,并添加L1 正则化稀疏表示特征来降低特征维度以解决计算开销过大的问题。另外,为解决高维数据中无法估计先验概率或因离散化会导致信息丢失等问题,本文利用邻域互信息替代传统信息熵评估候选特征的重要度。综上,结合稀疏表示和邻域互信息的类属属性学习,实验结果和假设检验进一步说明本文算法是有效的。不足之处在于利用邻域互信息对降维后的特征空间中的特征进行重要度排序时并未考虑特征与特征之间的依赖性,这将是本文下一步的研究方向。

猜你喜欢

互信息信息熵邻域
基于信息熵可信度的测试点选择方法研究
稀疏图平方图的染色数上界
基于邻域竞赛的多目标优化算法
基于信息熵的实验教学量化研究
一种基于信息熵的雷达动态自适应选择跟踪方法
关于-型邻域空间
基于互信息的贝叶斯网络结构学习
联合互信息水下目标特征选择算法
基于信息熵的IITFN多属性决策方法
改进的互信息最小化非线性盲源分离算法