APP下载

基于Hilbert-Schmidt独立准则的多标签学习算法

2023-06-22李程文邓家亮

无线互联科技 2023年4期
关键词:特征选择相关性

李程文 邓家亮

摘要:与传统二分类或多分类的单标签问题不同,多标签问题研究中一个目标可能与多个标签相关联,标签之间丰富关系的存在导致对多标签问题的分析研究更加复杂。针对如何利用特征与标签、标签与标签之间的关系的问题,文章提出了基于Hilbert-Schmidt独立准则的多标签学习算法。该方法利用Hilbert -Schmidt独立准则评估特征和它的标签之间关联性并对其进行改进,采用多项式核函数代替线性核函数来衡量特征和标签的相关联性,考虑到不同标签对分类的贡献不同,加入标签权重矩阵。实验证明,文章研究的算法可以提高多标签分类的性能。

关键词:多标签:特征选择:相关性:Hilbert-Schmidt

中图分类号:TP181

文献标志码:A

0 引言

在实际生活中,数据多以多标签的形式存在的,使得多标签特征选择、分类和识别成了机器学习中重要的研究方向之一。对比传统的单标签数据,多标签数据由于存在复杂多变的目标对象以及庞大的标签组合空间,变得十分具有挑战性[1]。多标签数据最主要的特点是数据的多个标签之间存在着相关性。探索标签的语义信息和相互联系,是提高多标签学习方法的性能的重要手段之一[1]。如在经典的行人检测数据集INRIA Person Dataset中,图片分为只有车、只有人、有车有人、无车无人4个类别,其中既有车又有人的图片则属于典型的多标签图像,如何精准地识别出有车又有人的图片中的行人就是多标签研究中常见的问题[2]。

本文提出了一种新的多标签分类算法框架,即基于Hilbert-Schmidc独立准则的多标签学习算法。这种算法利用Hilhert -Schmidt独立准则评估特征和它的标签之间关联性,对其进行改进,采用多项式核函数代替线性核函数来衡量特征和标签的相关联性,考虑到不同标签对分类的贡献不同,加入标签权重矩阵。

1 Hilbert-Schmidt独立准则

Hilbert - Schmidt独立评估准则是一种基于核函数的变量相关性评价方法。该方法首先计算2个变量在再生核希尔伯特空间( RKHS)中的互协方差,然后从这些变量中选择出适合用于多标签分类的特征[3]。

虽然HSIC准则可以很好地用来评估2个变量在核空间中的相关性,但是对于多标签数据而言,不同标签对于同一特征的重要性是不同的,而且多标签数据的多个标签之间存在某种相关联性。本研究对HSIC准则进行改进,采用多项式核来衡量标签之间的相关联性,加入标签权重。

2 多标签分类算法

选择出来的最优特征应使得特征和它的标签之间具有最大关联性。对于每一个特征,不同标签与它的关联性和重要程度是不一样的。本研究引入权重矩阵β。根据HSIC准则,式(7)可以改写为如下:

3 实验

3.1 数据集

本次实验使用的是化合物毒性预测( PTC),该数据集包含作用在4种不同老鼠身上的417种不同的化合物致癌信息。每一种老鼠体内被注入任意一个化合物都会产生CE、SE、P、E、EE、IS、NE、N类医学反应,其中P、SE和CE屬于正标签类别.N和NE属于负标签类别,E、IS和EE属于不明确标签。在实验中,本研究将这类标签移除。最终得到253种化合物实验的数据,并分配4类标签,即小型的雄性老鼠MM、大型的雄性老鼠MR、小型的母性老鼠FM、大型的母性老鼠FR[4]。

3.2 实验方法

为了体现本文方法的实用性和有效性,将设置以下对比实验:

(1)单标签+SVM:这种方法是将多标签分类任务转换为多个二分类任务,使用SVM作为二分类器将数据分类成多个二分类别。

(2) MLFS+ BoosTexter:采用评估方法选择适合的多标签特征数据,然后采用多标签分类器BoosTexter对其进行分类。

3.3 实验结果

在实验中,整个数据集被划分为10个相等大小的部分。其中.1份用作验证集,其余9份用作训练集,然后重复10次,直到每份都曾用作验证集,其余折叠用作训练集。为了验证算法的有效性,本研究采用Average Precision和Hamming Loss评估多标签分类性能。实验结果如图1和图2所示,可以看出无论是Hamming Loss还是Average Precision,本文提出的方法MLFS-BT分类效果比SL-SVM的分类效果好。

4 结语

本文采用Hilbert - SChmidt独立准则评估特征与标签之间关联性,采用多项式核函数对其进行改进,同时考虑到不同标签对分类的贡献不同,加入标签权重矩阵,从而选择出对分类起作用比较大的特征,通过实验证明方法的有效性。以后的研究可以考虑将算法扩展到多标签图像识别领域。

参考文献

[1]李为.基于图神经网络的多标签图像识别[D].哈尔滨:哈尔滨工业大学.2021.

[2] BEN-BARUCH E, RIDNIK T,ZAMIR N,et al.AsVmmetriC loss for multi -lahel classification[ EB/OL].( 2021 -07 - 29)[2023 - 01 - 20]. https://www. xueshufan.com/publication/3090578762.

[3]张居杰.多标签学习中关键问题研究[D].西安:西安电子科技大学.2016.

[4]李远航.基于图数据的主动学习方法的多标签分类研究与应用[D].广州:广东工业大学,2015.

(编辑王永超)

猜你喜欢

特征选择相关性
Kmeans 应用与特征选择
小儿支气管哮喘与小儿肺炎支原体感染相关性分析
脑梗死与高同型半胱氨酸的相关性研究(2)
脑梗死与高同型半胱氨酸的相关性研究
会计信息质量可靠性与相关性的矛盾与协调
基于GA和ELM的电能质量扰动识别特征选择方法
联合互信息水下目标特征选择算法
基于特征选择聚类方法的稀疏TSK模糊系统
基于特征选择和RRVPMCD的滚动轴承故障诊断方法
基于二元搭配词的微博情感特征选择