APP下载

秩优化的张量岭回归算法

2016-07-10张建光刘洁晶石龙

农村经济与科技 2016年8期
关键词:矩阵向量因子

张建光 刘洁晶 石龙

[摘 要] 本文基于张量CP(CANDECOMP/PARAFAC)分解提出了秩优化的张量岭回归模型。通过模型中引入结构性稀疏项L(2,1)-范数,可以在模型参数训练过程中自动选择CP分解的秩,得到准确的张量分解形式。为了验证本文算法的有效性,在2个多媒体数据集上进行实验。实验结果表明本文的算法与对应的向量算法相比,取得了更准确的分类结果。

[关键词]张量;CP(CANDECOMP/PARAFAC)分解;L(2,1)-范数

[中图分类号]TP391.41 [文献标识码]A

1 引言

目前,很多基于向量的分类方法被提出,比如:K最近邻(K-NearestNeighbor,KNN)分类算法,岭回归(Ridge Regression,RR)分类算法等。由于这些基于向量的分类算法具有简单有效的归纳特性,因此被广泛的用来处理多媒体分类的问题。但是这些方法需要按照一个指定的排列规则,把张量多媒体数据或多媒体特征简单的排列成一个高维向量。这样做不仅会破坏多媒体的空间结构,也会导致高维向量的产生。

如何构建有效的张量学习算法成为多媒体分类的重要研究内容。本文在CP分解后,通过定义因子矩阵转置后的L(2,1)-范数,得到因子矩阵的列稀疏结构,由于因子矩阵的列数目与张量的秩是相等的,通过删除因子矩阵中的稀疏列可以实现张量秩的自动选择。本文提出的算法是对向量岭回归的张量扩张,因此称为秩优化的张量岭回归回归模型(Rank optimization for Tensor Ridge Regression,RoTRR)。

2 秩选择的张量岭回归算法

每一个多媒体数据可以表示为一个阶张量,第阶的维度为。多媒体数据对应的分类标签为。因此个多媒体数据可以表示成张量数据集。可对传统岭回归进行张量扩展得到:

(1)

其中为模型的张量权值参数,为范数作为正则化项防止过拟合,为正则化项系数。

对式(1)的张量参数进行CP分解,可以得到个因子矩阵。每一个因子矩阵的列数是相同的,而且与初始假定的张量秩相等。由于初始的张量秩是较大的,因此CP分解后的结果包含大量的噪声或者冗余信息。首先定义一个组合因子矩阵。的列数与张量的秩是相等的,值得注意的是的每一列对应的是一个秩-1张量的所有因子向量,如果某一列出现稀疏也就意味着这一列对应的秩-1张量是冗余或者噪声信息,应该删除掉,反之,应该保留。通过这种方式,我们可以最终获得包含主要判别信息的秩-1张量。最终剩下的秩-1张量数目,即的列数就是张量的秩。这样通过训练学习可以自动获得CP分解后张量的秩,解决了张量秩不唯一的问题。Tan提出采用范数作为正则化项,可以获得张量分解后的稀疏结构,但是并不能在列方向上产生结构化的稀疏结果,这样就不能自动的选择张量的秩。Han指出,采用范数可以在矩阵中产生行方向的稀疏。因此我们采用转置的范数作为正则化项,可以达到秩选择的目的。综上所述,我们可以得到:

(2)

因为式(2)中有个参数需要进行训练估计,式(2)对个参数不是联合凸函数,但是当固定其他参数,式(2)对任意一个参数是凸函数,所以我们采用交叉优化的方法对式(2)进行优化。

3 实验结果及分析

本文在两个2阶图像数据集(binary alpha digits(BAd),USPS)构造实验。实验中每一幅灰度图的大小被定义为个像素。为了估计算法在少数训练数据的性能,每一类随机选取1一个图像作为训练数据,其他图像作为测试数据。随机测试5次,以5次的平均值作为最终结果。

实验的对比算法为:KNN算法,岭回归(RR)算法。所有类的平均准确率(Average accuracy)作为评价法则评估算法的分类效果。算法RoTRR与RR参数调试范围为,每一个算法的最优的结果作为该算法的最终结果。算法KNN的参数k设置为10。

3.1 实验数据集

4 结论

本文提出秩优化的张量岭回归算法,解决了张量CP分解中秩不唯一的问题,可以更有效地利用张量中的相关信息。在两个图像数据集上构造实验,以所有类的平均准确率为衡量标准,分析了本文算法的性能与相关参数。通过实验分析得出本文提出的算法可以取得更优的分类结果。

[参考文献]

[1] Shakhnarovich,G.,Indyk,P.,Darrell,T. Nearest-neighbor methods in learning and vision:theory and practice. Cambridge Massachusetts,MIT Press,2006 .

[2] Hoerl,A.E.,Kennard,R.W.,Ridge regression:biased estimation for nonorthogonal problems. Technometrics,1970,12(1),55–67.

[4] X. Cai,F. Nie,H. Huang,and C. Ding. Multiclass l1,2-norm support vector machine//Proceedings of the International Conference on Data Mining,Vancouver,Canada,2011:91–100.

[5] Tan,Xu and Zhang,Yin and Tang,Siliang and Shao,Jian and Wu,Fei and Zhuang,Yueting. Logistic tensor regression for classification. Intelligent Science and Intelligent Data Engineering. 2012,573--581.

[6] Han,Yahong and Yang,Yi and Zhou,Xiaofang. Co-regularized ensemble for feature selection//Proceedings of the international joint conference on Artificial Intelligence,Beijing,China,2013:1380--1386.

猜你喜欢

矩阵向量因子
向量的分解
一类常微分方程的解法研究
直径不超过2的无爪图的2—因子
图的齐次因子分解
巧解难题二则
多项式理论在矩阵求逆中的应用
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
矩阵
矩阵