一种基于Laplacian的半监督特征选择模型

2019-03-04吴锦华万家山霍清华

重庆科技学院学报（自然科学版） 2019年1期

吴锦华万家山伍祥霍清华

(安徽信息工程学院计算机与软件工程学院，安徽芜湖 241000)

在机器学习和模式识别领域，传统学习算法在处理高维数据(如生物特征数据、基因数据、股票交易数据、社交网络数据)时容易遭遇“维数灾难”问题，即计算量随着维数(特征的数量)的增加而呈指数倍增长。目前的降维技术可分为2类：一类偏向于高维数据的有效表示，如特征选择、特征提取、稀疏表示等方法；另一种偏向于构建学习模型，如分类回归模型、聚类模型等。各种特征选择方法都有各自一定的优势，同时也存在一定的不足。本次研究，将提供一种同时引入LASSO稀疏项和Laplacian正则项的半监督学习特征选择模型。

1 LASSO法及其扩展模型

特征选择方法的目的在于从高维数据中提取有效表示形式，从而为目标学习模型提供帮助。具有代表性的特征选择方法有拉普拉斯积分(LS)、递归特征消除(RFE)、顺序向前移动选择(SFFS)、Fisher Score(FS)和套索算法(LASSO)等。基于稀疏理论的特征选择方法得到了较多的关注，比如LASSO方法。LASSO模型[1]引入的稀疏项保证有价值的特征能被选择，并且所选特征具有很强的可解释性，但它在处理高维数据时计算速度比较慢。基于LASSO方法，有人提出了Fussed Lasso方法[2]，可优化计算速度；有人引入流形正则项，提出了一种基于流形正则化的多任务特征选择方法(M2TFS)[3]；有人引入判别性正则化项，提出了判别性特征选择方法[4]；有人为解决非线性问题，在LASSO方法基础上引入了核函数[5]。另外，Conrad等人提出了一种稀疏蛋白质组分析算法(SPA)[6]。这些方法都是利用稀疏理论的相关知识来进行数据降维，但在线性映射过程中往往忽略了一些有用的样本结构信息。

实际应用中，通常出现大量的无标签样本，而有标签样本不易获取。如医学图形图像数据、基因数据等，都需要人工对其进行分类。因此，半监督学习技术备受关注，半监督方法可利用少量的标签信息而获得较好的方法模型。Jie Biao等人在M2TFS模型的基础上提出半监督模型semi-M2TFS[7]，并将其用于脑网络数据分析，对参数具有很强的鲁棒性。严菲等人提出了基于局部判别约束的半监督特征选择模型[8]，充分利用已标记样本和未标记样本训练特征选择模型，并借助相邻数据间的局部判别信息，提高了模型的准确度。奚臣等人结合流形正则化框架，提出了一种流形与成对约束联合正则半监督分类方法[9]。叶婷婷等人提出的基于有效距离的多模态特征选择模型[10]，也在于充分利用样本数据之间的结构分布信息。

近年来，随着正则化、稀疏化理论以及半监督模型的发展，相关技术已广泛应用于数据降维。基于前人的研究成果，本次研究将提供一种半监督拉普拉斯特征选择模型(semi-supervised laplacian feature selection，缩写为“SLFS”)。基本思路是：利用LASSO方法中的稀疏项，去除冗余特征；构建Laplacian正则化项，保存样本分布信息；通过重定义近似矩阵来构建半监督特征选择模型。

2 SLFS模型的建立

2.1 LASSO算法

LASSO方法最早是由Robert Tibshirani提出的，可将其简单刻画如下。

X=[x1,x2,…,xN]∈Rd×N

Y=[y1,y2,…,yN]∈RN

其中，X为给定的训练样本集；N表示样本的数量；xi表示样本X中的第i个特征向量；d为样本特征维数；Y表示类标签向量。在全监督分类问题中，yi表示Y中第i个样本的类标签，其值可以为离散值或具体数值。为方便数据处理，我们仅考虑2类分类问题，因此，yi∈{-1，+1}。

通常情况下，LASSO方法优化的目标函数如下：

(1)

其中，w表示特征向量的回归系数，维数为d。正则项‖w‖1为L1范式，用于在高维特征空间中产生稀疏特征解。如果wi=0，则表示对应的特征冗余；wi≠0，则为样本的有效特征，可用于后续的分类。λ是正则项的参数(λ>0)，主要用于平衡模型复杂度和数据拟合程度之间的相对贡献，其值通常可以通过交叉验证的方法来获取。

2.2 引入Laplacian正则化项

在LASSO及其扩展模型中，一般采用线性函数即f(x)=xTW=WTx，将原始数据从高维映射到一维。这仅仅反映了样本和对应标签之间的关联关系，忽略了样本数据之间的内在关联信息。为了解决这个问题，引入Laplacian正则化项，保存样本间几何分布信息。同种类型样本经过投影后会产生比较大的偏差，但通常情况下，2个样本如果为同一个类，那它们应该靠得更近。

(2)

2.3 构建近似矩阵

为充分利用无标签样本，并反映其内在的几何分布信息，首先定义对角矩阵P∈RN*N，用于标出有标签数据和无标签数据。如果样本i的标签是已知的，则Pii=1；否则，Pii=0。

采用式(3)定义近似矩阵：

Sij=exp(-dist(xi,xj)t)

(3)

其中，t为经验参数，可以根据经验来选取。

dist(xi,xj)=‖xi-xj‖2

如果2个样本xi和xj来自于同一个类，那么其经过映射后的距离就更小；如果来自于不同类，那么它们之间的距离就会更大。

2.4 设立目标函数

在某种意义上，Laplacian正则化项主要保存同类样本数据之间的特征空间分布信息，而该分布信息可以提高模型的分类性能[3]，且无标签样本更易获取。因此，以式(4)为半监督特征选择模型的目标函数。

(4)

式中：l和b为调谐参数(l>0，b>0)，主要用于平衡稀疏项和Laplacian正则项之间的相对贡献度，其值可在训练数据时通过交叉验证的方法来确定；L是根据式(3)重新刻画的Laplacian矩阵。

需要注意的是：式(4)的第一部分(即加下划线部分)只利用有标签数据进行有监督学习；而重新构建的正则项利用数据集中所包含的无标签和有标签数据，保存了原始数据的相邻几何分布信息，用于产生更具判别力的特征。如果使用的样本全部为有标签样本，且b=0，则模型退化为LASSO；如果全部采用有标签样本，则模型退化为Lap-LASSO[11]。

在模型中，引入的LASSO稀疏项的主要作用是选择少量有效特征；重构的Laplacian正则项用于保留同类有标签和无标签样本内在的几何分布信息，从而帮助模型选出更具有判别能力的特征集，为后续分类器提供最有效特征。

2.5 优化算法

采用加速近似梯度(APG)来优化所提出的方法模型。

首先，将目标函数划分为平滑部分和非平滑部分。

平滑部分：

(5)

非平滑部分：

g(w)=λ‖w‖1

(6)

其次，构造函数Ωl，对式(5)和式(6)求近似解。

Ωl(w,wk)=f(wk)+[w-wk,▽f(wk)]+

(7)

式(7)中，▽f(wk)为第k次迭代的wk点的梯度；l为步长，其值可以通过线性搜索的方式来确定。对APG中w的更新步骤定义如下：

(8)

其中

根据式(8)求解优化的问题可以划分成d个单独的子问题，这些子问题的解容易求取[12]。即

(9)

另外，根据文献[12]使用的方法，计算搜索点如公式(10)，用其代替在wi上的梯度下降。

Qi=wk-αi(wi-wi-1)

(10)

其中

3 模型试验

3.1 试验数据集

为了检验方法的有效性，用5个数据集(见表1)对模型进行验证。试验过程中，将数据集分成2个部分，一部分被作为有标签数据，另一部分作为无标签数据。

表1 试验数据集描述

3.2 试验方式及结果评价

对模型的性能分别从2个方面来评价[3]：(1)在使用和不使用无标签数据情况下，模型的分类性能表现；(2)固定有标签数据的占比，使用不同数量的无标签数据时，模型的分类性能表现。

在第一阶段试验中，固定50%的样本为有标签数据，其余的作为无标签数据，进行十折交叉验证。将有标签数据划分为10等份，在每次交叉验证中，将90%的有标签数据和所有无标签数据用于模型训练，剩余10%的有标签数据用于模型性能测试。试验重复10次，主要目的是避免样本的随机划分而导致结果偏差。比较试验结果与传统全监督模型的分类结果(见表2)，可以看出，在所有数据上，所提方法的分类精度都要高于参与比较的其他方法，说明SLFS特征选择方法更能改进分类性能。

表2 不同方法的分类结果

在第二阶段试验中，测试模型在不同数量的无标签数据上的分类性能。固定50%的样本作为有标签样本，然后在剩下的样本中依次选择10%、20%、40%、60%、80%、100%的样本作为无标签样本，进行十折交叉验证。根据试验结果，绘制了模型的分类精度变化曲线，如图1所示。

图1 无标签数据量与模型分类精度的关系

试验结果显示，在5个UCI数据集的分类上，随着无标签数据数量的增加，分类精度能一致得到提升。由此可见，充分利用样本数据中的几何分布信息，有助于选出更具判别力的特征。

4 结语

在处理高维数据时，为了克服“维数灾难”问题，LASSO及其扩展模型主要是采用线性函数来将原始数据从高维映射到一维。这样做，可以反映样本和对应标签之间的关联关系，但忽略了样本数据之间的内在关联信息。为充分利用无标签样本，反映其内在的几何分布信息，我们提出了基于Laplacian半监督的特征选择模型。通过引入Laplacian正则化项来保存样本分布信息，可以帮助获得更具判别力的特征。在UCI数据集上的分类试验结果表明，这种方法能有效提高分类性能，而样本的几何分布信息是不应该被忽略的。