一种基于正则化方法的非负矩阵分解算法研究与应用

2020-11-09李小珍

安阳师范学院学报 2020年5期

李小珍

(安徽国防科技职业学院，安徽六安 237001)

0 引言

非负矩阵分解(NMF)是由学者Lee和Seung首次提出的矩阵分析方法，随着信息化技术的快速发展，矩阵分解在大数据处理和模式识别中发挥着越来越重要的作用[1]。传统的矩阵分解工具，结果中普遍含有负数，这为实际应用带来了一定的难度。与此不同的是，非负矩阵分解的所有结果均为非负值，对象的物理表达更加自然，具有更加广阔的应用前景。但是传统非负矩阵分解方法无法同时考虑数据样本特征信息和数据固有几何结构，在一定程度上影响了数据的聚类结果。本文将图正则化方法和半监督学习思想深度结合起来，提出新的非负矩阵分解算法。该方法充分考虑样本的类别信息和数据空间的几何流行结构信息的有效性，并以图像聚类为例，选择ORL数据集进行算法验证[2]。

1 图像分类与模式识别

图像数据的维度较高，直接影响了图像分类的准确性和运算效率，所以图像分类的第一步就是图像降维。降维能够去掉冗余的维数，将有用的维数保留下来，实现高维数据低秩逼近。图1所示为图像分类的基本框架，首先通过图像降维处理获得图的特征值、特征向量，然后将其输入分类器或者支持向量机，以此实现图像分类。

图1 图像分类的框架

2 非负矩阵分解

2.1 非负矩阵分解的基本概念

对非负矩阵X∈Rm×n来说，矩阵分解的目标就是为了得到两个非负矩阵W∈Rm×r和H∈Rr×n，使得X≈WH，其中r=min(m,n)。X≈WH的求解可以近似看做是求最优解的问题。常用的非负矩阵分解的目标函数有基于欧式距离和基于K-L散度两类。

基于欧式距离的目标函数可以表示为：

(1)

基于K-L散度的目标函数可以表示为：

-Xij+(WH)ij)2

(2)

在统计独立性方面，K-L散度具有突出优势。K-L散度是X和WHT差异的非对称性度量。当X=WHT，K-L散度函数最小值为0。如果单独分析矩阵W和H，那么上文提到的目标函数为凸函数；如果同时考虑矩阵W和H，那么目标函数不是凸函数。非负矩阵分解之后的矩阵W和H具有稀疏性，可以有效的降低数据冗余。但是，这种方法带来的稀疏性不够明显，很多情况下无法满足应用要求，所以需要在目标函数中增加稀疏限制项。非负矩阵分解算法及其常见的改进算法中，矩阵W和H的初始值都是随机选择的，这些随机值均为非负值。如果实际问题相关信息不明确，那么W和H的初始值无法确定，只能随机选择。非负矩阵分解算法类似于约束优化问题，执行问题的步骤复杂繁多，选择最优分解也带来了很大的时间消耗，无法满足实践应用需要[3]。