浅析稀疏优化在机器学习中的应用

2019-09-24李董东

电脑知识与技术 2019年19期

李董东

摘要：Machine Learning翻译过来即是机器学习简称ML，其是一门复杂的学科涉及的领域很广泛且其算法理论也是相对复杂。什么叫作机器学习呢，从字面就可以看出是有计算机的参与，通过模拟学习人类的行为来达到实现人类行为的目的。稀疏优化主要的目的就是将问题得到优化，那么这一过程则是会有优化模型的参与以及运用到一些相对应的算法。但是当前其过程涉及的一些理论知识以及算法一类的其实还是不那么成熟是需要继续发展的。在近几年中，稀疏优化在很多的领域方面得到了应用，例如对信号，图像的处理方面或者一些工程，金融中都有涉及，目前已经晋升到其领域中的一个很重要的分支。

关键词：机器学习;模型;稀疏优化

中图分类号：TP3 文献标识码：A

文章编号：1009-3044（2019）19-0194-02

1 引言

机器学习带有很重要的任务，为了确定其内在的一些特定规律，例如对数据进行观测;目前机器学习的设计的方法很多同时也是相当的关键，其重点涉及了稀疏优化模型。那么本文通过对其模型进行了优化且将其运用到了机器学习的过程中，对其结构进行改建;同时也针对这种模型创新了新型算法来进行建立。

目前在机器学习的创建过程中有很多的问题需要关注，不仅仅是涉及算法的一些问题，同时也有些工程领域的东西涉及信号，图像的处理，统计以及数据挖掘等。那么为了寻找针对稀疏解所涉及的优化模型，算法等，我们有了稀疏优化这种方式。稀疏是具备一种简单结构不是单指很少的非零分量，通过其特性-稀疏性，一些专家能够通过这种特性设计出更好的优化算法来解决很多问题。

对于针对机器学习的重点问题是要有一个特定规律，这种规律是要有数据为依据，这种规律往往是比较简单的，所以为了对这种模型有更深入的了解，目前算法中涉及的稀疏解结构也是相当重要的。

2 用于机器学习的稀疏优化模型及算法

文中涉及的疏优化模型是非常抽象的结构。最近几年来做过了很多这方面模型的研究且发现其中的典型模型都具备这种抽象结构，为了进一步了解，文章在后面会进一步让我们了解多钟类型的稀疏优化模型，且其都是针对解决不同问题的情况创建出的，而且都是在原有的经典模型基础上的演变或优化得来的。目前经典款的也得到了很多的算法和软件包，但是在某些问题中在某些模块上还存在一些问题不能满足要求;这篇文章中提到了一种新型的算法Splitting，这种算法是专门针对求解这一模型特别是PCA模型的通用软件包。

2.1 用于机器学习的稀疏优化模型的抽象结构

机器学习并不只是建立在计算机的基础上的简单行为操作其实更重要的是用来观测数据，这些数据是建立在用户的基础之上的，目的是找出一些规律，对用来说比较有兴趣的规律，一般情況下使用某一函数或映射关系来表示出这一种规律，目前我们用字母f来表示这一种关系，那么在一定的数据的基础下，这之间的关系可以以函数表示，如下：

[min V（f;Θ），]

其中。表示观测数据，[V（?）]是给定的极小化准则.本文所涉及的稀疏优化模型中，[V（?）]均为某个损失泛函，表示映射f在观测数据上的偏差.用户观测到的数据（称之为样本），其容量是有限的.在有限样本上学习建立近似映射f的任务往往是一个不适定问题.因此，映射了应当限制在某一函数集合[Mt]上：

[min V（f;Θ），s.t. f∈Mt]

其中参数[t≥0]控制集合[Mt]的大小.在稀疏优化模型中，通常选取从使其具有某种简单或特定的结构.

本节指出，近年来广泛研究的几种典型的稀疏优化模型均具有如上面的模型所示的抽象结构，且极小准则[M（?）]均为某个度量下的经验损失。

1）Lasso模型

在Lasso模型（（1.1）中，[f∈Mt]，[Mt]是由[Rn]上的线性函数[f（?）=x，?]构成的空间，其中系数向量x的所有分量绝对值加和不超过t.经验损失[V?]是观测点上的平方损失之和：[V（f;xi，yi）=12=i=1m（f（xi）-yi）2]。

对于Lasso模型的变形Group Lasso模型（它的函数空间[Mt]是由[Rn]上的线性函数[f（?）=x，?]构成的空间，使得线性系数x的[·1，2]范数不超过t。

2）矩阵秩极小化

在矩阵秩极小化模型中，函数[f∈Mt] ，[Mt]是由矩阵空间[Rp×q]上的线性函[f（?）=x，?]构成的空间，其中系数矩阵X的奇异值的加和不超过t.经验损失V（.）是观测点上的平方损失之和。

2.2 收敛性分析

这一节提到的对收敛性分析是建立在如下的假设中，具体如下：

假设1（唯一指标假设）。在任意迭代步k，仅有一个指标导致了步长条件，即[γk+，γk-，γk--]和[γk++]中仅有一个量达到了式确定的步长[γk]，仅有[Ik1，Ik2]或[Ik3]中的一个指标使得步长条件成立.

假设2（非退化指标假设）.在任意迭代步k，不存在中的指标满足下列条件：

2.3 协同过滤数据的可预测性评估

目前在电子商务这个领域协同过滤这种方法是运用得最多的，其目的是为了协助客户找到自己喜欢的产品，而且对于协同过滤来说，它带有基本的任务，即是能够参与到涉及用户一商品矩阵中来且针对其未知的部分进行评分。对于大部分针对协同过滤这一块的工作来说，很多的时候只是在研究改善其算法，但是由于受到一些限制，所以导致整个评分矩阵中存在一部分没有办法被预测。这篇文章中涉及的相关性是能够改善这一问题的，且相关性的计算不是那么容易的，是建立在不同的社区之间，切涉及Lasso模型才能够得到的。目前存在两个概率，一是能够精确预测以及二是难以预测这两个点，其两点都是相关性度量在进行评分时候的参考依据。

评估一个用户一商品评分对的可预测程度涉及两块，第一参考先验信息，其是跟这一好坏程度挂钩的，当用户能够有好的算法推荐，且是好的数据点上，那么可以依靠协同过滤算法，且用户一商品可以被准确预测的程度是可以通过这一“好的程度”来实现的。一个“好”的用户一商品对含有足够的相关的评分信息，因此预测的评分是可信的。一个“坏”的用户一商品对缺少有关联性的评分信息，这个是可以做出可靠预测的关键凭证，所以协同过滤算法得出的预测值是有待考察的尤其是针对这些用户一商品对上面。其次，针对户一商品对的信息不论其好坏程度其实对于协同过滤算法的设计或者是优化都是有好处的。目前参考很多的实验结果且是关于协同过滤算法，可以看出好的评分精度是更高的，远胜于坏的评分的精度。这样的研究考察是有益于设计出新的算法，针对评分数据的质量好换之分都是可以运用于不同的情况，可以运用不同的方法处理。

最近几年，在协同过滤这个系统中也有引进双聚类和图模型，是用来刻画研究偏相似性，是介于商品和用户之间的这种关系，然而双聚类方法确是具备一定的限制，紧紧适用于商品子集合和某些特定的用户，对于某一个用户一商品对可预测程度的度量确实不适用的。同时一些用户商品也可能不适应于任何的一个分类的当中，即使是他们具备评分信息的充足性也是不被包含的。为了解决这一种的问题，我们需要利用图模型来解决将其都包含到不同的类别中去。但是由于在同一个类别中用户—商品都是应该对应同一个类，所以当涉及评分波动时，无论其幅度的大小，其可预测程度依旧是不太直观的。

这篇文章中涉及了相关性这一词，是用来阐述上文中提到的可被准确预测的程度，专门针对用户一商品对之间的。相关性的值是会被某些因素所影响的，例如其过程中涉及的用户以及社区。那么为了计算其之间的相关性需要涉及两个部分，其一是用户的性关系以及商品之间的。针对用户之间的相关性，为了解决其问题建立了Lasso模型。为了计算商品的相关性可以通过[l1-]一范数的参与能够了解到相关的信息，我们都知道用户一商品和社区之间的关系是一对多，因此其高质量社区的确定是通过得到的极大化相关性的值来判断出的。

2.4 从时间序列基因表达数据中推断基因正则化网络

GRN对于基因功能的研究是非常关键的方法之一，那么GRN到底是什么呢？GNR中文名即从时间序列基因表达数据中推断基因正则化网络。依据目前的手段方式只能从其数据中推断出单个网络，但是其网络一般来说都是具备结构的，一般都是有很多个子网络，而且各个子网络之间都是具备关联性的，在基因功能上都是层层关联。目前本文中提到的方式即NCI也就是网络和社区识别，我们这种方式是将社区结构信息结合在一起，通过基因表达出的数据来进行推理的。这种NCI方法中涉及的模型其实也是具备前面提到的稀疏结构，通过对此的运用使得其发展得到了推广，目前正积极运用到基因正则化网络之中。

目前DNA微阵列技术发展得相当迅猛，因此很容易产生出大量的针对事件序列基因的表达数据，这能够快速且有效的解决一些问题以及解出一些复杂的关系网络。当前世界上已经有多重可以推断出GRN的方式方法。例如布尔网络是其中的一种，其存在两种状态，on或者off，但是布尔逻辑规则才能判断出基金的下一个时间状态。贝叶斯网络对于两个基金之间关系的判断是不一样的，则是利用条件概率函数来进行推理的。这些不同的特性是有关键的作用的，尤其是当涉及有大规模的GRN的动态以及非线性性质的参与建模的情况时，结果就能受到影响更加的准确了。然而很多的也存在一些不能解决的问题，就例如贝叶斯网络由于不能含有圈所以导致处理的时候效率大打折扣。但是目前也出现了解决方法，现有的COES即常微分模型就能解决这一问题。

其实当前很多的涉及大规模网络中的一些基因关系的研究方法却没有很多，大部分其实都是针对小规模情况的研究。同时现有的一些传统方法也是针对一些小规模网络，并且现在针对大型的GRN也存在很多的挑战，尤其是現有的计算问题，其过程相当的复杂而且整个过程也是相当的耗费时间，因此一般情况下都会事先预设其具有稀疏性这一特性再来进行GRN建模，这样做的目的是使其计算的复杂程度能够有所降低。

参考文献：

[1] 潘丽丽.稀疏约束优化的最优性理论与算法[D].北京交通大学，2017.

[2] 滕跃.稀疏离散优化问题的数值解法[D].大连理工大学，2017.

[3] 闫晓斐.基于PET/CT的肺结节分割与良恶性诊断方法的研究[D].太原理工大学，2017.

[4] 黄金洪.基于稀疏优化的超限学习机及应用研究[J].华南理工大学，2018（5）.

【通联编辑：代影】