基于大数据分析的在线学习算法理论探究

2020-08-08谢小义

科学咨询 2020年32期

汪云曾平谢小义

（天门职业学院湖北天门 431700）

引言

随着科学技术的不断发展，以大数据、云计算、物联网为代表的先进科技，逐渐在生活中产生了深远的影响。热别是大数据技术，能够通过对数据的收集、存储、计算和分析，使数据价值的意义得到充分的发挥，对生活各方面的影响越来越深远。传统的大数据计算，采用的是批量计算模式；经过不断发展，逐渐发展为在线学习计算，其效率得到了显著的提升，这一过程具有非常重要的现实意义。

一、基于大数据分析的在线学习算法的关键

尽管当前基于大数据分析的在线学习算法已经逐渐成熟，但是在以下三个方面还面临着关键的问题。

（一）收敛性较低

对于大数据技术来说，要处理的各种流数据具有非常明显的随机性，但是这些随机性的数据需要对其展开实时处理，并将结果迅速反馈出来；而且绝大多数的流数据仅仅在短时间内有价值，因此通过大数据展开计算和分析的数据，往往只有很少一些能够保存，而绝大部分会被放弃。因此，针对此类计算，系统必须要具备很高的收敛速度，才能够确保流数据的价值能够在其有效期内得到体现[1]。但是当前的在线学习算法，尽管与传统的批量学习计算相比，其效率已经有了大幅提升，但是其收敛性却明显不足，在分析实时流数据方面依然需要持续改进。

（二）可扩展性较低

大数据要处理的流数据是一个非常庞大的数据量，而且在数据源不停止的情况下，数据会持续生成，因此这样的数据的数量是难以量化的；同时，系统在针对流数据实施计算分析的过程中，由于具有无限多的庞大数据，所以是无法通过硬盘予以存储的，因此这样必然会造成流数据管理难度非常高。采用在线学习算法，也无需储存流数据，而是仅仅就内存中数据实施计算，这就意味着其扩展性相对较低，这对于在线算法的性能来说也是一种严重的制约。

（三）自动化工具较少

基于大数据分析的在线学习算法，往往需要在这个过程中对一些格式实施转化，对相关参数实施优化，然后才能够更好地满足计算目标，获得良好的满意度。在传统的批量计算模式下，因为这是一种静态训练的分析模式，所以出现了一些自动化工具，并且经过发展已经非常成熟，诸如Libsvm工具，这为批量计算模式提供了诸多便利[2]。然而，随着在线学习算法的出现，计算遇到的难度更大。既因为数据产生速度过快，又由于数据的生成量过大，而且要实现动态训练，所以使得传统的工具都无法适用。因此，适合于在线学习算法的自动化工具非常匮乏，这在一定程度上限制了在线学习算法的应用。

二、几种基于大数据分析的在线学习算法

（一）在线学习的线性模型

1.感知器的在线学习算法

在当前大数据分析为基础的在线学习算法中，产生了多种不同的算法，然而就应用范围来看，感知器的应用是最为广泛的一种。这是一种属于机器学习仿生学领域的分类学习机的模型，其算法具有较高的复杂度，在当前机器算法领域中有着非常广泛的应用。其主要算法原则为[3]：在正确分类的前提下，无需对其权重实施变化，因此对其实施“赏”；在错误分类的前提下，则应当对其发生的错误予以修正，就是调整其方向，因此应当针对其权重实施“罚”。然后，针对全部错误分类样本，以求和方式实施惩罚，具体可依据如下的算法公式：

从在线学习算法的分类上来看，感知器算法本质上是一种赏罚算法。该算法被广泛应用于线性可分问题的解决；而且作为一种相对比较基础的在线学习算法，感知器算法的出现，对于推动及其学习具有非常重要的意义。另外，随着感知器算法的不断发展，出现了一种更具收敛性的二阶感知器，这是一种可以持续对公式实施更新的计算方法，未来应该有更广泛的应用前景。

2.在线学习中被动—主动算法

这是一种能够主动得出全局最优解，并且以此为基础对其展开验证并能够确保其实现的算法模型。这种算法的本质思维，就是在一个样本的支持向量机的基础设想，从而使得向量机最大间隔约束得以有效的转化。此外，该算法的更新采用了如下的机制，当新数据出现错误，则会对算法实施更新，以最大程度的避免数据错误；当新数据无错误，则算法继续使用无更新。

3.在线稀疏解学习算法

该算法的根本原理是以批量整体训练为基础以得到边界最优值。然而，因为在线学习算法都是以随机梯度下降法作为训练方法的，所以在实际应用中结果的稀疏性是非常难以保障的，而通过梯度截取法，则能够在一定程度上得到有效稀疏解。通常是在过程中，把更新权重都以0赋值，这样就能够让出现的特征数目进一步增加，从而表现出稀疏权重向量。与随机梯度下降法相比，梯度截取法注意更能够保障算法的性能[4]。

（二）在线学习的非线性模型

在了解了在线模型的线性模型以后，我们对非线性模型也做一些简单的介绍。当前，主要的非线性模型有如下的四种方法。第一种是核感知器，这种方法本质上是线性模型中感知器算法的一种升级和发展，是一种基于核函数思想而产生的算法，使得其算法分类能力得到了非常明显的提升。第二种是核在线被动—主动算法，这同样是一种基于核函数产生的算法，该算法在批量向量机处理方面显示了非常强大的能力，然而迄今为止尚未大规模针对实用数据训练，因此实际应用中还不广泛。第三种是固定的缓冲器核在线学习算法，这是一种通过对随机感知器分类错误的集合的判断，当集合状态充分饱和，则以一个新的将次样本替换，以确保数据尽可能保持一定稳定性。第四种是核在线梯度下降法，这种方法目前也尚未大范围推广应用。

（三）非传统的在线学习算法

除了上面介绍的各种在线学习算法以外，还有一些非传统在线学习算法，其中最为典型的有两种，一种是多任务在线学习，另一种是组LASSO在线学习。前者主要是基于共享信息的前提下实施若干关联任务的同时学习，因此其效率相对于常规学习方法来说要明显更高。后者的主要优势是使用非常便捷，复杂程度相对较低，因此其在学习目标变量选择方面有较为广泛的应用。

三、基于大数据分析的在线学习算法的发展趋势

（一）学习的泛化能力与可理解性的强化

当前大数据领域的研究日新月异，在这样的发展速度下，我们有理由相信，在未来的发展中，在线学习算法必然会遇到各种各样的极具挑战性的问题，而克服这些挑战性问题就是推动技术持续发展的动力。其中，提升学习泛化能力是在线学习算法的发展中遇到的一大难题之一，而这也是当前在应用领域对于学习算法的最大的期待。就当前学习理论的发展状况来看，向量机泛化能力技术，基本上都涵盖了从理论到实践的全方面。并且，在很多领域中，可理解性对于学习算法同样具有至关重要的意义。

（二）学习速度与应用能力的提升

在社会的实践领域，将各种机器学习方法融入其中，从而在提升社会事务效率的同时，也使得机器学习速度得到进一步提升，这是在大数据理论不断发展以后研究人员追逐的目标。然而，在学习速度和训练速度之间，如何能够找到有效的平衡，进而消除二者矛盾，这是一个非常重要的课题。比如，K邻算法尽管其测试速度相对较差，但是实际应用的速度却非常理想[5]。传统学习算法，主要针对标记数据，而在线学习算法将针对所有产生的数据展开，因此其对处理速度有更高的要求；再加上在处理过程中还必然会受到属性变化、噪声干扰等影响，因此还需要其具有更强的应用能力，从根本上提升其应用效率。

四、小结

大数据时代的来临，对于在线学习算法来说，既是一种良好的机遇，又提出了更高的挑战。所谓机遇，是因为大数据为在线学习算法提供了更优秀的技术支持；所谓挑战，是因为大数据独有的诸多特性，颠覆了传统学习算法，主要是批量机器学习的模式。在无法计量，且不断生成的大数据模式下，批量机器算法远远无法满足实际计算需求，而在线学习算法当前也还存在着一些问题。基于此，本文针对基于大数据在线学习算法展开总结性的阐述，同时对未来的发展趋势也作出了分析，笔者希望其有助于我国在线学习算法的不断发展和推广应用。