基于大数据分析的在线学习算法理论探究
2020-08-08谢小义
汪 云 曾 平 谢小义
(天门职业学院 湖北天门 431700)
引 言
随着科学技术的不断发展,以大数据、云计算、物联网为代表的先进科技,逐渐在生活中产生了深远的影响。热别是大数据技术,能够通过对数据的收集、存储、计算和分析,使数据价值的意义得到充分的发挥,对生活各方面的影响越来越深远。传统的大数据计算,采用的是批量计算模式;经过不断发展,逐渐发展为在线学习计算,其效率得到了显著的提升,这一过程具有非常重要的现实意义。
一、基于大数据分析的在线学习算法的关键
尽管当前基于大数据分析的在线学习算法已经逐渐成熟,但是在以下三个方面还面临着关键的问题。
(一)收敛性较低
对于大数据技术来说,要处理的各种流数据具有非常明显的随机性,但是这些随机性的数据需要对其展开实时处理,并将结果迅速反馈出来;而且绝大多数的流数据仅仅在短时间内有价值,因此通过大数据展开计算和分析的数据,往往只有很少一些能够保存,而绝大部分会被放弃。因此,针对此类计算,系统必须要具备很高的收敛速度,才能够确保流数据的价值能够在其有效期内得到体现[1]。但是当前的在线学习算法,尽管与传统的批量学习计算相比,其效率已经有了大幅提升,但是其收敛性却明显不足,在分析实时流数据方面依然需要持续改进。
(二)可扩展性较低
大数据要处理的流数据是一个非常庞大的数据量,而且在数据源不停止的情况下,数据会持续生成,因此这样的数据的数量是难以量化的;同时,系统在针对流数据实施计算分析的过程中,由于具有无限多的庞大数据,所以是无法通过硬盘予以存储的,因此这样必然会造成流数据管理难度非常高。采用在线学习算法,也无需储存流数据,而是仅仅就内存中数据实施计算,这就意味着其扩展性相对较低,这对于在线算法的性能来说也是一种严重的制约。
(三)自动化工具较少
基于大数据分析的在线学习算法,往往需要在这个过程中对一些格式实施转化,对相关参数实施优化,然后才能够更好地满足计算目标,获得良好的满意度。在传统的批量计算模式下,因为这是一种静态训练的分析模式,所以出现了一些自动化工具,并且经过发展已经非常成熟,诸如Libsvm工具,这为批量计算模式提供了诸多便利[2]。然而,随着在线学习算法的出现,计算遇到的难度更大。既因为数据产生速度过快,又由于数据的生成量过大,而且要实现动态训练,所以使得传统的工具都无法适用。因此,适合于在线学习算法的自动化工具非常匮乏,这在一定程度上限制了在线学习算法的应用。
二、几种基于大数据分析的在线学习算法
(一)在线学习的线性模型
1.感知器的在线学习算法
在当前大数据分析为基础的在线学习算法中,产生了多种不同的算法,然而就应用范围来看,感知器的应用是最为广泛的一种。这是一种属于机器学习仿生学领域的分类学习机的模型,其算法具有较高的复杂度,在当前机器算法领域中有着非常广泛的应用。其主要算法原则为[3]:在正确分类的前提下,无需对其权重实施变化,因此对其实施“赏”;在错误分类的前提下,则应当对其发生的错误予以修正,就是调整其方向,因此应当针对其权重实施“罚”。然后,针对全部错误分类样本,以求和方式实施惩罚,具体可依据如下的算法公式:
从在线学习算法的分类上来看,感知器算法本质上是一种赏罚算法。该算法被广泛应用于线性可分问题的解决;而且作为一种相对比较基础的在线学习算法,感知器算法的出现,对于推动及其学习具有非常重要的意义。另外,随着感知器算法的不断发展,出现了一种更具收敛性的二阶感知器,这是一种可以持续对公式实施更新的计算方法,未来应该有更广泛的应用前景。
2.在线学习中被动—主动算法
这是一种能够主动得出全局最优解,并且以此为基础对其展开验证并能够确保其实现的算法模型。这种算法的本质思维,就是在一个样本的支持向量机的基础设想,从而使得向量机最大间隔约束得以有效的转化。此外,该算法的更新采用了如下的机制,当新数据出现错误,则会对算法实施更新,以最大程度的避免数据错误;当新数据无错误,则算法继续使用无更新。
3.在线稀疏解学习算法
该算法的根本原理是以批量整体训练为基础以得到边界最优值。然而,因为在线学习算法都是以随机梯度下降法作为训练方法的,所以在实际应用中结果的稀疏性是非常难以保障的,而通过梯度截取法,则能够在一定程度上得到有效稀疏解。通常是在过程中,把更新权重都以0赋值,这样就能够让出现的特征数目进一步增加,从而表现出稀疏权重向量。与随机梯度下降法相比,梯度截取法注意更能够保障算法的性能[4]。
(二)在线学习的非线性模型
在了解了在线模型的线性模型以后,我们对非线性模型也做一些简单的介绍。当前,主要的非线性模型有如下的四种方法。第一种是核感知器,这种方法本质上是线性模型中感知器算法的一种升级和发展,是一种基于核函数思想而产生的算法,使得其算法分类能力得到了非常明显的提升。第二种是核在线被动—主动算法,这同样是一种基于核函数产生的算法,该算法在批量向量机处理方面显示了非常强大的能力,然而迄今为止尚未大规模针对实用数据训练,因此实际应用中还不广泛。第三种是固定的缓冲器核在线学习算法,这是一种通过对随机感知器分类错误的集合的判断,当集合状态充分饱和,则以一个新的将次样本替换,以确保数据尽可能保持一定稳定性。第四种是核在线梯度下降法,这种方法目前也尚未大范围推广应用。
(三)非传统的在线学习算法
除了上面介绍的各种在线学习算法以外,还有一些非传统在线学习算法,其中最为典型的有两种,一种是多任务在线学习,另一种是组LASSO在线学习。前者主要是基于共享信息的前提下实施若干关联任务的同时学习,因此其效率相对于常规学习方法来说要明显更高。后者的主要优势是使用非常便捷,复杂程度相对较低,因此其在学习目标变量选择方面有较为广泛的应用。
三、基于大数据分析的在线学习算法的发展趋势
(一)学习的泛化能力与可理解性的强化
当前大数据领域的研究日新月异,在这样的发展速度下,我们有理由相信,在未来的发展中,在线学习算法必然会遇到各种各样的极具挑战性的问题,而克服这些挑战性问题就是推动技术持续发展的动力。其中,提升学习泛化能力是在线学习算法的发展中遇到的一大难题之一,而这也是当前在应用领域对于学习算法的最大的期待。就当前学习理论的发展状况来看,向量机泛化能力技术,基本上都涵盖了从理论到实践的全方面。并且,在很多领域中,可理解性对于学习算法同样具有至关重要的意义。
(二)学习速度与应用能力的提升
在社会的实践领域,将各种机器学习方法融入其中,从而在提升社会事务效率的同时,也使得机器学习速度得到进一步提升,这是在大数据理论不断发展以后研究人员追逐的目标。然而,在学习速度和训练速度之间,如何能够找到有效的平衡,进而消除二者矛盾,这是一个非常重要的课题。比如,K邻算法尽管其测试速度相对较差,但是实际应用的速度却非常理想[5]。传统学习算法,主要针对标记数据,而在线学习算法将针对所有产生的数据展开,因此其对处理速度有更高的要求;再加上在处理过程中还必然会受到属性变化、噪声干扰等影响,因此还需要其具有更强的应用能力,从根本上提升其应用效率。
四、小结
大数据时代的来临,对于在线学习算法来说,既是一种良好的机遇,又提出了更高的挑战。所谓机遇,是因为大数据为在线学习算法提供了更优秀的技术支持;所谓挑战,是因为大数据独有的诸多特性,颠覆了传统学习算法,主要是批量机器学习的模式。在无法计量,且不断生成的大数据模式下,批量机器算法远远无法满足实际计算需求,而在线学习算法当前也还存在着一些问题。基于此,本文针对基于大数据在线学习算法展开总结性的阐述,同时对未来的发展趋势也作出了分析,笔者希望其有助于我国在线学习算法的不断发展和推广应用。