浅谈大数据下的机器学习算法
2019-01-14赵伟杰陈海军张毅
赵伟杰 陈海军 张毅
摘 要:在大数据时代悄然来临之际,如何从海量数据中提取有价值信息,为生产生活的高效运转提供帮助,成了当前科研领域的关键问题。尤其是在社会转型的关键时期,充分借助于大数据优势以促进新时期经济快速发展,是现代化建设中的重要途径。机器学习是机器对人类行为的模仿,并在知识体系的持续更新中获得性能提升,是人工智能发展中不可或缺的一项功能。机器学习算法的复杂程度较高,而且也会涉及多个学科。本文将通过分析大数据的相关内容,研究大数据下的机器学习算法,以拓展其应用领域。
关键词:大数据 机器学习 算法
中图分类号:TP311.13;TP181 文献标识码:A 文章编号:1674-098X(2019)08(c)-0250-02
在社会的各个领域当中,大数据的概念已经被人们所熟知,正在成为改变社会生产生活方式的关键因素。数据的海量性与变化性,是大数据的基本特点,为了实现对数据信息的有效应用,必须对传统机器学习算法加以优化与改进,使其适应大数据的变化特点,以更好地被人们所应用。大数据下机器学习算法的研究,不仅是学术界的关键工作,也受到了产业界的广泛关注,这是促进社会产业结构转型升级的关键途径。机器学习涉及了多类学科,包括了统计学、概率论和逼近论等,因此其算法的复杂性也就相对较高。在数据挖掘、搜索引擎、语音与手写识别、计算机视觉和机器人当中,机器学习算法得到广泛应用。随着大数据时代的进一步发展,还应该对机器学习算法中存在的问题进行逐步改进。
1 大数据的基本概念与机器学习理论
大数据在发展历程中经历了多个阶段,速度、体积和多样,是3V模型的主要内容,而在4V模型当中,则增加了虚拟化、变化性和价值等。在计算机与人类的交互当中,需要以智能分析接口为媒介,实现对大数据的充分利用。在大数据时代来临之际,传统机器学习算法面临着较大的挑战,包括了自动规划问题、可发现新事物和自然语言接口研究等[1]。
2 大数据下的机器学习算法类型概述
目前,在大数据背景下机器学习主要的算法分为五种,分别是大数据分治策略与抽样算法、大数据特征选择算法、大数据分类算法、大数据聚类算法和大数据关联分析。下面对这五种类型作简要分析。
2.1 大数据分治策略与抽样
在庞大的样本之中根据一定的性能标准选择代表性样本构成一个子集,在此同时要保证样本的分布、拓扑结构以及保持分类精度等确保子集样本的数据的准确性。然后在这个子集上进行数据的分析统计和计算,即大数据分治策略与抽样算法。在大数据相关问题的处理中,分治策略的应用较为常见,为分布式与并行计算奠定了保障[2]。
2.2 大数据特征维度提取
大数据集被广泛应用于文档分类、数据挖掘和多媒体索引当中,由于数据量的持续增加,使得处理算法的执行效率面临较大挑战,为了促进运行时间的缩短,应对特征维度进行提取。维度上通常有一类维度、二类维度和多类维度之分,一类维度为初级分类,只需要设定一个阈值把数据分为AB两类即可完成。二维以及二维以上的维度,一般采用歐氏距离进行度量。二维的计算公式为:
2.3 大数据分类
在对决策树分类学习算法进行创新时,可以采用在大数据中构造决策树的方法,以促进计算速度的提升[4]。在神经网络与极端学习机的权值参数调整中,通常是采用梯度下降算法,但是其泛化性能不佳,而且也会对学习速度产生较大的限制。迭代调整策略的运用,是解决此类问题的关键方法,在对网络权值进行确定时需要经过多次迭代调整。
2.4 大数据聚类
在模式识别和数据挖掘当中,聚类学习的应用较为广泛,非迭代扩展、增量技术和核模糊c均值算法,是聚类算法的基础。在并行处理大数据的过程中,MapReduce模型的应用较为广泛,其执行引擎虽然结构简单,但是性能优越,是解决大数据分析难题的关键方法[5]。降维聚类、基于图的聚类和子空间聚类等,是高维数据的常用聚类方法,在此过程中应该重视对聚类性能的有效维持。
2.5 大数据关联分析
并行与增量是解决大数据关联分析的主要方法,其中Apriori算法是一种较为先进的并行算法,其伸缩性与加速比较好,是促进运行效率提升的有效算法。频繁序列挖掘算法、增量挖掘算法和增量序列挖掘算法等,能够实现约束的有效修改[6]。在更新序列模式的时间确定中,可以采用性能与差异均衡算法,促进大数据实际运行效果的增强。
3 结语
基于内存的大数据机器学习是一种常见的机器学习算法类型,在计算机内存中无法实现大数据的装载,只有加强对现有算法的优化,才能满足当前社会发展对大数据的应用需求。大数据分治策略与抽样能够实现样本的分类处理,是提升运算速度的基础;大数据特征选择,能够以不同特征属性为依据,实现数据的挖掘与文档的分类;而在泛化性能的提升当中,则需要依靠大数据分类算法,如支持向量机分类和决策树分类等等;在多种应用中的大数据模式识别中,则需要采用大数据聚类算法;在交易数据库中不同项间联系的分析中,则需要借助于关联分析算法。在实际应用中要根据情况灵活使用不同算法进行处理,促进大数据处理运算速度的提升。
参考文献
[1] 姜娜,顾庆传,杨海燕,等.大数据下的机器学习算法[J].电脑与信息技术,2019,27(3):30-33.
[2] 顾润龙.大数据下的机器学习算法探讨[J].通讯世界,2019,26(5):279-280.
[3] 赵诣.大数据下的机器学习算法综述——以AlphaGO为例[J].信息记录材料,2019,20(1):10-12.
[4] 刘志强.大数据下的机器学习算法探讨[J].中国新通信,2018,20(21):183.
[5] 朱熙文.大数据下的在线机器学习算法研究与应用[D].西南交通大学,2017.
[6] 肖红.大数据下的机器学习算法探讨[J].通讯世界,2017(6):265-266.