大数据背景下机器学习算法的综述
2018-02-16李成录
李成录
(青海师范大学 青海 西宁 810008)
1 引言
大数据概念自1980年被托夫勒提出后,其发展前景不断扩大,渗透到生活、工作、学习的方方面面。当下,在信息技术的推动下,某些零散、碎片化的数据被搜集起来,逐渐凝聚为纷繁错乱的大数据。大数据的快速发展,给高新技术产业带来丰厚的回报,引起一大批实力雄厚企业的追捧。在2017年阿里巴巴、腾讯、京东等IT公司斥巨资从事大数据研究,从中享受到大数据赋予的金融回报。例如,滴滴打车、ofo共享单车、淘宝等,它们企业运转效率在大数据的推动下得到质的提升。因此,研究大数据背景下的机器学习算法对国家、企业、社会发展都有较大的促进作用,需要有适合的算法来满足大数据时代的需求。本研究立足于当下社会发展新形势,为促进社会更好发展做出重要推动力。
2 大数据基本内涵与特点
大数据(Big Data),是指在一定时间内无法用常规数据处理软件进行分析管理的数据集合。它以超出用MB、GB的形式来存储。在这种新型大数据背景下,需要有更好地数据处理模式进行数据运算,才能从数据中形成更为科学的决策系统。被称为大数据它具有不同于传统数据的特点,与其他数据有清晰的界限。首先,大数据最鲜明的特点为“大”,它凝聚着海量资料,从多个维度、多个方面、多类型进行归纳汇总,形成一批难以用普通数据处理方法来解决的数据;其次,传输速度快。大数据是由互联的机器产生的,它们以秒、毫秒、微秒的形式瞬间形成,不断去输入、输出来完成其基本功能;紧接着,数据类型多种多样,数据分类难度较大。大数据已经不能用传统的分类方式进行归纳,它们往往是非结构化的,造成存储、分析、探勘难度提升;最后,大数据具有真实性。在处理大数据时,要从纷繁错乱的数据中剔除错误数据、虚假数据,保证大数据系统的真实客观性。这样,不仅可以降低据处理的难度,同时便于得出正确的应对策略,让大数据更好地为人服务。
3 机器学习在大数据背景下的必要性
机器学习是当下处理大数据的重要途径,它可以将多种优势凝聚起来,面对实际问题选择最为合适的解决途径。例如,在2017年AlphaGo对弈柯洁围棋比赛中,以3比0的比分赢得了比赛,它正是机器学习的重要标志。机器学习克服人为因素的局限性,通过神经网络、决策树、深度学习,对数据进行科学有效地处理,全面提高数据的运算效率。当下,信息网络、商业活动、调查统计都会产生海量数据,这些数据以超出传统的处理手段,迫切需要机器学习进行解决。传统机器学习面临的问题为:首先,机器算法较为固定,读取大数据困难突出;其次,自动学习推理能力较低,得到数据结论不够科学;最后,机器自我学习能力不足,不能迎合大数据对机器学习的需求。因此,探究出适合大数据背景下的机器学习,对未来发展有着不可估量的社会效益。
4 机器学习算法在处理大数据的重要手段
4.1 运用分治算法对大数据进行筛选剔除
分治算法在处理大数据上具有较好的优势,它可以被运用与分布式计算和并行运算。对大数据进行机器学习,样本不同的数据对其影响比较显著,不仅会徒增数据运算量,同时还会制约着学习效率,不利于更好地对数据进行分析判断。而运用分治算法后,它对原始样本进行预处理,将无效数据、冗余数据进行剔除,形成能够很好表示原始样本的数据集合。这样,机器学习的目标更为明确,学习难度得到有效降低,有助于形成正确的判断。在选择代表性数据集合时,通常采用的方法为压缩近邻法、约减法等等。它的原理就是要找到大数据所对应的最小集合,通过一系列测试完成对子集的加工完善。此时,他们找到的集合是可以代表全体样本的,具有较高的科学性,从而为大数据分析提供可能。运用分治算法首先要有符合要求的置信区间,在规定的区间内进行数据的筛选、剔除。例如,借助Bag ofLittle Bootstraps,它可以降低抽样所带来的数据错误,从而提高数据预处理的准确性。
4.2 引入聚类算法对大数据分布式计算
聚类算法在数据挖掘和数据处理中是最常用的方法,它在处理大型数据上有较好的应用效果。首先,聚类算法对大数据进行类型划分,将数据分为若干个子数据节点。在这时,对各节点数据进行机器学习效率更高,更有针对性地完成数据处理。聚类算法在机器学习的具体方法可以归纳为三种。第一种,采用非迭代化数据扩展。它利用模糊集概念,对数据进行FCM均值聚类分析,快速准确地将数据分离开来;第二种为连续扩充子集合技术;第三种为抽样估计均值算法。这三种可以有效解决大数据在时间上、空间上、处理速度、运转效率的问题,达到对上至亿万的大数据分析。
4.3 数据并行算法优化数据处理效率
传统的机器学习在处理大数据上捉襟见肘,主要是由于各机器学习方法没有做到并行化处理。单一数据处理机器不能独立完成大数据处理,而是需要联动各个数据处理部分,将其并行化运转,从而达到对大数据的整体处理。它的思想就是将大数据“碎片化”,分成机器可以单纯处理的数据模块,最终通过综合各个数据来达到对整体的把握。比如,在图像处理平台上,它正是利用并行算法,大大降低各数据处理的压力,有效提升数据的运算能力。并行算法需要与聚类算法、分治算法进行有机统一,将三者算法融合在一起,让大数据处理变得更为简洁、轻松,同时也较好地保证机器学习的准确性。
5 结语
大数据作为当下的热门,需要有一套科学合理的机器学习算法来满足社会需求,让数据处理变得更具效率。针对大数据的各个特点,通过运用分布式计算、聚类算法、分治算法,让数据变得更具条理,数据处理分析难度得到有效降低,大大提高机器学习的能力。因此,要想在大数据有所突破,就需要对传统机器学习算法进行优化升级,让其在大数据时代迸发出强劲活力。
[1]吴睿智,马致远,罗光春,刘贵松,秦科.大数据融合、分析与价值[J].信息通信技术,2016(06):123-130.
[2] Yang Y M,Wang X N,Yuan X F.Bidirectional Extreme Learning Machine for Regression Problem and Its Learning Effectiveness.IEEE Trans on Neural Networks and Learning Systems,2012,23(9):1498-1505.