大数据背景下机器学习算法的综述

2019-04-25欧华杰

中国信息化 2019年4期

欧华杰

机器学习是由模式识别、人工智能计算学习理论为基础所转变的一类计算机科学分支，此也为人工智能核心，被广泛应用至各相关领域中。据研究表明，多数状态下，处理数据规模越大，机器学习模型效率越高。所以，机器学习为大数据智能分析主要方式。于大数据背景下，本文针对机器学习算法予以探讨，提升数据处理价值。

一、机器学习算法概念及重要性

（一）机器学习算法概念

机器学习即Machine Learning，为一项多领域综合学科，涉及算法复杂度理论、逼近论、统计学及概率论等多项理论。此学科将计算机如何模拟及实现人类学习行为作为主要研究内容，探究计算机获取新知识、技能方式，将已存在知识结构予以重新组织，实现自身性能不断优化。机器学习为人工智能核心，也为使计算机拥有智能的基本方式，现已逐渐应用至与人工智能相关的各领域中，主要为综合及归纳而并非演绎。

（二）机器学习算法重要性

机器学习为现阶段大数据重要处理方式，可将多种优势予以结合，针对具体问题选取最为适宜处理方式，如以2017年AlphaGO与柯洁所开展的围棋比赛中，AlphaGO以3：0比分赢得比赛，此正为机器学习重要标志。此算法可将人为因素所造成的局限性予以突破，借助深度学习、决策树及神经网络等，将数据予以科学处理，并将数据运算速度予以有效提升。现阶段统计调查、商业活动及信息网络等均会产生大量数据，而传统数据处理手段已难以满足此类数据处理需求，急需机器学习予以处理。

二、机器学习典型算法分析

（一）C4.5算法

C4.5算法为目前此领域中较为著名的一类算法，将基于Quinlan所设计的ID3算法予以优化后得到的一种分类决策树算法。决策树为一项预测模型，为对象值、对象属性二者间映射关系的表现方式，树中各节点分别代表不同对象，各分叉路径则为某项可能属性值。由数据所构成的决策树机器学习方式即被称作决策树学习，通常称为决策树。C4.5算法借助决策树模型，针对不同数据以树形结构方式予以分类，于此基础上，使计算机可针对数据开展智能处理、选择，实现自我学习。

（二）K-MEANS算法

机器学习中数据相似度为一项重要概念，借助大量数据分析，找寻同原有数据具备高相似度的数据集合，为机器学习重要基础。仅有将数据间相似度予以精准分析，方可对计算机数据处理、自我学习效率予以保证。K-MEANS算法即将数据间相似度量为基础的一类间接聚类方式，将n个对象结合自身属性分至k个分割，k

（三）SVM支持向量机算法

针对大量数据处理、分析，除需对数据开展相应分类外，也应于此基础上开展统计工作。此算法为一类监督式学习方式，以统计学理论中VC维理论、结构风险最小原理为基础，结合有限样本信息于模型复杂性、学习能力间找寻最优处理路径，以获取最佳泛化能力。支持向量机方式为近几年所提出的数据算法，主要思想包括以下两层面：一为针对线性可分状态予以分析，而线性不可分状态则借助非线性映射算法，实现样本间转化，即由低维输入空间线性不可分变为高维特征空间，实现线性可分；二为将结构风险最小化理论为基础，于特征空间中创建最优分割平面，实现全局优化。

三、机器学习算法于大数据处理中的主要方式

（一）数据并行算法

传统数据处理方式难以充分满足大数据处理需求，主要导致原因为各机器学习方式并未实现并行化数据处理，单独数据处理难以自主实现大数据处置，为满足大数据处理需求，联合各数据处理机制，开展并行化运转，方可实现大数据整体处置。此方式主要运行理念即为将大数据行“碎片化”处理，拆分为可交由机器独立处理的模块，借助各数据综合实现大数据整体掌握。如以图像处理平台为例，主要算法为并行算法，将各数据处理压力不断降低，提高数据运算能力。并行算法需同分治算法及聚类算法等予以有效综合，实现三类算法的有效融合，方可提升数据处理速度，也可于一定程度上保障机器学习精准性。

（二）聚类算法

数据处理、数据挖掘中最为常用的一类算法便为聚类算法，于大数据处理中具备良好应用成效。聚类算法首先将数据结合不同类型予以划分，将大型数据划分至多项子数据节点中。其次，针对所划分完成的数据节点开展针对性处理，提升数据处理效率。此算法于机器学习中实际应用途径可分为三类：一为借助非迭代化数据扩展方式，即通过模糊集理论，针对数据开展FCM均值聚类分析，将数据予以精准分离；二为持续扩充子集合方式，于空间层面提升数据集合精准性；三为抽样均值算法，有效提升数据处理效率。

（三）分治算法

分治算法于大数据处理领域而言，具备良好优势，可被引用至并行运算、分布式计算中。将大数据作为对象开展机器学习，因样本的数据差异将会对数据处理质量造成一定影响，除会增加数据运算量外，也会对机器学习效率形成制约，增加数据精准分析难度，影响数据判断质量。而借助引用分治算法，可对原始样本开展预处理，挑除冗余及无效数据，提升原始样本数据集合质量。于此处理手段下，可明确机器学习目标并降低学习难度，辅助机器生成准确判断。选取样本数据集合时，通常使用约减法及压缩近邻法等方式，数据处理原理即为寻找同大数据所相应的最小数据集合，借助一系列测试对子集予以不断优化、完善。此时，计算机所找寻数据样本可表示全部样本且具备高科学性，以此为开展数据判斷、决策提供参考。引入分治算法前，需具备满足要求的置信范围，于规定范围内开展数据剔除、数据筛选工作，如可利用Bag of Little Bootstraps，缩减因抽样所导致的数据失误，提升数据处理精准性。

四、结束语

大数据为现阶段研究热点，需配备科学、合理机器学习算法满足社会需求，并提升数据处理效率。结合大数据特点，借助聚类算法及分治算法等，增强数据处理条理性，降低数据分析、数据处理难度，增强机器学习能力。此外，为于大数据领域有所突破，还应将传统机器算法予以优化升级，全面提升数据处理能力。