关于大数据挖掘中的数据分类算法技术的研究
2020-08-26张书月
张书月
摘要:随着全球信息化发展的加快与信息技术的不断革新,信息化已渗透到社会的方方面面,由此也产生了大量的数据信息。如何有效挖掘出我们需要的信息数据,提高信息找寻速度与利用率是我们需要解决的问题。本文主要对大数据挖掘中的数据分类算法技术进行研究,介绍了大数据挖掘与数据分类算法,对数据分类算法相关技术进行分析,旨在通过本文为数据挖掘分类算法的有效运用提供一些借鉴和参考。
关键词:大数据;信息化;分类算法
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2020)20-0042-02
大数据时代,进行信息化建设,推行数字化办公的行业也不断增加,大数据挖掘也得到了广泛的应用,这既是机遇,也是挑战。面对社会以及人们产生的各类数据,准确对其进行分类处理,挖掘出有效信息,提高信息利用率势在必行。鉴于此,强化大数据挖掘,高效运用数据分类算法技术处理数据是极具现实意义的。下文将就大数据挖掘中的数据分类算法技术展开研究,详细分析几种经典的数据分类算法技术。
1数据挖掘技术与数据分类算法概述
1.1数据挖掘技术概述
通俗地讲,从海量数据信息中挖掘出有效信息就是数据挖掘。这种有用信息的发掘跟普通信息检索有本质区别。数据挖掘是通过机器学习算法或关联规则等形式发掘出间接、抽象的有效信息,而普通信息检索是以查询命令的形式获取想要信息的,更为直接。例如,数据挖掘可从超市销售记录中获取“买尿不湿多会买啤酒”间接信息,而信息检索是无法获取这一信息,超市可根据数据挖掘获取的隐藏信息调整商品布局。数据挖掘也是一种从数据库中发现知识的过程,主要包括三个步骤:(1)数据预处理:从大量数据中找抽取需要分析的数据,并以要求的格式整理出来;(2)寻找规律:利用数据挖掘技术找出数据间存在的规律;(3)知识表示:即通过可视化技术将找出的规律、知识呈现给用户。数据挖掘是数据库知识发现的一个关键步骤,可以说是信息时代的一项重大成果。
1.2数据分类算法技术分类
作为数据挖掘的重要技术,分类算法技术的作用不容忽视,主要是通过分析研究数据训练集,从而找出分类规则以预测新数据类型,可将未知样本分类到已存在类的技术。分类算法主要从两个阶段对数据进行处理:(1)模型构建:基于已知训练数据集,对预定的概念集或者数据类集进行构建;(2)模型使用:基于构建的新模型,分类未知数据。分类算法技术可在文本、生物数据、多媒体以及社交网络等多种问题领域应用,也是当前各界研究的热点课题。需要注意的是,数据分类算法技术有多种算法,各有其适用情况,需要开发者根据实际情况灵活选择,有效运用。
2大数据挖掘中的数据分类算法技术分析
2.1决策树分类
决策树分类算法是一种基于实例归类处理相关数据,采用由上而下分治形式的分类算法,也叫作贪心算法。从杂乱的事例或数据中找出分类规律,并借助决策树形式表现出来是该算法的最大特点。在实际运用过程中,决策树算法处理噪声数据的健壮性是非常好的,因而被广泛应用于各个领域的数据分类处理中,也是当前使用最为普遍的数据分类算法之一。
决策树算法构建是这样的:属性测试使用节点来表示,数据测试输出则使用分制表示。如果分析未知数据样本则将决策树与样本属性值进行比较。以“买电脑预测”进行说明(见图1),其中椭圆表示树叶,而矩形则表示节点[1]。决策树分类算法包括这几个步骤:(1)选取某训练集中最重要属性作为决策树的根,以属性值为标准对训练集进行分割,并从训练数据节点中选择出一个极具代表性的节点构建决策树;(2)如果数据对象为同一类则使用该类类标号定义节点,也就是叶子节点;如果数据对象为不同类,则利用信息熵等策略衡量并选出一个属性作为测试属性,也就是测试节点;根据测试节点特点将训练集分成诸多子集,从原始属性开始将测试节点属性几种删除;(3)周而复始重复上述步骤以生成完整分类训练集的决策树。需要注意的是,找出测试属性是决策树分类算法的关键。
此外,决策树的C4.5算法是一种简便易操作的传统决策树算法模式,决策树上各个节点的被测试属性是根据最大信息增益与最小熵来确定的,根据测试结果对对象集进行划分。ID3则是一种操作简单、分类快速的决策树学习算法。总之,决策树分类算法应用较多,具有较高的准确率与较好的可解释性,并且对异常值、缺失值等分布敏感性较低,但也存在一定的不足,如容易过拟合,也就是训练集可以正确分类,但是测试集表现较差,算法上会存在许多分支,必要时需要通过剪枝进行避免。
2.2神经网络分类算法
20世纪40年代初,Me Culloch和Pitts提出了第一个神经元形式的数学模型。自此,各界对神经网络的研究热度有所增加,神经网络在医学、金融、地质学以及物理学等诸多领域都得到了一定程度的应用。但随着对神经网络功能与局限性分析的深入,该课题的研究也陷入了低潮,此阶段,一些坚持研究的研究者取得了一些突破,如Grossberg提出了ART模型,Koho-nen提出了SOM模型。直到20世纪80年代,Hopf'ied的研究将神经网络的研究再度推向高潮。Rumellhart、Me Cllel-Iand等人提卅的PDP理论已成为当前应用较为厂泛的数据分类算法之一[2]。神经网络分类算法时基于人脑结构、功能的模仿以一定的连接方式将多个处理单元连接起来形成系统,以动态响应外部输入信息的方式對数据进行处理。该分类算法可解决这几方面的数据挖掘问题:(1)具有非线性与时序性特征且较为复杂、存在噪音的大量数据;(2)分析表述与处理都要涉及领域知识的具有多样性目标的数据;(3)数据分析目标较为复杂,且需要分析海量数据集。神经网络不仅在数据挖掘的分类方面有所应用,还在预测、特征挖掘以及聚类等方面有所应用。
2.3基于频繁模式的分类算法
基于频繁模式的分类算法也就是基于关联规则以不同标准对数据进行分类。该算法主要有CBA分类算法、CPAR分类算法以及CMAR分类算法这三种。
2.3.1 CBA分类算法
CBA分类算法是基于关联规则依托数据构造分类器的数据分类算法,运用的是Apriori技术。该算法可表面化潜在的数据关联规则,为数据分类处理创造有利条件,在大数据集上的准确率是比较高的。同时CBA分类算法也存在一定的不足,如在数据分类时数据遗漏风险较高,而将最小支持度甚至为0能一定程度降低数据遗漏风险,但也削弱了该算法的优化作用,不利于运行效率的提高。
2.3.2 CPAR分类算法
基于预测关联规则的分类算法就是CPAR分类算法,是基于FOLL形成的一种分类算法。该算法在处理数据时,通常都会形成一个标准化的规格,此时将正样本删除一直到正样本覆盖完数据集中的所有数据为止。同CBA、CMAR分类算法相较,CPAR在大数据库的数据分类中应用效果更佳。
2.3.3 CMAR分类算法
CMAR是一种基于多关联规则的分类算法,与CBA算法在找寻项集与构建分类器方面存在较大的差异。CBA算法是通过扫面数据库以迭代的方式找出项集,从大到小排列白小支持度与最小置信度找出关联规则,构建出分类模型,而CMAR算法是通过构建数的形式将项集找出并对分类器进行构造的。并且该算法的最小支持度与最小置信度的满足集合是通过FP-growth算法转换来实现的,通常一个步骤就能够完成分类器构造与项集的挖掘。此外,同CBA分类算法相较,CMAR分类算法运行时间更短,内存使用率更高,可伸缩性也更强。
2.4 Bayes分类算法
Bayes分类算法是基于概率统计学而产生的一种分类算法。如朴素Bayes分类是基于训练样本对每个可能的类别来进行建模的,并且分为三个阶段:(1)准备:对特征属性进行确定,并依据属性特征进行划分,之后则分类待分类项,将待分类数据输入,而将特征属性与训练样本集合输出;(2)分类器训练:主要是生成分类器,将特征属性、训练样本输入,将分类器输出;(3)应用:即借助分类器分类待分类项,是由程序完成的,将分类器与待分类项输入,并将待分类型与类别之间的映射关系输出。Bayes分类算法是一种应用较为广泛的数据挖掘分类算法,但也存在一定的不足,比如实际应用中,类别总体概率与样本概率分布通常是未知的,为了获取这两方面信息,样本容量就不能太小。再比如Bayes分类算法表达文本的主题词间应具有独立性,然而实际上这样的条件通常无法很好地满足,这就一定程度降低了分类算法的应用效果,与理论值存在差异。
2.5 VSM分类算法
VSM分类算法也就是向量空间模型算法,在20世纪60年代末由Salton等人提出,是最早的关于信息检索方面的分类算法。该算法是采用加权特征向量来表示文档,之后再通过特征向量间的内积算出文本相似度,从而对分类样本所属类别进行确定。应用VSM分类算法时会先建立好相关的类别向量空间,分类时只需要计算出該样本与各个类别向量的相似度并筛选出最大相似度作为该样本的类别,需要注意的是,VSM分类算法是一种更适合于分类专业文献的算法,对类别向量特征依赖度比较高,而类别每个特征项表达类别的能力会随着该类别非零特征项的增多而减弱。
2.6其他分类算法
如遗传算法是利用自然进化理念进行分类的。该算法下随机产生样本数据集进而产生规则,形成分类器。具体来说,样本数据集用初始群体表示,每个规则使用二进制位串表示,初始群体根据一定的规则形成后代,而后代在根据一定的规则交叉产生后代,以此类推。噪声数据处理、未经过学习模式分类中该算法应用效果较好,如实验医学、计算机朗读英文课文等[3]。模糊集分类算法产生于20世纪60年代,是一种不准确处理数据的分类算法,可抽象化具有连续值属性的数据,在卫生保健、市场调研以及环境工程等领域应用较多[4]。
3结束语
综上所述,随着大数据时代的到来,社会各行各业与我们日常工作学习中都充斥着海量数据,数据挖掘的重要性也越发突出。而数据分类算法作为数据挖掘的关键技术和重要步骤,也被各界所重视。本文对数据挖掘与数据分类算法进行简单的阐述,并详细分析了数据分类算法技术的决策树算法、神经网络算法、基于频繁模式的分类算法、Bayes算法、VSM分类算法以及其他算法。由此可见,不同数据分类算法各有特点,我们应根据实际情况准确选用合适的算法技术,以确保数据分类处理的有效性与可靠性。
参考文献:
[1]冯晓媛.大数据挖掘技术应用研究[J].数字技术与应用,2019(1):127-128.
[2]吴雅琴,王晓东.大数据挖掘中的混合差分进化K-Means无监督聚类算法[J].重庆理工大学学报(自然科学),2019,33(5):107-112.
[3]刘政宇.大数据分析挖掘技术及其决策应用研究[J].科学技术创新,2019(23):84-85.
[4]王茜,平金珍,班娅萌.基于云计算的大数据挖掘内涵及解决方案研究[J].数字通信世界,2019(5):169-170.
【通联编辑:李雅琪】
收稿日期:2020-03-27
基金项目:2019年度广州工商学院院级科研课题项目(项目编号:KA201929)