大数据时代的数据挖掘技术及应用
2019-10-21朱芷莹余思贤
朱芷莹 余思贤
摘 要:当今世界正处于从IT时代向DT时代迈进的过渡阶段,大数据时代。数据挖掘技术是一种数据处理技术,其前景非常理想,本文以数据挖掘的定义为出发点,细致的介绍了各种数据挖掘的技术方法,总结其特点,并给出相应的应用领域。
关键词:DT时代;数据挖掘;应用领域
大数据的概念最先出现于网络上,它用于描述一个现象:互联网公司日常运营所产生和积累的客户数据量呈现爆炸式增长,导致现有数据管理软件无法驾驭,其难点在于,数据的获取、存储、处理和分析。这种數据量,不是用日常衡量单位G或T来衡量,而是P(220G)、E(230G)或Z(240G)或者更大的数量级来度量。所以被称为大数据[1]。大数据的主要来源有4个方面,分别为传感器、网站点击流、移动设备和射频识别。其特点是数据源异构复杂和种类繁多、数据量体量大、实时处理困难。
数据挖掘技术作为一种数据处理技术,能有效从大量数据中获取有效信息,能较好针对大数据特点,处理大数据。因此,其在大数据时代背景下,有远大的前景和充足的应用空间。
1.数据挖掘
数据挖掘作为一门新兴的交叉学科[2],其广义上的定义为,从数据集里面获取隐晦的有用的信息和知识的过程。其操作的核心理念:基于对数据集的深刻认识,高度抽象并概括数据本质,将数据隐藏的信息变得易于读取。这些数据集往往具有大规模性、不完全性、参杂噪声、模糊性和随机性的特点,涵盖了大数据的特点。所以,数据挖掘技术能很好地应对大数据。
数据挖掘一般有五个步骤,分别是数据选择、数据预处理、模式发现、模式评估和知识表达。
1.1数据选择
由于原始数据集具有规模大、参杂噪声的特点,所以必须根据想要获取信息的特点,选择相应的数据集来进行数据挖掘操作。这样可以极大的减少运算量,提升挖掘效率。
1.2数据预处理
原始数据中各类数据的单位、量级通常不同,为保证能快速挖掘出有用信息,必须进行数据预处理操作。预处理的方法有数据清理、数据集成和变换、数据归约、数据离散化等。需要根据数据的特点和挖掘目标选择相应的方法。
1.3模式发现
这是数据挖掘过程的关键环节,是从预处理后的数据中进行知识发现的过程。
1.4模式评估
这是评价环节,对发现的知识进行评估,得到对应的知识模式。
1.5知识表示
这是数据挖掘的结果展示环节。将挖掘出的知识模式通过直观感性的方式展示出来,把机器可读的数据变成人类可读的图文。
2.数据挖掘的技术方法
数据挖掘的技术方法按模型建立方式的不同,可简单归为两类。一类是统计类,有聚类分析和关联分析等;一类是机器学习类,有监督性学习和无监督性学习。每种方法都有其的功能特点和相应的应用领域,以下介绍数据挖掘中常用的几种技术方法。
2.1关联分析
关联分析作为一种有效的数据挖掘技术,其主要用于发现数据之间的关联性。其基本思路可用“W->B”表示。其中W指属性集,B指属性个体。操作规则简单来说,就是在数据集中,W具有真值,则B具有真值的可能性和趋势。最典型的关联分析为货篮分析。其属性值有两个,分别是支持度和置信度。这样W属性集就由“支持度-置信度”构成。比如,在生产过程中,事件A发生了,分析事件B发生的可能性。这个对于故障检测和维修很有应用价值。关联分析能从关系数据中,获取感兴趣的知识模式,在众多行业中都有应用价值。
2.2 决策树
决策树主要是根据数据的属性值来对数据进行分类,其主要的规则是“If-then”。它的主要优点就是直观性,可以显示出得出结果的决策过程。这点,它优于神经网络。但是,在面对复杂的数据时,决策树会产生很多的分支,这不便于管理。此外,在面对数据缺值问题时,它没有较好的处理方法。目前,决策树涵盖的算法有ID3、CART、CHAID、SPRINT和SLIQ。
2.3 遗传算法
遗传算法用到了生物学中的一个概念--遗传。物种的繁衍讲究适者生存原则,同样,遗传算法也有着类似原则。其通过模拟自然界物种的进化机制,逐渐产生最合适的规则,并组建新群体,而后产生规则的子体。因此,可利用遗传算法获得最佳模型,优化数据模型。遗传算法是一种弱方法,对信息缺少问题不敏感,效率高,运用也较为灵活,可用于评估数据挖掘算法中的其他算法。
该算法在处理数据分类问题上,极其合适。利用时间类比和空间类比的手段,将大量的种类丰富的信息数据系统化,从而发现数据间的内在关联,获得合适的模型。在模型建立时,可以与神经网络算法相结合,提高模型的可理解性。
2.4贝叶斯网络
贝叶斯网络作为建立在数据统计基础上一种方法,其理论依据就是后验概率的贝叶斯定理。其思路是将不确定事件用网络关联起来,从而预测相关事件的发生概率。其网络变量没有明确要求,可以可见,也可以隐藏于样本中。其功能有聚类、分类、预测和因果分析。对比其他算法,贝叶斯网络的优势在于可理解性好、预测效果好。不过,对于低概率事件的处理问题,它效果较差。
2.5 粗糙集方法
粗糙集方法作为一种数学工具,对于数据挖掘,意义重大。在面对含糊性的问题时,该方法可以找出不准确数据或噪声数据的内在结构联系。此外,还可以进行特征归约和相关性分析的操作。粗糙集主要优点在于,不依赖数据的初始或附加信息。这样,在应对不完整的信息分类时,可以采用它。应用粗糙集方法,可以极大提高数据挖掘的效率。
2.6 神经网络
神经网络属于最常见的数据挖掘技术。其基本思路是,通过模拟人脑的重复学习方式,对训练样本进行学习和训练,最终得到区分各种样本的特征和模式。为保证精准拟合各种样本数据,应尽量挑选具有代表性的训练样本集。它的最大特点在于,可理解性差,即无法知道通过何种规则得到这样的结果。优点在于,能处理复杂问题、对噪声数据不敏感以及能对新数据进行分类。
2.7 统计分析
统计分析是基于统计学和概率论的一种数据挖掘方法。它是基于数学模型的一种方法,具有易于理解,精准计算结果的特点。统计分析主要包含回归分析、因子分析和判别分析三种,实际应用空间较大。
3.数据挖掘技术的应用
数据挖掘技术应用的领域很广泛,下面简单的介绍四种应用领域。
3.1市场销售领域[3]
数据挖掘技术最早开始应用的领域和应用最多的领域就是市场销售,旨在分析消费者的消费习惯和特点,增加销售量。同时,也常用发现潜在客户,增加行业效益。常用的数据挖掘技术有关联分析、决策树和粗糙集方法[1]。需要注意的一点,在对客户数据进行挖掘的同时,注意保护好客户信息不泄露,保护客户的个人隐私。
3.2科研领域
分析各种实验数据,是科研的必要步骤。数据挖掘技术作为一种数据处理技术,经常会被用于分析各种实验数据,寻找相关规律。在科研领域,数据挖掘就是一个工具,各种技术方法都会根据需要而被使用。
3.3制造领域
生产产品的过程中,也会生产出各种数据。这些数据,反映着生产技术、产品、运输等方面的信息。通过使用数据挖掘技术,能找出影响产品质量和生产效率的因素。消除这些因素,就可提高生产效率和产品质量。在制造领域,常用的数据挖掘方法有关联分析、决策树、贝叶斯网络、粗糙集、神经网络和统计分析。
3.4金融领域
金融行业的数据较为完整、齐全,且金融业的利润大。因此,数据挖掘技术在这个行业里,得到较为成熟的应用。其主要通过数据挖掘来分析市場波动,建立对应的预测模型,给投资分析提供便利。常用的数据挖掘技术有遗传算法、粗糙集方法、神经网络和统计分析。
总结
在大数据时代背景下,数据挖掘技术作为能较好处理大数据的工具,其前途不可限量。
参考文献:
[1]唐雅璇, 李丽娟, 吴芬琳. 大数据时代的数据挖掘技术与应用[J]. 电子技术与软件工程, 2017(21):159-159.
作者简介:
朱芷莹(1998—),女,汉族,四川成都人,本科在读,西安财经大学信息管理与信息系统专业大三学生
余思贤(1999—),女,汉族,江西上饶人,本科在读,西安财经大学信息管理与信息系统专业大三学生