探究数据挖掘取样方法
2016-12-06邓雍娴
邓雍娴
摘 要:所谓取样就是从目标物品或数据中选择具有典型代表性的样本,并且该样本具备通用的特点。取样方法可有效减小需要进行处理的数据集的规模,为在大规模的数据处理过程中使用数据挖掘计算方式提供了基础条件。本文主要对数据挖掘的取样方式进行了研究,并探索了取样在实际生活和研究中的应用。
关键词:数据挖掘 数据取样 方法
近年来,数据库技术取得了长足的发展,数据库中存储的数据量日渐增加,这就导致传统的数据挖掘方式已经无法满足现代化数据库发展的要求。在数据挖掘的过程中,只有保证挖掘方法具有科学性和创新性,才能有效减少数据挖掘计算的时间,提升数据挖掘效率。[1]
一、数据挖掘取样方法
取样技术是当前世界范围内最通用的一种近似技术,在处理大规模数据工作中应用非常广泛。现阶段数据挖掘研究的核心内容是概要结构的设计,而取样技术本身具备的伸缩性以及灵活性,与其他技术相比是独特的,这就使取样技术成为能够构建数据流概要结构的重要技术之一。[2]
以各个数据项被选择的概率为依据,可将取样方法分成均匀取样,即各个数据项被选择的概率一致;和偏倚取样,即各个数据项被选择的概率不一致。
1.具有代表性的取样方法
(1)A/R Sampling
A/R Sampling进行的首要步骤是通过某一种计算方式在数据集中随机抽选一个备选的元素,其次是将被选中的备选元素与选择条件进行对比,若备选元素与选择条件相符合,则需将其放置于样本集中,即acceptance;若与选择条件不相符,则需拒绝,即rejection;然后从第一个步骤开始重新来过。
(2)精确取样
在样本集中出现仅有一次的元素应该使用元素代码进行表示,出现多次的元素应该使用value,counto表示,value代表元素代码,counto代表数量。在样本集中添加元素时,若该元素已存在于样本集中时,应该在目录的相应元素后加1,若该元素尚未被收集到样本集内,则可进行直接收取。样本集中存储的元素已经超过标准值时,需要对各个元素的原有参数与现有参数进行对比,并选择其中一个将其删除,保证新数据有存放的空间。
(3)计数取样
该种取样方式是通过精确取样演变而来的,变化主要体现在样本集中元素数量已满时,对溢出元素的处理方式。计数取样在处理溢出元素情况时,不仅需要将元素的原有参数与现有参数进行对比,计算原、现参数之间的比率,利用现参数分之一对是否将元素删除进行判断,若其中的一个数据的计数值为0时,无需进行该数据的操作。
二、数据挖掘取样方法的应用与发展
1.应用成功案例
数据挖掘取样技术在现实生活中应用的成功案例有很多,其中包括:第一,常用于商业数据统计的SAS、SPSS数据处理软件等,可使用均匀取样方式对大规模的数据集进行有效处理;第二,数据概要结构构建过程中使用的基础取样技术,如Backing Sample计算技术;第三,在数据挖掘计算方式中可以利用均匀取样方式完成CURE和CLARANS的数据预处理,实现数据挖掘计算技术的扩展。
2.数据挖掘取样技术的发展
(1)传统取样技术的发展
有穷非负数数列的评估方法中就包括自适应取样,该取样方式在数据挖掘中选取的样本大小可调节,有效减小取样大小对数据结果造成的误差。
两阶段取样方式可有效降低取样的成本。比如,在对象集X中进行Y取样的代价过高,就可以利用选取一些取样辅助变量P的方式降低取样代价。两阶段取样方式的具体应用流程为,首先完成对象集X中的大尺寸W的取样工作,从样本W中提取出辅助变量P;其次,通过已掌握的P的数据信息在W中提出数据;最后通过以上步骤中的取值保证指定的取样值Y的取样,并且能够提升Y的准确性,以此完成取样工作。[3]
(2)数据流中取样技术的发展
数据流中的数据流管理和挖掘两方面会涉及到取样技术。第一,数据流的模型处理工作中,数据概要结构的生成会使用到计数取样和水库取样等取样技术;第二,在数据流中查询近似聚集数据时会使用到国会取样以及Distinct Sampling等取样技术;第三,数据流的查询、分类、评价以及在线分析等多项工作中都会使用到偏倚取样技术。
(3)取样技术面临的挑战
现行的取样技术存在的不足主要体现在数据流管理中,在小规模样本集中提取的数据准确性不足,在空间条件以及准确性的有限制的情况下,样本尺寸具有不确定性;与标模界的取样技术相比,数据流管理中使用的取样技术略不成熟,存在附加成本较高、滑动窗口的面积过小等缺陷。
结语
计算机技术的发展推动了数据挖掘计算方法的创新,数据挖掘离不开取样技术。多项研究证明取样技术在当前的大规模数据库查询、优化以及近似处理中发挥了重要作用,广泛应用于数据挖掘计算的数据信息预处理中,但是取样技术成就存在一些不足,这就需要我们对其进行更深层次的研究,改善或消除其中的缺陷,促进取样技术的发展。
参考文献
[1]张成叔.关于数据挖掘取样方式的若干分析[J].赤峰学院学报(自然科学版),2014(09).
[2]陈阳.数据挖掘取样方法研究[J].城市建设理论研究(电子版),2013(22).
[3]胡文瑜,蔡文培.数据挖掘取样方法的衡量与选用研究[J].福建工程学院学报,2011(04).