基于变精度粗糙集的数据挖掘方法研究
2014-03-29黄朝辉
黄朝辉
(莆田学院 信息工程学院,福建 莆田 351100)
随着互联网、移动互联设备以及计算机的广泛普及我国进入了4G时代,信息化时代的特征也更为突出.人们能够非常容易地存储、获得、管理、分析、输出数据,从传统以获得数据为目的,逐渐转变到如何更好地获取其中对自己有价值的信息.数据挖掘的英文拼写是Data Mining(DM),它强调分析数据,从而更好地挖掘出具有潜在有价值的信息、技术、知识以及其他相关需要.数据发掘也体现为一种决策过程,它建立在数据库技术、机器学习、信息检索、统计学、可视化、模式识别、知识获取、高性能计算机、知识库系统、神经网络、人工智能以及统计学等先进技术的基础上,这些技术的发展也会对DM技术的发展产生直接的影响.
1 数据挖掘方法和技术
从当前大部分的数据分析方法来看,整体上仍然属于统计学习方法、仿生物学方法以及机器学习方法等三大类中的其中一种或者多种方式的综合.而且这些方法也有着各自的缺点和优点,因此在处理具体的数据挖掘问题时,要挑选最为适合的技术.如果数据挖掘系统比较复杂,通常都会运用多种类型的数据挖掘技术.
1.1 统计学习方法
在人类最初开始处理数据时,就是运用人工方法来开展统计分析,这种方法在数据挖掘范围内有着长期的应用传统.在数据分析过程中,可以运用统计来研究事物的外在数量以及表现,从而判断某事情的潜在规律.在解决机器学习问题的过程中,传统的统计方法依旧起到了至关重要的作用.重点讨论渐近理论,也就是在样本趋向于无穷多的过程中所具备的统计性质.而且它紧紧依靠显式的基本概率模型,最为常用的分析方式为回归、主元、聚类、主元以及相关分析等方式.
1.2 机器学习方法
从目前研究来看,机器学习方法仍然是重中之重,而且获得了较多的研究成果.从技术运用来看,主要可以分为下面两类:基于决策树以及基于决策规则的技术.
1.3 仿生物技术
遗传算法以及神经网络方法是最为典型的仿生物技术,这些都已经变成了相对独立的研究系统,极大地促进了数据挖掘的发展.从神经网络来看,它能够模拟人脑所特有的神经元结构,在Hebb以及MP学习规则的基础上形成了前馈式、反馈式以及自组织等网络.前馈式网络被用来模式识别以及预测,反馈式网络专长于优化计算以及联想记忆,聚类研究中运用最多的是自组织网络.
从遗传算法来看,它是依据自然进化原理而形成的优化措施.在求解时最好借助彼此组合以及最好解的选择.遗传算法在数据挖掘过程中可以被用来形成变量之间的依赖关系的有关假设.
2 变精度粗糙集(VPRS)理论的研究现状
随着信息技术的不断发展,数据挖掘技术亦得以出现和发展,它的数据库规模比较大、计算能力较强、计算方法非常科学,而且还能够满足不断升级的商业需求,这些因素共同催生了信息挖掘技术.这意味着能够从数据库以及其他信息库或者数据仓库中,挖掘出对研究有用的数据信息.自从Ziarko提出变精度粗糙集模型,相关研究者也将变精度粗糙集模型引入到数据挖掘领域.粗糙集理论在处理噪声数据方面的能力得到了极大的提升,而且大量的国内外学者也不断地开展这方面的理论研究,并且将其运用在数据挖掘实践中.从这个方面来看,变精度粗糙集模型很好地发展了粗糙集理论.此研究领域的重点在于变精度粗糙集模型中的知识约简理论、方法、如何确定精度值、模型应用以及推广等.
2.1 变精度粗糙集模型中的精度值的确定方法研究
从这个模型来看,精度取值能够很好地提取近似分类的确定性规则以及质量.Su等在这个领域中提出一种能够界定精度值的手段.吉阳生等研究者也研究出一种增量计算值的方式,这种方式能够选择合适的值,而且还呈现出动态增量的特征,极大地降低了计算开销.周爱武等学者则提出了在界定近似分类质量情况下的取值范围的方式,依据近似分类质量,可以运用不同方法来有所区别地查找正确分类率的集合,从而较快地明确查找范围.
2.2 推广变精度粗糙集模型
巩增泰等在研究一般关系下的多数包含关系情况下,还提出了一种类型即一般关系下的变精度粗糙集模型.Zhao等很好融合了模糊粗糙集模型与变精度粗糙集模型,在此基础上提出了模糊变精度粗糙集模型.Wang等讨论了不完备信息系统,重点研究了变精度粗糙集模型中基于非对称相似关系以及容差关系的性质.颜锦江等讨论了在不完备信息系统中以相似度为基础的变精度粗糙集模型,而且还提供了求约简的有关算法.
3 数据挖掘研究中的技术难题及趋势
从数据挖掘方法、任务等来看,存在着多种选择,而且还存在着大量颇具挑战性的研究课题.从数据视角来看,噪声、缺失、冗余、海量和动态等相关数据等,这些问题都有待于进一步完善以及解决.从数据挖掘手段来看,相关算法要具备高效性以及可扩展性,运行时间必须具备可预测性以及可接受性.从数据挖掘语言的设计来分析,必须要开发具有效率较高、实用性强的数据挖掘系统.
从当前数据挖掘的研究现状以及应用现况来看,建立以交互、集成为特征的数据挖掘环境,以及如何运用数据挖掘技术,科学快速地处理大型的应用问题,都是它亟需面对的挑战.本文从以下角度分析了数据挖掘在今后的发展趋势,而且还具体地提出了应对问题的相关策略.
3.1 可伸缩的数据挖掘方法.这种方法要具备高效处理海量数据的能力,而且人们希望这种技术具有交互式特征.为了更好地处理剧增的数据信息,开发出针对单独以及集成的具备可伸缩的数据挖掘功能的算法就意义重大,其中的一个关键方向就是建立在约束基础上的挖掘.它不仅能够强化用户交互环境,而且还能够科学地提升数据挖掘、处理的整体效果.同时还为用户提供了可供选择的控制方法,允许使用约束以及用户说明,从而引领数据挖掘系统搜索自身所感兴趣的相关模式.
3.2 适应多种类型、克服丢失以及噪声的相关挖掘方式.在信息化时代,数据挖掘的对象不仅涵盖了关系数据库模型,而且还囊括了分布、异构等在内的多类型数据库,因此要开发出能够适用于多种类型,而且能够防止数据丢失以及噪声现象的新的挖掘方式.
3.3 重视专业知识引导以及专家参与.在数据挖掘过程中,知识校验、限定挖掘范围、排除冗余、专业知识的引领都是不可或缺的.这样就能够很好克服基于非常有限的数据挖掘工具的人机交互能力,而且还能够充分地运用专家学者的专业背景知识.
3.4 注重保护数据挖掘中的隐私以及信息安全.随着电信、网络数据挖掘工具的广泛普及,数据挖掘要注重保护客户的隐私,而且要实现信息安全.这就要开发出更好的方法,在适宜的信息访问以及信息挖掘过程保护客户的隐私以及信息安全.
4 研究中存在的问题以及应对措施
4.1 针对海量数据的问题,在基于变精度Rough集理论中,可以综合地分析集合正域的概念和由此定义的属性等重要概念,构建了数据表分解的相关方法.信息理论领域的信息嫡概念可以被用来验证从分解而获得的树型结构,而且还证明了这种分解方式的科学性和有效性.它不仅能够提升计算速度,而且也不会损失信息量,对当前所运用的各种规则归纳算法来讲,都能够很好地运用在这种树型结构上.
4.2 多次搜索数据表的问题,在关联规则挖掘中,需要多次搜索数据表,文章认为可以运用变精度Rough分析的等效类概念,从而提出一种基于单维布尔关联规则的挖掘方式,在整个数据库中搜索频繁项集时,只进行一次扫描就可以完成目标,从而科学地提升算法效率.考虑到存在单一的最小支持度阀值的缺陷,可以针对不同交易,科学地设定有所差异的最低交易频度.此外,还要根据各项交易的交易频度来决定关联规则的最小支持度阀值,在此基础上,能够产生大量的多个最小支持度阀值,从而使计算结果规则的集合更为科学、精练,也能够涵盖较多的有意义规则.此外,还可以设置给出评价规则的兴趣模板度量方式,从而找到更能吸引人们的相关规则.
4.3 为了彰显出在规则挖掘过程中的条件属性间的相互关系,可以运用因子分析技术对条件属性分组,而且各项属性类内部的条件属性与有关的因子线性密切相关,全部因子都是目标概念的线性组合.可以依据属性或者属性类来判断能否和相互对应的目标概念或因子呈现强相关,可以引入信息嫡评价方式,从而科学地选择属性,选择那些和目标概念有关的属性.此外,还要将此种属性消减方法用在以变精度Rough分析为基础的分类器设计方面,从而可以依据在分类时通常会出现的多(无)规则匹配问题,分别提出两种不同的匹配函数,从而科学地预测未知目标概念的对象.4.4 缺失数据填补以及和重复数据发掘,在数据预处理过程中,这两项问题非常重要,文章提出借助变精度Rough集理论来预测己知数据,从而填补缺失数据,也能够在很大程度上提升预测精度;而且还可以借助数据表分解技术,发现大型数据表中的重复数据,减少查找重复数据的时间和工作量.
5 结束语
在概述了数据挖掘技术方法、技术以及研究现状的基础上,文章分析了在数据挖掘研究中所遇到的技术难题以及今后的发展趋势.同时提出了在不完备信息系统下变精度的限制容差关系模型,并通过理论分析和实例计算验证其对不完备信息系统下的等价类划分更合理;在完备信息系统的条件下,首先分析了变精度粗糙集下的近似约简算法和分布约简算法,然后针对两种约简的优缺点,提出一种改进的近似约简算法,并通过理论分析和实验结果来验证其在时间复杂度和有效性方面的改进,以期为基于变精度粗糙集的数据挖掘方法提供有益的参考.
〔1〕中华,吴成东,赵贞丽,张娜.一种基于变精度粗糙集模型的数据挖掘方法[J].科技广场,2007(07).
〔2〕张东星,苗夺谦,李道国,张红云.基于数据库系统的可变精度粗糙集模型[J].计算机科学,2005(12).
〔3〕倪啸,蔡瑞英.基于变精度粗糙集的信息系统数据挖掘应用[J].微电子学与计算机,2009(04).