基于网络的数据挖掘技术
2016-01-01刘阳
刘阳
哈尔滨职业技术学院
基于网络的数据挖掘技术
刘阳
哈尔滨职业技术学院
摘要:数据挖掘技术是对数据的有效的隐性的提取。数据挖掘技术与网络息息相关。很多数据信息都是保存在网络当中,而数据挖掘技术,就是在众多的数据集合当中进行发现与搜集。本文就数据挖掘如何在网络中进行工作、数据挖掘的常用技术、以及设计的应用领域进行了详细的阐述。
1 数据挖掘概念简介
在网络中的数据挖掘,是通过对网络中共享的信息,存放的海量数据,进行模式探索。把一些具有预测效果和规律性的描述效果的数据信息进行分类总结。把这些重要的数据应用在统计学、分类、预测、描述等等各个方面。数据是网络中存放的基本单位。网络中存在海量数据是不争的事实。但这些数据的收集和有效利用,就是通过数据挖掘来实现的。严谨的说数据挖掘是在寻找数据模型。首先获得数据源,这是网络的作用。其次进行数据识别与匹配。利用一些专业领域知识将数据转化为可用
2 数据挖掘技术种类
数据挖掘技术总结为十三大类。篇幅有限这里不意义赘述。举例进行说明。
首先,遗传算法是其中重要一类。遗传算法借鉴的是生物学中,对于路径的寻找、生物的遗传和变异来进行的规律变化。通过这些变化可以应用于优先级别、权值分配、路径选择等多种方面。比如在网络考试系统中,蚂蚁算法就是经常使用的遗传算法的一种。可以通过它实现试卷难度数值的测定。对于数据挖掘来说,它适用于样本采集中分类是否准确的判断。其次关联规则。熟悉数据库相关技术的对这一概念应该并不陌生。在网络数据库当中,在不同的库与库表当中,某个关键的字段,在不同的库与库表中都可以以产生某种作用。从而产生了相应的规律性。这就是我们所说的关联。详细的又可以根据关联性划分出不同种类的关联。在数据挖掘中用于分析数据之间规则的可信程度。再次,粗糙集与模糊集:两者在概念上好似容易混淆。但二者还是有分别的。粗糙集一般是针对对象或者数据的相关属性而言。在我们日常总结的属性中,种类是有限度的,不可能适用于每种数据。因此一些特殊的数据在没有规范的属性进行描述的时候采用粗糙集的方式。而对于模糊集来说,主要是针对数据的边界值。利用某个域值的范围来进行判读与预估。
3 网络数据挖掘的具体应用:
一方面航天应用举例:在天文学研究以及航天数据分析中,人们遇到了一个很大的难题,即人工对大批量数据分析的无能为力。SKICAT不仅提供对数据库的管理,并且通过训练可以对天体进行辨识。它采用了模块化设计,共有三个主要功能模块:分类建立、分类管理及统计分析。其中,分类建立是通过有示范的训练建立对天体的辨识机制。对天体的辨识是进行其它数据分析的前提,只有将天体识别出来以后,如是星系还是星球,才能进行相应的研究。使用SKICAT对天体数据进行分析,一方面是通过机器学习将知识提取过程由学习算法完成,从而可以实现对大批量数据的分析,另一方面是辨识那些亮度很低、人工难以判读的天体图像,以进行后续分析。另一方面,Bayesian网是由变量及其关联组成的有向图。它主要用于处理实际应用中遇到的不确定信息。图中还带有各变量的概率分布,定量的概率信息被表示为条件概率表中在决策前对实际问题的先验的理解与把握。然而,针对实际问题建立一个应用于决策的Bayesian网络时存在两个问题。首先,我们常常是凭个人对问题的经验与理解来建立模型的,因此建立的模型很难反映问题的客观实际。其二,在确定Bayesian网中的条件概率表时,我们需要用定量的数值以支持计算,但实际中,人们很难给出一个具体概率值,一般的应用往往是根据经验,而数据挖掘技术恰恰为我们提供了一系列有效的方法来寻找隐藏于大规模数据之中的有用数据,以解决以上两个问题。最后,数据挖掘技术还常常应用于商业领域。一个企业对未来的产品的预估,可以通过数据挖掘进行分析。当产品的销售预测度较高时,可以加大产品开发与生产量。商品销售企业,也可以根绝用户习惯数据,进行分析。找出哪些商品是会收到用户喜欢,或者拥有类似属性的。这类产品就可以集中采购,而相反情况,就应该减少货品的采购。保证企业稳速发展。
总之,基于网络的数据挖掘技术,作用是从网络海量数据中进行搜集、分类、总结,从而把这些数据通过科学的方法转化为具有价值的信息和宝贵的知识经验。数据挖掘不是简单的搜集、分类那么简单。在这过程中,它需要使用大量的科学方法与算法来实现。例如文中介绍的遗传算法、关联规则、模糊集、粗糙集。当然还不止这些。一些统计技术、人工智能的相关方法也经常使用。通过挖掘技术分类提取后。这些技术可以应用于各个领域。在商业领域判断企业发展、在航天领域进行大数据分析。在网络计算领域提出更优方案。综上所述,基于网络的数据挖掘技术,发挥了巨大作用。在未来仍然有广阔打发展空间。
参考文献
[1]曹秀英.基于粗集的数据挖掘技术及其应用研究[D].哈尔滨工程大学 2003
[2]刘刚.数据挖掘技术与分类算法研究[D].中国人民解放军信息工程大学 2004
关键字:数据挖掘 预测性 相关算法 模式识别 应用领域