数据挖掘技术在互联网时代的应用探究

2015-02-11刘光金

科技资讯 2014年29期

刘光金

摘要：该文针对数据挖掘技术在互联网时代的应用一题进行了深入的研究，其中包括数据挖掘技术的概念介绍、数据挖掘技术的基本分析方法以及数据挖掘技术对于数据的预处理方式等，以期能够对各位同仁带来一些具有参考性的意见。

关键词：数据挖掘技术互联网时代应用

中图分类号：TP274 文献标识码：A 文章编号：1672-3791（2014）10（b）-0002-01

如今，互联网的发展速度之快是我们无法预计的，用户能够通过互联网来搜索到一切想要了解的信息，将“秀才不出门便知天下事”这句古语的核心意义发挥的淋漓尽致。但由于Web缺少一定的智能性，以至于用户只能够依靠导航来对信息进行筛选，这样一来就会让搜索结果的准确性以及针对性大大降低。而伴随着数据挖掘技术的加入，让网站对系统性能和用户喜好的分析能力大大增加，从而有效地提高了用户的使用满意度。

1 基本概念介绍

数据挖掘的出现时间为20世纪的80年代，它作为一门刚刚兴起的学科来说还尚未得到人们的广泛认可和使用。如果从技术的层面对其进行分析，数据挖掘所针对的是一些较为复杂且无规律的数据群体；而从商业的角度来说，数据挖掘所指的则是在偌大的数据库中精准的将一些有规律的信息进行转换和分析，并在其中将一些对商业决策有帮助的信息提取出来。

2 数据挖掘技术的基本分析方法

数据挖掘工作中最为重要的一个环节就是对数据进行分析，只有选择一些科学且有效的计算方式才能够将数据的挖掘工作正确的完成。其中，目前较为常用的分析方法有三种，即聚类分析法、分类和预测法以及关联分析法，下面笔者就对其分别进行详细的介绍。

2.1 聚类分析

聚类分析的主要工作就是将物理对象与抽象对象的整合进行分类，并同时对由相同或者相似的对象所组成的分类进行更加深入的分析，而聚类分析的最终目的就是使用详细的方法来将数据进行有效的分类。古语说的不错，“物以类聚，人以群分”，聚类分析法正是通过对事物之间的规律进行分析，从而能够对各个领域进行智能化学习。

聚类分析可以被分成两种方式，即硬聚类和模糊聚类。其中，硬聚类所代表的是将分析对象划分到最为相近的类别当中，而模糊聚类则是通过取值范围的大小来对分析对象进行划分，并且一个对象有可能出现多个类别。

2.2 分类和预测

分类是对无排序规律的标号进行分类，而预测则是将连续值的函数模型进行预测。其中，分类对于数据挖掘技术来说是非常重要的一个基础，通过分类能够将数据集的特性正确的表现出来，从而将各个类别的属性进行相对应的划分。如今比较常见的计算方法为决策树、粗糙集、贝叶斯、遗传算法等等。

而预测则是在已知分类情况的基础之上将未来的发展规律进行预测，目前较为常用的方式有时间序列、回归分析以及局势外推等等。

2.3 关联分析

相信大家都了解蝴蝶效应，在自然界中发生的任何一次微小的变动都极有可能连带出另一个事件的发生，而关联分析则是遵循这个规律所完成的。事物同事物之间是具有一定的依赖性和关联性的，基于此种情况，我们就有机会对其中的规律性进行有效的预测。

举例说明，曾经知名度非常高的购物篮事件就是通过此种关联分析法来进行完成的。其中，通过对顾客购物篮中物品的管理规律进行分析，从而将顾客的购买特点和购买习惯进行初步的掌握，最后根据这些数据再将日常的营销方案和营销策略制定出来。实践证明，此种关联分析法是非常有效果的。

3 数据的预处理

数据的预处理所指的是对网络日志中的相关数据进行二次加工，在加工的过程当中需要对数据的原始性进行有效的保存。其中的挖掘算法所代表的是将数据的结构以及规则有效的选取出来。其中具体的系统结构如下：web日志—— 数据预处理—— 确定挖掘算法—— 数据挖掘—— 模式。

对日志进行数据挖掘之前需要对相关的数据进行优先处理，其中包括数据的增加和减少、用户的识别工作、会话内容的识别工作以及路径的补充工作等等。

3.1 数据的缩减

首先来了解一下Web日志常见的数据格式：用户的访问日期和访问时间、IP地址、方法、指定页面的URL、字节数量、网页状态、代理页面的URL等等。由于Web的日志挖掘工作仅仅针对用户的行为模式较为关注，对一些没有显示请求的界面就非常容易被忽略。例如带有后缀名为jpg、jpeg、gif等。在此基础之上在对余下的筛选记录中将相关的项进行选取和挖掘。

3.2 用户识别

在用户的系统中通常都会设置防火墙，所以在Web日志中所产生的记录极有可能是不真实的。这就会使用户识别工作变得异常的复杂和繁琐，使用启发式规则则能够让用户的识别工作有效的完成。

规则一：假设用户的IP相同，如果代理浏览器的操作系统出现了变化，则代表其属于不同的用户。

规则二：假设用户的IP相同，如果当下的链接页面同已经浏览过的链接页面没有任何的关系，则代表用户是不同的。

3.3 会话识别

会话识别的最终目的是可以将用户的访问记录进行划分，从而形成多个单独的会话，并以此来作为不同的用户单位。其中，如果历经时间超过了事先的限定范围，则会默认认为一个新的会话已经开始。

3.4 路径补充

如果想要达到减少网络传输量的目的，目前大部分的浏览器都会采取对刚刚访问的页面进行缓存的做法。其中，如果用户在页面中给出了返回指令，系统将会显示出缓存页面。由于Web的服务器无法对用户的访问页面有效的进行确定，对PostLOG表中的refer进行检查将能够完成对页面的确定工作。

如果用户的访问历史中包含了多个当前页面的链接，将优先选择请求时间最接近的的页面。

4 结语

互联网已经逐渐的在人们的生活中占据了主导的地位，为了能够让用户有更好的体验感受，相关的技术部门应该对用户的行为进行更准确的理解和掌握。伴随着数据管理工作的不断优化，以及相关检索技术的不断进步，数据挖掘技术将在未来拥有着更为广大的发展舞台，让其能够更好地为互联网、为用户提供服务。

参考文献