Web日志挖掘的研究

2019-02-13黄良剑

数字通信世界 2019年3期

袁伟，黄良剑

（江苏省建筑工程质量检测中心有限公司，南京 210028）

1 引言

随着信息时代的来临，网络迅速发展，互联网渐渐成为人们获取信息的重要渠道，Web站点遍及人生活中的各个领域，如：科技、教育、电子商务等等。Web站点给人们带来了大量有价值的信息和非常大的便利，同时也留下很多访问数据；与此同时，随着Internet的广泛被使用，人们对于Web站点的要求也是越来越高，如何从众多的Web访问数据中知晓用户的浏览目的，以提升网站的性能，更好地为用户提供个性化服务，成为了计算机网络领域的一个重要课题。Web数据挖掘[1]就是为解决以上需求而生的数据处理技术。

Web数据挖掘是数据挖掘在Web上的应用。Web挖掘主要分为三类：Web内容挖掘、Web结构挖掘和Web日志挖掘。作为Web数据挖掘一个重要分支的Web日志挖掘[2]也是备受关注。Web日志挖掘从用户大量的Web访问记录中，挖掘到用户访问页面的情况、网站的频繁使用情况等很多有益的信息，这不仅能帮助网站管理者从中获取Web站点的用户访问情况和Web站点的使用情况，还能为Web站点的结构优化提供数据支持，以便更好地为用户提供服务等。

2 数据预处理

对数据预处理是保证挖掘结果准确性的重要前提。预处理的目的就是要清除不一致的“脏”数据，留下正确、完整、干净的数据。据统计，数据预处理[3]在挖掘过程中，所耗费的时间和成本达到60%至80%左右。数据预处理过程包括数据清理、用户识别、会话识别等。

2.1 数据清理

数据清理是指基于当前挖掘任务，清除Web日志文件中与挖掘任务不相干的数据。数据清理通常包括以下几个方面：

（1）图片，脚本和样式：通常来说，以html结尾的日志浏览记录才是用户的访问目的，所以删除后缀为js、png、ico、css、jpg等日志记录；

（2）HTTP请求方法：常见的有GET、POST、HEAD，用户的主观访问行为以GET请求方法呈现，所以要删除POST以及HEAD请求方法的日志记录，保留GET方法的请求日志记录；

（3）用户访问失败：一般情况下，返回代码为200代表用户访问网站成功，但也有访问失败的时候，这时返回的代码一般为404（页面丢失）、500（内部错误信息）等，只需保留正确的访问记录，删除访问失败的记录；

（4）弹出式广告：用户打开网页时自动弹出，不能反映用户主观访问意图，所以应当删除；

（5）Web Robots：一般叫网络爬虫，它会根据一定规则自动抓取页面。由于网络爬虫没有目的性，并不是用户主动的访问意图，因此要删除。

2.2 用户识别

用户识别是指从Web日志中分辨出每一条记录相对应的用户。由于本地缓存、防火墙等因素存在，使得精准的识别出用户变得十分困难。通过识别注册用户、cookie等方法能提高识别的准确度，但涉及到用户隐私，并且考虑获取数据的难易度，大多数情况下运用启发式规则识别用户：

（1）不同IP地址代表不同用户。

（2）如果IP地址相同，但用户的浏览器或操作系统不同，可认为是不同用户。

（3）如果IP地址、用户浏览器和操作系统都相同，则根据引用页判断，若引用页为空，代表不同用户。

2.3 会话识别

用户在进入站点到离开的期间所产生的全部浏览请求视为一次会话。同一个用户可能在相隔时间较长的Web服务器日志中多次访问了同一个站点，会话识别的任务便是识别出同一个用户所对应的同一次访问请求。会话识别的常用方法有3种：

（1）超时（Timeout）方法。J.Pitkow研究表明，当同一用户在同一页面停留超过25.5分钟，就可视为同一用户的不同会话，目前一般选择30分钟作为判断标准。

（2）序列长度法。该方法由Cooley等人提出，用来识别事务会话。经研究表明，用户浏览页面时通常经过过渡页面进入内容页面，且用户停在内容页面比过渡页面的时间长。若已知内容页面和过渡页面的合集，顺序读取Web日志记录时，一旦读取到内容页面，就意味着找到了会话的边界。

3 结论

本文介绍了Web数据挖掘的背景，Web日志挖掘的相关概念，以及Web日志数据的预处理，包括数据清理、用户识别和会话识别。未来的研究针对预处理之后的Web日志数据进行挖掘，通过数据挖掘的算法，比如关联规则算法中的Apriori算法，决策树算法，神经元网络算法等。

猜你喜欢