基于频繁序列挖掘的男女生上网模式差异研究
2017-08-10孙启亮牟超孟瑶
孙启亮,牟超,孟瑶
(重庆大学计算机学院,重庆400044)
基于频繁序列挖掘的男女生上网模式差异研究
孙启亮,牟超,孟瑶
(重庆大学计算机学院,重庆400044)
以网络日志作为研究数据,采用频繁序列挖掘和K-means聚类算法挖掘不同性别学生上网模式的区别。通过对比男女生在高、中、低三个不同频段的网络访问模式发现:在最常访问的网站类型上男女生并没有明显区别。男生更多地将网络用于娱乐和社交目的,而女生更多地把网络当做获取信息的工具。此外男生访问的网站类型比女生更丰富。同时,提出一种将序列转换成向量的方法BitOccurrence。
性别差异;频繁序列挖掘;聚类;网络日志
0 引言
确性较好。
随着互联网的发展和普及,学生花费在网络上的时间越来越多[1]。网络访问模式的差异在一定程度上代表了不同用户之间爱好,行为模式或思考方式的差异。研究不同性别群体之间的上网模式差异一方面有助于理解男女生网络访问偏好,另一方面也可以帮助网站设计者针对不同性别的用户开发出更有针对性的内容[2]。网络使用的性别差异(gender gap in Internet use)的主要研究内容是不同性别的群体在互联网的使用方式上的区别。前人已经在这个方向做了大量研究。Eric B.Weiser通过研究发现男生更多地将网络用于娱乐目的,而女生更多地用网络辅助科研学习[3]。Chien-Huang Lin等人的研究表明:女生更多地将网络视为一种工具,会花更多时间在E-mail和获取信息上;男生更多地将网络看做一种娱乐方式,会花更多地时间在游戏和下载软件上[4]。这些研究的数据均来自于调查问卷。通过向被研究群体发放调查问卷的形式收集群体上网的信息,这种方式的问题在于,被调查者有时会出于隐私保护等目的而胡乱填写问卷,对资料的真实性造成影响[5]。本文的研究使用网关服务器的日志作为研究资料,通过频繁序列模式挖掘算法挖掘不同性别学生使用网络的模式,数据的客观性和准
1 数据介绍
1.1 网络日志
本文使用的数据是中国某重点大学的网关服务器的日志数据。日志记录了访问者ID(已做脱敏处理),访问时间、URL地址、设备MAC地址等信息。
本研究选取2014和2015级学生在2015年9月~2016年1月(截止到1月17日寒假前)间的网络日志作为研究数据。各年级和性别人数如表1所示。日志文件的体积达到6.7TB。
1.2 网址分类库
为了研究学生访问网站类别的差异,我们建立了网址分类库。分类库中共收集了12,000个域名地址(包括子域名)。这些域名被分为335个类别[6],并用数字来唯一标识不同的网站类型,如269代表“搜索引擎”类型网站。
表1 各年级、性别人数
2 数据预处理
2.1 数据清洗
获取的网络日志并不能直接用于日志分析。日志服务器会记录每一个接收到的请求,当用户打开一个网页时可能产生十几条记录,其中大部分是由于加载静态资源而产生的记录,还有一部分是由于网站流量统计和广告展示产生的访问记录。经过分析,静态资源相关的记录占到总记录数的70%,广告和流量统计的相关记录站到5%。这些信息会影响我们分析用户的访问模式,所以需要将这些记录剔除。
另外一类需要剔除的信息是由安装在计算机上的软件自动且频繁触发的访问记录。常见的是杀毒软件、下载器等常驻内存的应用程序。
2.2 数据转换
原始日志文件的记录粒度较小,每个用户的每一个URL请求都会产生一条记录。这种细粒度的记录在本研究中并非必须,且记录条数过多会极大增加计算量。故每个人在某一天产生的访问记录被汇总成一条记录。同时,请求的域名被映射到对应的网站类型。转换之后的日志文件示例如下。其中的“#”用于间隔网站类型编号。
2.3 数据概貌
经过2.1、2.2的处理后,日志文件包含记录817,829条,男生的记录558,451条,女生数据259,378条。男女生上网数据的基本统计信息如表2所示,其中平均每个男生有记录68.6条,女生有56.1条。
表2 男女生日志统计数据
图1是335个网站类型支持度的密度图。网站支持度的计算公式如(1)。
从图中可以看出各网站类型的支持度极度不均衡,只有极少数网站类型具有较高的支持度,绝大部分网站的支持度都很小。如果直接对数据进行频繁序列挖掘,则结果将仅由支持度较高的少数几个网站类型组成,从而造成其他的访问序列模式被淹没。本研究将网站类型按照支持度的大小分成高、中、低三个频段,可以更全面的反应学生上网情况。高频部分包含支持度在(0.6,1]内的网站类型,中频部分包括支持度在(0.1,0.6]内的网站类型,低频部分包含支持度在[0,0.1]之间的网站类型。
图1 网站类型支持度密度曲线
3 实验描述
3.1 相关技术介绍
(1)元素
一个元素对应事务数据库中的一个事务,表示为(x1,x2,xm),xk为不同的单项。在本研究中xk为某一个网站类型。
(2)序列
序列是不同元素的有序排列。序列S可以表示为S= 序列中的节:序列中的第k个元素,称作序列的第k节。 (3)频繁序列挖掘 频繁序列挖掘是一种从序列数据库中找出满足最小支持度minSup的子序列的算法[7]。其与频繁项挖掘的区别在于,频繁项挖掘作用于事务数据库,而频繁序列挖掘作用于序列数据库。常见的序列挖掘算法有基于Apriori思想的Apriori类算法和基于投影技术的序列挖掘算法[8]。 (4)K-means聚类 聚类算法经常被用于数据压缩和概括,通过聚类将相似的数据聚集在一起,用中心点代替整个簇[9]。K-means是一种基于距离的聚类算法。可以将数据分成指定个数的聚簇,并计算出每个聚簇的质心。 (5)BitOccurrence编码 频繁序列挖掘的结果是序列,为了压缩序列,减少序列个数需要使用K-means算法聚类,K-means算法的输入是向量。BitOccurrence可用于将一组序列转换为一组向量。向量的属性由序列中出现的元素组成。向量中每个属性的值由该元素在序列中出现的位置和次数决定。对于向量Vi 如果一个示例如下:序列: 向量: 表3 3.2 实验流程 本研究通过对比男女生上网的频繁序列模式来研究男女生上网模式的差异。 如图2所示,实验主要分为6个步骤,其中核心步骤是第4步,对日志文件进行最大频繁序列挖掘。步骤1用于计算各网站类型的支持度。步骤2根据1中计算的支持度将日志文件分为高、中、低频三个部分,又因为男生和女生的日志记录要分开挖掘,故产生了6个数据集,分别为 DHigh_male、DMid_male、DLow_male、DHigh_female、DMid_fe⁃male、DLow_male。划分结果如表4所示。 图2 实验流程图 表4 男女生各频段网站类型个数 由于网站类型较多,日志条数较多,为了能在可接受的时间内计算出挖掘结果,步骤3需要将日志的粒度调整为“月”,以缩减记录条数。同时,对于每个用户,只保留其当月访问次数排在前K位的网络类型,如此可以缩减每个序列的中单项的个数。当K取10时,各频段网站类型的覆盖率较好,各性别、频段的日志覆盖率如表5所示(覆盖率是指被选出的网站类型组成的记录占原记录的比例)。 表5 各频段男女生日志网站类型覆盖率 步骤4用最大频繁序列挖掘算法对日志进行挖掘[10]。挖掘出的结果包含的序列较多,不方便直接用于对比。需要先利用BitOccurrence算法将频繁序列转换为向量(步骤5),再利用K-means算法进行聚类(步骤6),以缩减序列数量。 经过频繁序列挖掘和聚类处理后,得到6组序列数据,分别为男生和女生的高、中、低频段的网络访问序列模式。将序列格式化成表格的形式。表格的每一列对应序列中的一个元素(节)。 4.1 高频 高频部分结果如表6所示。该部分的网站类型是用户访问最频繁的网站。在这部分网站的访问上,男生和女生并没有非常明显地区别。从表5可以看出在“门户网站”、“搜索引擎”两个类别上男生和女生的访问模式相同。对于“在线影视”和“综合购物”类型的网站男生和女生都较频繁的访问,但男生的访问序列的每个小节都包含这两种类型,而女生的访问序列模式只在第二、三小节包含这两个类型,说明男生对这两个类型网站的访问更为频繁。除此之外男生还额外还访问了“在线影视”、“在线音乐”、“软件下载”和“微博”这些类型的网站。 表7 中频部分的序列 表6 高频部分的序列 4.2 中频 中频部分结果如表7所示。中频部分,男女生访问的网站类型差异明显。男生更多地关注了游戏相关、“手机软件”、“电子地图”、“网站导航”等类型的网站,而女生则更多地关注了“数码家电”、“博客”、“百科问答”、“电子支付”相关的网站。从这部分数据可以看出女生更倾向于从网络获取信息,利用网络解决问题。而男生更多地参与到网络娱乐当中。 表8 低频部分书序列 4.3 低频 低频部分结果如表8所示。该部分的网站类别并非学生访问网站的主流。从挖掘的结果可以看出:男女生在该部分的访问模式也有显著差异。男生更多地关注了“交友综合“、”硬件评测“、“女性综合”、“历史人物”、“母婴亲子”、“财经资讯”和“医疗健康”等类型的网站。而女生则更多地关注了“报刊杂志”、“IT资讯”、“汽车资讯”和“游戏综合”等类型的网站。 “游戏综合”网站类型,出现在男生的中频部分,而出现在女生的低频部分,这说明女生同样关注游戏相关的内容,但是关注度小于男生。从关注的内容上来说,女生更多地关注和游戏资讯、攻略相关的内容;而男生对于游戏的关注更为全面,包含了游戏资讯、游戏攻略、游戏官网、网络游戏等。 此部分数据显示,女生更多地利用网络获取信息和资讯。男生同时还将网络用于社交目的。 本文以网络日志作为研究数据,以2014、2015级本科生作为研究对象,通过序列挖掘算法挖掘不同性别的学生的上网模式。同时,还提出了一种将序列转化成向量的编码方法BitOccurrence。通过对男女生上网序列模式的对比发现:男女生在最常访问的网站类型上没有明显地区别。男生访问的网站类型比女生更丰富。男生上网更多地进行娱乐和社交活动,而女生则更多地将网络作为获取资讯和信息的工具。 本文以网关服务器的日志作为数据来源比将调查问卷作为数据来源的方法具有更好的准确性。 [1]Large,Andrew.Gender Differences in Collaborative Web Searching Behavior:an Elementary School Study[J].Information Processing&Management,2002:427-443. [2]Lian,J.W.Online Shopping Drivers and Barriers for Older Adults:Age and Gender Differences[J].Computers in Human Behavior,2014:133-143. [3]Weiser,Eric B.Gender Differences in Internet Use Patterns and Internet Application Preferences:A Two-Sample Comparison[J].Mary Ann Liebert,Inc.,2000:167-168. [4]Lin,C.H.Adolescent Internet Usage in Taiwan:Exploring Gender Differences[J].Adolescence,2008:317-331. [5]李广义.人力资源管理[M].天津大学出版社,2009. [6]Qing Zhou.Predicting Student Performances From Access Records on General Websites[J].Electronics,Communications and Networks IV,2015:661-664. [7]王虎,丁世飞.序列模式挖掘研究与发展[J].计算机科学,2009:14-17. [8]Sun,H,Sun,J.H,Chen,H.Mining Frequent Attack Sequence in Web Logs[J].Springer Int Publishing Ag,2016:243-260. [9]Jiawei Han.Data Mining:Concepts and Techniques,Third Edition[M].Morgan Kaufmann,2011. [10]Fournier-Viger,P.,Lin,C.W.,Gomariz,A.,Gueniche,T.,Soltani,A.,Deng,Z.,Lam,H.T.(2016).The SPMF Open-Source Data Mining Library Version 2.Proc.19th European Conference on Principles of Data Mining and Knowledge Discovery(PKDD 2016)Part III,Springer LNCS 9853:36-40. Research on Gender Gap in Internet Based on Frequent Sequential Pattern Mining SUN Qi-liang,MOU Chao,MENG Yao Uses the net access log as research data,and uses the frequent sequential pattern mining and K-means clustering algorithm to excavate dif⁃ferent access patterns between males and females.By comparing males'and females'visit patterns in high,medium and low frequencies,it is found that there is no significant difference between male and female in the most frequently visited site types.Men are more likely to use the Internet for recreational and social purposes,and women are more likely to use the Internet as a tool for getting information.In addition,the types of site visited by men are more than by women.Besides,presents a method for converting sequences into vectors. 孙启亮(1990-),男,黑龙江哈尔滨人,在读硕士,研究方向为数据挖掘 2017-04-14 2017-06-11 1007-1423(2017)17-0044-06 10.3969/j.issn.1007-1423.2017.17.009 牟超(1989-),男,山东潍坊人,在读博士,研究方向为数据挖掘 孟瑶(1992-),女,云南德宏人,在读硕士,研究方向为数据挖掘 Gender Gap;Frequent Sequential Pattern Mining;Clustering;Net Access Log4 实验结果分析
5 结语
(College of Computer Science,Chongqing University,Chongqing 400044)