APP下载

基于树形算法的社交网络用户真实性分析

2019-05-30何佳莹

中国市场 2019年13期
关键词:社交网络数据挖掘

何佳莹

[摘要]在网络日益发展的现代社会,微博已经成为了人们日常生活中非常重要的沟通和交流的工具,人们在微博中建立了庞大的社交关系网。随着微博优势不断的显现,其缺点也不断暴露:广告的泛滥,虚假用户的不断滋生使得微博的可信度不断降低。文章通过对新浪微博用户数据特征进行分析,从用户特征权重的角度结合数据挖掘中常用的决策树算法,规则算法和Apriori算法进行结果比对,从而得出判断新浪微博用户真实性的最优算法。

[关键词]社交网络;用户特征;数据挖掘

[DOI]1013939/jcnkizgsc201913195

1前言

新浪微博是目前流行的一种网络社区,已经逐渐成为人们在网络中沟通交流及傳递信息非常重要的工具之一。截至2017年9月,微博月活跃用户共376亿,与2016年同期相比增长27%,日活跃用户达到165亿,较去年同期增长25%。在微博不断发展的同时,我们也发现微博逐渐显现的弊端,垃圾用户在微博用户中的数量不断增加,他们是发布虚假信息和广告的罪魁祸首,更有甚者利用这些虚假的账号获取别人的照片和资料来达到其他目的。如何筛选添加微博用户成为大家关注的问题。根据媒体的相关报道,新浪微博实际的真实用户数量不到注册用户数量的50%,但这还不算单用户多账号和一些垃圾用户的情况,按照业内人士的看法,目前每天活跃在微博平台上的真实网民已经不足5000万人。

垃圾用户数量的增加给微博上真实用户的信息安全带来威胁,同时也增加了微博的负载压力。文章重点讲述如何站在用户的角度,利用有限的用户前台信息,结合数据挖掘中常用算法得出的结果来进行对比分析,从而判断出鉴别新浪微博用户真实性的最优算法。

2新浪微博用户特征属性选择

社交网络是由一组个人或组织所组成的虚拟的社会关系。希望通过对社交网络中相关用户数据的分析,挖掘出用户的有效信息,进而可以通过有效的数据挖掘方法来判断出用户的真实性。本文对新浪微博账户的粉丝以及关注用户等信息数据进行收集整理和分析得出了十五项新浪微博用户的特征属性(Attributes)。其中包括:是否有头像、头像类别、用户性别、简介是否完备、关注人数、粉丝数、发布微博条数、个人资料项目数、勋章数量、等级、活跃天数、信任度、发布内容是否超过半数为转发,相册数以及与作者的共同好友数。

3最优算法研究与选择

31实验整体流程

文章收集了部分新浪微博账号中用户的相关数据,根据这些数据,利用数据挖掘中非常有效的工具Weka,尝试不同的决策树算法[1]和规则算法,来判断微博用户是否是真实存在。同时将利用Apriori算法,改变数据的置信区间、确信度,来观察最佳关联规则。本文中将获取的新浪微博用户特征数据运用到决策树算法,规则算法以及Apriori算法中[3],意图寻找出最适合用来判断用户真实性的算法。

32算法的选取

选取了5种最常见的决策树算法,3种规则算法以及Apriori算法运用于微博用户数据中;其中包括J48、FT、LMT、LADTree和ADTree五种决策树算法,JRip、PART和Ridor三种规则算法;根据实验结果发现,使用以上几种算法并没有得出理想中的强关联规则。

4实验分析

NodeXLs是一款可视化的社交网络分析软件,作者使用NodeXLs对数据进行了简单的可视化分析。利用NodeXL分析相关数据发现用户最集中的集合,表示的是和作者的微博账号拥有0个共同好友,几乎百分之一百的虚假用户出现在该区域。

将重新定义的参数运用到算法当中,由表2的结果可以看出ADTree、JRip算法都拥有比较高的准确度,正确率和较短的运行时间,通过此次实验可以看出,在判断微博用户是否是真实的问题中,ADTree和JRip算法有较好的实用性。

5结论

社交网络发展至今,已经有很多人研究出了如何有效判断社交网络用户真实性的模型。在文章中,希望可以发现判断社交网络用户真实性的更加高效的方法。和其他实验不同之处在于,将不同的可以产生“规则”的可行性的算法在准确度,效率和规则的有效性方面进行了比较,更加清晰的将适合于挖掘出真实用户的算法选择出来,为今后社交网络发展和网络用户信息的真实性判断提供重要的依据。

参考文献:

[1]程克非, 程蕾, 黄永东. 基于J48决策树算法的水质评价方法[J]. 计算机工程, 2012, 38(11):264-267.

[2]李振华. 基于Apriori算法的Weka数据挖掘应用[J]. 科技广场, 2008(1):106-107.

[3]AGRAWAL A, CHOUDHARY A. Identifying hotSpots in lung cancer data using association rule mining[C]// IEEE, International Conference on Data Mining Workshops. IEEE Computer Society, 2011:995-1002.

[4]FONG S, ZHUANG Y, HE J. Not every friend on a social network can be trusted: classifying imposters using decision trees[C]// International Conference on Future Generation Communication Technology. IEEE, 2013:58-63.

猜你喜欢

社交网络数据挖掘
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究