基于大数据分析的移动社交网络用户隐私信息关联关系研究
2018-09-23王平水朱新峰
王平水,朱新峰
0 引言
移动社交网络作为大数据时代下的主要网络社交平台,其安全性及隐私问题直接影响移动社交网络用户参与网络活动的积极性,网络用户的隐私保护问题值得社会各界高度关注.
当前,随着Web 2.0技术的广泛应用,移动社交网络作为一种新型互联网交互模式,正受到越来越多的关注,已经成为用户数最多、传播影响最大的新媒体平台,如Facebook、Twitter、人人网、开心网、微博、微信等,为人们聊天交友和及时分享信息提供了便捷的服务,吸引了大量用户参与进来.大数据时代的到来加剧了社交网络隐私泄露的风险,由于移动社交网络具有开放性、共享性和连通性等特点,借助强大的搜索引擎,用户的隐私信息更容易被窥探、收集和非法利用,而且用户看是平常的信息,借助大数据分析工具,从中挖掘出用户的关联信息,也可能造成用户隐私的泄露,给相关个体和组织带来一定的安全威胁.因此,如何使社交网络在满足用户沟通交流、模式知识发现的同时,更好地保护数据所有者的隐私,已成为近年来相关领域专家学者研究的热点问题.
目前针对社交网络用户隐私保护研究主要集中于社交网络数据发布的隐私保护[1-3]和社交网络访问控制等方面[4].社交网络数据发布的隐私保护技术研究的较多,主要采用匿名处理技术[5-10],使得发布的社交网络数据能够满足数据分析的需要,又能很好地保护用户隐私不被泄露;社交网络访问控制技术的研究主要集中于社交网络访问控制模型设计[11-13],以解决社交网络数据授权访问问题.然而,现有文献对用户隐私信息间的关联关系研究的很少,不便于进行个性化隐私保护策略设计,增加了用户隐私保护设置的复杂性.为此,该文以数据挖掘和大数据分析工具为技术手段,对移动社交网络用户个体及群体属性数据进行分析,提取用户隐私信息关联关系,以便为进行个性化隐私保护策略设计提供数据支撑.
1 相关概念
1.1 移动社交网络(Mobile Social Network)
移动社交网络是人们利用移动终端设备通过Facebook、Twitter、人人网、开心网、博客、微博、微信、QQ 等 Internet应用而形成的一类特殊社交群体,其本质是提供一个分享兴趣、爱好、状态和活动等信息的移动交流平台.随着移动设备以及互联网、云计算、大数据、人工智能等新一代信息技术的发展,移动社交网络已经渗透到人们日常工作、学习、生活的方方面面,具有实时性、开放性、移动性、个性化等特点,成为人们思想沟通、情感交流、数据通信、信息分享的主要平台,给人们带来零距离的社交体验.
1.2 大数据(Big Data)
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合.移动社交网络几乎每时每刻都在产生新的数据,数据种类和规模正以前所未有的速度呈指数级增长,整体上呈现出大数据的4V特征,即数据规模大(Volume)、处理速度快(Velocity)、数据类型多(Variety)、价值密度低(Value),这给社交网络数据分析和研究者提供了研究的基础,便于展开相关数据分析、模式识别与知识发现.
1.3 关联规则(Association Rule)
关联规则是指隐藏在于大型数据集中的有趣的、属性间的关联和规律,是数据挖掘中的重要研究内容,被广泛应用于金融领域[14].然而,在移动社交网络用户属性数据集中,通过关联规则挖掘技术和大数据分析技术同样可以找出社交网络用户属性间的关联关系(其中部分属性可能为用户的隐私信息),从而为社交网络用户的隐私保护策略设置提供数据支撑.
2 大数据分析技术
众所周知,大数据的特征之一是价值密度低(Value),即在大量的数据中可能只有微乎其微的数据是有价值的,如何将其中的价值提取出来,需要大数据分析技术的支撑.大数据分析技术有很多,如数据挖掘、统计分析、模型预测、可视化分析等,以下简要介绍与社交网络用户属性数据处理有关的主要技术.
2.1 MapReduce技术
MapReduce是面向大数据并行处理的计算模型、框架和平台,最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法,后来在Hadoop中得到了开源实现,功能上显著增强[15].
Hadoop MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数:Map和Reduce,MapReduce采用“分而治之”策略,一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分片(split),这些分片可以被多个Map任务并行处理,处理后的中间结果作为Reduce任务的输入,产生出需要的结果:<键,值>对.
表1 Map和Reduce函数
2.2 关联规则挖掘技术
关联规则是形如X→Y的蕴涵式,其中,X和Y分别称为关联规则的前导和后继.其中,关联规则X→Y,存在支持度和置信度.
令I={i1,i2,…,im}为数据库中所有项的集合,D={t1,t2,…,tn}为数据库,其中每条记录ti为一个项集且ti⊆I,记录ti包含项集X当且仅当X⊆ti.关联规则X→Y被称为是有趣的当且仅当其支持度和置信度分别不低于用户给定的最小支持度和最小置信度阈值,其中规则X→Y的支持度和置信度分别定义为:
其中|X|为数据库D中包含项集X的记录数.
关联规则挖掘算法一般分为两步:首先找出所有的频繁项集;然后根据用户给定的最小支持度和最小置信度阈值产生有趣的关联规则.
3 移动社交网络用户隐私信息关联分析
人们在社交网络上提供了许多真实的个人信息,包括个人资料、教育和工作经历、联系方式、照片、言论和在线活动等,而且,移动社交网络中聊天信息、视频信息、图片信息猛增,呈现出结构化、半结构化以及非结构化等多种数据形式,其庞大的信息量符合大数据典型的4V(Volume、Variety、Velocity、Veracity)特性,传统的数据分析工具面对如此复杂、规模巨大的社交网络数据显得力不从心,需借助大数据处理工具方可有效处理.
为利用大数据分析技术对社交网络进行用户隐私信息关联分析,我们随机选取了部分某社交网络用户属性数据作为样本数据,该样本数据中共有50000个用户,每个用户包含姓名、性别、生日、血型、职业、兴趣爱好、手机、邮箱等属性,且每个属性均包含是否公开选项,我们主要针对每个属性的是否公开数据进行关联分析,以便简化用户账号注册时的相关属性隐私设置.
3.1 单属性数据隐私分析
假定支持度为60%,通过对样本数据的单属性数据统计分析(如表2),得到如下结果:
表2 单属性数据隐私情况统计
统计结果表明:60%以上的用户将姓名、生日、手机和邮箱视为个人隐私,于是,在社交网络用户账号注册时系统自动将这些属性可设置为默认不公开,其他属性默认公开.我们将姓名、生日、手机和邮箱定义为大众属性,其余为小众属性.
在将性别属性数据视为隐私的8418用户中,性别为男和女的用户分别占16%和84%,如表3.该结果表明,在社交网络用户中女性用户对性别数据的隐私保护意识比男性更强.
表3 性别属性数据隐私情况统计
3.2 双属性数据隐私关联分析
在将性别属性数据视为隐私的8418用户中,将其他某一小众属性数据也视为隐私的用户统计情况如表4.于是,在社交网络用户账号注册时系统通过实时检测性别属性的隐私设置,自动完成相关属性的默认设置,从而简化用户操作,同时也保护了用户的相关属性数据.
表4 双属性数据(含性别)隐私情况统计
3.3 多属性数据隐私关联分析
在将性别、血型属性数据视为隐私的8418用户中,将其他某一小众属性数据也视为隐私的用户统计情况如表5.同理在社交网络用户账号注册时系统可自动完成相关属性的默认设置.
表5 三属性数据(含性别、血型)隐私情况统计
此外,我们也可以将大众属性与小众属性结合进行多属性的隐私关联分析,找出大众属性间、小众属性间以及大小众人属性间的隐私信息关联关系,为用户个性化隐私保护策略设计提供参考依据.
4 结束语
移动社交网络作为Web2.0的技术产物之一,已经成为人们在互联网上传播信息、沟通交流的主要平台.大数据工具的出现加剧了移动社交网络用户隐私泄露的风险.移动社交网络用户信息安全与隐私保护问题成为学术界和工业界近年来关注的热点.然而,现有研究很少关注用户隐私信息间的关联关系,给用户个性化隐私保护策略设计带来不便,也增加了用户隐私保护设置的复杂性.本文以大数据分析工具为技术手段,对移动社交网络用户隐私信息关联关系进行了分析,以便为进行个性化隐私保护策略设计提供数据支撑.下一步我们将在此基础上,通过建立支持移动社交网络用户个性化隐私偏好的授权模型来实现更为灵活的、实用的隐私策略定义,并进行仿真实验和对比分析,以全面解决移动社交网络应用中存在的用户隐私泄露问题.