社交网络敏感数据获取方法研究

2018-03-26张章学

软件导刊 2018年3期

张章学

摘要：

随着大数据时代的到来，数据变得至关重要，但是数据获取一直是数据挖掘的一个难题。社交网络的成熟使得数据获取变得便捷，但是获取方法仍然有待研究。通过分析社交网络中的信息存储状况，构造了社交网络敏感数据获取模型。从获取用户的个人简介信息中得到用户性别、出生日期、所在地等信息，并通过浏览记录对用户兴趣进行分析，最后利用好友列表获取其整个社交网中用户的敏感数据。以新浪微博为例研究了用户敏感数据获取率。实验发现，在所有数据获取中职业获取率是最低的，而其它信息获取率较高。

关键词：

社交网络；敏感数据；网络爬虫

DOIDOI：10.11907/rjdk.172235

中图分类号：TP301

文献标识码：A文章编号文章编号：16727800（2018）003005603

英文摘要Abstract：With the advent of the age of big data， the data becomes critical. But accessing to data has been a problem for data mining. Social network of mature makes get data convenient， but the method still to be researched. The paper constructed social network sensitive data acquisition model by the analysis of social network in information storage condition. In the user's personal profile， we get some information such as user gender， date of birth， location， etc.， and analyse user interest through the browsing record. Finally we get the entire users sensitive data of social network by the list of friends. By python，the paper make web crawler algorithm get network sensitive data. In the case of sina weibo ， we get users sensitive data. In the experiment， we found that the acquisition rate of careers was the lowest， while the other information acquisition rate was higher.

英文关键词Key Words：social network； sensitive data； web spider

0引言

社交网络通俗来讲便是人与人交流的不同于现实而依附于虚拟网络存在的人际关系网，如常见的社交平台Facebook、微博、人人网等，但它比现实中人们的关系网更为复杂。随着社交网络的不断发展，网络安全问题变得不可忽视。由于人们对个人隐私数据不重视，使得个人敏感信息泄漏，这种泄漏可能造成的结果可从两个层面分析：①对用户本人而言分两种情况，一种是由于商业用途被获取的敏感数据，可能导致得到一些商业推广信息，包括给邮箱发广告、电话推销，以及在浏览网页时向用户推荐链接等。另一种是某些团体恶意获取数据，例如诈骗，在社交网络中获取个人信息如手机号、家庭地址等，进行一些犯罪行为；②对于商业团体而言，敏感数据的获取能够更好且有效地推广产品。

敏感数据指用户年龄、性别、所在地、联系方式、兴趣等，社交网络上敏感数据极易泄露，因为社交网络平台都需要注册后才能进行交流，而大部分用户都会采用邮箱或手机号进行注册，这导致该社交网络平台拥有用户联系方式。其次在用户注册后均需填写个人信息，种种原因导致敏感隐私数据暴露，而敏感数据的获取大部分采用爬虫软件进行程序编写。Jinhyung Jung、Chorong Jeong、Keunduk Byun、Sangjin Lee[1]提出利用越狱的方法获取隐私数据，或者使用获取备份信息的方法。俞忻峰[2]提出两种采集方法，一种是基于API，一种是网络爬虫。采取对比试验，分别用这两种方法获取数据然后对比获取的数据多少。高梦超、胡庆宝、程耀東等[3]基于众包模式，采用C/S架构，通过主题 Deep Web 爬虫的分布式机器节点自动向服务器请求爬虫任务并上传爬取数据，再利用 Hadoop 分布式文件系统对获取到的数据进行处理。周思思、袁晓红[4]针对微博类网站设计了支持Ajax（Asynchronous Java Script and XML）技术的网络爬虫，采用协议驱动和事件驱动结合的采集策略，实现了微博数据的成功抽取和存储。

本文通过分析社交网络用户敏感数据的存储方式进行敏感数据获取研究。从获取用户的个人简介信息中得到用户性别、出生日期、所在地等信息，再通过浏览记录对用户兴趣进行分析，最后利用好友列表获取其整个社交网络中用户的敏感数据。

1模型建立

1.1模型假设

敏感数据获取也就是一种网络数据的获取，而数据获取离不开网络爬虫的应用。网络爬虫，顾名思义就是在网络上获取数据的工具，而社交网络应用传统爬虫无法获取全部信息，因此本文采用网络爬虫。网络爬虫能够处理两方面信息，一类是不需登录便可获取的信息，另一类是需要用户注册登录后才能获取的信息[5]，而社交网络中的数据是后一类。网络爬虫的工作原理见图1。

本文根据爬虫工作原理作出如下假设：

（1）用户的敏感数据为姓名、出生日期（或者年龄）、所在地、社交状况、兴趣爱好。

（2）社交状况分为两个方面：一方面为好友数，一方面是好友关系。其中好友关系比较抽象，本文将其具象化为好友间的互动，以此作为衡量他们之间关系的标度，互动行为分为互动时间以及互动频率。

（3）好友兴趣爱好以用户浏览的网页数据进行分析。本文根据上述假设建立模型，并编程封装数据对象的类，包含要获取的用户ID、用户名、年龄、性别、地域、网站来源、获取该数据的时间点等。

1.2模型分析与建立

根据敏感数据的精确定义，在社交网络中利用网络爬虫建立数据获取模型构架，见图2。用户性别、所在地、职业以及出生日期等信息可以轻易地在用户简介里找到，将其聚类起来便可使用，麻烦的是社交状况和兴趣状况，这两种信息需要对社交用户具体分析。

为了方便计算，本文将社交关系最好的用1表示，没有社交关系则为0。为了使抽象的社交状况转为具象的数字，定义用户i的粉丝集合为Gi，关注集合Hi，为用户i与用户j在t天内评论、赞或者转发过的项目集合，Tpij为用户在t天内进行互动行为的时间，n（Gi）、n（Hi）、n（Iij）分别为各个集合所包含的元素个数，本文定义用户i的社交状况Si必须满足以下方程：

n（fi）=n（G∩H）（1）

Si=a*n（fi）+b*∑j∈Gi∪HiTpijt*（n（Gi）+n（Hi））+c*Iijt（2）

利用关键词法[68]将用户关注过的网页与兴趣进行关联，明星关键词集合S、养生关键词集合Y、时尚关键词集合F、美食关键词集合E、文化关键词集合W、娱乐关键词集合L，见表1。

将不同的关注词联系不同的兴趣类型，然后进行关注度分析。关注度即用户对某种事物关注的程度，分析发现，关注度与浏览数量浏览时间有关联。因为在现实生活中，只有感兴趣用户才会去花时间查找浏览。因此，定义用户喜好与时间作为评价标准，最后定义用户兴趣度表示用户对该兴趣的喜好程度。根据用户i在t时间里登录社交网络的总时间t1，出现的关键词集合Ri，以及每个关键词k出现的时间tRik，本文定义用户i的兴趣状况Hoi必须满足以下方程：

Z=max∑k∈Ri∩StRik，∑k∈Ri∩YtRik，∑k∈Ri∩FtRik，

∑k∈Ri∩EtRik，∑k∈Ri∩WtRik，∑k∈Ri∩LtRik（3）

Hoi=明星if Z=∑k∈Ri∩StRik

养生if Z=∑k∈Ri∩YtRik时尚if Z=∑k∈Ri∩FtRik美食if Z=∑k∈Ri∩EtRik文化if Z=∑k∈Ri∩WtRik娱乐if Z=∑k∈Ri∩LtRik（4）

对用户敏感信息进行具体分析，明确所有的用户敏感数据以及定义敏感数据值，其中最为重要且较难处理的是用户社交状况以及兴趣。

对上述两个最复杂的数据进行分析，将文本信息转化为具体数值。利用网络爬虫工具进行数据爬取，应用Mysql数据库语言对数据进行整理。

2仿真

以微博为例，获取用户的敏感数据包括性别、出生日期、所在地、职业、社交关系及兴趣爱好。由于现实的社交网络平台存在一些没有具体意义的数据，为了排除这些数据在试验中的干扰，在数据获取过程中加入判断语句，只有当用户满足某种情况时才执行数据收集[910]。首先，获取用户关注对象列表，进行遍历，依次进入其页面进行关键词获取，再利用公式（3）和公式（4）求得其兴趣爱好，如出现并列便是拥有多个爱好。其次，社交网络状况复杂，本文利用公式（1）和公式（2）对数据进行处理，以获取微博用户的社交状况。网络爬虫敏感数据的获取率如图3所示。

从图3可以发现，在所有获取数据中，职业获取率是最低的，这是由于在社交网络中只有进行服务推广或比较知名的用户才会对职业进行备注，而其它信息由于在基本简介中属于需要填写的信息因此获取率较高。兴趣则由于用户注册微博很大一部分原因是为了获取自己感兴趣的内容，所以根据用户关注信息就能够推断出大部分用户的兴趣状况。社交状况同样如此，由于用户会和自己的朋友互粉，根据粉丝等信息分析用户的社交状况还是比较容易的。而用户性别获取率是最高的，可以发现性别对用户而言是不影响用户隐私的，甚至有些用户并不认为性别属于用户隐私的范畴。

为了充分了解用户敏感数据的获取与实现情况，利用所获取数据进行社交用户的兴趣分析。根据所得数据计算不同用户的兴趣度，得到用户兴趣的分布情况如图4所示。对能够体现社交网络特点的用户进行分析，以了解用户详细的社交状况。筛选出满足各项需求的用户，从而使数据更为理想。部分用户的社交状况比较分析如图5所示。

从图5可以看出，本文方法以及数据处理的方式能很好地获取用户敏感数据，并对其进行处理。可以发现用户对明星的关注度最高，对养生的关注度最低，而社交状况中，大部分用户的社会关系值集中在0.45左右，少部分用户社会状况不太理想。

3结语

本文根据社交网络用户敏感数据存储特点，以微博为例，构架了网络爬虫对敏感数据进行获取，定义了用户之间兴趣度，进行社交状况计算，然后分析了微博用户之间的兴趣度分布状况和社交状况，得出社交网络中敏感数据的实现方法。传统的敏感数据是基于语义对网络信息进行挖掘，本文利用社交网络获得用户的社交状况和兴趣，使用python语句对用户信息进行采集并分析，使仿真结果更为完善。

参考文献参考文献：

[1]JINHYUNG JUNG， CHORONG JEONG， KEUNDUK BYUN， et al. Epidemic information sensitive privacy data acquisition in the iPhone for digital forensic analysis[J]. Verlag Berlin Heidelberg， 2011（3）：172186.

[2]俞忻峰.社交网络挖掘方案研究[J].现代电子科技，2015（38）：2535.

[3]高梦超，胡庆宝，程耀东，等.基于众包的社交网络数据采集模型设计与实现社交网络中信息传播预测的研究综述[J].計算机工程，2015（41）：3640.

[4]缪健美，姜华强，项洁.社交网络信息采集技术研究与实现[J].电子世界，2012（2）：4041.

[5]陈兴蜀，尹雅丽，李卫，等.面向“人人网”的用户信息采集及拓扑[J].电子科技大学学报，2014（51）：126137.

[6]李保利，陈玉忠，俞士汶.信息抽取研究综述[J].计算机工程与应用，2003（10）：15.

[7]CETINKAYA A. Regular expression generation through grammatical evolution[C]. Genetic and Evolutionary Computation Conference， GECCO 2007， Proceedings， London， England， UK， 2007， Companion Material， 2007：26432646.

[8]LINZ P. An introduction to formal languages and automata[M]. Jones and Bartlett Publishers， Inc. 2011.

[9]龙怡翔，李海涛，胡薇.战术网络中基于策略的网络管理技术研究[J].信息安全与通信保密，2012（7）：8789.

[10]彭冬，蔡皖东.面向Web论坛的网络信息获取技术及系统实现[J].计算机工程与科学，2011，33（1）：157160.

责任编辑（责任编辑：杜能钢）