微博社交网络数据挖掘与用户权重分析
2019-12-25魏利梅
◆魏利梅
微博社交网络数据挖掘与用户权重分析
◆魏利梅
(山西警察学院 山西 030000)
信息技术水平的不断进步使得信息的获取方式也越来越丰富,但是在目前的信息领域中网络爬虫以及网页信息解析仍然是应用最为广泛的两种信息获取方式。而如果将这两种信息获取方式应用在微博方面,则很难保证数据信息获取的速率,这主要是因为微博本身具有庞大的用户群体,随时随地都有用户在进行信息更新,导致整体的信息更新量以及更新速率都非常快,加之用户之间的信息交流量也比较大,因此,常规的信息获取方式已经不再适用。目前,微博在信息获取方面主要使用的是API接口,这种接口主要是相关的服务提供商针对微博的大数据量以及数据信息交流量而应用的一种数据查询和获取的方式。
数据采集;特性;数据挖掘
对于所有微博用户的数据以及微博本身产生的数据量,服务商都可以获取,而这些数据本身都是非常重要的数据形式,虽然利用API能够实现微博的大数据量获取和查询,但是其作为一种服务器,本身存在一定的负荷极限,鉴于这种情况,必须要针对各个API的结构设置相应权限,这样才能充分保证其在运行的过程中不会出现崩溃或者数据丢失的现象。
1 微博数据采集特点
1.1 数据采集分析
目前,充分利用API开放接口能够完全满足微博运行中的数据采集工作,但在此基础上还必须要有效解决用户身份认证的核心问题。用户使用微博必须要经过严格的身份认证,而在认证过程中产生的用户信息应该要受到保护,用户的账户以及密码要坚决杜绝出现第三方获悉的情况,也不能出现第三方查看用户个人信息的现象。为了实现对用户的身份认证信息的保护,新浪微博使用的OAUTH认证,这种认证方式具有较高的安全性,而且其本身的结构比较简单,实用性也比较强,目前新浪微博针对API的用户验证协议主要使用的就是这种认证方式。用户在注册微博账户的时候,首先必须要经过OAUTH授权,在申请过程中,API会结合用户实际发送出来的申请请求,产生XML或者JSON文件并将其发送给用户,将上述两种类型的文件进行解析之后,就能快速获取到原始的数据[2]。
1.2 微博特性
每一个微博用户个体实际受到的关注程度存在很大的差异,为针对用户的受关注程度主要是根据其微博的恢复以及转发数据统计来进行评价。微博用户在发布相关的微博信息后,别的微博用户主要利用以下三种方式来进行关注:首先是通过直接回复博主的信息进行关注,他人的信息回复会让微博的评论数增加一条;其次是对微博进行转达来关注,这种操作会使得微博的转发数量增加一条;最后是同时进行回复和转发,这种关注方式会使得微博的回复数以及转发数同时增加。由此可见,微博的回复和转发既存在一定的联系,也存在一定的区别。
与其他的社交平台相比较,新浪微博具备的功能更加全面,多媒体信息就是微博本身所具备比较重要的一种功能。根据相关的数据统计发现,与单纯的发布文字信息相比较,图片以及其他多媒体形式的信息会对其他用户形成更大的吸引力,也会进一步增加微博的回复量以及转发量。另外,除了多媒体信息的发布之外,提及关系的信息发布会受到更多的关注,而关注度本身会随着提及关系用户的数量的增加而进一步增加。
2 微博用户
与世界知名的Facebook相同,微博也是一种社交网络,但是微博在本质上与其还存在较大的差异,具备了自身独特的特点。例如,微博能够实现用户友好关系的双向发展,A用户在关注B用户的时候,不需要通过其审核,在这种关注关系中,B用户如果本身不存在关注A用户的意愿,那么在B用户的关注名单中并不会因为A用户的关注而出现,那么两个用户之间的关系会呈现出一种复杂的状态,两者之间并不是普通的好友关系,由于A用户关注了B用户,但是A用户并没有受到B用户的关注,因此,A用户就成为B用户的粉丝。在这种社交网络中,可以用G=( U,E)来表达这种网络结构,U代表是整个社交网络中的各个节点,就也就是微博的每一个用户,E代表的是不同用户之间产生的一种有向联系关系[3]。利用这种网络拓扑关系来表达用户之间的联系,需要对其出度以及入度都进行设定,出度主要是用来表示用户实际关注的好友数量,而入度则表示的是用户实际拥有的粉丝数量,出入度共同构成了整个社交网络节点度的分布特性。
微博针对用户设置了不同的等级,通过对新浪微博数据统计发现,用户在认证过程中会被划分能普通用户以及认证用户。而随着微博版本的不断更新,针对认证用户也实现了进一步精细分类。通过分析可以知道,认证用户通常拥有的粉丝数量更多,而且微博的回复以及转发数量也明显要超过普通用户,由此可见,微博的传播在很大程度上取决于认证用户。对于微博认证用户来说,其微博的回复量以及转发量在很大程度上都取决于其粉丝数量,粉丝数量与微博回复以及转发量之间存在一种紧密的关联,但是通过研究发现这种关系呈现出模糊的状态。
用户使用微博的时候,关注好友的最新微博动态是首先呈现出来的,这些动态信息会按照时间进行排列。而用户将页面向下滑动的时候会呈现出更多的微博信息,因此,每次使用微博都会呈现大量的信息,而这些信息在用户进行简单的浏览之后,大多数都会被忽略。而用户实际情况的不同也会导致其微博的关注度受到影响,当在微博用户活跃时间段来更新微博,那么这些信息在很可能会被用户关注,而在用户不活跃时间段更新信息则会很少被关注,由此可见,微博的传播在一定程度上会受到用户活跃时间特性的影响[4]。
3 基于HITS算法的节点权重研究
人与人的相互关系是社会网络中重要的一个因素,因此,如果微博的作者本身具备较强的权威性,其微博信息也会被广泛传播。由上述的分析可以知道,微博用户的权重会受到用户自身影响力、活跃度等多种因素的影响。HITS算法严格的来讲是一种权重排序法,互联网领域对此的应用非常广泛,在网页中会同时存在指向所有网页authority值的hub值,以及指向某一个网页的所有的网页的hub构成的该网页的authorty值。分析互联网网页信息可以知道,很多情况下一些权威性的网页通常都会值相加未知网页,而且未知网页也有极大的可能会指向权威性网页[5]。
互联网中的网页基本上包含很多各型各色的连接,例如,一些权威性网页中也经常会包含着一些广告连接,在这种情况下,权威性网页本身就很可能会赋予了广告权威性;又如当用户浏览某一个主体网页的时候,经常会出现一些与本出题没有任何关联的页面,但是这个页面很可能本身具有较高的权威性,这种情况的大量出现必然会对HITS算法公正性形成一定的影响。而微博用户个体本身的差异性比较大,研究微博的传播可以知道,如果具有较高权威性的微博用户实际关注的用户越多,那么其关注好友通常情况下重要性也有待考究,而如果少量关注好友,则表示其关注好友很重要。由于微博好友具有双向性的特征,因此,为了避免用户自身权威性的无限传递,那么久必须要针对HITS算法进行一定的改进,结合微博双向关系与互联网网页连接的相似性,在针对HITS算法进行改进的时候就可以充分参照互联网的方式。
互联网技术在当今社会科技不断发展的形式取得了巨大的进步,微博等一些社交网络在人们的日常生活中已经逐渐成为一种必不可少的部分。社交的网络的信息传播速度以及传播范围都比传统网络会好很多,而且微博本身的特征也更加复杂,因此,针对微博等社交网络不能利用传统研究理论和模型进行分析,必须要针对社交网络数据信息获取和传播进行研究具有更高的价值。
4 结束语
在针对API接口在微博的实际应用进行研究,对微博的数据采集等几个方面进行分析,揭示了影响微博用户权威性和微博传播的一些因素。对于微博来说,具备了自身的一些特征,因此信息的发布会受到发布内容、发布人权威性等因素的影响。
[1]孙萌.面向社交网站的数据挖掘应用研究—用户关系分析[D].南京邮电大学,2014.
[2]李鹏宇.微博社交网络中的学生用户抑郁症识别方法研究[D].哈尔滨工业大学,2014.
[3]张劭捷.基于微博社交网络的舆情分析模型及实现[D].华南理工大学,2011.