APP下载

基于微博数据分析的算法研究

2017-11-30骆伟陈希邦

科技与创新 2017年18期
关键词:质心群组新浪

骆伟,陈希邦

(江西理工大学理学院,江西赣州341000)

基于微博数据分析的算法研究

骆伟,陈希邦

(江西理工大学理学院,江西赣州341000)

随着全球信息化的发展和社交网站的丰富,越来越多的人喜欢在社交网站上分享自己的心情,发布一些动态。微博作为一种新型的既有关注又可以分享信息的社交媒体,它形式多样化、发布便捷、传播快、交互式更强的特点受到了大量用户喜爱。自微博兴起以来,微博的发布数量非常庞大,而如何有效、快速地挖掘出自己所需要的信息非常重要。选择新浪微博为研究对象,通过网络爬虫从新浪微博上获取微博信息,并通过k-means算法对数据进行了分析。

微博;k-means算法;网络交流平台;实时信息

微博在当今社会应用范围越来越广泛,不同于传统的网络交流平台,比如博客,虽然现今还有一些人在博客上发表文章,但从整体上来看,微博更受到广大用户的喜爱,微博上的信息具有较高的时空效率,作为现代社会最流行的人际交往虚拟平台,具有以下特点:简短、实时信息以及具有类似广播的形式。但微博平台上的信息量如此之大,获取信息的难度也是很大,因此,选择一种适合自己的研究算法十分重要。

1 社交网络研究的基础

哈佛大学的心理学教授Stanley Milgram认为,你与任何一个陌生人之间的间隔不会超过6个人,即所谓的著名的“六度分隔理论”。该理论的形成对社交平台的发展有着极大的贡献。社交网络平台是基于人们日常生活中的社交圈为基础,将拥有相同兴趣爱好的网络用户群体通过互联网服务,在网络平台上构建了一种社会网上关系,称为社交网络服务,简称SNS(Social Networking Services,或Social Network Site)。每个人多少都有自己的人脉圈,在互联网上也是如此。到目前为止,社交网络服务已经拥有相对成熟的技术以及受到绝大部分网民的喜爱。当然,由于科技的不断进步和互联网的不断发展,社交网络服务也随之不断加强,出现了垂直类型的SNS(比如淘宝)、学术类型的SNS(比如Wiki、Ning网站)、综合类型的SNS(比如Facebook、微博)等。

2 k-means算法过程

k-means聚类算法是由Steinhaus在1955年、Lloyd在1957年、Ball&Hall在1965年、McQueen在1967年独立提出的。k-means算法属于聚类算法,是典型的基于距离的聚类算法,它采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此,把得到紧凑、独立的簇作为最终目标。算法过程如下:①从N个文档随机选取k个作为质心;②对剩余的每个文档测量其到每个质心的距离,并归入到最近质心的类别中;③重新计算已经得到各个类的质心;④重复上述步骤,直到新的质心与原质心小于等于指定阈值,算法终止。k-means算法实现简单,且聚类速度快,非常适合于大数据集的计算。到目前为止,已有部分研究者采用k-means算法进行社会网络相关的问题分析,并对算法本身加以了改进和优化。

3 新浪微博用户聚类分析

本研究利用八爪鱼采集器,通过制订规则,使用网络爬虫调用新浪微博开放平台API接口来获取微博用户群体的数据。新浪微博用户之间的行为有一定的相似性,基于k-means聚类算法,希望能够得到更加有效的结论证明用户之间存在共同的行为规律。通过对每一个用户群体在一周中某一天发布微博的条数占本周所有微博的比例进行处理,反映的是所有用户在一周时间内各自发布微博的信息统计。基于数据制作K线图,分别对之前数据进行聚类分析之后的不同群组的用户群组进行分析。

通过分析可以得出,选取的微博用户可以大致分为几类,然后对每一个群组进行分析,从而研究他们的特征。研究发现,微博用户之间使用微博的频率确实存在不同的习惯,我们对这些微博用户进行分组可以发现,相同组的用户之间的微博行为有着一定的相似性,且用户使用微博的情况与日常的生活规律有一定的相关性。

从某种程度上讲,此次研究的数据量不是所有新浪微博用户的所有数据,在数据采集方面还有一定的偏差,并不能代表整体微博用户的行为习惯。如果是全部的数据量,普通的计算机没有办法完成此次研究,对算法的要求同样不能仅仅依靠k-means算法来设计此次的数据分析。所以,此次研究只是一次简单的尝试,希望未来在对所有数据的处理中有参考作用。今后,我们还需要大量的数据及更多的研究目标,才能够更加准确地对新浪微博用户的习惯进行研究。

[1]肖广德,高丹阳.应用SNS网站功能构建网络学习环境初探[J].中国电化教育,2010(04).

[2]王千,王成,冯振元,等.K.means聚类算法研究综述[J].电子设计工程,2012(07).

〔编辑:张思楠〕

TP311.13

A

10.15913/j.cnki.kjycx.2017.18.026

2095-6835(2017)18-0026-02

骆伟(1989—),女,教师,研究方向为计算机应用技术。

猜你喜欢

质心群组新浪
重型半挂汽车质量与质心位置估计
基于GNSS测量的天宫二号质心确定
猴子虽小
群组推荐系统:现状与展望
基于近邻稳定性的离群点检测算法
巧求匀质圆弧的质心
新浪读书排行榜
新浪与分众合并案告吹
新浪观战记