基于新浪微博数据的时空分布特征研究
2017-05-16卢宇航
卢宇航
摘 要 社交网络的位置分享服务增加了社交数据的信息维度,使得社交网络中存储了丰富的位置信息资源。本文以新浪微博作为主要数据源,利用爬虫技术采集数据,通过对数据的处理分析以及可视化,得到西安市范围内微博数据的分布规律。
关键词 社交网络 地理信息 数据可视化 时空分布
1引言
在移动互联网技术高速发展、移动通讯网络环境日益完善以及移动终端设备不断普及的背景下,移动互联网应用逐渐渗透到人们生活的方面。根据中国互联网络信息中心发布的第39次《中国互联网发展状况统计报告》,截至2016年12月,我国总体网民规模达7.31亿,其中手机网民规模达6.95亿,占比95.1%,且处于稳步增长的态势。社交网络应用与移动互联网相结合,各大社交应用为广大用户提供了一个开放性的服务平台,为用户的信息的交流与分享带来了更为便捷和有效的方式。在社交网络中,庞大的用户基数产生了海量的数据,这些来自用户的数据已经被视为军事或是商业情报的重要来源。尤其是基于位置分享的社交网络应用,将用户的分享信息与地理位置的实时记录关联起来,从而实现虚拟的网络空间与现实世界的相互映射,为研究社交数据与现实世界之间的关系提供了机会。
本文以新浪微博数据作为对象,利用爬虫技术进行数据采集,在对原始数据进行预处理后,得到西安市范围内的微博数据,在此基础上对微博数据进行统计分析,构建热力图模型,并实现数据可视化,探索西安市范围内微博数据的分布规律。
2数据的采集与预处理
本文使用基于Python的scrapy框架构建数据爬虫系统,采用MongoDB作为存储数据对微博数据进行采集。在采集过程中,通过制定过滤规则对原始数据进行预处理,从而获得研究所需的目标数据。具体操作方式:1. 检测采集的数据中是否包含位置分享信息;2. 通过MongoDB的空间索引特性,利用西安市行政区划的GeoJSON数据检测所包含的位置是否属于西安市范围。将同时满足以上两点的数据视为可用数据存储至数据库中。
3数据的处理与可视化
3.1统计数据的时间分布
将每天的时间从0点开始按照一个小时的间隔分为24个时段,解析每条微博的发布时间,分别统计各个时段的微博发布数量。由于各个时段的微博在发布数量上存在着巨大的差异,因此,在此基础上,将每个时段的统计值均除以总的微博发布数量,得到每个时段的微博发布频率,便于进行数据的可视化。
3.2统计数据的空间分布
将所有微博数据的坐标信息解析GeoJSON的标准格式,利用MongoDB在数据存储层面建立空间索引。然后使用MongoDB的空间查询命令统计西安市范围内微博数据在空间上的分布密度
3.3数据可视化
本选取了ECharts和Leaflet作为数据可视化工具,构建可视化的静态页面。
4微博数据的分布规律
4.1在时间上的总体分布
如图1,显示了西安市范围内微博发布数量频率的各个时段分布情况,从图中我们能够直观地看出微博发布频率在时间上的变化趋势,从0点开始用户发布微博的频率逐渐下降,进入“休息时间”,在上午的5点至6点达到最低值;上午6点以后,直至夜里12点,用户发布微博的频率总体呈现上升趋势,其中在6:00 – 12:00与18:00 – 次日0:00这两个时间段内用户的发布频率显著上升,在12:00 – 18:00的时间段内微博发布频率则相对平稳。
综上所述,用户发布微博的频率在一天之内的变化趋势是显著的。通过对用户发布微博频率的观察,结合其所在的地理位置信息,可以了解到用户在微博平台上的使用习惯,根据用户的活跃时间,适时而有针对性地进行营销推广或是舆情监测,实现相关资源的合理分配和有效利用具有一定的参考价值。
4.2在空間上的分时段分布
由于单个小时时间内的数据量相对要小且每个小时之间的数据变化不明显,不适合综合分析各个时段的空间分布规律,因此,从0点每隔4个小时划分一个时段,将24个小时重新划分为6个时段,得到西安市范围内微博数据分时段空间分布图,如图 2所示。
从微博数据的空间位置分布来看,在0:00-4:00时段,微博数据主要沿地铁二号线周边分布,呈线状和散点状分布;在4:00-8:00时段,微博数据的分布的热力度值进入一天中的最低值,呈现零星散点分布;在8:00-12:00时段,微博数据的热力度开始进入“活跃状态”,在地铁二号线南段沿线、综合商业娱乐中心、高校等区域聚集;在12:00-16:00、16:00-20:00的两个时段,相较于上个时段分布范围更加趋向于向西安市“中轴线”区域集中;在20:00-24:00时段,“中轴线”区域的热度得到提供且向外扩散,同时,其他区域的散点分布也得到了提高,微博数据的热力度进入一天中的峰值时段。
通过对分时段空间分布情况的总结,在一定程度上反映了城市人群活动的时空规律。从微博数据的热度分布上,我们能够分析得到西安市微博人群活动的热点区域和活动时间;从另一方面,也可以了解到城市不同区域现实发展水平。在城市规划、城市管理等方面具有一定的指导意义。
5总结
本文以新浪微博数据为研究数据,以西安市为研究区域,通过对微博数据的采集、存储、处理和可视化展示,实现对西安市微博数据分布规律的探索和分析,其中隐含的人群活动信息对营销推广、舆情监测以及城市规划等方面具有辅助决策支持的意义。
参考文献
[1] 王红梅. 移动互联网现状与趋势浅析[C]// 中国通信学会信息通信网络技术委员会2011年年会. 2011:74-79.
[2] 中国互联网络信息中心.中国互联网络发展状况统计报告[EB/OL].(2017/01) http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201701/P020170123364672657408.pdf
[3] Goodchild, Michael F. Citizens as Sensors: The World of Volunteered Geography[J]. GeoJournal, 2007, 69(4):211-221.