地理社会网络数据可视化分析研究综述
2018-11-16沈华伟程学旗
李 恒, 沈华伟, 黄 蔚, 程学旗
(1. 中国科学院大学 人工智能学院,北京 100049; 2. 国家基础地理信息中心,北京 100830; 3. 中国科学院 计算技术研究所,网络数据科学与技术重点实验室,北京 100190; 4. 中国科学院 网络数据科学与技术重点实验室,北京 100190)
0 引言
伴随着移动互联网与社交网络媒体的深度融合,具有定位功能的移动智能设备和软件越来越普及,基于位置服务(Location Based Service,LBS)的应用更加流行,地理社会网络(Geo-Social Networks,GSN)积累的海量时空社交网络媒体数据极具研究价值。如何从GSN产生的海量数据中提取出有用、可靠、可知识化的综合信息,并通过信息可视化方式表达、展示与分析,成为研究者们关注的一个热点。
地理社会网络不同于传统的社会网络服务(Social Network Service,SNS),时间属性和空间地理位置属性(简称时空属性)成为其独特而最重要的属性。通讯方式的变革导致GSN的迅速发展,诸如国外的Twitter、Facebook;国内的微博、人人网等加速了互联网虚拟社区与现实真实社会的交互。简单来讲,SNS产生的海量社交媒体信息经由用户发布、自由评论和转发等操作产生联系。比如,当用户发布微博时,可以同时发布带有地理位置的信息,而通过与社交网络聚合而成的地理社会网络,就成为其在真实空间范围上社会关系的反映。
信息可视化利用计算机交互式地显示抽象数据,从而使人们增强对抽象信息的认知[1-2],这是一个将数据信息转化为视觉形式的过程,认知心理学和图形设计是信息可视化的两大基础。GSN大数据可视化就是在多维度个性化信息挖掘推荐(认知心理学)的基础上,借助地图(图形设计)这种独特的、更具艺术性的表达方法直观展示,使人们能够充分利用视觉和感知能力去观察、处理接收到的社交信息。
海量具有时空属性的社会网络可视化分析,主要基于社交网络、地理信息服务、计算机图形学、统计学等多个学科,通过人机交互界面、探索式数据分析等方法辅助完成数据的分析和推理。对个人而言,用户希望系统自动基于位置签到提供附近可能感兴趣的人和地点等信息;对企业而言,则希望从用户的位置签到和行动轨迹挖掘出与其行为习惯和爱好等相关的信息,从而为厂家制定商业决策、开展商业活动提供有效参考;对政府而言,通过地理位置信息整合与监控主题相关的信息,为实现空间网络舆情监测预告和新闻专题追踪提供有力支撑。因此,地理社会网络数据可视化分析需要从可视化的方法和结果两个维度进行深入研究。
1 国内外研究现状
国内外对地理社会网络数据可视化分析的研究起步较晚,主要依赖于大数据分析技术、信息可视化技术、社会网络与计算、地理信息系统等技术的综合研究与探索。本节主要针对地理社会网络数据可视化分析所涉及的三大方面:地理社会网络、信息可视化和地理社会网络数据可视化,进行全面综述。
1.1 地理社会网络
地理社会网络通过将地理位置信息融合进传统社会网络,将人们的现实生活与虚拟世界连接在了一起。基于位置的社会网络(Location Based Social Network,LBSN)可以帮助用户,发现当前所在位置附近感兴趣的人和地点,也可以分享自己所感兴趣的位置点(Point of Interest,POI)信息。目前典型的LBSN系统应用有Foursquare、Brightkite和Geolife等。
地理社会网络的发展比较晚[3],最早始于2009年美国计算机协会(Association for Computing Machinery,ACM)举办的GSN领域的国际会议。会议主要探讨了地理社会网络分析过程中暴露出的位置隐私保护、移动行为挖掘、位置预测、基于地理位置的用户行为建模、基于地理位置的个性化兴趣与好友推荐等问题。2012年,国际Web信息系统会议组织了GSN数据挖掘竞赛,其中以包含微博内容数据、用户关系数据的新浪微博数据集为数据源,进行了海量数据查询性能分析和预测。同年,知识发现(Knowledge Discovery in Database,KDD)组织也举行了GSN学术竞赛,与Web信息系统会议竞赛相似,同样采用了带有地理位置的微博数据作为研究数据集,但侧重用户间的关注与被关注情况的研究。值得一提的是,2012年Nokia在举办了移动数据挖掘竞赛的基础上,开展了首届地理信息开发者大会,主要内容是研究地理社会网络中的位置服务的发展及展望。之后,国内外的研究者将用户行为分析、推荐和预测、地理位置检索和存储、信息可视化等方面作为地理社会网络的研究热点。
1.2 信息可视化
对于计算机而言,计算能力和存储能力的不断提升为适应大数据时代日益增长的海量数据的处理提供了可能。通过互联网,对海量数据进行分析、统计和归纳,并从中提取有用的信息,发现隐藏的规律,已成为网络数据科学家研究的重点。信息可视化基于图像表达,人们通过视觉能比其他感官组合获得更多的信息[4],这也使得可视化成为当今最流行的理解海量数据的方法。
1.2.1 图表信息可视化
图表形式的信息可视化最早出现于18世纪,数学家Lambert与历史和政治学家Playfair首次创建了可视化图表。19世纪的法国科学家Minard和Marey首次采用非纯手工方式绘制了图表[5],他们将复杂的数据转化成直观的图表,从而帮助人们了解数据。进入20世纪,伴随着计算机技术的进步,信息可视化技术进一步拓展。现代信息可视化起源于20世纪80年代的科学计算可视化[6],最早出现在G Robertson等[7]于1989年发表的Thecognitivecoprocessorarchitectureforinteractiveuserinterfaces一文中。按照Shneiderman[8-9]对信息可视化数据的分类,不同维度的数据其可视化方法不同,具体分类如表1所示。
1.2.2 地理信息可视化
作为最重要的可视化手段,地理信息可视化是空间信息可视化所必不可少的。地理信息可视化[10]主要包含地图可视化和地理信息系统(Geographic Information System,GIS)可视化两种类型。
地图[11],即以符号描绘空间元素,采用制图学理论在平面上表达地球表征。地图可视化[12-13],即将地理数据转换成可视的图形,来表达地学现象与规律;GIS可视化[14]则侧重于地学数据模型与结构设计,多维数据显示,人文、经济空间区域数据可视化等,其可视化分析结果也以地图形式表示。空间区域数据包含了点数据和线数据,地理空间中的一个区域表现的属性,例如,人口密度、人均收入等,多采用颜色表示属性的值。如图1国家地理信息公共服务平台“天地图”所示,借助GIS可视化方式展示了2014年中国城镇居民人均总收入情况,颜色由浅至深反映了人均总收入由少到多的变化。
表1 信息可视化
图1 中国城镇居民人均总收入情况
1.3 地理社会网络数据可视化
地理社会网络产生海量时空数据,其可视化表达与分析是信息可视化的重要研究内容之一。时空数据可视化能够形象、直观地揭示社会网络中人与人,人与位置之间的关联、轨迹、社区等各种关系信息,成为分析地理社会网络最重要的方法之一。自20世纪80年代信息可视化被应用于社会网络分析[15]以来,通过集成信息可视化技术和统计学相关方法,已经形成各种类型多维度的海量数据可视化分析算法。
多维度时空信息可视化,是综合运用计算机图形学、机器视觉、统计学和数据挖掘等技术,将采集到的数据直接映射为图形、图像、三维地图、视频和动画等,多媒体综合表达和分析的新方法。其核心是海量时空数据可视化布局算法,即如何在可视化空间对海量时空数据进行分布显示。目前,布局算法[16-17]主要集中在:基于属性的节点连接图表示的布局算法,比如树形布局、弹性布局和层次布局等;基于邻接矩阵图表示的布局算法。其中,弹性布局又称为力导引布局算法[18],该算法广泛应用于复杂网状布局和树状数据的可视化,由Eades P于20世纪90年代初期率先提出。国外对于力导引布局算法的研究由来已久,从最初Eades、KK、FR等基本模型开始到2003年左右,重点对KK模型进行了改进,提出了基于多维尺度分析的布局算法[19]。2003年以后,多层迭代绘制、非欧空间图绘制、受约束图绘制等不同研究方向不断兴起,并持续至今。由于可视化粒度越细,提供的信息就越多越完整。研究者一般通过优化布局算法来进一步减少重叠,利用渲染和融合充分表现每个数据对象的方法,比如热力图(Heat Map)、实际渲染等。国内研究者全武、吴鹏、万怀宇等人[20-22]则在此类算法基础上,克服结构分析显示方面的缺陷,创造性地提出了Marching-Graph布局收敛、子群分析布局SAL(subgroup analysis layout)等改进算法。如图2所示,全国水雨情信息平台则以热力图形式展示了当日全国气象干旱信息,颜色由深到浅反映了干旱程度由重到轻。
图2 2017年08月13日全国降水距平指数图图片来源:http://xxfb.hydroinfo.gov.cn/gjIndex.html
2 地理社会网络数据可视化分析方法
在本节中,我们针对地理社会网络数据可视化分析方法进行综述。主要从LBSN时空数据抽取方法和LBSN时空数据与地图聚合方法两大步骤进行研究和全面总结。
2.1 LBSN时空数据抽取方法
LBSN是一种基于用户地理位置的共享和追踪;以智能通信网络为媒介,以智能手持终端为主要载体的新型社会网络。LBSN时空数据的抽取必须借助于移动互联网和兴趣点(POI)信息,支持用户实时地记录并自由、方便、快捷地分享地理位置等信息服务。LBSN中各要素之间的对应关系如图3所示。POI点数据对应真实社会的地理位置信息,用户基于社交网络媒体和应用完成POI点的签到,从而建立起LBSN时空数据抽取模型。
图3 LBSN各要素对应关系
LBSN时空数据抽取自用户个人行为和习惯,因此具有高度的随机性。通过对这些不确定轨迹进行可视化分析,可以定量估算社群的社会活动特征,发掘其行为在不同时空粒度下的统计规律,能够更深层次地认知智慧城市中社群的社交行为、生活轨迹和环境变化等。
2.2 LBSN时空数据与地图聚合方法
LBSN时空数据与地图聚合是地理社会网络数据可视化的重要步骤。抽取后的时空数据具有地理位置信息,可以在地图中以坐标形式进行标记,从而完成LBSN时空数据与地图的聚合。同时,海量时空数据本身所携带的社会、人文、经济等其他信息也与地图实现深度聚合。为了解决海量时空数据可视化的覆盖密集显示,以及加载和显示性能过慢的问题,需要合理地选择和布局地图上的可视化元素,呈现尽可能多的信息才是关键。以微博为例,大量使用移动终端的用户上传了地理位置信息。由于用户可以互相关注,也可以转发其他用户的微博,因此,这些用户之间的互动构成了LBSN。通过可视化方法将这些位置信息与微博文本内容结合并分析,可以直观理解社交传播和社会舆情的地域特征。
MIT的Senseable城市实验室[23]是目前比较著名的关注数据可视化的研究所,旨在探讨和预测数字技术如何改变人们的生活方式及其对城市规模的影响。位于纽约的infographics工作室[24]则是专门研究数据可视化的著名工作室之一。国内研究者陈为、朱标[25]等人基于贝叶斯网络,针对地理空间数据提出了连续变量离散化的可视化交互算法,实现了包括地理分类、因果关系分析和异常检测等多任务可视化视图分析。北京大学可视化与可视化分析实验室袁晓如团队[26]针对待遇地理标签的社交媒体数据,以新浪微博为原型,开发了Weibo Footprint可视化分析工具;借助该系统工具可以点击进行时空过滤、使用时间刷进行空间缩放,探索自己旅行的足迹、常去的地方,还可以跟好友一起探索每个人的行为轨迹。
海量时空数据的可视化往往要揭示空间与时间之间的关联,因此通常采用顺序动画来展示。由于LBSN时空数据在可视化中的布局按照其地理位置固定,因此,顺序动画中每帧之间的变化仅仅是其中随时间变化的信息。如图4所示,图4(a)和图4(b)对比了不同时刻,国贸CBD地区的通勤人流量,高亮连线以顺序动画的形式显示了从四面八方汇聚的人流,从时序性角度对海量时空轨迹进行了描绘。
图4 中国北京市国贸CBD地区上午6时通勤人流量图片来源:http://renqi.map.baidu.com/traffic/
图4 中国北京市国贸CBD地区上午8时通勤人流量图片来源:http://renqi.map.baidu.com/traffic/
3 地理社会网络数据可视化分析结果
本节中,我们针对地理社会网络数据可视化分析结果进行综述。主要以地理社会网络信息传播可视化,和与地图聚合后的细粒度可视化两个角度进行研究和总结。
3.1 地理社会网络信息传播可视化
地理社会网络可视化分析基于可视化表达效果和可视化分析方法本身,而LBSN时空信息可视化过程本身,能够增强数据识别效率,传递有效信息,强化认知理解,最终形成对海量时空数据的二次分析。时空信息可视化分析即从时序性和空间特性角度对LBSN数据进行多维度可视化表达与分析,能够将地理社会关系网络描绘成由点、线组成的图,直观地分析其复杂网络信息传播;还可以在地图聚合的基础上,通过分析图中的节点大小、分布位置和点线密度等,实现社会群体的行为监测和舆情预测。高影响力关键用户节点的存在和转发是引发GSN信息持续性传播和扩散的关键因素,对舆情和社会群体行为的走势有着决定性作用。以新浪微博为例[27],其话题传播具有一定的模式和特点,但不同话题的微博传播又具有较大的差异性和地域性特点。因此,海量时空信息传播的可视化必须基于时间和空间属性特征来区别其与传统社会网络的差异性。钟杰[28]等通过研究话题的微博信息传播拓扑结构,为地理社会网络微博舆情可视化分析提供了基础。徐顾伟[29]等则基于移动社会网络的用户位置数据,生成用户活动热度分布图,并以颜色深浅反映一段时间内空间各处的人口密度高低,从而直接反映室内空间资源的利用情况。关迎晖[30]等从布局算法、数据处理、用户交互与分析等方面,对Gephi、Cytoscape、Protovis等各种商业和开源可视化分析软件、工具及开发库进行了具体的对比分析,并形成了基于Gephi对大型、复杂的数据进行可视化处理的分析方案。姜磊[31]等针对网络传播复杂化、高风险化的热点、突发事件频发的特征,提出了一种网络舆情可视化建模的新方法。周芳如[32]等基于地图法和社会网络分析法,实现对旅游信息在微博用户之间传播所形成的时空特征、网络结构形态等完整分析。柴玥[33]等人则统计分析《中国国家地理》新浪微博四年间的6 882条微博状态的内容及相关信息,使用PKUVIS软件对其传播个案进行了充分的可视化分析。
3.2 与地图聚合后的细粒度可视化
地理信息的可视化展示主要基于空间点数据、空间线数据、空间区域数据以及时空数据顺序动画等可视方式。空间数据是基于位置信息的时变数据,社会网络数据是基于社会网络的非时空文本数据。两者结合起来,充分运用可视化粒度更细、提供的信息更完整的力布局算法来减少重叠,充分利用渲染和融合来尽可能丰富、直观地表现每个数据对象的属性。总体来说,采用与地图聚合的细粒度海量时空数据可视化表达地理社会网络具有以下几个方面优势:
(1) 地理社会网络可视化表现形式更加多样,表达效果更加美观,包含数据信息更加丰富;
(2) 可以从宏观上了解地理社会网络的传播机制和地域性规律,从而挖掘更多的社会价值;
(3) 实时更新和显示地理社会网络时空数据,其动态更新过程可以不断获取最新的海量时空数据,从而使信息表达更及时、更鲜活、更准确。
4 地理社会网络数据可视化分析总结与展望
地理社会网络虽然产生较晚,但依靠移动互联网的普及,应运而生的LBSN发展迅猛,包括LBS的广泛应用,社会计算与大数据、人工智能和机器学习等新技术的不断进步,很大程度上促进了GSN的快速发展。研究者们普遍采用形式新颖、直观的信息可视化方式进行表达与分析,从GSN积累的海量时空数据中提取出了有用、可靠、可知识化的综合信息。GSN使得虚拟空间和物理世界、人类社会与地理空间完美衔接,海量时空数据可视化分析[34]成为了解GSN传播机制和地域性规律的重要手段。
信息可视化分析与表达作为一种直观、便捷的方式具有很强的视觉冲击力和高用户体验度。目前,诸如Gephi、D3.js、Protvis等可视化开发组件也越来越多,针对地理社会网络可视化的未来研究方兴未艾: ①LBSN获取的海量时空数据较精细,但也充满着噪声,存在数据缺失问题,如何借助可视化手段更加高效地提取时空行为特征与活动模式,是亟待解决的难题之一;②用户愈加强烈的个性化、社会化需求,使得商务智能(BI)应用,政府舆情监测等对用户行为相似性分析要求更高,可以通过地理社会网络可视化手段挖掘其行为轨迹,进行用户画像;③地理社会网络可视化分析必然涉及用户隐私,海量时空数据可视化分析的同时应注重用户个人隐私信息安全和保护;④探索包括地图聚合方式在内的多维时空数据协同可视化分析手段,针对多维时空数据的稀疏采样、复杂层次以及时空关联深入探讨和研究;⑤进一步增加面向用户、空间和时间“三位一体”的可视化分析,采用更为多样化、人性化的可视化展示方式等方面逐渐成为国内外研究者未来的重点研究方向。
5 结束语
移动互联网与地理社会网络的深度融合,催生了GSN和LBS产业,如何从行业积累的海量时空数据中提取出有用、可靠、可知识化的综合信息,并通过信息可视化方式表达与分析,成为本文研究和综述的核心内容。本文通过对LBSN时空数据抽取、与地图聚合可视化、可视化分析等方面进行研究综述,以期为今后开展地理社会网络时空数据的可视化、分析和交互等研究提供有价值的参考。