APP下载

一种基于时间变化的用户出行和特征的可视化方法研究

2017-03-21夏东

电脑知识与技术 2016年33期
关键词:行为特征关联分析可视化

夏东

摘要: 移动智能终端能方便地通过GPS获取大量的用户位置数据,从而清楚地知道用户的位置轨迹和关键地点。为了有效发现移动用户的行为特征,通过采用POI分类原则对用户位置建立兴趣点语义,并使用了基于时间变化的移动用户兴趣关联模型的挖掘算法,得到了具有不同出行特征的人群,从而提出了基于走势图和桑基图的可视化展现和分析方案。最后,根据分析研究,实现了对移动用户出行和特征的可视化方法研究,并通过实际案例验证了可行性。

关键词:时间变化;关联分析;可视化;行为特征

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)33-0012-04

如今,随着移动智能终端的普及,越来越多的移动设备都具备GPS功能,用户使用一些电子地图时,比如百度地图、高德地图等,会收集用户活动位置的GPS数据,对这些数据的分析能帮助软件商更加了解用户的行为特征,有助于在以后的软件功能升级中加入对用户使用软件习惯的决策考虑,提高软件的用户体验度。数据的关联规则挖掘来自大事务数据集之间的关联和统计的发现,主要考虑支持度和置信度。对于手机用户,由于可以无缝上网的特殊性,随着时间的推移,出行位置变化会呈现一定的规律性,关注在最近用户出行位置的情况能更有效反应用户的出行爱好。通过对分析的数据进行可视化的展示能更加直观展示隐藏的信息。

1相关工作

1.1数据处理

当用户使用电子地图app软件时,它能收集用户活动位置的GPS数据,并通过移动互联网将代表用户位置的经纬度数据传输到服务器,通过对这些数据的分析对于了解用户的行为趋势具有至关重要的作用。为了有效获取用户的地理位置数据,采用了数据统计技术,在统计的基础上对数据进行清理、集成、存储和转换,并根据POI分类原则对位置建立兴趣点语义,从而对得到的结果进行聚类分析,采用K-means聚类算法,是一种数据点到目标点距离作为最优的分类算法,通过聚类能得到位置语义兴趣相似的类[1],对相似的类采用FP-Growth算法进行兴趣点关联分析[2]。

1.2数据可视化

数据可视化是利用各种可视化技术,将数据展示出来,帮助用户更好的理解和分析数据[3]。本文采用基于走势图和桑基图的可视化展示方案,走势图是一种紧凑简洁的数据趋势表达方式,建立在折线图的基础上,使用高度密集的线段来表示数据随时间的变化趋势,但因为大小的限制,不容易表达太多详细信息。为了解决这问题,提出了结合网络图特征的走势图,能达到更好的可视化效果。桑基图是一种能量分流图,特征是开始和结尾的总体宽度相等,最重要的是能很好展示出不同时间段数据间的脉络关系。

2基于时间的用户出行数据关联分析

本文课题研究是基于移动终端出行数据的用户特征可视化,试着发现用户日常行为中相似的行为特征,更好地了解移动用户的行为习惯。根据这一需求,确定了本文研究整体流程,如图1所示,主要分为4个步骤:1)获取研究需要的移动出行数据;2)根据需求对数据进行筛选,整理出有效的数据;3)对整理好的数据建立可视化模型,根据模型选择合适的可视化方法,进行可视化映射;4)根据展现的结果,结合出行的需求和实际情况分析反馈,获得满足要求的可视化结果。

2.1问题分析

移动设备上能方便获取用户的出行位置信息,通过对移动用户位置数据运用数据挖掘技术,得到移动用户出行爱好的特点,系统中需要统计用户出行的情况,重点在于时序变化、人群比较、出行规律:

a) 移动用户出行位置的随机性。移动用户的出行位置点具有连续性,一天时间内每个不同的位置点变化都是相互关联的,但是用户出现的位置点受客观的影响是不确定的。

b) 移动用户出行位置的规律性。在大部分情况下,移动用户的访问都是有规律的,如家>公司>家这样的出行组合;像周末、节假日会出现不同的访问情况,如家>其它(去医院、出差等)>家这样的出行组合,并不能说这些特殊的情况没有研究价值,它可能在很长一段时间重复的出现。

2.2影响移动用户出行的因素

一些特殊时间、事件会影响移动用户的出行,如遇到节假日和周末会对出行产生一些变化,因为周末和节假日用户在工作单位出现的几率会明显降低,而在其它地点如健身场馆、商场等出现的几率会升高。对于出行会产生很大的影响还有两个因素:用户的年龄、性别。由于用户年龄和性别的差异,如身份因素学生、白领、退休职工等不同而选择相异的出行。

2.3用户出行规律和平均使用手机时长的关系

用户使用手机时间的长短会因为出行位置地点的不同而发生相应的变化,这种变化也具有一定的规律性,如在工作单位的时候使用手机的时长可能会比较短,下班后晚间在居住的地点使用手机的时间会相对增加;在上下班往返于居住和工作环境的时间里使用手机时间可能也相应增加。

2.4移动用户出行数据处理方法

出行数据的处理方法流程包括清理数据、集成数据、存储数据、转换数据:

(1) 数据清理。噪声信息和错误信息等很多存在于原始数据中。

(2) 数据集成。进行集成不同相似度数据,如九寨沟属于旅游景点类的。

(3) 数据存储。将集成好的数据进行存储。

(4) 数据转换。对存储好的数据进行有目的的挖掘,转换得到有价值的结果。

2.5移動用户出行数据POI兴趣点

通过手机GPS获得了用户的位置数据,为了更好的分析移动用户的兴趣位置,采用POI兴趣点分类位置数据,兴趣点(Point of Interest,简称POI)在用户地理信息系统中,包含名称、类别、经度和维度这四个方面的信息,它可以是一所学校、一个操场、一个汽车站等,能更加准确的确定用户的兴趣位置。潘明远等[4]通过研究地理信息和对自然语言的处理,总结了POI分类的原则和方法,并构建了POI分类模型。

2.6POI兴趣点分类

根据移动用户的出行行为特点,结合POI分类的原则,将用户位置数据分为一级、二级的层级结构两类,其中一级类是和人们生活密切相关的美食、购物、旅游景点等17个类,二级类是在大类基础上细分的小类。如表1所示。

2.7基于时间的关联分析算法

FP-Growth[5]算法是由韩家炜等提出的使用了一种紧缩的数据结构来存储查找频繁项集所需要的全部信息的关联规则挖掘算法。然而一味地追求效率的提高是不够的,还需要同时针对特殊情况对获得的结果集进行精炼,使数据有更高的置信度。

1) 通过下面的例子解释这个问题。

从表2中看出,在4月28日之前,用户只滑动过“NBA台球CBA 足球“,没有滑动过”健康“;并且,在4月18日后,“NBA台球“都是一起被用户所滑动的。根据上面的解释,得出关联规则的置信度:

A. 从4月15日起:Conf(NBA 台球CBA)=290/500=58%

B. 从4月18日起:Conf(NBA 台球CBA)=290/40072%

C. 从4月20日起:Conf(NBA台球CBA)=290/290=100%

D. 从4月20日起:Conf(NBA台球CBA足球)=180/29062%

E. 从4月28日起:Conf(NBA台球CBA 足球健康)=90/90=100%

从中看出:因为在4月28日之前“健康”都没有出现过,所以规则[ 从4月28日起:Conf(NBA台球CBA 足球==>健康)=90/90=100%]看起来更准确。从而能更清晰知道先前滑动的项集(NBA台球CBA 足球)和最新滑动的项集(健康)之间的关联。通过研究最新滑动图片的关联规则,能有助于在策略的规定下,由前期的项集产生关联更强的后期项集。

2.8基于时间排序的位置语义关联

大部分关联挖掘算法(如:Apriori、FP-Growth)关注的是提高频繁项集挖掘的效率,而不是根据特殊情况挖掘特殊项集。通常而言,时间因素对历史项集提供一个更高的支持度,对最新的项集有更差的支持度,所以使用流行的关联挖掘算法能得到需要的结果。但是对于特殊项集加入时间的分析,能得到更准确的结果。

将需要处理的数据从Mysql数据库取出,处理前的数据如图2所示。

通过运用上面的算法对用户位置兴趣点进行处理,记录每个兴趣点第一次发生的时间,并基于出现时间的先后顺序对获得的频繁项集中的兴趣点进行排序,最终得到的结果如表3所示,对比现实中人的活动规律,得到的组合规律符合实际中人的出行行为习惯。

3 数据可视化转化

对大量的手机出行数据进行有针对性的筛选和处理后,通过页面的表现形式对结果进行展示,方便用户可以自己去观察数据中的有用价值。增加新的维度,那么往往只能采用以下办法,增加新的下拉列表、时间轴等与原图耦合度不高的部件来显示,这种部件越多,用户理解起来也会越困难,增加一个两个可以接受,如果维度过多,应拆开为多图显示。基于上述对本次可视化研究问题的探讨和对用户数据的分析,本文采用基于ECharts圖表组件来实现对数据的可视化展示,逐渐探索出了基于移动终端出行数据的用户特征可视化的流程和方法。

3.1走势图

通过FP-tree对多维数据的分析处理,我们选择采用个性化的走势图来展示,需要展示的移动用户信息,包含时间、年龄、出行位置、性别,其中时间和年龄是固定不变的,属于静态数据,出行位置、平均使用手机时长是随着时间变化的,属于动态数据。普通的走势图不能体现不同位置语义的问题,为了解决这个问题,结合网络图方法,展示关联规则,可以利用不同颜色的结点代表项目,结点之间的连线代表项目间的关联关系。如图3所示,采用不同的颜色视觉编码来表示出行位置语义。

3.2桑基图

为了更好让用户查看到不同人群的关联分析结果,采用桑基图(Sankey diagram )来展示数据,常用于能源、材料成分、金融等数据的可视化分析,能很好地展示数据间的分流合流情况。桑基图中的基本图形是不同宽度的矩阵,用不同的面积代表数据的大小,配以不同的颜色能更好地区分不同的实体,使用线的走向代表数据的分流、合流情况。最终得到的桑基图形式可视化展示的结果如图4所示。

桑基图能更好地利用空间,每个矩阵能很清晰的显示每个出行位置人数的多少,通过观察线的走向可以看出人群流向不同矩阵的分布情况。桑基图比较适合展示人群活动流向关联的可视化效果。

4案例分析

4.1总体规律

为实验准备了10万条用户出行位置数据,每一条数据都对应POI兴趣点中的类,每个用户每天八个时间段最多有八个兴趣点,这些点中可能会有重复的,如住宅、宿舍的兴趣点可能会出现在凌晨、早晨和晚上三个时间段。我们使用FP-tree,对所有用户一个月内每天出行兴趣点进行关联分析,对得到的分析进行时间排序,得到结果见表3。

如表4所示,将一天分为8个时间段。

从表3中得出的数据关联结果,结合表4中不同时间段,找出对应的出行兴趣点,得到如下的活动情况表,如表5所示。

从表5中人群活动的情况我们可以看出,所有人群的特征可以归纳为3种:

a) 出行特征规律是(家->公司->家),如人群1、人群2和人群6。

b) 出行特征规律是(宿舍->学校->宿舍),如人群3。

c) 出行特征规律是(家/酒店->其它->家/酒店),如人群4、人群5和人群7。

根据实际调查的情况,数据对比一致,这3种活动规律的人群确实能代表大部分用户的行为特征。不同人群可视化展示效果如图4所示。

4.2特殊时间、事件对用户出行影响的分析

从所有数据中选出周末、节假日的数据,对这些数据进行关联分析,对得到的结果进行可视化展示效果如图5所示。

从图5中可以看出,在周末和节假日用户的出行特征会产生明显的变化,去学校和公司的人群明显减少,而出行特征规律(家/酒店->其它->家/酒店)的用户明显增加。如图6所示,

周末因为不上班和不上学,所以教育和公司两个位置的人数明显比工作日少;而节假日的到来,很多用户会选择旅游、回家等,相对工作日和周末,酒店和其它(如:旅游景点等)的用户数会出现大量增长。通过以上对比分析,结果符合现实中大部分用户的行为习惯,所以,以上的分析是合理的。

5总结

本文完整地介绍了一种基于时间变化的用户出行和特征的可视化方法研究。从大量用户的移动位置数据中,对数据进行处理、分析和POI分类,获得符合需求的用户特征数据。并利用可视化技术,将数据清晰地展示出来,从而帮助软件运营商推送更精确的信息给用户,提高用户的体验度。为此,使用关联分析算法获得用户出行兴趣点之间的相似性,结合时间排序对关联兴趣点进行对应时间段的映射,通过桑基图结合时间将一天用户活动规律可视化展示出来,以此来实现对移动用户出行特征的分析。

參考文献:

[1]罗倩.K-means聚类中心的鲁棒优化算法[J].计算机工程与设计,2015,36(9):2396-2400.

[2]曹鹤玲,姜淑娟,鞠小林,等.基于动态切片和关联分析的错误定位方法[J].计算机学报,2015,38(11):2188-2202.

[3]张宏鑫,盛风帆,徐沛原,等.基于移动终端日志数据的人群特征可视化 [J].软件学报,2016,27(5):1174-1187.

[4]潘明远,方金云,章立生.基于用户反馈的POI搜索引擎优化研究[J].计算机工程与应用,2010,46(32):112-115.

[5]Han Jiawei, Pei Jian, Yin Yiwen. Mining frequent patterns without candidate generation[C] // SIGMOD00. [ s.l.] :[ s.n.] ,2000.

猜你喜欢

行为特征关联分析可视化
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
基于随机函数Petri网的系统动力学关联分析模型