基于时空数据的用户移动行为模式研究
2019-06-26陈雪莲
摘 要:文章首先以时空轨迹数据为基础,介绍了时空轨迹数据的基本结构,构建了时空轨迹数据模型。其次,对等时间间隔时空轨迹采样数据进行了研究,生成用户热点访问区域。最后,以用户时空轨迹数据挖掘算法实现了对热点访问区域的挖掘研究。
关键词:时空轨迹;用户移动行为
GPS,RFID,网络通信技术的不断发展,使得我们对于时空轨迹数据的收集、存储与分析成为可能。对时空轨迹进行分析,从大量的用户移动时空轨迹数据中发现蕴含的移动行为模式,对于诸如社会管理、交通系统规划与监控,基于位置的服务等领域都有非常重要的作用,同时也是数据挖掘领域的一个研究热点。
以感知时空轨迹数据为基础,以信息学科的研究方法为工具,对大规模数据背后所隐含的关联影响关系进行定量的建模,对所蕴含的规律知识进行系统、完整的抽取,进而对已存在的现象进行原因解释,对未来可能出现的事件进行预测[1],这是一种以数据驱动的社会计算学科的研究范畴。
1 时空轨迹数据的模型
时空轨迹数据是指在时间和空间维度下,对移动用户或车辆运动过程中的轨迹点采样获得的数据信息。轨迹数据包括采样的时间信息和当时所处的地理位置空间信息。车辆时空轨迹数据是指在交通路网结构的约束条件下,在时间领域具有语义关系约束。
车辆时空轨迹数据可以用公式表达为:
其中,Ti表示第i个采样时间点,Loci表示移动用户在Ti时间所处的地理位置,Loci的位置信息与地理坐标信息表示一致,包含水平坐标值和垂直坐标值,可以表示为Loci(xi,yi)。本文中的采样时间间隔|Tj-Ti|为等时间间隔数值。
采样时间为等时间间隔,因此可以将用户的时空轨迹数据的连续时间域转换为离散时间域,只考虑轨迹数据点的空间位置信息,将采样的时空轨迹数据点映射到二维空间域上进行表示。可以采用规则网格单元的形式来表示用户的时空轨迹数据,以等规则空间粒度将空间平面划分为有限个网格单元集合,以实现对连续空间区域的离散化处理以及相近轨迹位置点的近似化计算。假定一个3×3的平面规则空间网格集合,如果空间位置Loci落在第k个网格单元之内,则可以使用该网格单元的标识号Cellk来代替该二维空间位置[2],轨迹序列的网格单元示意如图1所示。
通过这样的离散化划分,连续的时空轨迹数据点就能够被转换为若干个离散的网格单元集合,临近的连续轨迹数据点可以划分到一个网格单元中,用相同的网格单元符号表示。因此,原始的时空轨迹数据集为:
可以被转换为如下形式:
2 等时间间隔的用户移动行为模式挖掘
热点区域是指移动对象频繁访问的空间区域。对于移动轨迹数据来说,是指在某个空间区域中存在大概率的移动数据访问点,这个区域被称作为热点空间区域。将原始时空轨迹映射到三维时空中,基于规则网格空间划分,移动轨迹位置点被转换为不同瞬时的网格单元数据(见图2)。网格单元被按照瞬时采样时间分割为相应的多个时间曾,在每一个时间层,使用密度统计的方法判定时空热点区域。以cell(i,j)表示第i个时间层上的第j个网格单元,用Rate(cell(i,j))表示网格单元cell(i,j)被移动群体访问的频率次数。
将用户移动轨迹数据集合用D={M1,M2,...,M6}表示,其中Mi表示第i个移动个体的历史轨迹数据。本实验中设置网格单元规格为3×3,轨迹数据集合如图3所示。
对该移动数据集进行用户访问频率次数计算之后,运用数据挖掘算法实现对用户热点区域访问轨迹序列的挖掘,具体的算法流程如图4所示。将轨迹数据集映射为规则的网格单元形式,然后对该网格单元的数据进行用户轨迹访问频率值得计算,形成轨迹频率值网格单元集合。扫描该集合的网格单元值,如果频率值Rate(cell(i,j))大于给定的阈值,则标识该单元格为热点区域。如果频率值Rate(cell(i,j))不大于给定的阈值,则删除该网格单元[3]。直到所有的网格单元都扫描完成之后,将符合条件的热点单元格及支持度值存入移动模式集合LS中,判断该单元格是否等于对应的支持度值,如果等于支持度值,则将该单元格加入轨迹序列,否则移除该单元格,直到所有的网格单元判断完成后,最终的LS集合即是要生成的热点区域轨迹序列。
3 结语
本文介绍了等时间间隔条件下的用户移动行为模式挖掘问题,对等时间间隔时空轨迹采样数据进行了研究。针对等时间间隔时空轨迹时间维度内的离散化特征,提出了时间—空间规则网格表示的时空热点区域的概念以表示不同时间切片上的热点空间区域,最后设计并实现了用户时空轨迹序列的挖掘算法。
基金项目:辽宁省博士科研启动基金项目;项目编号:20170520222。辽宁省教育科学“十三五”规划课题;项目编号:JG17EB142。
作者简介:陈雪莲(1979— ),女,黑龙江肇東人,讲师,博士;研究方向:数据挖掘。
[参考文献]
[1]张彦俊,杨晓冬,刘毅,等.基于时空大数据的智慧稽查平台构建研究[J].计算机与数字工程,2019(3):616-617.
[2]杨杰.基于时空轨迹大数据的群体行为模式挖掘分析关键技术[D].南京:东南大学,2015.
[3]吕萍.看美国大数据技术与业务发展[J].数字通信世界,2015(5):46-48.
Abstract:Firstly, based on the spatio-temporal trajectory data, this paper introduces the basic structure of spatio-temporal trajectory data and constructs a spatio-temporal trajectory data model. Secondly, the peer-to-peer interval spatio-temporal track sampling data is studied to generate the user hot spot access area. Finally, based on the user spatio-temporal trajectory data mining algorithm, the research of mining hot spot access area is carried out.
Key words:spatio-temporal trajectory; user mobile behavior