基于停留点密度聚类的轨迹区域划分方法
2021-11-09张厚禄唐云祁王子扬
张厚禄, 唐云祁, 王子扬
(中国人民公安大学侦查学院, 北京 100038)
0 引言
当今世界移动互联网技术蓬勃发展,人们的工作与生活被各类移动终端全面交叉覆盖。如何利用移动终端的行为数据分析行为人特点是数据挖掘的热门方向。轨迹数据区域划分是移动终端行为数据分析的重要研究分支,也常被广泛应用于公共安全防范及案件侦查。在公安机关实际工作中,通过分析目标人活动轨迹中包含的目的性信息,可以寻找犯罪嫌疑人并评估其可疑程度,以达到案前预警、案后侦查追踪的目的。现有的各种轨迹挖掘算法已经可以做到最大程度涵盖轨迹包含的所有信息,但是对于这些信息的应用程度有限。如连续针对某类地点(加油站、收费站、小区)实施犯罪或预备犯罪的场景,在没有任何既定证据或者线索的情况下,可通过对行人的轨迹信息进行目的性分析,进而检测其异常特性,这对于已发案件的侦查或者未发案事件预防都有重要的意义。而面对这一场景,现有算法受制于对轨迹区域划分的精度不足,难以从行为人的轨迹信息中挖掘出有用线索。
一般地,行为人的活动轨迹被表示为一条连续的曲线,这种表示方式较为直观,但并不直接体现行人的“目的性”。为阐释行人的日常活动中的目的性,各种研究都要首先区分出不同的轨迹区域。常见的思路是首先将速度不超过一定阈值的轨迹点迹定义为停留点,然后对停留点数据聚类以达到轨迹区域划分的目的。该方法首先从行人轨迹数据中检测得到停留点,然后将整个行人轨迹线抽象为若干连续停留点子集,这样行人的轨迹数据就被抽象为从一块停留区域至下一块停留区域的移动过程。如常见的下班回家,既是一个停留点(工作地点)到另一个停留点(家),也是一个目的地到另一个目的地。轨迹中的停留点,尤其是连续停留的点才包含行人的绝大部分活动信息。本文舍弃连续停留点之外的轨迹点,在连续停留点之间挖掘信息,利用停留点所隐含的信息来划分不同的轨迹区域。
1 相关工作
针对轨迹区域划分,许多学者都进行了广泛而深入的研究,从方法思路看,目前主流的方法是使用聚类将同一区域的轨迹聚集为一类,通过不同分类区分轨迹区域的方法。目前轨迹数据聚类策略主要有3个方向:基于结构或形状相似度的轨迹聚类方法、基于兴趣地点的聚类方法、基于历史活动周期的聚类方法。各方向采用的方法界限并不明显,且会互相交叉。
较早的研究中会使用一些常见的聚类算法如K-MEANS、STING[1]、DBSCAN[2]等,由于密度聚类方法可以发现任意簇的形状,近些年的研究重点都在改进DBSCAN算法上。为克服DBSCAN难以确定最佳参数的缺点,Chi[3]为提出HFDST算法,该方法将快速搜索方法应用于轨迹聚类,并通过两个参数Rho、Delta和递归函数来确定未分类的其他子轨迹,以达到克服DBSCAN算法参数敏感的问题;Xiaohui[4]提出一种抽样方法,使用DBSCAN识别分组以后根据持续时长和相似性评分,最后返回得分最高的K组;Peng[5]提出一种基于Spark和SPDBSCAN算法提升聚类效率的方法,该方法改进了DBSCAN算法使之能够并行进行,提升了计算效率;胡圆[6]提出一种基于RDBSCAN算法的异常轨迹检测方法,通过密度区分然后得到异常程度最高的TOP-N异常轨迹;江玉玲[7]采用Frechet距离作为相似度判别依据,改进了DBSCAN算法以对船舶轨迹进一步聚类;Feng[8]提出了基于密度的车辆轨迹聚集方法,该方法考虑到路网形状重建轨迹数据,通过密度聚类结果分析轨迹特性从而引导驾驶员避免交通堵塞;Chen[9]提出一种线性序列的提取方法,该方法首先分割轨迹数据,再计算相邻点的角度并使用DBSCAN方法对其进行聚类;袁志琴[10]提出一种面向变尺度密度数据的分级聚类算法,该方法提出的分步骤轨迹聚类思路较为新颖。
2 相关定义
为更好地描述后续工作的实现过程,当描述算法需要调用概念时,直接使用以下定义。定义图示如图1所示。
图1 相关定义图示
定义1 (轨迹,Trajectory Dataset)设TD(Trajectory Dataset)为一个轨迹数据集,点P为其中的轨迹点,则轨迹点按时间先后顺序可表示为TD={P1,P2,P3,…,Pn}。
定义2 (停留点集,Stay-point Dataset)假设TD中停留点序数集合为TDON,TDON={a,b,c,d,…,i}((0