APP下载

基于群体行为分析的人群异常聚集预测方法

2020-03-19黄贺贺曾园园

计算机工程 2020年3期
关键词:基站人群密度

黄贺贺,曾园园,张 毅,奈 何

(武汉大学 电子信息学院,武汉 430072)

0 概述

近年来,随着社会经济的发展,城市的人口密度急速增大,给城市建设和管理的各个方面带来巨大挑战。在公共安全方面,由于人群异常聚集而导致的各类安全问题时有发生,因此对人群异常聚集现象进行预测具有重要的现实意义。

目前,国内外学者对人群异常聚集的预测方法进行了深入的研究,大多数基于图像处理的监控系统已投入运行并已取得了一定的效果[1-2]。然而,基于图像处理的方法具有局限性,例如,摄像机无法捕捉视野外的元素且易被其他障碍遮挡,难以融合来自多个摄像机的信息以获得全局态势感知。另外,基于图像处理的方法需要良好的照明条件,因此,对于发生在夜间的事件而言,该方法难以发挥作用。

许多研究者根据各区域的人群密度历史数据和用户的历史移动轨迹数据,利用时间序列分析方法或概率模型预测未来的人群密度分布。文献[3]提出一种利用长短时记忆网络预测行人轨迹,从而估计各区域人群密度的方法。文献[4]根据用户的历史移动轨迹数据构建基于马尔科夫模型的路径预测系统,用于预测每个用户的未来位置和停留时间。上述方法对于日常的人群密度预测问题较为有效,然而人群异常聚集事件具有突发性,此类方法可能无法取得很好的效果。

针对人群异常聚集现象,许多学者尝试从分析人群的移动行为模式出发,预测各区域的人群密度分布情况,从而提早发现人群异常聚集现象。文献[5]指出,一起人群聚集导致的踩踏事件的形成过程可以分为4个阶段,即自由移动-停留-拥堵-踩踏。文献[6]建立了一个社会力模型来分析人群移动机制,综合考虑了行人意图、期望速度和个体之间的相互作用。文献[7]提出一种密度泛函理论,综合考虑环境因素和行人在不同环境下的移动行为,用以预测人群密度的分布情况。上述方法均基于人群的移动行为特征进行分析,然而对于人群异常聚集事件而言,群体情绪、公共舆论等因素对于群体行为也有重要的影响[8-9]。因此,对于人群异常聚集现象的预测问题,需要从多个维度全面具体地分析和描述群体行为,以提高预测性能。

本文提出一种基于用户群体行为分析的人群异常聚集预测方法。通过对比分析异常聚集场景和正常场景下用户群体的上网行为和空间移动行为,发现不同场景下用户行为的差异性。根据群体上网行为和移动行为对未来时刻是否会发生异常聚集事件进行预测,得到最终的预测结果。

1 人群异常聚集现象分析

1.1 人群异常聚集阈值计算模型

随着智能移动终端的普及和移动互联网的发展,通信基站会记录大量用户产生的会话数据,这些数据准确详细地记录了用户的移动行为和上网访问内容,为群体行为的分析研究提供了数据支撑[10-11]。

大量的研究证明,人类行为在宏观上服从一定的模式[12-13],各个基站覆盖范围内的人群密度分布具有一定的稳定性[14-15],因此,可以通过设定阈值的方式来判定当前区域是否发生了人群异常聚集事件。

由于特定区域上的人群密度分布在一天内会随着时间变化,且同一区域上的人群密度在工作日和节假日时也会有所不同,因此对于某特定基站所在的区域,定义其人群密度期望值如下:

(1)

在此基础上,定义人群聚集的异常判定阈值如下:

(2)

1.2 聚集群体行为分析

将用户群体访问过的内容按照业务类型分为19类,如表1所示。

表1 用户访问内容分类Table 1 Classification of content accessed by users

对正常场景和异常聚集场景下的用户群体访问内容分布进行统计,结果如图1所示。可以看出,两类场景下的用户上网流量分布具有一定的相似性,都主要集中在社交、购物、音乐、视频、新闻等类型上,说明用户群体的内容偏好在不同场景下具有一定的稳定性。

图1 不同场景下的用户访问流量分布

需要注意的是,在异常场景下,社交类应用的流量占比有明显提升,说明异常聚集场景下的用户群体更多地访问社交网站,更频繁地在社交网络上分享内容或获取内容。此外,正常场景下的出行类内容(主要包括打车出行类和地图类内容)的占比明显高于异常场景下,说明在异常场景下的人群移动行为具有明确的目的地,并且移动范围较为有限。

通过以上对比分析,可以将一起人群异常聚集事件的发生过程分为3个阶段。首先,在某区域上发生一起突发性事件,然后,此事件引起区域附近人群的关注并移动至该区域,最后,该区域的聚集人数远超正常值,如图2所示。其中,在第2个阶段,当前区域内群体对于突发事件的反应是在社交网络上分享信息,即访问的内容集中在少数热点内容上,从而可以推断异常聚集用户群体的访问内容分布会表现出较高的相似性。

图2 异常聚集事件发生过程

对于异常聚集事件的预测问题,除了传统方法使用到的人群密度的时间序列信息之外,群体的上网行为信息以及相邻区域上的群体行为信息均可提高预测的准确性。

根据以上分析,异常聚集的用户在上网内容上可能会表现出较高的相似性,使用Jaccrd相似系数衡量用户间的相似度,定义如下:

(3)

其中,N(u)表示用户u的访问内容集合。然而在实际场景中,网络中会存在一些流行内容被大部分用户都访问过,显然这类内容用于衡量相似度会导致偏差,因此需要降低这些流行内容的权重,将式(3)的分子修改为如下形式:

(4)

其中,i为被用户u和用户v共同访问的内容,C(i)为内容i在同时段被所有用户访问的次数。

在得到用户之间的访问内容相似度后,对观测区域在指定时段内的用户群体构建有权相似网络G=。其中,U为用户集合,每个用户对应相似网络中的一个节点,E为连边集合,每条边的权重为对应的一对用户之间的Jaccrd相似系数。在此基础上,定义群体行为平均相似度为相似网络中所有连边的平均权重,具体如下:

(5)

其中,∑E表示所有连边权重的加和,nnum(E)表示网络中连边的条数。

对2种场景(正常现象和异常聚集现象)下的用户群体行为进行比较分析。统计2种场景下的用户间的Jaccrd相似系数,大致分布如图3所示。可以看出,人群异常聚集场景下的用户相似度大多在0.7以上,显著高于正常场景下的0.3,即异常聚集场景下的大部分用户上网行为的相似度较高,说明用户群体的异常聚集现象是由现实中的特定事件引起的,用户对此类事件的反应为社交网络中的使用流量增加,用户间的上网访问内容分布非常相似。

图3 不同场景下的用户行为相似度分布

Fig.3Distribution of user behavior similarity indifferent scenarios

下面验证用户群体行为特征信息对于人群异常聚集现象的预测是否有用。由于人群异常聚集现象的直接特征为人群密度,因此需要计算所有基站上的人群密度分布的香农熵和已知群体行为特征信息条件下的条件熵。香农熵和条件熵的定义分别如式(6)和式(7)所示:

(6)

(7)

分别对正常和异常聚集场景下的人群密度的香农熵和条件熵进行统计计算,绘制累积分布函数图(Cumulative Distribution Function,CDF),如图4所示。可以看出,在两种场景下,人群密度分布的条件熵均低于香农熵,说明群体行为平均相似度信息能够有效降低人数的不确定性。

图4 不同场景下人群密度分布的香农熵和条件熵

Fig.4 Shannon entropy and conditional entropy of crowd density distribution in different scenarios

值得注意的是,异常场景下人群密度分布的条件熵显著低于香农熵,即群体行为特征消除人群密度分布的不确定性的作用更为明显,因此,群体行为相似度是预测异常聚集的一个有效特征。

1.3 空间网络分析

在图2中,引起用户关注到聚集大量用户的过程中,由于人的移动行为具有时空连续性,即区域最终聚集的人群是从相邻区域移动而来的,因此一起异常聚集事件的影响范围不局限于该特定区域,其相邻区域也会受到一定的影响,需要考虑相邻区域上的群体行为特征对于人群异常聚集现象是否会产生影响。

基站的空间网络拓扑结构(如图5所示)可以根据基站的经纬度信息,选取距离最近的几个基站作为该基站的邻接基站。然而在实际场景中,由于建筑布局、道路设施等因素的影响,空间上直接相邻的基站之间可能无法进行用户交互,因此根据用户的移动轨迹,采用两基站间的交互用户数量作为连接权重,取权重排名前6的基站作为该基站的相邻基站。

图5 基站空间拓扑结构

莫兰指数是一种用于衡量空间特征相关性的指标,被广泛应用于各领域的空间结构问题分析中[16-17]。本文采用局部莫兰指数量化分析当前区域的聚集属性,定义如下:

(8)

其中,n为空间网络中的节点数量,本文中特指基站数量,x为待观测的指标,本文中特指群体行为平均相似度,ωij为节点连边权重,本文中特指两个基站间的用户交互数量。

对于人群异常聚集场景,局部莫兰指数为正值表示当前区域与相邻区域具有相近的特征表现,说明当前区域具有聚集的潜在可能,为负值则说明当前区域暂无聚集的可能。

计算数据集中发生异常聚集现象的基站人数分布的信息熵,以及已知局部莫兰指数信息后人数分布的条件熵,绘制累积分布函数图,如图6所示。可以看出,局部莫兰指数能够降低人数分布的不确定性,即空间网络中的信息有助于提高基站人数分布的可预测性。

图6 局部莫兰指数条件熵的累积分布函数

Fig.6 Cumulative distribution function of conditional entropy of local Moran’s I

2 人群异常聚集现象预测模型

异常聚集场景具有以下典型特征:

1)突发性:事件的发生在较短时间内吸引了大量用户聚集。

2)持续时间短:事件的发生过程持续时间通常不超过2 h,即人群聚集一段时间后又迅速疏散。

3)非周期性:当前区域的历史数据中可能从未发生过类似事件。

4)影响范围广:事件的空间影响范围不局限于指定观测区域,邻近区域也会受到影响。

由于人群异常聚集现象的突发性和非周期性,常用的时间序列分析方法(LSTM、ARIMA等)不适用于此问题。此外,已知空间网络中邻近区域的特征信息有助于提高目标区域人数的可预测性,因此,最终的问题模型应当是多元输入的非线性模型。

基于以上分析,模型选择需要考虑时间序列的因果性以及多维特征的信息融合问题。CNN网络模型的卷积层-池化层结构能够满足多维特征信息融合的基本要求。在此基础上,本文采用扩张因果卷积[18]模型(Dilated Convolutional Neural Network,D-CNN)作为整体模型的基础部分,其基本结构如图7所示。在隐层间的信息传输过程中,当前网络节点的输出只能与之前时刻的输入有关,以保证信息传输过程中的因果性。

图7 扩张因果卷积神经网络结构

在单个样本中,对于待预测的区域,需要考虑人群密度、群体行为相似度和局部莫兰指数3个特征,对于6个相邻基站,需要考虑人群密度和群体行为相似度2个特征,因此,模型输入包含15个时间序列信息。对于每个特征,从待预测的时刻回溯4 h,每15 min进行切片,构造长度为16的时间序列。将所有特征拼接成一个二维矩阵,因此,单个样本的大小为15×16的二维矩阵。样本标签为下一时刻是否会发生异常聚集现象,1表示会发生,0表示不会发生。

本文模型结构如图8所示,单个样本中的每一个时间序列对应一个D-CNN层,共15层。将每一个卷积层的输出拼接成一维向量,通过逻辑回归模型(Logistics Regression,LR)[19]得到最终的输出。

图8 预测模型整体结构

本文预测方法的核心思想为考虑异常聚集发生时用户的上网行为变化以及用户行为特征的空间自相关性,利用扩张因果卷积神经网络和逻辑回归模型的组合模型进行预测,预测方法流程如图9所示。

图9 本文方法预测流程

3 实验结果与分析

3.1 数据集介绍

本文实验采用广东省江门市的中国联通记录的用户上网详单数据,包括2018年4月和5月的完整数据,数据集的关键字段和示例如表2所示。用户ID为脱敏处理后的用户手机号码,时间为该条上网记录的产生时间,基站标识为用户连接的基站的唯一标识,URL为用户访问的网址信息。本文所有数据处理及算法设计均在Spark大数据平台环境下运行。

表2 数据基本字段与示例数据Table 2 Basic data fields and sample data

3.2 对比算法

本文选取时间序列分析方法LSTM和ARIMA作为对比算法。首先使用模型预测人群密度,然后通过一个线性判别器来判断未来是否会发生异常聚集现象。同时,为了验证扩张因果卷积神经网络的有效性,选用机器学习中被广泛使用的XGBoost模型[20]作为对比模型。

3.3 结果与分析

分类问题的模型评价指标通常选用精确率(Precision)、召回率(Recall)和F1值(F1-Measure)。对于面向公共安全的人群异常聚集预测问题而言,通常认为召回率(查全率)是更为重要的评价指标,即可以接受一定的误报率,但要尽可能地检测出所有异常聚集现象。具体的实验结果和模型训练过程如表3、图10和图11所示。

表3 4种模型的实验结果对比

Table 3 Comparison of experimental results of the four models

模型精确率召回率F1值ARIMA0.840.830.83LSTM0.810.840.82XGBoost0.910.910.91D-CNN0.930.970.95

图10 D-CNN模型训练过程

图11 4种模型的预测结果对比

从实验结果可以看出,本文预测方法在3项评价指标上均取得了最好的效果,验证了群体行为特征信息和空间相关性信息对于人群异常聚集现象预测的有效性。需要注意的是,在相同的特征信息上,D-CNN模型的表现优于XGBoost模型,说明D-CNN模型对于多维时间序列分析问题的有效性。

此外,基于时间序列分析的模型ARIMA和LSTM在各项评价指标上的表现并不理想,其可能的原因是时间序列分析模型会累积预测误差,预测结果与真实序列的差异呈现出一定的滞后性,如图12所示。时间序列分析模型在人数快速增加时会产生较大的误差,因此,人群异常聚集事件的突发性会使得该类模型的误差较大,导致异常现象的误判和漏判,从而影响预测性能。

图12 LSTM模型误差

4 结束语

针对现实生活中时常发生的人群异常聚集现象,本文提出一种考虑用户群体上网行为特征和空间自相关性的预测方法。通过引入用户群体行为特征和群体特征的空间自相关性,全面地描述和分析异常聚集现象下的群体活动特征,从而提升预测性能。真实的中国联通数据集上的实验结果表明,与ARIMA、LSTM和XGBoost模型相比,该方法对于人群异常聚集预测的准确性更高。下一步将引入社交网络中的内容信息,更加全面细致地刻画群体行为,以进一步改善预测性能。

猜你喜欢

基站人群密度
『密度』知识巩固
密度在身边 应用随处见
糖尿病早预防、早控制
“玩转”密度
密度应用知多少
我走进人群
财富焦虑人群
基于移动通信基站建设自动化探讨
可恶的“伪基站”
基于GSM基站ID的高速公路路径识别系统