现实与赛博空间数据相结合的城市活动事件时空建模
2019-06-10唐炉亮
唐炉亮,戴 领,任 畅,张 霞
1. 武汉大学测绘遥感信息工程国家重点实验室,湖北 武汉 430079; 2. 武汉大学城市设计学院,湖北 武汉 430070
城市活动事件是指在城市中发生的计划性事件或时空现象,如体育赛事、娱乐演出、游行集会等活动,是城市环境、人群和管理系统三者之间交互的产物[1],可预见性的人群聚集与长时的演变过程是其主要特点。城市居民通过参与事件而获得独特的体验,对一座城市而言,城市活动事件是城市品牌化[2](City Branding)的重要手段之一,在促进城市经济、文化、娱乐、体育等发展上具有重要意义。近年来,城市活动事件规模、影响力逐渐扩大,报告显示,北京2017年营业性演出场次多达24 557场,观众人数共计1 075.8万人次[3]。
城市活动事件的发生对城市的现实空间与赛博空间都会产生影响,易引起交通拥堵、局部资源紧缺、网络通信不畅等城市问题。因此,从现实空间与赛博空间对城市活动事件的感知与表达,分析城市活动事件的时空变化过程,建立城市活动事件时空模型,刻画事件全过程中城市地理空间与行为空间的时空特征演变,对城市建设与管理具有重要的理论研究与应用价值。
现有对城市活动事件的研究大多立足于交通或社交媒体单一数据源,以事件发现为目标,采用交通异常检测[4-12]、文本挖掘[12-15]等手段进行事件的探测,而忽视对事件的感知和刻画。在以现实空间交通数据为核心的城市事件研究中,对事件的刻画与表达常辅助于事件的探测,如文献[8]采用有向图结构表示交通异常,利用出租车轨迹、公共自行车租借数据计算交通流量作为图的边属性,从而探测交通聚集事件;文献[12]提出路段模式(routing pattern,RP)以描述道路交通流量的变化情况,并结合社交媒体数据,对异常情况作出对应的事件解释;文献[16]在基于数据立方的时空框架下刻画并探测城市拥堵事件。以赛博空间社交媒体数据为核心的城市事件研究则侧重于探究事件的发展与演变趋势[15,17-19],如文献[18]利用社交媒体数据提取事件脉络,采用图结构构建事件模型,根据社交媒体数据的相似度和关联度追踪事件前后发展;文献[19]基于社交媒体建立突发事件的应急主题分类模型,探究暴雨、灾害等事件的时间趋势和空间分布。从以上分析可知,从交通数据研究城市活动事件,现多侧重于异常探测,忽视事件的全过程感知与分析,对事件的刻画也局限在事件发生的场所周围,缺乏从城市尺度来分析事件。从社交媒体数据中研究城市活动事件,则存在分析方法单一、统计方法与时空信息分离等问题。更重要的是采用现实空间交通数据或赛博空间社交媒体数据的单一数据源研究,导致城市活动事件刻画分析不够全面,不能真实反映城市事件对城市地理空间和行为空间的影响。
笔者提出了一种结合现实空间交通数据集与赛博空间社交媒体数据集的城市活动事件时空建模与分析方法,从事件进行中的交通轨迹,探测识别与事件显著相关的城市时空区域和交通流,分析现实空间事件热度的时空变化;从事件发生全过程的社交媒体数据中,探测分析赛博空间事件热度的时空变化;通过将现实空间和赛博空间数据集融合,建立城市活动事件时空模型,刻画事件全过程中城市地理空间与行为空间的时空特征演变。
1 城市活动事件的时空建模
1.1 城市活动事件过程的定义与描述
城市活动事件是一个长时的连续过程。如图1所示,本文将事件过程定义为3个阶段,即事件前期(④)、事件中期(⑤)、事件后期(⑥)。事件前期是事件发展阶段,开始于某个事前时刻,终止于事件当天活动开场前N小时,包括事件信息发布、网络售票、群众讨论等过程。在这一阶段赛博空间社交媒体数据是感知事件的有效手段。事件中期是事件发生进行阶段,始于活动开始前N小时,终于活动结束后M小时。在这一阶段,赛博空间社交媒体数据和现实空间交通轨迹均可反映事件的影响。事件后期是事件延伸阶段,始于活动结束后M小时,终于某个事后时刻,包括新闻发布、群众讨论等过程。这一阶段,赛博空间数据集将作为事件描述的主要手段。
图1 事件过程定义Fig.1 The course of events
1.2 基于交通轨迹的城市活动事件现实空间信息提取
对整个城市划分地理格网,格网单元r是基本地理分析单元,基于格网的定义如下:
格网车流量υ:在时间间隔t内,格网r的车流量υ为经过该格网区域的车辆数目。
格网ri到rj的交通流ei-j:在时间间隔t内,从格网ri驶向格网rj的车的数目,通过有向边表示。其中,ri为ei-j的起始格网,rj为ei-j的终止格网,ri与rj在空间上相邻。
事件格网Le:事件发生场所所在的格网单元。
从现实空间交通轨迹看,体育赛事、娱乐演出等城市活动事件是一个事前交通聚集、事后交通分散的过程,因此,本文对事件在现实空间的表达从区域交通量和交通流两方面进行。
1.2.1 基于EBP模型的交通异常似然比检验
文献[11]指出,在一天中特定时间间隔内沿格网i流向格网j的观测交通流量近似满足泊松分布。该文献采用基于期望的泊松模型[20](expectation-based poisson,EBP)检测交通异常,从而探测城市活动事件的发生。其基本思想是假设Ce是在时间间隔t内边e上的观测交通流量值,Be是在同一时间间隔内的边e上的基准交通流,则进行以下假设检验。
原假设H0:Ce~P(Be);
备择假设H1:Ce~P(qBe),q>1;
EBP检验公式为
(1)
当LLR(e)>0且在α水平上显著时,则认为交通流e显著异常,LLR(e)越大,异常程度越高。
本文在该方法基础上,将交通异常拓展到格网交通量上,在城市尺度上刻画城市活动事件。在格网交通量的异常探测中,采用卡方检验(chi-square test)检验格网车流量υ的显著性,该统计量服从期望值为相同时间间隔内格网车流量均值的泊松分布。因此,对格网车流量υ的异常探测采用式(1)的计算方法,显著性检验采用p值(P-Value,Probability,Pr)检验。LLR(v)在α水平上显著的充分条件是1-Pr(X 1.2.2 事件地点已知的路径搜索策略 本文通过连接邻接交通流有向边表征事件中人群的聚集、分散的路径,从局部时间、局部区域刻画城市活动事件中人群的流动过程。在文献[11]基础上将路径的搜索由四方向拓展到八方向,由对车流聚集过程的路径搜索拓展到聚集过程和分散过程。由于本研究侧重对事件的表达而非探测,因此采用一种事件位置已知的路径搜索策略。 对一场城市活动事件而言,在人群聚集过程中,人们由城市各个部分向事件发生地(体育场、演唱会场地等)行进,路径搜索是寻找聚集路径的过程。路径由前后相邻的交通流有向边构成,即S=〈e1,e2,…,en〉。考虑到交通流具有空间、时间连续性,故车流路径的每一个子单元ek都必须是流量显著异常的有向边。对聚集过程采用的路径搜索策略如下: (1) 设每个交通流有向边与事件格网(Le)的距离d为该交通流的终止格网与Le的棋盘距离,以Le为中心,设置最大搜索范围dmax和8个方向,分别为上(U)、右上(UR)、右(R)、右下(DR)、下(D)、左下(DL)、左(L)、左上(UL)。 (2) 对满足{d≤dmax}的任意显著交通流ek,首先判断它位于Le的哪一个方向,根据方向获取其下一个可行格网,即ek+1的终止格网,并验证该有向边的流量是否显著。如图2,当前格网为边ek的终点,当分别在事件格网的UR、U和R方向时,其下一个可行格网分别有3个、1个、1个。 (3) 从{d=dmax}中搜索满足LLR(e)>0的显著边集合E1={e1,e2,…,ei,…,en},以ei为起点按步骤(2)的原则搜索下一条显著的交通流有向边,直至到达Le,存储每一条路径途经的非重复格网编号G=distinct(id1,…,idm)。对路径中的有向边,采用图3树状结构进行搜索,每个节点代表一个格网,由前一个节点指向后一个节点的线段代表一条有向边,除起始节点外,每一个节点存在一个父节点和至多三个子节点。 (4) 从{d (5) 对每一个初始有向边e∈{E1,E2}的路径搜索结构,其叶子节点都是事件格网Le且每一个节点只存在一个父节点,因此从叶子节点开始自下向上逆向搜索,存储每一条路径。 (6) 对每一条路径S计算每一个组成交通流的似然比均值,作为路径的得分值Ssc。考虑到有向边为斜边和直边时,其分值对路径的影响不同,因此对路径总分值的计算采用式(2),消除斜边的距离影响 (2) 式中,ei表示直边;ek表示斜边;N为路径S的构成有向边的总数。 对获取到的每一条路径,存在路径高度相似的情况,因此本文根据路径相似度对所有路径进行初步筛选。采用式(3)进行相似度计算。当sim(S1,S2)>80%时,则认为两条路径相似,并删除S1、S2中分值较小的一条路径,从而得到候选路径集合 (3) 式中,L表示路径的长。 图4 相似路径Fig.4 Similar routes 最后对所有候选路径的分值进行排序,选取其中前N条路径作为事件聚集路径。 对分散过程的路径追踪,总体思路与聚集过程一致,主要差别体现在以下两点: (1) 搜索路径的起点为事件格网,终点为{d=dmax}的交通流或{d (2) 方向改变导致8个方向上的下一可行格网的变化,以U、UR和R方向为例,其可行格网如图5所示。 实际上,根据事件发生场所的规模与格网大小,事件格网可能不止一个,因此,可设置多个事件格网,并对多组路径进行比较。 城市活动事件的赛博空间热度在城市尺度上的时空分布,是事件对城市赛博空间影响力的体现,这种影响力反过来也可作为刻画城市活动事件的有效途径,即将事件在社交媒体数据中的热度分值及其时间和空间属性作为事件在赛博空间的表达手段。 事件在社交媒体文本数据中通过关键词表达,事件关键词热度近似等于事件的热度。因此本文根据社交媒体文本和位置数据构建针对不同时间单元的关键词集,每一个关键词集中包含事件相关的关键词。以目前国内热门社交媒体平台新浪微博的线上数据为例,对每一个关键词,采用TF-IDF[21](term frequency-inverse document frequency)的思想,计算关键词在对应的格网单元中的重要程度,从而表征事件的赛博空间热度。 (4) 式中,wt(rk,tm)表示在时间间隔tm内、格网rk中关键词t的重要程度;n为该格网中关键词t的出现次数;Nt表示在所有格网中t的出现次数;|D|为所有格网中包含微博数据的格网数目;{j:t∈dj}表示所有包含关键词t的格网数目,为保证分母不等于0,对其加1处理。 事实上,单条微博可能包含多个关键词,而每一条微博所表征的事件热度又是相等的,因此本文从每条微博中选取在该时间段内出现频次最大的关键词来表征这条微博。 对时间间隔tm内的一个格网单元rk,其赛博空间热度T为每个关键词热度的加和值 (5) 城市活动事件在特定时间范围内对城市的地理空间和行为空间的影响,可描述为事件对城市的作用力,它同时体现在现实空间和赛博空间。以各个现实空间分量和赛博空间分量的乘积加和值Qijk表征特定事件对城市的特定时间和特定地理位置的作用力,以交通流的聚集与分散路径来表达事件对城市行为空间的影响。其中 Qijk=(wm1*τijk+…+wmx*σijk)+ (wn1*ρijk+…+wny*φijk) (6) 式中,事件的作用力Qijk由x个现实空间分量和y个赛博空间分量构成,每一个分量由权重和对应分值构成。如τijk可表示在k时刻,在格网(i,j)内私家车交通量通过似然比检验得到的异常分值,其对应权重为wm1;ρijk可表示在k时刻,在格网(i,j)内线上微博或微信数据的热度分值,其对应权重为wn1。 图6 城市活动事件的表达模型Fig.6 The expression model of city events 城市活动事件刻画模型如图6,对事件的刻画采用类似快照模型的方式,在时间轴上利用线状要素和面状要素表征事件的发展过程。其中,面状要素中每个格网单元对应了城市在特定时间特定位置受到的事件作用力的大小,线状要素是通过基于现实空间交通流的路径搜索策略提取得到的事件路径,它从局部表达交通流的聚集过程和分散过程。二者对应的表达式分别为式(7)和式(8) (7) 式中,I、J、K对应坐标轴中的空间和时间维度;Qijk表示在特定位置(i,j)和特定时间k下城市活动事件A对城市的作用力。 (8) 式中,K对应时间维度;Sn表示采用n条路径刻画事件的聚集和分散过程,在该城市活动事件中,共有M个时刻考虑现实空间交通流的聚集或分散过程。 根据式(7)和式(8),本文对城市活动事件的分析内容和对应方法见表1。 表1 城市活动事件刻画模型的时空分析方法 Tab.1 The spatio-temporal analytical method of city eventsmodel 分析内容分析方法特征描述在事件发展过程中城市特定区域事件作用力随时间的变化ΔQK=Qi,j,k1-Qi,j,k2空间固定,时间变化城市区域内不同空间在同一时刻的事件作用力的差异ΔQIJ=Qi1,j1,k-Qi2,j2,k时间固定,空间变化城市活动事件时空演变过程ΔQIJK=Qijk1I×J-Qijk2I×J —局部时间、局部区域内城市活动事件中人群的流动过程ΔR=Snm1-Snm2∗动态过程 *式中“-”表示前后的差异度,而非减号运算符。 事件发展是一个随时间变化的过程,在事件发展的前、中和后期中包括多个事件阶段。根据每个阶段的时间特征、现实空间特征和赛博空间特征,划分不同的分析子段,每个子段中的分析时间粒度、是否考虑交通轨迹、网络关键词个数等要素保持一致。如事件对交通流的可探测作用力只体现在距离事件发生时刻较近的时间范围内,而不贯穿整个事件过程;且从整体上看,分析时间粒度随着事件邻近逐渐变小,随着事件结束逐渐增大。 本文选取2015年5月9日“魔天伦2.0”世界巡回演唱会(武汉站)这一城市活动事件作为试验分析对象。该演出的场地为武汉体育中心体育场,观演人数达6万人。在本文试验中,赛博空间数据集采用微博数据,现实空间的交通量仅采用出租车轨迹数据。试验采集的数据包括2015年5月1日—5月7日和2015年5月9日武汉市城区的出租车GPS轨迹数据、2015年5月1日—5月14日武汉市城区范围内的微博数据。其中,5月1日—5月7日的GPS轨迹数据作为计算基准交通流和基准格网车流量的历史数据。 本文试验事件的微博关键词可分为歌手称呼、演出地点、演出时间、演唱会名称、演出进程、歌曲名称、票务信息等类别,每个类别中包含若干词汇,试验中依据事件阶段进行合理选取。 在空间尺度上,选取武汉市城区为研究的城市空间范围,其总面积约832.709 km2。由于本文试验GPS轨迹数据的采样间隔为60 s,以城市出租车平均行驶速度40 km/h计算,500 m×500 m格网大小能够保证时间上相邻的轨迹点在空间格网上呈相邻分布,因此以500 m×500 m为空间尺度划分地理格网,共得到3328个城市子单元。 表2 试验数据量 在时间粒度上,根据事件3个阶段划分不同的分析时间粒度。对事件中期,采用最小时间粒度10 min,对距离演出较近的事件前期子段和事件后期子段,以30 min为分析时间单元,对距离演出较远的事件前期子段和后期子段,以1 d为分析时间单元。 表3 事件过程分析 2.2.1 权重讨论 由于本文试验中仅采用微博数据和出租车轨迹数据,因此式(6)可简化为 Q(rk,tm)=wT*T(rk,tm)+wv*LLR(v:rk,tm) (9) 式中,wT和wv分别为赛博空间微博数据和现实空间交通轨迹的权重;T(rk,tm)为时间间隔tm内格网rk的赛博空间作用力分值;LLR(v:rk,tm)为时间间隔tm内格网rk的交通量v的现实空间作用力分值。其中,现实空间作用力分值LLR(υ)和赛博空间作用力分值T(rk,tm)需要进行标准化处理。本文试验采用z-score[22]计算法。对LLR(υ)和T(rk,tm)而言,其均值和标准差的计算数据集是事件全过程中对应的时间粒度下的变量值的集合。 在事件前期与后期,事件对城市的出租车物理轨迹影响极低,因此,对该部分不考虑现实空间物理轨迹,式(9)中的wT和wv分别为1和0。对事件中期演出前这一阶段,根据经验判断,赛博空间权重wv随时间逐步上升,到达一定峰值后,随着演出开场时间逼近,wv逐步下降,直至演出开始,wv达到0。同理,演出结束后,现实空间物理轨迹的权重逐步上升再下降。其中,对于现实空间权重的峰值点,根据轨迹数据集和微博数据集的数据量演算得到。以演出当天13:30—20:00的权重推算为例,首先,对该阶段每个分析时间单元内的出租车轨迹提取行程OD,计算到达场馆周边的OD数目Nrod与总OD数目NTOD的比值,选取比值最大的17:30—17:40时段作为峰值时间。当Nrad/Nrod越大,说明该时段的轨迹数据集与事件越相关,从而对事件的刻画越有效。接着,计算该时段的峰值权重,同时考虑该时段的轨迹数据集和微博数据集与事件的相关程度。从参与人数上看,一条微博的参与人数为1人,一段OD的参与人数为1—4人,因此,微博数据集与轨迹数据集之间存在1:n的关系。根据经验判断,本文试验中n取2,即认为一辆出租车的平均载客人数为2人。对这两个数据集,根据事件相关人数占总体越大,其个体表征作用越小,即重要程度越小的原则[23-26],对该时段的赛博空间权重与现实空间权重据式(10)计算得到,并使二者加和为1。 (10) 式中,NTOD为该时段的总OD数目;Nrod为事件相关的OD数目;NTWB为总微博数目;Nrwb为事件相关的微博数目。OD是否与事件相关的判别依据是OD的终点是否在演唱会场馆周边,微博是否与事件相关的判别依据是是否包含事件相关关键词。 根据权重的起始点和峰值点及其对应的时间点构建线性函数,以每个时间单元中间时刻的权重作为该单元的权重,得到13:30—17:30每个时间单元的权重值。同理计算得到17:30—20:00和22:00—23:59的权重。最终2015-05-09 T13:30—23:59每隔10 min的赛博和现实空间权重如图7。 2.2.2 演唱会事件的表达模型与可视化分析 根据式(9)计算各个时间间隔内每个格网区域的事件作用力Q,按照表3的粒度划分进行可视化,每一个格网区域的高度代表Q值的大小。在该演唱会事件全过程中,任意时间、任意区域的事件作用力都有一个对应的数值Q表示。在考虑交通流的事件阶段,将交通聚集路径和分散路径叠加在城市面状要素上,进行车流聚集与分散过程的局部可视化。 图8—图11中,x、y轴正方向分别表示武汉市由西向东、由南向北的城市方向。该组图展示了“魔天伦2.0”世界巡回演唱会(武汉站)的时空过程:①从1 d的时间粒度看,事件前期,事件热度在城市多区域发酵,在整个事件过程中,事件的作用力呈现先增大、后减少的趋势,在演唱会当天达峰值,从空间上看,事件发生地的作用力大小为峰值;②在演唱会当天,起初,事件热度在空间上没有明显的分布规律,但随着事件临近,逐步向演唱会场所聚集,事后逐渐由事件中心向四周消散;③从交通流的变化上看,考虑到事件发生地位于城市西南方位,因此大量人群从东北方向聚集,其聚集过程形成较早,而西南方向的聚集路径则在当天17:30左右开始形成。 2.2.3 与单一数据源事件模型的对比 为验证方法的有效性,将本文城市活动事件表达模型与基于单一数据源的事件刻画方法进行对比。以演唱会事件发生当天的19:00—19:50为例,对基于现实空间交通数据和基于赛博空间社交媒体数据的事件刻画方法分别进行可视化,时间粒度为10 min。由表4可知,在基于交通数据的刻画方法中,随着演唱会开始时间的邻近,事件作用力在逐渐减少,与事实不符,这主要是由于交通数据对事件的刻画局限于人群的聚集和离散过程,对演唱会进行过程中的赛博空间作用力无法实现有效刻画;基于社交媒体数据的刻画方法则无法感知事件对现实地理空间的影响,事件作用力在城市赛博空间中呈现离散分布,在事件刻画的全面性和有效性上略有欠缺。而本文方法中,随着事件邻近,事件作用力峰值逐渐向事件格网中心移动、在事件格网周围持续高涨,而在城市其他区域逐渐衰退。因此,本文方法中现实空间数据集和赛博空间数据集的相互补充,能够有效地刻画城市活动事件的完整时空过程,并分析城市活动事件对静态地理空间和动态行为空间的影响。 图2 聚集过程中路径的可行方向Fig.2 The feasible directions during gathering process 图3 路径的搜索结构Fig.3 Searching structures of routes 图5 分散过程中路径的可行方向Fig.5 The feasible directions during dispersing process 图7 现实空间和赛博空间权重分布Fig.7 Weights for cyberspace and real space 图8 事件全过程(时间粒度1 d)Fig.8 The whole process of event (time granularity 1 d) 本文提出了一种城市活动事件时空建模分析方法,该方法融合现实空间和赛博空间,实现对城市活动事件的事件过程刻画表达,事件时空动态建模,以及事件全过程的城市地理空间与动态行为空间的时空特征演变分析。试验中以2015年5月9日武汉市“魔天伦2.0”世界巡回演唱会为例,采用2015年5月共8 d的轨迹数据和事件前后14 d的微博数据,展现事件的时空发展过程,并与单一数据源的事件表达模型进行了对比。结果显示,本文方法在分析城市活动事件的时空演变过程、构建事件模型与可视化方面具有有效性和创新性。然而,由于本文在融合现实空间和赛博空间的事件模型中仅探讨了两类空间中的交通和社交媒体数据源的分量计算方法,数据采集的全面性和完整性将直接影响事件的刻画与分析,在后续研究将进一步提高数据的全面性和完整性,融合其他数据源一起刻画城市活动事件,提高对事件的时空分析与表达能力。 图9 事件阶段B和F(时间粒度 30 min)Fig.9 Event stage B and F(time granularity 30 min) 图10 事件阶段C(时间粒度 10 min)Fig.10 Event stage C(time granularity 10 min) 图11 事件阶段E(时间粒度10 min)Fig.11 Event stage E(time granularity 10 min) 城市活动事件表达模型现实空间轨迹单一数据源的演唱会事件表达赛博空间微博单一数据源的演唱会事件表达 续表41.3 基于社交媒体数据的城市活动事件赛博空间信息提取
1.4 融合现实空间和赛博空间的城市活动事件一体化建模方法
2 试验与讨论
2.1 城市活动事件建模的空间尺度和时间粒度
2.2 演唱会事件的时空建模与分析
3 结 论