多尺度空间同位模式挖掘的点过程分解方法
2022-03-07谌恺祺陈袁芳郭艺文
邓 敏,谌恺祺,石 岩,陈袁芳,郭艺文
中南大学地球科学与信息物理学院地理信息系,湖南 长沙410083
现实生活中通常存在一种不同类型地理事件或要素间的共生现象(如动植物群落互利共生)[1],这种由频繁空间互近邻而形成的关联规则称为空间同位模式[2]。在大数据时代,随着对数据间相关关系的重点关注,从海量地理空间数据中对潜在的空间同位模式进行高效、精准挖掘,将为城市公共设施布局管理、犯罪事件联合防控、兴趣点推荐服务[3]等提供不可或缺的决策知识支持,为此已成为地理空间大数据挖掘的研究热点[3]。
空间同位模式挖掘是关联规则挖掘领域的重要研究内容之一[4],现有方法大多基于多类要素实体间的空间邻近关系建立规则事务表,进而借助传统关联规则挖掘算法的思想实现同位模式判别[5]。其中,空间实体间邻近关系构建主要包括两类:一类是对空间数据进行区域划分以构建空间事务集,例如特征中心模型[6]、窗口中心模型[7]以及基于图的模型[8];第二类是非事务化方法,例如采用基于距离[9]或基于密度的度量方法构建空间邻域关系[10]。根据不同类型要素间的空间邻近关系,进一步通过定义要素间的同位强度指标(如参与指数等[11]),并采用主观阈值设置[1]或基于零假设构建(如空间分布模式重建[2])的显著性统计检验策略实现对空间同位模式的有效性判别[12]。另外,地理数据本身固有的空间异质性将使空间同位模式呈现局部聚集分布特征,对此一些学者针对性地提出了一系列局部同位模式挖掘方法[11],其核心思想在于通过采用四叉树[13]、格网划分[14]、K-近邻图[15]、聚类分析[16]等方法进行地理分区,而分区策略的选择也将在很大程度上影响局部同位模式的挖掘结果。在现实世界中,地理空间数据的多尺度特征使得在不同空间尺度下空间同位模式将呈现差异化分布格局。如图1所示由A、B两类地理要素构成的数据集,现有空间同位模式挖掘方法仅能得出“A、B两类要素构成空间同位模式”这一结论。若从不同分析尺度的视角来看,则可以明显发现空间同位模式〈A,B〉主要分为4个区域,其中从图1(b)到1(d),两类要素构成的同位模式实例的分布密度与规模均递增,且分布形态各异。
图1 多尺度空间同位模式与噪声简例Fig.1 An example of spatial colocation patterns at multiple scales
通过以上分析发现,当前基于关联规则挖掘的相关研究在一定程度上可以有效探测空间同位模式,但同时也存在对地理空间数据特征量化不足的缺点,主要表现在:①引入人为设定参数构建实体空间邻近关系,而对不同参数(如空间邻域距离阈值)与空间多尺度之间的对应关系缺乏深入分析,降低了挖掘结果的可解释性;②仍停留在对空间同位模式构成要素的判别,难以有效揭示同位模式的多尺度空间分异规律。
针对以上问题,本文借助空间聚类研究中点过程建模与分解的思想[17],顾及空间尺度效应提出一种空间同位模式的多尺度分异格局挖掘方法。
1 基于多尺度点过程分解的空间同位模式挖掘方法
空间同位模式在本质上源于地理事件或要素间存在的相互关联关系,而这种关联关系的差异性将驱动空间同位模式呈现出显著的多尺度分异特征。因此,本文首先将不同类型地理要素的实体分布建模为一种混合空间点过程,通过构建一个随机变量描述不同点过程间的关联关系,并定义一个参数用于表达关联关系的多尺度特征;进而,通过计算不同尺度下随机变量的统计特征实现空间同位模式的多尺度判别;针对包含空间同位模式的特征尺度,拟合随机变量的条件概率密度函数,最后基于点过程分解的思想挖掘不同尺度下参与空间同位模式构建的要素实例。本文研究策略如图2所示。
图2 本文研究策略Fig.2 The proposed research strategy
1.1 多尺度随机变量构建
为定量描述两类地理要素之间的相互关联关系,可将一类要素的实例分布建模为另一类要素分布作用下的随机点过程。具体而言,若已知一类要素的实例分布,可以通过构建条件概率密度函数的方式描述另一类要素的实例分布。基于此,首先给出以下定义。
定义1:条件点过程。给定包含两类地理要素A、B的点集数据EA={a1,a2,…,an}、EB={b1,b2,…,bp},其中分别将A和B定义为参考要素和目标要素。在参考要素EA分布已知的条件下,可将目标要素B的实例构建联合概率密度函数f(EB)=p(b1,b2,…,bp|EA),称为要素B的条件点过程。
针对任一参考要素实例ai,定义以下交叉K近邻距离随机变量来多尺度描述参考要素对目标要素的关联作用。
定义2:交叉K近邻距离。实例ai的交叉K最近邻距离dK(ai)为ai与距离其最近的K个B类要素实例之间的最大距离,参数K用于控制要素之间关联关系的空间尺度。
1.2 空间同位模式特征尺度判别
区别于传统基于关联规则方法利用参与度阈值进行空间同位模式有效性判别的策略[6],基于以上构建的交叉K近邻距离变量,引入一个交叉K近邻距离突变指标以量化同位模式的空间分布特征在不同尺度下的变化规律,从而实现空间同位模式的特征尺度判别。其中,本文将空间同位模式特征尺度定义如下。
定义3:空间同位模式特征尺度。给定任一参数K,引入以下非参指标:交叉K近邻距离方差比IK来检测两类空间点实体的交叉邻近关系在连续尺度变化过程中是否存在突变[18]
(1)
式中,VarK+1和VarK分别表示两类点实体交叉K+1和交叉K近邻距离方差;RK表示点过程数据在服从均匀泊松分布情况下的交叉K+1与交叉K近邻距离方差比[18],即
(2)
若IK>1,则说明存在交叉邻近关系的跨尺度突变,此时认为在参数K对应的空间尺度下存在显著的同位模式特征实例,从而将该尺度定义为空间同位模式的一个特征尺度,如图1(b)—图1(e)所示。
1.3 目标要素条件概率分布度量
根据多特征空间尺度下的交叉K近邻距离变量,采用构建概率密度函数的方式定量表达在参考要素约束下目标要素的条件概率分布。首先,假设目标要素实例在参考要素实例周围呈泊松分布[19],那么对于任一参考要素实例ai,其交叉K近邻距离dK大于等于变量x的概率可以转化为以该实例为圆心、x为半径的圆形区域范围内含有少于K个点的概率,即
1-FdK(x)
(3)
式中,参数λ表示目标要素实例在参考要素实例周边的期望分布密度;FdK(x)为交叉K近邻距离的概率分布函数,据此可将FdK(x)进行求导得到dK的概率密度函数,表达为
(4)
由于受空间相关性与异质性的综合影响,参考要素约束下的目标要素实例通常将呈现一种局部均质、整体异质的混合泊松分布。基于此,本文借鉴单类要素点过程的思想[19],将目标要素实例条件分布分解为一个蕴含显著空间同位模式实例的特征子过程和一个噪声子过程。进而,可将目标要素实例混合条件概率密度函数表达为
fdK(x)=p1fdK(x;k,λ1)+p2fdK(x;k,λ2)=
(5)
式中,fdK(x;k,λ1)与fdK(x;k,λ2)分别为特征与噪声子过程的条件概率密度函数;p1、p2分别表示实例隶属于两个子过程的概率。如图3(a)所示数据集中A、B两类要素的条件概率密度函数,分别由两个均质泊松过程Ⅰ和Ⅱ构成,其中泊松过程Ⅰ的目标要素条件分布密度显著大于泊松过程Ⅱ(如图3(b)所示),因此可以分别将Ⅰ和Ⅱ视作特征子过程与噪声子过程。
图3 目标要素条件概率密度分布简例Fig.3 An example of the conditional probability density distribution of target points
1.4 基于EM算法的条件点过程分解
针对以上包含不同参数的特征与噪声泊松点过程,引入变量δi指示要素实例ai的归属,其中δi=1或0分别表示该实例属于特征或噪声子过程,进而采用基于最大期望(EM)算法的点过程分解计算参数δi,从而确定各目标要素实例的同位模式子过程最终归属。EM算法主要分为E步与M步,其中E步通过求解均值逼近似然函数的下界,表达为
(6)
(7)
(8)
(9)
通过E步与M步的迭代更新参数直至收敛,最终得到各实例的子过程归属δi值,通常认定δi大于0.5时,判定实例i属于特征子过程即空间同位模式实例;否则,则实例ai被认定为噪声子过程。
2 试验分析与应用
本节设计两组试验验证本文方法的有效性与实用性。首先模拟一组包含两类要素、3个不同尺度同位模式的空间点过程数据,通过与一种基于传统关联规则的局部同位模式挖掘方法[16]进行对比试验分析来证明本文方法的优越性。进而,利用本文方法对我国某地级市2015年的多类警情数据进行实际案例分析与应用。
2.1 模拟试验对比分析
图4 模拟数据集Fig.4 The spatial distribution of two types of points in a simulated dataset
相关研究表明文献[16]提出的多层次空间同位模式挖掘方法(以下简称ARCM)充分发挥了自适应空间聚类策略的空间区域划分优势,经对比发现其挖掘精度显著高于其他现有空间同位模式挖掘方法[16];另外,该方法挖掘的多层次空间同位模式中蕴含了空间尺度信息,为此将基于以上模拟数据集与ARCM方法进行对比分析。ARCM方法主要包含以下4个阈值:①最小参与指数阈值,依据文献[16]设置为0.5;②局部参与指数阈值,依据文献[21]设置为0.1;③空间同位模式规模阈值,依据文献[22]设置为0.02;④邻域距离阈值,根据文献[22]的建议,基于L函数计算进行设置。采用以上设定的参数,ARCM方法难以有效区分具有不同形态、不同尺度的空间同位模式。为了便于与本文方法进行对比,本文将最小参与指数阈值重新设置为0.6,从而得到图5中的两个空间同位模式区域(如灰色区域所示)。
图5 ARCM方法空间同位模式挖掘结果Fig.5 Spatial co-location patterns detected by the ARCM method
本文方法中将K值设置为1~6,在A、B两类要素分别被定义为目标要素的情况下,通过方差比指标IK检验可以发现K值在[1,5]区间内均存在显著空间同位模式特征实例,见表1。进而,在该尺度区间内进行条件点过程分解,得到不同尺度下的条件概率密度分布与空间同位模式特征实例,如图8所示。从中可以发现:①K=1时两类要素的交叉K近邻距离皆呈长尾状单峰分布,表明在小尺度下两类要素实例大多具有互邻近关系,整体分布由特征子过程主导,且区域Ⅰ、Ⅱ、Ⅲ预设的模式均被挖掘。②K=2时的条件概率密度分布开始呈现双峰结构,即噪声子过程占比增加而单独成峰,此时可探测出图4中区域Ⅱ、Ⅲ内中、大尺度空间同位模式,而区域I内的小尺度同位模式则被识别为噪声子过程。③从K=4开始条件概率密度分布的双峰结构更加显著,主要可以识别出区域Ⅲ内的大尺度空间同位模式实例。
表1 空间同位模式特征尺度判别结果Tab.1 The result of characteristic scale determination of co-location patterns
另外,不同特征尺度下得到的空间同位模式可能存在实例重叠,进而将相邻特征尺度下的空间同位模式实例做差集计算,即可最终获取如图7所示的各特征尺度下的独有空间同位模式实例,与预设结果基本一致。
图6 不同尺度下的条件点过程分解结果Fig.6 The results of conditional point process decomposition at different scales
图7 本文方法多尺度空间同位模式挖掘结果Fig.7 Multi-scale spatial colocation patterns detected by the proposed method
可以发现,①本文方法不仅可以探测特定尺度下是否存在空间同位模式,还可以提取不同尺度下的空间同位模式实例;而ARCM方法仅能识别包含显著空间同位模式的区域,而难以实现空间同位模式的多尺度区分与模式实例判别。②ARCM方法包含较多需要人为设置的参数,而本文方法仅有一个参数K,挖掘结果更加稳定、客观且方法更实用。
2.2 实际案例应用
犯罪地理学相关研究表明,不同类型犯罪事件之间由于相互诱导作用而存在潜在的空间同位模式[1],对这种空间同位模式进行多尺度挖掘将有助于揭示犯罪事件发生的内在机理,对于区域犯罪防控具有重要的应用价值[23]。为此,以我国某地级市中心城区为研究区域,采用该市2015年全年警情记录数据对本文方法进行实际应用,该数据包括:①交通纠纷(3054例)、②一般刑事案件(4269例)、③涉黄(1669例)、④妨碍社会秩序(1164例)、⑤扰乱公共秩序(2159例)、⑥抢险救灾(2194例)、⑦治安纠纷(3054例)、⑧卫生救助(1184例)、⑨自然灾害(4494例)、⑩赌博(4484例)等10类警情事件。
对10类警情事件进行两两组合共包含45个二元同位模式,对此利用本文方法可以得到图8所示的多尺度挖掘结果(其中黑色矩形表示相应同位模式的特征尺度,灰色矩形表示相应事件组合空间同位模式的特征尺度总数),发现当尺度较小时大多数警情事件之间均存在有效同位模式,这说明由于城市空间中存在多种复杂的环境诱导机制(如政治、经济、文化、娱乐等),在一定程度上促使不同类型的警情事件频繁发生在空间邻近区域,且显著二元同位模式的数量随着尺度增大而显著减少。为此,本文推测这种大尺度显著同位模式存在的根本原因在于两类警情事件之间本身存在相互诱导作用,例如经常发生聚集赌博的场所中人员混杂,其中通常伴随着恶性经济纠纷,从而引发相关刑事案件,所以〈一般刑事案件,赌博〉在K=13与K=15两个大尺度下均被判别为存在显著同位模式实例。值得注意的是,〈妨害社会秩序,抢险救灾〉在所有尺度下均不存在同位模式,这是由于妨害社会秩序事件大多发生在人流量较大、公共设施较多的城市核心区域,而抢险救灾事件则通常发生在城市边缘区域,导致两类事件之间空间距离较远而难以产生直接或者间接的相互诱导作用。由此可见,这种多尺度挖掘的视角有助于更好地理解事件之间的关联与诱导机制。
图8 警情事件多尺度同位模式挖掘结果Fig.8 The detection results of multi-scale co-location patterns between emotional events
由于篇幅所限,本文以图9所示的〈涉黄,赌博〉、〈妨害社会秩序,扰乱公共秩序〉两对事件组合的空间同位模式实例分布为例进行合理性解释。从结果中可以发现,小尺度下城市核心区域与周边区域均存在小规模同位模式实例分布(如图9(a)、(c)所示),而大尺度下的大规模同位模式仅分布于城市的核心区域(如图9(b)、(d)所示)。由此可初步得出:由于城市核心区域内功能密集、环境复杂,导致事件之间诱导性更强,从而容易产生大规模分布的空间同位模式,而周边区域则相反。与小尺度相比,在大尺度下挖掘到的空间同位模式表明相应的两类地理事件之间具有更加紧密的相互诱导关系,这种强交互作用极易诱发两类事件在某些局部区域的交叉扩散而形成爆发态势,为此需要以多类犯罪事件联合防控为目标指导警力的分区域合理部署与跨区域适时调配。
图9 多尺度同位模式实例空间分布Fig.9 The spatial distributions of points in multi-scale colocation patterns
进而,分别采用文献[24]提出的layer based clustering(L策略)与mixed clustering(M策略)两种策略分别对点过程聚类算法[19]进行以下改进。①L策略:分别对A、B两类事件进行多尺度点过程分解,并将两类事件中提取的丛集过程进行空间叠加得到最终挖掘结果。②M策略:直接对A、B两类事件实例形成的集合进行多尺度点过程分解,并将丛集过程作为挖掘结果。图10给出了采用点过程多尺度分解算法[19]对涉黄、赌博事件进行聚类分析的结果,可以发现:通过聚类分析可以获取挖掘同类事件中不同规模的聚集分布,但难以有效反映两类事件之间的诱导关系(如图10(a)、(b)的左下角部分分布有大量的赌博事件,而无涉黄事件的分布)。因此,以上分析证明了本文方法进行两类事件间多尺度空间同位关系挖掘的有效性。
图10 多尺度点过程分解聚类分析结果Fig.10 Clustering results obtained by multi-scale point process decomposition
犯罪地理学相关研究[25]表明,不同尺度的同位模式实例分布与区域人口密度分布呈显著的正相关关系。为获得除受人口密度分布正相关作用影响之外的犯罪事件空间同位分布模式,本文进一步引入Worldpop开源人口数据[26],将人口密度分布作为一种约束条件重新定义不同类型犯罪事件间的有效交叉K邻近距离:dK(ai)=wK(ai)×dist[ai,bi(K)],其中dist[ai,bi(k)]为原始交叉K近邻距离,wK(ai)为人口密度依据softmax函数归一化后的与其交叉K近邻的均值,其值域在[0,1]之间,一定程度上反映人口密度影响的概率高低[27]。该距离度量指标将人口密度作为一种约束条件以消除其对犯罪事件分布的正相关作用。基于此距离度量指标挖掘的多尺度空间同位模式分布如图11所示,从中可以发现在高尺度下高人口密度区域并未出现同位模式,反而在低人口密度区域探测出显著的空间同位模式。这种剔除常识性规律后提取的模式将有助于指导对公共安全漏洞区域的警力强化布控,从而整体提高对城市犯罪事件的片区化精准防控水平。
图11 考虑人口密度约束的多尺度同位模式实例空间分布Fig.11 The spatial distribution of multi-scale co-location patterns considering constraints of population density
最后,为深入探究各类城市设施对犯罪事件的多尺度空间诱导作用,采用本文方法对公共设施、餐饮设施、旅店、购物、景点等5类具有代表性的POI在研究区域的空间分布与部分犯罪事件进行了多尺度空间同位模式挖掘,挖掘结果(见表2)指出:在大多数特征尺度下事件对〈旅店,涉黄〉、〈旅店,赌博〉、〈公共设施,扰乱公共秩序〉均存在显著的空间同位模式,从实际可解释的角度证明了本文方法的有效性;同时,还探测出如〈餐饮设施,赌博〉、〈景点,赌博〉、〈购物,扰乱公共秩序〉等难以通过人类主观认知进行直接解释的同位模式,对此类模式需要进一步结合实地环境调查与多因素控制分析探究模式发生的深层内在机理。这种犯罪事件与POI之间的空间同位模式能够同时为犯罪防控与设施优化布局提供更加全面有效的决策支持。
表2 POI与警情事件间的多尺度同位模式判别结果Tab.2 The detection results of multi-scale co-location patterns between emotional events and POI
3 结论与展望
本文从随机过程的视角对两类地理要素间的交叉邻近关系进行多尺度分布建模,进而基于点过程分解思想挖掘空间同位模式多尺度分异格局。通过模拟实验对比分析发现,本文方法可以同时实现不同尺度下的空间同位模式判别及其相关实例的空间分异格局,且有效降低了人为设定参数的主观性。另外,利用本文方法可以有效揭示犯罪事件之间的相互诱导关系,发现不同尺度下警情事件诱导作用的空间分布变化,并结合人口密度与POI分布数据深层揭示了区域地理环境与警情事件之间的空间关联关系,对犯罪预防与警情响应具有重要应用价值。
下一步工作主要集中在:①在条件点过程建模与分解基础上,构建零假设与显著性检验模型,量化特征子过程较整体分布密度的偏离程度,进一步刻画描述蕴含不同诱导关系强度的多特征子过程;②耦合空间分布与时间信息,将本文方法在时空维度进行扩展挖掘多尺度时空同现模式。