基于空间化PageRank算法的人口流动空间集聚性分析
2011-12-28钟斌青,刘湘南
钟 斌 青,刘 湘 南
基于空间化PageRank算法的人口流动空间集聚性分析
钟 斌 青,刘 湘 南*
(中国地质大学(北京)信息工程学院,北京 100083)
提出了一种基于空间化PageRank算法的人口流动空间集聚性分析方法。在PageRank算法的基础上增加空间节点间要素流量大小(F)的加权作用以及距离因子(Dst)所引起的流动成本和阻力效应,使该算法具备针对空间网络模型的分析能力,通过对人口流动网络模型中的节点进行集聚性排序,描述人口流动的空间特征。以华东六省一市人口流动状况为例,PR值、区域人口总流入量(RTI)和流动人口密度区位商(MLQ)的计算结果对比表明:空间化PageRank算法可以客观地评估空间节点吸引力,并弥补了总流入量等简单人口学统计指标对于现象背后驱动机制表达不足的缺点。
空间化PageRank算法;人口流动;空间网络模型;空间集聚性
0 引言
根据国家统计局发布的《2010年第六次全国人口普查主要数据公报(第1号)》,截至2010年,我国人口流动规模达2.61亿人,占人口总数的19.04%,即在我国每5个人中就有1人属于流动人口。而在未来二三十年内,根据预测,流动人口的总量仍将不断增加。如此巨量的流动人口群体,缘于经济增长大环境下区域间市场化改革程度、市场发育的空间不平衡性和我国二元分割的户籍制度,而这种劳动力资源的大尺度空间流动,又会不断地反作用于区域经济发展及社会生活的各个层面,影响深远。
关于人口流动空间特征描述的研究,早在1885年Ravenstein就曾绘制12幅地图分析英国人口的各种空间流动特征[1]。近年来Rae等研究了借助于GIS的人口流动空间表达技术[2,3],李薇等分别采用人口迁移选择指数法、GIS空间相关性分析及综合考虑净迁移率和总迁移率的复合型指标进行中国人口流动的空间特征分析[4-6]。这些研究多选取传统的人口学统计口径,如流入人口、流出人口、净流动人口或总流动人口等,亦有采用简单指数的分析,如迁移率和人口迁移指数等。以上方法虽各具优势,但对人口流动空间特征的深入挖掘及其驱动机制的分析尚有不足。特别是缺乏综合表达人口流动在特定区域集聚特性的能力,不能客观全面地比较人口集聚性的空间差异。
PageRank算法作为网页排序算法,提供了一种解决此类问题独辟蹊径的可能思路。1998年,Google的创始人Sergey Brin和Lawren Page在斯坦福大学发明了PR算法[7],对互联网信息检索产生了革命性的影响,并成为延续至今的搜索引擎核心技术。该算法在其他领域,如科技文献质量评价[8]、生物学中蛋白质相互作用网络的分析[9]等研究中亦有应用,但针对空间分析的研究则鲜见报道。Jiang把PR算法应用到城市空间的人口移动预测,却未深入讨论PR算法的空间化问题[10]。
PR算法的特征和关键优势在于通过网页间的“投票”机制,对网络中海量的网页进行排序,挖掘出最具价值的信息。这种“投票”机制同样存在于人口流动现象中。人口学的众多研究表明,人口流动背后的驱动机制主要是区域间的经济发展不均衡所导致的推力与拉力作用。从另一个角度,人口是在用自己的迁移行为给区域“投票”。但网页的排序与空间节点的排序之间存在一个巨大差异——空间性,即PR算法仅能分析网页链接模型,而不具备对于空间网络模型的分析能力。因此,本文主要探讨PR算法应用于人口流动空间分析所需进行的空间化改进和扩展,并通过华东地区人口流动空间集聚性的分析,实际检验该算法效果。
1 PR算法及其空间化原理
1.1 PR算法原理
PR算法在网页排序过程中通过超链接关系确定一个页面的等级[11]。把从A页面到B页面的链接解释为A页面给B页面投票,根据投票来源和投票目标的等级决定新的等级,简言之,一个高等级的页面可以提升其他低等级页面的等级。可以假设一个由4个页面组成的集合:A、B、C和D[12](图1a),如果所有的页面都将网络链接指向A,则A的PR值将是B、C及D的和。
图1 PR算法中的网页节点结构Fig.1 The structure of the Web pages in the PR algorithm
继续假设B也与C有链接,并且D也有链接到包括A的3个页面(图1b)。一个页面不能投票2次,所以B给每个页面半票。以同样的逻辑,D投出的票只有1/3算到了A的PR值上。
最后,所有的这些PR值被换算为一个百分比再乘以一个系数q。由于没有页面的PR值会是0,所以算法给每个页面一个最小初始化值1-q。
所以一个页面的PR值是由其他页面的PR值计算得到的。算法不断地重复计算每个页面的PR值,如果在初始时给每个页面分配一个随机的PR值(非0),则经过不断地重复计算,这些页面的PR值会趋于正常和稳定,数学上可证明其收敛。
1.2 PR算法空间化
PR算法所针对的网页链接模型(图2)与人口流动的空间网络模型(图3)存在共性而又有细节上的差异。空间中各区域节点类同于网络中的网页,而从某个空间节点向另一个空间节点的人口流动又与网页间的超链接类似。因而,可以套用PR算法分析空间节点间人口流动的集聚特性,即把区域节点间人口流动视为对节点的“投票”,观察节点得分的多寡,分析空间节点在整个节点集合中对流动要素吸引力的强弱。但空间网络模型相对网页链接模型更为复杂,在把PR算法应用到空间网络模型分析前,需克服原算法不具备空间性的缺陷,对其加入空间影响因子(如流量、距离等),使其空间化[13]。
空间化关键因子:1)流量。网页链接模型中的超链接没有流量概念,是纯粹的布尔量,有链接为1,无链接则为0。但人口流动空间模型中,两个空间节点间的人口流动具有量的大小,即从A地到B地具体有多少人进行了空间迁移。在算法“投票”过程中须考虑这一量值。具体的解决思路类似于普通PR算法中根据链接出度均分上一次计算的PR值。在此则根据流出节点的人口数按比例配给相应的PR值。2)距离。网页链接模型存在于虚拟的互联网中,不存在距离问题,但在人口流动环境下,距离直接构成对于流动最主要的成本和阻力。已有研究表明,人口在流动过程中由于经济成本和思想观念等原因,更趋于选择较近的目的地进行空间迁移[14]。因此,在PR算法“投票”过程中,距离与“投票分值”呈正相关,即流动距离越大,其“投票分值”越高。
同样假设4个空间节点A、B、C和D,以此为例对空间化改进后的PR算法进行逐步说明(图4),算法中的各变量说明见表1。
图4 空间化PageRank算法运算流程Fig.4 The process of spatialized PageRank algorithm
表1 算法变量说明Table 1 The algorithm variables
(1)初始化所有空间节点PR值,此处每个空间节点的PR值被初始化为1/4(图2a)。
(2)目标节点的小分计算。以人口流出节点PR值为基础,以该节点的流出人口总数均分其PR值,得到该节点每个流动单位实际持有的“投票能力”;然后,视流动到目标节点的流量FB-A为“流动单位
1
个数”计算投票;经由距离因子DstBk-A加权得到“投票分值”,同理计算SB-A、SC-A、SD-A(图2b)。
(3)目标节点的总分计算。空间节点A的总得分S(A)即节点SB-A、SC-A和SD-A对其“投票”的总和。回调第2步,同理可得SB、SC、SD(图2c)。
(4)对得分进行归一化处理。计算单个节点得分占全部节点总分的比值,得到该节点的新PR值,此处理保证了在计算过程中,空间节点PR值介于0~1区间内,且所有节点PR值的和为1(图2d)。
(5)进行逻辑判断,该组PR值是否已达到稳定水平。如判断为是,则得到结果;反之则以该组PR值为基础继续从步骤1开始循环,直至达到稳定条件为止。
2 华东地区人口流动空间集聚性分析
以华东地区六省一市(山东、江苏、安徽、浙江、江西、福建和上海)为样本,应用空间化PR算法分析这7个空间节点间的人口流动数据,并与传统统计方法中普遍应用的两个集聚性分析指数(区域人口总流入量和流动人口密度区位商)进行对比分析。
2.1 数据获取
人口流动数据源于《第五次全国人口普查数据(2000年)》,各空间节点间距离数据取自铁道部公布的六省会城市与上海市之间的铁路旅程,各省市面积数据源于《2000年中国统计年鉴》。表2和表3分别为整理后的空间节点间人口流动数据和空间节点间距离数据。
表2 空间节点间人口流动量Table 2 Migration between the spatial nodes 人
表3 空间节点间距离Table 3 Distance between the spatial nodes km
2.2 数据计算
PR算法的实现选择Microsoft Visual Studio 2005下的C#开发环境。建立二维数组变量,存储人口流量和空间距离原始数据,之后应用多层循环迭代方法,对数据进行空间化PR算法的运算处理。计算结果如表4所示,从第10次迭代运算开始,整个PR数组 开 始分 别 收 敛 于0.1031、0.2421、0.0517、0.1723、0.0516、0.1097和0.2694,且其总和为1。
表4 空间化PageRank算法的计算结果Table 4 The results of spatialized PageRank algorithm
作为对比指数,各空间节点流动人口总流入值根据表2按列求和得到,公式如下:
另一对比指数密度区位商计算公式如下:
式中:Qi为区域的密度区位商指数,Pi为区域的流动人口数,P为所有参与计算区域的流动人口数总和,ai为区域的面积,A为所有参与计算区域的总面积。
总流入与密度区位商的计算结果如表5所示。
2.3 结果分析
3种指数在空间上基本反映出了大体一致的客观事实,但在细节上又存在差异。图5作为3种指数的空间映射比较了这些差异,图5a中连线的长短、粗细分别代表空间化PR算法所考虑的距离与流量因素,图5c中深色填充表示区位商所计算的面积因素。
表5 区域总流入与密度区位商Table 5 RTI and MLQ results
图5 PR、总流入与密度区位商的空间映射Fig.5 Space mapping of PR,RTI and MLQ
PR值与总流入值的比较(图6):二者的空间分布极其近似,都是以东部的上海市为中心向西深入内陆呈阶梯状递减:上海为第一级阶梯,江苏和浙江次之,山东和福建构成第三级,安徽和江西为最后一级。这一结果符合劳动力资源对于经济环境的选择规律[15],同时也证明了PR值作为空间集聚性分析指数的有效性。从图5无法直接分辨PR值与总流入值的差别,但实际在同级阶梯内部排名上却存在差异。江苏和浙江同为第二级阶梯,在PR值方面,前者比后者要高,但其总流入值大小却相反。同样的情况还存在于山东和福建。这主要是由于PR值的计算不单纯考虑人口流动量的大小,同时考虑了人口流动时距离成本和节点权重因子的缘故。
PR值与密度区位商的比较(图7):上海相对于其他空间节点具有绝对的高密度区位商值。因为密度区位商在计算时考虑区域面积因子,放大了最具空间集聚性的空间节点。图7给出了PR值与其折线对比,密度区位商具有与PR值大体一致的空间节点相对趋势,但明显压制了低值区域,凸显高值。
此处空间化PR算法并未考虑区域面积,因此与密度区位商结果形成了较大的出入。区域面积抽象到PR算法的模型中,可被视为空间节点的容量,亦是一种空间网络模型中的影响因子,即在节点容量较小的情况下,若流动要素依然表现出较大的进入量,则该空间节点的吸引力和集聚性应该被判断为更高。
图6 PR值与总流入值对比Fig.6 Difference between PR and RTI
图7 PR值与密度区位商对比Fig.7 Difference between PR and MLQ
3 结论
针对人口流动的空间特征描述问题,本文基于计算机网络搜索领域的PR算法,进行空间化改进,加入距离与流量因子,使该算法适应于空间网络模型分析。华东地区人口流动空间集聚性分析结果表明:1)同为描述集聚性的指数,空间化PR值相对于区域总流入值,可以额外体现人口流动时的距离成本和流出地本身的权重等因素;2)由于符合客观现象背后的复杂驱动机理与事实,该指数能更客观地评估空间节点对于流要素的吸引力;3)与密度区位商的差异指出了另一空间化影响因子,即空间节点容量特征,可作为进一步研究的方向,同时证明了PR算法拥有丰富的空间化扩展性能。
空间化PR算法为人口流动空间集聚性分析提供了一种极具创新性的解决思路。而对于类似的空间网络流动要素分析问题,如交通路网、商贸物流、通信网络、移动终端位置轨迹等研究对象,在抽象出对应的空间网络模型,并对PR算法施加针对性的空间化微调和扩展后,即可分析描述其空间特征并进行空间数据挖掘。因此,该技术具有较强的泛用性并值得深入研究。
[1]RAVENSTEIN E G.The laws of migration[J].The Statistical Society of London,1885,48(2):167-235.
[2]RAE A.From spatial interaction data to spatial interaction information?Geovisualisation and spatial structures of migration from the 2001 UK census[J].Computer,Environment and Urban Systems,2009,33:161-178.
[3]PHAN D,XIAO L,YEH R,et al.Flow map layout[A].Info Vis 2005,the Eleventh Annual IEEE Symposium on Information Visualization,2005.23-25.
[4]李薇.我国人口省际迁移空间模式分析[J].人口研究,2008,32(4):86-96.
[5]朱传耿,顾朝林,马荣华,等.中国流动人口的影响要素与空间分布[J].地理学报,2001,56(5):549-560.
[6]刘盛和,邓羽,胡章.中国流动人口地域类型的划分方法及空间分布特征[J].地理学报,2010,65(10):1187-1197.
[7]PAGE L,BRIN S.The anatomy of a lagre-scale hypertextual Web search engine[A].Proceeding of the 7th International Conference on World Wide Web(WWW)[C].1998.107-117.
[8]BOLLEN J,RODRIGUEZ M A,VAN DE SOMPEL H.Journal status[J].Scientometrics,2006,69(3):1030.
[9]IVAN G,GROLMUSZ V.When the Web meets the cell:Using personalized PageRank for analyzing protein interaction networks[J].Bioinformatics,2011,27(3):405-407.
[10]JIANG B.Ranking spaces for predicting human movement in an urban environment[J].International Journal of Geographical Information Science,2009,23(7):823-837.
[11]曹军.Google的PageRank技术剖析[J].情报杂志,2002(10):15-18.
[12]黄德才,戚华春.PageRank算法研究[J].计算机工程,2006,32(4):145-146.
[13]XING W,GHORBANI A.Weighted PageRank algorithm[A].Second Annual Conference on Communication Networks and Services Research(CNSR′04),2004.305-314.
[14]蔡昉,王德文.作为市场化的人口流动——第五次全国人口普查数据分析[J].中国人口科学,2003(5):11-19.
[15]严善平.中国省际人口流动的机制研究[J].中国人口科学,2007(1):71-77.
A Spatialized PageRank Algorithm for Migration Spatial Agglomeration Analysis
ZHONG Bin-qing,LIU Xiang-nan
(CollegeofInformationEngineering,ChinaUniversityofGeosciences(Beijing),Beijing100083,China)
In this paper,a spatialized algorithm based on PageRank for analyzing the migration spatial agglomeration is proposed.This algorithm considers the flow amount factor and the distance factor additionally.After being enhanced,it has the capacity to analyze a spatial network model,and then give a new solution to migration agglomeration analysis.By analyzing the migration condition of East China,thePR,Region Total Inflow(RTI)and Migration Location Quotient(MLQ)results shows that:the spatialized PageRank algorithm can objectively evaluate the node attractive force,and explain the driving mechanism behind the migration phenomenon which the traditional statistic index can′t.
spatialized PageRank algorithm;migration;spatial network model;spatial agglomeration
K901.3
A
1672-0504(2011)05-0082-05
2011-05- 20;
2011-07-16
国家高技术研究发展计划(863)项目(2007AA12Z174)
钟斌青(1987-),男,硕士,主要研究方向为空间信息分析与挖掘。*通讯作者E-mail:liuxn@163.com