APP下载

公共自行车加权有向网络建模与仿真

2022-01-09申江龙

内蒙古公路与运输 2021年6期
关键词:站点轨迹权重

申江龙

(1.陕西地建土地工程技术研究院有限公司,陕西 西安 710075;2.陕西省土地工程建设集团有限责任公司;3.自然资源部退化及未利用土地整治工程重点实验室;4.陕西省土地整治工程技术研究中心)

1 引言

近年来,随着社会经济高速发展,人民物质生活水平不断提高,导致出行需求不断增加。城市中的交通拥堵和空气污染等问题困扰着人们的日常生活,公共自行车系统由于绿色、便捷、价格低廉等特点,受到了许多城市的欢迎。公共自行车系统在全球范围的普及,为节能减排、增强公民体质、丰富城市交通类型、优化道路资源建设、增强公共交通运营效率、提升城市形象等做出了许多贡献。公共自行车使用所产生的海量数据,为研究人类骑行行为、旅行偏好、优化站点布局提供了数据支撑。

随着复杂网络小世界特性[1]和无标度特性[2]的提出,复杂网络实证研究变得火热起来,至今仍然是热门的研究方向之一并被应用到许多领域,如供应链[3]、知识图谱[4]、金融[5]、社会经济[6]、交通[7]。城市交通系统属于典型的复杂系统,应用复杂网络理论研究公共交通网络的拓扑特性已经成为行之有效的方法。Sienkiewicz等[8]分析了波兰22 个城市的公共交通网络,发现这些网络均表现出了小世界网络的特性。Derrible 等[9]分析了世界上33个城市的地铁网络,发现大多数地铁网络属于无标度网络。Xu等[10]分析了中国330个城市的公交网络,发现所有网络都表现出小世界特性。Ren等[11]分析了沈阳的公共交通网络,发现网络也表现出了无标度的特点。Candelleri 等[12]分析了意大利佛罗伦萨与希腊阿提卡两个城市的公共交通网络,验证了公共交通潜在的脆弱性。Wang 等[13]分析了呼和浩特公交网络,发现网络的度分布与强度分布服从线性分布并且网络具备小世界特性。Cao 等[14]分析了长沙的公交网络,发现网络具有无标度特性但是不满足小世界特性。

随着网络科学研究在公共交通领域的深入开展,有学者把目光投向了公共自行车系统,通过对公共自行车系统建立网络模型来分析它的拓扑特征。2011年,针对武汉公共自行车系统,Li等[15]以站点为节点,800m半径覆盖范围内的站点之间的一条连边,构建了武汉公共自行车网络模型,发现网络的度分布服从幂律分布,验证了武汉公共自行车网络属于无标度网络。Li等的网络模型存在明显的缺点是忽略了连边的方向和权重等信息。2018年,针对伦敦公共自行车系统,Fernando等[16]以公共自行车社区视为网络的节点,社区内站点的数目作为节点的权重,社区之间有骑行发生便产生连边,社区之间的流量作为连边的权重,研究了自行车在社区间的传播情况,结果发现自行车在社区之间的传递与社区附近的土地使用模式相关。Saberi等[17]以站点作为节点,站点间有连接则产生连边,站点间总的骑行数量作为连边的权重构建复杂网路,结果表明伦敦公共自行车网络的累积度分布和累积边权分布服从幂律分布。针对宜兴公共自行车系统,Wei等[18]以站点为节点,有骑行就有连边,骑行数量作为连边的权重建立了宜兴的公共自行车网络模型。研究发现,宜兴公共自行车网络的出入度分布以及出入强度分布均表现为正态分布。2019年,针对南京公共自行车系统,Yao等[19]以站点为节点,站点间的骑行数量作为权重构造了公共自行车网络。发现网络的出入度分布服从幂律分布。针对杭州公共自行车系统,Shi等[20]以同样的方法构建了杭州公共自行车网络,并采用不同的模块度算法对网络进行社团划分,发现社团检测的结果可以揭示实际的人类活动区域。

前人在公共自行车网络模型的构建过程中,仅考虑到了连边的关系,忽略了连边上的流量信息和时间信息;拓扑特征的评价局限在现有的拓扑指标,对于加权有向类型的网络无法进行解释。本文在前人构建网络模型的基础上考虑了自行车流量和骑行时长对网络造成的影响,构建了两种加权有向网络模型,提出了两个新的参数来评价加权网络的拓扑特征,使得网络模型能够更加客观地反映公共自行车网络的特点。

2 基础知识

2.1 Citi Bike系统

Citi Bike系统是美国最大的自行车共享计划,拥有12000 辆自行车,750 多个车站,分布在曼哈顿、布鲁克林、皇后区和泽西市周围。它是专为快速旅行而设计的,同时兼顾了便利,是一种有趣又实惠的出行方式。前人利用Citi Bike数据集进行了很多有益的研究,主要集中在对站点车流量的预测,现对前人研究进行归纳。2017年,Chen等[21]采用递归神经网络预测了每个站点下一个时刻的自行车流量。Kang等[22]基于Spark Mlib机器学习框架预测站点自行车需求。2018年,Bao等[23]基于聚类和地理加权回归构建公共自行车流量与各种因素之间的关系,结果表明分离骑乘模型的预测结果优于联合模型。Wang 等[24]基于相关特征、用户特征的特征模型对自行车需求量进行预测。Lin、Yang等[25,26]采用图卷积神经网络预测了站点每小时的自行车需求。Chuang等[27]研究了激励计划对单车运营的影响。2019年,Heaney等[28]研究了气候变化对自行车使用的影响。

本文以纽约Citi Bike系统为研究对象,旨在从网络科学的角度,研究Citi Bike系统站点间的关系和使用模式,以及人类行为动力学规律。从纽约Citi Bike系统官网(https//www.citibikenyc.com)下载了2017年10月的原始数据集。筛选出2017 年10 月1 日至10 月7 日一周465642 条骑行轨迹数据。删除持续时间小于1min、持续时间大于6h的轨迹,一般认为持续时间小于1min的骑行属于未成功租车,可能存在顾客临时反悔,或者车辆故障等情况,大于6h的轨迹属于未成功归还车辆,可能存在顾客忘记归还或者车辆被盗等情况。通过数据预处理,保留的有效数据有465300条轨迹,共覆盖了系统725个站点。

2.2 强度分布

给定一个包含N 个节点的加权网络G 及其权值矩阵W=(wij)。若G 是无向加权网络,那么节点i 的强度定义为:

节点i的强度si是指与节点i关联的边权之和。若G是有向加权网络,那么节点i的入强度和出强度分别定义为:

节点i的入强度siin是指从其他节点指向节点i的边的权重总和。节点i的出强度siout是指从节点i指向其他节点的边的权重总和。

入强度分布p(sin)定义为网络中随机选择的一个节点的入强度为sin的概率。出强度分布p(sout)定义为网络中随机选择的一个节点的出强度为sout的概率。为避免噪声干扰造成的误差,常进行平滑处理,累积强度分布Ps是一种常用的方法。它表示强度不小于s的节点在整个网络中所占的比例。

2.3 强度差分布

加权有向网络中,节点i可能存在流入边、流出边或者两者同时存在的情况。以往的研究仅单方面考虑了入强度和出强度,并未同时考虑入强度和出强度相结合的情况。节点i的强度差siin-out是指节点出强度的差值,定义为:

强度差能够度量出在有向加权网络中节点i的强度增加或减少的程度。在不同的加权网络中强度差通常能够表达不同的实际含义。强度差分布p(sin-out)定义为网络中随机选取的一个节点的强度差为sin-out的概率,可以用来度量网络的全局拓扑特征。

2.4 单位强度分布

给定包含N 个节点的加权有向网络G 及其邻接矩阵A(aij)与权值矩阵W(wij)。节点i 的单位强度ui定义为:

ui是指节点i的强度si与度ki的比值,它可以度量网络中节点i所有连边的平均分担权重的能力,其在不同的加权网络中会由于权重的不同表达不同的含义。单位强度分布p(u)定义为网络中随机选取的一个节点的单位强度为u的概率。

2.5 边权分布

在加权网络中,节点之间的连边根据重要程度的不同,被赋予了不同的权重。边权wij是指节点i和j之间连边的权重。边权分布p(w)定义为网络中随机选取的一条连边的权重为w的概率。

3 流量加权有向网络

3.1 建模方法

用户的借还车刷卡示例数据见表1。共有四条骑行数据,有两条轨迹从自行车租赁站点A骑行到站点B,有一条轨迹从自行车租赁站点A骑行到站点C,有一条轨迹从自行车租赁站点B骑行到站点C。每条骑行轨迹对应的骑行时长如第四列所示;每次骑行发生的时刻如第五列所示。初始数据集中,骑行发生时刻精确到秒。由于研究的需要,本文仅使用骑行发生的时数据。

表1 用户借还车示例数据

将自行车站点视为网络的节点,站点间产生骑行行为则节点间存在连边,连边的方向由起始站点指向停靠站点,站点间的骑行客流量作为连边的权重,构建流量加权有向网络。四条骑行轨迹涉及到三个自行车租赁而网络由A、B、C 三个节点构成,如图1(a)所两条轨迹从自行车租赁站点A骑行到站点B,则网络中有节点A 指向节点B 的有向连边且连边的权重是2。类似地,由于自行车租赁站点A到站点C和站点B到站点C各存在一条骑行轨迹,因此网络中有节点A指向节点C的一条有向边和节点B指向节点C的一条有向边,连边权重均为1。

流量加权有向网络模型如图1(a)所示,网络包含A、B、C三个节点,A→B、A→C、B→C三条有向边。其中连边A→B的权重为2,表明由A站点出发到达B站点的骑行共发生了两次。与无权无向的网络模型相比,流量加权有向网络不但考虑了连边的方向属性,同时还考虑到了站点的客流量数据。

流量加权有向网络的邻接矩阵包含了网络中所有站点之间的轨迹信息和客流量数据。图1(b)刻度尺反映了客流量的大小,单位是人次。研究发现,在一周内网络中站点间的流量不超过20人次的骑行占据总骑行的97%,其中两个站点仅出现一次客流运输的骑行占据总骑行的37%,表明该网络属于连边密集型的网络。

图1 流量加权有向网络

3.2 网络局部拓扑特征

利用Gephi软件进行统计分析,得到流量加权有向网络的拓扑参数结果见表2。

表2 网络拓扑特征

流量加权有向网络包含725个节点,104326条有向连边,连边的权重对应每条线路上的客流量人次。入强度最大值Max sin表示网络中节点的入客流量的最大值,出强度最大值Max sout表示节点的出客流量的最大值。入强度最小值Min sin表示节点入客流量的最小值,出强度最小值Min sout表示节点出客流量的最小值。

拓扑参数结果显示,网络存在强度过大的节点和强度过小的节点。表明Citi Bike 系统站点的使用强度不均衡,存在过度使用的站点和较少使用的站点。此外,尽管单个节点的出度和入度并不相同,网络的平均入度和平均出度是相同的,平均入强度和平均出强度也是相同的。表明针对流量加权有向网络,对于系统中的每个个体而言,不一定成立的性质,都会在整个系统层面上成立。

3.3 网络全局拓扑特征

流量加权有向网络的累积入强度分布P(sin)与累积出强度分布P(sout)均服从指数分布。如图2(a)和图2(b)所示,在单对数坐标下,累积入强度分布与累积出强度分布呈现出倾斜直线型,拟合优度检验显示两个累积强度分布均服从指数分布(可决系数R2=0.99),说明拟合的指数分布可以解释其中99%以上的信息。结果表明,自行车系统的站点使用强度不均匀,表现出指数分布的特征。

在流量加权有向网络中,单位强度ui表示i 站点单个线路的客流运输能力。通过分析单位强度分布p(u),能够了解网络中不同站点的客流运输能力。流量有向加权网络的单位强度分布服从对数正态分布(R2=0.98),如图2(c)所示。u大于10的结果所对应的频率都趋于0,表明超过99%的站点线路的平均客流运输量不超过10人次。

图2 流量加权有向网络分布

流量加权有向网络的边权分布p(w)服从幂律分布。边权分布p(w)的拟合曲线在双对数坐标下为倾斜直线,拟合优度检验显示边权分布服从幂律分布(R2=0.954),如图2(d)所示。表明站点间线路的客流量运输存在较大的差异性。10%的线路承担了超过90%客流运输任务,剩余90%的线路只分担了不到10%的客流运输工作。

在流量加权有向网络中,节点i的强度差siin-out表示i站点客流进入数量与流出数量的差值。通过分析强度差分布p(sin-out)的结果,能够了解系统站点间自行车进出流量的情况,找出自行车流入和流出不平衡的站点。强度差分布p(sin-out)的散点图满足钟形对称曲线,sin-out近似服从参数为μ=2.719(1.988,3.469)、σ=10.91(9.858,11.95)的正态分布(R2=0.85),如图2(e)所示。表明Citi Bike系统中,90%的公共自行车站点能够基本实现单个站点租车量与还车量的平衡,10%的站点自行车流入量和流出量存在较大差异。从车辆调度角度考虑,可以在流入型站点和流出型站点之间就近调度,来缓解系统运营过程的不平衡现象。

4 时间加权有向网络

4.1 建模方法

将自行车站点视为网络节点,站点间产生骑行行为则节点间存在连边,连边的方向由起始站点指向停靠站点,站点间的平均骑行时间作为连边的权重,构建时间加权有向网络。四条骑行轨迹涉及到三个公共自行车租赁站点,因而网络由A、B、C三个节点构成,如图3(a)所示。有两条轨迹从自行车租赁站点A骑行到站点B,骑行的平均时间为4min,则网络中有节点A指向节点B的有向连边且连边的权重为4。类似地,由于自行车租赁站点A到站点C和站点B到站点C各存在一条骑行轨迹,骑行的时间分别为1min和3min,因此网络中有节点A指向节点C的一条有向边和节点B指向节点C的一条有向边,连边的权重分别为1和3。

图3 时间加权有向网络

时间加权有向网络模型如图3(a)所示,网络包含A、B、C三个节点,A→B、A→C、B→C三条有向边。其中连边A→B的权重为4,表明由A站点出发到达B站点平均用时4min。连边A→C 的权重为1,表明由A 站点出发到达C站点平均用时1min。连边B→C的权重为3,表明由B 站点出发到达C 站点平均用时3min。与无权无向的网络模型相比,时间加权有向网络不但考虑了连边的方向属性,还考虑了每条骑行线路上的骑行平均耗时,能够更好的了解网络中连边的作用情况。

时间加权有向网络的邻接矩阵包含了网络中所有站点之间的轨迹信息和骑行平均耗时的数据。如图3(b)所示,刻度尺反映了骑行耗时的多少,单位是min。由图3(b)可以发现,骑行平均时长都集中在40min 以内,超过95%的骑行时间都小于40min。究其原因主要是由于公共自行车系统属于短途的公共交通工具。超过40min的骑行产生的原因,可能是由于非会员用户初次使用该系统的公共自行车,不熟悉系统计费规则造成的结果。

对比流量加权有向网络发现,随着权重的定义不同,网络的拓扑结构也表现出差异。虽然两个网络中强度最大的站点属于同一个站点,但是站点的强度和强度的排名已经发生了改变。此外,通过网络模型可以清晰的发现网络中的连边表现出权重低密度大的特点,这与其他公共交通网络有明显的差异。

4.2 网络局部拓扑特征

时间加权有向网络的拓扑参数结果见表2。时间有向加权网络包含725 个节点,104326 条连边,连边的权重对应每条线路上的平均耗时。入强度最大值Max sin表示网络中节点的入边权重总和的最大值,出强度最大值Max sout表示节点的出边权重总和的最大值。入强度最小值Min sin表示节点入边权重总和的最小值,出强度最小值Min sout表示节点出边权重总和的最小值。

与流量加权有向网络类似,尽管单个节点的入强度和出强度存在差异,网络的平均入强度和平均出强度是相同的。结果表明权重并不会影响这类有向网络的这一重要特性:对于系统中个体不一定成立的性质,却会在整个系统层面成立。WWW 网络、论文引用网络以及微博关注网络等都具备这种特性[29]。

4.3 网络全局拓扑特征

时间加权有向网络的累积入强度分布P(sin)与累积出强度分布P(sout)均服从线性分布。如图4(a)和图4(b)所示,累积入强度分布与累积出强度分布的散点图呈现出倾斜直线型,拟合优度检验显示两个累积强度分布均服从线性分布(R2=0.97),表明针对时间有向加权网络,站点的入强度和出强度分布比较均匀。

时间加权有向网络中,单位强度表示的实际含义是从某站点出发到达其他站点所需要的平均时间。分析单位强度分布,便于了解自行车骑行情况,分析居民骑行的时间规律。如图4(c)所示,单位强度分布p(u)的散点图满足钟形对称曲线,u 近似服从参数为μ=18.6(18.4,18.8)、σ=3.181(2.9,3.462)的正态分布(R2=0.97)。由于正态分布的均匀性,绝大部分站点的单位强度u都处在均值μ附近。98%站点对应的平均骑行时间在(8.014,29.186)分钟以内。该结果符合人类骑行的实际情况,印证了公共自行车的主要作用是短途出行或者接驳其它公共交通。

图4 时间加权有向网络分布图

5 时效网络

5.1 建模方法

将自行车站点视为网络的节点,站点间产生骑行行为则节点之间存在连边,连边的方向由起始站点指向停靠站点,站点间的骑行客流量数据作为连边的权重,利用时间标签来标记节点间连通的时间信息,构建时效网络。如表1的示例数据,四条骑行轨迹涉及到一共三个自行车租赁站点在三个不同时刻的骑行信息。

如图5 所示,在t=6 时刻,共涉及三个站点,因而网络由A、B、C 三个节点组成,在该时刻共有两条骑行轨迹,一条是从自行车站点A出发抵达站点B,一条是从站点A出发抵达站点C,则网络中有节点A指向节点B的有向边和节点A 指向节点C 的有向边且边的权重均为1。在t=7时刻,共涉及两个站点,因而网络由B、C两个节点组成,在该时刻有一条骑行轨迹,是从自行车站点B 出发抵达站点C,则网络中有节点B 指向节点C 的一条有向边且边的权重为1。在t=9 时刻,共涉及两个站点,因而网络由A、B两个节点组成,在该时刻有一条骑行轨迹,是从自行车租赁站点A出发抵达站点B,则网络中有节点A指向节点B的一条有向边且边的权重为1。

图5 时效网络模型

时效网络模型如图5所示,在t=6时刻,网络包含A、B、C三个节点,A→B、A→C 两条有向边且边的权重均为1,表明在t=6 时刻,有乘客从A 站点出发分别抵达B 站点和C站点。在t=7时刻,网络包含B、C两个节点,B→C一条有向边且权重为1,表明在t=7时刻,有乘客从B站点出发抵达C站点。在t=9时刻,网络包含A、B两个节点,A→B一条有向边,且权重为1,表明在t=9时刻,有乘客从A站点出发抵达B站点。与静态网络相比,时效网络中节点之间的连接并不是持续存在的,在时间上会表现为先后次序性以及不可逆性。通过分析时效网络的拓扑特征,能够了解网络的变化情况,进而了解站点的工作状态。

5.2 网络拓扑特征

时效网络对应的节点和连边的时序变化情况如图6所示。图6(a)的横坐标表示时间,单位是h,纵坐标从左至右分别为节点个数和连边个数。可以发现,一天中的凌晨,站点的活动量最小。在白天的不同时刻,站点的使用数量存在微小的波动。与节点相比,连边的时序变化波动较大,并表现出双峰分布的态势。白天的骑行量远大于夜间骑行量;峰值出现在上午8 时和下午17时,究其原因是由于工作日上下班通勤。

时效网络的拓扑特征参数具有高度的相关性。如图6(b)所示,横坐标表示时间,纵坐标从左至右分别表示平均度、平均强度、平均最短路径长度L 和集聚系数C。图6(b)描述了工作日统计量平均值时序特征,可以发现统计量、C呈现出高度相似的时序变化趋势,并且均表现出了双峰分布的特征。不同的是,最短路径长度L的走势恰好相反。结合时效网络连边的时序变化可以发现,网络中的度、强度和集聚系数等统计量与网络的密集程度紧密相关。网络越密集,网络的集聚系数C越大,平均最短路径长度L越小,网络的通达性越好;网络越密集,网络中的平均度和平均强度越大,反之则越小。

6 结语

本文结合系统站点间的客流量数据,构建了流量加权有向网络,结合站点间平均骑行时间,构建了时间加权有向网络,利用时间标签来标记节点之间连通时间的信息,构建了时效网络。使得网络能够更加贴合实际情况并充分考虑了客流量、骑行时间以及时间标签对网络所产生的影响。此外,提出了强度差分布与单位强度分布的概念,对加权有向网络的拓扑参数进行了补充。针对不同的加权有向网络,强度差分布与单位强度分布能够描述不同的实际含义。最后,利用Citi Bike系统的使用数据进行仿真,分析网络的拓扑结构和实际意义。

研究结果验证了所构建网络模型与所提出分布的有效性,并得出了以下结论:

①Citi Bike系统中超过95%的骑行所花费时间不超过40min。

②站点间的客流运输不平衡,10%的站点间的线路承担了90%的客流量运输任务。

③站点的使用强度和使用模式受地理因素影响。

④线路平均客运量与平均骑行时长的结果服从正态分布。多数骑行集中在18min附近。

⑤一周内超过90%站点的车流量进出能够基本保持平衡,针对其他10%的不平衡站点,可以在不平衡站点间就近调度,缓解站点间车流量流入和流出的不平衡状况。

⑥时效网络的拓扑参数间具有较强的相关性。网络的拓扑参数受到工作日上下班的影响表现为双峰分布,峰值分别对应上班时间和下班时间。

猜你喜欢

站点轨迹权重
权重常思“浮名轻”
轨迹
轨迹
基于Web站点的SQL注入分析与防范
2017~2018年冬季西北地区某站点流感流行特征分析
为党督政勤履职 代民行权重担当
轨迹
基于公约式权重的截短线性分组码盲识别方法
进化的轨迹(一)——进化,无尽的适应
首届欧洲自行车共享站点协商会召开