考虑群体异质性的建成环境与老年人慢行出行关系研究
2022-08-30吴静娴钱依楠韩印
吴静娴,钱依楠,韩印
(上海理工大学,管理学院,上海 200093)
0 引言
人口老龄化已成为我国城市面临的主要问题。第七次人口普查数据显示,2020年我国60 岁以上人口高达2.64 亿人,总占比18.7%,“十四五”期间预计该人口数据将突破3 亿人,占比超20%,我国将步入中度老龄化社会[1]。随着人口年龄的增长,老年人在生理机能上逐步衰退,行为能力也明显降低。老年人出行能力降低不仅会影响其正常的邻里交往和身心健康,也会降低老年人生活品质[2]。面对城市老龄人口比例增加和老年群体出行能力降低,城市交通基础设施、出行环境以及交通服务也理应做出调整。因此,有必要分析老年人的出行行为和出行环境关系。
慢行作为老年人日常出行的主要方式之一,是包含步行、自行车在内的非机动化出行,兼具绿色、低碳和健康多重效能[3]。有研究表示,适当的步行、自行车骑行等慢行出行有益于老年人的身心健康,适宜的慢行出行环境能够鼓励老年人慢行出行[4]。其中,建成环境是影响老年人慢行出行时间、频率等慢行强度指标的因素之一。建成环境是包含土地利用、城市设计和交通系统在内的微观环境,其指标特征会影响老年人的慢行出行。Roe等[5]认为在建成环境指标中步行设施配建、用地混合度、行人基础设施连通性、无障碍商业和公交服务配备以及绿地公园可达性对老年人慢行出行有重要影响。Cheng等[3]在对比建成环境对不同群体慢行出行影响时,发现棋牌室距离、公交站点和共享单车站点等指标对老年人慢行出行频率和出行时间作用更为显著。相关最新研究显示,建成环境对老年人慢行出行的影响并非均一不变,在达到一定水平后该作用会趋于饱和。刘吉祥等[6]发现,公交站点密度、距市中心距离以及容积率与老年人慢行出行之间存在复杂的非线性关系和阈值效应。Wu 等[7]指出人口密度和用地混合度对老年人步行频率有正向作用,但该指标在达到一定阈值后会产生负效用。Yang 等[8]认为街景绿化在一定范围内与老年人步行倾向呈正相关,但超过该范围后正向关系不再成立。
综上,现有建成环境与老年人慢行出行研究在理论与方法上已趋于成熟,但多数研究未能充分考虑不同老年人在交通出行需求和行为方面的组群异质性。这种群体异质性表现为具有不同社会经济属性的老年人,如在性别、驾照持有、家庭收入、家庭车辆数以及所处生命历程阶段的差异,会导致其在出行需求和行为特征上的差异[9]。因此,有必要对不同老龄群体进行差异化的建成环境与慢行出行时间关系分析,由此通过精准的建成环境优化来鼓励老年人的慢行出行。
本文针对现有研究不足,以南京市为例,重点针对不同群体老年人的总慢行出行时间进行分析,利用潜在类别聚类方法和随机森林模型,构建考虑老年群体异质性的慢行出行时间模型,对比并分析建成环境指标对不同老年群体慢行出行时间的作用。研究结果可为城市规划决策者制定精细化、适老化的社区建成环境优化政策提供参考,从而有效提升城市老年人生活幸福感和城市空间环境整体包容度。
1 潜在类别聚类
潜在类别聚类(Latent Class Clustering,LCC)是一种通过潜在类别变量解释外显变量相关性,并维持外显变量局部独立性的分类方法。该方法善于解决多类型变量的聚类问题,常被用于群体异质性研究[10]。假设现有A、B、C这3个外显变量,分别取值为i、j、k,LCC模型的具体步骤如下。
(1)概率参数化,即对潜在类别概率和潜在类别中外显变量的条件概率进行参数化处理。以性别、学历、家庭收入这3个外显变量为例,对老年群体进行潜在类别聚类,概率公式为
式中:πi,j,k为老年人外显变量A、B、C取值i、j、k的联合概率;πt为老年人属于潜在类别第t类的概率,其中,t=1,2,…,T;πi|t、πj|t和πk|t分别为老年人属于潜在类别变量第t类情况下外显变量A、B、C取值i、j、k的条件概率。
(2)参数估计,即对公式中潜在类概率和条件概率进行估计,采用方法主要有极大似然法(Maximum Likelihood, ML)和 EM(Expectation Maximization)迭代算法。本文拟采用EM 算法,对潜在变量类别进行逐步增加迭代估计,而最佳类数由迭代后的拟合结果确定。常用拟合指标包括Akaike 信息准则(AIC)、贝叶斯信息准则(BIC)、一致性Akaike 信息准则(CAIC)等[11]。就AIC、BIC 和CAIC 而言,能够同时最小化这些标准的类模型最佳。此外,类结果还需结合熵(Entropy)进行聚类质量评估,其值大于0.9 表明各类别分化明显,解释性强。
(3)潜在聚类。基于贝叶斯理论对老年人群进行潜在聚类,即
式中:为老年人属于第t类的后验概率;为各外显变量在潜在类别t的联合概率估计量;潜在类别概率极大似然估计值;、和分别为A、B、C外显变量的条件概率极大似然估计数。
2 随机森林模型
随机森林(Random Forest,RF)是一种结合多个单独决策树来优化模型拟合和预测的集成学习算法,现已被广泛用于交通状态预测[12]、出行意向研究[13]等交通领域。随机森林中各个决策树采用有放回随机抽样学习而得,树中各节点特征变量也由随机选取而得。算法主要通过调整决策树数和随机变量数这两个参数提高模型预测性能。相比于一般数学模型,随机森林具有以下优势:算法学习准确性高;善于处理变量间的高阶关系,能有效挖掘特征之间的非线性关系;无需严格的统计学假设,能灵活应用于具有或没有特定分布的数据中;已被证明适用于小数据集[14]。该算法具体包括以下几个步骤。
Step 1 从原始数据集中有放回随机抽取若干个训练集(bootstrap重采样)。
Step 2 为每个训练集构建决策树并预测结果。
Step 3 从独立的预测结果中进行投票(非加权平均方法)。
Step 4 为分类问题选择多数投票结果,或为回归问题选择平均值。
本文主要运用随机森林的回归原理。令{T(X;θm),m=1,2,…,M}为RF中的M棵回归树,其中,θm为服从独立同分布的随机变量,X为自变量,则RF回归结果可表示为
均方根误差(RMSE)和可决系数R2是评价模型性能的主要指标。R2为回归模型对袋外数据(Out of Bag,OOB)观测值的拟合程度,R2越大说明回归模型拟合效果越好。RMSE 是评价模型对袋外数据观测值预测能力的指标,等于预测值与真实值偏差的平方与观测次数n比值的平方根,RMSE越小说明回归模型预测能力越高。
此外,随机森林能够量化解释变量在预测结果中的相对重要性,增加模型解释性。由Breiman[15]引入的相对重要性度量,通常用于计算变量的重要性。变量Xi相对重要性计算公式为
式中:IXi为变量Xi的相对重要性;MSEm为树m袋外数据的均方误差;MSEm,Xi为随机重排袋外数据中变量Xi值后树m的均方误差。
3 实例分析
本文以南京市为例,重点关注城市60 岁及以上老年人慢行出行时间与建成环境特征的关系。所用数据来源主要包括2013年南京市居民出行调查数据、土地利用GIS 数据和百度地图兴趣点POI数据。研究涉及指标主要包括老年人个人家庭属性、慢行出行行为特征以及建成环境指标这3 类。其中,老年人的个人家庭属性和慢行出行行为特征主要源于南京城市居民出行调查数据,从中筛选590名采用慢行出行(步行和自行车)的老年人作为样本。建成环境指标则源于城市同年的土地利用GIS数据和POI数据。该指标数据是对老年人居住地周边500 m 和1 km 范围内相关建成环境特征的描述。
表1 为采用慢行出行老年人样本数据的特征描述。样本中,老年人男性比例为51%,受教育程度在初中及以下比例为49.8%,绝大多数老年人已退休或无驾照;12%老年人所在家庭中有学龄前儿童,56.6%家庭收入处于5 万~15 万元之间;慢行出行特征上,老年人总慢行出行时间平均为61.24 min·d-1,出行频率平均为2.68次·d-1。此外,表1 展示了与老年人慢行出行潜在相关的主要建成环境指标,主要包括老年人居住地与地铁站邻近度、公共服务设施邻近度、1 km缓冲区内慢行路网密度、500 m 缓冲区内混合度等8 个建成环境指标。其中,混合度是对缓冲区内不同功能用地多样性和普遍性的描述,具体公式为
表1 样本基础数据描述(N=590)Table 1 Sample data description(N=590)
式中:Pi为第i种土地利用的比例;n为土地利用类型数量。根据老年人慢行出行特征,本文选取与其最为相关的5类用地,主要包括住宅、绿地、商业服务业、公共管理及其他。
3.1 老年群体异质性分析
本文用于老年群体异质性分析的变量主要包括性别、是否退休、学历、家庭收入以及学龄前儿童这5个类别变量。表2为基于潜在类别聚类得到的不同类对应的拟合指标。根据最佳类数的确定规则,即能够同时最小化AIC、BIC和CAIC值并最大化熵值(Entropy)的类为最佳,来确定老年群体的最佳类数。表中,M2、M3和M4的AIC和BIC值均较低,M2和M3的CAIC值较低,而M2的聚类熵值最高,说明M2的聚类拟合效果最好。此外,最佳类的熵值大小能够反映聚类结果质量,M2 熵值大于0.9,表明各类别分化明显、解释性强。因此,综合考虑后以包含2 个类别的潜在变量聚类结果作为最佳的老年人群体分组。表3 为基于最佳类的老年人分组外显变量统计特征。分类后,隶属于第1类、第2 类的老年人分别有296 人和294 人。对比两组老年群体的基础特征,发现相比于第2类老年群体,第1类老年群体的男性比例、退休比例、高中及以上学历比例更高。在家庭特征方面,第1类老年群体家庭的学龄前儿童比例和中高收入水平比例高于第2类老年群体家庭。
表3 参数估计结果Table 3 Parameter estimation results
3.2 随机森林模型结果
3.2.1 模型评估
已有研究表示步行时间是衡量老年人身体活动强度的重要指标[16]。因此,本文针对聚类后的两类老年群体的日出行总慢行时间,建立随机森林模型。模型的解释变量需通过共线性检验,即选择方差膨胀因子(VIF)值低于10的变量进行建模。经检验,共有4个个人家庭属性变量(是否退休、驾照、家庭收入、以及自行车拥有)和8个建成环境变量满足要求。由此,建立以建成环境指标和老年人个人及家庭属性为解释变量的慢行时间模型,得到两类群体模型的拟合优度R2分别为0.27 和0.20,高于未分类随机森林模型(0.18)。这说明分类后的模型解释度更高,一定程度说明了考虑群体异质性在建成环境对老年人慢行出行影响中的必要性。此外,对比传统线性回归模型,聚类后的随机森林模型在均方根误差(RMSE)上效果更优,说明随机森林的模型准确性更高。具体对比结果如表4所示。
表4 模型评估结果Table 4 Model evaluation results
3.2.2 特征变量重要性
表5 为基于随机森林模型的两类老年群体慢行出行时间影响的指标重要度排名。表中,建成环境指标的累计重要性明显高于老年群体的个人家庭属性,证实了建成环境对老年人慢行出行的显著作用[5]。对比两类群体指标发现,影响第1 类群体慢行出行时间的主要指标为1 km范围内慢行路网密度、交叉口数以及地铁站邻近度,第2 类老年群体慢行出行的主要影响指标为地铁站邻近度、1 km范围内慢行路网密度和500 m范围内住宅密度,两类老年群体均表现出对慢行路网和地铁站的较大需求。此外,两类老年群体在个人家庭属性重要度中也略显差异。对于第1类老年群体,自行车拥有和家庭收入对其慢行出行的影响相对重要,而对于第2类老年群体,其慢行出行受家庭年收入的影响相对重要,但总体上个人家庭属性在这一类群体中对慢行出行的影响较不显著。可见,聚类后的两类群体在慢行出行影响指标上差异显著。
表5 解释变量的相对重要性Table 5 Relative importance of explanatory variables
3.2.3 建成环境与老年群体慢行时间非线性关系
图1~图4 为基于随机森林模型的建成环境与两类老年群体慢行出行时间非线性作用关系图(实线部分),虚线部分为非线性拟合趋势曲线。由图可知,建成环境对两类老年群体的慢行时间均有显著的阈值效应。
图1 为地铁站邻近度与两类老年群体慢行时间关系对比图。图中,地铁站邻近度对两类群体慢行出行均有显著影响,呈现先增加后平稳的趋势。对于第1类老年群体,5 km以内的地铁站邻近度对鼓励该群体步行或者骑行有显著的积极作用;对于第2 类老年群体,2 km 以内其对步行作用平稳,当距离最近地铁站2~3 km 时倾向于骑自行车前往,随后呈现负相关关系并在约4.5 km 时保持稳定。在地铁站邻近度上,第1类老年群体对于轨道接驳距离表现出较高的容忍度。
图1 地铁站邻近度Fig.1 Proximity to subway stations
图2为500 m缓冲区内公共自行车站点数与两类老年群体慢行时间的非线性关系图。图中,缓冲区内公共自行车站点数与两类老年群体慢行出行总体呈现正向关系。对于第1类老年群体,缓冲区内公共自行车站点数设置4~5个时,对该群体慢行出行的激励作用最为显著,慢行出行累计时间最高可提升至75 min;随后,该指标提升对慢行作用略有回落,出行时间稳定在72 min左右。对于第2类老年群体,区内公共自行车站点数对慢行出行呈现持续的正向关系,持续增加公共自行车站点服务对该群体的慢行更有吸引力[17]。这种公共自行车的高度依赖性,一定程度上与这类老年群体家庭较少拥有小汽车和自行车有关。
图2 公共自行车站点数Fig.2 Number of public bicycle stations
图3 为1 km 缓冲区内慢行路网密度与两类老年群体慢行时间非线性关系对比图。图中,缓冲区内慢行路网密度对两类老年群体慢行出行整体均呈现为正向影响。对于第1 类老年群体,慢行路网密度对其慢行时间呈现“保持不变(0~7.5 km·km-2)+准线性正相关(7.5~10.0 km·km-2)+保持不变(10 km·km-2以上)”的形态,整体正相关。对于第2类老年群体,该指标对慢行出行时间的影响则呈现持续正相关形态,在密度为15 km·km-2时慢行出行时间达到最大。该指标表现出老年群体对慢行道路的依赖性较高,城市规划者可以考虑适当增加社区内的慢行道路,以方便老年群体出行。
图3 慢行路网密度Fig.3 Density of active road network
图4为500 m缓冲区内混合度与两类老年群体慢行时间非线性关系对比图。该指标对两类老年人慢行出行时间的影响趋势差异显著。混合度对第1 类老年群体慢行出行作用整体呈正向关系。这与已有研究结果一致,混合度越高的区域通常集中了城市的主要功能(居住、商业、公共服务等)用地,能够产生更多的主动式慢行出行[2]。对于第2类老年群体,该指标与老年人慢行出行时间总体呈负向关系,尤其在混合度低于0.6 时。这种与第1类老年群体截然相反的趋势,一定程度与该类群体日常慢行出行目的有关,导致其对于周边用地的开发程度并不敏感,没有过多时间享受多功能的生活环境。
图4 混合度Fig.4 Land use mixture
4 结论
本文考虑不同老年群体在出行行为上的潜在差异,重点关注不同老年群体在建成环境特征与慢行出行时间的关系。以南京市为例,利用潜在类别聚类对不同老年群体进行群体异质性探究,以性别、是否退休、学历、家庭收入以及学龄前儿童为外显变量,将老年人群聚类为两类;进一步利用随机森林模型,对比分析了两类老年群体慢行时间特征,发现各建成环境对两类群体慢行出行时间的作用差异显著。模型结果表明:
(1)根据两类群体慢行出行的建成环境重要度结果,建议重点关注第一类老年群体周边1 km 缓冲区内的慢行路网密度、交叉口数以及地铁站邻近度的优化,对于第2类老年群体则建议加大对1 km缓冲区内慢行路网密度、地铁站邻近度以及500 m缓冲区内住宅密度的优化力度。
(2)对于具体建成环境指标优化目标值的确定,可参照两类群体各自的非线性作用关系。具体而言,地铁站邻近度值为2 km时对第2类老年人采用慢行方式开始具有积极影响;在家庭住所500 m缓冲区内增加公共自行车站点和慢行路网密度,能有效促进两类老年人慢行出行;500 m 缓冲区内混合度越高,第1 类老年人慢行出行愈发积极,但是高于0.5的混合度对第2类老年人慢行出行作用并不显著。
综上,城市规划和管理者在设计或改善与地铁站、公共服务设施相毗连,且用地混合的社区时,若辅以适当的慢行道路设施和公共自行车服务,能有效地促进老年人慢行出行;另外,研究侧面反映了精细化慢行出行环境优化的必要性,异质化的建成环境优化对打造精细化、适老化社区和建设老年友好型社会有积极作用。