深圳市中小学生接送概率行为建模及分析
2020-01-18王京元郭云飞庄正勇
王京元,郭云飞,庄正勇
(1.深圳大学 土木与交通工程学院,广东 深圳 518060; 2.台州市城乡规划设计研究院,浙江 台州 318000;3.中交城市投资控股有限公司,广东 广州 510290)
出于安全和自主性等方面的原因,中小学生的上下学出行大多由家庭成员陪同完成。据统计,深圳市小学生上下学整体接送比例达61.28%,其中初中生为30.88%[1]。接送会引起出行增加,在一定程度上加重了交通拥堵,并且会对家庭成员的出行方式产生影响,父母往往需对出行时间、出行方式等进行调整,以满足接送孩子上下学出行的需要[2],为此,受到交通、地理、社会等领域诸多学者的广泛关注。DiGuiseppi研究表明,对于年龄6~12岁的学童来说,父母对其上下学的出行安全较为担心,所以更倾向选择机动化的出行方式对学童进行接送上下学[3]。Badri等通过研究发现,父母是否接送孩子上下学同学生的年龄大小、性别、父母的工作及工作的灵活程度、种族等因素密切相关,白种人使用小汽车接送的比例较高[4]。付凌峰、吴子啸通过对居民出行调查的数据进行分析,建立家长接送孩子上学的概率模型[5]。史文君从接送概率特性、方式特性及交通流特性等三个方面分析了影响接送行为的因素[6]。石京等从微观和宏观角度分析了家长机动车接送孩子对北京交通造成的影响[7]。已有研究主要是对调查数据的统计分析,且模型考虑的影响因素也多以线性关系情况为主,模型的完备性还有所欠缺。
本研究以深圳市中小学生为研究对象,基于课题组2015年开展的深圳市学童出行专项调查,采用二项Logistic回归分析方法,建立更完备的学生上下学接送行为的概率模型,定量揭示各相关因素与接送行为的关系。
1 接送行为数据调查
数据来源于课题组2015年开展的深圳市学童出行专项调查[8],调查共包含了9所学校,其中小学6所,初中3所。调查涵盖了深圳的南山区、罗湖区、福田区、宝安区以及盐田区,采用分层随机抽样的调查方法。共计发放问卷12 350份,有效问卷6 652份,有效率53.86%。调查问卷的具体发放和回收情况如表1所示。
表1 调查问卷发放情况表
2 接送概率行为建模
2.1 接送概率模型
研究对象接送概率仅包括有和无两个属性(接送和不接送),即模型对象变量不是数值而是两个属性,对比各类型回归模型的适用性和算法特征,参照已有研究,选用二项Logistic模型来描述接送概率特征[6]。接送问题模型定义变量用JS表示,则有
(1)
并对接送条件概率P做以下两点假设:
1)条件概率P(y=0|x)的值为连续的,值的范围在(0,1)之内。其中y=0为不接送,x为影响接送行为的因素。
2)当P(y=0|x)的值在(0,1)变化时,考虑P(y=0|a)的严格单调递增函数(连接函数)的值在(-∞,+∞)区间变化。
则,根据二项Logistic回归模型的一般形式,接送行为决策过程可表达为
(2)
考虑影响因素的线性、非线性以及相互间的影响,f(x)由以下三个部分组成。
2.1.1 独立变量的线性部分
独立变量的线性部分是接送概率模型中最为常见的一类变量,可用于解释单独作用于接送概率的影响因素,该因素的作用效果可直接用线性形式来表示,即h1ix1i。此类参数可直接用最小二乘法进行参数估计,其中h1i为第i个此类变量的回归系数,此类变量定义为x1类变量。
2.1.2 独立变量的非线性部分
独立变量的非线性部分用于解释单独作用于接送概率的影响因素,但由于变量取值或其他方面的问题导致该变量的线性形式不能直接反应因素和接送概率关系,需通过增加变量的幂次方等形式将模型中的变量转化为非线性形式来解决,一般的非线性形式主要包括指数、对数、幂次方、三角函数等,在模型中一般为h2jfj(x2j),h2j为第j个此类变量的回归系数,此类变量可定义为x2类变量。
2.1.3 多个变量的交互部分
综上所述,中小学生上下学接送概率的二项Logistic模型为
(3)
式中:参数b、c、d分别为x1类变量、x2类变量和x3类变量的个数,e为第k个x3类变量存在交互变量的个数。
P(JS=0|x)为在影响因素x下家长不接送的概率,下文用p表示; 1-P(JS=0|x)=Q(JS=1|x)表示在影响因素x下家长的接送概率,下文用q表示,则家长接送概率模型为
(4)
2.2 模型变量筛选与相关性检验
2.2.1 变量筛选
采用wald检验统计量的观测值以及wald检验统计量的概率值,进行模型变量筛选和回归系数的显著性检验。如果显著性水平a为0.05,当wald检验概率p值小于显著性水平a,则变量与Logitp的线性关系是显著的,变量保留在方程中。
2.2.2 相关程度
采用比值比(Odds Ratio)说明变量的相关程度,比值比表示当变量每增加一个单位时,将引起的发生比扩大倍数,当回归系数为负数时,表示发生比缩小的比重。
2.3 模型显著性与拟合优度
2.3.1 模型的显著性检验
采用似然比卡方的观测值和对应的概率值进行二项Logistic模型的显著性检验,如式(5)所示
(5)
式中:Lxi为未引入解释变量xi前模型似然对数值;L为引变量后模型似然对数值。
当Wald检验概率P值小于显著性水平a,则表明变量与Logitp的线性关系是显著的,可利用模型进行接送概率模型与变量之间的依存关系分析。
2.3.2 拟合度
利用NagelkerkeR2判断模型的拟合度,如式(6)所示
(6)
式中:L0为只包括常数时模型似然对数值;L为有变量时模型似然对数值;n为样本数量;NagelkerkeR2的取值为0~1之间,其值越接近1说明模型的拟合优度越高。
2.3.3 吻合度
利用正确率判断模型预测值与实际观测值的吻合度,如式(7)所示
(7)
式中:f11与f22为观测值与预测值一致的样本数;f12与f21为观测值与预测值不一致的样本数;p*为模型判断正确样本的比例,其值越接近100%模型的预测效果就越好。
3 深圳市接送行为分析
3.1 变量选择
在对调查数据统计分析的基础上,结合已有研究,初步筛选13个影响因素作为模型的自变量纳入到模型中,主要包括距离[9-10]、学生自身因素(包括学生的年龄、学生的性别、学生课外班情况、学生寄宿情况)、父母影响因素(父母的受教育程度、父母的工作状态、父母的职业水平)以及家庭影响因素(家与学校距离、家庭社区安全、家庭年平均收入)等[11-16]。
3.2 变量赋值
由于学生的寄宿情况、父母的工作状态、父母的职业水平变量属性之间没有明显的等级关系,因此赋值方法会对显著性和参数估计产生影响。针对上述变量分别采取简单赋值法和哑变量法,对两种方法下的SPSS计算机软件的输出结果进行比对。选择结果更优一组的变量赋值方法,得到最优的变量系数,求解模型,其余变量均采用简单赋值方法。借助SPSS计算机数据统计分析软件,对调查数据及二项Logistic回归分析,获取各变量相应的系数取值。
3.3 模型标定
基于数据源的统计分析,利用SPSS计算机软件对变量进行筛选,剔除对接送行为没有显著性影响的因素,如性别、学生课外班情况、寄宿情况、父母受教育程度、父亲工作状态、父母职业水平等,保留对接送行为有显著影响的因素,主要包括学生的年龄、母亲的工作状态、家与学校距离、小区安全程度、家庭年平均收入等。选择对接送行为有显著影响的5个因素进行模型标定,标定结果如表2所示。
根据表3模型的显著性及拟合优度表可知,模型拟合优度为0.631,说明所选变量不能包含影响接送行为的全部显著影响因素,但目前模型的正确率为85.2%,可满足分析要求,研究探索更多相关因素可有效提高模型的拟合优度。
3.4 模型结果分析
模型可定量描述上学接送概率模型中各因素素的作用关系,对表2的模型进行分析,反应趋势与数据源统计分析结果之间的关系为以下5个方面。
表2 接送概率模型标定结果
表3 模型显著性及拟合优度
1)年龄变量的回归系数为-0.889(小于0),比值比为0.411,说明年龄变量每增加1岁,模型结果接送概率会下降41.1%。
2)母亲工作状态变量的回归系数为-0.345(小于0),比值比为0.708,说明母亲的工作状态非自由程度每增加一个等级,模型结果接送概率会下降70.8%。
3)家与学校距离变量的回归系数为0.067(大于0),比值比为0.506,说明距离变量每增加1km,模型接送行为的发生概率会增加0.5倍。
4)小区安全状况变量的回归系数为-0.349(小于0),比值比为0.706,说明小区安全状况每增加一个等级,模型结果的接送概率会下降70.6%。
5)家庭年平均收入变量的回归系数为0.336(大于0),比值比为1.399,说明家庭年平均收入每增加一个等级,模型接送行为的发生概率会增加1.4倍。
4 结 论
二项Logistic模型可定量描述各相关因素在学生接送行为中的作用关系,获取各因素与接送概率之间的关系。本文以调查问卷的形式获取数据,建立学生上下学接送的概率模型,并运用2015年深圳市中小学生接送调查数据进行实例分析。
结果表明,对接送行为有显著影响的因素为:学生的年龄、母亲的工作状态、家与学校距离、小区安全程度、家庭年平均收入;随着学生年龄的增加,学生独立性增强、陪同比例减少;母亲的工作自由度越大,接送概率越大;家庭与学校距离的增加会使得陪同概率增加;家庭社区安全度越差,家长考虑到孩子安全问题,接送比例越高;由于家庭收入越高陪同比例越大,因此,高收入家庭为确保孩子的安全出行,愿意支付专车接送费用;高收入家庭小汽车拥有率高,接送孩子上下学的概率更大。