纽约出租车出行状况调查
2018-05-14李少泉
李少泉
基于纽约2016年1-6月出租车出行记录,分析了纽约出租车行驶数据,探究出租车每次行程的出行时间与出租车所在公司、乘客人数、上车日期、是否周末以及行驶距离之间的关系。
描述性分析部分,首先基于数据进行统计,计算出平均每天出租车出行时间、平均行驶路程、出行高峰期等数据特点,其次利用Arcgis软件,将所有出租车上车下车地点画在纽约市地图上,研究人们送别或迎接亲朋好友的习惯。
对于出租车出行时间的预测,本文首先使用了多元线性回归模型,再利用向前向后逐步回归,之后引入主成分分析法,利用六个主成分回归新的线性模型,于是进一步改进使用神经网络拟合,分别建立了Levenberg模型、贝叶斯模型以及量化梯度下降算法,分别都建立了有十个隐含层的神经网络模型,效果有较大改善,平均绝对误差分别为:286s,281s,293s。
一、数据来源及说明
数据主要来源于机器学习竞赛网站kaggle,分析了2016年1月-6月共计145万条纽约出租车数据。
具体如下表:
自变量:公司、开车月份、开车日期、开车几点钟、乘客数、上车经度、上车纬度、下车经度、下车纬度。
应变量:行驶时长。
二、描述性分析
该部分主要是对数据进行简单分析处理。将145万条数据进行统计后发现,纽约出租车每天出行平均时间为2136小时,平均载客行驶直线距离为23900公里。
曼哈顿的出租车非常密集,几乎占纽约出租车上下车的百分之九十。 注意到地图的右下角出租车也较为密集,发现该地点为纽约最大的国际机场:肯尼迪国际机场。挑出该地的数据进行分析。
找出飛机场的经纬度,将所有出租车的经纬度挑出与之计算距离,小于5公里定义为在飞机场停车的人们。
发现,目的地是飞机场的出租车明显少于出发地是飞机场的出租车。于是我们提出疑问,是否人们更倾向于使用使用私家车送别亲朋好友,这可以是后续的研究方向。
再之后研究了工作日与周末出租车的运行情况。发现周末出租车凌晨发车辆明显高于工作日,甚至周末0点时出租车出发时间为全天最高,说明纽约周末夜生活很丰富。
三、数据建模
首先直接利用多元线性回归,方程为:
得到如下结果,除了公司、乘客数以外,其他都较为显著,模型整体p值也较小。
但返回验证后,平均绝对误差为340,较大,该模型效果一般。
用向前向后逐步回归后,得到方程为
计算后平均绝对误差也为340,效果未得到改善。
再建立主成分分析线性模型。
方程为:
计算后平均绝对误差为340,效果也未得到改善。
四、模型改进
经过研究认为,出租车行驶时间与各个自变量之间线性关系不强,导致误差较大。又因为神经网络模型可以很好的回归定量数据,于是想到运用神经网络进行改进。
主要运用了matlab中的神经网络拟合工具箱,分别使用Levenberg模型,贝叶斯模型以及量化梯度下降算法,都建立了具有10个隐含层的神经网络模型。
结果如下表:
五、未来研究方向
虽然最后使用的神经网络三种算法已经明显改进了算法,但是由于使用的是matlab工具包,无法对模型细节进行更多调节,之后可以尝试用python进行算法的详细构建。(作者单位为北京化工大学)