APP下载

纽约出租车出行状况调查

2018-05-14李少泉

今日财富 2018年25期
关键词:线性上车神经网络

李少泉

基于纽约2016年1-6月出租车出行记录,分析了纽约出租车行驶数据,探究出租车每次行程的出行时间与出租车所在公司、乘客人数、上车日期、是否周末以及行驶距离之间的关系。

描述性分析部分,首先基于数据进行统计,计算出平均每天出租车出行时间、平均行驶路程、出行高峰期等数据特点,其次利用Arcgis软件,将所有出租车上车下车地点画在纽约市地图上,研究人们送别或迎接亲朋好友的习惯。

对于出租车出行时间的预测,本文首先使用了多元线性回归模型,再利用向前向后逐步回归,之后引入主成分分析法,利用六个主成分回归新的线性模型,于是进一步改进使用神经网络拟合,分别建立了Levenberg模型、贝叶斯模型以及量化梯度下降算法,分别都建立了有十个隐含层的神经网络模型,效果有较大改善,平均绝对误差分别为:286s,281s,293s。

一、数据来源及说明

数据主要来源于机器学习竞赛网站kaggle,分析了2016年1月-6月共计145万条纽约出租车数据。

具体如下表:

自变量:公司、开车月份、开车日期、开车几点钟、乘客数、上车经度、上车纬度、下车经度、下车纬度。

应变量:行驶时长。

二、描述性分析

该部分主要是对数据进行简单分析处理。将145万条数据进行统计后发现,纽约出租车每天出行平均时间为2136小时,平均载客行驶直线距离为23900公里。

曼哈顿的出租车非常密集,几乎占纽约出租车上下车的百分之九十。 注意到地图的右下角出租车也较为密集,发现该地点为纽约最大的国际机场:肯尼迪国际机场。挑出该地的数据进行分析。

找出飛机场的经纬度,将所有出租车的经纬度挑出与之计算距离,小于5公里定义为在飞机场停车的人们。

发现,目的地是飞机场的出租车明显少于出发地是飞机场的出租车。于是我们提出疑问,是否人们更倾向于使用使用私家车送别亲朋好友,这可以是后续的研究方向。

再之后研究了工作日与周末出租车的运行情况。发现周末出租车凌晨发车辆明显高于工作日,甚至周末0点时出租车出发时间为全天最高,说明纽约周末夜生活很丰富。

三、数据建模

首先直接利用多元线性回归,方程为:

得到如下结果,除了公司、乘客数以外,其他都较为显著,模型整体p值也较小。

但返回验证后,平均绝对误差为340,较大,该模型效果一般。

用向前向后逐步回归后,得到方程为

计算后平均绝对误差也为340,效果未得到改善。

再建立主成分分析线性模型。

方程为:

计算后平均绝对误差为340,效果也未得到改善。

四、模型改进

经过研究认为,出租车行驶时间与各个自变量之间线性关系不强,导致误差较大。又因为神经网络模型可以很好的回归定量数据,于是想到运用神经网络进行改进。

主要运用了matlab中的神经网络拟合工具箱,分别使用Levenberg模型,贝叶斯模型以及量化梯度下降算法,都建立了具有10个隐含层的神经网络模型。

结果如下表:

五、未来研究方向

虽然最后使用的神经网络三种算法已经明显改进了算法,但是由于使用的是matlab工具包,无法对模型细节进行更多调节,之后可以尝试用python进行算法的详细构建。(作者单位为北京化工大学)

猜你喜欢

线性上车神经网络
基于人工智能LSTM循环神经网络的学习成绩预测
基于图像处理与卷积神经网络的零件识别
基于自适应神经网络的电网稳定性预测
关于非齐次线性微分方程的一个证明
A Study of Code-Switching in the Series Films of Rush Hour
非齐次线性微分方程的常数变易法
线性耳饰
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
探究向量的线性、坐标运算
防晕车