基于个体出行图谱的公共交通通勤行为辨别方法研究
2018-04-26翁剑成林鹏飞
梁 泉,翁剑成*,林鹏飞,周 伟,荣 建
(1.北京工业大学北京市交通工程重点实验室,北京100124;2.中华人民共和国交通运输部,北京100736)
0 引言
2016年,北京市工作日日均公共交通客运量达2 163.01万人次,通勤出行作为公共交通服务的主体,占公共交通出行总量的66.3%[1].通勤与非通勤人群出行特征存在显著差异,有效分析公共交通通勤乘客出行需求,准确把握通勤乘客出行规律,对于合理引导客流出行具有重要意义.其中,实现公共交通乘客类型的准确鉴别是深度挖掘通勤乘客出行需求和规律的前提.
当前研究主要基于通勤出行规律分析实施公共交通通勤乘客辨别,通勤出行特征包括出行往返性、出行时间规律性、模式选择固定性、线路选择多样性等[2-3].研究能够鉴别通勤特性显著的乘客,但无法准确归类行为特征不明显的通勤乘客.部分研究采用问卷调查或走访调研的方式获取乘客类别属性[4-5],但成本高、样本有限,无法实现全样本乘客行为分类.
随着互联网+等新兴技术的发展,公交系统智能化水平极大提升,汇聚形成了多源公共交通数据,为准确实现公共交通出行者分类提供了丰富的数据基础.人工智能和机器学习的横向发展和纵向延伸,也为数据驱动下的通勤乘客判别提供了方法支撑.目前少量研究采用决策树[6]、SVM[7]等方法开展通勤人群辨识,但模型的输入层特征变量考虑不全面,结构与参数解析不深入,适用性有待提高.
由于人工神经网络能实现输入到输出的高度非线性映射,具有自学习、自组织、较好容错性和优良非线性逼近能力,可以较好地解决分类问题;同时,实际应用中80%以上的人工神经网络模型采用误差反传算法(Error Back-Propagation Algorithm,BP)或其变形形式的模型结构[8].因此,本文旨在构建基于BP神经网络的公共交通通勤行为分类模型,实现乘客类别准确识别,为分类别多层次分析乘客出行需求,提高公共交通精细化服务水平奠定支撑.
1 数据基础
通过公共交通多源数据采集、处理与关联匹配,提取反映出行全过程的出行链,为分类模型构建奠定支撑.
1.1 多源数据采集与处理
依托北京城市交通协同创新中心和综合交通协同运行与超级计算应用技术协同创新平台,获取公共交通刷卡与静态线站数据,包括地面公交IC卡刷卡数据、轨道AFC系统数据、公共自行车刷卡数据,以及地面公交、轨道交通和公共自行车线站数据.
(1)公共交通刷卡数据.
面向乘客出行信息提取需求,提取数据有效字段如表1所示.
表1 公共交通多源数据有效字段Table 1 Fields of public transport multi-mode data
(2)公共交通静态线站数据.
如表1所示,地面公交与轨道交通静态线站数据主要记录每条线路双向包含的所有弧段与站点信息.公共自行车静态数据主要记录租/还车站点及出行距离等信息.
1.2 数据关联匹配
公共交通多源数据关联匹配主要包括刷卡数据整合和出行链提取.
(1)刷卡数据整合.
为再现个体出行过程,按照用户卡号和上车时间排序,分别将公交线路号和上下车时间、轨道进出站线路号及时间、公共自行车租/还车时间对应数据字段进行整合.
(2)出行链提取.
在多源数据整合的基础上,通过换乘点时间与空间阈值判别提取个体出行链,有效获得起讫点、行程时间与距离等出行信息,主要字段与示意数据如表2所示.
2 公共交通乘客分类模型构建
基于出行链数据,以3层BP网络为基础,以分类结果误差为控制目标,测试获取模型最佳结构与参数,形成公共交通通勤乘客行为判别模型.
2.1 结构设计
(1)输入层设计.
模型输入层为公共交通行为分类特征变量,本文通过引入知识图谱表征特征变量,提取个体出行特征指标.知识图谱作为特征可视化表达方式,以符号的形式描述对象间的概念及相互关系,并通过关系相互联结,构成网状知识结构,能够实现特征的直观表达[9].本文基于北京市2017年4月公共交通出行链数据,绘制个体出行知识图谱,实现出行行为特征指标准确提取,具体过程为:
①个体出行空间位置聚类.采用系统聚类方法,按照乘客出行起讫点经纬度数据聚类,将乘客起讫点空间位置分为不同的OD簇.
②个体出行时间分类.在空间位置聚类的基础上,将每组OD簇按照出发与终到时间细化分类.将5:00-23:00以2 h为间隔进行划分.
③实际路径聚类.基于以上步骤,结合出行模式,根据乘客实际路径距离与出行方向进一步聚类.每类时间簇细化为不同的路径聚类簇.
④个体出行知识图谱构建.采用多层规划理论,将空间位置、出行时间与实际路径分别作为第1、2、3层,构建个体出行知识图谱.各节点分别表示每层行为的发生频率.
按照上述步骤,绘制乘客A的出行图谱如图1所示.
综合乘客出行时空总体特性、出发时间、路径选择与出行稳定程度,基于个体出行知识图谱,分层提取7项面向BP网络的输入指标,如表3所示.其中,根据图谱第1层,提取特性变量:出行天数、出行次数、OD分类数和出行往返性;根据图谱第2层,提取集中出发时间;根据图谱第3层,提取路径唯一性.在此基础上,提出综合指标出行空间均衡度.
前6项指标通过图谱可直接提取,出行空间均衡度需结合图谱计算得到,公式为
式中:A为出行空间均衡度;i为第i个活动点;m为不同活动点总数;N为出行总天数;αi为决策变量.
随机选取6名乘客,计算基于个体出行图谱的特征变量如表4所示.
表3 特征变量及描述Table 3 Feature variables and descriptions
表4 乘客图谱特征变量示意Table 4 Examples of graph feature based variables of individual passengers
(2)输出层设计.
BP模型输出结果为公共交通乘客类别属性,即通勤或非通勤者.通过开展出行行为(RP)调查,获取乘客出行行为信息.一方面,获得乘客自身行为特性;另一方面,通过调查获得的IC卡号与刷卡数据匹配,提取个体乘客1个月的出行链,作为研究数据基础.
调查由调查员面对面问询,现场完成问卷填写,包含乘客类别(通勤者、非通勤者)、出行特征(出行天数、上下班/上下学出行次数和休闲类出行次数)、个人属性(性别、年龄、职业、受教育程度、月收入和家庭小汽车数量).其中,乘客类别主要通过出行目的界定(上下班、上下学、购物、休闲、接送孩子等);将乘客客观出行特征指标与自述类别属性相匹配,共同确定乘客真实类别.
RP调查实施时间为2017年5月10~27日,共计18天;调查时段覆盖早高峰(7:00-9:00)、晚高峰(17:00-19:00)和平峰.调查地点为北京市城区5个地铁站点和3个地面公交站点;调查范围覆盖居住区、商业区与休闲区.调查共收回有效问卷453份.基于刷卡数据关联匹配,获得通勤者问卷147份、非通勤者42份.参照北京市工作日公共交通通勤与非通勤出行量比值(约为1.62)[1],最终选取通勤者问卷68份,非通勤者问卷42份.调查数据统计结果如表5所示.
本文随机选取88名乘客出行数据为训练,22名为验证,输出1为通勤者,输出0为非通勤者.
(3)隐含层节点数选取.
首先,采用式(3)确定隐含层节点数范围[8].
式中:n为隐含层神经元节点数;nin为输入单元数;nout为输出单元数;α为常数,取值介于0~10之间.
由于模型有7个输入单元,1个输出单元,隐含层节点数应为[3,13].每个隐含层节点数对应网络运行10次,遍历测试获得平均分类精度与隐含层神经元节点数关系如图2所示.可知,当神经元节点数为4时,平均分类精度相对最高,因此隐含层最佳神经元节点数为4.
表5 有效样本数据统计结果Table 5 Descriptive statistics of survey data
2.2 参数调整
(1)函数选取.
输入层到中间层的传递函数采用S型正切函数tansig,中间层到输出层采用线性函数purelin.由于不同训练函数的计算速度、收敛速度及迭代次数存在显著差异,本文采用对比测试的方法确定最佳训练函数.选用8种常用训练函数分别训练BP网络10次,各训练函数对应的模型预测误差及训练速度如表6所示.由此确定最佳训练函数为基于弹性梯度下降法的trainrp函数.
图2 平均分类精度与神经元节点数量关系Fig.2 Relationship between average classification accuracy and neuron node number
表6 不同训练函数对应预测误差与训练速度Table 6 Prediction error and training speed corresponding to different training function
(2)学习率选取.
学习率影响网络系统稳定性与训练速度,决定每一次循环训练中的权值变化量.学习率太小,可能造成学习时间较长,收敛速度较慢;学习率太大,容易导致系统不稳定.本文选取网络学习率为0.01[8].
综上,构建了面向公共交通乘客分类的BP神经元网络模型,结构如图3所示.模型输入层为7个特征指标,输出层为乘客行为类别.模型有1个隐含层,隐含层神经元节点数量为4.输入层到中间层的传递函数为tansig,中间层到输出层的传递函数为purelin,训练函数为trainrp,网络学习率为0.01.
图3 公共交通乘客分类BP网络结构Fig.3 BP network structure for public transport passenger classification
2.3 模型验证
模型分类精度采用总体分类精度(OA)与kappa系数(Kappa)共同评估.OA为正确分类个体数与总个体数的比值.Kappa[10]表示被评价分类比完全随机分类产生错误减少的比例.以22名乘客为验证数据,计算不同样本所属类别,统计结果如表7所示.
表7 分类误差统计Table 7 Classification errors statistics
将表7中数据部分看作矩阵,OA和Kappa计算方法为
式中:aii为矩阵中对角元素;N为精度验证样本量;T*j为矩阵第j列和;Ti*为矩阵第i行和.
根据式(4)和式(5)计算得到OA=94.5%,Kappa=0.879.当Kappa值介于0.81~1.00,模型分类精度达到几乎完全一致[10].可知,本文构建的BP神经元网络模型能适用于公共交通乘客分类,具有较高分类精度.
3 结论
基于多源数据关联匹配获得公共交通出行链,通过乘客个体出行知识图谱构建提取出行天数、出行次数、OD分类数、出行往返性、集中出发时间、路径唯一性与出行空间均衡度等7类特征指标,利用RP调查获得乘客类别属性并与出行链匹配.以出行特征指标为输入、乘客类别(通勤或非通勤)为输出,测试获得BP模型最佳结构和参数,构建了基于BP神经元网络的公共交通乘客分类模型.模型OA精度为94.5%,Kappa系数为0.879,实现了公共交通乘客类别的有效鉴别.
本文模型能够准确辨别公共交通通勤乘客,为细化乘客出行需求辨识奠定基础.未来研究将在通勤乘客鉴别的基础上,开展出行稳定性分析,为不同类别乘客制定差别化出行服务模式,如快速公交、定制公交与迷你公交等,为运营管理部门精细化的交通需求调度提供支撑.
参考文献:
[1]北京交通发展研究.2016年北京市交通发展年度报告[R].北京:北京交通发展研究院,2016.[Beijing Municipal Transportation Development Research.Beijing transport annual report of 2016[R].Beijing:Beijing Transport Development Institute,2016.]
[2]王月玥.基于多源数据的公共交通通勤出行特征提取方法研究[D].北京:北京工业大学,2014.[WANG Y Y.Commuting trip characteristics extraction based on public transport multi-source data[D].Beijing:Beijing University of Technology,2014.]
[3]荣建,翁剑成.基于多源数据的公共交通通勤特征提取技术[R].北京工业大学,2014.[RONG J,WENG J C.Public transport commuter characteristics extraction based on multi-source data[R].Beijing University of Technology,2014]
[4]樊海博.基于NestedLogit的小汽车通勤出行转移概率模型研究[D].北京:北京交通大学,2014.[FAN H B.Research on transfer model of car-commuter trip based on nested Logit[D].Beijing:Beijing Jiaotong University,2014.]
[5]SHEN Y,MEI P K,CHAI Y W.Investigating commuting flexibility with GPS data and 3D geovisualization:a case study ofBeijing,China[J].JournalofTransport Geography,2013(32):1-11.
[6]孙世超,庄斌,黄伟.基于机器学习的公交卡数据中通勤人群辨识方法[J].交通工程,2017,17(1):58-64.[SUN S C,ZHUANG B,HUANG W.An approach to the identification of commuters based on machine learning of smartcard data[J].Journal of Transportation Engineering,2017,17(1):58-64]
[7]袁荣亮.公共交通通勤者出行方式选择研究[D].北京:北京工业大学,2016.[YUAN R L.Research on travelmode choice behaviorofpublic transport commuters[D].Beijing:Beijing University of Technology,2016.]
[8]WANG W,ZHANG W,GUO H,et al.A safety-based approaching behavioral model with various driving characteristics[J].Transportation Research PartC:Emerging Technologies,2011(19):1202-1214.
[9]刘峤,李杨,段宏,等.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600.[LIU Q,LI Y,DUAN H,etal.Knowledge graph construction techniques[J].JournalofComputerResearch and Development,2016,53(3):582-600.]
[10]杜华强,范文文.Matlab自组织神经网络在遥感图像分类中的应用[J].东北林业大学学报,2003,32(4):51-53.[DU H Q,FAN W W.The application of selforganizing neural network to remote sensing image classification based on Matlab[J].Journal of Northeast Forestry University,2003,32(4):51-53.]