APP下载

基于高斯混合聚类模型的公交出行特征分析

2019-08-23黄艳国韩亮张硕许伦辉

现代电子技术 2019年16期
关键词:数据采集聚类分析

黄艳国 韩亮 张硕 许伦辉

摘  要: 针对公交出行特征的传统数据分析方法人工成本大的问题,提出一种基于高斯混合聚类模型的公交出行特征分析方法。以公交IC卡刷卡数据、公交运行GPS数据及静态站点数据为基础,建立高斯混合聚类模型,对比节假日与通勤日公交出行特征差异。最后以深圳市某路公交为实例,仿真结果表明,节假日与通勤日公交出行在高峰时段分布与持续时间上具有显著差异,验证了高斯混合聚类模型在交通数据分析领域中的有效性,对公交运营与调度优化有一定的借鉴意义。

关键词: 公交出行; 出行特征; 高斯混合聚类模型; 数据采集; 模型验证; 聚类分析

中图分类号: TN919?34; U491.1+7                   文献标识码: A                   文章编号: 1004?373X(2019)16?0174?05

0  引  言

公交作为地面上主要的公共交通方式,在分担城市交通压力方面不可或缺。物联网等技术的发展,使交通数据呈现4V特征,传统的数据分析方法在处理这些海量数据时,往往会出现处理速度慢、精度低、人工成本大的问题。为应对这种情况,专家学者开始对大数据技术进行深入的研究与探讨,与它相关的各种关键技术也都随着研究的深入日渐成熟。通过这些关键技术,给公交的相关研究方向提供了便利,公交出行特征分析就是其中之一。随着公交都市的不断推进,对公交出行特征研究取得了不少成果。如文献[1?2]采用问卷调查的形式采集居民出行数据并建立公交出行预测模型;文献[3?4]利用乘客上下公交产生的刷卡数据分析公交出行行为;文献[5?6]通过建立公交选择行为模型,对比分析公共交通与非公共交通出行行为差异;随着部分城市快速公交专用通道的建设,文献[7?8]重点对快速公交的出行特征进行分析;不少学者也将近年来比较热门的大数据技术与公交出行特征结合分析,文献[9?10]基于大数据与云计算平台对海量的公交OD数据进行采集与分析,较为准确且高效地推算出公交乘客上下车站点。

但多数研究主要集中于公交出行特征的整体性分析,对不同影响因素下,如节假日与通勤日公交出行特征的差异性分析较为缺乏。本文使用高斯混合聚类算法对节假日与通勤日的公交出行特征进行差异化分析,以求更充分地分析公交出行特征。

1  数据采集与预处理

1.1  数据采集

本文使用的数据集包括公交IC卡数据、公交运行GPS数据和静态站点数据。公交IC卡数据记录的信息包括ID卡号、时间日期、车辆编号等,不过由于公交支付方式的多样化,导致IC卡数据不能涵盖所有乘客的出行信息。为避免信息的丢失与分析结果的片面性,本文加入公交GPS数据作为补充,静态站点数据的采集则方便了GPS数据的匹配。

1.2  数据预处理

因为数据源具有多样性,以及由于干扰、冗余和一致性因素的影响的数据集具有不同的质量,所以在大数据系统中需要数据预处理技术提高数据的质量[11]。预处理步骤包括数据清洗与数据融合。数据清洗包括价值信息筛选、统一格式、错误数据清洗、缺失数据。

1) 价值信息筛选。原始数据信息驳杂,只需将需要的字段数据筛选出来。经筛选后,IC卡数据所保留的字段包含ID卡号、刷卡时间、车辆编号、线路编号;公交GPS数据所保留的字段包含经纬度、车辆编号、线路编号、方向、车速、信号时间;静态站点数据保留字段站点经纬度、站点编号、站间距离。

2) 统一格式。GPS数据的储存一般经过加密,需对相关字段的格式进行统一,最终得到结果如表1所示。

3) 错误数据清洗。错误数据也包括重复数据,错误数据可通过设置阈值的方式进行筛选剔除,重复数据则是由于系统故障导致数据重复传输,使用SQL数据库语言对数据进行唯一性筛选。

4) 缺失数据一般是信号被遮挡或设备故障导致,由于缺失的数据可能对数据的特征有着重要的描述作用,直接删除会影响数据的分析结果。本文采用TDI算法[12](基于塔克分解的插补算法)对缺失数据进行估算还原,算法描述如下:

輸入:[A](丢失的数据),[w](非负权重),公差[ε], 最大迭代次数[kmax];

输出:估计值[A′];

初始化正交因子矩阵([X0,Y0,Z0]);

For [k=0,1,2,…,kmax] do:

计算[γ=B2],[B=w?A];                        //[B]为三阶张量

计算[C=w?(S×1X×2Y×3Z)];                      //[S]为核心张量

do

[f=0.5γ-B,C+0.5C2];

[wk=gradF(xk)];

If [B-Cw/Bw<ε],then break

End for

计算估计值[A′=Sk×1Xk×2Yk×3Zk]

数据融合是获取到的IC卡数据和GPS数据存在相同字段,将两组数据按照相同的字段进行融合得到统一数据源。

2  公交出行时空特征分析

本文以2018年3月20日—4月12日深圳113路公交上行线(长岭东总站—蛇口总站)运行数据为例,探究公交出行特征。113路公交主要运行区域位于深圳深南大道,深南大道是深圳一條重要的主干道,为确保数据更具有代表性,选取位于深南大道的运行区间(门诊部②—深大本门②)为研究范围。主要数据集经清洗后得到公交GPS数据63 430条、IC卡数据154 231条,其中节假日数据包括公交GPS数据7 360条、IC卡数据12 357条。

2.1  公交出行量时间分布

为了研究公交出行时间域的分布情况,将时间进行离散化,即将6:00—22:00共16 h以15 min为间隔进行划分,记为[i],[i∈{0,1,2,…,64}]。按照IC卡的刷卡时间标记所处时间段,按照日期分为节假日、通勤日、周末三种类型,记为[j],[j∈节假日,通勤日,周末]。则每种类型在一天各个时段内的公交平均出行量表示为:

[Kji=j=1DjMjilDj] (1)

式中:[Mjil]为[j]类型第[l]天第[i]时段的公交出行量;[Dj]为[j]类型发生的天数;[l={1,2,…,Dj}]。

当日公交出行总量为:

[Kj=i=064Kji] (2)

各时段出行比例为:

[Nji=KjiKj×100 %] (3)

最终得到三种类型下分时段公交出行量占当天总出行量的比例,如图1所示。

从图1可看出,节假日乘客公交出行行为主要集中在上午,早高峰时段为9:00—9:30,晚高峰时段集中在18:00—18:30;通勤日的公交出行行为在一天内分布较为均匀,早高峰要比节假日的早高峰提前45 min左右,晚高峰出现时段与节假日基本一致,但持续时间较节假日要长30 min左右;相比于节假日,周末公交出行的差异性较小,总体趋势较为相近,差异主要是早高峰比节假日要早1 h左右,晚高峰晚15 min左右且持续时间较短。

2.2  公交出行量站点分布

公交的运行线路所经过的各个站点,因为地理位置的不同,所具有的载客特征也不同。本文对每个站点的公交出行量进行统计,得到该站点出行量占全站点总出行量比例,结果如图2所示。

由图2可以看出,部分站点的乘客出行量在三种类型影响下存在一定的差异性,如第4站点在通勤日的乘客出行比例最高,节假日的出行比例最低;而第17站点节假日出行比例最高,通勤日出行比例最低。

图2  公交出行量比例随站点分布

Fig. 2  Distribution of bus travel volume

proportion with its station location

3  公交出行特征聚类分析

数据聚类分析是寻找数据之间一种内在结构的技术,可以将全体数据按相似的属性分为不同的簇类。本文通过对数据进行聚类分析,探究公交出行的独特属性。

目前,聚类分析中常用的分析算法有Apriori算法[13]、神经网络算法、DBSCAN算法[14]、遗传算法、K?means算法等,但在对交通数据的分析中发现,交通数据类数据分布具有一定的高斯分布。因此本文引入高斯混合模型聚类算法[15](Gaussian Mixture Model,GMM)作为数据聚类分析算法。

3.1  高斯混合聚类模型

假设一天各时段公交出行量为[xi](i=1,2,…,65),则高斯混合模型可表示为:

[p(x)=k=1KπkN(xkμk,Σk)] (4)

高斯混合模型中有三个参数需要估计,分别为[π],[μ]和[Σ],式(4)可化为:

[p(xπ,μ,Σ)=k=1KπkN(xμk,Σk)] (5)

最常用的参数估计算法是最大似然法(EM)。

算法步骤如下:

1) 指定[π],[μ]和[Σ]的初始值。

2) 计算后验概率[γ(znk)]:

[γ(znk)=πkN(x|μk,Σk)j=1KπjN(x|μj,Σj)] (6)

3) 求解[μk]的最大似然函数:

[μk=1Nkn=1Nγ(znk)xn] (7)

4) 求[Σk]的最大似然值:

[Σk=1Nkn=1Nγ(znk)(xn-μk)(xn-μk)T] (8)

5) 求解[πk]的最大似然函数

[πk=NkN] (9)

6) 循环重复计算步骤2)~5),直至算法收敛。

3.2  分析结果

本文通过Matlab软件平台,对节假日和通勤日一天各时段公交出行量进行聚类仿真实验。仿真结果如图3、图4所示。

图3  节假日公交出行量聚类

Fig. 3  Clustering of bus trip volume on holidays

图4  通勤日公交出行量聚类

Fig. 4  Clustering of bus trip volume on commuting days

通过比较AIC(赤池信息量)准则,最终将节假日数据分为三个簇类,AIC最小值为935.3,通勤日数据也分为三个簇类,AIC最小值为910.9。

对比上述的聚类结果图,可知节假日与通勤日一天各时段公交出行量在聚类时,都被分为三个簇类,这三类分别代表早高峰、午平峰、晚高峰。但从结果来看,节假日与通勤日的出行时段差异十分明显,主要差异表现在:节假日公交出行早晚高峰出现较晚且持续时间较长,午平峰较短且整体趋势处于下降趋势;通勤日公交出行早晚高峰出现较早且持续时间更短,午平峰一直保持持续增长的趋势直到晚高峰到来。

3.3  算法对比

为凸显GMM算法的有效性,现与K?means聚类算法结果进行比较,以通勤日数据为例,K?means的仿真结果如图5所示。结果显示K?means也将数据分为三个簇类,不过分类依据是根据出行量,分类的差异性较大且特征不够明显。由此可见,GMM算法在聚类结果的准确性以及鲁棒性方面要优于K?means算法,证明了GMM算法在本文的数据挖掘方面的有效性。

4  结  论

本文基于公交IC卡数据、公交GPS数据、静态站点数据,以深圳113路公交为例,通过高斯混合聚类模型对公交出行的时空分布特征进行了相关研究。研究结果显示,节假日与通勤日公交出行具有鲜明的特征差异,证明高斯混合聚类模型在交通数据分析领域的有效性,对相关公交调度优化研究有一定的参考价值。但因受限于数据量,本文的分析结果可能存在一定的误差,后续增加数据量之后再进行更深入的研究。

参考文献

[1] 刘崭,高璇.基于非集计模型的公交出行选择预测模型[J].公路,2010(5):135?139.

LIU Zhan, GAO Xuan. Bus travel prediction model based on non?aggregate model [J]. Highway, 2010(5): 135?139.

[2] 周雪梅,张显尊,杨晓光.基于交通方式选择的公交出行需求预测[J].同济大学学报(自然科学版),2007,35(12):1627?1631.

ZHOU Xuemei, ZHANG Xianzun, YANG Xiaoguang. Travel mode choice?based prediction of public transit demand [J]. Journal of Tongji University (Natural Science), 2007, 35(12): 1627?1631.

[3] 龙瀛,张宇,崔承印.利用公交刷卡数据分析北京职住关系和通勤出行[J].地理学报,2012,67(10):1339?1352.

LONG Ying, ZHANG Yu, CUI Chengyin. Identifying commuting pattern of Beijing using bus smart card data [J]. Acta geographica sinica, 2012, 67(10): 1339?1352.

[4] ZHOU Y Y, YAO L, JIANG Y, et al. GIS?based commute analysis using smart card data: a case study of multi?mode public transport for smart city [C]// Proceedings of 3rd International Conference on Geo?Informatics in Resource Management and Sustainable Ecosystem. Wuhan: Springer, 2015: 83?94.

[5] 殷焕焕,武平,赵红征.城市公共交通出行方式选择行为研究[J].武汉理工大学学报(交通科学与工程版),2013,37(2): 352?356.

YIN Huanhuan, WU Ping, ZHAO Hongzheng. Study of public transit travel mode choice behavior [J]. Journal of Wuhan University of Technology (Transportation science & engineering), 2013, 37(2): 352?356.

[6] 严海,王熙蕊,梁文博,等.基于结构方程模型的通勤交通方式选择[J].北京工业大学学报,2015,41(4):590?596.

YAN Hai, WANG Xirui, LIANG Wenbo, et al. Commute traffic mode choice based on structural equation model [J]. Journal of Beijing University of Technology, 2015, 41(4): 590?596.

[7] 蔡志理,邴其春.同线路BRT与常规公交速度特性对比分析[J].武汉理工大学学报(交通科学与工程版),2012,36(5): 916?921.

CAI Zhili, BING Qichun. Comparative analysis on speed characteristics between BRT and normal bus transit on same line [J]. Wuhan University of Technology (Transportation science & engineering), 2012, 36(5): 916?921.

[8] 武钧,霍月英.快速公交乘客满意度影响因素的定量研究[J].计算机工程与应用,2015,51(21):219?224.

WU Jun, HUO Yueying. Quantitative study on effect factors of passenger satisfaction for BRT [J]. Computer engineering and applications, 2015, 51(21): 219?224.

[9] 邬群勇,苏克云,邹智杰.基于MapReduce的海量公交乘客OD并行推算方法[J].地球信息科学学报2018(5):647?655.

WU Qunyong, SU Keyun, ZOU Zhijie. A MapReduce?based method for parallel calculation of bus passenger origin and destination from massive transit data [J]. Journal of geo?information science, 2018(5): 647?655.

[10] 孙慈嘉,李嘉伟,凌兴宏.基于云计算的公交OD矩阵构建方法[J].江苏大学学报(自然科学版),2016,37(4):456?461.

SUN Cijia, LI Jiawei, LING Xinghong. Estimation of bus origin?destination matrix based on cloud computing [J]. Journal of Jiangsu University (Natural science edition), 2016, 37(4): 456?461.

[11] 李学龙,龚海刚.大数据系统综述[J].中国科学:信息科学,2015,45(1):1?44.

LI Xuelong, GONG Haigang. A Survey on big data systems [J]. Scientia sinica informationis, 2015, 45(1): 1?44.

[12] TAN H, FENG G, FENG J, et al. A tensor?based method for missing traffic data completion [J]. Transportation research, Part C: emerging technologies, 2013, 28: 15?27.

[13] 张鑫,陈燕,李桃迎.基于 Apriori算法的经济指标关联分析[J].科学技术与工程,2016,16(8):233?237.

ZHANG Xin, CHEN Yan, LI Taoying. The associational analysis of economic indexes based on Apriori algorithm [J]. Science technology and engineering, 2016, 16(8): 233?237.

[14] 姜洪权,王岗,高建民,等.一种适用于高维非线性特征数据的聚类算法及应用[J].西安交通大学学报,2017(12):1?8.

JIANG Hongquan, WANG Gang, GAO Jianmin, et al. A clustering algorithm for high?dimensional nonlinear feature data with applications [J]. Journal of Xian Jiaotong University, 2017(12): 1?8.

[15] 高菲菲.基于Gabor特征分解的高斯混合非线性滤波算法[J].科技通报,2015,31(12):88?90.

GAO Feifei. Gauss hybrid nonlinear filter design based on Gabor feature decomposition [J]. Bulletin of science and technology, 2015, 31(12): 88?90.

猜你喜欢

数据采集聚类分析
农村居民家庭人均生活消费支出分析
CS5463在植栽用电子镇流器老化监控系统中的应用
大数据时代高校数据管理的思考
基于广播模式的数据实时采集与处理系统
通用Web表单数据采集系统的设计与实现
基于省会城市经济发展程度的实证分析
基于开源系统的综合业务数据采集系统的开发研究
基于聚类分析的互联网广告投放研究
“县级供电企业生产经营统计一套”表辅助决策模式研究