面向分布式EMDN-GRU模型的乘客等待时间预测
2020-07-09白宇郑永玲蒋顺英杨楠
白宇 郑永玲 蒋顺英 杨楠
摘 要:面对移动轨迹大数据难以使用传统数据处理平台进行处理,乘客等待时间难以预测,以及GPS数据无法明确给出车辆行驶方向的问题。文章提出一种基于Spark的坐标轴车辆方向判别法,并建立了EMDN-GRU模型对乘客等待时间进行预测,并且与LSTM、GRU、EMD-LSTM与EMD-GRU进行比较。案例研究表明:EMDN-GRU模型明显优于比较模型,其中MAPE最少提高了8.183%,最大提高了25.729%;在乘客等待时间预测方面具有良好的效果。
关键词:等待时间;EMD算法;GRU;Spark;车辆方向
中图分类号:O211.61;TP301.6 文献标识码:A 文章编号:2096-4706(2020)21-0059-08
Passenger Waiting Time Prediction for Distributed EMDN-GRU Model
BAI Yu,ZHENG Yongling,JIANG Shunying,YANG Nan
(School of Data Science and Information Engineering,Guizhou Minzu University,Guiyang 550025,China)
Abstract:Facing with the problems that it is difficult to use traditional data processing platforms to process big data of moving trajectories,it is difficult to predict the waiting time of passengers,and GPS data cannot clearly give the vehicle driving direction. The article proposes a method for judging the vehicle direction of the coordinate axis based on Spark,and establishes the EMDN-GRU model to predict passenger waiting time,and compares it with LSTM,GRU,EMD-LSTM and EMD-GRU. The case study shows that the EMDN-GRU model is significantly better than the comparison model. The MAPE is increased by at least 8.183% and the largest by 25.729%;it has a good effect on passenger waiting time prediction.
Keywords:waiting time;EMD algorithm;GRU;Spark;vehicle direction
0 引 言
随着信息技术的发展,传统数据分析平台难以对如今的数据量进行分析[1,2]。大数据已成为科技界、产业界、政府部门高度关注的焦点,而移动轨迹大数据分析正成为城市计算、智慧城市领域的研究热点[3,4]。当前,严峻的交通状况影响着乘客出行时间规划,如何为乘客提供精准信息以便于乘客出行,已成智慧城市的研究热点之一。
乘客等待时间预测在交通领域方面起着重要作用。然而时间序列一般为非平稳序列,在进行处理与分析中常常难以得到理想结果。因此,可引入经验模态分解(Empirical Mode Decomposition,EMD)算法进行非平稳序列处理,将序列分解为多个本征模函数(IMF)与一个趋势项(Res)[5]。
1 研究背景
乘客等待时间预测吸引着越来越多的国内外学者研究。齐观德等人2012年提出泊松分布对等待时间进行模拟[6];Qi等人于2013年,提出基于非齐次泊松分布的乘客等待时间预测[7];Xu等人提出一种出租车搜寻系统,并将符合系统条件的出租车到达时间作为等待时间[8];Hwang等人求出每个地点的平均等待时间并作为乘客等待时间进行预测[9];Qiu等人结合道路、气候以及泊松过程(NPPCRW)对等待时间进行预测[10];王诏远等人使用经验分布对等待时间进行模拟,并采用增量学习模型对模型进行更新[11]。
然而,对于出租车等待时间的预测研究,基本上都倾向于使用传统统计方法,对神经网络等机器学习方法并未进行深入研究。除此以外,对于等待时间的预测,也有不少学者进行了关于公交车的预测。陆俊天等人通过特征相关性处理数据后,带入门控循环神经网络(GRU)进行公交车时间按预测[12]。Chen等人提出通过使用高斯伯努利的限制玻尔兹曼机,对DBN模型进行构造并对公交车到达时间进行预测[13]。Ma等人提出一种基于路况的SVM||KNN||ANN模型,进行等待时间预测[14]。He等人将公交车路线划为多段式,并基于此提出一种历史平均法以预测公交车到达时间[15]。然而,学者对于公交车等待时间的预测,主要采用分段式方法进行预测,即:将公交路线按站台进行划分,并分别预测时间,再进行相加。尤其是,对于类似出租车乘客等具有一定流动性的乘客而言,虽然有一定的可参考性,但若直接引用,效果并不友好。
时间序列的预测,必然会面对序列的非平稳性问题。Empirical Mode EMD自提出以來,在非线性,非平稳信号的处理中具有良好的效果[16],因此常与一些预测模型结合使用。比如戴昭武等人使用EMD-LSTM[17]预测工程问题中的时间序列;Bian等人使用AR-DWT-EMD模型进行船舶运动短期预测[18];姚洪刚等人使用EMD-LSTM[19]与张可等人PCA-LSTM[20]进行金融方面的预测;Zhao等人使用EMD-LSTM进行网络流量方面的预测[21];Jing等人使用EMD-PSO-SVM算法对安全状况进行预测[22]。以上学者在使用EMD算法与预测模型结合进行实验研究的过程中得到论证:经由EMD算法处理后的序列比未经过处理的原始序列展现出的性能更佳。因此,使用EMD算法进行非平稳,非线性信号处理更有助于提高精度。
综上所述,针对具有乘客的流动性(如:出租车乘客),以及经纬度数据存在的偏差难以对具体的地点进行数据挑选的问题,本文选取一段道路进行乘客等待时间预测研究。
研究过程中,针对数据的缺失情况,本文首先采用零值对缺失值进行补充,以保证程序的正常运行;
其次,数据缺失一般分为以下两种情况:(1)针对缺失数据处于两个有效值中间的情况,取上下两个有效值的均值作为缺失值的填充,替换零值;(2)针对缺失值处于开头或结尾的情况,使用其临近的有效值减去5作为其值得填充,替换缺失值。
最后,得到完整的时间序列。针对乘客等待时间预测:首先,采用EMD算法将时间序列分解为有限个IMF与一个Res;其次,对每一个IMF序列与Res序列进行归一化,将数值映射到[0,1]之间;最后,将EMD算法与归一化方法在循环中不断地使用带有Dropout机制的GRU模型进行结果预测,再将每个序列进行反归一化得到原来的数值,并且求总和,将预测值与实际值进行对比。
作者采用由数据堂提供的2012年11月北京市12 000辆出租车所产生的GPS数据进行研究。对原始GPS数据进行预处理得出等待时间序列。由作者提出一种改进的EMDN-GRU模型(Empirical Mode Decomposition and Normalization for Gated Recurrent Unit)以及一种创新的坐标车辆判别方法。研究过程中,作者实现了双向车道的车辆方向判别,提高了等待时间预测的精度。
2 乘客等待时间预测模型
2.1 数据预处理
在数据预处理中,首先提取出租车GPS轨迹数据(如2012年11月5日),其次判断车辆运行轨迹是否在目标路段区域,之后将数据按相同ID与时间进行排序,并取出相同车牌下的状态连续为(0,1,1)的车辆,再将最后一个状态为1的车辆数据进行保存。最后,将数据按照行进方向进行划分,实现双车道数据分离,并将数据按30分钟为间隔取其出租车到达时间均值作为等待时间。其处理过程如图1所示。
针对数据处理过程中的数据缺失问题,进行以下处理:首先,将确实数据按数值为0进行填充,以确保预处理程序能够顺利运行;其次,针对缺失数据处于两个有效值中间的情况,取上下两个有效值的均值作为缺失值的填充,替换零值;最后,针对缺失值处于开头或结尾的情况,使用其临近的有效值减去5作为其值得填充,替换缺失值。
2.2 模型构建
GRU作为LSTM的变体,既可以解决长期依赖关系的时间问题,也可以解决RNN存在的梯度爆炸和梯度消失的问题,且结构比LSTM简单,且所需参数比LSTM少,训练过程中更易收敛。GRU将忘记门和输入门合成了一个单一的更新门。除此以外,还混合了细胞状态和隐藏状态。其神经网络内部结构如图2所示。
其中,xt为时间序列在t时刻的输入,ht-1为t-1时刻的输出值,与LSTM一样,首先GRU计算更新门(zt)与重置门(rt)的门值,并经过Sigmid函数σ激活。随后rt作用于(xt,ht-1),同样,更新门(zt)的值作用于(xt,ht-1),并且,值经过tanh函数,得到新的 ,而1-门值会作用在ht-1上。W为权重矩阵,σ和tanh为激活函数。则最后GRU的输出可以表示为:
zt=σ(Wz·[ht,xt])
rt=σ(Wr·[ht-1,xt])
=tanh(W·[rt*ht-1,xt])
ht=(1-zt)*ht-1+zt*
神经网络模型中,除了需要确认epoch参数与batch_size外,还需要确定神经网络层数以及每层的神经元个数,batch_size为一次训练时神经网络的读入数据大小。合适的batch_size不仅可以增加梯度下降方向的准确度,且能减小训练震荡,加快收敛。epoch参数为模型训练次数,换言之,epoch参数即在模型不断地根据训练集反复调整权重的过程中,给模型一个终止条件;而神经网络的层数以及每层的神经元个数作为模型的构成部分,直接影响着模型的训练效果。以上参数皆需要在训练前确认数值并输入,通常由实验中进行不断的调试所得,本文中,神经网络的batch_size设置为4,epoch参数设置为180;神经网络层数设置为2,神经元个数设置为432。
EMD依据数据自身的时间尺度特征来进行信号分解,不需要事先预定或强制给定基函数。可将非平稳时间序列分解为有限个IMF。在此过程中,对于本文所对应的非平稳时间序列,EMD分解后的数据序列为:有限个IMF与Res序列。此時对于神经网络层数以及神经元固定的GRU而言,预测精度将大大降低。
基于上述原因,本文对由EMD所得的数值进行归一化处理,将值映射为[0,1]之间,待使用GRU完成每一个序列的预测后,再分别将归一化数值返回为原来的数值,并求和,此时的总和就是我们的最终预测值。EMDN-GRU模型构建过程如图3所示。
EMDN-GRU的构建步骤为:(1)采用EMD算法将得到的时间序列数据分解为有限个IMF序列与Res序列;(2)采用归一化方法将IMF序列与残差序列映射到[0,1]之间,并将每一个归一化后的数据带入GRU模型进行预测;(3)将预测后的数值进行反归一化,并将数值相加,得到最终预测序列。
2.3 模型实现
为了降低预测应用的计算成本和内存消耗,在基于Spark并行处理框架的Hadoop分布式计算平台中实现EMDN-GRU模型,实现乘客等待时间的并行预测。Spark框架下实现EMDN-GRU优化模型,主要包括以下步骤:(1)读取HDFS文件,创建RDD数据集,并按照车辆ID与时间排序;(2)将出租车状态排序为(0,1,1)后,提取最后一个状态为“1”的数据,根据经纬度数据提取出车辆在目标路段的数据;(3)属于目标路段的车辆仅保留GPS时间数据,并将数据按30分钟进行划分;(4)使用下一个时间点的数据减去上一个时间点的数据,并在划分好的时间区域内,将其求均值,得到在该路段每隔30分钟等到一辆出租车的时间;(5)使用EMD算法将得到的时间序列数据分解为IMF序列与Res序列;(6)采用归一化方法将IMF序列与Res序列映射到[0,1]之间;(7)配置参数导入GRU模型,带入上述IMF与Res序列进行预测;(8)将每一个预测值反归一化,并且求其总和,作为最终预测;(9)将最终预测值与真实值进行对比,得出模型评价值。
3 案例研究与结果分析
3.1 实验数据
采用本文使用的真实轨迹数据集。此外,本章选取北京市王府井的一条繁华路段:朝阳门南小街 进行开展研究。GPS轨迹点的密度分布如图4所示。从图中可看到,路段选取主要为双向车道。灰色为第一路段,白色为第二路段 。本文实验数据主要采用第一路段,运用第一路段的历史数据预测未來等待时间。
实验中,将道路划为坐标轴,如图5所示。
假设90°为出租车在道路一上行驶的笔直方向,与假设相对,出租车在道路二上行驶的笔直方向,为270°。当方向为0°时,认为出租车已转方向,准备驶入右边的小路,但此点进行数据预处理时已表明为上客点,如图4所示,因此仍可认为在此点有乘客搭车并且搭车成功,只是之后的前行方向并未在目标道路上,并不影响乘客的等待行为。同理,出租车行驶方向为180°时认为有乘客在此点搭车成功。
总的来说,出租车的车头在一二象限时可认为出租车行驶方向一致。现实中,出租车会在干道上进行超车,靠左行驶以及靠右行驶等变换方向的行为,但车头都不会进行掉头操作,因此在0°~180°内认为出租车在道路一行驶,以坐标轴的象限来说,此时出租车的车头在三四象限。同理,车头在180°~360°内认为出租车在道路二行驶。数据集按照行驶方位的定义划分为两个数据集,一个为道路一的数据集,另一个为道路二的数据集。
道路数据集划分开后,再对时间数据进行划分,首先,将一天的时间按30分钟进行划分;其次,对已划分完毕的30分钟内的时间点进行两两相减,求其时间间隔,最后将时间段内的数据进行求均值操作,作为等待时间数据进行处理。
3.2 评价指标
为了验证所提出的EMDN-GRU模型的准确性,我们将使用平均绝对百分比误差(MAPE),均方根误差(RMSE),平均绝对误差(MAE),与最大误差(ME)对模型的准确性进行评估,上述指标的计算公式分别为:
其中,Xt是由EMDN-GRU当前路段在时间段内的实际值, 为同一时段内当前路段由EMDN-GRU模型得到的预测值,n为预测时间段内总的数据值。
在大多数预测研究中,主要使用MAPE进行模型精确度验证,MAPE值越低,预测精度越高。
3.3 高峰时间段选取
本实验将2012年11月的时间数据分为一整天与早晚高峰期进行预测,对模型精确度进行检测。早晚高峰期时间段从折线图中选取。其中,以时间(Time)为横轴,将时间按小时划分,则04为凌晨四点,16为下午四点,以此类推;以乘客上客数(Pick-up-Number)为纵轴,将乘客在某一地点,一整天的上客数进行直观展示,以此推出乘客高峰期。本文将时间分为工作日与周日。工作日选择11月28日(星期三)与11月20日(星期二)进行展示,如图6所示。
11月28日较于11月20日明显,早高峰时间为08:00~10:00;晚高峰时间为16:00~18:00;11月20日早高峰时间为07:00~10:30;晚高峰时间为16:00~19:00。选取两张图形的共有时间段进行早晚高峰期定义,最终早高峰时间段为08:00~10:00;晚高峰时间段为16:00~18:00。
周末数据则选取11月03日(星期六)与11月25日(星期日)进行展示,如图7所示。
周末与工作日的乘客出行特征显然存在很大的区别,周末的折线图高峰期主要集中在06:00~18:00与06:00~19:00,乘客上客数在此期间下降并不明显且时间间隔短。但是图7(a)中,最后的20:00~22:00有一个小高峰期。图7(b)11月25日则是19:00~22:00,在此时间段内,乘客上客数十分明显为一个高峰期,接近凌晨时的高峰期与现代人生活规律的改变有关。结合以上分析,确认最终周末高峰期为:06:00~18:00与20:00~22:00。
3.4 实验验证与结果分析
3.4.1 周末高峰期预测
我们首先对周末数据进行序列分解,分解后序列的总和如图8所示,由于原始序列为非平稳序列,所以最初寻求极值点时,两点间的数值差额较大,基于此,IMF1序列总体走势较为陡峭。接下来使用原始时间序列减去IMF1序列,再次进行EMD算法,直至没有IMF序列产生为止。为了验证EMD算法得到的序列与初始数据的拟合程度,将由EMD算法所得到的序列进行求和,并与原始时间序列进行拟合,图8为EMD算法所有序列的总和与原始时间序列的拟合情况图。显然,序列的总和与原始数据拟合效果很好,说明并未缺失初始数据。
在接下来的步骤中,使用周末数据进行预测,并且使用11月3日至11月4日的数据预测11月24日至11月25日,使用跨度较大的数据以检验EMDN-GRU模型是否能准确提取出序列的分布特征,检验模型精度。并将EMDN-GRU与LSTM、EMD-LSTM、GRU、EMD-GRU进行对比。其各项指标对比结果如表1所示,模型拟合程度如图9所示,其中,实线为测试集,虚线为预测值。
表1中,由LSTM与GRU模型的指标可知,GRU各个指标确实均低于LSTM,因此改进模型选为GRU。使用EMD算法进行数据分解后,显然波动较大的数据拟合效果有很大提升,ME数值明显下降,但造成了总体的预测精度下降。针对此情况,考虑是由于EMD算法得到的序列间数值相差较大,因此采用归一化,将数据映射到[0,1]之间,再进行预测,最后得出EMDN-GRU模型预测结果。首先图9(e)中,预测值与真实值拟合情况理想,结合表1,其各项评价指标明显低于前四项模型。其中,与LSTM,GRU,EMD-LSTM,EMD-GRU相比,MAPE最少提高了4.571%,提高最大数值为19.085%;MAE最少提高了25.136,提高最大数值为49.541;RMSE最少提高了59.844,提高最大值为74.607;ME最少提高了187.484,提高最大值为375.727。
3.4.2 工作日高峰期预测
由图6与图7可知,周末与工作日的分布规律存在很大的差别。为了更进一步验证验证本文提出的EMDN-GRU模型的预测精度,本节将使用工作日数据预测下一工作日。选择11月20日、11月21日与11月22日预测11月27日、11月28日与11月29日,并且取早高峰时间段为:08:00~
10:00;晚高峰時间段为:16:00~18:00。
同样的,首先使用EMD算法将11月27日至11月29日的数据进行分解,11月20日至11月22日的数据在模型训练时已完成所有EMD与归一化过程。11月27日至11月29日的时间序列使用EMD算法可得到分解序列,图10为由EMD算法得到的所有序列的总和。
由图10可直观看出,EMD算法与原始序列的数值拟合程度很好,并未造成数据缺失等现象。
图11分别为LSTM、GRU、EMD-GRU、EMD-LSTM与EMDN-GRU模型的运行结果图,实线为测试集,虚线为模型预测结果。表2为各项模型的评价指标。
由图可直观地看到,首先对于LSTM与GRU模型,预测值与真实数据之间差距较大,虽然对于波动幅度较小的数据预测效果较理想,但是一旦波动较大,就会失去准确性,虽然GRU各项指标优于LSTM,但总体而言预测效果并不理想。而EMD-LSTM与EMD-GRU模型虽然预测的高低峰趋向与测试集大体走势呈相同趋势,但预测值与测试集之间仍然存在一定的数值差异。因此表2中,虽然EMD-LSTM与EMD-GRU的MAPE数值比LSTM与GRU模型分别高出4.856与17.546。但是其余三个指标却明显低于LSTM与GRU模型的指标,尤其是ME指标,最低提高了190.533秒。最后,对于EMDN-GRU模型,可从图10(e)中看到,无论是波动较高的数据,还是波动较低的数据,模型都能够进行准确预测。更进一步,从表2中的各项数值可以看出,MAPE数值最少提高了8.183%,提高数值最大为25.729%;MAE数值最少提高了30.907,提高数值最大为47.094;RMSE数值最少提高了32.469,提高数值最大为78.792;ME数值最少提高了91.569,提高数值最大为344.691。
4 结 论
本文基于Spark并行框架提出一种EMDN-GRU模型,预测乘客等待时间。首先,使用EMD算法对非平稳时间序列进行序列分解,分解为有限个IMF序列与Res序列;其次,通过对每一个序列进行归一化,使得每一个序列的值都在[0,1]范围内;最后,实现EMDN-GRU的预测,并与GRU、LSTM、EMD-LSTM与EMD-GRU比较预测结果。实验结果显示,EMDN-GRU模型预测结果明显优于其余四项模型,其中,周末的预测,EMDN-GRU与GRU、LSTM、EMD-LSTM与EMD-GRU相较而言,MAPE分别降低8.260%、4.571%、19.085%与18.144%。工作日的数据,MAPE分别降低10.123%、8.183%、14.979%与25.729%。实验结果表明,本文提出的基于Spark并行框架的分布式EMDN-GRU模型能够更为准确地提供乘客等待时间。
参考文献:
[1] YANG C,CHEN J J. A Scalable Data Chunk Similarity Based Compression Approach for Efficient Big Sensing Data Processing on Cloud [J].IEEE Transactions on Knowledge and Data Engineering,2017,29(6):1144-1157.
[2] BASANTA-VAL P,AUDSLEY N C,WELLINGS A J,et al. Architecting Time-Critical Big-Data Systems [J].IEEE Transactions on Big Data,2016,2(4):310-324.
[3] 夏大文.基于MapReduce的移动轨迹大数据挖掘方法与应用研究 [D].重庆:西南大学,2016.
[4] LU R Q,JIN X L,ZHANG S M,et al. A Study on Big Knowledge and Its Engineering Issues [J].IEEE Transactions on Knowledge and Data Engineering,2019,31(9):1630-1644.
[5] NUNES J,YASMINA B,DEL?CHELLE E,et al. Image analysis by bidimensional empirical mode decomposition [J].Image and Vision Computing,2003,21(12):1019-1026.
[6] 齐观德,李石坚,潘遥,等.基于出租车轨迹数据挖掘的乘客候车时间预测 [C]//第八届和谐人机环境联合学术会议(HHME2012)论文集PCC.广州:中国计算机学会多媒体技术专业委员会,2012:18-23.
[7] QI G D,PAN G,LI S J,et al. How Long a Passenger Waits for a Vacant Taxi--Large-Scale Taxi Trace Mining for Smart Cities [C]//Proceedings of the 2013 IEEE International Conference on Green Computing and Communications and IEEE Internet of Things and IEEE Cyber,Physical and Social Computing.Washington:IEEE Computer Society,2013:1029-1036.
[8] XU X J,ZHOU J Y,LIU Y,et al. Taxi-RS:Taxi-Hunting Recommendation System Based on Taxi GPS Data [J].IEEE Transactions on Intelligent Transportation Systems,2015,16(4):1716-1727.
[9] HWANG R H,HSUEH Y L,CHEN Y T. An effective taxi recommender system based on a spatio-temporal factor analysis model [J].Information Sciences,2015,314:28-40.
[10] QIU Z,LI H Y,HONG S D,et al. Finding Vacant Taxis Using Large Scale GPS Traces [C]//Web-Age Information Management.IEEE,2014:793-804.
[11] 王诏远,李天瑞,程尧,等.基于经验分布的打车概率和等待时间预测 [J].计算机工程与应用,2015,51(24):254-259.
[12] 陆俊天,孙玲,施佺.基于门控循环单元神经网络的公交到站时间预测 [J].南通大学学报(自然科学版),2020,19(2):43-49.
[13] CHEN C,WANG H,YUAN F,et al. Bus travel time prediction based on deep belief network with back-propagation [J].Neural Computing and Applications,2020,32(14):10435-10449.
[14] MA J M,CHAN J,RISTANOSKI G,et al. Bus travel time prediction with real-time traffic information [J].Transportation Research Part C:Emerging Technologies,2019,105:536-549.
[15] HE P L,JIANG G Y,LAM S K,et al. Travel-Time Prediction of Bus Journey With Multiple Bus Trips [J].IEEE Transactions on Intelligent Transportation Systems,2019,20(11):4192-4205.
[16] HUANG N E,SHEN Z,LONG S R,et al. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis [J].Proceedings of the Royal Society A:Mathematical,Physical and Engineering Sciences,1998,454(1971):903-995.
[17] 戴邵武,陈强强,刘志豪,等.基于EMD-LSTM的时间序列预测方法 [J].深圳大学学报(理工版),2020,37(3):265-270.
[18] BIAN D J,QIN S Q,WU W .A hybrid AR-DWT-EMD model for the short-term prediction of nonlinear and non-stationary ship motion [C]//Chinese Control and Decision Conference(CCDC),IEEE,2016:4042-4047.
[19] 姚洪刚,沐年国.EMD-LSTM模型对金融时间序列的预测 [J/OL].计算机工程与应用,2020:1-6(2020-12-02).http://kns.cnki.net/kcms/detail/11.2127.TP.20201202.1130.002.html.
[20] 张可,崔乐.基于PCA-LSTM模型的多元时间序列分类算法研究 [J].统计与决策,2020(15):44-49.
[21] ZHAO W,YANG H F,LI J Q,et al. Network Traffic Prediction in Network Security Based on EMD and LSTM [C]//Proceedings of the 9th International Conference on Computer Engineering and Networks(CENet2019).湖南:南京中爱教育科技有限公司,2020:830-836.
[22] JIANG T J,ZHOU C G,ZHANG H Q. Time Series Forecasting with an EMD-LSSVM-PSO Ensemble Adaptive Learning Paradigm [C]//Proceedings of the 2018 International Conference on Computational Intelligence and Intelligent Systems.New York:Association for Computing Machinery,2018:44-50.
作者簡介:白宇(1994—),女,汉族,贵州仁怀人,硕士研究生,研究方向:统计学、海量数据统计与分析;郑永玲(1995—),女,汉族,贵州毕节人,硕士研究生,研究方向:统计学、海量数据统计与分析;蒋顺英(1996—),女,汉族,贵州兴义人,硕士研究生,研究方向:统计学、海量数据统计与分析;杨楠(1997—),女,汉族,贵州盘县人,硕士研究生,研究方向:统计学、海量数据统计与分析。