基于旅客画像的航班出行选择预测方法研究与实现
2021-12-23上官伟邓雨亭柴琳果
上官伟,邓雨亭,柴琳果,聂 敏
(1.北京交通大学 电子信息工程学院,北京 100044;2.国网北京市电力公司 物资分公司,北京 100054)
随着我国经济体量的增大,人们的出行需求蓬勃发展.旅客出行数据激增,北京首都国际机场年旅客吞吐量突破1亿人次,成为中国第一个年旅客吞吐量过亿人次的机场,也是继美国亚特兰大机场后,全球第二个年旅客量吞吐量过亿人次的机场[1].航空业的竞争不再受地域的限制,成为了全球性的问题.此外,近年来我国加大了高速铁路建设,其准时性以及便捷性也给航空运输业带来极大冲击[2],并向航空公司提出了更高的要求.
对旅客出行模式选择进行预测,可以为交通运力的调度和优化提供准确的数据支撑,从而提高旅客疏散效率,同时有利于航空公司提供定制化的旅客服务.航空公司通过统计旅客的出行需求,记录旅客基本属性和行为信息,实现旅客数据特征挖掘重构.面对用户个性化描述的难题,用户画像提出了更好的解决方案[3-4].依据旅客特征划分旅客群体,从而实现差异化营销[5].
到目前为止,出现了很多构建用户画像的模式,如直接基于基本属性和行为的统计,以及基于数据挖掘的标签构建[6].Johnson等[7]在线上教育领域中使用K最近邻等算法设计用户画像系统,成功对学生放弃学习概率进行预测.Sweeney等[8]基于Hadoop大数据平台建立用户画像系统,使用Map-Reduce和K-means对学生进行分群,并搭建回归模型对学生成绩进行预测.Lee等[9]基于大数据平台建立用户画像.出行预测是从数据挖掘中提取有用的信息,用于乘客分析[10].Brown[11]对洛杉矶社区居民基于数据挖掘研究居民社区构成与用户出行间的关联关系.Dias等[12]研究人口统计变量对拼车和拼车服务使用频率的影响,基于二元Logit模型预测按需出行服务的使用.Ermagun等[13]运用离散回归模型,发现住宅以及工作地点的建筑环境特征,与居民的通勤行为具有关联性.目前,Logit模型在用户出行选择行为预测领域应用较广泛,但模型仍有其不足之处,多层次结构求解较困难[14].而Logit模型具有不相关选项间的独立性,这在实际选择问题上并不适用.
针对航班旅客出行特征繁杂的问题,且各航班选择在保持之间的独立性基础上必须考虑各选择项的相关性,本文作者设计了一种基于旅客画像的出行选择预测方法.旅客数据进行预处理得到可利用的数据集,对某几个属性进行聚类分析,通过聚类效果评估得到最优的旅客分群.提取用户群特征,构建用户画像,建立与之对应的旅客描述,直观反映出旅客特征.基于搭建的旅客画像,运用交叉巢式Logit模型,从多个维度描述旅客出行选择行为,捕捉选择方案间的相关性,预测旅客航班出行方式、出行时间段的交叉选择,实现对不同出行需求的旅客的特征提取重构,并基于实际出行数据进行参数估值和检验.
1 基于旅客画像的航班出行选择预测
将特征值与用户基本属性,即年龄、性别等相组合,实现数据重构,为实际应用奠定数据基础.经过预处理之后的数据,运用K-means聚类算法对旅客进行分群.聚类算法基于数据样本之间的异同性,对数据进行划分,形成样本群.K-means聚类算法是目前比较主流的方法,应用广泛,数据处理速度快,处理效率高.此聚类算法是基于划分实现的,即先对样本进行分组,计算分组结果,根据组的凝聚性进行迭代,反复修正组内距离,循环往复,找到最优的各组中心.
为了实现更好的分群效果,本文采用轮廓系数法对聚类效果进行评估.计算在同一个簇内,该样本点与所有其他元素的距离,即簇内凝聚度.在不同簇内,再选取一个样本点,计算两样本点的距离,求遍历簇中所有样本,取这些距离的平均值,再遍历所有其他簇,得到最小平均距离,即簇间分离度.由簇间离散度和簇内凝聚度共同决定样本点轮廓系数.
用户航班出行方式预测,是基于交叉巢式Logit模型,对用户数据进行训练,研究旅客类型、出行方式与出发时间的三维选择问题,求解出行链、出行方式和出发时间这三类巢的异质参数,研究巢内部的各选择肢之间相关性.即当效用变量改变时(如选择的出行时间改变),研究旅客的优先考虑因素并对旅客实际出行选择带来的影响程度.基于拟合优度比检验,计算所设计的交叉巢式Logit三维选择模型的拟合度.方法流程如图1所示.
图1 基于旅客画像的出行选择预测方法流程图Fig.1 Flow chart of selected travel prediction method based on passenger profile
2 基于改进聚类的旅客画像构建
经过预处理之后的数据,运用K-means聚类算法对旅客进行分群.聚类算法基于数据样本之间的异同性,对数据进行划分,形成样本群.此聚类算法是基于划分实现的,即先对样本进行分组,计算分组结果,根据组的凝聚性进行迭代,反复修正组内距离,循环往复,找到最优的各组中心.
K-means聚类算法的流程如下:
第一步:将样本数据集设为需要进行聚类对象集X,随机抽取K个样本点,每一个样本点成为每一个簇的初始样本中心或均值.根据实际情况,设定迭代停止条件.在本文中,设定的是最大循环次数.
第二步:分类样本数据,计算每一样本点与每一簇中心的欧式距离,比较欧式距离,进行样本分类.
第三步:聚类中心修正,计算每一样本点与其对应的簇中心的欧式距离,取其均值作为新的簇中心,重复第二步.
第四步:重复上述过程,不断进行迭代,反复修正组内距离,循环往复,直至达到设定的终止条件.
第五步:最后一次迭代得到的聚类结果,是满足给定条件的最优分类结果.
K-means聚类算法中K值的选取,直接决定了分类效果的准确性.由于许多研究都是基于经验,给系统带来误差.为了实现更好的分群效果,本文采用轮廓系数法对聚类效果进行评估,以改进聚类算法.计算方法如下
1)选取一个样本点,记作xi,在同一个簇内,计算该样本点与所有其他元素的距离,求取这些距离的平均值,记作
(1)
反映了第m簇的簇内凝聚度.
2)选取一个样本点,记作xi,在不同簇内,再选取一个样本点,计算两样本点的距离,求遍历簇中所有样本,取这些距离的平均值,再遍历所有其他簇,得到最小平均距离,记作
c=1,2,…,m-1,m+1,…,K)
(2)
反映了簇间分离度.
3)由簇间离散度和簇内凝聚度共同决定样本点轮廓系数为
(3)
4)遍历所有样本,计算轮廓系数的均值,由此可得出整体轮廓系数,反映了聚类效果.由上述可知,轮廓系数是小于1的正实数,轮廓系数越趋于1,聚类效果越好.
用户画像归根到底是对用户打上相应标签,标签来自人为定义,通常是精炼的词语组合.本文的用户标签主要分为两种,分别是统计标签和聚类标签.统计标签是指根据获得的数据,进行分门别类的存放,对各个指标进行统计,对指标定义类名,根据用户的分布,得出相关的统计指标.用于统计指标的属性大都是静态属性,如年龄、性别、收入、受教育程度等.聚类标签是值基于聚类算法,进行客户分群,提取客户特征,进行标签定义.
3 基于巢式Logit的航班预测模型
针对提取出来的旅客特征,以及构建的旅客画像,提出了一种旅客出行方式预测模型.根据重构的旅客数据集,利用交叉巢式Logit模型,结合聚类特征,对旅客出行选择进行预测.与此同时,研究旅客类型、出行方式与出发时间的三维选择问题,改变效用变量对旅客实际出行选择带来的影响程度.基于拟合优度比检验,分析模型拟合度.由此可得,该模型能更好地解释并预测旅客的航班选择,并为航空公司实现航班计划制定、精准化营销提供数据支持.
3.1 效用函数
在离散选择模型构建中,一般假定个体是行为决定的最基本单位,面对多个选择肢,个体会遵循效用最大化原则,选择能给自己带来最大效用的选择肢[15].个体n基于选择方案集合中的不同选择肢进行选择,产生不同的效用值,效用函数包含确定项和随机项,选择肢效用值为
Unj=Vnj+εnj
(4)
式中:Vnj为个体n选择方案j具有的效用;εnj表示选择肢对个体n的效用随机项,体现未考虑因素导致的结果随机性.
基于效用最大化原则,当
Unj>Uni,j≠i,i∈J
(5)
即选择方案集合中,某个选择肢的效用大于其余任一选择肢的效用,则个体将选中该选择肢.个体n对方案j的选择概率为
Pnj=p(Vnj+εnj>Vni+εni,j≠i,i∈J)
(6)
在本文的研究问题中,选择肢变量对选择肢效用和旅客的选择行为,都可能会产生影响.对应变量包括出行总时间、出行总费用、出行总距离等.对于不同的选择肢,属性变量类型及数量不一定相同,考虑参数分析的便捷性,基于线性函数表达效用函数为
V(Xj)=γ1·X1+…+γk·Xk
(7)
式中:Xjk表示选择肢j中属性变量k的值;γk表示属性变量k的效用系数.
3.2 基于三维选择的交叉巢式Logit模型
交叉巢式logit模型避免了多项logit模型的无关方案独立性(Independence from Irrelevant Alternatives,IIA)特性,继承了巢式logit模型的优越性,即保留了各选择项的相关性.此模型允许从两个以上的维度考虑旅客的选择行为,每个维度实质表现为一个巢集合.下面对基于三维选择的交叉巢式Logit模型的选择项集合做简要说明.
从旅客个人属性和航班属性结合的思考角度出发构建模型,包含三个选择子集合,包括旅客类型选择子集合,由前文的旅客画像产生;出行方式选择子集合为{直达,转机};从旅客可选择的航班时间角度出发构建模型,出行时间选择子集合为{早时段(3:00—8:00),中间时段(10:00—15:00),晚时段(18:00—23:00)} .因此,本文设计的用于旅客出行航班选择预测的交叉巢式Logit模型共3个维度、24个选择组合.本文构建旅客类型、出行方式、出行时间同时选择的交叉巢式Logit模型,如图2所示.
图2 基于三维选择的交叉巢式Logit模型图Fig.2 CNL model based on three-dimensional selection
在交叉巢式Logit模型中,巢与巢之间存在异质参数,对巢m的异质参数有0<μ/μm≤1,体现了巢内各选择肢的相关性.
同时,每个选择组合可同时隶属于多个维度的不同巢,并且选择方案对所属巢产生影响,选择方案i对巢m隶属度为
(8)
假设每个选择组合的效用函数随机项服从标准Gumbel分布,其密度函数为
f(ε)=μe-μ(ε-η)exp{-e-μ(ε-η)}
(9)
则第i个选择组合的联合累积分布函数为
F(ε1,…,εi)=
(10)
根据GEV模型理论,在交叉巢式Logit模型中,第i个选择组合的选择概率为
(11)
式中:Pm为巢m的选择概率;Pi|m为该选择组合在巢m的选择概率,进而可得到
Pi=
(12)
式中:aim为选择组合i对巢m的隶属度;Vi为选择组合i的效用函数;Nm为巢m中的选择肢集合;μm为m的异质参数,值越接近0,表示该巢内各选择肢之间的相关性越大,反之,则相关性越小.
3.3 拟合优度检验
本文设计交叉巢式Logit模型的参数估计使用最大似然估计法,假定总共有N个旅客参与了航班组合选择,个体n选择j选择肢的概率似然函数为
(13)
式中,值为1表示个体选择了该选择肢,反之,表示该选择肢没有被选中.
考虑到对数似然函数区分更方便,釆用对数似然函数求解拟合优度,对数似然函数为
(14)
拟合优度比为
(15)
4 空港旅客航班出行选择预测实现
本文数据来源是波音航空公司在2004年和2005年进行的航班选择调查.波音公司收集了航空乘客的基本属性,如职业、年龄等,以及在给出的6个航班中,即3个时段两种到达方式组合,乘客所选择的最适航班.本文研究旅客类型、出行方式与出发时间的三维选择问题,旅客类型由旅客画像求得.旅客选择项集合中航班出行方式包含2个选择肢,即直达和转机.出发时间选择子集合包含3个选择肢,分别是早时段(3:00—8:00)、中间时段(10:00—15:00)和晚时段(18:00—23:00).
4.1 旅客画像构建
预处理数据,清洗数据,删除与特征提取无关的多余信息,删除信息严重不全的样本.按照旅客ID,年龄,收入等属性,进行归类,并进行分级,统一由于量纲不同给下述工作带来的不便.最后的航班选择,即需要预测的旅客出行方式,定义为类变量,分别对应相应航班.
经过预处理之后的数据,本文采用轮廓系数法对聚类效果进行评估K-means聚类算法中K值的选取,基于属性之间的相关联性,进行聚类,得到聚类标签,为出行预测提供丰富的特征值.用于聚类分析的指标主要是飞行时间,理想出行时间与实际出行时间的时间差,同行人数,出行费用.确定K-means聚类算法中K值的选取,聚类中K=4时,轮廓系数最大,表明K值取4,即将用户分为4类,聚类轮廓系数与K值关系见图3.
图3 聚类轮廓系数与K值Fig.3 Contour coefficient and K value of clustering
统计标签是指根据获得的数据,进行分门别类地存放,对各个指标进行统计,将不同属性进行对比.用于统计指标的属性大都是静态属性,如年龄、性别、收入、受教育程度等.用户年龄分为未成年、青年、中年、老年四类.受教育程度分为高中以下、高中、大专、学士、硕士、博士等六类.职业分为管理、专家、技术人员、工人、行政、军人等十二类.收入统一美元单位,分为14级,标签定义为低、中、高收入人群三类.出行目的分为商务、休闲、参加会议培训等四类.除此之外还有出行费用、理想出行时间、出行时间重要程度、腿部空间等九个标签.聚类标签是值基于聚类算法,进行客户分群,提取客户特征,进行标签定义.本文基于属性之间的相关联性,进行聚类,得到聚类标签.聚类分析将用户分为四类,分别是追求快捷型人士、追求性价比型人士、多人出行型人士、单人商务型人士,如表1所示.
表1 聚类分群结果Tab.1 Results of the second clustering
4.2 出行选择预测及分析
由上述聚类分析可得,旅客类型子集合包含4个选择肢,分别是追求快捷型人士、追求性价比型人士、多人出行型人士、单人商务型人士.因此,旅客选择项集合中航班出行方式包含2个选择肢,即直达和转机.出发时间选择子集合包含3个选择肢,分别是早时段(3:00—8:00)、中间时段(10:00—15:00)和晚时段(18:00—23:00).旅客类型、出行方式与出发时间的三维选择问题,一共有24种选择组合.
旅客可选航班的出行方式与出发时间同时选择项的系统效用包括出行特性(如航班飞行总时间、航班飞行总费用、出发点目的地间距离等)、出行者的个人经济社会属性(工作时间是否弹性、年龄、收入等)以及出行者的家庭经济社会属性(家中是否有儿童、家庭历史出行次数等).结合上述的数据特征重构,选取9个效用因素,具体说明见表2所示.
表2 模型效用因素说明Tab.2 Description of utility variables of model
通过出行航班OD点一致性、航班出行时间连续性和航班出行方式一致性检验后,共得到有效样本2 934个,基于三维选择的交叉巢式Logit模型进行参数评估,得到9个考虑因素及9个异质参数结果如表3所示.
表3 模型参数估计结果Tab.3 Parameter estimation results
由表3可见,基于旅客类型、出行方式和出发时间3个维度比较各个巢的异质参数大小,显著性水平为0.05,可以看出旅客类型巢的异质参数最小,这表明旅客类型这个巢内的选择肢间具有较大相关性,即选择肢体之间是可替代的.对于拟合优度,本文的拟合优度为0.314,在[0.2,0.4]区间内,说明本文设计的模型具有较好的拟合效果.
当效用函数中某个变量改变时,例如出行费用增加,旅客一般在考虑改变出发时间和出发方式之后,再考虑改变其类型.所有的异质参数中,出发时间巢的参数最大,同时t检验值小,说明巢内选择肢具有较小的相关性,即具有较弱的可替代性,当效用函数中某个变量改变时,旅客倾向于首先考虑改变所选择航班的出发时间.
从考虑因素的各参数值可以得到,工作时间是否有弹性、家庭历史出行次数的参数绝对值是最大的,说明工作时间是否有弹性和家庭历史出行次数是影响旅客类型和旅客出行方式选择的重要因素.航班飞行总时间、航班飞行总费用、出发点目的地间距离的参数值为负值,与实际情况相符.
以上结果反映出旅客对旅客类型、出行方式与出发时间三者选择的递进关系,旅客一般先根据个人及家庭的需要形成旅客类型,考虑选择何种出行方式,最后在旅客类型和出行方式的双重约束下选择航班的出发时间.此模型能够为机场实施高质量的航班计划与需求管理提供有效依据.
5 结论
1)面向不同出行需求的旅客,结合其基本属性和行为数据,进行特征提取数据挖掘,为其构建有针对性的旅客画像,预测旅客出行方式.首先是全方面挖掘旅客的行为特征,进行旅客分群,多维度挖掘旅客群体特征.其次,根据重构的旅客数据,为旅客构建有多样性的旅客画像,结合旅客特征,为旅客贴上标签.再次是根据标签,通过离散选择模型算法,预测旅客出行航班选择.
2)聚类分群类的数据量差别会影响聚类效果,基于离散选择模型的预测有待进一步的研究与提高.
3)得到的定量化分析结果需要进一步研究包括考虑旅客出行其他因素对旅客出行方式的影响,如转机服务优化设计等,研究和建立能够更进一步提高旅客出行选择预测精度的模型和算法.