基于Logistic回归模型的高铁客运市场细分
2018-03-30李彦瑾罗霞刘悦朱海
李彦瑾,罗霞,刘悦,朱海
(西南交通大学,交通运输与物流学院,成都 610031)
0 引 言
市场细分有助于运输企业快速高效地确定目标市场,对改善客运产品、提高运营效益具有积极意义。自市场细分概念提出以来,国内外学者对其进行了大量研究。国外研究方面,Tony指出目前市场细分的研究主要分为两个方向:消费者导向型与产品导向型[1]。Tsai则提出以消费者的最近一次消费时间、消费频率、消费金额3个变量进行细分并识别最有价值的客户[2]。国内铁路市场研究方面,赵娟等基于市场细分理论,运用因子和聚类分析方法对京沪高铁旅客调研数据进行研究[3]。钱丙益等结合武广客运专线旅客问卷调查数据,采用混合回归模型,将市场细分为效率型、经济型、休闲型、体验型4个细分市场[4]。
从现有研究来看,目前国内对铁路市场细分的研究以产品为导向的细分方法为主,变量一般包括安全、速度、准点和价格等,而从复杂的旅客出行特征角度出发,利用概率分类法进行市场细分的精确研究仍然较少。
在渝利铁路开通运营之后,为使其具备优良的客运管理水平以及竞争实力,需要研究出一套科学的、可操作性强的客运市场细分方法,准确应对市场需求,设计合理的渝利铁路运输产品。因此,本文以渝利铁路客运市场为实际案例,根据旅客出行行为特征,选取Logistic智能分类算法对渝利铁路客运市场进行细分,并对各细分市场的旅客特征进行归纳总结,具有一定的应用意义。
1 调查概述
本次旅客出行调查分为预调查和正式调查两个阶段。预调查于2015年9月5日在重庆北站候车大厅进行,受访者为高铁乘客和动车组乘客,设计并采用了RP/SP组合的调查问卷。正式调查于2015年9月12日在重庆北站候车大厅和重庆—利川凉雾站方向的渝利高铁列车上进行,并针对预调查存在的问题对问卷进行了改进。
本次调研包含2个工作日和1个休息日,涉及重庆北站、复盛站、长寿北站、涪陵北站、丰都站、沙子站和凉雾站7个车站。其中预调查在1个工作日内进行,正式调查分为1个工作日与1个休息日两个阶段进行。
选择1个工作日(星期三)进行前期预调查,回收与处理问卷1 492份。各车站回收问卷数量如图1所示。由图1可以看出,各个车站的受访者数量分布并不均匀,利川站的受访比重过多。这将影响我们对调查结果的分析处理,因此本文通过优化问卷结构、简化问题设置并选择另一个工作日(星期二)开始进行正式调查。
图1 工作日内预调查各站点回收问卷数量Fig.1 Number of questionnaires collected at each station during weekdays
正式调查采用改进后的调查问卷,回收与处理问卷1 298份。由图2可得,虽然各车站回收问卷数量较改进前更均匀,但利川站的回收份数依然是最高的。这表明可能有其他因素影响调查结果。因此,选择1个休息日(星期六)再次进行正式调查,以此来判断调查时间因素是否会对调查结果产生重要影响。
图2 工作日内正式调查各站点回收问卷数量Fig.2 Number of valid questionnaires during weekdays
在1个休息日进行正式调查,回收与处理问卷1 374份,各车站回收的问卷数量如图3所示。由图3可得,在休息日内各站点回收数量基本均匀,表明调查时间确实为影响调查结果的主要因素。
图3 休息日内正式调查各站点回收问卷数量Fig.3 Number of valid questionnaires during weekend
因此,本文采用分层抽样的方法,分车次随机选取旅客进行面对面问卷调查,内容包括年龄、职业、月收入、出行目的等旅客出行特征共计6个属性。然后,分别选择两个数据集统计、处理来自工作日(星期二)与休息日(星期六)的调查数据。正式调查共回收4 890份调查问卷,筛选除去信息残缺的调查问卷,得到4 164份有效问卷。
2 建模与算法
Logistic回归分类作为概率分类法的常见类型,其分类标准为使后验概率达到最大。通过这样的分类方法,可以在样本数据可信度较低的时候不进行强制分类,排除样本中的“噪声”干扰,从而避免分类错误。另外,这种基于概率的模式分类算法还能够对多种属性的样本分类问题得到一个较显著的分类结果[5]。因此,本文选用Logistic回归分类进行市场细分。
2.1 基本原理
假设渝利铁路旅客市场上存在N个旅客,第n(n=1,2,3,…,4 164)个旅客对样本中第i个属性xi(i=1,2,3,…,6)的评价为xni,对产品的总体评价为yn。假设存在c个细分市场,每个细分市场在整个客运市场的占比分别为θ1,θ2,…,θc,满足(即满足概率总和为1的约束条件)。
根据Logistic回归,使用线性对数函数对分类后验概率q(yj|xi)进行模型化:
式中,q(yj|xi;θ)为第i(i=1,2,3,…,6)个属性xi影响第j(j=1,2,3,…,n)个总体评价样本yj的概率,θ为待优化参数,表示分类后的各个子市场比例;φj(x)为第j个样本中各个属性x的具体取值。
2.2 模型求解
利用对数最大似然函数法求解Logistic回归分类模型。其中,似然函数是将当前样本,i=1,2,…,6由式(1)分类的概率看作是一个关于参数θ的函数,而对数似然函数是指其对数。于是,作如下变换:似然→对数似然
因此,可将该分类问题等价为下式的最优化问题来定义:
上述目标效用函数Q对于参数θ是可以微分的,故可利用概率梯度法来求解最大似然估计问题的解,具体算法如下:
①给定θ以适当地初值,本文取0.25(假定初始有4个子市场,所占市场份额均等为0.25),收敛精度η=0.01;
② 将随机抽样的有效样本导入(xi,yj),i=1,2,3,…,6,j=1,2,3,…,4164;
③ 对于选定的训练样本,以梯度上升的方向对参数θ=(θ(1)T,…,θ(c)T)T,c=1,2,3,4按下式进行更新:
此处,ε为表示梯度上升幅度的正常数,取0.001。∇yJj(θ)是指顺序为j的训练样本所对应的对数似然函数Jj(θ)=logq(yj|xi;θ)关于θ(y)的梯度上升方向。
2.3 求解结果
本文将随机抽样获取的4 164份有效调查问卷,通过将问卷中各个问题选项进行数据预处理并导入matlab中,采取Logistic回归法进行市场细分,再利用概率梯度算法进行求解,得出算法收敛图与市场细分图如图4、图5所示。
图4 模型求解算法收敛图Fig.4 Model convergence
图5 按旅客出行目的属性维度方向投影的市场细分图Fig.5 Market segments by trip purpose
由图4可以看出:算法初始阶段在各个方向搜索最优梯度,当迭代至12次时获得可行的梯度方向并朝着效用函数值增大的方向收敛;当运行至第37次时开始平稳,并在迭代第46次时获得平稳解,此时效用函数值为0.988。最后该平稳解满足收敛精度要求,从而终止算法将效用值归0。
由图5可以看出:Logistic回归分类法最终将容量为4 164的调查数据样本分为了3类,且绝大部分样本细分后的效用函数值在0.932以上并在0.988左右到达稳定极值点,反映出客运市场细分效果较好。
3 子市场描述
将分类后其效用函数值分布于[0.932,0.992]区间的样本数据进行提取与计数,可以得到细分后三个子市场的样本容量大小,分别为:子市场1(1 822)、子市场2(891)、子市场3(1 134)。其余样本数据经分类后,未分布在效用显著区间,故不予统计。
3.1 聚类中心识别
分别搜索各个子市场的类中心,并以类中心为圆心按子市场容量的55%为半径,选择各个子类的代表性样本数据,如图6所示。
图6 按代表性样本数据的市场细分Fig.6 Clusters of the sub-markets
3.2 子市场划分
将提取出的代表性样本数据按出行目的进行归纳,可总结为:外出务工型(子市场1)、非经济出行型(子市场2)、商务出行型(子市场3)。并按照年龄、月收入和职业3个旅客特征指标进行统计分析,分别对每个子市场进行细分,得到经济实惠、中坚力量和出行品质注重三个子群体。故建立子市场细分模型,如表1所示。
表1 子市场旅客容量统计表Tab.1 Population statistics of the submarkets
3.3 子市场合并与描述
由于需求模式最终反映为出行行为模式,同时为了便于进行产品设计,需要对市场采取一定的规则进行合并,使之更贴合实际生产运营的需要。其中,合并规则包括以下两个方面:①将市场容量明显偏小的子市场合并;②合并性质类似的市场。故合并完成后的市场细分如表2所示。
由此可见,客运市场被细分为如表3所示的A-E共计5个子市场,且各个子市场具有显著的差异化特征。
表2 合并后子市场旅客容量统计Tab.2 Population statistics of regrouped submarkets
表3 合并后子市场特征描述表Tab.3 Descriptive statistics of the regrouped submarkets
4 结 论
针对市场细分的旅客特征分析,本文得出如下结论:
(1)利用Logistic回归分类法对随机抽样样本数据分类处理,可在较少迭代次数内得到平稳解,利用出行目的维度投影得到的二维图,表明该方法分类效果比较显著。
(2)通过对子市场的合并,发现在各个子市场内旅客的年龄、月收入与出行目的是进行高铁客运市场细分和市场特征描述的显著影响指标。
(3)如何根据分析结果,对各细分市场的需求进行预测,并进而制定科学的产品定价实现高铁运营收益最大化,将是下一步的研究方向。
[1] LUNN T. Segmenting and constructing markets[A].Robert Worcester and John Downham. Consumer market research handbook,Third revised and enlarged edition[C].Elsevier Science Pulishers B. V. ,1986,387-423.
[2] TSAI C Y,CHIU C C. A purchase-based market segmentation methodology[J]. Expert Systems with Applications,2004,27(2):265-276.
[3] 赵娟,任民. 京沪高铁客运市场细分与客票营销策略研究[J]. 铁道经济研究,2014(6):13-17.
[4] 钱丙益,帅斌,陈崇双,等. 基于混合回归模型的客运专线旅客市场细分研究[J]. 铁道运输与经济,2014,36(1):60-65.
[5] TITTERINGTON D M,SMITH A F M,MAKOV U E.Statistical analysis of finite mixture distributions[M].New York:Wilcy,1985.