基于使用行为的电动汽车驾驶员里程焦虑模型
2021-07-03李宗华王贤军马明泽刁冠通
李宗华,翟 钧,王贤军,马明泽,刁冠通
(重庆长安新能源汽车科技有限公司,重庆 401133,中国)
据中国汽车工业协会数据统计,2020年中国大陆的新能源汽车销售量为136.7万辆,同比增长10.9%[1]。电动汽车的普及应用仍面临着许多技术与市场障碍:首先受制于车载电池的容量限制,电动汽车的续航里程普遍低于传统的燃油汽车;其次受限于电池技术,电池充电速度远低于燃油车加油速度;最后电动汽车基础设施的配套建设缓慢,在目前的城市和城际交通网络中,电动汽车充电站的数量普遍低于燃油汽车加油站。以上因素综合,导致了电动汽车驾驶者经常受到里程焦虑(range anxiety) 问题的困扰。里程焦虑是指驾驶者在驾驶电动汽车时因担心续航里程不够所引起的精神痛苦或忧虑。[2]
由于里程焦虑普遍存在于电动车用户中,关于里程焦虑的研究显得意义重大。Rauh Nadine等人通过测试调研,得出里程焦虑的程度与用户驾驶经验丰富程度具备一定的关联性[3]。谢驰等人基于里程焦虑因素考虑了交通网络均衡问题[4]。王涛等人考虑了基于里程焦虑的充电站选址模型[5]。纵观国内外研究,基于里程焦虑的应用较多,而研究里程焦虑用户其焦虑程度的识别较少。
鉴于现有研究的不足,本文提出一种基于用户使用行为数据,利用大数据分析和聚类分析算法,找到能反映用户焦虑程度的因子。通过机器学习分类模型,识别出里程焦虑的用户,并使用评分卡模型,对用户的焦虑程度进行打分,分数的高低可直接体现出用户里程焦虑程度情况。基于里程焦虑程度的差异分析及群体用户焦虑程度的用户画像识别,可进一步支撑相关场景应用,如支撑实现千人千面的个体用车行程规划策略;该研究可望对车企改善车型开发策划及销售策略、优化充电桩规划布局等均有指导和参考意义。
1 里程焦虑行为分析
不同里程焦虑等级的用户,其焦虑心理反映在日常用车行为上也有一定差别,本文主要从用户的充电、驾驶等日常用车行为角度,构建焦虑因子,分析不同用户间的行为差异和表现。基于车联网大数据平台,从中提取续航里程范围为300~400 km车型的用户充电行为、驾驶行为数据,进行数据清洗,并按驾驶及充电工况进行行程划分。数据集概况:车辆16种、54 836辆,行程划分3 180 488次。
1.1 100 km充电分析
随着车辆行驶里程的增加,用户为了克服焦虑情绪而保持车辆一定的续航里程值,充电次数会相应增加,里程焦虑程度较高用户的充电次数会普遍多于普通用户,可通过单位里程内用户充电情况分析,发现焦虑和非焦虑用户的不同行为表现。
分析用户在不同里程内的充电情况,如图1所示。
由图1a可知:用户平均充电次数的分布,基于车辆的总续驶里程是可以支撑用户100 km单次行程驾驶的,100 km内平均充电次数较多的用户,其里程焦虑程度相对较高。
由图1b可知:用户平均充电次数的分布,某些用户在200 km里程内平均充电次数小于2次,这部分用户里程焦虑程度相对较低。
图1 在不同里程内的用户充电分布
1.2 充电起止电量分析
充电开始时的电量和充电结束时电量,一定程度上反映用户的焦虑程度。在实际的分析中,采用电池的充电状态(state of charge, SOC)表示电量。充电开始时刻SOC越小,表明用户使用车辆电池越彻底,焦虑的概率越小;反之,充电开始时刻SOC越大,表明用户使用车辆电池不彻底,焦虑的概率较大。用户充电结束时的SOC越大,表明充电量越多,其焦虑的概率就越大。图2是充电开始和结束时刻的用户分布。充电开始SOC均值呈现正态分布(图2-a),其中部分用户充电开始SOC值大于60%,表明这部分用户存在一定的里程焦虑。某些用户充电结束SOC值大于90%(图2-b),这类充电行为的用户相对也存在一定里程焦虑。
图2 充电起止SOC时用户分布分析
1.3 充电频率分析
1.4 车电量极限使用工况分析
图3 每次充电行驶的里程的用户分布
图4 极限充放电行为占比的用户分布
2 里程焦虑模型建立
本节基于行为因子提出一种基于聚类算法和逻辑回归模型的里程焦虑识别方法,通过聚类分析,分离焦虑和非焦虑用户,并使用逻辑回归模型识别焦虑用户。
2.1 聚类分析
聚类是把相似的对象通过静态分类的方法分成不同的组别或子集,同一组或子集的对象的一些属性都很相似。本节采用聚类算法,根据用户用车行为数据,将用户归类成焦虑和非焦虑两类。
基于用户用车行为的大数据,抽取表征里程焦虑的因子。将数据的部分特征变量进行转换缩放,并执行标准化处理。由于数据呈现非线性聚集,不能线性可分,所以本节采用Kernel K-means 聚类算法[6],相比单纯的K-means 聚类算法,它可以将数据点通过核函数映射到高维空间,从而能很好地支持非线性数据。在具体实施中,使用Gauss核函数将数据对象映射到高维内核空间中,分离出焦虑用户和非焦虑用户[7],并将非焦虑用户标记为0,焦虑用户标记为1。
聚类后的充电状态SOC、里程S、平均充电次数N的数据分布如图5所示。在不同维度下,非焦虑用户和焦虑用户差别明显,表明基于相关用车行为因子,使用Gauss核函数的Kernel K-means 聚类方法可有效区分焦虑和非焦虑用户。
图5 焦虑聚类分析
2.2 焦虑识别
机器学习中的分类模型算法都可用于评分卡中,例如逻辑回归(logistic regression)[8]、支持向量机(support vector machine,SVM)[9]、神经网络(neural network)[10]、K最近邻 (K-nearest neighbour)[11]等。由于逻辑回归算法简单,可解释性高等优点,可用于二分类和多分类场景,输出的分类同时,也会输出所属分类的概率[12]广泛应用在业界中。故本节的里程焦虑识别使用逻辑回归分类算法,将用户分类标记成焦虑和非焦虑的。
基于聚类后的用户车辆行为数据集,首先分析和筛选特征变量。由于后续最终要将用户里程焦虑转换成具体分数,更直观的呈现用户焦虑程度,需要将数据的特征变量进行证据权重(weight of evidence, WOE)编码:
其中: 表示正非焦虑用户样本占比, 表示焦虑用户样本占比。
特征变量WOE编码前,需要先分箱离散化,分箱方法有等距分箱、等频分箱、卡方分箱等方法。为保证焦虑用户和非焦虑用户样本在不同箱体内的均衡,采用等频分箱方法。
WOE编码后,计算每个特征的Info值(information value)。Info可衡量特征变量的信息量,计算方法为
式中,WOEi表示某个特征变量的第i个分箱的 值。Info值在[0,1]范围内,可表示变量的预测能力,值越大表示特征的预测能力越好。可划分5值不同区间,代表不同的预测能力,如表1所示。
根据此规则,在具体实施过程中,筛选预测能力Info值大于0.03的特征变量,输入到逻辑回归模型中训练,最终得到接收机工作特性曲线 (receiver operating characteristic curve,ROC)和曲线下面积值 (area under curve,AUC),如图11所示,可见模型识别用户焦虑结果良好。
表1 5值预测能力
图6 逻辑回归模型识别的ROC曲线和AUC值
3 里程焦虑等级评估
为了体现用户里程焦虑的程度,提出一种使用评分卡转换输出用户里程焦虑程度的方法。基于各特征分箱的WOE值,和逻辑回归模型的预测结果进行分数的转换,转换方法如下:
其中:p表示逻辑回归模型预测用户存在里程焦虑的概率,代表发生比[13], PDO(points to double the odds)表示使增加一倍需要增加的数值,P0表示设置比例为θ0的特定点分值, 表示转换后的分数,PDO及P0均为常数。通过调节这2个常数,控制最终输出焦虑分数的区间范围,得到基于里程焦虑识别模型的预测结果,最终将输出用户的里程焦虑分数。
在具体实施过程中,将焦虑分数控制在[0,100]区间。分数越高表明用户的里程焦虑程度越高,分数越低表明用户里程焦虑程度越低。然后根据分值划分出不同区间,分成A、B、C、D、E 等5个等级,分别对应重度里程焦虑、中度里程焦虑、一般里程焦虑、轻微里程焦虑、没有里程焦虑。
4 模型实例验证及应用
4.1 模型应用
将模型部署至大数据云平台,通过实际线上运行数据分析,满足模型数据要求的车辆共计50 626辆,其里程焦虑等级分布如表2所示。
表2 平台用户里程焦虑等级分布
为用户增加了里程焦虑方面的描述维度,如图7,描述了某用户驾驶行为画像,该用户为重度里程焦虑等级。为分析里程焦虑程度与用户性别、年龄、职业、教育程度、收入等群体特征间的关系,将具有相同里程焦虑等级的用户特征信息进行分类汇总,以某分类特征出现的频次绘制词云图,可从直观上体现某焦虑等级的用户群体画像,图8描述了重度里程焦虑等级用户群体画像。
图7 A等级焦虑群体用户画像
图8 某用户画像
4.2 模型实例验证
为了验证上述里程焦虑程度判定模型的准确性与普遍性,设计调查问卷以得出用户实际焦虑程度。调查问卷共计24题,分为基本情况调查5题、电动汽车了解与感知5题、出行行为调查4题、里程焦虑方案调查10题,4个主要维度进行问卷设计。调查问卷通过转换输出用户焦虑程度等级。焦虑程度等级包括重度、中度、轻微、一般、没有焦虑5个等级。
从大数据平台车辆用户中随机抽取300名用户样本进行问卷调查,回收有效问卷272份,然后将每个用户通过问卷输出的焦虑程度等级结果和模型输出的焦虑程度等级结果进行比较,结果如表3所示。其中260名用户的问卷焦虑等级和模型输出的焦虑等级一致,计算模型预测的准确率为95.6%。
表3 2种方式判定结果对比
结果表明:本文采用的基于用户使用行为习惯的里程焦虑模型预测是可行的,并具有较高的准确度。
5 结 论
本文以识别不同用户间里程焦虑程度的差异为目标,基于车联网用户使用行为数据,提出一种分析和识别用户里程焦虑及焦虑程度的方法,并在某大数据平台实现了方法的集成验证。
通过大数据平台运行及实例验证表明,该模型方法能够有效识别、判定用户里程焦虑程度等级,并结合用户基础信息、地域、车型等多维度信息,实现了对不同里程焦虑等级用户群体及单个用户进行大数据画像分析,为进一步大数据应用提供了基础。