二手车质量评估模型的研究
2018-01-13张子实
张子实
【摘 要】目前,人们对汽车的需求量越来越大,在购车时会更加关注汽车的性价比,因此,有很多消费者开始关注二手车市场,经济且实用的二手车成了很多有购车需求的潜在购车用户的考虑对象。在这样的背景下,本研究对影响二手汽车质量的因素进行分析、研究,以便经销商和消费者更好预测未来购入二手车的质量好坏。只有对二手车的车况做出正确的判断才能,才能降低买到质量不好的车的风险。本文根据Carvana公司提供的数据资料建模分析,使用统计学方法,选择最优的回归模型,根据所得到的模型分析哪些是判断车况好坏的主要影响因素,运用测试数据来预测并分析结果。并对依次二手车市场的发展提出了一些建议。
【关键词】二手车;质量评估;logistic模型;决策树;SAS-EM
引言:
1970年,著名的经济学家乔治·阿克尔罗夫撰写发表一篇小论文,从此有了逆向选择理论的先例。乔治的论文提出了,在二手汽车的汽车市场,买卖双方拥有的车辆信息严重失衡,卖方掌握车辆大部分的情况,但却在卖车时,未能将车辆的不利信息传递给买方,买方只能通过讨价还价来降低价格以避免买到低质量的二手汽车,这导致卖方不愿提供高品质二手汽车,最终导致质量较差的二手汽车充斥在市场,而好车退出市场,最后形成了一种市场的无效率性(好车全部退出市场),产生了经济学中的逆向选择,这就是所谓的二手车柠檬(瑕疵)市场[1-3]。
美国二手汽车市场已相对较为成熟,拥有较为完善的标准法规体系——柠檬法,拥有多样的交易方式——汽车交易、品牌的车行、线上交易、C2C交易、拍卖行等[4-6],拥有质量认证制度及完善的价格评估体系——《汽车经销商二手车价格指南》、《凯利蓝皮书》等,拥有优质的售后服务和使用环境,也通过建立权威性较高的评比机构(ALG)通过对二手汽车价格的评估来应对二手汽车的柠檬市场。
由于二手车市场越来越受到重视,因此,二手汽车的经销商所承担的风险就越来越大,只有对二手车的车况做出正确的判断才能,才能降低买到质量不好的车的风险。二手车市场往往存在销售的过程中信息不完全的现象,对于经销商和消费者来说,在二手汽车市场中购买二手汽车时,容易获取不到真实有效的信息,如该车虚假告知二手汽车相关的零部件使用寿命等。这就要我们考虑多方面的变量观测二手车的质量。通过本文的研究,可以建立多变量的logistic模型对二手汽车市场柠檬效应等问题的缓解作用,对实践具有指导意义。本文通过SAS-EM软件建模,根据现实市场上二手车数据,对二手车质量指标进行了分析,确立一个较好的判别模型,从而为消费者提供更好的汽车,减少公司损失,并对二手车市场发展提出了一些建议。
一、研究背景
美国的二手汽车交易量大,并且早已经是规模效应,二手汽车的交易量已经大大超过该国新车的成交量,且通常情况下是新车交易量2倍以上。相关数据资料表明,西方成熟的二手汽车交易市场中,一辆汽车报废周期年限平均为8—12年,但汽车更新周期年限平均小于4年,由此可见二手汽车的市场有很大的发展空间,其中的效果是显而易见的[7-10]。
二手车价格相对较低,市场供求平衡。美国的现代家庭不可或缺的交通工具就是轿车,由于消费者的层次性,因而对轿车的需求条件也会产生不同。部分中产阶级及以上最看重的是车的可靠性,对价格关注较少,使用年限一般都少于5年,因此此类消费者购车新车较多;大多数中产阶级以下的人是二手汽车的主要客户群,他们主要考虑了汽车的使用成本方面。一辆二手汽车的价格大多数只有新车价格的50%左右,并且此类二手汽车再使用2—4年其性能依旧可靠,二手汽车使用后的价值损失相对新车要少很多。该类二手汽车当再次被卖掉转手的时候,车价仅仅相当于新车价格的20%—30%,最终购买者一般为学生或低收入者[11]。
美国二手汽车大多数早已形成了二手汽车品牌专卖、二手汽车拍卖、二手汽车的连锁经营、大型汽车超市及二手汽车专营等,再加上二手汽车立体式的经营模式,如置换、直销、代销、拍卖及租赁等,已经形成了一个庞大的产业链,整个二手汽车市场的相关体系已经相对完善[12-15]。
现今,越来越多的消费者习惯于线上交易,不仅缩减中间交易成本,而且改善了信息不对称问题。美国的Carvana公司应运而生。Carvana是一个二手车交易平台,在其网站上,顾客可以完成二手车的快速浏览、搜索和在线购买。Carvana网站上会列出顾客感兴趣的汽车信息,比如汽车规格、评定等级以及人们对它的看法等等信息。顾客们甚至能通过一场虚拟旅行看到车身上的刻痕和划痕。一旦顾客选中车辆并付款,该公司会在七天时间内将车辆运送到顾客身边。与其他线上交易平台不同的是:Carvana是一个在汽车垂直领域的综合型的商业模式,集成了购买、修理、售车信贷等功能。Carvana不仅是一个在线交易平台,可以实现直接从C端、运输公司和拍卖行购买二手车,卖给消费者。
Carvana这样的模式省去了中间费用,于Carvana(经销商)和顾客都可以受惠。但是仍然存在由于C端、运输公司和拍卖行的对二手车信息隐藏的问题,导致将质量较差的二手汽车卖给客户,一方面经销商花费昂贵的运输成本及从卖方获得所有权,一方面经销商要花费巨额修车费用,使得经销商在转售市场有很大的损失风险,而且对公司的信用造成影响。所以Carvana提供了七万多个调查样本数据,希望可以建立一套有效的判别机制,减少公司的损失。
二、研究假设
(一)变量说明
本研究中所选取的变量为8个变量,其中,Isbadbuy是因变量,是研究的目标,其含义是购买的二手车质量是否有问题,类型为二值型;自变量有VehicleAge(汽车的使用年限),Nationality(出产国是否为美国),Transmission(手动挡还是自动挡),Vehodo(汽车里程数),MMRAcquisitionAuctionAveragePrice(二手车购买价格),MMRAcquisitionRetailAveragePrice(市場上的零售价格),Isonline(是否线上销售),各变量的具体说明具体如表格3-1所示。endprint
(二)提出假设
研究的目的是在于降低经销商购买到次品的风险,通过已知的自变量对因变量作判断,并通过数据挖掘技术建立模型,通过信息识别规避或者降低风险。获得信息的准确程度和全面程度也是影响预测的因素。以资产的三大贬值理论为主线,对影响二手车价值的因素进行系统的研究。即从实体性、功能性、经济性三个方面探索影响二手车价值的因素
(三)理论模型
本文研究的因变量是是否二手车质量不好,及“是”或“否”,为两分类变量,自变量就包括很多,有二手车使用年限、出产国家、购买价格等,自变量既有连续的,也有分类的。所以,本文采用的理论模型是logistic回归模型,通过logistic回归分析,就可以大致了解到底哪些因素是二手车质量不好的危险因素。
Logistic回归模型用途有:1、寻找危险因素。2、预测,如果已经建立了logistic回归模型,则可以根据模型,预测在不同的自变量情况下,事件发生的概率有多大。3、判别,实际上跟预测有些类似,也是根据logistic模型,判断二手车属于质量不好的车的概率有多大。这是logistic回归最常用的三个用途,实际中的logistic回归用途是极为广泛的,logistic回归尤其在流行病学和医学中最为常用。
三、研究方法
本研究的数据来源于Carvana公开的数据,数据总量为72983个。本文使用的研究工具是SAS-EM软件,对缺失值的采用平均值替代法。
数据的可靠性、完整性、有效性是数据挖掘成功最基本的保障,因此,数据预处理尤为重要。数据预处理主要对不符合要求的数据进行数据清洗,本研究的数据预处理主要包括以下几个步骤:
1)图形探索。有两个目标,第一,作单个变量的直方图,观测变量的分布情况,判断变量是否为近似正态分布的;第二,变量之间两两作散点图,观察散点图的分布情况,判断自变量之间是否存在线性相关性。
2)统计探索。有两个目标,第一,获得各变量缺失值的结果,判断是否需要进行下一步补缺;第二,看各变量的峰度与偏度,判断自变量的分布情况。
3)补缺。选用平均值替代法补缺。
4)数据分区。将数据分为训练数据集和验证数据集两个区,各占总样本的50%。
5)变量选择。对自变量变量根据R2进行筛选,选择影响较为显著的变量,从而帮助后面建模更有效。
本文使用的是SAS-EM软件,通过导入数据源、数据预处理、建立模型、模型评价等步骤得出结果进行研究。使用SAS-EM软件建模的基本流程图具体如图3-1所示。
在软件中应用分析流程所实际操作步骤如图3-2所示,先导入数据源,然后对数据进行图形探索和统计探索,对数据补缺之后,进行变量的选择,选择好变量将样本数据分区,然后建立回归模型和决策树模型,建好模型后进行模型评估,最后用test数据进行最后的评分,如图3-2所示。
四、研究结果及分析
(一)描述性统计和数据预处理
对各个变量作直方图,观测变量分布,具体结果如图4-1、4-2、4-3、4-4所示。
根据上图所示,除二值型的自变量以外,二手车购买价格、市场零售价格、二手车使用年限以及二手车的里程数所作的直方图均近似正态分布,样本中的数据质量较好,初步满足建模的要求。
在图形探索中对研究中的各自变量两两作散点图,以观测自变量之间是否存在共线性。具体结果如图4-5、4-6、4-7所示。
根据上图显示,二手车购买价格和市场零售价格所作的散点图呈现出明显的线性关系,所以二手车的购买价格和新车在市场的零售价格两个自变量相互不独立,存在多重共线性,违背了多元回归模型中解释变量之间互不相关的基本假设,所以需要剔除模型中次要的或可替代的解释变量,以消除多重共线性。具体变量筛选在下文介绍。
通过对原始数据进行分析, Isbadbuy 、Nationality、 Transmission、 Isonline四个二值型的变量都没有缺失值; VehicleAge、Vehodo、MMRAcquisitionAuctionAveragePrice、MMRAcquisitionRetailAveragePrice四个自变量的偏度和峰度值都比较小,和直方图显示的结果相符合,说明自变量的分布良好,符合建模的要求。MMRAcquisitionAuctionAveragePrice、MMRAcquisitionRetailAveragePrice两个自变量存在缺失值各18个,所以采用均值插补的方法进行补缺,共填补缺失值18个。
(二)筛选变量
本研究中使用变量选择,根据R2的值对变量进行筛选,选择对因变量影响效果较为显著的自变量,从而建立更有效的模型。筛选后的结果是:自变量为:VehicleAge、Vehodo、MMRAcquisitionAuctionAveragePrice;因变量为:Isbadbuy。下面的研究都是基于筛选过后的变量进行研究的。
(三)建立模型的结果及分析
本研究中的因变量是二值型变量,所以建立的是logistic模型。软件SAS-EM建立回归模型的结果如图4-8所示。
从结果中我们可知,常数项、MMRAcquisitionAuctionAveragePrice(x1)、Vehodo(x2)、VehicleAge(x3)的参数检验P值都小于万分之一,都通过了参数检验,表明这个回归模型是显著的。常数项和MMRAcquisitionAuctionAveragePrice的参数是小于0的,说明影響是负向的;Vehodo和VehicleAge的参数是大于0的,说明影响是正向的。
(四)建立决策树模型endprint
本研究不仅建立了回归模型,同时建立了决策树模型。建立的决策树模型如图4-9所示。
根据图中决策树的结果来看,当变量VehicleAge<3.5时,如果MMRAcquisitionAuctionAveragePrice<18176,那么,训练数集Isbadbuy是0的可能性为93.11%,验证数集Isbadbuy是0的可能性为92.73%;如果MMRAcquisitionAuctionAveragePrice>=18176,那么,训练数集Isbadbuy是0的可能性仅为12.50%,验证数集Isbadbuy是0的可能性为25.00%。此时的决策树,能较好的预测和判别Isbadbuy的类别,叶子都相对较纯。
软件直接建立的模型如上,但是VehicleAge的重要程度为1.00,所以研究时拒用二手车使用年限的这个变量,使用交互式的方法,自己重新建立决策树,但是得到的结果没有系统建立的好,叶子的纯度都不高,所以最后选择软件所建立的决策树,即上面所分析的决策树。
(五)模型对比和评价
本研究建立两个模型,分别是回归模型和决策树模型,那么就要对模型进行对比和评价,以选出最优的模型作为研究所得到的模型。模型对比所要观测的指标有R2值,MAPE、MAP,信息准则:AIC,ROC图。本文所观测的指标有ROC图和AIC的值。ROC结果如图4-10所示。
根据ROC图所示,红色线是回归模型,蓝色线是决策树模型,红色线所包含的面积大于蓝色线的面积,所以回归模型好于决策树模型。根据AIC值看,回归的AIC值小于决策树的AIC值,所以也是回归模型更优。回归模型为本研究所选用的模型。
五、结论与建议
(一)结论
目前,人们对汽车的需求量越来越大,他们的消费思想不断改变,更加注重车辆的实用和经济,也更加现实和理性,不再认为拥有车就是有高身份高地位,他们在购车时会更加关注汽车的实用性,因此,有很多有购车欲望的消费者幵始关注二手车市场,经济且实用的二手车成了很多有购车需求的潜在购车用户的考虑对象[17]。在这样的背景下,对影响二手汽车质量的因素进行分析、研究,以便经销商和消费者更好预测未来购入二手车的质量好坏。只有对二手车的车况做出正确的判断才能,才能降低买到质量不好的车的风险。所以本文对二手车质量的评估做了系统的研究。
本文根据Carvana公司提供的数据资料建模分析,使用统计学方法,选择最优的回归模型,根据所得到的模型分析哪些是判断车况好坏的主要影响因素,运用测试数据来预测并分析结果。最终得到的研究结果如下:
(1)從功能性、经济性、实体性三大贬值理论入手选取了各方面的变量并对其量化之后作为自变量,研究这些变量对二手车质量的影响情况。经过研究得到logistic回归模型:
模型的参数检验P值都小于万分之一,回归模型显著。从模型中我们可知,常数项和MMRAcquisitionAuctionAveragePrice的参数是小于0的,说明影响是负向的;Vehodo和VehicleAge的参数是大于0的,说明影响是正向的。
(2)在建立回归模型之后,使用同样的变量建立决策树模型,模型规则如下:当变量VehicleAge<3.5时,如果MMRAcquisition Auction Average Price<18176,那么,训练数集Isbadbuy是0的可能性为93.11%,验证数集Isbadbuy是0的可能性为92.73%;如果MMRAcquisitionAuctionAveragePrice>=18176,那么,训练数集Isbadbuy是0的可能性仅为12.50%,验证数集Isbadbuy是0的可能性为25.00%。此时的决策树,能较好的预测和判别Isbadbuy的类别,叶子都相对较纯。
根据ROC图和AIC的值,logistic回归模型优于决策树模型。
(二)建议
本文通过对二手车质量影响因素的研究,根据得出的结论,得到了关于提高二手车质量识别的一些启示,本文提出以下识别措施,希望能提供一些借鉴和参考。
(1)建立一套科学、完善的具有强大数据库支持的信息化系统
对于二手车的质量,经销商和消费者处于信息劣势,这会增加消费者购买二手车的风险,进而降低其购买意愿。因此本文建议Carvana公司可以建立一个完善的数据库支持的信息系统,一方面可以让消费者能了解二手车的真实信息,并且可以知道二手车的参考价格,另一方面二手车经销商可以获得更多的车源,方便地区间的资源调剂,推动不同地区间的二手车经营主体的交流,加快各地二手车市场的发展。
(2)建立一个专业的二手车鉴定评估部门
针对二手车鉴定评估随意性大,消费者感到的风险较大等问题,为了减低消费者的质量风险,建议Carvana公司可以成立一个专业的车辆检测部门,根据评估模型,评估二手车的质量。除了理论上对二手车评估之外,同时还应该设有专业的检测设备,不只依靠检理论评估做出判断,让有意购买二手车的消费者无后顾之忧。
(3)扩大公司宣传,注重营销的长远利益
消费者的购买行为很大程度上要受到相关群体的影响,口碑效应变得越来越重要,Carvana公司在二手车营销过程中,不能只关注于短期利益,要注重长远利益,改善二手车购买平台,提升自身的营销服务和售后服务,诚信经营,才能在消费者的心中树立良好的形象,让消费者对二手车充满信心。
【参考文献】
[1] 阿克尔罗夫. 柠檬市场:质量不确定性和市场机制[J]. 经济导刊,2001,6:12-15
[2] 张礼军. 美国二手车市场模式研究[J]. 上海汽车,2010,10:54-58
[3] 张波. O2O:移动互联网时代的商业革命[M]. 北京:北京机械工业出版社,2013
[4] Urban, Glen. L, John R. Hauser. Design and Marketing of New Products[M]. Prentice Hall: Englewood Cliffs, 1993
[5] Naumanne. Creating Customer Value[M]. Cincinnati: Thomson Executi Ve Press, 1995
[6] 王文昌. 解决七大问题促进品牌二手车健康快速发展[J]. 中国汽车市场,2007,10: 54-56
[7] 迈克尔 波特. 竞争战略[M]. 陈小悦译. 北京: 华夏出版社, 2003
[8] 同晶. 二手车消费者购买决策模型研究[D]. 西安:长安大学, 2013
[9] 丁礼灯.从消费者行为看二手车经营模型和评估体系的发展[J]. 科技业,2008,11:18-22
[10] 邱俊杰. 二手市场的博弈论解释[J]. 商业现代化,2009,3:170-171
[11] 周亮. 基于可比影响因素及筛选方法的二手车价格研究[J]. 信息系统工程, 2011, 24(4): 131-139
[12] 王惠东. SUV汽车消费行为实证研究[D]. 天津:天津大学,2010
[13] 肖立. 消费者行为学[M]. 北京:中国农业大学出版社,2011
[14] 李萌. 二手车评估[M]. 北京:北京理工大学出版社,2010
[15] 盖国凤. 影响二手车市场消费者购买行为的因子分析[J]. 吉林工商学院学报,2009,5:16-19
[16] 石永东. 汽车购买行为模型及其评价[J]. 汽车工业研究,2003,2:23-26
[17] 王丽芳. 论信息不对称下产品外部线索对消费者购买意愿的影响消费[J]. 经济,2005,(2):41-42endprint