基于多元线性回归模型的二手车保值率分析
2021-06-03周宝建林佳慧厦门大学嘉庚学院
周宝建 林佳慧 厦门大学嘉庚学院
一、引言
2020年1月,新冠疫情席卷全球,我国疫情在第二季度得到较好的控制,叠加产业刺激政策和厂商促销,汽车消费需求得到了回补,乘用车市场也已呈现“V”型反转。[2]作为中国汽车市场的重要组成部分——二手车市场恢复较为迅速,1-7月累计交易759万辆,同比增长3.5%。虽然交易增速不及前几年水平,但整体市场规模稳步扩张,我国二手车市场已进入一个新发展阶段,行业持续向好的态势十分明朗,2020全年交易量有望达到1400万辆的历史高位。[3]
二手车的自由交易和流通使得二手车市场逐渐活跃起来,二手车交易也越来越受到人们的青睐。[4]此时,二手车保值率成为衡量二手车市场的重要指标。其中,汽车的上牌时间、行驶里程、排量、变速类型、品牌及有无过户等,是影响二手车保值率高低的重要指标。瓜子二手车是近年来较为热门的二手车交易网站,本文通过分析其2020年4月6000条二手车交易信息并使用多元线性回归进行分析,使数据更加清晰易懂,让行业参与者明晰二手车保值率的影响因素,优化决策。
二、二手车市场分析
近二十年来,我国二手车交易数量急剧增加,截至2019年上半年,二手车的交易量达到了1382万辆,但是随着交易量的增多,二手车的交易市场也开始出现一系列的问题。这些问题的原因是因为买卖双方的信息不对称,导致二手车的价格不明确,车辆信息存在不准确或者不清晰的情况。对于二手车的买家来说,如何利用卖家提供的车辆信息准确地评估,了解目标车辆的详尽状况,掌握更多的不同品牌不同车况在资料,更加接近买家的需求。只有这样,买家才有机会用合适的价格买到心仪的车辆。
三、二手车的评估方法
二手车常用的评估方式,有现行市场法、重置成本法,神经网络、基于特征价格理论分析等等算法。其中重置成本法应用较为广泛,它具有实用性强,应用广,技术发展成熟等优点,但是同时也有着工作量大,计算时考虑因素单一,缺乏规模化和客观性以及信息不对称等缺点。本文则利用多元线性回归方程,试图给二手车买家提供更多的可行的建议。
四、数据预处理
对爬取的二手车数据进行清洗,对其中的缺失值以及噪声数据等进行处理,进而得到干净的数据,并对部分数据进行转换,使其成为可以适应数据挖掘需求的形式。通过可视化展示,对数据的分布情况有一个初步的了解。
(一)数据来源
瓜子二手车直卖网于2015年 9月27日正式上线。实时在售个人车源量超过15 万台,业务覆盖面广,增长速度蝉联数年行业第一,并于2015年11 月,斩获“2015中国汽车金引擎奖之最佳C2C二手车电商平台”。[5]
本文收集了来自瓜子二手车直卖网交易平台截至2020年4月16日的6000辆二手车数据,经过清洗后,最终剩余5478条数据。其中包含的样本量n=5478辆车。因变量由汽车的原价和报价两个部分构成,定义保值率=车主报价/新车指导价,将自变量分为五个部分,即车龄、使用里程、动力情况、品牌和过户情况。
(二)数据清洗
数据挖掘中所使用的数据基本都是来自日常的生产、生活以及商业上的实际数据,并且这些数据通常情况下是不完整的、含噪声的、存在上下不一致的状况,因此,使用这样的数据之前,需要对数据进行预处理,剔除数据中的噪声,恢复其完整性和一致性。本文主要利用删除法和插补法处理数据集中的空缺值,插补法利用了均值插补和回归插补。在噪声数据处理上则主要利用离群点分析和小波去噪去除了数据集中的异常值,在合理的范围内尽可能的降低分析中会造成的误差。
其中离群点分析,是剔除所有数据中与其他数据一般的行为和特征不一致的离群点,这些离群点往往是测量或者执行误差以及数据本身的可变性、弹性所导致的。将其剔除可以避免其对后续数据分析的干扰。
五、描述性统计分析
对于收集到的数据,通常使用统计图表来探索其规律。在对二手车保值率的影响因素进行建模之前,首先对各变量进行描述性统计分析,以初步判断二手车保值率。
(一)品牌
数据集中,主要涉及30个品牌,数目最多的品牌是大众,有867辆二手车在售,超过100辆在售的品牌有13个,其中位于前五的分别是:大众、奔驰、本田、别克、宝马。
(二)过户情况
车辆过户即变更车辆所属人名称,汽车户口主要登记汽车所有者和住址,以及相关的一些汽车参数,成功过户的汽车证明此辆汽车没有肇事和违章,这是购买二手车辆的必经环节。而0过户车辆表示该车属于个人一手车,一般而言车况会好于有过户次数的车辆,所以在二手市场上也相对更为受到欢迎。该数据集中非0过户车辆占比57.2%平均保值率58.91%,而0过户占比42.7%,平均保值率为61.75%.
(三)购买年限
大多数情况是,购买年限称为车龄,是在购买二手车首要参考的要素之一。由数据可视化结果可知,在二手车市场中,在售车辆的购买年限以4-6年为主,且由中位数和平均数结果可知,主要集中在5年左右。
(四)动力情况
接下来要探索的是汽车的动力情况与保值率高低之间的关系,动力情况主要由排放标准、汽车排量、最大马力和动力类型组成,具体情况由下图4二手车动力情况分布图所示。通过描述性统计分析可以发现,汽油车保值率要高于电动汽车等其他二手车的保值率,拥有国五排放标准的二手车保值率高于其他排放标准的二手车,这大概是由于国五排放标准的车辆更容易外迁入其他省市,同时国五排放标准的汽车也更加环保,这也体现了人们对环保问题的重视。
六、多元线性回归分析
事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或者估计因变量,比只用一个自变量进行预测和估计更有效更符合实际。[6]
在二手车市场,一辆二手车的保值率可能与多个因素相关,假设保值率与二手车车龄、使用历程、变速方式品牌、上牌时间等因素有关,就需要用多元线性回归对保值率进行相关分析与预测。
(一)设线性回归模型为
通常用普通最小二乘法求解回归系数,其原理是使各个观测点处的偏差平方和达到最小,即:
解之可得
(二)训练
将数据集分为训练集和测试集,按80%和20%的比例进行划分。并通过python多元线性回归模型,运行代码得到图5以及系数与截距:
系数:[[-1.39006833e-03 4.48794761e+00-6.87926757e-01-4.49983546e+00]]
截距:[82.94606317]
(三)显著性检验
对多元线性回归模型进行显著性F检验,以此来判断全体自变量是否在总体上对因变量产生显著的影响。构造F检验统计量对总体进行显著性检验。
结果显示,该线性回归模型的拟合优度为。0.778,说明拟合的该模型拟合效果较好,模型中各个变量均通过了显著性检验,并且变量的系数也与经济意义相符,其中上牌时间、行驶里程、过户次数等变量的系数为负,说明这几个变量与二手车保值率之间是负相关的,二手车保值率随上述几个变量的增加而降低。
七、二手车购置建议
(一)变速类型
车辆的变速器主要分为自动和手动,购车的首要考虑的是个人喜好问题,另外还要从维修角度考虑,如果是手动变速器且质量好一点的汽车,十年之内变速器一般不会坏,只要定期更换变速器油即可。[8]但自动变速器车除了更换自动变速器油,可能其内部零件已磨损严重,所以购买以前一定要了解清楚维修情况。
(二)车龄
一般情况下,使用3年左右的汽车已经度过了磨合期,[9]且较大部分的汽车已经做了保养,适宜购买。
(三)品牌
一般畅销和口碑较好的汽车保值率较高,如德系里的大众,日系里的丰田,韩系里的现代等。
(四)行驶里程数
一般来说,行驶里程数与车况成反比,一年行驶2万千米是较为正常的。
(五)排量
汽车的排量与油耗直接相关,一般情况下购买二手车时性价比是重要参考因素,因此选择排量较小的车更为合适,且汽车的排量越大则车船税务就会越大,这也需要考虑在内。[10]
八、结论
近十年来,随着国民生活水平不断提高,家用汽车更新换代频率显著提高,二手车市场交易非常活跃,合理科学地确定二手车的保值率对购买二手汽车的客户来说意义重大。[7]本文从大数据角度出发,以瓜子二手车直卖网上的在售二手车作为研究对象,利用描述性统计与多元线性的方法对二手车保值率的影响因素进行了深入研究,得到如下结论:
从使用状况层面上来看,车龄和行驶里程对二手车保值率的高低有着重要的影响,车龄1-5年的二手车和里程数九万公里以下的二手车拥有较好的保值率。从基本属性层面来看,汽车品牌、是否过户都会对保值率的高低产生一定的影响,例如汽车品牌变量,人们对品牌的偏爱会促使人们买特定品牌的汽车。从动力情况,排放标准、汽车排量、最大马力、动力类型、变速等对保值率的高低有着一定的影响,人们更乐意购买排放标准更高的二手车。排量决定了汽车的油耗,这也是普通家庭在购车中需要考虑的因素。