基于数据挖掘技术的二手车性能评估模型研究
2014-10-28曹静娴
摘 要:近来年我国二手车市场发展迅速,但市场不够规范,主要依靠人为判断,评估不客观,甚至在鉴定评估过程中,有故意隐瞒车辆质量问题、以次充好等欺骗消费者现象,给二手车市场造成不良影响。本文利用数据挖掘技术中的决策树、logistic回归和神经网络对205个二手车数据进行分析,利用相关数据资料分别建立不同的二手车性能评估模型,实现了对二手车性能的多种复杂混合因素一定程度上的定量分析。
关键词:二手车性能评估;数据挖掘;决策树;logisticl回归;神经网络
一、二手车评估的现状和发展
虽然2011年的二手车销量为433万辆,是2000年25万的16.3倍。但是还不到新车销量的1/4,这说明我国二手车市场还存在很大的发展空间。而鉴定评估缺乏科学统一的标准,对二手车市场的发展都有较大影响。与传统主观简单的评估方法相比,评估模型优势明显。在数据挖掘技术中主要的预测模型有决策树、Logistic回归和神经网络三种。决策树模型是一个逐层分隔的形式,而Logistic回归属于广义线性模型,神经网络模型提供了一个灵活的拟合形式。
二、二手车性能评估模型的构建
1.数据预处理、数据探索与数据清理
数据挖掘技术对数据有一定要求,所以要先进行不完整数据、噪音数据、不一致数据的预处理。主要有数据清洗、数据集成与转换、数据约减等三个过程。本文所用205个实验数据、包含11个变量,数据量较少。
表 原始实验数据属性
下面对表中各变量进行分析处理:
(1)数据特征探索:利用insight节点,对各变量及目标变量进行可视化分析,探索各变量的关系、含义和特点,为建模做准备。发现各变量缺失比例在2%以下,因此缺失变量可以忽视;(2)设定目标变量。建立target,当Performance Cost等于1时表示这是一个性能高的二手车;Performance Cost等于0时表示该二手车的性能比较低。建模的目标就是要从数据中挖掘出性能高与低的二手车的不同特征,在模型审批过程中能自动将二者区分开来;(3)变量price与Performance Cost高度线性相关,因此rejected。highway mpg与city mpg高度相关,重复了,因此拒绝其中一个,本模型是拒绝的highway mpg;(4)观察目标变量的分布,可以看到性能高的二手车与性能低的二手车的比例分别为62%与38%。因此在数据分区的时候选择用分层抽样;(5)分层抽样。训练集与验证集的比例分别为60%,40%;(6)数据的转换。通过观察数据的分布可以看到engine size,Compression ratio,horsepower,price变量不是类似于正态分布的,因此对其进行正态化处理;(7)虽然缺失数据比例很小,但是为了建模的严谨,还是添加了replacement节点,用决策树方法对缺失的数据进行处理。
2.模型的建立
(1)决策树
因为决策树本身具有处理缺失值的能力,可直接将未经过缺失数据替换的原始数据作为输入数据。本文采用熵不纯性的降低作为节点划分标准,采用二叉树进行建模,设置树:j最大深度为6,最小叶子观测数为5。从模型输出结果得,SAS自动设置的模型中当生成有6个叶子节点的决策树时,训练样本集细分误分率为9.09%,检验样本集细分误分率为7.14%。
决策树模型的综合评价:输出结果得出在“性能高的二手车”历史记录中有87.5%的预测值为“性能高的二手车”。在“性能高的二手车”纪录中有12.5%的预测值为“性能低的二手车”。模型将3.846%的“性能低的二手车”预测为“性能高的二手车”;将历史纪录中96.154%的“性能低的二手车”预测为“性能低的二手车”。由评价结果可知,该决策树对性能低的二手车的正确判断率达了96.154%的较高水平,而对性能高的二手车的正确判断率也达到了87.5%,该决策树对性能低的二手车的预测准确率更理想。
(2)logistic回归建模
借助回归节点建立模型,采用logistic回归方法,回归方式设置为backward,input coding选择GLM。从模型输出结果图得出,误分率标准表明,训练样本集误分率为9.92%,检验样本集误分率为11.9%。
Logistic模型的预测准确率:模型将84.375%的“性能好的二手车”预测为“性能好的二手车”,将15.625%的“性能好的二手车”预测为“性能差的二手车”。有90.385%的“性能差的二手车”被预测为“性能差的二手车”,剩下9.615%的“性能差的二手车”被预测为“性能好的二手车”。可见回归模型对性能好的二手车预测的准确率没有决策树模型高。
(3)神经网络建模
神经网络建模:借助神经网络节点建立模型,网络采用输入、隐层、输出三层结构,其中隐层节点设置3个变量,其他设置采用软件默认设置。从模型输出结果图可以看出各种模型评价标准,其中误分率标准表明,训练样本集细分误分率为7.43%,检验样本集细分误分率为8.33%。从训练过程得知训练误差随训练次数单调减少。选择最佳的训练次数为7,此时的验证误差最小。
神经网络模型的预侧准确率:模型将87.5%的“性能好的二手车”预测为“性能好的二手车”,将12.5%的“性能好的二手车”预测为“性能差的二手车”。有94.23%的“性能差的二手车”被预测为“性能差的二手车”,剩下5.77%的“性能差的二手车”被预测为“性能好的二手车”。回归模型一样,对性能差的二手车的预测的准确率比对性能好的二手车的预测的准确率高。
3.模型的比较评估
由于数据挖掘模型有时会造成过度拟合,所以要对模型的正确性进行判断,保证预测可靠。在选择解释变量的时候,注重的是它们解释目标变量的能力。但是当有很多的解释变量时,并不能断定出总体的性质。因此有必要对于模型的有效性进行评估,以保证模型的可靠稳健。本文所用数据只有205条,在分拆后建模难度增大,训练,验证两部分结果有一定差距。尽管如此,我们仍可以从实验的结果中获得一些有意义的结论。
决策树,logistic回归,神经网络模型的比较:不同模型在不同数据集上的误差率比较和lift图
综合训练数据集和验证数据集的结果,对三个模型进行比较评价。从误差率基于数据挖掘技术的二手车性能评估研究的比较表中可以看出,决策树模型和神经网络模型的准确率最高。神经网络在训练集上误分率低,但在验证集上误分率增大比较多,有“过拟合”的现象。从lift图上来看,几个模型的效果都比较好。综合来看,选择决策树模型。
最后得到的规则是:
性能好的二手车:
(1)horsepower>=94.5 &engine size>=158.5
(2)horsepower>=94.5 &enginesize<158.5 &fuelsystem=mpf
i&city mpg<22
(3)horsepower>=94.5 &engine size<158.5&fuel system=mp
fi &city mpg>=22 &Compression ratio>=9.45
然而以上都不是最好的评价标准,原因是没有考虑到类型I错误和类型II错误的代价不同。如果两者代价相同,则考虑误分率是最佳的标准,但现实中往往不是如此。
三、总结
二手车模型评估应建立在大量数据的统计结果之上,才具有准确性和可靠性。它通过卖家填写的有关二手车的资料,可以快速、有效地辨别和划分二手策划的优劣,实现二手车较为公平的交易。另外,通过数据挖掘发现的一些新模式,可以进一步调整客户二手车模型评估体系,从而为将来完善二手车模型评估体系起着重要作用。随着我国二手车各项制度的建立、相应法律环境的完善、信息化建设的发展、信息资源共享的实现,数据挖掘技术将成为二手车交易管理的重要工具。
参考文献:
[1]张辉,郑安文.中国二手车市场现状分析及发展对策[J].汽车工业研究,2012(7):10-13.
[2]孟生旺.神经网络模型与车险索赔频率预测[J].统计研究,2012(3): 22-26.
作者简介:曹静娴,女,于2010年9月至2014年7月就读于西南财经大学经济信息工程学院
摘 要:近来年我国二手车市场发展迅速,但市场不够规范,主要依靠人为判断,评估不客观,甚至在鉴定评估过程中,有故意隐瞒车辆质量问题、以次充好等欺骗消费者现象,给二手车市场造成不良影响。本文利用数据挖掘技术中的决策树、logistic回归和神经网络对205个二手车数据进行分析,利用相关数据资料分别建立不同的二手车性能评估模型,实现了对二手车性能的多种复杂混合因素一定程度上的定量分析。
关键词:二手车性能评估;数据挖掘;决策树;logisticl回归;神经网络
一、二手车评估的现状和发展
虽然2011年的二手车销量为433万辆,是2000年25万的16.3倍。但是还不到新车销量的1/4,这说明我国二手车市场还存在很大的发展空间。而鉴定评估缺乏科学统一的标准,对二手车市场的发展都有较大影响。与传统主观简单的评估方法相比,评估模型优势明显。在数据挖掘技术中主要的预测模型有决策树、Logistic回归和神经网络三种。决策树模型是一个逐层分隔的形式,而Logistic回归属于广义线性模型,神经网络模型提供了一个灵活的拟合形式。
二、二手车性能评估模型的构建
1.数据预处理、数据探索与数据清理
数据挖掘技术对数据有一定要求,所以要先进行不完整数据、噪音数据、不一致数据的预处理。主要有数据清洗、数据集成与转换、数据约减等三个过程。本文所用205个实验数据、包含11个变量,数据量较少。
表 原始实验数据属性
下面对表中各变量进行分析处理:
(1)数据特征探索:利用insight节点,对各变量及目标变量进行可视化分析,探索各变量的关系、含义和特点,为建模做准备。发现各变量缺失比例在2%以下,因此缺失变量可以忽视;(2)设定目标变量。建立target,当Performance Cost等于1时表示这是一个性能高的二手车;Performance Cost等于0时表示该二手车的性能比较低。建模的目标就是要从数据中挖掘出性能高与低的二手车的不同特征,在模型审批过程中能自动将二者区分开来;(3)变量price与Performance Cost高度线性相关,因此rejected。highway mpg与city mpg高度相关,重复了,因此拒绝其中一个,本模型是拒绝的highway mpg;(4)观察目标变量的分布,可以看到性能高的二手车与性能低的二手车的比例分别为62%与38%。因此在数据分区的时候选择用分层抽样;(5)分层抽样。训练集与验证集的比例分别为60%,40%;(6)数据的转换。通过观察数据的分布可以看到engine size,Compression ratio,horsepower,price变量不是类似于正态分布的,因此对其进行正态化处理;(7)虽然缺失数据比例很小,但是为了建模的严谨,还是添加了replacement节点,用决策树方法对缺失的数据进行处理。
2.模型的建立
(1)决策树
因为决策树本身具有处理缺失值的能力,可直接将未经过缺失数据替换的原始数据作为输入数据。本文采用熵不纯性的降低作为节点划分标准,采用二叉树进行建模,设置树:j最大深度为6,最小叶子观测数为5。从模型输出结果得,SAS自动设置的模型中当生成有6个叶子节点的决策树时,训练样本集细分误分率为9.09%,检验样本集细分误分率为7.14%。
决策树模型的综合评价:输出结果得出在“性能高的二手车”历史记录中有87.5%的预测值为“性能高的二手车”。在“性能高的二手车”纪录中有12.5%的预测值为“性能低的二手车”。模型将3.846%的“性能低的二手车”预测为“性能高的二手车”;将历史纪录中96.154%的“性能低的二手车”预测为“性能低的二手车”。由评价结果可知,该决策树对性能低的二手车的正确判断率达了96.154%的较高水平,而对性能高的二手车的正确判断率也达到了87.5%,该决策树对性能低的二手车的预测准确率更理想。
(2)logistic回归建模
借助回归节点建立模型,采用logistic回归方法,回归方式设置为backward,input coding选择GLM。从模型输出结果图得出,误分率标准表明,训练样本集误分率为9.92%,检验样本集误分率为11.9%。
Logistic模型的预测准确率:模型将84.375%的“性能好的二手车”预测为“性能好的二手车”,将15.625%的“性能好的二手车”预测为“性能差的二手车”。有90.385%的“性能差的二手车”被预测为“性能差的二手车”,剩下9.615%的“性能差的二手车”被预测为“性能好的二手车”。可见回归模型对性能好的二手车预测的准确率没有决策树模型高。
(3)神经网络建模
神经网络建模:借助神经网络节点建立模型,网络采用输入、隐层、输出三层结构,其中隐层节点设置3个变量,其他设置采用软件默认设置。从模型输出结果图可以看出各种模型评价标准,其中误分率标准表明,训练样本集细分误分率为7.43%,检验样本集细分误分率为8.33%。从训练过程得知训练误差随训练次数单调减少。选择最佳的训练次数为7,此时的验证误差最小。
神经网络模型的预侧准确率:模型将87.5%的“性能好的二手车”预测为“性能好的二手车”,将12.5%的“性能好的二手车”预测为“性能差的二手车”。有94.23%的“性能差的二手车”被预测为“性能差的二手车”,剩下5.77%的“性能差的二手车”被预测为“性能好的二手车”。回归模型一样,对性能差的二手车的预测的准确率比对性能好的二手车的预测的准确率高。
3.模型的比较评估
由于数据挖掘模型有时会造成过度拟合,所以要对模型的正确性进行判断,保证预测可靠。在选择解释变量的时候,注重的是它们解释目标变量的能力。但是当有很多的解释变量时,并不能断定出总体的性质。因此有必要对于模型的有效性进行评估,以保证模型的可靠稳健。本文所用数据只有205条,在分拆后建模难度增大,训练,验证两部分结果有一定差距。尽管如此,我们仍可以从实验的结果中获得一些有意义的结论。
决策树,logistic回归,神经网络模型的比较:不同模型在不同数据集上的误差率比较和lift图
综合训练数据集和验证数据集的结果,对三个模型进行比较评价。从误差率基于数据挖掘技术的二手车性能评估研究的比较表中可以看出,决策树模型和神经网络模型的准确率最高。神经网络在训练集上误分率低,但在验证集上误分率增大比较多,有“过拟合”的现象。从lift图上来看,几个模型的效果都比较好。综合来看,选择决策树模型。
最后得到的规则是:
性能好的二手车:
(1)horsepower>=94.5 &engine size>=158.5
(2)horsepower>=94.5 &enginesize<158.5 &fuelsystem=mpf
i&city mpg<22
(3)horsepower>=94.5 &engine size<158.5&fuel system=mp
fi &city mpg>=22 &Compression ratio>=9.45
然而以上都不是最好的评价标准,原因是没有考虑到类型I错误和类型II错误的代价不同。如果两者代价相同,则考虑误分率是最佳的标准,但现实中往往不是如此。
三、总结
二手车模型评估应建立在大量数据的统计结果之上,才具有准确性和可靠性。它通过卖家填写的有关二手车的资料,可以快速、有效地辨别和划分二手策划的优劣,实现二手车较为公平的交易。另外,通过数据挖掘发现的一些新模式,可以进一步调整客户二手车模型评估体系,从而为将来完善二手车模型评估体系起着重要作用。随着我国二手车各项制度的建立、相应法律环境的完善、信息化建设的发展、信息资源共享的实现,数据挖掘技术将成为二手车交易管理的重要工具。
参考文献:
[1]张辉,郑安文.中国二手车市场现状分析及发展对策[J].汽车工业研究,2012(7):10-13.
[2]孟生旺.神经网络模型与车险索赔频率预测[J].统计研究,2012(3): 22-26.
作者简介:曹静娴,女,于2010年9月至2014年7月就读于西南财经大学经济信息工程学院
摘 要:近来年我国二手车市场发展迅速,但市场不够规范,主要依靠人为判断,评估不客观,甚至在鉴定评估过程中,有故意隐瞒车辆质量问题、以次充好等欺骗消费者现象,给二手车市场造成不良影响。本文利用数据挖掘技术中的决策树、logistic回归和神经网络对205个二手车数据进行分析,利用相关数据资料分别建立不同的二手车性能评估模型,实现了对二手车性能的多种复杂混合因素一定程度上的定量分析。
关键词:二手车性能评估;数据挖掘;决策树;logisticl回归;神经网络
一、二手车评估的现状和发展
虽然2011年的二手车销量为433万辆,是2000年25万的16.3倍。但是还不到新车销量的1/4,这说明我国二手车市场还存在很大的发展空间。而鉴定评估缺乏科学统一的标准,对二手车市场的发展都有较大影响。与传统主观简单的评估方法相比,评估模型优势明显。在数据挖掘技术中主要的预测模型有决策树、Logistic回归和神经网络三种。决策树模型是一个逐层分隔的形式,而Logistic回归属于广义线性模型,神经网络模型提供了一个灵活的拟合形式。
二、二手车性能评估模型的构建
1.数据预处理、数据探索与数据清理
数据挖掘技术对数据有一定要求,所以要先进行不完整数据、噪音数据、不一致数据的预处理。主要有数据清洗、数据集成与转换、数据约减等三个过程。本文所用205个实验数据、包含11个变量,数据量较少。
表 原始实验数据属性
下面对表中各变量进行分析处理:
(1)数据特征探索:利用insight节点,对各变量及目标变量进行可视化分析,探索各变量的关系、含义和特点,为建模做准备。发现各变量缺失比例在2%以下,因此缺失变量可以忽视;(2)设定目标变量。建立target,当Performance Cost等于1时表示这是一个性能高的二手车;Performance Cost等于0时表示该二手车的性能比较低。建模的目标就是要从数据中挖掘出性能高与低的二手车的不同特征,在模型审批过程中能自动将二者区分开来;(3)变量price与Performance Cost高度线性相关,因此rejected。highway mpg与city mpg高度相关,重复了,因此拒绝其中一个,本模型是拒绝的highway mpg;(4)观察目标变量的分布,可以看到性能高的二手车与性能低的二手车的比例分别为62%与38%。因此在数据分区的时候选择用分层抽样;(5)分层抽样。训练集与验证集的比例分别为60%,40%;(6)数据的转换。通过观察数据的分布可以看到engine size,Compression ratio,horsepower,price变量不是类似于正态分布的,因此对其进行正态化处理;(7)虽然缺失数据比例很小,但是为了建模的严谨,还是添加了replacement节点,用决策树方法对缺失的数据进行处理。
2.模型的建立
(1)决策树
因为决策树本身具有处理缺失值的能力,可直接将未经过缺失数据替换的原始数据作为输入数据。本文采用熵不纯性的降低作为节点划分标准,采用二叉树进行建模,设置树:j最大深度为6,最小叶子观测数为5。从模型输出结果得,SAS自动设置的模型中当生成有6个叶子节点的决策树时,训练样本集细分误分率为9.09%,检验样本集细分误分率为7.14%。
决策树模型的综合评价:输出结果得出在“性能高的二手车”历史记录中有87.5%的预测值为“性能高的二手车”。在“性能高的二手车”纪录中有12.5%的预测值为“性能低的二手车”。模型将3.846%的“性能低的二手车”预测为“性能高的二手车”;将历史纪录中96.154%的“性能低的二手车”预测为“性能低的二手车”。由评价结果可知,该决策树对性能低的二手车的正确判断率达了96.154%的较高水平,而对性能高的二手车的正确判断率也达到了87.5%,该决策树对性能低的二手车的预测准确率更理想。
(2)logistic回归建模
借助回归节点建立模型,采用logistic回归方法,回归方式设置为backward,input coding选择GLM。从模型输出结果图得出,误分率标准表明,训练样本集误分率为9.92%,检验样本集误分率为11.9%。
Logistic模型的预测准确率:模型将84.375%的“性能好的二手车”预测为“性能好的二手车”,将15.625%的“性能好的二手车”预测为“性能差的二手车”。有90.385%的“性能差的二手车”被预测为“性能差的二手车”,剩下9.615%的“性能差的二手车”被预测为“性能好的二手车”。可见回归模型对性能好的二手车预测的准确率没有决策树模型高。
(3)神经网络建模
神经网络建模:借助神经网络节点建立模型,网络采用输入、隐层、输出三层结构,其中隐层节点设置3个变量,其他设置采用软件默认设置。从模型输出结果图可以看出各种模型评价标准,其中误分率标准表明,训练样本集细分误分率为7.43%,检验样本集细分误分率为8.33%。从训练过程得知训练误差随训练次数单调减少。选择最佳的训练次数为7,此时的验证误差最小。
神经网络模型的预侧准确率:模型将87.5%的“性能好的二手车”预测为“性能好的二手车”,将12.5%的“性能好的二手车”预测为“性能差的二手车”。有94.23%的“性能差的二手车”被预测为“性能差的二手车”,剩下5.77%的“性能差的二手车”被预测为“性能好的二手车”。回归模型一样,对性能差的二手车的预测的准确率比对性能好的二手车的预测的准确率高。
3.模型的比较评估
由于数据挖掘模型有时会造成过度拟合,所以要对模型的正确性进行判断,保证预测可靠。在选择解释变量的时候,注重的是它们解释目标变量的能力。但是当有很多的解释变量时,并不能断定出总体的性质。因此有必要对于模型的有效性进行评估,以保证模型的可靠稳健。本文所用数据只有205条,在分拆后建模难度增大,训练,验证两部分结果有一定差距。尽管如此,我们仍可以从实验的结果中获得一些有意义的结论。
决策树,logistic回归,神经网络模型的比较:不同模型在不同数据集上的误差率比较和lift图
综合训练数据集和验证数据集的结果,对三个模型进行比较评价。从误差率基于数据挖掘技术的二手车性能评估研究的比较表中可以看出,决策树模型和神经网络模型的准确率最高。神经网络在训练集上误分率低,但在验证集上误分率增大比较多,有“过拟合”的现象。从lift图上来看,几个模型的效果都比较好。综合来看,选择决策树模型。
最后得到的规则是:
性能好的二手车:
(1)horsepower>=94.5 &engine size>=158.5
(2)horsepower>=94.5 &enginesize<158.5 &fuelsystem=mpf
i&city mpg<22
(3)horsepower>=94.5 &engine size<158.5&fuel system=mp
fi &city mpg>=22 &Compression ratio>=9.45
然而以上都不是最好的评价标准,原因是没有考虑到类型I错误和类型II错误的代价不同。如果两者代价相同,则考虑误分率是最佳的标准,但现实中往往不是如此。
三、总结
二手车模型评估应建立在大量数据的统计结果之上,才具有准确性和可靠性。它通过卖家填写的有关二手车的资料,可以快速、有效地辨别和划分二手策划的优劣,实现二手车较为公平的交易。另外,通过数据挖掘发现的一些新模式,可以进一步调整客户二手车模型评估体系,从而为将来完善二手车模型评估体系起着重要作用。随着我国二手车各项制度的建立、相应法律环境的完善、信息化建设的发展、信息资源共享的实现,数据挖掘技术将成为二手车交易管理的重要工具。
参考文献:
[1]张辉,郑安文.中国二手车市场现状分析及发展对策[J].汽车工业研究,2012(7):10-13.
[2]孟生旺.神经网络模型与车险索赔频率预测[J].统计研究,2012(3): 22-26.
作者简介:曹静娴,女,于2010年9月至2014年7月就读于西南财经大学经济信息工程学院