Abstract: Default of supplier has been regarded as one of the toughest difficulties in supply chain management. How to establish an effective model to handle the default of supplier is a significant work. In this paper, a novel method called MultiBoost-LMT algorithm is presented. Due to the fact that the proposed MultiBoost-LMT can effectively avoid overfitting without the loss of the advantages in reducing the bias and the variance of the classified model, the proposed MultiBoost-LMT can increase the model performance significantly. For verification and illustration, two public available supplier credit datasets are used to test and compare the performance of other machine learning algorithm. The experimental results show the proposed MultiBoost-LMT algorithm can yield better performances compared with other machine learning algorithm listed in this study.


Key words: supplier credit score;MultiBoost;LMT

中图分类号:TP1812.5 文献标识码:A 文章编号:1006-4311(2017)12-0076-03

0 引言


关于供应商信用评价问题,国内外目前已有不少研究。如石晓军等利用多因素视角下的双层规划建立供应商信用评价模型[4]。徐晋等利用灰色关联模型建立供应商信用评价模型[5]。Jafar Razmi等将网络分析法和模糊集理论应用到供应商信用评价问题[6]。本研究着重数据挖掘方法与供应商信用评价问题的结合,主要考察分类算法进行供应商信用评价的研究。




1 模型建立

1.1 MultiBoost


1.2 LMT

LMT(Logistic Model Tree)算法是一种决策树与Logistic 回归的组合算法,与普通的决策树相比,LMT通过将对应子样本空间中的所有属性作为自变量,构建Logistic回归模型来确定对应的分类类别[24]。Birant通过实验证明,相比C4.5决策树, LMT不仅具有较高的分类精度,而且能够避免过度拟合训练集[25]。Gupta S和Kumar D通过实验证明,相比支持向量机,LMT的分类精度不依赖于算法参数的选择[26]。

1.3 MultiBoost-LMT算法

改进MultiBoost的框架,将LMT算法作为MultiBoost的基分类器?准j,避免过拟合。MultiBoost LMT算法的流程如下:




④For t=1 to T {





















2 数值试验

为验证MultiBoost-LMT算法的性能,本文采用两个数据集进行测试。两个数据集分别是沃尔玛供应商信用数据集(包含39000个样本,21750个正例和17250个反例,正例样本和反例样本中分别包括1200个和700个人工添加的异常样本)和本田汽车零配件供应商信用数据集(由12000样本构成,5680个正例和6320个反例,正例样本和反例样本中分别包括500个和800个人工添加的异常样本)。为了便于对比分析,对每一个数据集,分别采用标准支持向量机(C-SVM)、标准MultiBoost和MultiBoost-LMT三种算法进行分类测试。实验在Intel(R)Core(TM)/RAM 8G机上完成,算法C-SVM、MultiBoost和MultiBoost-LMT采用R语言编程。

2.1 分类器性能评价指标



Recall(查全率)=■ (2)

AUC(Aera Under Curve)=■ (3)


2.2 基于MultiBoost-LMT算法的信用评价试验

这部分给出C-SVM、标准MultiBoost和MultiBoost-LMT不同分类算法之间的性能比较试验。本文采用十重交叉验证法(10-fold validation)进行实验,把沃尔玛和本田汽车两个数据集分成10个不交叉的子集,每次取其中1个子集作为测试集,其余9个子集作为训练集得到分类器,如此重复10次,训练集和测试集的类标属性都是已知的,由训练集的类标训练模型,在测试阶段中我们假设测试集的类标属性未知,而使用模型得到预测值,然后通过比较预测值与实际值来判定模型正确率。最后的整体正确率是10次实验整体正确率的平均值。


3 总结与展望








