APP下载

基于KPCA-GaussianNB的电子商务信用风险分类

2019-02-26

物流技术 2019年2期
关键词:贝叶斯朴素信用风险

(河北工业大学 理学院,天津 300401)

1 引言

近年来,电子商务作为虚拟交易平台正发挥着越来越重要的作用,它汇集了大量的厂商信息、消费者信息以及交易信息,深深改变着当今社会的企业形态和消费行为。根据2017年9月的详细数据显示,中国电子商务零售额比前一个周期增长近38个百分点,达到同期的最高水平。在电子商务取得巨大成绩的同时,确定交易主体的信用状况成为电子商务交易发展中亟待解决的问题。精准辨认和评价电子商务企业的信用风险,加强信用风险分类指导,不仅能够为企业本身提供风险预警,降低企业的损失,而且对于参与交易的采购者来说,也是一个识别风险的重要参照。

企业信用风险评估长期以来深受国内外学术界和商界的关注。然而以电子商务企业信用风险为主题的研究却很少。在国内,风险机制方面,如杨晓梅等[1]经过研究中国电子商务网站的信用管理机制给出应对信用风险的对策;许进[2]基于收入链提出电子商务信用风险管理策略。在电子商务信用风险评价方面,Wang等[3]在2008年采用马尔可夫链模型对电子商务信用风险进行评估;余乐安[4]在2012年通过建立最小二乘近似支持向量回归模型对电子商务信用风险进行预警研究,并给出不同的预警策略;邬建平[5]在2016年利用灰色关联分析对电子商务信用风险指标进行约简后使用粒子群优化算法将最小二乘支持向量回归模型优化,对电子商务信用风险进行评价和预测研究。在国外,一些统计方法已被广泛应用于构建企业信用风险评估模型,如线性判别分析[6]、Probit分析[7]和Logit分析[8]等。但是,这些统计方法在企业信用风险评估中的应用容易使人们忽视相关指标之间存在的非线性关系,即这些方法在理论上会对有限样本无效。近年来,许多研究表明,智能方法,如基于案例推理(CBR)[9],决策树(DT)[10],人工神经网络(ANN)[11]和支持向量机(SVM)[12]等可以作为企业信用风险评估的替代方法。这些方法从训练数据中自动提取知识,在非线性模式分类研究中表现很好。其中,SVM是被成功应用于企业信用风险评价中最有效的方法之一。然而,上述工作大都以金融企业为研究对象,以电子商务企业信用风险为核心的研究却较少。

在上述研究方法的基础上发现,朴素贝叶斯算法在电子商务信用风险研究中还不成熟,原因是该方法只有在特征条件独立的情况下表现很好,在处理电子商务信用风险问题时各指标间又很难达到“独立”这个条件,从而影响最后的实证分析结果。在使用SVM进行信用风险评估中还发现,特征选择也是建立分类系统的一个重要问题,合理限制分类器输入特征的数量,可以使分类器具有良好的预测准确率和较少的计算成本。因为用来描述电子商务企业信用风险的指标属性太多,造成指标数据的维度过高,所以指标数据中必存在冗余信息,需要通过选择出一个小的特征集来代替原始数据集。针对上述两个方面的问题,本文试图引入KPCA方法对GaussianNB算法进行优化后再对电子商务信用风险进行分类研究。首先应用KPCA方法在所有指标数据中提取主要特征。一方面,考虑KPCA方法可以挖掘包含在数据集中的非线性信息,使数据可以保留更加充分的信息,所以可以找到较少几个信息充分的综合指标来代替原始数据。另一方面,KPCA方法是在高维特征空间中使用PCA方法,能够消除指标间的信息冗余性以及削弱指标间的相关性,降低模型检验计算成本的同时提高检验效率。其次,特征选择出的小的数据集指标间变得不相关,使得数据集能够克服朴素贝叶斯算法特征条件相互独立的假设。又结合指标数据的连续性,选择建立高斯朴素贝叶斯模型对电子商务企业信用风险进行分类研究。最后,使用真实指标数据进行实证检验,查看模型的有效性,并根据分类结果提出应对风险的策略。

2 组合模型

2.1 核主成分分析的原理

核主成分分析(简称KPCA)是将核函数方法添加到主成分分析的一种多元统计方法,它是经过某种隐式形式将输入空间(由训练样本集构成)映射到某个高维空间(即特征空间)并在高维空间完成主成分分析,达到对样本数据降维却能保留充分的特征信息的目的。因此,KPCA作为PCA方法的一种非线性拓展方法,用其挖掘电子商务信用风险指标体系中包含的非线性信息更有利于后续的分类研究。

假设训练样本用x1,x2,...,xN表示,核函数将输入空间{xi}通过非线性映射Φ映射到特征空间F上,且数据集在F中满足中心化的条件如下:

那么特征空间F中样本集的协方差矩阵C可以表示为:

根据式(2)求得C的特征值λ及其相应的特征向量V:

因为所有的特征向量均可表示为Φ(x1),Φ(x2),...,Φ(xN)的线性组合,故存在βi(i=1,2,...,N),使得:

在式(4)中,由于V为特征空间F的映射函数Φ(xi)(i=1,2,...,N)的生成空间,所以有:

接下来,定义N×N维矩阵K,则有:

系数βi的特征值问题由核函数Kij决定并且K为点积核矩阵,因此式(6)可以写成:

求解式(7)就可以得到特征值和相应的特征向量。那么测试集x在特征向量Vj方向的投影如下:

用核函数代替内积:

如果式(1)不成立,需调整如下:

则核矩阵可用如下形式代替:

本文基于上述KPCA方法的根本思想,首先将样本集表示成一个(m×n)维的数据矩阵:

其次,选定高斯径向基(简称RBF)核函数:

此核函数将样本数据集通过非线性映射方式映射到一个高维特征空间。最后,在高维特征空间中通过PCA方法对样本集降维操作,根据各个成分各自的方差百分比(也称为贡献率),选择出少数几个不相关的综合指标代替原始多个指标的数据。

2.2 高斯朴素贝叶斯模型

朴素贝叶斯方法是一种以贝叶斯定理为基础,以各个特征相互独立为假设的概率分类算法。朴素贝叶斯算法分类效率高、需要关注的参数少、具备良好的泛化能力,并且能够将最后的分类结果给出合理的概率解释。

对于给定的训练数据集,朴素贝叶斯算法将输入(特征向量)定义为在输入空间的随机变量X,输出(类标记)定义为在输出空间的随机变量Y,学习联合分布P(X,Y)。具体学习如下:

(1)先验概率分布:

(2)条件概率分布:

因其假设各个特征相互独立,则条件概率可以表示为:

(3)计算给定输入变量的后验概率分布如下:

(4)最后遵循期望风险最小化准则,保留后验概率最大的类标记。朴素贝叶斯分类模型的输入变量既可以是离散型变量,又可以是连续型变量。其中,对于连续型变量应用最好的模型是高斯朴素贝叶斯(GaussianNB)模型,其条件概率可以表示为:

需要从训练样本集估计μk和的值。μk是在样本类别为ck下,所有的Xj的均值,是在样本类别为ck下所有Xj的方差。

高斯朴素贝叶斯模型的主要参数只有一个,即先验概率P(Y=ck)。通常情况下,默认为P(Y=ck)=mkm,m是训练样本集总数,mk是输出第k类时的训练样本数。当然,如果给出先验概率,则以给出的值为准。本文选择默认的先验概率值对电子商务信用风险进行分类。

3 实证分析与模型检验

利用核主成分分析方法优化高斯朴素贝叶斯算法的主要思想:利用KPCA方法将原始数据提取出少数几个但能够充分保留原始信息的综合指标,并且提取出的综合指标之间变得不相关。既能减少计算成本、挖掘到样本信息中包含的非线性信息,还能克服分类算法超强的条件之间相互独立的假设,提高模型的分类效率。

3.1 数据来源

一般情况下,从静态指标和动态指标两方面描述电子商务企业信用风险的指标属性。静态指标主要包括企业的外部因素和企业本身的素质,动态指标主要包括企业的履约状况、支付信用能力、其他交易参与者的信用及企业交往印象。本文的电子商务信用风险指标主要来自文献[13]中筛选出的19个指标作为本次的指标体系,具体指标及计算公式见表1。

本文使用的原始数据来源于文献[13]中收集的18家电子商务企业的样本数据以及专家组给出的打分结果(选定两种分类:0代表无信用风险,其信用评分高于60分;1代表有信用风险,其信用评分低于60分),并将19个指标分别用X1,X2,...,X19表示,整理数据见表2。

利用上述构建的电子商务信用风险指标体系及收集的18家企业样本数据,就可以运用核主成分分析和高斯朴素贝叶斯组合模型进行电子商务信用风险分类的研究。

3.2 模型检验

为了对比本文提出的组合模型的预测准确率,同时采用高斯朴素贝叶斯模型(GaussianNB)、主成分分析和高斯朴素贝叶斯组合模型(PCA-GaussianNB)对电子商务信用风险进行分类,检验模型的有效性。针对本文收集数据的结构,选择1-13家电子商务企业的数据作为训练数据,其余14-18家电子商务企业的数据作为测试数据。

表1 电子商务信用风险指标体系选取结果

表2 18家电子商务企业信用风险原始数据

3.2.1 数据处理。应用SPSS软件,利用主成分分析方法对13家电子商务企业信用风险数据指标进行相关性分析,相关性分析矩阵见表3、表4。

表3 指标之间的相关性分析矩阵(1)

表4 指标之间的相关性分析矩阵(2)

通过观察指标之间的相关性分析矩阵,发现电子商务企业信用风险数据指标之间具有相关性。因而对训练数据集进行有效的主成分提取,有利于后续贝叶斯分类的研究。解释的总方差见表5。

一般主成分分析或者核主成分分析选择累计贡献率达85%以上的主成分个数。本文通过输出解释的总方差,可以看到各成分各自的方差百分比(贡献率)以及前6个主成分累计贡献率已经占据原始数据85%以上的信息。结合碎石图(如图1所示)也可以看出,成分数小于等于6的部分特征值大,说明包含数据中的信息比较多;成分数大于6的部分曲线逐渐变得平缓,特征值小,说明包含数据中的信息少。本文为保持一致性和可比性,在进行主成分分析和核主成分分析时均选取前6个主成分进行分析。

表5 主成分统计信息表

图1 成分数和特征值之间的关系

3.2.2 模型结果和评估。利用GaussianNB、PCAGaussianNB和KPCA-GaussianNB分别对电子商务企业信用风险数据进行分类,具体分类流程如图2所示。PCA-GaussianNB和KPCA-GaussianNB两个模型均先通过PCA方法或KPCA方法对训练数据进行数据预处理;然后使用预处理之后的数据进行高斯朴素贝叶斯模型的建立;最后,使用14-18家电子商务企业的数据作为测试数据进行验证。

图2 分类模型流程图

根据分类模型的步骤进行实证分析,分别记录GaussianNB、PCA-GaussianNB和KPCA-GaussianNB三组模型的分类结果,见表6。

表6 5家电子商务企业信用风险分类结果

为了检验KPCA-GaussianNB组合模型的优越性,需要对模型进行评估。本文采用的分类器评估指标为准确率、召回率、F1度量值。一般二分类问题将真实类别和预测类别划分成真正例(TP)、假正例(FP)、假负例(FN)、真负例(TN)。相应的评估指标计算方式如下:

根据上述三种评估指标,分别计算得到GaussianNB、PCA-GaussianNB和KPCA-GaussianNB三组模型的评估矩阵结果,见表7-表9。

表7 GaussianNB-评估矩阵

表8 PCA-GaussianNB-评估矩阵

表9 KPCA-GaussianNB-评估矩阵

依据上述评估结果,三个模型的平均准确率依次为0.300、0.867、1.000,可见不管是PCA-Gaussian-NB组合模型还是KPCA-GaussianNB组合模型都优于GaussianNB模型,说明GaussianNB模型对属性指标间要求相互独立的假设确实破坏了模型的分类准确率。但是,因为KPCA方法可以保留电子商务企业信用风险样本数据中的非线性信息,它降维后的数据比PCA方法降维后的数据保留的信息更充分,所以KPCA-GaussianNB组合模型的分类效果更好。除此之外,结合召回率进行分析,一般情况下,准确率高时,召回率低(上述三个结果矩阵也证实了这一点),所以我们将准确率和召回率融合成一个F1度量值(调和均值F1-score)进行比较,可见KPCA-GaussianNB组合模型的F1度量值同样是优于前两个模型的。因此,可以说本文提出的KPCA-GaussianNB组合模型是可行且有效的。

4 结语

本文利用KPCA方法优化高斯朴素贝叶斯模型,对电子商务企业信用风险进行分类探讨的结果表明:KPCA方法能够降低计算成本、高效挖掘数据中的有用信息,还能降低数据之间的相关性、提高GaussianNB方法的分类准确率。KPCA-GaussianNB组合模型与其它常见分类方法比较:首先,所需估计的参数较少,模型结构简单易理解;再者,继承朴素贝叶斯算法的增量式训练,可以达到动态预测电子商务企业信用风险的目的;最后,对小数据集表现很好,也就是说,这对于很难获取大量数据的电子商务企业信用风险研究来说非常实用。

依据组合模型分类结果,对电子商务企业本身可提供非常有价值的参考。一方面,对不存在信用风险的电子商务企业,企业本身要居安思危,加强信用风险的防范,保持企业持续健康经营。另外,对存在信用风险的电子商务企业,企业要努力改善与信用风险相关的指标,降低风险、减小损失。最后,电子商务企业在进行信用风险预测时,要动态的获取新数据,保持数据的时效性。

猜你喜欢

贝叶斯朴素信用风险
油气贸易企业信用风险管理研究
隔离朴素
基于贝叶斯定理的证据推理研究
基于贝叶斯解释回应被告人讲述的故事
大数据背景下的电子商务信用风险预警方法
朴素的安慰(组诗)
他是那样“笨拙”和朴素——30多年后,我们为什么还需要读路遥?
最神奇最朴素的两本书
租赁房地产的多主体贝叶斯博弈研究
租赁房地产的多主体贝叶斯博弈研究