APP下载

基于SA-SVM的众筹违约风险预警模型

2018-11-15马士豪靳孟宇ChaohsienChu

统计与信息论坛 2018年11期
关键词:筹融资模拟退火众筹

李 杰,马士豪,靳孟宇,Chao-hsien Chu

(1.河北工业大学 经济管理学院,天津 300401;2.宾夕法尼亚州立大学 信息科学与技术学院,PA,USA 16802)

一、引言

众筹是一种新兴的互联网融资模式。在这种模式下,集资人通过发起各种营利型或非营利型项目向大众募集基金,并往往以产品或股权作为回报[1]。随着“大众创业,万众创新”的兴起,众筹作为一种快速、低廉、有效的融资手段,受到了大量中小型企业的青睐。仅2017年上半年,国内众筹融资金额高达110.16亿元人民币,与去年同期相比,增幅高达38.11%。根据世界银行的预测,到2025年中国众筹融资金额有望达到460亿美元[2],市场前景相当可观。

然而,作为新兴的网络融资模式,众筹在高速发展的同时也存在一些问题。由于网络空间的限制,出资人与众筹平台很难及时有效地发现项目发起人背后的信息和行为,这种严重的信息不对称导致众筹出资人与众筹平台面临的众筹违约风险急剧增大,监管难度直线上升。调查数据显示,截至2015年12月,全球最大众筹平台Kickstarter的全部融资成功项目中,有9%的项目实施失败、8%的资金流向了失败项目、7%的出资人没有收到预期的回报、35%的用户没有按时得到回报[3]。众筹违约导致的众筹项目失败,不仅造成了出资人的直接经济损失,对众筹平台的口碑也产生了大量负面影响。众筹违约是指众筹各方合同当事人完全没有履行合同或者履行合同义务不符合约定的行为。在众筹的各参与方中,最容易引起纠纷的就是项目发起者的违约行为,通常是由不履行发放回报义务或不适当履行发放回报义务造成的,主要表现为回报发放失败、回报发放逾期、回报不符合约定、未提供售后服务等多种形式[4]。

近年来,国内外学者对于众筹的研究主要集中于众筹融资方面,即对众筹融资成功的影响因素及其预测模型展开的研究。例如Colombo等认为,众筹项目的基本特征会对众筹融资结果造成影响,如众筹项目设定的融资期限、融资规模以及众筹项目所属的类别等[5];Greenberg等使用逻辑回归构建了众筹融资结果预测模型,其精度达到了70%[6]。但是,国内外学者对于众筹违约风险方面的研究较少,且主要从众筹项目风险来源及其相应法律机制方面进行了定性研究。基于大规模项目数据的众筹项目违约预警方面的定量研究很少见到,而进行众筹违约预警有助于出资人和众筹平台根据违约风险采取合理的监督与应对措施,避免事件的升级或扩大,对于众筹市场的健康有序发展有着重要意义。

众筹违约预警实质上是数据挖掘中的分类问题,将众筹项目划分为正常项目与违约项目。尽管针对众筹违约预警方面的研究较少,但有关突发事件预警、借贷违约预警等方面的研究已经取得了较为丰富的成果[7]。现有文献常用的方法有逻辑回归、决策树、神经网络等,对本文构建众筹违约预警模型具有重要参考意义。

本文以京东众筹大规模数据为基础,使用数据挖掘方法研究众筹违约风险预警问题。首先,对众筹违约风险预警的指标进行系统分析,从项目基本特征、发起人信用度、企业项目关联度、项目融资结果四个维度出发,构建众筹违约预警初始指标体系;其次,将模拟退火(Simulated Annealing,SA)思想与支持向量机(Support Vector Machine,SVM)相结合,构建基于模拟退火-支持向量机的众筹违约预警模型;再次,本文使用基于随机森林的特征筛选方法,从众筹平台披露的各项信息中挖掘出关键特征,并基于京东众筹大规模数据对模型进行验证。

实证研究结果表明,该模型可靠性强,能够充分捕捉和有效刻画影响因素对于众筹项目违约的线性以及非线性复杂特征,为众筹平台与项目出资人提供科学可靠的决策支持,并有效规避项目违约风险。本文的研究技术路线见图1。

图1 研究技术路线图

二、众筹违约预警指标体系设计

寻找风险识别特征并且建立预警指标体系,是构建众筹违约风险预警模型的重要基础。研究发现,众筹违约风险主要受到众筹项目基本特征、发起人信用度、项目关联度、项目融资进展四方面因素的影响。

众筹项目基本特征是指项目类别、目标金额、各档位金额设定等项目信息。大量研究已经证明,众筹项目内容质量是衡量项目投资价值的重要因素,对项目的融资成功有重要的作用[8]。另一方面,这些因素也直接决定着项目的实施风险。例如,虽然较低的目标金额有助于融资成功,但是项目在实施过程中随时会面临资金链断裂的风险;科技含量过高的项目在产品生产过程中也容易遇到技术门槛。

发起人信用度是指众筹项目发起人曾发起、支持的项目数以及地理位置等相关信息。已有研究表明,历史信用记录与项目履约能力高度相关[9]。Sorenson等发现,由于同一地区项目发起人受到的教育水平、文化环境等因素比较相似,项目发起人的环境特征可能也会影响项目发起人的履约能力[10];Ge等发现,使用社交信息可以有效预警违约事件的发生,对降低违约率有积极作用[11];Bi等认为项目发起人简介、工作时间等个人信息可以从侧面反映项目发起人的经营态度与经营能力,对于众筹违约预警也有一定的积极意义[12]。

项目关联度是指众筹项目与其发起人或发起人所在企业经营内容的相关度,通过该指标可以判断该项目是否属于企业的主营业务,也可从侧面反映发起人在该领域的专业性强弱。通过文本向量化等手段计算项目标题、简介与企业名称、介绍文本的特征词之间的相关度,可以有效反映企业与项目的关联程度。

项目融资进展是指众筹融资所获得的资金、获得资金与目标金额的比例、关注人数、点赞人数等特征,此类信息的特点是无法在项目融资完成之前获得,但是由于项目实施所使用的资金直接来源于众筹融资阶段的成果,所以众筹融资资金进展很可能是众筹违约预警的主要判别因素;而点赞人数、关注人数较高可能意味着该项目或发起人拥有较高的口碑[13],对众筹违约预警也有一定积极意义。

基于以上分析,本文从众筹项目基本特征、发起人信用度、项目关联度、项目融资进展四个方面构建众筹违约预警的初始指标体系,见表1。

三、基于SA-SVM的众筹违约预警模型

众筹违约预警的目的是尽量全面准确地预测项目是否违约,其本质是一个二分类问题。由于众筹行业在中国发展时间短、公示力度大、违约项目比重小等原因,众筹违约预警所使用的历史数据较少、维度较高、样本极不均衡,传统违约预警模型效果不佳;而支持向量机适用于解决小样本、不均衡、非线性以及高维模式识别问题,在二类分类中有着广泛而良好的应用。因此,本文主要运用该方法构建众筹违约预警模型。

(一)SVM模型

支持向量机是由Cortes和Vapnik于1995年首先提出的一种线性分类器,因其优秀的泛化能力,在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势[14]。在线性分类器中,分类器是一个超平面f(x)=ωx-b=0,若f(x)>0,则该点属于类1;若f(x)<0,则该点属于类-1。SVM构造的最优分割超平面使得类1 与类-1中的点到超平面的距离达到最大,对应于求解如下最优化问题,最终求出权重向量ω和偏移b:

(1)

s.t.yi(ωTxi+b)≥1-εi

i=1,2,…,n;εi≥0

通过拉格朗日函数法,该问题可以转化为以下对偶问题:

minQ(α)=

(2)

0≤αi≤wiC

(3)

其中αi表示样本i对应的拉格朗日乘子,存在唯一解,且解中αi不为零时对应的样本就是支持向量;wi表示类别i的误分类代价权重。式(3)为径向基核函数,该核函数对非线性数据有较好的分析能力,必要的参数较少(仅C与σ),具有较强的外推能力,可将原始特征空间映射到更高维的特征空间,使样本线性可分,适合用于众筹违约预警模型。最终,求解ω与b可得到:

(4)

(5)

并得到决策函数:

(6)

由于不同的参数和核函数构造的支持向量机在性能上存在很大差异,而在参数和核函数的选择上目前还没有明确的理论依据。目前,优化SVM的常用方法有遗传算法、粒子群优化算法、网络搜索法等[15]。在众多的最优化算法中,模拟退火算法计算过程简单、通用、鲁棒性强,适用于并行处理,可用于求解复杂的非线性优化问题,得到了广泛应用。因此,本文采用模拟退火思想优化SVM,避免了人为设定参数的不足,同时缩短了优化时间。

(二)模拟退火算法

模拟退火最早的思想是由N.Metropolis等人于1953年提出,其基本思想是将优化问题看作是一个物理系统,其目标函数对应于物理系统的能量模拟过程,从一个较高的初始温度开始,通过模拟物理系统逐步降温来达到最低能量状态,从而获取优化问题的全局最优解[16]。

经典的模拟退火算法的一般步骤如下:

步骤1:给定初始温度T0,初始解x0,计算优化函数f(x0)。

步骤3:降温。令Ti+1=d(Ti),判定是否满足收敛条件,若满足,迭代结束;否则,重复第二步。

(三)模型构建

由于众筹违约预警是基于极度不平衡数据集的分类问题,将违约样本误分类为正常样本的代价远远高于正常样本的误分类代价。因此,需要在SVM的训练过程中加入代价矩阵,以更好地适应现实环境。模型算法流程如下:

步骤1:将样本集B使用分层随机抽样的方法分为5个子集,分别记为Bn(n=1,2,3,4,5)。

步骤2:确定SA搜索范围C∈(0,100),σ∈(0,100),w∈0,50,分别设置初始温度T0(T0>0)、退火终止温度Tf以及概率阈值pp。确定SA算法的优化函数,在本文中定义为式(7):

(7)

其中M为违约样本的个数,N为正常样本的个数,rankj为所有样本按违约概率排序后违约样本j的排名。

步骤3:在阈值范围内随机选择SVM参数c0、σ0与w0,作为SVM参数的初始值。

步骤4:使用参数ci、σi与wi,并且分别使用数据集Bl(Bl∉Bn)构建SVM模型,得到形如式(6)的决策函数fil(x)。

步骤5:分别使用SVM决策函数fil(x)对数据集Bl(Bl∈Bn)进行预测,得到预测结果Y1、Y2、Y3、Y4、Y5。

步骤6:将得到的预测结果进行汇总,使用式(7)计算所构造的优化函数E0。

步骤7:若在该温度下达到稳定状态,则转到步骤9;否则在搜索范围内对ci、σi与wi植入随机扰动,产生新的状态ci+1、σi+1与wi+1。计算此时的优化函数Ei+1以及优化函数增量ΔE=Ei+1-Ei。

步骤9:判断Ti是否小于Tf。若是,则退火过程结束,输出当前ci、σi与wi;否则,植入随机扰动,产生新的状态ci+1、σi+1与wi+1,返回步骤4。

步骤10:基于全部样本集B,使用最优参数ci、σi与wi构建SVM二分类器,得到形如式(6)的最终决策函数即为众筹违约预警模型。

四、实证研究

(一)样本选取与数据来源

据零壹财经相关数据显示,从2014年7月成立至2016年7月,京东众筹融资总金额逾24亿元,占据国内产品众筹市场近50%份额,并且因其拥有极高的信息透明度以及项目监管力度,京东众筹成为国内融资成功率最高、口碑最好的产品众筹平台。因此,本文将京东众筹项目数据作为研究对象,具有较好的代表性。

截至2017年11月14日,京东众筹平台共有项目10 317个。使用采集器对相关信息进行爬取后,剔除筹资中以及项目实施中的数据,得到融资成功项目8 603个。由于京东众筹的项目进展信息受京东平台监督,所以本文按照官方发布的项目进展文本中是否含有项目失败、发货延期、申请退款等违约信息,将众筹项目标记为违约项目与正常项目。另外,由于造成众筹各参与方损失的阶段一般为众筹项目实施阶段,因此本文选择在项目融资阶段结束并且实施阶段尚未开始的时间点对众筹项目进行预警。经过识别后,判定违约项目432个,约占5%;正常项目8 171个,约占95%。

(二)数据预处理

由于直接从众筹平台获取到的项目信息存在大量非结构化数据,并且为了消除预警指标的量纲和数据级差异对预警模型性能的影响,需要对上述项目数据进行数据预处理。

对于社交环境、发起人地域性、项目类别等离散型特征,本文在特征筛选结束后使用独热编码方法(One-Hot Encoding),将其转化为连续型数据,便于分类器进行计算。

对于目标金额、可选金额设置、各档位回报时间等数值型数据,本文将指标类型划分为极大值指标和极小值指标,并分别采用式(8) 和式(9)归一化方法将其统一到某个变换范围内,归一化表达式如下:

正向指标:

(8)

负向指标:

(9)

对于项目标题、项目发起人简介、项目公司名称等文本类型数据,本文首先使用Python中文文本分析工具包jieba对上述文本进行分词;然后使用Google公司的Word2vec软件训练词向量;最后计算每个名词之间的关联度,并根据式(10)计算句子之间的关联度,得到形如标题-简介关联度指标:

(10)

其中SMN为文本M与N的关联度,f(uij)为M中的第i个词与N中的第j个词的关联度,m与n分别表示M与N中的文本数量。

(三)特征筛选

由于本文所建立的初始指标体系指标较多,直接以上述指标作为预警模型的输入变量不仅会增加模型的复杂度和构建成本,还容易造成模型过拟合,从而降低模型精度。为了解决上述问题,最常见的方法是t检验,根据各个变量的p值对特征进行筛选,但是这种单变量特征筛选方法没有考虑变量间可能存在的相互作用,不适用于众筹违约预警模型的特征筛选[17]。

因此,本文使用基于随机森林的特征筛选方法,这是一种基于机器学习模型多变量特征选择技术,可以把变量间的内在联系和相互影响考虑在内[18]。本文使用随机森林算法建立的特征重要度如图2所示。

图2 特征重要度图

如图2所示,特征重要度排名前10的变量分别为I2、I27、I25、I34、I22、I37、I32、I1、I38、I30,说明上述指标在违约预警模型中有重要作用,有助于提升模型性能。综上分析,本文最终得到的众筹违约预警模型指标体系包含10个指标,按特征重要度由高到低排序后,结果如表2所示。

表2 违约预警指标体系表

(四)评价准则

本文分别采用准确率(Accuracy)、灵敏度(Sensitivity)、特异度(Specificity)以及AUC (Area Under ROC Curve) 对模型进行评价,分别定义如下:

(11)

(12)

(13)

其中TP、TN、FP 和FN 分别代表正确预警违约样本的数目、正确识别正常样本的数目、正常样本被预警的数目和违约项目未被预警的数目,这些指标能反映每类的分类精度,针对非平衡数据时这类指标具有更好的评价性能。

AUC是ROC曲线下方的面积。ROC曲线表示混淆矩阵中灵敏度和特异度两个量之间的相对变化关系,通过设定不同的阈值可以得到不同的混淆矩阵,而每个混淆矩阵都对应于ROC曲线上的一个点;将这些点描绘出来可以得到一条平滑的曲线(ROC),这时可用曲线所包围的面积,即AUC来评估该分类器的性能。理想模型的AUC值为1,无效模型为0.5,AUC值在(0.5,0.7]表示模型具有一定解释能力,(0.7,0.9]表示解释能力较强,(0.9,1]表示解释能力极强[19]。与上述指标相比,AUC是一个综合指标,当训练集中不同类别的样本分布变化时,它能够保持相对稳定,在分类不平衡情况下,AUC指标会更有说服力。

(五)模型结果及分析

为了检验基于模拟退火-支持向量机的众筹违约风险预警模型的性能,本文比较了目前广为采用的决策树 (DT)、随机森林(RF)、逻辑回归(LR)等分类器的预警效果。各模型使用十折交叉验证的方法计算其准确度、灵敏度、特异度以及AUC的均值,特征筛选前后的结果分别如表3与表4所示。特征筛选前后的ROC曲线如图3与图4所示。

表3 特征筛选前模型比较结果表

表4 特征筛选后模型比较结果表

图4 特征筛选后ROC曲线图

为了验证模拟退火算法改进的有效性,本文分别将随机森林、决策树以及逻辑回归算法与模拟退火算法相结合,构建预警模型,并使用特征筛选后的指标对模型进行验证。各模型十折交叉验证后的总体准确率、灵敏度、特异度以及AUC指标均值见表5。

表5 模拟退火算法改进效果比较表

通过上述实证研究,结果发现:

第一,特征筛选前,决策树及随机森林的判别结果相对较好,但灵敏度偏低不理想;单独使用SVM的结果不好,SA-SVM模型灵敏度指标较高,其余指标均低于其他模型,但尚在可接受范围内。

第二,经过随机森林筛选特征后,SA-SVM在分类准确率、灵敏度、特异度以及AUC这4个指标上表现均为最佳,AUC甚至达到0.87,灵敏度也极为接近1。

第三,使用随机森林筛选特征对模型性能提升极大,SA-SVM的总体准确率、灵敏度、特异度以及AUC分别提升了0.22、0.01、0.24、0.11。

第四,结合模拟退火算法后,所有模型性能均有提升,其中SVM算法的改进效果最为明显。

从众筹违约预警的实际情况出发,以上4个指标中最为重要的是灵敏度以及AUC两个指标。前者反映的是在所有实际违约项目中成功预警的比例,对于众筹平台或众筹出资人来说,违约项目的召回率即使有很小的提升和改进,都有可能避免非常重大的损失,AUC是评价基于不均衡数据集的分类器性能最客观的指标。在上述两个指标上,经过随机森林筛选特征的SA-SVM模型均有不错的表现,相比于其他模型有很大程度的提升,进一步验证了该预警模型的有效性、合理性和实用性。

五、结论

众筹违约预警是众筹项目管理中亟待解决的问题,也是众筹平台对重点项目加强监督力度的重要决策依据。本文首先通过对国内众筹平台的项目信息进行全面分析与深入挖掘,从多个维度出发,科学全面地构建了众筹违约预警指标体系;其次,将模拟退火算法与支持向量机相结合构建了众筹违约预警模型,并使用随机森林算法筛选得到众筹违约预警的关键指标;最后,使用京东众筹的真实数据,通过比较多种模型,对模型性能进行了多方位验证。

分析结果表明,基于SA-SVM的众筹违约预警模型鲁棒性好、精度高,能有效对高违约风险的众筹项目发出预警,为众筹平台与众筹出资人提供科学可靠的决策依据,具有较强的实际指导意义;同时,在实证研究中发现,众筹项目的内容质量、所属类别、项目关联度、融资进展以及发起人信息是违约预警的关键因素。众筹平台可据此加强上述指标的监督力度。

此外,本模型仍存在一定的不足。违约样本与正常样本的极度不平衡在一定程度上限制了模型的性能,而如何有效处理不平衡数据可作为未来改进的研究方向。

猜你喜欢

筹融资模拟退火众筹
结合模拟退火和多分配策略的密度峰值聚类算法
基于遗传模拟退火法的大地电磁非线性反演研究
众筹
众筹融资与中国青年创业发展的探究
互联网众筹融资的《证券法》适用问题的思考
改进模拟退火算法在TSP中的应用
中国式众筹升级记
基于模拟退火剩余矩形算法的矩形件排样
高速公路筹融资新思路
定增相当于股权众筹