基于Logistic模型的企业公共信用综合评价方法研究
2023-04-29顾遵雷
顾遵雷
摘要:公共信用综合评价是政府部门实施分级分类监管,构建以信用为基础的新型监管机制的重要支撑,在提高跨部门资源整合能力、优化资源配置、防范化解风险等方面发挥了积极作用。在充分研究、借鉴国内外、业内外信用评级优秀做法基础上,结合实际情况,基于Logistic模型,利用公共信用数据,对企业公共信用综合评价指标和方法进行研究和探索,并对评价模型进行验证分析。
关键词:信用评价;逻辑回归;研究
一、前言
(一)研究背景和意义
公共信用综合评价是政府部门实施分级分类监管的重要依据,是构建以信用为基础的新型监管机制、推进社会信用体系建设高质量发展、促进形成新发展格局的的重要基础。2019年7月,国务院办公厅出台《关于加快推进社会信用体系建设构建以信用为基础的新型监管机制的指导意见》(国办发〔2019〕35号),要求加强事前、事中、事后全流程监管。特别是在事中环节信用监管中,要求对市场主体开展全覆盖、标准化、公益性的公共信用综合评价,定期将评价结果推送至相关政府部门、金融机构、行业协会商会参考使用,并依照有关规定向社会公开。2022年3月,中办国办印发《关于推进社会信用体系建设高质量发展促进形成新发展格局的意见》指出要加快健全以信用为基础的新型监管机制,全面建立企业信用状况综合评价体系,以信用风险为导向优化配置监管资源。
(二)研究思路和目标
1.研究的思路
研究借鉴金融机构信用评级、省内外公共信用综合评价、相关行业信用评价工作实践,对比分析评价指标,研究建立评价模型指标,采用回归分析方法,利用样本数据进行建模,并利用样本外的数据,对模型的效力进行验证。利用评价模型对市场主体进行评价,并对评价结果进行分析。
2.研究的目标
基于我省法人信用基础数据库,构建公共信用综合评价指标,建立可行的、科学的评价模型,对我省企业进行公共信用综合评价,支撑政府部门实施分级分类和精确有效监管[1]。
(三)研究的内容和方法
1.研究的内容
研究利用Logistic回归模型建立公共信用综合评价模型,主要包括:构建评价指标体系,对模型变量预测强度进行分析,构建评分模型,利用K-S值、GINI系数判断模型的分区能力等。
2.研究的方法
(1)资料分析法。梳理分析国家及省关于社会信用体系建设、构建新型监管机制等文件要求,梳理借鉴国内外信用评级或信用评价的理论方法,为公共信用综合评价提供制度和理论支撑。
(2)比较分析法。通过对兄弟省市、相关行业部门,以及第三方信用服务机构的信用评价方法进行比较分析,总结各自优势、特点和经验,提炼出对我省公共信用综合评价的有用的思路、方法和模型。
(3)调查分析法。通过开展实地调研,学习借鉴先进做法和经验,对现有数据进行分析归纳,建立评价指标,并邀请专家对指标选择、模型设计等方面进行论证,使评价指标和模型更具科学性和权威性。
二、评分模型原理和方法
(一)选择拟合函数
目前,常用建模方法非常多,如判别分析、线性回归、逻辑回归及分类树等统计方法;或是机器学习、类神经网络、基因算法及专家系统等非统计方法。由于公共信用综合评价是通过企业的行为特征信息来预测其“好”与“坏”,因此本文采用逻辑回归(Logistic)方法建立评分模型。logistic回归是一种广义线性回归(generalized linear model),它是一种分类算法,用于解决因变量为二分类(0or1)或多分类问题的方法[2]。对于分类问题而言,其输出因变量的范围应该在(0,1)之间,选用Sigmod函数可以有效地拟合分类问题的期望输出。Logistic回归模型的适用条件:
1.因变量为二分类的分类变量或某事件的发生率。但是需要注意,重复计数现象指标不适用于Logistic回归。
2.残差和因变量都要服从二项分布。二项分布对应的是分类变量,所以不是正态分布,进而不是用最小二乘法,而是用最大似然法来解决方程估计和检验问题。
3.自变量和Logistic概率是线性关系。
4.各观测对象间相互独立。
(二)自变量处理和分析
1.自变量处理
(1)连续型变量分箱处理和WOE转化
对于连续性变量进行分箱处理。首先按照频数尽量平均分成多组,初步形成变量分组,然后在初步分组的基础上合并相似组形成最终分箱[3]。分组合并时,需要按照如下标准进行:
①不同的分箱间好坏比例要有差异;
②单一变量应维持至多8个区间;
③每个分箱中的好/坏件数至少大于等于10;
④每个分箱中记录数占比至少大于2%;
⑤每个分箱好坏比率的排序需要和业务常识保持一致。
其中③和④是通常情况下的标准,在特殊情况下,这两个标准要求会适当提高或放松。
变量分箱完成后,对变量进行WOE转换,用每个分组的WOE值替换原来的变量值。
(2)分类型变量的分箱和虚拟变量引入
对于分类型变量,可以将每个属性作为一个分箱。Logistic回归中分类变量需要使用哑变量来操作。
2.自变量分析
在建立模型的过程中,可以通过以下两个指标对模型变量的预测强度进行分析。
(1)WOE(Weight Of Evidence)迹象权数,表示当前分箱中好坏客户的各自占总体好坏客户比例的差异,描述了预测变量与目标变量之间的关系。WOE绝对值越高,表示该组违约和正常企业区分度越高,反之,区分度越低[4]。
(2)IV(information value)信息值,又称VOI(Value Of Information),用来表示变量预测能力的强度,可用于单变量筛选。IV越高,说明该自变量与因变量关联度高,预测强度高,适合纳入预测模型。
(三)参数估计
逻辑回归模型的参数是用最大似然法估计。极大似然估计是一种统计方法,利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值。每个观察值yi皆为0或1,因此,yi~Bernoulli(π),i=1,…, n(此为白努利分配,n为样本数)。
(四)模型建立
逻辑回归得到的是因变量为“1”和“0”比值的自然对数,即ln(odds),其中odds也称胜算率。若要以分数形态呈现,必须要经过转换,转换公式为:
Score=ln(odds)×Scale+Location
转换的步骤如下:
1.设定odds为某一固定值的分数为l;
2.设定odds每增加1倍时,相对增加的分数为p,此分数也成为了PDO(Point of double odds);
3.将odds=1:1和2:1时的分数套入公式,解方程可以得出Location 的值为l,Scale的值为p ln (2);
4.最后得到评价模型计算公式为:
Score=ln(odds)× p +l。
三、信用评分模型建立与实证分析
建模的步骤主要分为:模型设计、建模数据准备、变量选取、建立模型、模型评估、完成信用评分表。
(一)模型变量的设计
1.观察期和表现期
(1)观察时点(Observation Point)
观察时点是指所需样本选取的时间点,该时点下的企业信息即是评价模型用来评价客户及预测企业将来是否发生失信的重要参考。
(2)观察期间(Observation Period)
观察期间是指开发样本在观察时点之前一段时间,该期间是对样本信息进行观察和提炼的时期。本课题选取的观察期间为12个月。
(3)表现时点(Outcome Point)
表现时点是最终判断样本属于失信或非失信的时间点。
(4)表现期间(Outcome Period)
观察时点至表现时点这段时间为表现期间。表现期是对观察点上企业进行监控的时间周期,该期间内企业会被分类成失信企业、非失信企业或无法确定。
2.失信企业的表现定义
在表现期间存在行政处罚记录、执行案件记录(未履行案件)、失信被执行人记录、联合惩戒记录的企业视为失信企业。没有上述信息的企业视为非失信企业。
3.排除规则
模型开发样本应具备群体代表性,而且必须有准确的预测信息和表现信息,才能使模型更加准确。因此对于一些特殊企业,如已被注销、吊销的企业,其行为无法预测,将不包含在评分模型开发中。
(二)建模数据准备
从全部数据中抽取两类样本:开发样本和检验样本。开发样本时建立模型的实际数据集。检验样本用于检验模型的稳健性。本次共选取50万家在业企业作为样本数据,70%为开发样本,30%为验证样本。
(三)变量分析及选取
对影响企业信用综合评价结果的因素进行逐一分析,计算WOE和IV值,判断指标预测强度,删除预测强度低的指标。以注册资金为例做如下分析:
该变量是连续性变量,对其进行分箱处理,并进行WOE转化,计算IV值,得到结果如表1。
IV为0.34,该变量预测强度高,可纳入评价模型。经过同样的方法分析,纳入模型的变量包括:注册资本、成立年限、所属行业、欠税记录条数、严重失信记录条数、行政处罚条数、执行案件记录条数、法定代表人严重失信记录条数、法定代表人执行案件条数、关联企业严重失信条数、关联企业执行案件记录条数。
(四)模型的建立
将样例数据中表现期有失信记录的企业因变量设为1,无失信记录的企业因变量设为0。将样例数据导入SPSS软件进行回归分析,得到结果如表2。
根据上表的回归结果,结合每个指标的分值权重,在确定好标准评分、标准ODDS和PDO后,按照上文的转换公式和转换步骤,最终得到模型评分卡。
(五)模型的评估
1.区分度指标验证
以注册资金为例,利用不保留样本数据计算模型的K-S值和基尼系数,以判断模型的预测能力。按照该指标得分进行分段并由低到高排序,计算各分段失信企业占比累计与正常企业占比累计差值,K-S=MAX(失信企业占比累计-正常企业占比累计)。经计算,各指标K-S值和基尼系数均在可接受范围内[5]。
2.群体稳定度指标验证
群体稳定度指标(PSI)是用来衡量群体评分卡在开发群体时点与现行评分时点的评分对象的差异程度。按照PSI计算方法,各指标PSI计算结果显示稳定度均在中等以上,验证合格。
四、结语
本次研究,主要是基于Logistic模型,利用目前已归集的公共信用信息,构建评价指标、建立评价模型。随着公共信用信息归集范围不断扩大,已经数据的不断积累,今后将定期评估、完善评价指标,用新数据定期迭代评级模型,不断修正评分卡,并定期发布企业公共信用综合评价结果。
参考文献
[1]刘开元.随机森林与逻辑回归模型在违约预测中的应用[J].信息与电脑(理论版),2016(21):111-112.
[2]阿明翰,张达敏,李伟.逻辑回归在信用卡风险评估模型构建中的应用[J].内江科技,2016(9):41-42.
[3]徐喆.逻辑回归模型在互联网金融P2P业务信用风险的应用[J].统计科学与实践,2015(11):26-29.
[4]姜明辉,许佩,任潇,等.个人信用评分模型的发展及优化算法分析[J].哈尔滨工业大学学报,2015(5):40-45.
[5]朱艳敏.基于信用评分模型的小微企业贷款的可获得性研究[D].苏州:苏州大学,2014.
作者单位:江苏省战略与发展研究中心