APP下载

基于套索的小微企业贷款审批

2013-03-31

合作经济与科技 2013年14期
关键词:授信额度范数申请人

(天津大学管理与经济学部 天津)

小微企业贷款是民生银行的重要特色之一,截至2011年末,中国民生银行的小微企业贷款余额已经超过2,300 亿元人民币(约合360 亿美元),不良贷款率只有千分之一点五左右,民生银行已经成为全球最大的小微企业金融服务提供商。小微企业客户具有户数众多、客户分散等特征。在中国银行业,小微企业贷款一直被认为是“高信用风险、高人工成本”的业务,20世纪八十年代中国各大国有银行都有过给小商户贷款遭遇巨额不良贷款的惨痛经历。如何筛选优质可靠小微企业,降低信用风险是进军小微企业贷款领域首先需要思考的问题。本文结合天津民生支行实际情况,从贷款小微企业申请表格中整理出一套指标体系,利用lasso 筛选出重要影响指标,方便操作,对于风险评估、确定授信额度等提供借鉴和帮助。

一、小微企业贷款分析指标

小微企业客户具有户数众多,客户分散等特征。“商贷通”目标市场选择的基本原则在于运用“大数法则”测算出特定行业的风险概率,甄选“商贷通”业务进入的行业,迅速地找到有效客户群体,并对其进行批量营销。

最后整理指标体系包括24 个指标,有姓名、性别、年龄、婚姻状况、有无子女、最高学历、已有额度、我行余额、资产合计、负债余额、月供支出、信用记录、从事行业I、从事行业II、从业年限、经营模式、员工人数、年经营收入、半年流水、年利润、公司信用、行业利润额、担保方式、授信额度。其中,一类行业:批发和零售业,制造业,住宿和餐饮业,交通运输、仓储邮政业,信息传输、计算机服务和软件业,租赁和商务服务业,居民服务和其他服务业,建筑业,房地产业,教育,文化、体育、娱乐业,其他。二类行业:食品,饮料,烟草,纺织,服装,日用品,文化体育用品,器材,医药、医疗设备,家具,建材,工艺品,五金交电,机械设备,通信设备、计算机、电子,皮革毛皮,造纸,塑料,橡胶,非金属,金属,金属制品,交通运输设备,化学制品,仪器仪表,专用设备,通用设备,废弃资源和废旧材料回收加工业,代理。

指标体系中有数值型和分类指标,数值型指标可以直接分析,而分类指标需要编码之后才能分析。该指标体系按照申请人在民生贷款时所填表格整理得到,主要包括个人基本情况、家庭资产及负债状况和公司情况三个方面。由于指标太多,希望从中找出授信额度的最重要影响指标,方便以后贷款审批和分析。

二、l asso 方法

所谓lasso,也有翻译成套索,其全称是least absolute shrinkage and selection operator。最早提出lasso 的是Tibshirani在1996年Journal of the Royal Statistical Society:Series B 上的一篇文章Regression shrinkage and selection via lasso。对于线性回归,在普通最小二乘的基础上加入L1 范数惩罚。其想法是在限制了系数总和的情况下,求使得残差平方和达到最小的回归系数的估值。

其中,yi是第i 个样本的输出值,总共N 个样本。xij是第i 个样本的第j 个输入变量,βj是第j 个输入变量,总共p 个输入变量。

但是,lasso 提出之后没有受到太多关注,直到2002年Efrn 提出最小角回归之后,才变成热点。Tibshirani 自己分析可能是如下原因:

(1)1996年提出的lasso 算法相比于今天太慢;

(2)当时lasso 算法是个“黑箱子”,没有显著的解释;

(3)稀疏性(sparsity)的重要性并没有被人们认识;

(4)海量数据问题较少;

(5)当时R 语言没有流行,几年之后R 语言可以轻松分享最新算法软件。

三、l asso 分析结果

由于所选指标中有数值类型和分类变量,数值变量可以直接处理,分类变量回归之前需要编码。本文采用虚拟编码,涉及到性别、婚姻状况、有无子女、从事行业I、从事行业II、经营模式、公司信用、担保方式8 个分类变量,编码之后总共38个变量,增加了15 个变量。

R 语言中有多个宏包附带lasso 算法,最有名的就是Efron 的最小角回归lars 包,该包的lars 函数提供了lasso 四种算法:凸二次规划的“lasso”,最小角回归“lar”、前向逐步回归“forward.stagewise”和阶梯式算法“stepwise”。拟合之前需要将每个自变量和因变量标准化,减去均值,除以标准差,使得每个变量均值为零,方差为1。将授信额度为因变量,其他所有变量为自变量。挑选出对授信额度影响最大的变量指标。系数路径如图1 所示,图形横坐标表示不同取值下,38 个变量系数向量的L1 范数与最大向量L1 范数比值。纵坐标表示不同情况下,38 个系数取值。当限制系数向量L1 范数不同值时,所估计系数不尽相同。到底限制多少时,所得系数估计最优。一般采用十折交叉证实计算均方误差,取最小均方误差对应的系数向量L1 范数限制。(图1)

最后选择结果表明,从事行业II 对贷款授信额度影响最大,其次为婚姻状况,最后为已有额度。按照银行业务员的经验,行业对于授信额度审批至关重要。利润率高的行业获批授信额度更多。系数最大的是从事行业II 交通运输设备0.43,表明交通运输设备行业备受银行青睐,从事建材的企业也容易获批贷款。从事行业II 金属、从事行业II日用品、从事行业II 医药、医疗设备和从事行业II 仪器仪表系数为负,表明与基准代理行业相比,这些行业获批贷款更难一些。

已婚和离异的申请人对于授信额度的影响差别不大,但是相比于未婚申请人,已婚和离异申请人申请的授信额度要大得多。一般未婚申请人比较年轻,事业刚刚起步,获得的授信额度较小。但是,已婚和离异的申请人年龄较大,都是事业有成的成功人士,获批的额度较大。在民生银行已有贷款额度系数很小,前两位小数为零。由于该指标强调的是在民生银行本行的贷款额度,没有考虑申请人在其他银行的贷款,不能完全反映申请人贷款情况,所以其系数较小,但是认为已有贷款额度对于授信额度具有较大影响。

四、总结

本文从民生银行小微企业贷款申请表格中提取24 个指标,以授信额度为因变量,其他变量为自变量。利用lasso 的变量选择功能,从中挑选出对于贷款影响的一些变量,方便银行人员审核和批复。结果表明:企业所在的行业对于贷款的影响最大,银行可以根据不同行业进行专业分析。

[1]Tibshirani R.Regression shrinkage and selection via the lasso[J].Journal of the Royal Statistical Society.Series B(Methodological),1996.

[2]Efron B,Hastie T,Johnstone I,et al.Least angle regression[J].The Annals of statistics,2004.32.2.

[3]王占锋,吴耀华,赵林城.删失回归模型中一个LASSO型变量选择和估计方法(英文)[J].应用概率统计,2010.1.

[4]邵伟,祝丽萍,刘福国等.对称阵稀疏主成分分析及其在充分降维问题中的应用[J].山东大学学报(理学版),2012.4.

[5]谭理想.双线性时间序列模型的Lasso 方法定阶[D].南京:南京大学,2012.

猜你喜欢

授信额度范数申请人
化解企业融资困境的方法和途径
7月1日起澳洲签证费将全面涨价上调幅度达到5.4%
基于加权核范数与范数的鲁棒主成分分析
矩阵酉不变范数Hölder不等式及其应用
一种含碘氢碘酸浓度的分析方法
一种黄霉素A组分的分离纯化方法
一类具有准齐次核的Hilbert型奇异重积分算子的范数及应用
11