APP下载

基于税务数据进行小微信贷风险模型研究

2019-11-11刘联盟

卷宗 2019年29期
关键词:风控税务模型

刘联盟

摘 要:小微企业或企业主的纯信用贷款融资服务一直是金融机构的难题,如何在风险可控的前提下扩大业务规模是亟待解决的,所以需要做一些基于税务数据的风控建模的研究,以作为重点解决信贷风险不对称的问题。当前在风险模型策略中也更为注重量化分析,所以借此论文研究的机会进行拟定题目方向的研究,提升自身的研究分析能力。本文从银行等金融机构的信用风险管理中税务数据的价值入手,详细阐述了其在建模方向的应用,并提出了相应的困难。

关键词:风控;模型;小微信贷;税务

小微金融融资难,其本质是源于三个不对称,即信息不对称,风险不对称,成本收益不對称。综合国内外学者对小企业融资模式的研究成果来看,大多是希望通过破解信息不对称问题,来解决其融资过程中遇到的问题,其中风险控制又是关键。尽管近年来,我国商业银行正在逐步推行流程银行改革,大中小行业银行也都在对线上化的信用贷款进行了一定程度的尝试,这些对小微企业的融资起到了部分促进作用,但依然成效不大。为此,笔者认为重点是从数据源着手,提高银行风险模型和策略的决策能力来减轻小微企业信息不对称问题,依托银税互动的背景,大力挖掘税务数据在风控领域的应用价值,通过解决风控和成本不平衡的难点逐步解决小微企业融资难题。

1 小微信贷的意义和价值

小微客群数量庞大、分布广泛,他们贴近市场、贴近用户,活跃在市场竞争最为激烈的领域,是经济增长和市场创新的微观基础。

在我国“以票管税“的大环境 下,发票信息与税务信息紧密相连。在各类小微企业融资模式中,税务信息模式在风控效果提升、成本与效果兼顾两方面均具备优势,成为当前各金融机构越来越重视的模式。具体而言,税务信息具备覆盖的企业面广、信息维度多且与风控效果相关性大、信息准确度高、电子化存储方便等优势。其中,税务数据的信息维度优势尤为突出,这其中包含企业主营商品分析、缴税记录、税务信用等级、采购商品分析、销售额排名区间、水电支出等信息。

当前情况下,提升风控水平是破解小微信贷成本和风控的两难问题的最佳手段,同时可以更好地提高贷款决策的有效性和科学性。金融结构可以借助税务数据来构建的企业经营全景视图来进行风险控制、产品营销、业务创新等活动,真正有效的发挥数据和资金价值,进一步促进经济发展,落实普惠金融建设。

2 基于税务数据的风控建模的实现

本文采用的是一个融合模型,即通过两个机器学习模型建模,然后在进行逻辑回归建模。首先会介绍数据探索和处理过程,以及特征构造等建模前的基础内容。然后介绍Logsitc Regression 的基本原理、数学模型以及主要的方法。之后详细介绍了 Random  Forest、Xgboost 在融合模型中的应用,对算法的原理及其实现方式进行了详细的阐述,并对必要环节的处理过程进行解释。主要包含以下几个重要步骤:

2.1 数据探索

数据探索要弄清楚这些问题:有哪儿些字段?样本数据长什么样子?基本特征是什么?分布是什么样?有什么特殊之处?数据之间有没有关系(相关性分析)?样本数据是否能满足建模需求?

数据探索是在具有较为良好的样本后,对样本数据进行解释性的分析工作,它是数据建模的较为前期的部分。数据探索并不需要应用过多的模型算法,相反,它更偏重于定义数据的本质、描述数据的形态特征并解释数据的相关性及其业务意义。通过数据探索的结果,我们能够更好的开展后续的数据挖掘与数据建模工作。

2.2 数据处理

对原始数据进行处理是论述本文的一切的前提,这部分工作十分繁复,其中主要是对相关数据的抽取,对数据类型进行处理,数据进行归一化处理,缺失值填充的方法评估,去除噪声数据,对极值处理,并对确认错误的数据进行修正或删除。由此产生的高质量的数据才能进行下一步的特征构造工作。

2.3 特征构造

这部分涉及到如何构造特征,特征作为模型效果的直接因素,在数据建模工作中占了大部分工作量,也是模型建设中最重要的工作,从多样化的业务逻辑中寻找特征构造方法,利用特征工程通用的技术方法去验证特征效果,并使用专业性知识构造特征生成模型。由此构造出有效且解释性强的特征,不仅对模型效果有极大提升作用,还能对业务意义提供参考。

2.4 模型原理和模型构建评估

2.4.1 Logistic  Resgression

Logistic  Resgression 是以概率学理论为基础所衍生出的非线性回归模型,针对解决二分类问题的回归模型,为了拟合因变量 y 与自变量(x1,x2,…,xn)之间关系而构造的数学模型,是一种广义的线性回归分析模型,较常用于数据挖掘,医学上的疾病分析和诊断,信贷评分卡等领域。

2.4.2 Random Forest

Random Forest算法是由多个基模型组成的分类算法。基于决策树用随机的方式建立一个森林,在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行判断。既然 Random  Forest 是一种多模型组合算法,那它一定是由元分类器组成的,它的元分类器是 CART 树。每次进行训练的样本集没有使用全集,而是使用抽样的方法,抽样方法是 Bagging 方法抽取有差异的子集,在树的分支时也采用随机选择分裂特征的方式。通过使用以上方法,增强了 Random  Forest 算法较好的抗噪能力,并且由此也使得其分类效果十分优秀。

2.4.3 Xgboost

Xgboost 将通用 Tree  Boosting 算法进行了工程化实现,梯度提升决策树(Gradient Boosting Decision Tree,GBDT)是 Tree Boosting 算法的代表,而它也被称为 MART(Multiple Additive Regression Tree)。

2.4.4 模型构建

通过之前生成的特征变量,进行变量的必要筛选和入模调整,构建一整套违约预测模型,对融合模型和单模型进行效果对比,并对模型中必要的模块的实现方法及过程进行论述。

2.4.5 模型评估

效果评估方式包含KS检验和ROC检验:

1)KS检验主要是验证模型对违约对象的区分能力,一般用在模型预测建模的信用樣本的信用评分后,将样本按违约率与非违约率分成两部分,然后用KS值来检验两组样本的信用评分是否具有显著性差异。

2)ROC曲线及AUC系数主要用来检验违约预测模型对客户进行正确的排序能力。ROC曲线重点描述在一定累计好客户比例下的累计坏客户的比例,模型的分别能力越强,ROC曲线越往左上角靠近。AUC值表示ROC曲线下方的面积。AUC越高则模型的风险区分能力也就越强,AUC的最大值是1,也即是理论上的完美信用违约模型。

3 当前遇到的困难和后续展望

3.1 当前遇到的困难

一是对税务数据的业务含义认识上的片面性,导致无法构造出一些十分有价值的变量,可能致使最终模型效果无法达到预期;二是数据实证分析遇到阻滞,影响论文写作的阶段性推进;三是企业上下游数据因普通发票开具的信息以及接收到的信息不完整,上下游的统计数据可能会与企业实际交易情况存在细微的误差。

3.2 后续展望

综上所述,通过本文的研究,给出了利用税务数据对小微信贷领域的风控模型进行分析和挖掘的一个思路和方向,并取得了初步的成果,但是由于本人知识面的狭窄和经验上的不足,该研究并不完美,还存在着许多需要完善的地方,有待未来继续努力。未来可以进一步研究的内容包括:

1)对数据的深度分析和使用,采集更多的数据,除了本文所使用的税务基础数据之外,还可以纳入更多的与企业经营相关的数据,包括不限于水电费用信息,企业进销项中更多维度的数据。此外对于数据的处理,需要研究更优的数据清理方式,更加有效的消除异常数据,填补空缺数据。最后还要对小微企业的经营数据做深度分析,提高特征数据的粒度,寻到更多有效的与违约强相关的数据特征。

2)使用一些最新的算法来进行违约预测,利用目前前沿的深度学习技术对违约模型进行优化。

4 结束语

综上所述,小微信贷领域的数据模型的应用还处在探索与发展阶段,但是这也是当前数据挖掘应用领域的热点研究方向。本文以作者实际经验出发,介绍了在当前国家政策的大力支持下,小微企业融资难、融资贵的现象依然一直存在,分析融资难的本质原因分析,以及解决小微企业融资的现实意义,针对小微企业融资难的问题,一方面,通过“银税互动”、“银商互动”、对接产业中的交易数据、与正规持牌的第三方征信机构合作等方式,不断拓展充实小微企业的经营信息;另一方面,结合税务数据和机器学习算法,动态搜集企业经营的相关信息线索、提炼数据特征。丰富和完善企业信用评估的维度,将传统的评分卡建设转变为融合模型的构建,切实提高金融结构的小微信贷风险把控能力。

企业的税务相关数据中也存在很多值得挖掘的信息等待人们去发现,尽管本论文的研究内容还有许多不足之处,但随着未来研究的进一步开展,相关领域的研究必然会取得更大的突破,为数据建模在小微信贷领域的应用取得更大的成果。

参考文献

[1]姜强,赵蔚,王朋娇,等.基于大数据的个性化自适应在线学习分析模型及实现[J].中国电化教育,2015(1):85-92.

[2]洪娟.大数据环境下商业银行“小微贷”竞争策略研究[J].南方金融,2014(03):80-82.

[3]王妍.构建大数据“云银行”金融模式突破小微企业融资瓶颈[J].对外经贸,2015(07):114-116.

[4]李雅芹,杨慧中.一种基于Bagging算法的高斯过程集成建模方法[J].东南大学学报:自然科学版,2011,41(B09):93-96.

[5]李航.统计学习方法[M].北京:清华大学出版社,2012.

猜你喜欢

风控税务模型
税务动态
个人独资企业对外投资的税务与会计处理
提升税务干部的学习力
重要模型『一线三等角』
重尾非线性自回归模型自加权M-估计的渐近分布
新监管框架下银行的风控和内审体系
3D打印中的模型分割与打包
论小微企业融资的风险控制
FLUKA几何模型到CAD几何模型转换方法初步研究