APP下载

互联网金融空间聚集分析及系统性风险防范
——基于t-SNE机器学习模型

2019-09-02米传民徐润捷

财经论丛 2019年8期
关键词:系统性聚类金融

米传民,徐润捷,陶 静

(南京航空航天大学经济与管理学院,江苏 南京 210016)

一、引 言

互联网给商业、金融、工业等众多行业带来了机遇与挑战,其中互联网金融充分地利用了互联网的优势,在一定程度上提高了金融资源配置效率,促进了金融的普惠发展[1][2]。但随着网络支付、P2P信贷、众筹等互联网金融新模式的普及,P2P平台违约、跑路等互联网金融风险问题频发。互联网金融的发展以及由此带来的系统性风险成为学界和业界关注的重要问题。

2007年金融危机爆发以来,系统性金融风险的防范已经成为各国金融监管部门的重要工作。多元正态分布是刻画系统性风险的重要工具,但难以拟合金融时间序列的尖峰厚尾和非对称相依结构等特征[3]。另一方面,金融系统性风险的影响因素具有动态变化特征,例如互联网金融新商业模式层出不穷、监管滞后、金融市场流动性问题等等。如果不考虑这些现实因素的影响,则造成金融系统风险分析失真。随着金融监管理论、大数据、以及互联网金融发展,一些新的研究方法进入研究的视野,如通过降维来估计系统性风险的CoVaR[4]、MES[5]等方法。机器学习算法领域的Laurensvan der Maaten和Geoffrey Hinton提出了t-SNE降维聚类算法[6]。本文运用t-SNE算法,研究我国互联网金融发展的空间聚类,通过对互联网金融多种业务发展的指数数据降维来提取局部空间结构,进而观察我国互联网金融发展聚类情况,并在此基础上提出三类系统风险问题。

二、文献综述

互联网金融的虚拟线上空间、跨区域发展等带来了互联网金融发展区域和空间聚集的不均衡。一些学者对互联网金融区域发展、空间聚集进行了系统研究。北京大学互联网金融研究中心课题组编制了互联网金融发展指数,并对互联网金融空间聚集效应进行了分析[7][8]。郭海凤和陈霄(2015)深入考察了中国网贷平台发展的地区差异[9]。廖理等(2014)系统分析了网贷平台借贷中的地域歧视[10]。王赛芳(2016)通过构建指标体系,基于因子分析和聚类分析方法实证研究了我国31省市的互联网金融发展水平及空间分异[11]。李清磊和王旺(2018)基于北京大学数字普惠金融指数数据,定量分析了安徽省金融发展的地域差距[12]。但总体上,受制于互联网金融数据缺乏,目前的研究多采用统计分析的方法进行空间聚焦和差异分析。

巴塞尔资本协议III提出了宏观审慎监管的思路,我国提出了“守住不发生系统性金融风险”的金融监管底线[13]。但业界和学界关于金融系统性风险的定义尚没有完全统一。从金融稳定视角,有的学者将系统性风险的根本原因归结为金融系统本身的内在不稳定性[14]。Allen(2000)从经济平衡的角度解释系统性风险,认为金融危机是由于系统不均衡引起的[15]。关于金融系统性风险的量化研究,一种思路是利用商业银行或金融市场的数据来建立系统性金融风险度量模型。例如Iling和Liu(2006)构建金融压力指数(FSI)研究金融系统风险问题[16]。陈守东和王妍(2014)将极值理论引入到系统性金融风险度量中,从而证明金融机构的市场价值的非正态分布特征[17]。王培辉和袁薇(2017)基于CCA和动态因子Copula模型对我国金融机构系统风险进行了评估[3]。另一种思路将金融系统视为网络,利用网络科学的理论方法建模研究整体风险的静态和动态特征。巴曙松(2013)[18]、Acemoglu等(2015)[19]研究了金融网络及传染对金融稳定的影响,Axel(2016)利用贝叶斯网络进行系统性金融风险评价[20],Hamed(2016)研究了不均匀金融网络的风险传染问题[21],贾彦东(2011)[22]、隋聪等(2016)[23]从网络视角进行了金融结构系统重要性分析和银行业系统性风险度量,邓超(2014)[24]、欧阳红兵(2015)[25]利用复杂网络研究系统性风险传染问题。

互联网金融带来金融系统结构的内在变化,复杂性和关联性增强,金融系统性风险呈现区别于传统金融的不同特征。Onay和Ozsoz(2014)分析了互联网金融与商业银行的贷款审批业务,发现互联网金融可以享受比较低的贷款利率[26]。吴成颂(2109)等运用沪深股市上市商业银行数据进行了互联网金融对商业银行金融系统性风险影响的量化实证[27]。顾海峰和杨立翔(2018)基于中国银行业数据研究了互联网金融与银行的风险共担问题[28]。Klafft(2008)对P2P行业进行分析,得出互联网金融的交易风险源于对贷款业务经验的缺乏[29]。张李义和涂奔(2018)从信息优势角度研究了互联网金融对同业市场利率的影响[30]。吴珂和谢晋雯(2018)基于Z值评分模型识别互联网金融风险诱因和严重程度[31],陈耀辉和杨宁(2018)建立La-VaR模型研究了互联网金融流动性风险[32]。兰翔(2017)选择中证800金融指数,运用VaR分析与Copula的方法对互联网金融进行了风险测量,结果表明互联网金融市场的VaR与ES均高于传统市场,互联网金融市场本身可能具有更高的系统性风险[33]。王立勇和石颖(2016)采用二层次CRITIC-灰色关联模型构建互联网金融风险评价体系,运用VaR方法度量互联网金融风险[34]。另外,针对互联网金融风险传染问题,贾楠(2018)基于层次分析法分析了互联网金融在技术风险、操作风险、法律风险、信用风险和业务风险方面的影响,得出信用与技术是互联网金融中重要的风险传染因素[35]。朱宸和华桂宏(2018)根据互联网金融和银行业之间的相互作用,研究了互联网金融影响下的银行业系统性风险引发和传染机制[36]。张婷和米传民(2016)构建了超网络模型研究互联网金融均衡问题[37],并考虑互联网金融中社交网络关系研究了系统性金融风险传染问题[38]。

综上可以看出,互联网金融快速发展,带来金融开放、效率提升、成本降低的同时,也给互联网金融体系乃至整个金融系统带来系统性风险新问题。大量研究表明互联网金融无论从宏观金融体系层面,还是从微观业务层面,都给传统金融带来了影响,相应的金融风险问题也值得深入研究。目前对互联网金融下系统性金融风险的研究还处于初步阶段,虽然取得了一些成果,但相对于互联网金融的快速发展,有必要深入、系统研究其内在机理。随着互联网金融发展带来的数据和资料急剧增加,以及机器学习和人工智能的普及发展和深度应用,运用大数据、人工智能的思路和方法,研究互联网金融发展区域差异、空间聚集,从宏观、中观层面找到系统性金融风险点并进行监管,是一个新视角,也符合巴塞尔资本协议III的监管发展思路。本文基于北京大学互联网金融研究课题组收集的“互联网金融发展指数”数据,运用t-SNE算法构建模型,进行互联网金融区域发展的降维和聚类分析,解决互联网金融数据复杂性高和变量多而导致的维度过多问题,得到我国互联网金融空间聚集和不同业务模式(支付、货币基金、保险、投资)发展的分布特征,找出中观层面的系统性风险因素,进而提出互联网金融发展区域差异造成的三方面系统性风险,并提出防范互联网金融系统性风险的建议。

三、数据来源和研究方法

(一)数据来源

“互联网金融发展指数”由北京大学联合国内主要互联网金融企业,根据2014年1月至2015年12月的互联网金融数据发展编制而成[7]。本文选择了31个省(不含港澳台,下同)与335个地级市,共计35136个数据用于实证研究。该数据囊括了四种业务模式指标,并通过时间戳体现在每一个城市上,变量多且维数高。传统的多元统计方法在处理这类实际数据时会遇到数据不符合正态分布的情况,也难以直接观察空间结构。本文采用t-SNE机器学习降维算法对众多数据进行训练、可视化和聚类,来研究互联网金融的空间聚焦与业务发展的关系。

该指数将国内的互联网金融分为互联网支付、互联网基金、互联网信贷、互联网保险四种业务,是目前国内为数不多的互联网金融研究数据。在数据集中包括分地区互联网金融指数。分地区指数在计算过程中考虑了各地区指数点位之间的横向可比性。不同地区在某时期下相对交易渗透率、人均交易金额、人均交易笔数三个指标的计算公式如下:

(1)

其中,Ah,i,j,t表示t时刻下,h地区中第i类业务的第j个指标相对于全国总指数的相对值,Xi,j,t表示t时刻全国总指数的同业务同指标,Xh,i,j,t表示t时刻h地区的同业务同指标。

不同地区在某时期的互联网支付、基金、信贷、保险业务相对于全国系数计算公式如下:

(2)

其中,Bh,i,t表示在t时期下h地区中第i类业务相对于全国总指数的相对系数,m1、m2、m3分别表示上述的交易渗透率、人均交易额、人均交易笔数应占的权重,该指数中m1=50%,m2=25%,m3=25%。

(二)t-SNE机器学习算法

t分布随机邻嵌入算法(t-distributed stochastic neighbor embedding,t-SNE),由Laurens van der Maaten和 Geoffrey Hinton(2008)提出[6],后期经过Maaten的改进,分别在2015年和2016年提出了LINE与LargeVis算法,很大程度上降低了训练复杂度[39][40]。该算法目前在降维、聚类、可视化的应用上取得了良好效果,Gordon Berman(2014)将t-SNE算法运用到对果蝇地面自由运动(即除了飞行)录像上进行降维分析[41]。刘丰等(2017)基于t-SNE算法实现了鸟类音频情报辨识的数据可视化[42]。詹威威和王彬等(2018)在高维脑网络状态观测矩阵中使用t-SNE算法,有效的解决了分散、交叉和散点[43]。本文选择的省级和地级市数据存在数据维度高且复杂的性质,包含四个业务模式、三百余个度量区域、二十四个时间节点。经典数据处理方法,如回归分析、主成分分析、相关性分析等针对稀疏和多变量复杂数据集往往只能体现总体的关联,忽视了局部之间的联系,而t-SNE算法使用高低维二者的联合概率,能够有效解决优化困难与维度拥挤的问题,使得降维后的数据较好保持原有流形结构。本文运用t-SNE算法可将互联网金融指数有效映射为二维图像,有利于对整个互联网金融的发展进行观察,进而研究其系统性风险情况。

在高维空间中,t-SNE算法采用高斯分布,对于高维数据点x的低维对应点y而言,可以计算条件概率pi|j来表示i点与j点之间的关系:

(3)

而在低维空间,采用自由度为1的t分布,以qi|j表示。

(4)

复杂数据降维过程中,最理想的状态是高维空间样本点之间的相似度与低维空间样本点之间的相似度相同。t-SNE利用Kullback-Leibler散度作为目标函数来判断差异,从而实现最佳参数。

(5)

利用梯度下降法实现的最小化迭代公式如下:

(6)

在实验过程中有4个因素影响降维效果,即概率模型的困惑度(perplexity)、前期放大系数(early exaggeration factor)、学习率(learning rate)、最大迭代次数(maximum number of iterations)。困惑度是对后期结果影响最为关键的因素,它的作用是用来获得高斯分布的方差。条件概率矩阵P的任意行困惑度可以定义为:

Perp(Pi)=2H(Pi)

(7)

其中,H(Pi)为Pi的香农熵。如果高维空间概率分布的熵越大,则数据集的变量不确定性越大,从而造成处理后的数据在分布上更加平坦。反之,高维空间概率分布的熵越小,则数据的关联性越高,处理后得到的数据越具有分布规律。香农熵与高维空间的概率分布关系为:

(8)

四、省级区域的互联网金融发展及系统性风险分析

为了检验t-SNE算法的有效性,通过与经典PCA(principal component analysis)的比较研究,对31个省级区域(不含港澳台)的数值进行降维、聚类、成像和分析。

(一)基于PCA的省级互联网金融发展及系统性风险分析

PCA作为经典的数据挖掘算法被应用于许多数据挖掘场景。PCA通过线性投影简化数据,将高维数据映射到低维空间,尽可能保留原数据的内在信息。本文使用PCA将每个省份互联网金融发展状况降到2维,并在坐标轴上可视化,所得的成像效果见图1(a),横坐标表示各省的发展体量指数大小,数值越大则发展情况越领先;纵坐标表示互联网的支付、保险、基金、信贷四大业务之间发展的均衡动荡程度,数值越大表明四大业务发展的体量越不均衡。

从PCA分析结果来看,31个省级数据总体呈现出:个别省份发展迅猛、多数省份聚集的尖峰厚尾特征。但从互联网金融业务发展均衡程度上来观察,互联网金融整体发展优异的区域在业务间发展的差异性也低。这得益于发达省份互联网金融基础设施完善、互联网普及率较高、经济活力与消费水平旺盛。根据图来看,互联网金融总体发展程度较低的区域也表现出了不同业务之间的发展均衡现象,此现象可能是由于这些区域本身互联网经济发展动力不足导致的。相较于前两者,发展中游的城市出现了业务发展不均衡现象,说明了互联网金融在发展中城市的巨大潜力,也令尾部依赖这一特征在系统性风险积累过程中的显得尤为重要。

依照PCA处理后的数值结果,将其依照大小排序,见表1。发展最快的几个城市,例如北京市,相比于全国平均值高出8倍之多;沿海东部省份互联网金融发展速度远远超过内陆城市,西部省份大部分处于互联网金融发展落后阶段。该排名同时反映出在互联网金融的系统性风险考量中,需要考虑城市在互联网金融发展中的重要程度。

表1 基于PCA的31省级区域互联网金融排名

(二)基于t-SNE的省级互联网金融发展系统性风险分析

本文使用python进行t-SNE算法计算,对31个省级区域的互联网金融系统风险分析。由于t-SNE是从非线性降维出发,将高维空间样本投影到多个二维空间映射图上,使用高低维双向概率分布,得出的结果具有随机性特点。本文结合了流行正则化技术来控制映射图,从而使得投影到可视化空间的样本点不但可以保持高维数据的整体结构,也保持了局部近邻点的关系。在t-SNE的数据处理中包括两个阶段,分别为前期放大阶段与后期性能选择阶段。实验中前期放大系数设置为12.0,空间的联合概率通过乘以前期放大系数的方式逐步增加。重点调整困惑度与学习率,使得在单点近似区域实现迅速而准确的训练效果。不同参数下的分布形态、聚类效果见表2。

表2 不同t-SNE参数下的分布形式

31个省份的聚类分布在Per=5.0时更具备稳定的聚类特征,聚类效果如图1(b)、(c)所示,存在31个省级区域的聚类划分,大致划分为:

Ⅰ级:北京、上海、浙江、广东。

Ⅱ级:江苏、福建、天津、湖北、山东、重庆、辽宁。

Ⅲ级:陕西、海南、安徽、四川、山西、河北、江西、黑龙江、河南。

Ⅳ级:吉林、新疆、宁夏、湖南、西藏、广西、内蒙古、云南、青海、贵州、甘肃。

比较图1(b)和(c),基于t-SNE的结果囊括了发展强、较强、中游、以及落后的省份,聚类效果体现了我国国内互联网金融发展特征为:个别省份极端发展、多数省份聚集的尖峰厚尾现象。t-SNE聚类结果更能体现互联网金融发展的区域性,有助于进行互联网金融的系统性风险分析。

从图1来看,PCA算法够清晰反映各省互联网金融发展水平,解释不同区域在诱发互联网金融系统性风险中的重要性。但PCA成像在分布上出现了较为无序的子集杂糅,不能很好体现统计特性。一部分城市之间相互吸引,而另一部城市之间却远距离分散,难以直观观察到不同区域在互联网金融发展程度上的关系特点。

t-SNE降维聚类结果呈现清晰的聚类团,不同互联网金融区域发展程度的界定更为明显。作为非线性算法,t-SNE通过恢复数据低维度状态下的流行结构起到降噪作用,并体现数据内在关系,从而更好地反映降维前的系统特征[44]。使用t-SNE对31个省份的聚类,反应出我国互联网金融发展过程中区域间相互关联的特性,这为监管部门对互联网金融系统性风险进行分级分区域监管提供了数据驱动的决策参考。

图1 PCA与t-SNE的省级互联网金融发展类效果对比

五、地级市的互联网金融区域发展及系统性风险分析

在第四部分,主要从省级层面进行了数据分析。但省级数据的横切面只有31类,无法体现更细节的互联网金融系统性风险特征。本节将使用全国335个地级市(包括自治州、盟、地区)的多业务发展数据进行实验与分析。第四部分的PCA分析,在处理数据的过程中难以避免维度拥挤和数据杂糅的问题,无法产生良好的聚类效果,因此本节主要探讨基于t-SNE机器学习算法的地级市层面的互联网金融发展系统风险聚类效果。

(一)地级市互联网金融发展聚类特征分析

在地级市t-SNE机器学习聚类过程中,参数设置如下:前期放大系数为12.0,困惑度为30.0,训练次数为5000,然后使用K-means算法对降维后的数据进行聚类,得到的聚类结果如图2所示,地级市的互联网金融发展情况汇聚成7大类,另外有一地级市的点分散在7大主要类的附近。对于较大相似度的地级市的点,t分布在低维空间中的距离稍小一点,即同一簇内的点聚合的更紧密;而对于低相似度的地级市的点,t分布在低维空间中的距离需要更远,即不同簇之间的点更加疏远。

(二)地级市互联网金融发展关联性特征分析

在利用t-SNE机器学习聚类过程中,通过参数调整,我们发现:当概率分布困惑度Per=10.0时,数据分布产生了整体杂糅性,如下图3所示。这说明,第一,互联网金融发展在地区之间的聚集分布不是完全性的,虽然主要是依从一个整体,但是存在空间聚集差异。第二,在图3中,地级市互联网金融发展区域分布以横纵坐标原点为中心向外扩散。横坐标的大小代表相对于平均水平的各城市互联网金融发展情况,纵坐标表示互联网金融的支付、基金、信贷、保险四大分业务发展的均衡动荡程度,这与上文PCA算法得到的效果类似,也与互联网金融发展指数局部Moran’s散点图得到的效果相似[7]。游离在聚焦原点外的数据大部分是一、三、四象限分布,少数在第二象限。第二象的坐标具体含义是:互联网金融发展指数较低、分业务发展的差异性很高,但实验结果是第二象限呈现极少的散点分布。结合我国互联网金融发展实际情况,以及上述PCA聚类结果,可以看出,中国西部城市在互联网金融整体水平较低的情况下,分业务发展的均衡性却与发达城市相同的现象。这也印证了本文第四部分得出的中国互联网金融发展情况是个别省份极端发展、多数省份相互聚集的尖峰厚尾现象。

图2 t-SNE下的地级市互联网金融发展聚类图

图3 t-SNE下的地级市互联网金融发展关联图

六、互联网金融空间聚集对系统性风险监管的管理启示

结合李建平(2010)等风险相关性与集成的研究成果[45],从管理启示角度,本文认为我国互联网金融系统性风险在区域上的防控可从以下三个方面关注。

(一)地理空间聚集传染风险

我国互联网金融系统性风险需要注意区域性防范问题,避免区域性传染风险。从上述聚类结果看,中国互联网金融发展主要集聚在沿海东部地区,呈现区域特征。这一方面增大了互联网金融系统性风险的传染性,另一方面也反映出对聚集区域进行针对性监管的必要性。具体来说,东部发达地区体现出互联网发展速度极端化特点,该类区域经济金融发展水平高、互联网基础设施建设完善、互联网金融发展的需求与供给充足。这极大地促进了互联网金融发展在空间区域选择上的倾斜;经济发展良好的地区在互联网金融的发展速度上增速很高,且伴随有互联网金融不同业务之间的发展差异;经济欠发达的西部地区虽然受到互联网跨时空障碍、方便快捷的优势影响,但互联网金融发展的速度与动力要落后于东部地区。这种互联网金融发展的区域性差异,可能带来互联网金融的传染性系统风险,在宏观监管过程中需要重点关注。

(二)业务发展差异性风险

业务发展的差异性,可在中观层面带来系统性风险,需要关注。从分级业务的发展情况来看,互联网金融发展领先的城市在互联网支付、基金、信贷、保险四大业务上发展均衡,而发展中等水平的城市呈现了业务间发展高低不平衡的特征。这同Allen的研究一致,即从经济平衡的角度解释系统性风险,考虑到经济发展不仅体现在总体量上的差距,实际上也需要参考各级市场的发展情况[15]。我们的研究认为,从系统内在联系的角度,互联网金融发展处于中游的城市,其不均衡的业务发展意味着互联网金融发展存在市场差异,这也可能带来系统风险,需要在监管过程中关注业务发展的差异性。

(三)互联网金融发展系统性重要城市风险

从网络科学角度,网络中的节点间存在联系,不同节点的重要性不同,对网络的影响也不同。如果将全国互联网金融看成一个网络,根据上述聚类实证研究发现,北京、上海、深圳、杭州等城市是我国互联网金融发展突出的城市,对周边地区辐射效应也最为强烈。北京、上海基于传统金融中心基础,深圳依托微信相关互联网金融基础,以及杭州依托蚂蚁金融为主的互联网金融发展,为这些城市互联网金融发展提供了良好的机会。朱晓谦等(2018)的研究发现,单个金融机构的危机可能导致整个金融系统陷入危机,用概率可以度量系统性风险[46]。巴塞尔资本协议III针对2007年金融危机提出了系统性重要金融机构的概念,加强对系统性重要金融机构的监管。基于第五部分研究的结果,我们认为,考虑到互联网跨时空、集聚效应更强和风险传播更快的特点,除了关注系统性重要金融机构,有必要从中观层面,关注系统性重要城市可能给金融体系带来的系统性风险。

七、结 论

互联网金融给经济金融带来深刻影响,其风险问题也不容小觑。区别于传统的系统性风险度量研究方法,本文从风险传染视角,对高维数据进行降维和聚类处理,研究互联网金融在空间地理上的可视化展现与业务分布上的结构差异,得到了互联网金融发展的系统性风险区域特征。从实证结果来看,t-SNE算法能够较好地捕获系统性风险发生的特征与薄弱环节,并得出互联网金融市场存在的尖峰、厚尾等特征,在此基础上本文提出三方面互联网金融系统性风险防控建议。

下一步的研究,一方面,可以利用互联网金融机构内部数据或仿真数据,进行更细颗粒度地建模,或许发现更有价值的结论。另一方面,本文提出的三方面互联网金融系统性风险有必要从金融风险传染、金融监管等角度进行建模研究,如通过研究区域聚集系数从而得到较为精确的区域风险比重;结合更具体数据,对互联网金融系统性城市、以及重要金融机构判断方法进行深入研究;运用科学的理论方法找到不同互联网金融业务发展的合适比例。

猜你喜欢

系统性聚类金融
系统性红斑狼疮临床特点
对于单身的偏见系统性地入侵了我们的生活?
基于K-means聚类的车-地无线通信场强研究
何方平:我与金融相伴25年
君唯康的金融梦
基于高斯混合聚类的阵列干涉SAR三维成像
超声引导经直肠“10+X”点系统性穿刺前列腺的诊疗体会
基于Spark平台的K-means聚类算法改进及并行化实现
P2P金融解读
基于改进的遗传算法的模糊聚类算法