银行现金收支数据能否反映何种宏观经济变量波动
2022-05-18吴卫华李俊萍
吴卫华 李俊萍
随着经济的发展,现金交易量已是万亿级,高频的现金收支数据日益积累为现金收支大数据,能否有效利用现金收支大数据的波动反映地区宏观经济形势,对于及时监测地区经济发展状态具有重要意义。本文在收集浙江省主要银行机构现金收支数据的基础上,区别于以往研究中通过宏观经济变量波动对现金投放、回笼数据进行预测,另辟蹊径,通过机器学习的方法,建立模型,透过现金收支数据“见微知著”地预测有关宏观经济指标,并给出预测效果评价。结果显示,使用微观的银行现金收支数据对社会消费品零售总额预测效果较好,对地方GDP和固定资产投资额预测在部分地市有效、部分无效,而对于居民消费价格指数(CPI)的预测则完全无效。
一、引言
近两年,新冠疫情这一“黑天鹅”事件的出现,导致经济波动相较以往更为频繁,如何及时有效预测宏观经济以便于“对症施策”,成为摆在决策者面前的重大课题。而现金作为社会大众持有和使用面最广的金融工具,连接着“千家万户”。银行作为央行向社会投放和回笼现金的唯一“通道”,汇集了各行各业的现金收支信息,现金收支数据已然是名副其实的大数据。既然如此,银行现金收支大数据能否得以有效利用,以便从其变化及时测度宏观经济指标变动趋势?进一步地,现金收支大数据能预测反映哪些地区宏观经济指标?又无法预测反映哪些宏观指标?本文尝试对此进行探索。
针对现金与宏观经济之间的关系,已有研究大多集中于宏观经济对现金收支的影响或者现金对宏观经济的反映层面。归纳来说,就是经济变动决定着現金波动,现金波动反映着经济变化(张红地,2002)。而对于从现金收支大数据预测宏观经济的研究,现有文献尚较为匮乏。但现代经济依赖于大规模的数据整合和交换(涂子沛,2015)。因而,利用银行现金收支大数据“窥探”宏观经济指标波动规律的研究,十分必要,凸显了本文研究的价值与意义。
为此,本文从Fayyad(1996)和谢平等(2014)提出的大数据“描述”和“预测”两个基本功能出发,构建一个基于银行现金收支大数据的宏观经济分析和预测框架模型,旨在提高现金收支管理的预见性。首先,我们阐述了现金收支数据的性质和特征,以及与宏观经济变量的内在关系,这是使用现金收支数据预测分析宏观经济的基础。然后,提出分析和预测的框架模型。最后,使用银行现金收支数据实证检验模型的可用性。
研究表明,银行现金收支大数据能够预测部分宏观经济指标,而对个别宏观经济指标预测则完全无效。具体地,使用微观的银行现金收支数据对社会消费品零售总额预测效果较好,对地方上的GDP和固定资产投资额预测效果在省内部分地市有效、部分无效,而对于居民消费价格指数(CPI)的预测则完全无效。
本文的贡献在于首次尝试从银行现金收支视角预测地区宏观经济指标,且给出预测效果的评价,弥补了学术界关于现金收支与宏观经济之间关系的研究视角的不足。余下部分安排:第二部分是现金大数据分析预测经济指标的理论分析;第三部分是预测模型设定;第四部分是实证分析与预测评价;第五部分是研究结论。
二、现金大数据分析预测宏观经济的理论分析
在“中央银行——商业银行”二级银行制度下,现金收支主要分为两大环节,第一环节是人民银行发行库发行基金到商业银行业务库的发行过程,以及商业银行业务库现金回到人民银行发行库的现金回笼过程;第二环节是经济主体与银行之间现金存入与取出的过程。考虑到对经济波动的及时感知以及与宏观经济的关联度,在此分析银行与社会经济主体之间的现金收支数据。
有大量的研究考察现金收支数据与宏观指标之间的联系,如孙春广(2014)通过协整回归进行实证分析,研究表明宏观经济总量与现金净投放呈现明显的相关性。杜铭(2014)利用模型分析湖南省现金指标与宏观经济量化关系,分析表明湖南省GDP 的增长与现金投放、回笼规模之间存在紧密的内在联系且现金收支的最终格局由第二、三产业的共同作用来决定。总之,大多数研究都表明现金收支与经济发展密切相关。但是大部分研究关注的是宏观经济运行对现金投放的影响,缺乏从现金投放观察宏观经济的研究,而且已有研究大部分着眼于人民银行发行库到银行业务库的数据,缺乏从银行现金收支数据入手的研究。
各行各业的交易数据是形成宏观经济指标的因素,而人民币现金作为便利交易的支付工具,其使用频率高低或数量多寡,实实在在反映着行业或个体的兴衰更替,甚至可以将现金视为插入实体经济内部的“体温计”。基于此,本文提出如下研究假设:
H1:在银行现金收支大数据与宏观经济指标之间,能够通过银行现金收支大数据分析预测宏观经济变量。
三、数据来源、处理与模型设定
(一)数据来源和处理
本文以浙江省为例,对浙江省内各地市宏观经济运行进行分析预测。数据分为分析数据指标和预测宏观经济指标两大类。
1.分析数据指标方面。选择省内现金业务量较大的7家(类)银行机构,分别是:浙江农信联社、浙商银行、杭州银行、建设银行、邮储银行、泰隆银行、台州银行等7家(类)银行,2020年该7家(类)银行机构现金收支占到全省现金收支总额的72%,具有较强代表性。后续,以该7家样本银行机构2010年第1季度-2019年第4季度在浙江省域内发生的现金收支数据作为分析对象。采集的数据包括存现总额、取现总额、存入笔数、取出笔数、存取现客户量、存入大于30万元的笔数、取现大于30万元的笔数、ATM存现金额、ATM取现金额等9个。由于绝对值会因各地地域面积、客户量的差异存在较大差异,因此对数据做相对化处理。
具体指标可以分为三类:第一类反映区域内单位面积现金收支总体情况,如相关密度指标:存现密度(存入总额/面积)、取现密度(取现总额/面积)、存业务密度(存入业务量/面积)、取业务密度(取现业务量/面积);第二类是反映区域逐笔现金收支平均情况的指标,如客均交易额(存取总额/存取交易账户数)、客均业务量(存取业务总量/存取交易账户数);第三类反映现金收支的结构情况,如大额存现比(超过30万额度的存入业务量/取现业务量)、大额取现比(超过30万额度的取现业务量/取现业务量)、ATM存现比(ATM存现总额/存现总额)、ATM取现比(ATM取现总额/取现总额)。之所以会选择这些指标,主要考虑如下因素:
第一类指标中,区域内现金存入、取现密度是一个区域内各银行现金存入以及取出额与区域面积的比值。区域内存入业务、取现业务密度则是相应的业务量与区域面积的比值。姚雯和娄飞鹏(2009)实证认为人均 GDP影响银行现金收支,又考虑到以地级市为单位进行研究,辖区面积不一样,银行的网点数量不尽相同,而现金收支量往往与网点数量有关,因此将地域面积考虑在内,考察单位面积的现金收支密度对一地宏观经济的预测。
第二类指标中,户均存、取现额是该区域内的存现总额、取现总额与发生存取交易的账户数的比值。与第一类指标类似,单纯的存取现总量不仅会受到辖区大小造成的网点数量差异而无可比较性,客户的总量也会影响存取现总额。存取现总额与发生存取现业务的客户数之比就是一个客均的概念,客均数比单纯的总数更能比较出各地的差异。
第三类指标中,区域类大额存入、大额取出占比是存入、取出超过30万的业务占所有的现金存取业务的比例。浙江省大额现金管理试点中,对个人存取现管理起点为30万,因此本文将大额的阈值设置为30万。有较大比例的大额现金交易的地区,未被观测的地下经济活动的规模可能较大,刘丹丹(2009)的研究认为在经济加速增长时期,未观测经济会加剧官方经济的波动,在经济紧缩时期,未观测经济会减弱官方经济的波动。所以大额现金交易背后未被观测的经济活动会影响官方披露的经济数据。ATM存现、取现占比是ATM存取现的金额在总的存取现金额中的比例。ATM可以提供全天候服务,因此ATM取现的占比一定程度上反映了银行非营业时间的现金存取活动,体现了一些非网点、非营业时间的现金存取活动,另外ATM数量也和当地经济活动密度较为相关,在经济繁荣的地方数量较大,因此ATM取现占比也体现了一些经济密度大的区域的现金存取活动。
但现金收支大数据指标在数量级上有差别,如果不进行处理,数量级大的指标就会贡献大部分的结果解释,数量级较小指标中蕴含的数据信息会被“掩盖”,因此,需要对数据统一标准,进行归一化处理。文中对数据按照特征维度进行归一化:。
2.预测宏观经济指标方面。参考已有文献,选择消费者物价指数(CPI)、社会消费品零售总额(COST)、国内生产总值(GDP)、固定资产投资增速(INV)等4个宏观经济指标进行预测。其中,居民消费价格指数(CPI),反映消费产品价格的变化情况,与个人消费者相关。社会消费品零售总额(COST)代表贸易量,货币天然就是为便利贸易而产生的,因而相关指标也应该是现金收支数据天然可以预测的。国内生产总值(GDP)是一个流量概念,是衡量一个国家或地区一定时期内以货币计价的最终产品和劳务价值总和。此外,投资也是推动经济增长的重要因素。固定资产投资作为衡量投资的一个重要指标,它需要大量资金,直接增加了大量货币需求,增加了现金投放。所以,将固定资产投资额(INV)也作为预测指标引入。相关预测宏观经济指标见表1。
(二)预测模型设定
基于机器学习方法和python语言,构建线性回归模型,利用银行现金收支大数据预测宏观经济指标。
模型的構建和运行,具体通过python模型工具箱调用实现,主要分为六个步骤:
第一步,对数据进行标准化预处理。使用前述的数据归一化的方法,将数据进行标准化,使数据落在[0,1]之间。
第二步,对输入的分析指标降维处理。为降低银行现金收支大数据各项分析指标的相关性,同时避免输入指标过多导致的大数据“维度灾难”①,使用传统的主成分分析法对分析指标降维处理。
第三步,相关性分析。降维得出主成分指标后,需要分析主成分指标与要预测的宏观经济指标的相关性,以检验理论上是否可以使用选取的大数据特征指标得到一个有预测能力的模型。
第四步,构建线性回归模型。回归过程使用python机器学习完成。线性回归可以对观测数据集的y和X的值拟合出一个预测模型,对于一个新增的X值,在没有给定与它相配对的y的情况下,可以用这个拟合过的模型预测出y值。
第五步,训练模型。随机抽样选取约80%的数据作为训练集,20%数据作为测试集。将输入值和输出值在训练集中估计出最佳拟合模型参数,然后在测试集中用该参数进行预测。根据训练集和测试集准确率,调整参数估计方法,可使用随机梯度下降法对算法进行优化。
第六步,模型评估。使用python语言中验证模型准确性的指令,得到模型准确度得分。
四、实证分析
(一)降维
降维时采用主成分分析法。将原来多个指标做线性组合,作为新的综合指标。本文采用python的sklearn库中的相关模块自动完成主成分分析并输出,最终可以确定前5个成分占据了大部分解释,因此最终选择5个主成分。
(二)模型训练与结果预测评估
在本文中,研究选择的数据集是银行现金收支大数据,而预测的指标是相关宏观经济指标,适合使用线性回归。为了排除回归结果的偶然性,本文将数据集打乱后重新按照训练集80%,测试集20%的比例划分后进行训练与检验。
将五个主成分的训练集合定义为x_train,测试集定义为x_test。将宏观经济指标GDP、CPI、社会消费品零售总额(COST)、固定资产投资增速((INV))依次设为Y1_train到Y4_train,同样地,测试集分别为Y1_test到Y4_test。通过输入训练集合中的自变量集和观测值学习构建完成预测模型,因有4个观测的目标变量,因此需要分别进行训练和预测。因为浙江省各地市经济结构存在差异,不同的现金收支指标对当地的宏观经济变量映射情况也存在差异。因此,在进行学习与测试时,11个地市分别进行。首先运用各地的x_train与Y_train进行学习,得到模型后输入x_test预测Y值。图1展示的是杭州实际宏观变量值与模型预测情况的对比图。
由于篇幅原因,浙江省其余10市的模型预测情况不再罗列展示。为了更好的评估预测效果以及模型的准确度,本文使用评估模型计算模型的得分。
在本文机器学习模型使用的python的sklearn模块中,包含四种评价尺度,分别是均方差、平均绝对值误差、可释方差得分、中值绝对误差和R^2决定系数,此处采用拟合优度即R^2来评价回归模型。表2展示了回归结果的拟合优度,得分越接近1,表明模型的预测效果越好,得分接近0表明预测值接近真实值的平均,得分为负,则说明模型完全随机,无预测效果。
表2报告了预测效果评价得分,可以看出:第一,就宏观经济变量GDP的预测来看,整体上,银行现金收支大数据与GDP之间存在着一定的映射关系,大部分预测评价得分在0.5左右,其中,使用银行现金收支数据预测杭州地区GDP的效果最好,评价得分达到了0.71。第二,对于使用现金收支数据预测居民消费价值指数(CPI)的评价,结果比较出乎意料,银行现金收支大数据对于CPI的预测基本无效,二者之间并无稳定的关系。第三,关于社会消费品零售总额的预测,银行现金收支大数据对当季社会消费品零售总额有较好的预测效果,模型预测效果平均评价得分0.76,方差0.23,为四个预测宏观经济变量中预测方差最小值,足以说明使用银行现金收支数据预测社会消费品零售总额效果较好且较为稳定。第四,对于固定资产投资额的预测,部分地市有效,部分无效。银行现金收支数据预测固定资产投资额的效果评价地区差异较大,在舟山地区预测效果较好,而在衢州地区模型预测无效。
五、研究结论
本文通过python机器学习的方法对微观的银行现金收支大数据与宏观经济指标进行了学习回归,研究发现,银行现金收支大数据与国内生产总值、物价变动指数、固定资产投资增速、社会消费品零售总额等宏观指标映射关系
第一,关于对消费者物价指数CPI的预测,银行现金收支大数据指标与消费者物价指数CPI的基本没有映射关系,预测模型无效,即两者几乎不存在稳定关系;
第二,关于社会消费品零售总额的预测,银行现金收支大数据与社会消费品零售总额有较强的映射关系,杭州、湖州、台州三市的模型拟合优度甚至高于0.9,说明银行现金收支大数据对当季度的社会消费品零售总额有较好的预测效果,且各地模型预测得分平均分达到了0.76,方差只有0.23,预测效果良好且比较稳定。本项目中因温州社会消费品零售总额缺失值較多,无法得出准确结果,因此数据空缺;
第三,关于地方GDP的预测,银行现金收支大数据与GDP的存在一定的映射关系,大部分预测得分在0.5左右,杭州的预测效果最好,得分达到了0.71,嘉兴预测得分最差只有0.11,方差0.31,银行现金收支大数据与当季GDP有一些稳定的映射关系,映射关系不明显;
第四,关于固定资产投资额的预测,银行现金收支大数据对各地固定资产投资额的映射关系内部差异较大,在舟山显示出了较好的映射,但是在衢州,模型则完全失效,剔除极端的几个数据,其预测的效果和预测GDP的效果类似。
总而言之,可以认为银行现金收支大数据对一地当期的社会消费品零售总额提前做出较好、较稳定的预测,而对GDP与固定资产投资额的预测效果不明显,可以因地区差异谨慎利用,而对CPI来说,模型基本无效,使用银行现金收支大数据无法预测CPI。
注释:
①在大数据处理过程中,对于已知样本数目,存在一个特征数目的最大值,当实际使用的特征数目超过这个最大值时,分类器的性能退化。这种现象在识别模式中被称为“维度灾难”。
参考文献:
[1] Fayyad,Usama,Piatetsky-Shapiro,et al. From data mining to knowledge discovery in databases,Ai Magazine,1996.
[2] 杜铭.湖南省现金指标与宏观经济量化关系的实证研究[J]. 金融经济, 2014,(04):2-5.
[3] 刘丹丹.未观测经济影响了中国经济增长吗?[J].财经问题研究,2009(07):11-16.
[4] 孙春广.宏观经济总量指标与央行现金净投放的关联性分析与解读[J]. 武汉金融,2014(01):29-32.
[5] 涂子沛.大数据[M].桂林:广西师范大学出版社,2015.
[6] 谢平,邹传伟,刘海二.互联网金融手册[M].北京:中国人民大学出版社,2014.
[7] 姚雯,娄飞鹏.金融机构现金收支对人均GDP的影响——基于建国60年来数据的实证分析[J].国际金融研究,2009(10):91-96.
[8] 张红地.现金管理[M].北京:中国人民公安大学出版社,2002.
作者单位:吴卫华,中国人民银行杭州中心支行,博士,中级经济师;李俊萍,北京久芯科技有限公司,硕士研究生,中级经济师、中级会计师。