数字征信是否改善了信贷使用？*<br/>——基于中国县域数据的实证研究

数字征信是否改善了信贷使用？*
——基于中国县域数据的实证研究

2021-03-03雷海波

南方金融 2021年10期

雷海波

（对外经济贸易大学金融学院，北京 100029；天津职业技术师范大学经济与管理学院，天津 300222）

一、引言

在以间接融资为主导的金融体系下，获取和使用信贷对于家庭、企业和地区经济发展至关重要。但现实中仍存在一定程度的金融排斥现象，信贷排斥的根源在于信息不对称。征信作为金融基础设施，本质上属于金融中介功能的分离和专业化，其主要作用在于解决信息不对称（白钦先和李士涛，2017）。我国现行的征信系统以央行征信为主导，截至2019年初，央行征信系统累计收录9.9亿自然人、2591万户企业和其他组织的有关信息，成为全球规模最大的征信系统①我国建立了全球规模最大的征信系统[EB/OL].国务院新闻办公室网站.2019-06-14.。但从有效覆盖人口来看，还存在较大短板。以个人征信为例，2019年初，征信系统收录自然人数9.9亿，有信贷记录的人数为5.3亿，还有4.6亿人没有信贷记录。

随着互联网金融的快速发展，数字征信应运而生。关于数字征信，目前尚未形成统一的概念，与之类似的概念还有互联网征信和大数据征信。从概念差别来看，互联网征信侧重于数据的互联网特征与科技平台属性，大数据征信则突出数据的整合、分析能力（林平，2014；黎四奇，2021）。数字征信则相对更为全面和中性，可以理解为大数据、机器学习等数字技术与征信的结合，数字技术作为征信的手段和工具，能够有效提高征信的效率。从中国的数字征信实践来看，早期的数字征信主要来自于金融科技企业。以芝麻信用、腾讯征信为代表的数字征信机构，基于社交、出行、购物等大数据信息，利用数字手段构建个人征信，为传统金融机构和互联网金融机构提供征信服务。相比央行征信，数字征信数据来源更广、数据类型更丰富、评价指标维度更多、评价模型效率更高、评价时效性更强，可以成为央行征信的有效补充。因此，本文定义的数字征信，主要指央行征信以外的基于数字技术开展的市场化征信。

近年来，我国的无信贷记录人数持续下降，意味着我国居民的信贷排斥情况有所缓解。这和我国征信的市场化发展在时间上具有较高的重合性。那么，在改善信贷包容方面，我国数字征信是否有效？如果有效，内在的作用机制是什么？是否存在地区差异影响？对这些问题的解答，有助于更好地评价数字征信发展效果和理解数字征信与信贷包容的内在关系，为推进征信的市场化改革和提升金融包容水平提供政策参考。

二、理论分析与研究假说

现有文献对于数字金融和传统金融的关系还存在争议。早期文献秉持“替代论”（谢平和邹传伟，2012），随着研究的深入，更多学者主张“互补论”，认为数字金融是基于传统金融的发展与延伸，改进了金融服务的质量和效率（姚耀军和施丹燕，2017）。从“互补论”观点出发，数字征信作为数字金融的重要组成部分，能够显著改善信贷使用。

不同于传统征信，数字征信利用大数据、云计算、区块链、人工智能等金融科技进行征信和信用评估，在缓解信息不对称方面具有成本优势，能够提升风控效率，影响信贷包容结果。具体体现为直接效应和间接效应两个方面。在直接效应方面，数字征信具有三大优势，这会促进银行信贷效率提升，进而改善信贷包容。

一是数字征信具有客群优势。利用互联网和前沿金融科技，数字征信将服务对象拓展到传统征信难以触及的小微企业和低收入人群等长尾客户。就本文的县域样本而言，我国大部分相对贫困人口集中在县域农村，由于缺乏足够的软硬信息，这部分群体在申请贷款时，银行要么不愿意提供贷款，要么附带苛刻的贷款条件。粟芳和方蕾（2016）的研究表明，农村地区银行排斥的主要根源是供给排斥，其中又以价格排斥最为突出。数字征信通过为更为广泛的客户建立数字征信记录，扩大了征信覆盖率，使得低收入群体的信用风险评估成为可能，这为商业银行扩大客群、增强信贷包容奠定了客户基础。

二是数字征信具有信息优势。相比以银行账户和历史借贷记录为数据基础的传统征信，数字征信具有更为丰富的数据维度和多样化的数据类型，数据来源更为广泛，涉及经营、社交、购物、出行等多个维度的海量数字足迹信息，不仅包括传统的结构化数据，也包括图片、语音、视频等各类非结构化数据。此外，数字征信采集的互联网行为信息，具有实时、动态的特征，更新频率更快，信息实时性更强。海量的数字足迹信息，使得对客户进行信用风险精准画像成为可能，从而有效降低信贷过程中的信息不对称。

三是数字征信具有风控效率优势。在直接效应方面，相比传统银行的评分卡模型，数字征信以大数据和机器学习为依托建立的大数据风控模型，具有明显的信息优势和模型优势，对违约风险的预测准确性更高（黄益平和邱晗，2021）。王正位等（2020）以信用卡和“花呗”为例，比较了传统征信和数字征信的作用，研究结论表明，互联网消费行为信息能够补充额外的征信信息，改善风险识别效率。信用风险识别效率的提高，有助于商业银行扩大信贷供给，提高信贷效率。

在间接效应方面，数字征信等金融科技的使用，有可能导致“软信息”的“硬化”，促进银行信贷技术的融合发展，增强商业银行信贷供给能力（盛天翔等，2020）。不仅如此，金融科技还会通过技术溢出加剧银行竞争，这有助于提高银行经营效率和改善信贷供给（于波等，2020）。总体来看，数字征信的直接效应和间接效应会共同提升信贷效率、增加信贷包容，因而存在“数字征信——信贷效率——信贷包容”的逻辑机制。基于上述分析，本文提出假设1和假设2：

假设1：数字征信的发展，能够促进银行信贷使用。

假设2：数字征信通过促进银行信贷效率提升，进而影响信贷使用。

图1 数字征信对信贷使用的影响机制

数字征信的功能发挥需要数字技术支持，这主要表现在以下两个方面：

一方面，大数据本身具有明显的数字特征。作为央行征信的补充，数字征信与央行征信错位发展，数字征信侧重于持牌金融机构信贷信息以外的替代数据共享，具体包括社交、工作、购物、经营等多方面的海量信息，并且数字征信机构通常依托大科技平台及生态系统进行数据采集，因此，这些大数据信息具有明显的数字特征。换句话说，只有具备一定的数字素养和拥有数字设备、在数字工具使用上不存在“数字鸿沟”的群体，才能留下数字足迹，成为数字征信对象。另外，从需求层次理论来看，数字征信依赖的社交、工作、购物、经营等大数据，更多派生于发展和享受型需求，不同于低收入人群的生存和发展性需求。因而，建立在这种需求错配的大数据基础之上的数字征信，可能难以对低收入地区的信贷使用产生显著影响。

另一方面，数字征信的信用评估依赖机器学习、云计算和人工智能等数字技术。数字征信的目的在于准确评估信用风险。相比传统的评分卡模型，机器学习模型能够更准确地发现变量之间的内在关系，云计算和人工智能可以提高计算速度和数据处理规模（黄益平和邱晗，2021）。因此，机器学习、云计算和人工智能等数字技术是数字征信模型效率提升的基础保障。

综合来看，无论是大数据，还是机器学习、云计算和人工智能等数字技术，都与地区数字基础设施建设紧密相关。我国区域经济发展不平衡，地区间基础设施、制度环境、政府治理等存在较大差异。这种禀赋的差异，会对数字征信的信贷效应产生异质性影响。因此，本文提出假设3。

假设3：数字征信对信贷使用的促进作用存在异质性，在数字基础设施较为完善的地区作用更大。

三、研究设计

（一）变量选择与变量说明

1.信贷使用指标

信贷的使用以开立账户为前提，《中国普惠金融指标分析报告（2019年）》统计显示，截至2019年末，全国人均拥有8.06个银行账户，人均持有6.01张银行卡。从中可以看出，我国居民人均账户拥有率较高，金融可及性较好。银行包容的重点是信贷获取和使用问题，因此本文采用信贷使用指数、人均贷款和贷款/GDP等三个指标来衡量信贷使用水平。

首先，本文借鉴相关研究所构建的金融包容指数（Beck等，2007；Demirgüç-Kunt等，2011；Gupte等，2012；Chakravarty和Pal，2013；粟勤和肖晶，2015），选取人均贷款和贷款/GDP两个指标，在此基础上构建信贷使用指数，以较为全面地反映信贷的使用水平。其中，人均贷款衡量县域信贷使用的覆盖广度，贷款/GDP衡量信贷使用对县域经济发展的支持效果，反映的是县域信贷使用的深度。

在指标构成方法上，本文借鉴Chakravarty和 Pal（2013）的做法。不同于Sarma（2008）基于人类发展指数的研究，Chakravarty和 Pal提出的金融包容指数构建方法具有公理性结构基础，并且金融包容指数的各个构成维度可以分解。具体计算公式如下：

其中：i表示信贷使用指数的第i个维度指标，k表示维度数量，xi表示第i个维度指标的具体取值，mini表示第i个维度指标的最小值，maxi表示第i个维度指标的最大值，r表示敏感系数，且0

其次，本文分别使用人均贷款和贷款/GDP作为因变量，从覆盖广度和使用深度方面反映县域层面的信贷使用情况。

2.数字征信

本文的解释变量——数字征信指标，来自北京大学数字金融研究中心编制的数字普惠金融指数中的征信业务分项指数（郭峰等，2020）。该指数利用蚂蚁金服的海量数据，采用基于层次分析的变异系数法赋权，使用算术加权平均法进行指数合成。从2015年开始，该指数提供了县级层面的数字征信指数。具体由两个指标合成，分别为每万支付宝用户中使用基于信用的生活服务人数（包括金融、住宿、出行、社交等）和自然人征信人均调用次数。

3.控制变量

借鉴以往学者的研究并考虑数据的可得性，本文引入政府干预、产业结构、教育水平、固话用户数、经济发展水平、互联网普及率、城镇化率等控制变量。政府在地方经济发展中具有重要作用，出于晋升等考核压力，地方政府有动机影响信贷资源的分配。适度的政府干预能够减少市场失灵导致的信贷资源配置扭曲，减少信贷排斥；过度的政府干预可能干扰市场机制，影响信贷效率。产业结构越高，经济发展越活跃，会吸引更多信贷资源的流入。教育能够影响人力资本，促进金融服务的使用。固话用户数、互联网普及率等基础设施的完善，能够降低金融服务成本，改善信贷可用性。地区经济增长和城镇化率的提高，能够促进财富增长和增加金融供给，增强金融可及性。具体变量说明见表1。

表1 变量定义

（二）数据来源与模型设定

本文使用的数据主要来自两部分：一是北京大学数字金融研究中心课题组发布的数字普惠金融指数（郭峰等，2020），本文使用县级征信指数来衡量数字征信；二是历年的《中国县域统计年鉴》和《中国统计年鉴》，用以生成信贷使用指标及相关控制变量。经过数据清洗后，共获得2015-2018年全国1503个县（县级市）的平衡面板数据。

结合前文指标选择，设置双向固定效应模型如下：

其中：i代表县域，t代表年份，IC为信贷使用指标，包括信贷使用指数、人均贷款和贷款/GDP三项指标；credit表示数字征信，X是控制变量，λ和γ分别代表个体固定效应和时间固定效应，ε表示随机误差项。

（三）描述性统计

表2报告了本文相关变量的描述性统计结果。信贷使用指数的均值为0.6844，最小值为0.0838，最大值为1，说明我国县域整体信贷使用程度不高，并且各县之间差异较大。人均贷款平均为26745元，贷款/GDP均值为0.7187，这两项指标同样在各县之间存在较大差异。数字征信均值为92.2262，总体水平不高。其他控制变量的描述性统计结果显示，我国县域经济整体水平、产业结构、教育水平和地区基础设施发展不均衡，面临着较大的产业升级压力。

表2 描述性统计

四、实证分析

（一）基准回归分析

为确保回归结果的稳健性，本文采用逐步加入解释变量的方法进行回归。从表3可以看到，第（4）列信贷使用指数模型中，数字征信系数始终在5%显著性水平下显著，说明数字征信能够从整体上提高县域信贷包容水平。第（5）列人均贷款模型中，数字征信系数为0.0241，同样在5%显著性水平下显著。第（6）列贷款/GDP模型中，数字征信系数为0.0274，在10%显著性水平下显著。第（5）、（6）列结果说明，数字征信发展水平的提高，促进了信贷使用的覆盖广度和使用深度。

表3 基准回归结果

在控制变量方面，产业结构在信用使用指数和人均贷款模型中显著为正，说明地区产业结构的升级，能够吸引信贷资源的集聚和使用。教育水平系数显著为正，表明教育带来的人力资本增加，有助于破解信贷排斥。固话用户数变量系数同样显著为正，表明以固话用户数为代表的基础设施能够为金融发展提供设施支持，从而降低金融服务的成本，增加信贷供给。经济发展水平对人均贷款的影响显著为正，对信贷使用指数和贷款/GDP的影响显著为负。可能的原因在于，一方面，经济发展水平越高的地区，信贷资源供给相对更为充足，并且居民的财富水平更高，降低了信贷获取和使用的财富门槛，增加了人均贷款水平。另一方面，地区经济发展水平越高，股票、债券等直接融资发展越充分，降低了银行信贷在地区经济增长中的作用，从而导致地区经济发展水平对信贷使用指数和贷款/GDP产生负向影响。

（二）稳健性检验

1.内生性检验

表3的基准回归中，本文使用了双向固定效应模型，这在一定程度上减轻了遗漏变量的影响。但是基准回归并不能避免反向因果导致的内生性问题。一方面，数字征信能够通过降低信贷双方的信息不对称，促进信贷的获得和使用。另一方面，信贷使用程度较高的地区，通常经济更发达、金融体系更高效、社会制度更完善，因而更有能力发展数字基础设施，改善数字征信。为了解决反向因果问题，本文采用工具变量进行两阶段估计。具体来说，借鉴王修华和赵亚雄（2019）的做法，采用同一省域内除自身以外的数字征信指数均值作为数字征信的工具变量。同一省域内各县经济社会发展具有很强的相关性，其他各县的数字征信平均水平会影响本县数字征信的发展，满足工具变量的相关性要求；其他各县的数字征信发展和本县的信贷使用没有直接关系，满足工具变量的排他性要求③本文也通过在基准回归中加入工具变量，以检验排他性要求。结果显示，加入工具变量后，解释变量数字征信在统计上不再显著，说明工具变量满足排他性要求。。表4报告了使用工具变量的回归结果。

表4第（1）-（3）列的工具变量第二阶段回归结果显示，数字征信对信用使用指数、人均贷款和贷款/GDP等三项信贷使用指标，均在5%显著性水平下具有显著正向影响，这同表3的基准回归结果基本一致。工具变量第一阶段回归系数在1%显著性水平下显著，Cragg-Donald Wald F统计量为716.832，远大于15%的临界值8.96，说明不存在弱工具变量问题。表3的基准回归和表4的工具变量回归结果显示，数字征信的发展对信贷使用具有显著促进作用，研究假说1得到证实。

表4 工具变量回归结果

2.其他稳健性检验

首先调整信贷使用指数的敏感系数，分别取值r=0.5和r=0.75④本文也检验了r=1的情形，主要结论不变。，然后重新计算不同敏感系数下的信贷使用指数，并再次进行回归。表5第（1）、（2）列报告了回归结果。结果显示，敏感系数调整后，数字征信变量依然显著，基准回归结论不变。

其次，在样本中剔除直辖市或省会城市所辖的县域地区，结果如第（3）列所示。相比其他地区，直辖市或省会城市所辖的县（市），由于更靠近直辖市或省会城市等经济中心城市，具有明显的区位优势，在经济和金融发展上会显著异于其他县域地区。结果显示，剔除直辖市或省会辖县样本后，数字征信仍然在5%显著性水平下显著为正。

再次，为了避免信贷使用指数极端值的影响，对信贷使用指数进行5%和95%水平的截尾处理。表5第（4）列结果显示，截尾后本文主要结论依然成立。

表5 稳健性检验

最后，考虑到存款是信贷使用的资金来源，本文借鉴文献中对金融包容使用效用性研究的做法（Sarma，2008；王修华和赵亚雄，2019），在人均贷款和贷款/GDP指标基础上，加入人均存款和存款/GDP指标，采用Chakravarty和 Pal的方法重新构建信贷使用效用性指数，回归结果如第（5）列所示。可以看到，前文结论依然稳健。

（三）数字征信的异质性影响与调节效应

数字征信作用的充分发挥依赖于相关配套机制的完善。我国县域地区间基础设施、经济发展水平、制度环境等存在较大差异，可能会影响数字征信对信贷使用的积极效果。为此，本文以信贷使用指数为因变量，根据互联网普及率和所在地区进行分组回归，以探究这种异质性影响。

首先，按照互联网普及率的中位数⑤本文也按照北京大学数字金融研究中心编制的县域数字普惠金融指数中位数进行分组，回归结果基本一致。，将样本分为高数字基础设施组（中位数及以上）和低数字基础设施组（中位数以下）。表6第（1）、（2）列报告了分组回归结果。在高数字基础设施组，数字征信的系数为0.0080，在1%显著性水平下显著，而在低数字基础设施组，数字征信回归系数不显著。这说明，数字征信的作用发挥需要有较为完备的硬件基础。

其次，考虑到我国地区发展的不平衡，将样本分为东部地区和中西部地区两组。表6第（3）、（4）列的回归结果显示，数字征信对东部地区的县域信贷使用具有显著促进作用，对中西部地区的信贷使用作用不明显。一个可能的解释是：东部地区具有较为完善的人力资本、基础设施和制度环境，并且居民、企业对数字征信的认可和使用程度也较高，因而能够充分激发数字征信的潜能，对信贷使用的影响更显著。

最后，在模型中加入数字征信与互联网普及率的交互项，以探究数字基础设施对数字征信作用的调节效应。表6第（5）列报告的调节效应回归结果显示，交互项系数显著为正，说明数字征信对信贷使用的积极影响随着数字基础设施的改善而增加。这同表6第（1）、（2）列分组回归的结论一致。

总体来看，表6的异质性分析和调节效应回归结果显示，数字征信的信贷促进作用，在数字基础设施较为完善的县域地区和经济发展水平较高的东部地区县域更明显。前文的研究假说3得到证实。这表明，促进数字征信的发展，需要建立完善的配套基础设施。

表6 异质性影响与调节效应

控制变量控制控制控制控制控制个体固定效应控制控制控制控制控制时间固定效应控制控制控制控制控制N 3127 2885 1624 4388 6012 R2 0.3934 0.3099 0.5341 0.3020 0.3329

五、机制分析

相较于传统征信，数字征信具有客群优势、信息优势和风控效率优势，并且数字征信还会推进商业银行信贷技术的改善和加剧银行竞争，这些最终都会影响到银行的信贷效率，从而提升信贷包容。本节对信贷效率机制进行验证。

结合本文的县域数据，本文参照蔡庆丰等（2017）的研究，以存贷比作为银行信贷效率的代理指标。存贷比越高，意味着商业银行存款向贷款的转换效率越高，盈利能力越强。表7第（1）列以县域数据为样本，报告了以存贷比为因变量的回归结果。结果显示，数字征信系数在10%显著性水平下显著为正，说明数字征信的使用，显著提升了信贷效率。

但是，从风险角度来看，较高的存贷比也意味着商业银行存在较高的流动性风险。数字征信如果确实提升了银行效率，也应该同时体现为信贷风险的改善和信贷资产质量的提升。为此，本文以不良贷款率作为信贷资产质量的衡量指标，建立双向固定效应模型进行验证。由于仅能获取省级层面的地区不良贷款率，本文以省级层面的数字征信作为自变量，基于2015-2018年的省级面板数据构建模型，控制变量包括产业结构、经济开放度、高校在校生数、城镇化率和居民可支配收入等五个省级层面变量。表7第（2）列报告了回归结果。结果显示，数字征信系数在10%显著性水平下显著为负，证实数字征信具有降低不良贷款率和提升信贷资产质量的积极作用。

总体来看，表7的回归结果说明，数字征信提高了银行盈利能力，改善了信贷资产质量，从整体上提升了商业银行信贷效率。前文的假说2得到证实。

表7 信贷效率机制检验结果

六、结论与建议

本文使用2015-2018年的中国县域数据，选取人均贷款和贷款/GDP指标构建信贷使用指数，并结合北京大学数字金融研究中心编制的数字征信指数，实证检验了数字征信对信贷使用的影响。研究发现：第一，数字征信的发展，能够促进县域地区信贷的使用；第二，数字征信提高了银行盈利能力和信贷资产质量，改善了银行信贷效率；第三，数字征信的信贷效应受到地区配套机制的制约，在数字基础设施水平较高的地区数字征信对信贷使用的促进效应更显著。

随着我国经济发展进入新常态，社会信用体系建设的紧迫性日益凸显，成为增强金融活力、推动经济高质量发展的关键。尽管我国已经建成了世界上规模最大的征信系统，但信贷使用水平有待提高，征信体系中仍有为数不少的人口缺乏信贷记录。本文的研究表明，大力发展数字征信，积极推进征信的市场化进程，能够显著改善信贷使用。基于此，推动数字征信健康发展可以成为提升金融包容水平的重要着力点。具体来说，一是要立足数字征信自身发展，在数字征信立法、行业合作和风险防范上下功夫。数字征信以信息技术为基础，而互联网的开放性和共享性对个人的隐私和权益保护形成挑战。为此，需要加快信用立法建设，在信息共享和隐私保护之间找到平衡点。数字征信在定位上，属于央行征信的补充，与央行征信形成错位发展。为此，要鼓励数字征信机构之间、数字征信机构与传统金融机构、数字征信机构与各应用场景相关机构间加强合作，探索征信信息的共享互通，创新和完善数字征信产品，提高数字征信水平和扩展应用场景。新生事物的发展往往伴随着风险，数字征信同样如此。在监管层面，要更新金融监管理念和手段，切实有效地防范和化解数字金融风险，推进数字征信的健康良性发展。二是要完善配套机制，提高互联网普及率，消除“数字鸿沟”。充分发挥政府作用，完善制度环境，推进农村地区数字基础设施建设，加快数字经济发展。对于使用智能化产品存在困难的老年人、农村贫困人口等弱势群体，开发有针对性的智能产品，帮助弱势群体跨越“数字鸿沟”，融入智慧生活，进而产生合格的社交、出行等大数据征信信息。政府部门、金融机构和社会公益组织要结合应用场景，采用多种形式开展数字金融教育，提高消费者的数字金融能力。总之，在政府和市场的相互配合下，形成健全而有力的配套机制，实现数字征信效能的充分发挥。