监管领域的大数据和人工智能应用探索
——以虚假贸易融资行为分析为例
2021-03-20
(中国人民银行西宁中心支行 青海西宁 810001)
金融科技的快速蓬勃发展,增强了我国金融服务的可获得性,助推了普惠金融的有效实践,提升了金融资源的配置效率,为金融市场的发展注入了生机和活力,但金融科技在极大地改变着金融市场格局的同时,也对其“事中事后”产生的海量数据和异常行为监管带来新的挑战。监管科技是以数据为核心和驱动的新金融监管解决方案,金融大数据应用普及并嵌入金融行为,可有效防范和化解金融风险,提高金融监管效率,稳定金融市场秩序和维护金融体系安全。
一、贸易融资形势与异常特征分析
从整体趋势上来看,自2018年以来,我国贸易融资总体规模呈现加速下降的态势,主要以国内贸易融资为主。除1、3月出现明显波峰外,其余月份贸易融资额基本趋于平稳,波动主要系银行业各金融机构在年初集中完成信贷投放所致(图1)。且国内贸易融资以美元为主要融资币种。
图1 2018 年以来全国贸易融资规模走势 单位:亿美元
从相关性上来看,我国贸易融资规模与进出口总量及离岸转手买卖交易总量呈较大的正相关性。在2018年2月和2019年2月,我国进出口总量和离岸转手买卖总量急剧下降,贸易融资总量也随之大幅下降,而随着3月进出口总量快速拉升,贸易融资也相对活跃(图2)。
图2 贸易融资、进出口及转口贸易总量情况 单位:亿美元
从行业结构来看,聚焦比例大幅提升的行业是数字经济与先进制造业。贸易融资排名第一,紧随其后的为批发业、电器机械与器材制造、化学原料制造等,而大幅下降的行业是房地产业、非金属矿物制品业、黑色金属冶炼和压延加工,贸易融资同比平均下降44.2%(图3)。
图3 贸易融资行业分布情况 单位:亿美元
从地域分布来看,贸易融资区域分布主要集中在我国的东部和沿海经济发达地区,但中西部地区活跃度明显增强,有向中西部地区转移趋势(图4)。
图4 贸易融资区域分布情况 单位:亿美元
从异常特征上来看,贸易融资企业是基于银行提供的授信额度或通过承兑汇票质押、信用担保、质押担保方式,提高融资杠杆、增加融资期限,扩大融资规模。虚假贸易融资存在以下几个主要特征:一是融资期限较长。虚假贸易融资期限多在180天以上,甚至出现多笔360天期限的贸易融资。二是多在异地银行办理贸易融资业务,呈现频率高、规模大、交易对手单一、交易时间集中的特点。据统计,企业使用重复交易单证办理的贸易融资中,异地银行家数占比75%。三是贸易型公司为造假主力,由于此类公司没有固定生产场所,仅在上下游企业间转移货物,易于躲避监管部门的现场核查,又便于获得出口奖励等政府临时性补贴;四是融资资金用途与还款资金来源与进出口贸易背景关联度低,多是套取外汇资金结汇使用,再以企业间拆借资金偿还为目的。
基于以上分析结论,在以大数据为基础的新金融监管中,利用大数据及人工智能技术对虚假贸易融资企业交易行为进行分析研究,提炼交易特征并应用到未来贸易融资企业的行为识别中具有重大实践意义。
二、基于机器学习融资异常行为识别
在机器学习中,区分贸易融资企业是正常或异常属于人工智能中的分类问题,对于分类问题,可以应用无监督学习与有监督学习方法开展分析并根据测试结果和现场检查确定其可行性。
(一)无监督学习
该方法无外部学习指导,具有探索未知性的优点,更易发现被忽略的新特征、新规律。把负面主体与目标主体混合后,按照K-Means聚类算法(又叫K均值算法,在给定一个数据集和需要划分的数目k后,该算法可以根据某个距离函数反复把数据划分到k个簇中,直到收敛为止)。其主要特点是能处理大数据集,且时间复杂度不能太高,同时能处理现实中不同类型的属性。高维性、可解释性、可用性强、成熟度较高,从时空维度分析交易属性并进行分类,使同一类别内的个体具有尽可能高的同质性,而不同类别之间则具有尽可能高的异质性。
使用SAS统计分析系统搭建智能分析模型组合,如图5所示,通过实验参数优化,得出在所有目标主体与负面主体混合的贸易融资企业分为30个类簇时,聚类效果最好,类别最少,如表1所示。对表中占比大于70%以上的分类可以实施精准判断簇中存在的样本有较大的虚假可能性。
图5 无监督的机器学习建模过程
表1 类簇分布情况
(二)有监督的机器学习
相较无监督机器学习,有监督的学习更具主观能动性,通过给负面样本与正面样本打注标签,分别交与机器进行数据特征学习,并在学习过程中进行教师纠正认知,风险识别精准度更高。
根据模型学习条件,将正面样本和负面样本集合进行数据分集,并建立模型:
表2 数据分集
根据模型学习条件,按照7:3 的比例,将正面样本和负面样本集合进行数据分集,如表2 所示,变量“biaoshi”代表分类对象,数值型值“0”代表正常企业,“1”代表异常企业。
应用多种有监督的分类模型展开实验(如图6所示),再通过识别率等比较条件,选择最优模型进行优化调整。本部分使用了较成熟且良好的“决策树”“boosting(同质集成学习器)”“神经网路”“logtic回归”“HP神经”等模型进行学习。同时为增加学习的多样性,增加了“集成”学习策略,即采用异质的集成学习策略,进行综合评判。
由图6所示,整个学习识别过程为:首先装载数据,其次进行“数据分区”,然后分别应用各类模型进行学习,并利用“模型比较”模块对所有子模型的评价指标综合判定,最终推选出最优模型。由表3可得,经过上述模型学习比较,最终得出“HP神经”模型为最优,应用验证集测试,误分类率低于5%,已完全满足模型实际应用的条件。
图6 有监督的机器学习建模过程
表3 最优模型推选比较
优化后的“HP神经”网络学习结构,如图7所示,整体为三层网络架构,输入层输入主体交易属性指标,隐藏层是直连学习计算,输出层判断正常与异常,通过教师样本进行结果修正,反馈隐藏层神经元,优化神经元激活函数,增加学习动量项,加速学习效率,提升学习识别精准度。
图7 HP 神经网络结构示意图
经过学习优化后,应用验证样本集,测试HP神经网络模型的学习成果。结果如表4所示,目标为“0”(正常企业),结果为“0”,机器判断结果一致;目标为“0”,结果为“1”(负面企业),机器误判结果;目标为“1”,结果为“0”,机器漏判结果。对于整个样本集,正确识别率达到95.8%。至此,完成整个训练。导入训练学习完成后的模型,机器自主甄别贸易融资型企业,选择分类结果是“1”,并且评分概率大于90%的企业作为可疑企业,模型应用效果良好。
表4 HP 神经网络模型准确率验证结果
三、金融科技成果应用结论
跨境贸易融资某种程度上是当前境内外汇率和利差等原因造成的企业资金摆布行为,其中有利用真实贸易背景套利的行为,也有虚假的交易背景掺杂其中。随着宏观形势不断变化,积极运用人工智能开展对异常贸易融资的分析,是大数据时代的主要方向。通过应用人工智能的数据分析方法,虚假贸易融资行为甄别的自动性、时效性和成案率均得到有效提高。应用无监督机器学习与有监督机器学习方法,在测试样本中取得了高精准识别率,在实际案件查处过程中得到了有效验证,具有良好的应用前景。一方面可以解决贸易融资现场监管耗时耗力且难以实现穿透性监管的痛点,最重要的也是在基于大数据为趋势的贸易融资行为,改变现有的监管模式,借助人工智能的手段进行精准识别和风险预警。另一方面可以改变过去传统的以分业监管和现场监管为主的监管手段和方式,利用监管科技手段实现多角度、广覆盖的监管,并实现以非现场混业监管为主,现场监管为辅的融合监管,提升监管的层次、深度和覆盖面。
四、展望及建议
(一)“数据孤岛”仍需突破
监管科技依托于大数据,目前受限于业务种类,部门的数据使用风险问题,不具备共享性,易形成数据孤岛,如果要突破这类问题仍存在巨大障碍,虽然现有的数据体量很大,但数据孤岛的数据无统一标准,维度也不尽相同,因此无法进行高效分析利用,进而转化为指导合规行为的决策和行动能力,监管科技的市场价值无法实现,数据价值和共享信息安全之间仍然需要一个平衡点,建立数据安全保障更是监管科技面临的挑战。监管科技以数据驱动、数据聚合、数据处理、建模分析为基础,必须加强数据互通,打破数据孤岛,构建监管部门与金融机构之间的数据交换共享机制,整合现有的大数据平台,打造全行业数据集合。同时制定统一的数据采集标准口径、数据交换标准,加强数据综合利用,并建立数据安全的等级保护机制,为数据共享保驾护航。
(二)负面主体清单归集类型较单一
我国自2015年实施市场负面主体清单制度以来,市场环境得到净化,市场秩序得到维护,在配置市场资源,规范市场化运行中发挥了重要的作用,同时也为应用新监管科技奠定了良好的数据基础。负面主体清单是各监管部门在处置违法违规行为过程中收集的主体相关信息。通过数据层面提取负面主体的相关交易行为,应用大数据与人工智能,分析异常特征规律,同时可以作为关系发现原点,利用关系图谱技术,可以将与负面主体存在直接或间接关联的主体都打上标签,建立关系规则,可以有效提高数据监管效能,化被动监管为主动出击,在海量的数据中快速、精准识别异常,提高筛查结果准确率,使隐藏的违法违规行为完全暴露,同时也可以根据数据特征,为今后的政策制定和优化提供重要的参考依据。对负面主体信息的采集较为单一,一是监管部门收集的负面主体违规行为信息采集较为单一,不能完全还原违规行为发生的前因后果和行为动机。二是未能有效采集负面主体的上下游信息,负面信息较为片面,没有联动作用。三是负面主体的违规风险评价指标仍为空白。针对以上存在的不足,可以通过建立信息系统进行违规行为录入过程中的采集自动化,同时加强对上下游的主要信息进行联动采集,从而可以形成对负面主体在监管事项下的完整违规行为画像,同时业务专家进行风险评级设定,同时结合人工智能等方法进行辅助量化,建立规范、合理的风险评价指标,加强市场风险预警功能。
(三)“黑箱”原理可解释性需加强
在上述应用的有监督学习模型中,虽然具有主观能动性,具备指导纠正学习能力,调整优化的过程可干预,识别异常的精准度更高,适用性可判断等优点,但是其缺陷也相对较为明显,即特征不可解释的“黑箱”原理,模型输出结果主要服务于金融监管的各项活动,但监管部门不能仅仅依靠不可解释的模型结论对市场主体进行处置,还需要专家经验和现场检查佐证,才能最终查实。因此监管制度对于模型可解释性提出了极高的要求,使得涉及的“黑箱”原理的模型难以在业务场景中推广落地。这需要在技术层面进行突破,在无法了解数学根本原理的情况下,可以通过对识别其它结果辅助工具进行二次分析,总结规律和经验,统计数值分布情况,从中发现应用结果可跟踪追溯与验证。
(四)人才储备队伍需要加强
监管科技是金融、监管、技术的有机融合。从事监管科技开发,运营的人才需要具备复合的背景知识,既能够把握金融市场的脉搏,熟悉监管政策,还需要理解技术架构,当前缺少此类领域的从业人才,这也使得监管科技的发展有类似短板的木桶,无法符合监管科技行业各方的利益诉求,在一定程度上造成实践应用的环境欠佳,制约监管科技的发展。鼓励科技创新是发展监管科技的应用之义,监管部门应用科技部门加强合作,共同研发基于人工智能,机器学习的监管工具,提高金融监管效率,注重对复合型人才的培养。