个人购付汇主体“聚类”研究
2020-12-17薛瑾
薛瑾
摘 要:在人民币汇率双向波动幅度进一步加大的背景下,传统的个人外汇管理“总量分析+结构分析”模式,已难以摸清复杂数据背后的真实规律。因此,本文借助SAS软件的“ward聚类算法”,着重对陕西省个人购付汇重点关注主体进行聚类分析,从而为个人外汇业务形势分析及监测管理提供有效参考。
关键词:外汇管理;个人外汇业务;聚类算法
中图分类号:F832.7 文献标识码:A 文章編号:1674-0017-2020(8)-0056-05
一、引言
我国自2007年开始,为规范和便利银行及个人的外汇业务操作,对个人结汇和境内个人购汇实行年度总额管理,年度总额分别为每人每年等值5万美元。个人年度总额内的结汇和购汇,凭本人有效身份证件在银行办理。超过年度总额的,经常项目项下凭本人有效身份证件和规定的证明材料在银行办理;资本项下相关交易须经外汇局核准。个人外汇管理政策的开放和进一步便利化,使得个人外汇管理模式由“事前审批”转变为“事中、事后监测核查”。
目前,对于个人外汇业务的分析及研究主要局限于传统的“总量分析+结构分析”层面。本文运用“大数据”分析理念,在传统的宏观分析的基础上,聚焦个人主体微观行为。通过SAS统计分析软件(以下简称SAS)中的“Enterprise Guide”对个人外汇数据进行基础加工,运用SAS软件“Enterprise Miner ”(以下简称EM)中的“ward聚类算法”设立模型,对个人外汇业务主体进行聚类,分析各类个人购付汇主体行为特征,从而提出针对性的建议。
二、运用SAS“ward聚类算法”对个人外汇主体进行聚类分析
聚类分析是一种探索性数据挖掘方法,以整体为视角,在所选变量中按一定的规则对其中样本进行聚类。SAS“ward聚类算法”主要以同类事物的内部差异高低作为集群聚类、辅助分区的决策依据。本文对陕西省个人购付汇主体数据开展聚类分析,根据聚类变量间的距离及重要性等对多个变量指标进行筛选,并以SAS算法的自动分类为原则,根据优选后的变量指标,对个人购付汇主体聚类后形成分析结果。
(一)变量优选:9个指标的聚类结果更显著
指标变量共11个,其中包括3个分类变量,8个数值型变量。运用SAS EM 中的“变量聚类”功能,通过重复组合及变量训练,对数值型变量的距离进行分析,同时对部分变量的重要性进行分析,通过对各聚类中贡献值较小、重复性较高的变量逐一进行删减,从而选出有效变量。
1.聚类变量间的距离分析。在变量的聚类距离中,变量聚类1:付款总金额、购付汇率、购汇总金额、购汇提钞总金额四个变量的聚类成分R方数值依次减小;变量聚类2:购汇首尾相差天数、购汇次数、购汇币种个数的聚类成分R方数值依次减小;年龄在变量距离中单成1类聚类3(见图1)。
2.聚类变量的重要性分析。通过SAS软件的聚类变量重要性筛选功能,对聚类变量进行分析。从分析结果看,当前个人主体分类状态、付款总金额、购汇总金额、购汇次数、购汇首尾相差天数五个变量对聚类结果的影响较大,购汇币种个数、交易主体类型对聚类结果的影响居中,有3个变量:购汇提钞总金额、性别、年龄对聚类结果几乎没有影响。
3.聚类变量选取结果。综合考虑变量间的距离及重要性,同时结合对结果的解释性以及业务实际需要,去掉变量中购付汇率、性别指标,最终选取了9个指标变量进行下一步聚类分析,包括:年龄、当前个人主体分类状态、交易主体类型、购汇总金额、购汇次数、付汇总金额、购汇提钞总金额、购汇首尾相差天数、购汇币种个数。
(二)聚类分析结果:优化提炼17个主体类别
在SAS EM中创建数据源与流程图,运行聚类算法,结果显示个人购付汇主体分为17类,各类数据包括了个人主体数及各指标的数据均值(见表2)。其中,第2、4、16类个人主体最多,占比达到87.38%。
(三)段剖面剖析:分类后个人主体购付汇行为的主要特征
运用SAS软件中的段剖面工具,得出个人购付汇主体分类后的数据剖面图。根据段剖面图显示,有显著特征的分类有以下8类:
1.第2类个人占比37.61%,付汇总金额较小,购汇总金额居中,付汇金额远小于购汇金额。个人付汇平均金额9176美元,其中1万美元以下的主体占70%;购汇平均金额处于中间值2.36万美元,其中2.75万美元以下的占78.38%;购汇次数在2次以下的占比77%;购汇提钞金额较小,平均值仅有216美元;购汇币种集中在1-2个(见图2)。
2.第4类个人占比28.33%,购汇、付汇总金额均较大。第4类个人与第一类个人段剖面的指标一致,两者的区别主要为购汇总金额与付汇总金额,第4类个人购汇总金额的平均值为4.58万美元,是第2类的1.83倍,付汇总金额的平均值为4.43万美元,是第二类的4.83倍,其他值差异性不大(见图3)。
3.第16类个人占比21.44%,购汇、付汇总金额居中,购汇次数较多。此类个人购汇、付汇金额平均值分别为3.19、2.12万美元,但购汇的次数明显高于第2类、第4类个人,购汇次数平均值为5.84次,同时购汇首尾相差天数较大;另外此类个人是这几类个人中唯一年龄占重要变量指标的类别,其中年龄在46-54岁上下的个人远高于平均值,占比68.1%(见图4)。
4.第7类个人占比5.5%,购汇总金额、购汇次数均无明显差别,差别的变量主要集中在购汇提钞金额及付款总金额两个变量上,且购汇提钞总金额数值远高于其他类别、付款总金额远低于其他类别(见图5)。
5.第19、8、9、17类个人,表现出单个指标特征明显。四类个人均为单一特征分类,分别为:购汇币种个数、当前个人主体分类状态、付款总金额、购汇次数。其中第19类,购汇币种为4个以上的占比98.05%;第8类,全部为“预关注”个人;第9类主体付汇总金额的平均值是购汇总金额的两倍,付款金额在20万美元以上的占比较高;第17类主体购汇次数在100次以上的占比较高(见图6)。
三、聚类结果对个人外汇业务管理的指导意义
基于SAS运行出的上述聚类结果,本文将上述个人购付汇主体归纳为五大类型,并在个人外汇管理中重点施策。
一是对“额度内购汇、付汇观望型主体”,加强预期管理,引导实需用汇。主要对应于聚类结果中的“第2类”主体,该类主体购汇时,在短时期内并未有实际的用汇需求,购汇主要用于满足长期的用汇需求或者基于资产保值、增值类需求,此类主体购汇心理主要为预防性或防御性。因此,对此类别的个人,重点开展预期管理,引导个人根据实需购汇。
二是对“大额购付汇主体”,细分不同类型,分别侧重于便利性与防风险。主要对应于聚类结果中的“第4类”主体,此类主体购汇的同时存在大额的付汇行为。其中一类情况为真实的留学等经常项目项下购付汇行为,另一类大额的因私旅游项下的汇出,应为不真实申报或资金的异常违规流出。因此,对于该类主体应具体细分真实性需求或异常数据类型。对于真实性购汇需求,应引导银行继续创新业务办理模式,使得个人购付汇更加便利。对于异常数据,在日常个人外汇管理工作中应开展重点核查。
三是对“多次购汇型主体”,关注汇率波动与购付汇行为间的关联性。主要对应于聚类结果中的“第16类”主体。该类主体购汇以及汇出的累计金额均较大、购汇较为频繁,同时购汇的币种较为单一。初步分析此类主体中个人有长期用汇需求,在日常操作中在不同汇率时点,通过多次购汇来平衡人民币汇率波动造成的损失。此类主体对汇率波动的敏感性较大,因此对该类主体应重点关注汇率波动对个人购付汇行为的关联性影响,分析汇率大幅波动下的个人购汇心理预期与购付汇行为结果。
四是对“大额购汇提钞型”主体,引导个人合规提钞、携带出境。主要对应于聚类结果中的“第7类”主体,目前我国境内禁止外币计价结算,特殊情况下需要携带10000美金以上出境的,还须经外汇局进行核准。因此,对于购汇后大额提钞主体,应结合“三反”要求,加大个人外汇政策宣传,引导个人减少大额外币现钞提取,合规携带外币出境。
五是对“异常数据主体”,加强日常及专项的监测核查。主要对应于聚类结果中的第8、11、12、13、15、17、18、19类主体,其中第8类主体主要为参与个人分拆购付汇被外汇局纳入“关注名单”类主体,对于此类主体还应重点分析银行在办理此类业务中的内部控制措施是否完善,如果该类主体的主要购付汇行为集中在某家银行,则证明该行的内部控制措施较弱,应采取多种管理手段要求银行强化内部管理;第12、19类购汇币种较多以及第13、15类购汇次数全年累计超过100次的主体,此类主体行为较为异常,一类通过外汇实盘操作来进行外汇买卖,达到赚取汇率差价的目的,另一类多币种之间高频操作购汇以及存取的,还原数据甄别后可作为非法倒卖外汇的重点核查对象;第11、18类购付汇金额特别大的主体,从业务逻辑判断上应属于不占用额度的购付汇,可重点核查个人在银行办理业务时提供资料的真实性、合规性。
(一)通过对个人外汇业务主体及行为数据的特征刻画,为风险分类管理、异常数据挖掘提供有效手段
个人外汇业务日常监测管理应在微观监测单笔数据的基础上以及大数据分析的框架下,整体分析业务数据变化的规律。针对不同的个人外汇业务群体,准确描述高风险主体及高风险行为特征,为个人外汇业务和主体画像,从而为个人外汇管理政策制定和监测管理提供有效手段。
(二)个人外汇管理方式应关口前移,由“事后监管”变为运用“大数据”倒逼银行“事前+事中”控制
目前现行个人外汇管理方式中,外汇局会对分拆购付汇汇异常主体采取列入“关注名单”的方式。从SAS聚类分析的结果看,此类主体整体占比较少,用在聚类中指标较为单一,对业务风险的识别作用有限,且个人异常违规行为往往会由内部控制严格的银行向内部控制松散的银行转移。因此,应充分运用“大数据”,在分析个人主体特征的基础上,着重向银行异常数据集群转变。将银行作为个人外汇业务风险识别与阻断的第一道防火墙,倒逼银行将强化“事前+事中”、“网银+人工”的全渠道内部控制措施作为日常管理新常态。
(三)加強个人主体数据的持续监测,为个人外汇形势分析和研判提供有效参考
本文在分析时采用了一段时期内的个人购付汇数据,用于个人聚类分析,从一定层面上反映了各类别个人购付汇主体的行为特征,但较短时间段范围的数据选取无法刻画个人用汇的长期性、复杂性的变化特点。因此,应将个人外汇主体行为特征的聚类分析,在一定区域、一定时间段内进行连续跟踪,深入分析其变化过程和发展规模,进而为个人外汇业务分析和研判提供有效参考。
(四)在现有大数据环境下,探索建立汇率公众预期与个人购付汇行为相关联的监测分析方法
个人主体在不实舆论传播影响下,易出现“羊群效应”,导致个人群体大规模集中购付汇。因此,应充分运用大数据分析,在掌握主体特征的前提下,针对特殊群体、特定业务采取具有针对性的预期引导措施,特别是在人民币汇率剧烈波动、市场情绪不稳时,针对不同群体个人开展分类指导,持续监测市场结售汇情绪变化,在保证个人真实用汇需求的同时,主动挤出虚假泡沫数据,有效防范个人跨境资金异常波动。
参考文献
[1]郭振玉.基于聚类分析和关联规则的数据库用户行为模式分析的研究[D].武汉:武汉理工大学,2016.
[2]国家外汇管理局江西省分局经常项目管理处课题组[J].从法律角度论个人外汇管理改进之必要,金融与经济,2015,(01):84-87.
[3]牧人.大数据时代的外汇监管.中国外汇,2014,(11):64-65.
[4]谢康,吴记,肖静华,基于大数据平台的用户画像与用户行为分析[J].中国信息化,2018,(03):100-104.
[5]张涛,陈庆玲,吴涛,董玉婷.个人购汇行为的影响因素研究[J].中国外汇.2017,(01):38-41.
Research on the Characteristics of Individuals Purchase and
Payment of Foreign Exchange
——Based on the "ward clustering algorithm" of SAS software
XUE Jin
(Xian Sub-branch PBC, Xian Shannxi 700075)
Abstract:Under the background of the two-way volatility of the RMB exchange rate, the traditional model of individual foreign exchange management based on “volume analysis + structural analysis” has been facing challenges, which is unable to discover the true patterns behind complex data. To this end, by using SAS software tools, this paper uses the "ward clustering algorithm" of SAS software to analyze and characterize the main subjects of purchase and payment in shaanxi province, therefore, provides an effective reference for analysis and regulation.
Keywords: subject characteristics, big data, clustering algorithm, SAS software
責任编辑、校对:李美婵
收稿日期:2020-06
作者简介:薛 瑾(1984.03-),女,陕西韩城人,硕士,会计师,现供职于中国人民银行西安分行。
注:本文为作者观点,文责自负。