APP下载

大数据驱动金融市场监管研究

2018-06-11朱琳金耀辉

关键词:监管信息企业

朱琳 金耀辉

[摘要]金融监管中的大数据应用在“互联网+”时代面临巨大的机遇与挑战。本文提出应用共享与公开数据辅助政府决策的模型框架,以上海自贸区保税区域P2P企业风险监测的实践为例,分析数据采集、数据治理和人工智能在推进金融监管工作上的作用,提出五位一体监管理念,数据来源多样化,数据治理引导数据资产化的发展建议。

[关 键 词]大数据  人工智能  金融监管  数据治理

[中图分类号]C91;F830.9    [文献标识码]A    [文章编号]1008-7672(2018)06-0066-12

一、 大数据金融监管的背景

近年来,信息技术飞速发展,“大数据”成为当下最流行的概念之一,人们利用大数据的可用信息提升服务的质量。

大数据的出现可以具体解释为以下两点:其一,目前大多数活动都会生成低成本且有利用價值的数据;其二,数据驱动型决策是更好的决策,简单、直接,使用大数据可以让管理人员根据数据(证据)而不是直觉做出决定。随着移动互联网、物联网、社交网络等技术和应用的兴起,全球范围内数据量迅猛增长,大数据时代已经来临。

Nature于2008年第一次推出Big Data专刊。Science在2011年2月推出专刊Dealing with Data,主要围绕着科学研究中大数据的问题展开讨论,说明了大数据对于科学研究的重要性。麦肯锡研究院(MGI)则于2011年6月发布名为《大数据:创新、竞争和生产力的下一个前沿领域》(Big data: the next frontier for innovation, competition, and productivity)的研究报告,对大数据的影响、关键技术和应用领域等都进行了详尽的分析,并指出大数据将会是带动未来生产力发展和创新以及消费需求增长的指向标。2012年3月美国奥巴马政府发布了《大数据研究和发展倡议》(Big Data Research and Development Initiative),投资2亿以上美元,正式启动“大数据发展计划”,计划在科学研究、环境、生物医学等领域利用大数据技术进行突破。该报告指出,大数据已进入膨胀期,并将在未来2-5年进入发展高峰期。2016年,国际商业机器公司(IBM)指出,每日的数据生成已达2.5艾字节(2.5 Exabytes),即当下各种新兴技术活动都产生了大量相关的新鲜数据,同时,这些数据不仅是在不断更新的,而且是庞大的。目前,“大数据”概念已开始根据5Vs模型进行定义,即容量(Volume),采集、存储和计算的数据量都非常大;速度(Velocity),数据增长速度快,处理速度也快,时效性要求高;种类(Variety),种类和来源多样化;价值(Value),从数据中提取有价值信息的过程,称为大数据分析;真实性(Veracity),数据的准确性和可信赖度,即数据的质量。

金融行业对数据分析依赖性较强,各类金融监管主体会向其所主管领域的金融机构索取大量的数据用于监管。将数据应用于金融监管活动、运用数据在金融监管中做出决策并不是一个新生事物。金融业是一个典型的信息密集型产业部门,大量信息都以种类各异的数据形式被记录、储存和交换,比如银行业,就有海量的储户个人信息、申请贷款的企业的经营信息数据、银行自身的投资以及动态变化的各类资产负债数据等。对这些数据的分析成为商业银行自身经营决策以及金融监管部门实施监管的基础。长期以来,欧美国家大型跨国金融机构非常重视利用先进的信息技术和自身的数据资源拓展业务。

那么大数据又将会给金融领域带来怎样的影响?随着云计算的出现以及数据挖掘等大数据技术的日益成熟,以欧美国家大型商业银行为代表的传统金融机构已率先走在了大数据实践探索的前沿,如基于大数据分析实施更加精准的风险管理和市场营销策略、为客户提供更加个性化的金融服务等。伴随互联网金融的加速发展、利率市场化的快速推进、资本约束的日趋强化,金融市场呈现出业务广、差异大、创新多的新特点与新趋势,金融业面临的风险在不断加大,仅仅对金融监管机构管理模式进行改革已不能完全适应互联网金融时代的监管需要,这就迫切要求建立“大数据金融监管平台”来有效助力金融监管模式创新。依托大数据、智能化的监管一体化平台与决策体系服务金融市场的发展,使金融监管的大数据应用真正转变为金融业的效益优势、效率优势和竞争优势。大数据将为金融监管提供新的平台与模式,对金融监管的完善与发展具有一定的积极意义。

翟伟丽阐述了金融体系在大数据时代的重构问题,指明在大数据时代金融市场将真正融入实体经济、居民的生活和工作当中。将大数据应用于金融市场将能够促进资源的有效配置,降低成本,提高效率。由于参与者的行为得到了充分记录,信用评价和征信体系变得更加有效,大数据的预测能力也将改变风险管理和决策的模式。综合化、一体化的服务将加大数据金融服务的边界,同时精细化和个性化服务程度的加深将使得大量贴身服务模式开始出现。王达根据大数据方法在美国宏观审慎监管领域的应用,指出信息密集型的金融产业部门已经走在大数据浪潮的前沿;全球金融危机爆发后美国金融监管当局认识到弥合“数据缺口”的重要性。大数据的理念和技术为美国金融监管当局监测系统性风险提供了新方向,对加强系统性风险形成机制研究,进而更加有效地实施宏观审慎监管具有非常重要的意义。Edward W. Sun等利用金融大数据来分析美国股票的价格动态, 研究了市场微观结构对建构收益率波动模型的影响。Paolo Giudici描述了金融数据科学的概念,并提出“相关网络”(correlation networks)数据科学模型,它可以在金融科技(Fintech)发展进程中发挥重要作用。在纽约大学理工学院(NYU-Poly)召开的大数据金融会议上,美国商品期货交易委员会(CFTC)的代表斯科特·奥马利亚( Scott OMalia)表示,CFTC曾考虑如何实现有效监管,主张让监管机构主动出击,对金融交易商的算法进行科学认证;在实践中,利用算法采取的鲁莽行为带来更大的破坏,甚至超过传统的操纵市场行为。劳伦斯伯克利国家实验室拥有强大的超级计算能力和独特的雄厚分析技术,能够做到针对威胁稳定的交易行为采取实时监控传统的停市机制只能在市场暴跌后采取措施,停止全部交易,而大数据实时监控能够精细调控,将单个不规范的参与者清除,从而继续向诚信的参与者开放市场。

二、 大数据金融监管涵义

在使用大数据的理念和方法下,实施监管的基本原理可以概括为:在可获得的微观金融数据的基础上,使用数据挖掘、机器学习、数据可视化分析等大数据技术,对系统性风险进行量化;通过寻找和监测与系统性风险高度相关的指标这一方法,实现对系统性风险的预测和审慎监管。

首先,大数据为金融监管过程提供了新的信息分析手段。大数据大的体量且多维度的数据及对数据的科学性分析,使金融监管更直观、准确。它在投资资格认定、打击内幕交易、加强审查等多个领域具有应用意义。

其次,在大数据时代,金融监管有了新的风险管理手段,且这样的监管更为精确。在传统的金融监管过程中,金融监管部门通常为整个行业或某一个领域制定一个统一的监管规范,缺乏个性化监管的理念,不考虑被监管主体的差异性。而大数据的相关性分析,可以尽可能弥补此问题。

大数据不是要求事前对系统性风险的形成机制做理论假定,而是通过对尽可能获得的金融数据而非抽样样本数据进行即时和动态分析,实现“让数据说话”(Let data talk)。

在传统的研究中,Crockett和 Borio等的早期研究将系统性风险分为时间维度(Time Dimension)和截面维度(Cross-sectional Dimension)。Bisias等提出美国财政部金融研究办公室从监管、 研究和数据三个层面系统总结归纳了目前量化系统性风险的31种方法,并将其分为宏观经济度量法、微观组织与网络度量法、前瞻性风险度量法、压力测试度量法、部门交叉度量法以及流动性与清偿危机度量法6大类。

金融机构识别和金融产品识别系统是美国金融数据基础设施建设的重要组成部分。这就要求人类的认知能力和计算机软件处理海量数据的能力相结合。借助可视化分析技术,研究者能够从类别庞杂、数量巨大的微观数据中以图片的直观形式迅速、有效地获得所需的信息,并通过互动界面对数据进行过滤、分割以及组合等操作,将这种信息转化为可应用的知识(Actionable Knowledge),从而更好地为政策制定提供参考。但是Flood等指出,包括数据可视化分析方法在内的任何一种方法都不是完美的,研究者的认知和判断始终在分析(系统性风险)过程中占据重要位置。

自2008年金融危机以来,全球金融体系发生了结构性调整。将大数据方法应用于金融监管,较好地契合了此发展。因此,以美国为代表的主要发达国家都非常重视对宏观审慎监管的大数据方法的研究和探索,并旨在实现三个目标:第一,加强截面纬度的宏观审慎监管。已有研究通常将系统性风险划分为时间纬度和截面纬度,其中截面纬度指特定时期风险在金融体系中各金融机构之间的分布状况和相互作用。第二,增强市场透明度,揭露监管盲区,提升对影子银行体系的监管力度。第三,降低金融机构的数据成本和操作风险。

三、 政府对金融监管的政策指引

互联网的兴起不仅改变了人们的生活方式,也影响到行业的发展。金融行业逐步网络化并深入发展,随之而来的互联网金融监管工作任务艰巨。从2015年开始,政府相关部门发布了一系列关于互联网金融监管的指导意见。2015年7月,中国人民银行、工业和信息化部、公安部、财政部、国家工商总局、国务院法制办、中国银行业监督管理委员会、中国证券监督管理委员会、中国保险监督管理委员会、国家互联网信息办公室联合发布了《关于促进互联网金融健康发展的指导意见》。

2016年2月4日,国务院发布的《国务院关于进一步做好防范和处置非法集资工作的意见》提出要充分利用互联网、大数据等技术手段加强对非法集资行为的监管,包括事中事后的监管和事前的风险排查与预警,以控制这一问题发展的趋势。

2016年3月5日,在第十二届全国人民代表大会第四次会议上,国务院总理李克强在政府工作报告中提出要深化金融体制改革,“实现金融风险监管全覆盖,整顿规范金融秩序,严厉打击金融诈骗、非法集资和证券期货领域的违法犯罪活动,坚决守住不发生系统性区域性风险的底线”。

2016年4月,在前述互联网金融健康发展指导意见的基础上,国务院在10月发布了《互联网金融风险专项整治工作实施方案》,其中重点整治问题和工作要求第一条就是P2P网络借贷和股权众筹业务,规定了P2P网络借贷平台应该守住的法律底线和政策红线。

2015年7月,国务院办公厅印发的《关于运用大数据加强对市场主体服务和监管的若干意见》提出要运用大数据加强和改进市场监管。其中关键就是健全事中事后监管机制,要“构建大数据监管模型,进行关联分析”,还要“对企业的商业轨迹进行整理和分析,全面、客观地评估企业经营状况和信用等级”,旨在利用大数据技术收集和追踪企业的經营信息,并以此为依据掌握企业的情况,防范风险的发生。

2015年8月国务院印发《促进大数据发展行动纲要》指出大数据的发展和应用虽然已经有了一定的基础,但政府在开放数据、顶层设计和规划等方面还存在着不足,建设并不完善,潜力没有发挥出来。纲要明确了大数据的发展形势和重要意义,系统部署了大数据发展工作,明确指出了将数据共享列为下一步大数据发展的主要方向。

2017年1月国务院在发布的《“十三五”市场监管规划》中也强调要加强大数据监管,提出要“充分运用大数据等新一代信息技术,增强大数据运用能力,实现‘互联网+背景下的监管创新,降低监管成本,提高监管效率,增强市场监管的智慧化、精准化水平。”该规划还强调了要建立风险预警机制,要“运用大数据资源科学研究制定市场监管政策和制度,对监管对象、市场和社会反应进行预测”。

四、 数据治理辅助决策框架

基于理论研究和实践经验,本文在政府机构已经拥有了一定共享数据基础上,充分利用大数据技术辅助政府进行决策,提出如图1所示的框架。该框架包括数据来源、数据治理、数据计算和交互展现四个部分,体现在以下三个方面:

一是数据来源的多样,具有互联网属性。在国家对数据的重视之下,政府内部资料数据库和业务数据库的建设已经有了一定的成果,是十分重要的数据资产,但共享平台能提供的信息维度仍存在不足。框架中选取互联网数据和第三方数据作为数据来源的补充,充分整合全面、多样的信息,作为政府决策的依据。

二是依托于先进技术的数据治理和数据计算能力。数据治理技术能够对大量原始数据进行有效的存储、清洗等工作,从中筛除无效信息、理清杂乱信息,提取出真正有价值的内容,用于进一步分析得出结论。此外,先进的算法能够让机器做出智能的判断,代替耗时、主观的人工劳动,提升政府工作的效率和准确性。

三是交互界面用于人机交流。一方面,政策制定者或者利益相关者可根据自己的不同需求向机器发出需求,通过合理的交互形式快速、有效地获取自己需要的信息;另一方面,在智能系统运行的过程当中,人可以根据实际工作执行的情况不断向系统提供反馈和修正,从而实现真正的机器智能学习。

下文以上海自贸区P2P企业风险评估的案例为范本,展示大数据技术和数据治理是如何依托框架服务于金融监管工作。

五、 上海自贸区P2P企业风险评估实践

中国(上海)自由贸易试验区(下文简称“自贸区”),是中国政府设立在上海的区域性自由贸易园区,位于浦东境内,2013年9月29日正式成立,是党中央、国务院在新形势下全面深化改革和扩大开放的战略举措。自贸区的主体部分是综合保税区片区,扩展区域还包括陆家嘴金融片区、金桥开发片区和张江高科技片区。

自贸区建设5年多来取得良好的发展,2017年4月,国务院下发《全面深化中国(上海)自由贸易试验区改革开放方案》,提出其建设目标是到2020年成为领先的、国际高标准自由贸易园区。其中健全、便利的贸易监管服务体系,有效防控风险的金融服务体系、现代化的政府管理体系都是重点建设内容。

近年来,中国传统金融业逐渐进入到了一个加速向互联网模式转型运营的阶段,出现了多种多样的互联网金融创新模式,与传统金融机构开展多元化合作与竞争。在互联网金融兴起的潮流和准入政策宽松的大环境下,P2P网络贷款企业大量涌现,规模小而分散,业务模式层出不穷,各种企业鱼龙混杂,给监管的转变带来了很大挑战。

截止到2017年1月,国内P2P平台共上线5881家,其中3514家出现问题,给投资者造成巨大损失的同时,也严重影响了国内互联网金融的行业氛围。在自贸区内各种高风险的市场主体行为中,网络借贷P2P企业存在的风险尤为突出。

然而目前监管部门缺乏对问题平台有效的监测工具。企业存在的风险和疑点往往就隐藏在平台资料、交易数据、新闻报道、网民评论这些数据之中,而目前的监管部门只能依靠人工搜索这些互联网数据,再结合现场勘查来发现互联网金融犯罪的疑点,不仅耗时耗力,排查的企业数量和范围也十分有限,难以真正实现大规模P2P企业风险监测的目的。如何节省人力成本,提高监管效率,成为P2P企业风险监管当下的难点。

P2P作为互联网金融的一种新型模式,与之相关的企业工商信息、经营动态信息、产品信息、人员信息、政策舆情等各种数据分散在政府职能部门内部和企业官网、第三方平台、各大新闻门户、主流论坛等互联网媒介中。为了准确判断风险,需要将这些分散的数据采集、汇总、关联形成大数据的生态环境,形成对企业多视角、多维度的描述,形成更清晰、更全面的企业标签。本文以自贸区的金融监管项目为实例,介绍在共享平台和公开数据的基础上,如何利用大数据技术辅助金融监管、帮助政府决策,为大数据在“互联网+政务”中的应用。

(一) 政府数据共享与服务平台

为了实现各级政府管理部门间信息系统互联互通、信息资源共享互换,自贸区启动建设了信息共享和服务平台项目。平台架构如图2所示。该平台的核心是通过建立政府监管信息共享机制,打破部门间的信息壁垒,以建设“政府大数据中心和信息交换枢纽”为基础,整合汇集监管信息传递、投资准入服务、部门条线管理和企业网上办事等服务功能。

该平台建立的目的是改变管理部门长期存在的各自为政、效率低下的现象,为更优质便捷的自贸区综合监管与协同服务体系提供基础性支撑。

(二) 共享数据与互联网数据的融合

(1) 数据来源

通过对行业知识的分析,将P2P平台出现问题的原因总结为两方面:先天存在不足和后天发展出现问题。前者是在平台创立之时就已经确定的因素,包括注册资金不足、创始人信用不可靠、所处城市资源和发展空间不足等;后者是在平台发展的过程中出现的问题,包括过度鼓吹利率而无法兑现、风险控制不过关造成大量逾期、缺乏投资者导致资金链断裂、金钱利益诱发的违法犯罪等,与前者相比,这类因素具有动态、不確定性的特点。

在拥有政府共享平台与服务数据的基础上,为充分捕获与P2P平台风险相关的数据,补充共享平台数据的欠缺和不足,需要通过互联网数据采集的手段来扩充数据维度和内容。而互联网上的信息纷繁复杂,在企业信息数据源的选择上,需要做到全面和适当的信息抓取。将上述分析所得的风险原因对应到具体的平台特征,可以分为静态特征、动态指数、动态新闻、动态评论四类。

静态特征,即平台的先天因素,包括平台的性质和类别、平台标签、上线时间、注册资金、所在城市、投标保障、保障模式、担保机构、人员信息等。动态指数,即平台的业务和交易信息,包括平台成交量、利率、历史待还、资金净流入、投资人数、借款人数、借款标数、平均借款期限、标的金额分布等。动态新闻,是平台发展过程中相关的新闻报道,需要抓取的内容包括新闻出现时间、报道平台、报道内容等信息,从中提取出报道的规模、报道平台的特征、企业口碑情况(正面、负面报道的数量和比重)、涉及的主题和关键词等。动态评论,即平台发展过程中相关民众主动在网上发布的评论信息,需要抓取的有评论内容、评论时间、评论来源等,从中提取出评论信息量、评论情感倾向、用户画像、舆情标签等。

基于以上分析,选取一些国内公开网站作为数据源,包括主流新闻门户和社交媒体、活跃的网贷社区和各大P2P平台的官方网站,从尽可能多的维度来挖掘P2P平台的风险信息,具体来源如表1所示。本文采集到的数据规模较大,仅企业备案网站就有1500多个,而社交媒体上的评论则达万余条。

(2) 数据治理

由于获取到的数据来源不同,结构和组织方式也不同,需要对这些数据进行适当的存储、清洗和计算,才能够进一步地用于使用和分析。数据治理中清洗、去重、降噪等处理工作是数据分析结果准确与否的关键环节,但是往往花费整个工作流程超过80%的时间和人力资源,且当原始数据质量较差时,这一时间还将延长。

本文涉及的数据具有两个挑战。一是非结构化数据多。从互联网上采集到的企业舆情信息属于非结构化数据,大量的信息点隐藏在大段的文字之中,需要先转化为结构化数据,才能用于后续的数据处理。这里用文本分析技术,包括自然语义理解、监督式机器学习等,将埋藏在文本中的信息点提取出来进行重构。二是数据多源异构性。所采用的数据既有共享平台中与企业相关的登记和关联数据,也有从几千个网站采集得到的互联网数据。其中互联网采集数据具有明显的多源异构特征,每个网站采集下来的数据的内容、维度、表述方式均有异同。这就需要通过大数据治理系统利用机器学习和人工智能的方法,结合业务专家的参与,构建行业关键词标签库,对大量网站采集得到的数据进行理解和关联。

本文采用大数据治理系统来解决这个问题,其功能包括:利用Hadoop实现对大批量数据的快速存储和计算,通过数据轮廓了解数据的基本情况,对无效信息进行数据清洗,基于大数据治理的4C原则即编目(Catalog)、关联(Connection)、管护(Curation)和使用(Consume)对数据进行进一步的有效分析。

(三) 人工智能应用P2P企业识别和风险判断

(1) P2P企业自动识别

采用机器学习模型,利用经过人工标注的P2P网站作为学习样本,自动建立一套P2P网站内容的特征库和语义集,自动识别网站内容与P2P业务的相关性,从而实现对这类企业的自动筛查。

(2) 企业知识图谱

知识图谱是一种知识表示的形式,用节点表示实体、用连接节点的边表示实体之间的关联,其中边可以是有方向或无方向的。根据知识图谱的相关技术,把基于P2P企业相关的所有信息绘制成以企业名称为中心的知识图谱,包含企业基本信息、企业对应的P2P平台信息、企业法人/股东关联等。引入知识图谱的理论和技术,为P2P网贷企业构建知识图譜,并利用该图谱和其中的关联关系作为企业风险防控的特征指标之一。

通过知识图谱的方式,可以探索各企业之间的关联和相似度,关联度大的节点之间风险程度也互相联系。平台如果出现基本信息缺失的情况,即没有与相应类别的节点关联,或者和已知的问题平台相似,都有可能存在大的风险。例如企业A已经被发现是高风险的P2P企业,这时候倘若通过图谱发现企业B和企业A之间有相同的企业法人,或者是有十分相近的标签和性质信息,此时企业B的风险程度也就成为了值得关注的对象。

(3) 舆情情感判断

互联网上存在着大量繁杂的信息,同样是对于企业的评论,其内容质量和情感倾向都良莠不齐,如果要有效利用这些评论信息,必须采用人工智能的方法对它们进行判断。

在新闻报道中,存在着大量重复和类似的报道。在网民评论中,也存在着很多信息含金量低的评论。本文使用了UGC(User Generated Content)算法,依据网民评论内容中的信息密度、情感倾向、用户权重对其评论做出0-1之间的评分,得分越高的评论信息含金量越高。摘取了互联网上一些评论实例,根据算法得到的评论如表2所示。可以看出,提及维度多的评论(同时提及人气、抢标难度、资金情况、体验、社区氛围等)评分会较高,而内容单一笼统的评论评分则会较低。

情感分析(Sentiment Analysis)是舆情分析中关键的人工智能技术,是指挖掘文本所表达的情感倾向性和其背后的用户态度。例如表2所示的评论中,“人气旺,体验好”就是表达了用户对这一金融平台肯定的态度。利用这一技术,通过对新闻报道和网民评论进行情感分析,可以获悉媒体和公众对P2P平台所持态度偏向。负面的新闻是媒体在向民众传递该平台不可靠的信息,而公众所表达的负面情感则是其他投资人的警示和借鉴,因此,情感分析技术得出的具有高负面情感度的平台,往往意味着平台的风险也要高于其他的平台。本文训练了一个半监督递归自编码器模型用于情感分析,将所获取的新闻和评论分为正面和负面两类,从而得到各个平台以天为粒度的正面以及负面新闻和评论数量,即动态新闻和动态评论中与正负情感有关的特征。结合评论评分和情感分析的结果,就能最大限度地利用互联网上网民评论的信息,对有关企业的风险情况做出判断。引起了大量有效负面的企业,理应作为监管中值得注意的目标。

(4) 基于深度学习进行风险指数量化

给定P2P平台的特征集合,包括静态特征集、动态指数特征集、动态新闻特征集、动态评论特征集,同时给定各个平台的风险标签,100表示平台正常运营,0表示为问题平台。平台风险量化定义为,以特征集合为输入并输出风险量化评分,该评分介于0-100之间。

风险量化值应当满足以下三点性质:

第一,选定某个合适阈值,量化值大于该值的应尽可能为正常平台,小于则尽可能为问题平台;

第二,正常平台的量化值应尽可能高并接近100,而问题平台则尽可能低并接近0;

第三,将所有平台按量化值从高到底排列后,越靠前的平台中存在的问题平台应尽可能越少。

因此,P2P平台风险量化本质上是一个有监督的二分类问题,以上提出的三点性质可以作为模型性能的评估标准。为了从多维异构的平台特征中全面准确地融合出风险信息并进行评分,本文提出了基于深度学习的模型。

深度学习在近几年的研究中得到了蓬勃的发展和广泛的关注,随着GPU性能的提升实现了进一步的普及,在自然语言处理、模式识别、语音识别和信息处理等领域表现尤为卓越。深度学习模拟人脑的思维模式,能够通过深层网络抽象出更为高层的概念并进行决策,而这正是监管者从纷繁复杂的数据海洋中概括有用信息所需要的能力。本文模型中采用多种深度学习模型组合成的神经网络来处理不同形式(单个值或值序列)和不同类型(数值、类别值、文本)的输入特征,进行全面精确的P2P平台风险量化并生成评分和排名。数值特征可以直接输入到模型中,类别值特征需要经过One-Hot处理转换成0-1向量,文本特征则通过Word2Vec模型转换成词向量并输入。

限于篇幅,对数据和模型不详述。作为验证,从互联网采集了全国3050家平台数据,时间跨度从2014年1月至2016年3月,所有采集的数据开放,同时开源了上述深度学习模型。从2015年11月至2016年4月的6次预测中,模型对问题平台的预测始终保持较高的准确率,达到85%。

(四) 案例成果分析

(1) 企业筛查结果

本案例中涉及的企业数量有约40000家,其中金融相关企业有10000余家。经过建立风险模型、并对风险情况进行了指数鉴别,最终筛选出确定P2P的企业数量150家,其中高风险企业35家,另有疑似P2P的企业数量137家。

(2) 业务监管功能交互平台

为了更加直观便捷地展示自贸区P2P企业信息、便于工作人员搜索查询企业资料从而进行业务监管工作,本文实现了业务监管功能交互平臺,在全面地展现监测和评估结果的同时,方便监管部门进行实时搜索查询,进行高效监督和管理。

平台涵盖以下模块:账号验证登陆模块、搜索模块、企业列表模块、企业详情模块、风险预警模块、监管交互模块、行业概览模块和系统管理模块。账号登陆部分设置了权限管理,针对不同的用户群实现页面内容区别化呈现。搜索模块有多个筛选维度可供查询。企业向西部分可视化地采用图形、图表、图谱等方式呈现了详细信息和风险指数等。平台在全面展示模型分析结果的同时,还提供多种互动交互功能,支持用户对展示企业添加标签、标注、评论、信息补充、模型分析结果反馈等。

除去展示功能外,平台提供了人工反馈的入口。工作人员在使用该平台的过程当中,可以将业务工作中的信息反馈输入进去,例如添加标签、修改完善风险信息等。基于人工智能技术,机器在得到反馈后能够修正算法的准确性,从而真正实现辅助业务监管的智能化。

(3) 效益分析

本文通过充分利用共享和公开数据,加上大数据与人工智能技术予以辅助,给自贸区金融监管工作带来了效益与参考价值。

给自贸区带来的效益体现在以下几点:

一是优化数据管理,实现数据资产化。通过搭建大数据治理系统,结合保税区内部数据和通过各种渠道采集的外部数据,打通数据间的壁垒,实现数据关联互通,消除信息孤岛,并借助大数据治理系统优化数据管理模式和流程,实现保税区数据资产化,进一步帮助政府部门做到管好数据、用好数据,拥有数据资产。

二是大幅度提高工作效率,实现业务智能化。利用内部数据和外部采集的大量数据构建保税区企业信息库,通过机器学习的技术学习P2P企业的特征,自动筛查出涉及P2P业务的企业,将以前人工排查的方式转变为机器自动排查后将重点标注企业提交人工审查。机器代替人力完成最大量最繁琐的初步审核阶段,同时还提供了对审核结果风险程度的量化,减少了人的工作量,使得同样时间内人工处理数量、质量同时上升一个档次;从效率来讲,不仅节省了时间和人力,而且提高了结果的准确性和一致性,让部门的决策更实时、更快速、更有依据。

三是量化P2P企业风险,让数据成为监管、上报和决策依据,实现监管科学化。通过对P2P企业风险量化评分以及对风险级别的评价,帮助监管部门针对不同风险级别的企业实施相应的监管措施,合理进行资源分配,提高监管效率,实现以数据为支撑的、科学的监管模式。

六、 大数据驱动金融监管发展的建议

运用大数据进行监管实践具有十分重大的理论与现实意义。通过大数据进行监管打破了传统的金融监管方法,为金融监管部门提供了新的视角;同时,大数据金融监管利用大数据5V特点,很大程度上提高了金融市场有效性。大数据金融监管对大数据相关领域有较强的借鉴意义。在此发展中,需要注意以下四个方面。

(一) 树立五位一体监管理念

自十八大以来,党中央提出了四个全面的战略布局,强调以创新、协调、绿色、开放、共享的发展理念,深化政治体制改革、转变政府职能、实现治理现代化,打造法治政府、创新政府、廉洁政府和服务型政府。互联网在落实转变政府职能、深化政务公开、推进放管服务改革和政务服务等方面发挥出日益重要的作用。合理有效的监管需要明确的监管理念作为指导。五位一体的监管理念是指监管需要有连接、整合、共享、联动、参与五环节互通融合。具体是部门之间的有效连接,多源异构信息资源的合理整合,多元主体的信息资源的共享,流畅的跨部门的联动,多方参与服务。

新一代的信息技术手段越是先进,越是要求提高环境整体的联动性。不仅要求政府工作人员有较高的信息技术应用能力,同时还要有与之相适应的系统思维的理念,要求政府各部门之间打破条块分割,实现部门间的协同工作和数据的自由流动,进行彼此无障碍的沟通,政府要在城市管理过程中更好发挥职能作用,共享和整合数据,完善信息技术、情景和人之间的交互,真正实现电子包容。

(二) 以流程为导向

《“互联网+政务服务”技术体系建设指南》明确提出按照“坚持问题导向、加强顶层设计、推动资源整合、注重开放协同”的原则,以服务驱动和技术支撑为主线,围绕“互联网+政务服务”业务支撑体系、基础平台体系、关键保障技术、评价考核体系等进行。传统的政府业务流程是围绕“职能”与“计划”来展开,对公众的诉求缺乏了解和回应。需要变“职能导向”为“流程导向”。信息化的基础管理中心在流程上,通过整合业务,形成职能间的有机联系。以服务流程、支持流程、管理流程三个维度为支撑,降低协调成本,突出整体目标,实现整体效率最大化。服务流程是面向公众的流程,主要为公众提供公共产品和公共服务。支持流程位于政府内部且服务于服务流程,主要为政府内部提供产品、服务和信息。管理流程为服务流程和支持流程之间的桥梁,实现两者最大程度的匹配。打破原有分工理论的束缚,注重整体流程最优的系统思想。以流程为导向最大限度地集成政府管理和服务功能,而后根据流程消除纯粹的中间环节,实现内部的有效沟通,这不仅降低了管理费用和成本,而且提高了组织的运转效率。

(三) 決策数据需多源化

目前正在大力推行的政府共享服务平台为政府管理和决策科学化提供了坚实的基础,但在数据源的完整性方面还存在一些不足。

共享平台的数据具有稀疏性。组织内部的数据只涵盖了管理中产生的数据,在实践中有些维度的信息是缺失的,或者无法通过常规渠道获取到。比如自贸区信息共享平台只涵盖了部分工商信息和一些部门信息,为了进行有效的风险预警,需要建立基于数据的预估模型,而数据的大量缺失和维度的不足会导致模型产生偏差因而性能降低。

共享平台的数据具有局限性。比如本文中共享平台数据来源主要是政府部门积累的企业登记信息和对企业实施监管的数据记录,缺乏与企业实际经营业务、经营状态、舆情评价相关的数据,在数据的维度上十分有限。企业登记信息和监管信息是企业资料的基础,却不能充分地反映企业在实际运营过程中的表现,而后者对于企业的评价和评估则是重要的依据。互联网上有很多与P2P相关的网站平台,涵盖了与业务相关的大量信息,将这部分数据与共享数据融合补充,对金融监管工作会颇有益处。

共享平台的数据具有滞后性。滞后性体现在数据是已经完成的工作成果,适用于事中事后的监管,难以起到快速及时的事前预警和风险预估的作用。在现实生活中,对企业风险信息反应最敏感的则是投资人,而这部分信息主要体现在互联网上,体现在网民对企业的评论当中。

因此,除去共享平台与服务数据之外,获取互联网的数据作为补充,尤其是民众自发产生的数据,在金融监管的工作中十分必要。

(四) 运用数据治理,实现数据资产化

数据治理是对数据管理行使权力和控制的活动集合,包括规划、监督和执行。数据治理功能需要体现在快速地完成数据清洗、去重、去噪等预处理;对数据中多张表进行关联、融合;自动提取关键字段、降低数据维度;时空数据处理等。通过数据治理达到价值实现、运营合规和风险可控。经过利益相关人分析和沟通,建立统一的数据价值的理解,指导价值实现相关要素的定义、应用、调整,并持续开展对价值实现过程的评估、指导和监督,以满足利益相关方对数据治理的收益和价值预期。建立符合法律、规范和行业准则的数据合规管理体系,并通过评价评估、数据审计和优化改进保证数据的合规,促进数据价值的实现,实现数据资产化。应建立、评估数据风险管理机制,确保数据风险不超过组织的风险偏好和风险容忍度,评估、指导和监督风险管理的实施。

数据资产化是指数据可管理、可度量、可运营。可管理包括形成资产目录、标准化过程、全周期质量管理、可信安全管理。可度量包括资产数量、资产价值、资产成本、资产健康度的精准度量和分析。可运营包括资产监控和报告、成本评价和控制、质量提升流程和激励机制。通过数据资产化,实现数据服务化和数据价值化。

政府作为拥有海量管理和服务数据方,对已有的数据和多来源数据需要进行数据治理,从而实现资产化过程,进而数据资源可成为第四类资产。

Research on Finance Supervision under Big Data—Based on Enterprise Risk Monitoring Practice in Shanghai Free Trade Area

ZHU Lin1,  JIN Yaohui2

(1. Social and Public Administration School of East China University of Science and Technology, Shanghai200237, China; 2. School of Electronic Information and Electrical Engineering,

Shanghai Jiaotong University, Shanghai  200240, China)

Abstract:Application of big data in finance monitoring is faced with opportunity and challenge in the age of “Internet+” era. This research proposes a framework applying shared and open data to assist government strategy. Based on the practice of enterprise risk monitoring in Shanghai Free Trade Area, this paper also analyzes the role of data collection, data governance and artificial intelligence in promoting finance supervision, and proposes suggestions of “five-in-one” supervision guidance, multiple data source and data capitalization led by data governance.

Key words:big data; artificial intelligence; finance supervision; data governance

猜你喜欢

监管信息企业
加强和规范事中事后监管
2018上海企业100强
浅论我国会计监管体制的创新
订阅信息
2016,中国企业500强发布
展会信息
新申请企业一经受理便预披露
新申请企业一经受理便预披露
监管交通
企业名片Enterprises Card