我国征信业大数据应用探析
2016-09-10何苗
何苗
【摘要】1980年著名的未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。大数据对各行业发展都将带来巨大的、深远的影响。征信行业如何应用大数据值得我们深入探讨与研究。
【关键词】征信业 大数据 应用
随着互联网、云计算的快速发展,大数据对各行业发展都将带来巨大和深远的影响。征信行业如何应用大数据值得我们深入探讨与研究。
一、大数据的含义与特点
(一)大数据含义
2008年在维克托·迈尔-舍恩伯格及肯·库克耶编写的《大数据时代》中,大数据指不用随机分析法(抽样调查)这样的方式,而对所有数据进行分析处理。
(二)大数据特点
大数据的核心价值是对海量数据进行存储和分析。大数据的4V特点即:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。Volume(大量)指大数据体量巨大。从TB级别跃升到PB级别。移动互聯网、物联网、车联网、云计算、PC机、手机、平板电脑以及遍布全球的各式传感器,都是数据来源。Velocity(高速)指大数据处理速度快。大数据需要依托云计算的分布式处理、分布式数据库、云存储和/或虚拟化技术。Variety(多样)即数据的类型繁多,包括各种数据库、网络日志、视频、图片、地理位置信息等等。Value(价值)即价值密度低。需要从海量数据中提取有价值的信息。
(三)大数据的处理流程
1.采集与导入。指将分布的、异构数据源中的数据截取后进行清理、转换、集成,然后加载到数据仓库或数据集市中,作为联机分析处理、数据挖掘的基础。数据存取软件主要有关系数据库、NOSQL、SQL等。存储模式主要有云存储、分布式文件存储等。
2.统计/分析。主要运用分布式数据库、分布式计算集群对海量数据进行普通的分析、分类汇总等,以满足分析需求。实时性需求多采用EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而批处理或基于半结构化数据需求可使用Hadoop。其统计分析的主要方式有:假设检验、显著性检验、T检验、相关分析、差异分析、卡方分析、方差分析、偏相关分析、回归分析、距离分析、简单回归分析、多元回归分析等。
3.数据挖掘。与统计/分析过程不同的是,数据挖掘一般没有预先设定的主题,主要是在现有数据上进行基于各种算法的计算,进行预测,实现高级别数据分析需求。典型的算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要工具有Hadoop的Mahout等。
二、我国征信业信息系统建设情况
2013年我国出台的《征信业管理条例》指出我国的征信业务指对企业、事业单位等组织和个人的信用信息进行采集、整理、保存、加工,并向信息使用者提供的活动。我国的征信信息系统主要有央行征信系统、行政管理征信系统、商业征信系统。
(一)央行征信系统建设情况
我国征信业监督管理机构——人民银行建立了金融信用信息基础数据库(包括企业信用信息基础数据库和个人信用信息基础数据库),于2006年在全国联网运行,是我国最重要的征信系统。其数据来源于放贷机构、政府及其他相关机构。放贷机构免费强制提供数据,政府及其他相关机构自愿提供数据。由人行征信中心汇总、处理数据。金融机构依法有偿查询,政府部门及企业和个人依法免费查询。
该系统接入机构1811家,包括银行机构485家,小额贷款公司700家,融资性担保公司257家,住房公积金中心310家,财务公司10家、消费金融公司4家等。截至2014年底,企业和个人征信系统接入机构分别达1724家和1811家,分别收录近2000万户企业、其他组织和8.6亿自然人,其中,有信贷记录的自然人3.5亿人。
该系统采集的主要信息有:身份信息、信贷信息(包括贷款、贸易融资、保理、票据贴现等各类企业授信产品,以及个人消费贷、住房抵押贷款、信用卡、个人经营性贷款等个人信贷产品)、非金融负债信息(如电信缴费信息、公用事业缴信息)、公共信息(包括住房公积金缴存信息、社保参保缴费信息、司法信息如立案判决和执行信息、商事信息如登记注册和财务信息等)四块。
央行征信系统的产品与服务主要是信用报告和增值服务。增值服务主要有关联企业的关联查询服务、将本机构好客户在其他机构变差的信息提供给机构用户的信息提示服务、“个人信用报告数字解读”(即利用个人信用报告中信贷交易和查询信息建模,研究开发个人信用风险量化评估工具,预测借款人未来逾期的可能性)等。此外,信贷资产结构分析、历史违约率等产品也正在研发中。
央行征信中心通过下属机构上海资信有限公司建成网络金融征信系统,将p2p网贷机构纳入了系统。截至2014年底,接入网贷机构370家,收录客户52.4万人。目前该系统尚未接入央行征信系统,主要是帮助P2P平台信息互享,普通消费者尚不能通过该系统查询。
(二)行政管理征信体系
以地方政府及职能管理部门为主导建设的,收集的信息主要有工商、税务、海关等各职能采集的数据。
(三)商业征信系统
商业征信体系指由民营机构建成并按市场方式运作的机构体系。我国上世纪80年代末、90年代初已有民营征信机构诞生,例如鹏元征信有限公司个人征信系统自2002年即已开始投入运行。过去商业征信系统没有独立、稳定的数据来源,主要是从前两个体系挖取,再进行整合、分析。而近几年以互联网为背景的征信公司的加入改变了这一状况。这些机构依托互联网企业采集的电子商务、社交等信息,对征信对象进行分析。
我国《征信业管理条例》规定,设立经营企业征信业务的征信机构需向所在地央行备案,设立经营个人征信业务的征信机构须由央行颁发个人征信业务经营许可证。截止2014年末,央行已向29家机构颁发了“企业征信业务经营备案证”。2015年1月5日,央行下发《关于做好个人征信业务准备工作的通知》,要求芝麻信用、腾讯征信、前海征信、鹏元征信、中诚信征信、拉卡拉信用等8家机构做好首批个人征信业务的准备工作。8家征信机构的数据主要来源于互联网平台或集团公司。如芝麻信用主要利用阿里旗下淘宝、天猫、支付宝等购物和理财平台,整合电商、网上银行、社交、招聘、公积金社保、交通运输等信息,最终形成相关征信信息。腾讯征信隶属腾讯集团,主要基于QQ和微信平台上用户所累积的数据对用户进行分析评级。前海征信母公司为全牌照金融企业——平安集团(集团业务包括银行、保险、信托等,旗下陆金所是国内最大的P2P网贷平台),该公司主要利用母公司的数据。
三、我国征信业大数据应用需关注的问题
(一)征信信息公开、转让、共享与个人隐私保护处理问题
在大数据征信业态下,如何正确处理两者关系的问题更为突出。政府、公共部门、企业、个人哪些信息可以公开,哪些信息应该公开,哪些信息可以转让,在多大范围、采用哪些途径和方式公开、转让等尚未有专门的法律法规予以明确。目前阿里小贷虽然与淘宝、天猫等都属于阿里巴巴集团旗下公司,电商平台的交易数据流向阿里小贷,仍相当于法人间数据让渡。而目前《征信业管理条例》及相关法律法规并未对征信机构向特定用户提供数据的行为作明确规定,因此难以界定這种行为是否违规或存在法律风险。
(二)央行征信系统信息来源受限
按照《征信业管理条例》,国家建设的金融信用信息基础数据库接受的信息为从事信贷业务的机构和不从事信贷业务的金融机构,这限制了央行征信系统信息来源,不利于央行征信系统拓展数据采集范围。
(三)信息安全问题
云计算、大数据采取的是云存储、分布式文件存储等,数据或计算分布在多台计算机上,数据链条长,数据系统、结构复杂,数据保密技术要求高,增加了数据泄密的风险。
四、建议
(一)进一步完善相关法律法规
在法律法规层面明确征信信息的归属权,明确界定个人信息和个人隐私,以及商业化大数据机构信息可公开、转让、出售的内容、范围等等。同时,明确互联网数据使用应遵守的原则:一是目的性原则,建立数据库要有明确目的;二是适当性原则,采集与目的要适当;三是本人同意和知情原则,数据的采集、使用等要本人同意、知情。
(二)制定大数据建设机制和标准
建立良好的运行机制,在信息覆盖面上,要尽可能对放贷机构、借款人群和地域上的全覆盖;在数据采集、挖掘中满足放贷机构、信息主体、监管部门等系统参与各方的需求,以促进征信大数据建设各个环节的正规有序。建立覆盖多个领域、动态更新的大数据建设标准,为实现网络和信息的互连、互通奠定基础。在各专用数据库建设的基础上,通过数据集成,实现各级各类信息系统的数据交换和数据共享。进一步强化信息安全与保护。
(三)依法对互联网、大数据公司开放征信市场
互联网、大数据征信是传统征信的业态升级。要创造有利条件促进互联网征信公司发展。同时,参照国外的一些做法,把传统征信数据和互联网数据结合起来,在互联网征信机构做到一定规模后,金融机构信息可在保护个人隐私和信息安全的情况下允许其使用。
(四)进一步完善央行征信系统
央行征信数据源要包括证券数据、保险数据、商业信用数据、消费交易数据和公共事业缴费数据等,还需进一步拓展信息来源,从互联网机构获取相关信息。按照《征信业管理条例》规定,从事信贷业务的机构应按规定向金融信用信息基础数据库提供信贷信息,因而只要相关部门认定P2P属于放贷机构,就应将其接入央行征信系统。同时,在将来法律法规许可的情况下,央行征信系统可进一步拓展互联网数据采集渠道和范围。可将互联网企业作为征信服务业的上游机构,依法将数据提供给央行征信机构,由央行征信机构再进行整合、分析等后续工作。
(五)对征信业监管要处理好行业发展与规范的矛盾
征信机构需要采集和提供更丰富的信息以满足信息使用者的需要,但信息采集与使用不当又容易侵害信息主体的权益,引发违规行为。监管者往往存在为避免违规而过度监管的倾向,这会影响整个行业的活力与发展。因此监管者应更好地处理二者关系,使征信业规范与发展并重。
参考文献
[1]卢芮欣.大数据时代中国征信的机遇与挑战.金融理论与实践.2015.2.
[2]林平.大数据背景下加快我国征信市场发展的思考.南方金融.2014.11.
[3]魏强.大数据征信在互联网金融中的应用分析金融经济.2015.4.
[4]洪偌馨.大数据征信的“是与非”.第一财经日报.2015-12-09.