大数据时代中国征信的机遇与挑战
2015-07-16卢芮欣
卢芮欣
摘要:大数据时代的到来在各个领域都开启了一场革命,让所有行业都逃不过互联网思维和大数据时代背景。征信业与大数据天然契合,在我国征信业进入快速发展期时,抓住大数据的时代契机乘势而上,将会实现我国征信业发展的大跨越。但面对越来越大的海量数据资源,大数据不仅是征信业转型升级的历史机遇,也带来前所未有的巨大挑战。我国征信业发展应基于大数据时代特征从技术和业务模式、监管和保障机制等方面进行完善。
关键词:大数据;征信业;云计算
文章编号:1003-4625(2015)02-0103-05
中图分类号:F820.4
文献标志码:A
一、我国征信体系发展现状
我国征信业起步较晚,改革开放后才开始建设征信业,但发展成效颇为显著。30多年来,征信业发腱已经初具形态和规模,并逐步走向规范化。征信市场初步形成以央行的个人和企业金融信用信息基础数据库为基础,以政府背景的征信机构为主导,各类社会征信机构快速发展的多元化格局,和以信用登记、信用评级、信用调查等基础业务为主体,信用风险管理、信用培训、信用咨询等创新性增值业务快速开展的多层次产品格局,以及涵盖信贷、企业和个人信用、债券等多方面,涉及企业、个人、机构等多主体的全方位征信服务市场。征信法制建设形成以《征信业管理条例》和《政府信息公开条例》为基本法律框架,以《征信机构管理办法》《个人信用信息基础数据库管理暂行办法》《银行信贷登记咨询管理办法(试行)》等部门规章和《中国人民银行信用评级管理指导意见》等规范性文件为辅助的多层次制度体系。按照2013年《征信业管理条例》和《征信机构管理办法》,我国开放了个人征信业务,允许取得牌照的市场化机构从事个人征信,未来百花齐放的市场格局将成为央行征信系统的有力补充。同时,社会信用体系建设逐步推进,国家层面的征信体系规划已经出台,地方性社会信用体系建设机制也有多地建立,行业信用建设有效开展,中小企业信用体系和农村信用体系建设逐步推进,征信宣传成效显著,全民信用意识逐渐提高。
2014年6月27日,《社会信用体系建设规划纲要(2014-2020年)》公布,政务诚信、商务诚信、社会诚信和·司法诚信成为重点建设领域。经济快速发展和全社会信用意识提高带来巨大的征信市场需求,我国征信业进入快速发展期。
二、大数据与征信业
大数据(Big Data)是如今最火的话题,无论是否已经了解和做好准备,大数据时代已经强势到来,并在各个领域都开启了一场革命。大数据尚无公认的定义,麦肯锡2011年发布报告《大数据:创新、竞争和生产力的下一个前沿》认为,大数据指规模远超传统数据库处理能力的海量数据集合。就数据量来说,一般指1000T以上的数据,相当于400至500台一般配置的电脑容量。大数据并非单指容量大( Volume),更意味着数据多样(Variety)、经挖掘后价值高( Value)、数据创建和处理速度快(Velocity),此即大数据的4V特性。后来,大数据被引申为一种数据处理模式,即通过收集海量而全面的数据,并通过实验、算法和模型分析,挖掘规律、获得有价值信息。实际上,大数据并非新鲜事物,根据IDC(Inter-national Documentation Centre,国际文献资料中心)201 1年数字宇宙研究报告《从混沌中提取价值》,单就数据量而言,2010年起全球就已跨入ZB时代展运用仍处于初期,只因以往计算机联网水平、处理水平、信息积累能力等其他条件滞后限制了大数据产业的发展。
云计算(Cloud Computing)是基于互联网的分布式计算技术,更是一种资源的交付和使用模式,指通过网络以按需的、易扩展的方式获得所需资源(包括软件、硬件、平台),它意味着计算能力也可以作为一种商品通过互联网按需购买和使用。云是互联网的比喻说法。透过云计算技术,网络服务提供者可以在数秒内达到和超级计算机同样强大效能的信息处理服务。最简单的云计算技术如搜索引擎、网络信箱等已随处可见。云计算与大数据是相辅相成的,二者都为数据存储和处理服务,就如硬币的两面,有了云计算的有力工具,大数据技术才成为可能;有了大数据的业务需求,云计算才有用武之地。
现在,所有行业都逃不过互联网思维和大数据时代背景。征信业天生和大数据联系在一起。大数据是采集数据并挖掘分析其背后的信息以供决策参考,而征信的本质就是采集和记录信用信息并整理加工后提供给决策者,只不过在大数据时代,一切数据都可以成为信用数据,经分析后用于证明一个人或企业的信用状况。因此,征信业内在具有优化数据处理、降低信用信息加工成本的动机,与大数据天然契合。当前,大数据的经济价值逐渐开始显现,抓住大数据的时代契机、乘势而上,将会实现我国征信业发展的大跨越。但面对越来越大的海量数据资源,不仅是征信业转型升级的历史机遇,也带来前所未有的巨大挑战。
三、大数据时代我国征信业的新机遇
(一)大数据能有效扩大征信业务的覆盖范围
互联网金融对于推动征信业的发展和大数据在征信业的应用起到了不可忽视的作用。许多互联网金融企业已经意识到,信用风险控制技术才是互联网金融未来成功的核心。这一观念引发的大量征信需求并不能被原有的征信系统和产品服务满足,因为央行征信系统不对互联金融公司和其他征信机构开放,即使开放,央行征信系统建立档案的8.4亿人中,也只有3亿多人有过金融机构借贷记录,作为现代征信主体的信贷征信此时几乎无能为力,但大量没有信贷记录的个人却可能在互联网金融公司或其他机构有信贷记录,更可能在网络上留下大量如lP地址等行为记录信息。大数据的应用就能有效解决这些未能被传统征信体系很好覆盖的众多长尾客户。因此,许多企业嗅到了巨大商机,这其中大多是互联网金融企业和纯IT服务企业,真正的征信机构尤其是内资征信机构寥寥无几。这些企业凭借自身的IT技术优势和所拥有的大数据资源,自发地开展信用风险管理和控制,对其顾客做出更有根据的信贷决策,并逐渐掌握了不依赖央行征信系统的风控技术。如:阿里小贷通过企业行为分析企业信用状况,企业行为不仅包括信用记录、成交数额等结构化数据和用户评论等非结构化数据,也包括水电煤缴费等生活信息;美国的Lending Club是利用社交网站关系大数据进行网络借贷信用管理的典型,通过在facebook上镶嵌一款应用搭建借贷平台,借款人被分为若干信用等级,却不必公布自己的信用历史。互联网金融对信用产业的渗透为我国私营征信业务的发展做出了开创性的贡献,并为公共征信系统的建设和整个征信体系的构建提供了新思路。
(二)大数据能极大拓展信用信息的来源和范围
信息革命带来数据的爆炸式增长,移动互联网的应用进一步加速数据的产生速度,社交网络、电子商务等让将人们的日常生活搬上网络,互联网上的数据每18个月就翻一番。这为征信数据采集源自日常生活,而非仅仅源于特定领域提供了可能。其实,万事万物及其变化皆为数据,而一切数据皆是信用数据,大到城市交通信息、经济运行数据,小到一个人的心率、脉搏、脑电、性格倾向和网上行为等都可以是信用数据。只是大部分数据仍处于线下,但随着物联网兴起,未来将实现线下信息全部线上化。目前互联网金融用于信用分析的大数据主要有电商类网站大数据,信用卡类网站的大数据,社交网站的关系大数据,小贷类网站的信贷大数据,第三方支付类平台的消费大数据,生活服务类网站如水、电、电话、网络费等交纳情况的大数据等。IT技术发展实现了便利的海量数据收集和存储,极大地拓展了信用信息的来源和范围,也颠覆了以往征信中只将信贷等特定的、真实的数据视为有效信用数据的观念。美国Turbo Financial Group在其大数据信用分析中主张所有信息看关联不看因果,IP地址、电脑品牌、是否玩游戏等信息在信用评价中都很重要,甚至在美国申请信用卡时姓名的大小写也反映出一个人的信用指数,而且认为用户给的所有信息都是有用信息,甚至是说谎、隐瞒、写错的信息都可以是反映一个人的关键信息。再如,北京百分点信息科技有限公司根据年龄、性别、工作、学历、兴趣爱好等个人基本属性数据,和搬家及更换通讯号码的次数、购物风格、汽车和电子产品品牌、互联网标签,甚至浏览网站的次数和时长、观看的文章及篇数等各类信息构成的行为属性数据一起,对用户进行画像分析,输出统计学特征,用以评估风险、信用状况、预测信贷需求等。
(三)大数据和云计算为信用信息安全存储和全面共享奠定了基础
随着信息和数据量以几何级数增长,信息的管理难度越来越大,对数据存储容量和可靠性也提出了更高的要求。大数据和云计算的出现让海量信用数据的存储、处理和共享成为可能。一是云计算在云端提供大型服务器集群、无限容量的虚拟化分布式计算与存储性能、各类应用软件和信息共享平台等虚拟资源,能够有效降低征信系统建设的基础设施成本,增强系统数据的可靠性和存储能力,通过云端平台实现信用数据的全面共享,为征信系统的建没提供强有力的技术支撑。二是云计算技术能够在发生不可抗力事件时将数据安全迅速地转移到云内的其他服务器保存,不会因为个别电脑终端或服务器出现问题导致资料散失,提高征信系统应对不可抗力事件的能力。三是云计算对数据进行多层安全机制保护,集中存储、统一管理的数据更容易实现安全实时监测,一旦发现某个终端遭遇入侵攻击,该终端会将入侵程序的相关信息发送至云端,云端服务器会对云内所有其他节点的计算机发出相应质询请求,实施同步检测和安全防御。四是云服务提供商对网络资源进行集中布置,可以有效避免内部人员泄密的风险。2013年的国务院机构改革和职能转变方案提出建立以公民身份证号码和组织机构代码为基础的统一社会信用代码制度。国家发改委和中国人民银行拟牵头建立国家数据交换平台,实现央行、工商总局、税务总局等各部门的数据库整合。在未来,这些都离不开大数据和云计算的技术支撑。
(四)大数据技术和云计算为信用信息处理提供强大的技术支持
大数据最重要的不是“大”和“数据”,而在于价值。大数据并非仅停留在海量数据汇聚的层面,处理后的数据所能带来的经济价值是大数据的终极意义所在,因此,数据的价值含量和挖掘成本比数量更为重要。如何驾驭和用好大数据,从海量数据中快速提取出有价值的信息为信用决策服务,未来要依靠云计算和数据挖掘处理技术的结合运用。第一,云计算的超强计算性能配合大数据技术,可以实现对所有掌握的数据——而非随机抽样——迅速进行专业化存储、分析、处理和挖掘,大大增强信息处理能力。Turbo Financial Group正在致力于在信用计算中将离散数据信息变成是连续、实时的动态信息,最大限度消除信息时滞,全面提高征信服务的时效性。第二,当前,80%以上的信息都是复杂的非结构化数据,包括纸质信息和图片、音频、视频等数字信息,仅对少数结构化数据的分析已经无法适应发展的要求。碎片化的海量非结构化数据极为重要,但这在以前很难以利用,因为大量纸质信息难以转化为数字信息,即便耗费大量人力逐一录入,格式多样的信息之间相互也不兼容。多样的数据要求更高的数据处理能力,而数据多样化正是大数据的特征之一,大数据就是解决传统数据仓库所不能解决的问题,实现一切皆可数据化、一切皆可量化。这为将来收集大量非结构化数据用作征信分析提供了技术基础,而这正是未来信用数据收集和分析的方向。
(五)大数据和云计算能有效提升信用数据的挖掘深度
数据运用是否有效决定了它的价值,大数据更深层的意义在于它对数据处理的优势不仅是扩大样本量和提高速度,还能对所有数据进行深度挖掘,通过数据集成共享和交叉复用实现价值最大化。大数据意味着大资源,大数据平台将以往被分割的、零散的各类数据汇集起来处理,基于更广阔的时间尺度和更细级别的粗糙粒度,进行全维度分析,实现动态数据搜集和处理、更高程度的共享和无阻碍的数据间交叉使用和关联分析,其数据挖掘深度非传统技术可比。目前,大数据分析技术已有许多种,对非结构化数据的挖掘方法尚未形成体系,主要以描述量化、频数分析等量化思路为主,以及基于模型的多维聚类等。总体来说,大数据挖掘技术丰要为两类:一类是基于假设的模型,是传统模型方法的升级,是一种计算机辅助的人机综合系统;一类是不基于假设的机器学习模型,即完全采用计算机进行建模分析,使计算机模拟人类学习行为,在数据实时增加的情况下自动调节模型的完备性,不断增加变量,做出更好更精准的决策,机器学习是未来发展的主要方向。同时,大数据的运用绝不是广种薄收,而是基于丰富的模型和经验的精心筹划和精准判断,即使有些有价值的结论仅作为经验公式而未能找到清晰的理论依据,但它仍是基于统计原理的合理判断。凭借大数据的深层数据加工能力,可以依据个性化需求探索和构建智能分析,最终实现一切皆可预测。如美国FICO公司在利用大数据进行信用卡交易欺诈监控和实时的保险理赔反欺诈中取得不错的成效。国内的网络贷款也初步探索出大数据征信模式,依据企业行为数据判断其还款能力,而非资产负债表上显示的可能还款能力,这已经颠覆了传统的放款原理。国内一些数据分析公司也逐渐开始依据数据模型为银行进行信贷预测。未来,大数据挖掘将助力征信业不断在创新信用动态评分、信用风险评估和管理、预防信贷欺诈、提供更多信用报告选择、预测和快速匹配信贷需求等方面取得突破。
四、大数据时代征信业面临的挑战
(一)技术挑战
大数据的关键是技术,没有强大的数据处理能力将潜藏的价值从碎片化的信息中挖掘出来,再大的数据也无济于事。因此,掌握大数据技术是发展大数据产业的核心。大数据价值的挖掘和应用需要多种技术的协同,数据抓取与集成、数据挖掘与分析和数据解释与应用,是数据处理的三个重要环节,而云计算是从数据存储、数据处理到服务应用的全过程都不可或缺的技术工具。随着大数据在互联网金融的应用越来越多,国内也出现了许多数据分析公司,交易数据或专做数据模型分析。但总体来看,我国大数据核心技术依然受制于人,对于分布式存储、海量资源管理、并行计算、机器学习、数据挖掘等大数据和云计算的关键核心技术掌握程度较低,掌握核心领域技术的企业更是凤毛麟角,大数据产业链条支撑力弱,目前的应用领域还很小。就征信业来说,我国征信机构起步晚、发展基础薄弱,构建征信大数据分析平台意义深远,但也极富挑战。
(二)安全挑战
随着数据量的剧增和数据的云端集中,对数据安全的挑战更加困难。数据安全成为制约大数据发展的瓶颈,尤其是在目前技术尚未成熟的时期。新技术的发展让信息的获取更加方便、存储时间更长久,同时数据搜索也更容易,在云端长久储存并汇集的数据都可能成为被攻击的目标,配置或者软件的错误都有可能意外地被其他用户访问,数据的分布式处理也加大了数据泄露的风险。用户在不同场合不同情形下发布或留下的部分个人信息,如电信服务商掌握的手机号、4S店掌握的车牌号等,一旦被黑客全部窃取或部分窃取后经过交易和交换,一个人的完整信息就彻底暴露。保密文件如果托付给技术不成熟的云计算服务商,数据丢失、病毒入侵等问题就更加严峻。征信业务本身就要求对征信信息的严密的安全防护,大数据同样需要攻克数据安全难题,云端基础设施共享需要更高水平的安全机制保证强度,保障数据安全需要在核心技术层面付出努力,大数据时代的征信业务发展需要在保护数据和高效利用的技术环境之间找到平衡点。
(三)隐私保护
大数据时代最突出的难题是对隐私安全的挑战:随着移动互联网甚至物联网的应用普及,每个人的一举一动都被作为数据记录下来,成为海量无序数据之一被汇集和整合分析,这些数据被政府、非政府组织和商业机构掌握,用户个人想要保护隐私信息却难有作为。除去国家安全层面的数据监控外,被大数据丰厚利润驱使的商业组织对数据的挖掘和利用也无法阻止。不仅是用户在特定情形下自己或授权公布的个人识别信息(一旦泄露即可识别用户主体的信息)有泄露隐患,即使是匿名发布的非关键识别信息也不安全。因为互联网的匿名原则(或单纯隐藏)在大数据面前几乎是失效的,当海量的数据汇总起来,即使是关键个人信息经过精心匿名化(虚拟网络账号)后的碎片化互联网数据,用户也完全可能在数据挖掘中被有意无意地“人肉”出来。大数据时代下,只要通过整合或并购几个大型跨国互联网公司,根据其所掌握的数据就可以监控世界上大多数的人口。全世界都成为一个互联的数字世界,但数字空间的安全问题无论在法律保障或技术手段上都捉襟见肘。
(四)人才挑战
相比传统数据分析,大数据分析是从理念到技术的全新领域,对数据分析人员也提出了更高的要求,数据家成为新兴的紧缺人才。SunTrust BanksInc银行的信息主管薛立言曾表示,数据家的职位由两人担任,一位数据能力强的人员先以深度的商业知识和经验将数据进行归类、整合和管理,另一位致力分析的人员采用数据模型和数据挖掘的方式来对客户分类,或研究有关产品、风险等方面的课题。而同时在数学、计算机和商科等数个领域具备较强能力,严谨又对数据有敏锐洞见的人才极其稀缺。麦肯锡全球机构预测,2018年将出现14万至18万个数据家空缺。美国等国家的高校已经开始开没培养数据专才的课程,许多企业也在努力培养数据人才,但这种跨领域的人才培养并非易事,打造专业、高效、灵活的大数据分析团队更非一日之功。
五、大数据时代完善我国征信体系的建议
(一)基于大数据和云计算开发征信新技术和业务模式
现有的征信业务,尤其是我国的现有征信业务,主要依据信贷记录来评判用户的信用水平,有很大局限性。大数据让基于各类数据来源的“大征信”成为可能。国家数据交换平台在央行征信系统的基础上,整合各部委和地方公共征信数据库,将对解决信用信息分割、垄断和标准不一等问题大有助益,这个平台将奠定“大征信”的坚实基础。充分的信息化将促成征信业建立全新的风险控制体系,互联网金融中出现的不依赖央行征信系统的征信模式就是很好的探索,但目前能够采用最新网络通信技术的国内征信机构却微乎其微,个人征信业务的开放将有利于这种创新的进一步发展。在互联网金融征信这个新兴领域,我国与发达国家的差距很小,因此,只要能抓住这次科技革命带来的重大机遇必将取得发展、有所建树。应引导和鼓励征信机构借助大数据的新思路,引进大数据处理技术,加大数据处理专业人才队伍的培养,将信用数据来源扩展到零散的市场数据、用户数据,从动态数据搜集处理和全维度分析的视角,创新征信技术,建立前瞻性的征信业务分析模型,有效地转化成决策支持数据,提供信用动态评分、预防信贷欺诈、预测和快速匹配信贷需求、多种信用报告选择等更多适应时代需求的新型产品服务模式,实现我国征信业发展的大跨越。
(二)基于大数据时代特征改进征信监管水平和方式
随着个人征信业务的开放,我国将逐渐形成以央行征信数据库为主导、市场化征信机构共同发展的多层次征信体系。然而现有的征信业务规则和监管水平还不能适应大数据时代的要求,行业自律也未发育完善。未来的监管要求监管人员也具备大数据相关知识,监管水平和政策要适应大数据特点。在制度设计上,要尽快制定符合大数据规律的规则制度用于规范大数据征信的业务发展,及时出台相应的监管政策措施,监管的重点应放在征信机构或平台的规范运行和用户信息安全保护上,尤其要明确个人数据是用户的个人“资产”而非大数据分析机构的资产,征信机构应严格规范使用并保障数据安全,防止因信息不安全引起的骚扰、诈骗等威胁在大数据时代的进一步放大。公共征信应立足于国家数据交换平台完善征信基础设施建设和跨部门合作机制,使大数据征信平台既能服务金融监管,也能服务信贷决策,还能控制信贷风险。同时充分抓住大数据时代到来的历史契机,着力培育技术起点高、数据时效性强的新型市场化征信机构来填补市场空白,引导其专业化分工,形成良性合作竞争的征信市场体系。还应引导和推动建立行业自律,在法律法规无覆盖的情况下建立行业规范标准和行业职业道德要求,促进大数据征信的健康发展。
(三)基于个人隐私保护建立信息安全保护机制
马云曾言“必须像银行保护资产那样,保护隐私。”只有迈过隐私问题这道坎,大数据才能真正服务于民。相比于欧美等国专门出台针对信息时代的隐私保护法规,我国立法滞后,仅在《关于加强网络信息保护的决定》和《信息安全技术公共及商用服务信息系统个人信息保护指南》中对个人信息管理有原则性的规定,网络安全管理也存在体制分散、管理乏力的问题。征信业是高度敏感的特殊信息行业,建议成立专门的网络安全和信息安全管理机构,研究修改、设定相关政策法律,在平衡隐私保护与公共利益和国家安全等之间找到新的战术和战略方案。现有的征信法律法规是基于传统业务模式制定的,难以满足大数据时代的业务发展需求。在盗窃、间谍行为、不道德的牟利、数字领域的越界行为等问题面前,要从征信立法层面建立大数据背景下的信息安全和数据管理制度,明确符合大数据特征的信用数据采集、整理、加工、分析、使用的规则,尤其对泄露用户数据甚至牟利的行为严查严惩,切实加强用户隐私保护。在法律法规无法覆盖的情况下,行业内应明确“信息安全是行业可持续发展的基石”共识,建立起个人隐私保护行业自律标准,将更多数据标记和追踪手段应用于信息安全防护。