大数据在我国个人征信领域的问题探索

2018-09-19丁洁

价值工程 2018年30期

丁洁

摘要：随着互联网和大数据技术的不断发展，对征信行业具有强大的冲击力，颠覆传统征信观念。针对目前我国互联网征信仍处于初级阶段，存在信用主体权益难以保障、征信数据共享困难、信息安全风险较大、大数据征信准确性有待验证等问题，提出大数据征信体系的发展建议。

Abstract： With the continuous development of the Internet and big data technology， it has a strong impact on the credit reporting industry and subverts the traditional concept of credit reporting. In view of the fact that China's Internet credit reporting is still in its infancy， and there are problems such as difficulty in securing credit subject rights， difficulty in collecting credit data， high information security risks， and doubt in accuracy of big data credits， suggestions for the development of big data credit system are proposed.

关键词：大数据；互联网；征信；信用评估

Key words： big data；internet；credit reporting；credit evaluation

中图分类号：F832.4 文献标识码：A 文章编号：1006-4311（2018）30-0224-03

0 引言

征信是指专业化的、独立的第三方机构对企业和个人的信用信息进行采集、整理、保存、加工，并依法对外提供信用信息查询和评估服务的活动，以此控制信用风险。我国传统征信体系主要依靠央行的金融信用信息基础数据库，其中企业数据为核心。而互联网以B2B或B2C的形式将社会中大多数个人互相连接起来，原有的征信体系已不能满足社会征信的需求，个人征信在征信体系中的比重变得日益重要。在传统征信中，个人征信是基于银行业金融机构的个人金融交易行为来确定的，而随着互联网金融的快速发展，P2P网络贷款、个人消费金融的规模迅速增加，但由于缺乏有效的信用信息共享机制，导致多头借贷、过度借贷、诈骗借贷等行为不断出现。与此同时，在金融领域之外的商业信用信息数量也越来越多，这为征信业带来较大的挑战。

大数据的出现为征信业的发展带来新的契机，征信可依托大数据技术构架新的信用评估模型，通过多维度变量对个人进行信用信息考察，将碎片化的、海量的、分散的个人信息转化为个人的信用画像，形成有价值的全局信息，将信息不对称降到最低。2018年2月22日，央行正式下发我国首张个人征信业务牌照，百行征信有限公司正式获批，以互联网金融协会牵头持股36%，芝麻信用、腾讯征信、中智诚征信等8家个人征信试点机构各持股8%，整合各大数据主体的有关个人信用信息的资源，弥补央行征信覆盖率不足的问题，降低征信成本，提高征信效率，完善我国的个人征信体系建设。

1 我国征信的发展现状

1.1 传统征信覆盖率低且信息量不足

目前我国的征信模式主要以政府为主导，以中国人民银行的金融信用信息基础数据库为核心，接入的机构包括金融机构、小贷公司以及部分互联网企业，主要搜集信用主体在各金融机构的借款、信用卡、对外担保情况、逾期次数等；同时接入法院判决信息、欠税记录、电信欠费信息、公积金等公共信息。央行的征信系统通过商业银行及其他准入机构报送的数据，提供给银行系统信用查询和提供个人征信报告，但对于其他征信机构和互联网金融公司目前不提供直接查询服务。

截止2017年8月，央行的征信系统共收录9.3亿自然人，其中有信贷记录的共4.6亿人，仍有4.48亿自然人没有信用档案，占比达32%，无法获得传统的金融服务。可见，我国征信市场单一及覆盖率低。同时，传统征信的数据来源主要以银行信贷为主，缺乏多维度的信息。

而截止2017年12月，我国有7.7亿网民，其中，手机网民有7.53亿[1]，人群的覆盖面非常广。依托网络的普及率，大数据可以搜集任何网民的网络记录，包括电商平台的交易记录、社交言论、行为记录、地理位置信息等，用机器学习模型及多维度变量方法，深度挖掘并分析个人的信用记录，是对传统征信的补充，使得缺少传统信用数据的人群能够获得信用服务。

此外，央行的个人征信报告主要反映的是个人的逾期情况，而实际银行操作时还要结合本银行自身的信用评级作为对征信报告的补充手段，并且同时查询“全国被执行人名单”、“黑名单查询”、“全国失信信息名单查询”等政府平台的网站来辅助了解个人全面的信用情况。由于各银行的评级系统皆存在差异，评级方式主要依靠客户经理事前的材料搜集准备、手工系统录入、人工选项选择，故主观性大且人力成本高。

1.2 大数据征信发展的趋势性

互联网金融的发展，风险控制是核心，而征信是风险控制的关键。近几年来，网络借贷P2P平台快速发展，而P2P公司无法接入央行的征信系统从而无法获得可靠的征信数据，严重阻碍P2P平台的正常发展。截止2018年4月底，我国网贷行业累计停业及问题平台共4237家，占网贷平台总量（6114家）的69.3%[2]。

數据作为征信业发展的核心因素，其储存、分析极为关键。而大数据最核心的价值就是对海量数据进行储存和分析的技术。大数据征信突破传统征信只搜集结构化数据的局限性，任何数据，包括视频、图片、音频等非结构化数据以及邮件、网页等半结构化数据，都可通过机器学习、人工智能、数据挖掘、集成算法等技术，将看似与信用无关的或者关联性弱的数据通过交叉验证的方法，转化为强变量的征信数据。既可以评估过去的信用状况，又能分析和预测未来的违约率。同时大数据强大的快速分析及验证能力，确保了信用结果的客观性和可靠性，杜绝数据造假。

1.3 大数据平台快速发展

随着大数据的发展，一些传统的征信机构开始转型，创建了基于同业共享的大数据征信系统。例如上海资信有限公司2013年创建了网络金融征信系统（NFCS），该系统主要解决P2P平台无法接入央行征信系统，完全靠借款人自主提供其央行的征信报告，造成审核成本高、手续繁琐、资信材料易造假这一问题。该系统采集P2P平台客户的个人基本信息、贷款信息、还款信息和特殊交易信息，通过数据共享，帮助P2P平台了解授信对象，防止多头借贷和恶意欺诈，规避信用风险。截止2018年4月30日，NFCS网络金融征信系统接入机构1153家，共收录自然人5220万人，其中有借贷记录的自然人2313万人，4月日均查询量20.8万次。

小额信贷行业信用信息共享服务平台（MSP）为会员制模式，于2013年3月由北京安融惠众征信有限公司创办，主要服务对象为小贷公司、P2P公司、担保公司，通过信息共享，帮助其会员避免过度借贷、恶意欺诈等信用风险。截止2018年4月，MSP征信累计会员数量达2431家，被收录信贷记录的信息主体共1122.8万人。

一些大型的互联网公司也在进军个人征信业务领域，2015年1月人民银行因社会信用体系建设的需要允许8家公司作为第一批试点的市场化的个人征信机构，分别是芝麻信用、腾讯征信、前海征信、鹏元征信、中诚信征信、中智诚征信、考拉征信、华道征信。这8家公司利用各自的数据优势，建立个人信用评分产品（表1）。这些信用评分产品不仅应用于傳统的金融场景，还应用于信用生活场景。如芝麻信用同时应用于信用借还、免押金出行、免押金住宿等。

此外，互联网征信机构还致力于征信产品的开发，在传统征信产品的基础上衍生出信用认证、信息核查、欺诈风险评分、欺诈信息验证服务等增值产品。

2 我国大数据征信发展面临的问题

2.1 信用主体的权益难以保障

2.1.1 大数据信息采集的隐蔽性造成用户的知情权和同意权难以保障

《征信业监管条例》第十三条规定：“采集个人信息应当经信息主体本人同意，未经本人同意不得采集。”而大数据征信系统主要依靠网络爬虫类技术追踪挖掘个人的网络浏览记录，大数据平台一般自动记录个人的电商数据、社交数据或交易记录等信息，该过程具有隐蔽性，使得征信公司在采集数据时往往未获得信息主体的授权。

《征信业监管条例》第十四条规定：“禁止征信机构采集个人的宗教信仰、基因、指纹、血型、疾病和病史信息”，由于互联网中隐藏了大量的个人敏感信息，征信公司在数据收集时很难避免采集到这些法律严令禁止和限制性的信息，因此个人信用信息采集范围的合法合规性难以界定。

与此同时，还存在被迫或无意间同意授权的行为，以芝麻信用为例，在用户查询支付宝年账单时，在未看清的情况下无意勾选同意“芝麻信用服务协议”，给予授权；还有部分用户因无法理解个人信息采集的真正用途，且认为除点击同意外并无其他选择而伪授权。

2.1.2 信用主体的异议权难以实现

由于大数据征信技术性极高，造成普通信用主体难以理解大数据征信模型及评分的标准，以至于难以发现其中的信息不准确或遗漏问题，个人信用主体无法及时进行信息更正，异议权难以运用。

2.1.3 信用主体的信誉重建权难以保障

《征信业监管条例》第十六条规定：“征信机构对个人不良信息的保存期限为5年，超过5年的应当删除”，但互联网征信机构的数据记录遍布网络及网络终端，难以删除，且目前互联网征信公司的产品协议中并未对用户信用信息的使用时限做出明确的规定，造成信息主体很难进行信誉重建。

2.2 征信数据共享困难

目前我国央行的金融信用信息基础数据库、政府职能部门如司法、工商、税务、海关、民政局等相关信息、P2P平台的网贷信息未能实现数据共享，信息孤岛问题严重。同时各行业均按照自己的标准建立征信体系，国家并未统一信息采集标准、接口交换标准、征信服务标准，且征信数据被各征信机构视为商业秘密及其核心竞争力，严重阻碍我国征信的发展。

以8家个人试点征信机构为例，这8家机构都依托互联网形成自己的业务闭环，分割了市场的信息链，造成每一家的信息覆盖率都受到限制，而且信息不广、不全面也同时造成了产品的有效性不足。因此，央行拒绝下发个人征信牌照。

2.3 信息安全风险较大

大数据征信机构海量采集数据，这些数据涵盖个人的身份信息、社交信息、交易信息、受保护的医疗信息等，如何保证在采集、储存、传送时信息的安全性。2016年商业银行2起个人征信信息泄密事件都是因为央行征信报告查询所接入的机构范围有限以及征信信息的价值高所引起的，而大数据征信机构的数据库价值量更高，很容易被不法分子当做目标，进行攻击、利用。如何对服务器进行安全防护，防止未经授权的人员进入系统窃取、篡改数据，影响用户的个人信息安全，是大数据征信机构所面临的难题。

2.4 大数据征信的准确性有待验证

大数据征信通过多维度变量及交叉验证海量数据，将碎片化的信息转化为个人的信用画像，理论上较传统征信准确性提高。但我国大数据征信还处于初级阶段，目前市场上的征信机构提供的产品很多，但其采集数据的来源大多来自于本集团旗下或本行业领域，往往会造成本集团的忠实用户评分较高，而一般用户评分较低。例如芝麻信用分，如果该用户经常使用淘宝、天猫、支付宝，在阿里系的电商平台进行消费、交易，该用户很容易获得较高的信用评分；而对一些活跃度不高的用户，其信用评分一般较低，由于芝麻信用分对该类用户采集的信息十分有限，由此得出的信用评分的准确性往往有所偏颇。

除此之外，传统的征信数据模型如FICO评分是经过几十年的反复修正才得确认模型的有效性，而大数据征信模型的预测能力有待时间的验证。

评估个人的信用水平主要需考量信用主体的还款能力及还款意愿，在传统征信评估模型中一般以信贷数据为核心对信用主体展开分析，而目前我国8家个人试点征信机构均使用社交数据于个人的信用评估模型中。一方面，通过用户在社交网站上发布的状态、评论，能够比较准确地预测出个人的兴趣爱好和性格特征，从其人脉网络，能够从侧面反映个人的还款意愿；同时，信用主体在社交网络或朋友圈发布的有关饮食、旅行、出行的照片，也可以观察出个人的消费水平，间接估算个人的还款能力。但对于一些较注重隐私或者人为操控社交数据的个人，其还款能力较难评估，也就会影响到信用评分结果的准确性。

3 我国大数据征信体系发展的对策建议

3.1 完善法律法规，加强对信息主体权益的保护

根据目前征信业的发展状况，完善征信业的法律法规，同时出台对于大数据征信的监管细则。一是推动制定《个人信用信息保护法》，明确个人信息采集的范畴、渠道、手段，防止触犯个人隐私。二是通过立法建立互联网征信数据采纳授权制度，确保信用主体的知情权和同意权，防止信息过度采集或者数据未经授权提供给第三方机构使用。同时，可借鉴国外法律，增加信息主体的数据遗忘权，以建立互联网征信下个人的信誉重建制度。三是建立互联网征信机构的异议处理岗，增加数据处理的透明度，互联网征信机构应充分披露其采集的信用信息、数据分析的方法，向信用主体解释其信用评估模型的算法，方便个人进行信息查询并且进行信息更正，以确保异议时处理的及时性和有效性。

3.2 推进征信标准化建设，促进信息共享

一是制定统一的征信技术标准，包含信息分类标准、数据采集标准、信用报告格式标准、信用评价标准、异议处理标准、接口交换标准，为信用信息共享提供标准化的技术参考，促进数据共享。并且征信标准应随着互联网发展及大数据技术的发展不断完善和修正，以确保征信技术标准的实时有效性和适用性。二是建立征信大数据库，以百行征信为未来的发展契机，汇总央行和各征信机构的数据，接入P2P网贷平台，融合地方政府建立的信用黑名单，推进政府职能部门的相关信息和公共部门的信息采集，形成较为完整的社会信用体系。

3.3 加强监管制度，保障信用信息安全

一是完善大数据征信的监管制度，明确制定大数据征信的相关细则，特别是对互联网征信机构服务器的监督管理办法，严格监督其信息采集及使用行为，有效防止个人信息贩卖、互联网欺诈等违法犯罪行为。二是加强信息安全管理，政府应给予相应的技术支持，通过实名身份验证、数字证书、电子签名等安全認证技术，同时采用脸部扫描、指纹、密码等方式，确认为信息主体本人，保护个人的信息安全，防止泄露事件。

3.4 提高数据采集质量，增加评估模型的准确性

首先，大数据征信发展的核心在于技术，要不断更新、研发新的技术手段，解决大数据获取信息不完整和不准确的问题，确保数据的有效性。其次，要不断检验和修正信用评估模型，大力发展机器学习、区块链、数据挖掘等技术，提高评估模型的准确性。同时，对于一些网络活跃度不高的用户，也要研发适合其的信用评估模型，以扩大信用评估的范围。

参考文献：

[1]中国互联网络信息中心.2018年第41次中国互联网络发展状况统计报告[EB/OL].[2016-08-03]http：//www.199it.com/archives/685063.html.

[2]网贷之家.P2P网贷行业2018年4月月报[EB/OL][2018-05-01].https：//www.wdzj.com/news/yc/2364214.html.

[3]戴洋，季琳琳.大数据在征信领域应用的国际经验及启示[J].金融纵横，2018（1）.

[4]刘桂荣.金融创新、金融科技与互联网金融征信[J].征信，2018（2）.

[5]张赟，肖羽，朱南.社交数据在个人征信中的可靠性初探[J].上海金融，2016（3）.

[6]王秋香.大数据征信的发展、创新及监管[J].国际金融，2015（9）.