农业银行数据共享服务之路
2017-11-30孙建平
孙建平
农业银行紧跟时代发展的方向,以建设“让数据说话、用数据治行”的生态环境为目标,依托大数据平台整合全行数据,持续完善数据管控机制,逐步开创出一条农业银行的数据共享服务之路。
创新共享 特色大数据平台
农业银行自2013年启动大数据平台建设以来,遵循“统籌规划、顶层设计、共享复用、分步实施”的建设思路,搭建了强大、稳定、可扩展的基础运行环境,入库了海量数据,为数据融合共享提供了数据基础。
第一,搭建了自主可控的大数据平台。在信息技术“自主可控”的战略背景下,农业银行在国内首次实现了大型金融商业公司大数据平台基础软硬件的全部国产化,在同业中率先采用开放式PC Server集群为硬件基础,以“MPP数据库+Hadoop平台”混搭结构的方式构建了企业级大数据平台。
依托近千节点的MPP+Hadoop集群环境,农业银行已经具备了PB级结构化数据处理、EB级非结构化数据处理以及实时流数据处理的能力,在业界处于领先地位;基于MPP数据库大规模分布式并行计算的优势,1000亿行以上的大数据量表做复杂分析运算达到了分钟级响应;在每日1TB数据增量、月末2TB数据增量的压力下,大数据平台可以稳定保持T+1的批量处理能力,为大数据的共享应用提供了强大系统保障。
第二,入仓、整合了海量数据。银行的数据主要来自于核心业务系统、账务核算系统、渠道交易、客户营销和流程审批等系统,但单独一个系统的数据称不上数据资产,必须再整合所有的数据,形成统一的业务和客户视图才可称之为资产,其整体才能构成大数据。农业银行由管理信息部牵头,统筹了对公、零售、银行卡、电子银行、金融市场、风险管理、经营分析等各条线,以及各分支机构、子公司的数据来源系统、业务规则、应用需要。经过近四年的努力,入仓源系统135个,源表7883张,仅行内结构化裸数据就已达1.8PB,并且形成了数据持续入仓的常态化机制。
在紧抓行内数据入仓的同时,农业银行也不断积极拓展外部数据来源。目前已经入仓了客户风险共享数据、公安部经侦局全国经济犯罪信息、最高法院失信被执行人信息,以及行外互联网新闻、主流论坛、社交媒体相关的Web非结构化数据;司法、工商、海关、农业,以及Wind、Bloomberg等外部资讯平台的数据也在持续采集积累中;基于和百度合作开展的联合实验室项目,农业银行也在积极研究相关外部数据的共享使用方式。
质量安全 保障共享服务
第一,数据质量管理是创造数据价值的前提。农业银行在大数据平台建设之前,数据分布散、质量差、管理弱、共享难的问题比较普遍,数据质量管理工作的职责也不清晰,数据低质量导致应用低效能的问题很突出。为了解决应用中的痛点问题,从数据共享使用的实际需求出发,农业银行先后开展了客户信息完整性、信贷业务跨系统一致性、同业业务一致性等主题相关的140多项专题数据问题整改工作,涉及一级部门33个,修正客户及业务记录5000余万条,将个人客户9要素平均合格率、对公客户12要素平均合格率提高至90%以上,数据治理的持续推进为数据共享服务打下坚实基础。
在数据问题治理工作中,农业银行逐步探索形成了“监测-整改-跟踪-评价”的闭环管理模式。质量定期监测是抓手,收集实际工作中遇到的数据问题,并基于此设置检查点、检查规则来收集数据问题的整体情况是质量管理工作的切入点;问题整改是核心,对发现的数据问题实行“清单制”管理,沿着“发现问题-分析原因-落实整改”的路径,持续推进落实;问题持续跟踪是关键,质量管理不是一次性工作,加强过程管理,持续反复的对数据问题考察,才能有效推进数据问题的彻底解决;考评机制是推动力,农业银行建立了“横向评价、纵向考核”机制,横向上以质量报告为抓手,定期通报各部门主管数据的质量管理工作进展,纵向上以分行数据质量考核为抓手,将质量问题的责任逐级落实到经办行和个人。同时,农业银行非常重视质量管控工作的信息化,建设了数据质量管控平台,将数据质量管控的四个环节内嵌固化到平台中,实现了数据质量监测、问题分发确认、整改任务跟踪、考核评价查询一站式服务。目前数据质量管控平台已经积累质量检查规则上千条,发布数据质量监测报告十余期,成为农业银行开展数据质量管控的有力抓手。
回顾农业银行数据质量管理的工作实践,我们有两点体会。一是该工作是一项全行性的基础工作,关系到总分行各条线各项业务的客户、产品、系统和流程,需要高管层支持,从全行层面出发,发动全行力量来共同开展;二是数据质量管理不能为了质量而抓质量,在工作开展时以营销、风控、监管统计、数据分析等具体应用工作为切入,寻找同数据主管各业务部门的价值契合点,变“要你管”为“你要管”,提高了各数据主管业务部门的积极性。
第二,安全防护体系构成了数据共享服务的底线。为了确保大数据平台数据服务的安全合规,守住数据服务的底线,农业银行规划构建矩阵式的数据安全防护体系,横向贯穿事前、事中、事后全流程,纵向覆盖管理、技术、法纪三道防线。
管理防线是第一道防线,通过建立严格的用户准入和授权机制、明确敏感数据的范围和责任主体、建立常态数据安全检查和审计机制来降低数据泄露风险;技术防线是第二道防线,采用数据云存储、敏感数据漂白加密、敏感操作实时预警等手段,发挥技术规则刚性约束作用,封堵数据泄露漏洞;法纪防线是第三道防线,依托安全规范、保密协议、合规培训的落地实施,明确保密责任和违法惩罚措施,起到威慑作用。基于矩阵式安全管理的工作思路,农业银行进一步细化落实了18大类的具体工作措施以便依照执行,并在后续不断优化完善。
创新数据服务体系
第一,一个平台。数据服务平台是提供统一服务的窗口。农业银行数据服务平台为日常经营管理和数据分析挖掘提供一站式服务。日常经管类服务以权威性、一致性、时效性、易用性为导向,面向中高级管理层、各领域业务管理和营销用户提供业务看板、常用指标、多维查询、定制查询等场景化服务,大幅提升用户体验和数据共享服务水平;分析挖掘服务定位为大数据分析创新服务,为总分行初、中、高级分析师提供定制分析、自助分析、深度挖掘等专业分析能力,充分发挥分析师的创造力,深度挖掘数据共享服务的价值。
第二,一套机制。为保障数据服务的开放、共享、便捷、安全,需要一整套数据运营管理的制度、机制和流程。农业银行通过数据服务地图和数据服务流程管理,方便用户接触数据、理解数据、使用数据;通过数据资产和数据质量管理,实现对数据的全生命周期管理,提高数据的可用性;通过管理手段和技术措施联动,加强数据安全管理,确保在数据服务和应用过程中数据不泄露。
第三,一支队伍。跨条线的分析师队伍结构是数据价值发挥的关键。农业银行的分析师队伍包括数据分析师和专业分析师,组织方式采用“适度集中+重点领域”的方式,即在管理信息部和科技部门设置一定数量的数据分析师,在营销、风控等条线及分行设置专业分析师。数据分析师统筹全行数据服务和支持,承担全行综合性分析、跨领域专题分析、深度数据挖掘等;专业分析师承担本领域数据分析工作,推动分析成果在业务活动中的落地。
下一阶段,农业银行将以大数据平台为基础,以数据分析示范项目为抓手,驱动数据服务体系建设滚动前进,实现海量数据资源的充分共享,挖掘大数据的深度价值,向建设“让数据说话、用数据治行”生态环境的目标迈进。endprint