贴近典型场景 构建智能大数据平台
2017-03-24洪蕾
洪蕾
关注、探索并尝试驾驭大数据技术及应用,一直是国内金融机构信息科技工作的重点和目标。
而如何从海量数据挖掘出具有价值的信息,并将其应用于业务经营和管理,更成为金融机构的战略重点。
“但多年来,银行积累的大量高价值数据往往受限于多种因素,实际利用率并不高。”这是中国民生银行科技开发部总经理牛新庄的顾虑,也是当前银行业大数据应用构想面临的现实困境。
新一代数据分析体系
大数据变革反映的是新的分布式技术体系的日趋成熟,并在很多领域已全面超越传统技术体系。
分析银行系统特点可以看到,银行交易系统大多构建在关系型数据库技术之上,对性能扩展通常采用垂直扩张方式,当用户数量增加后,服务器对应的CPU、内存等配置也相应增加,通过资源扩展满足业务性能需求;银行非交易系统(如营销体系、客户管理体系、风险控制体系等)早期也大都基于关系型数据库构建数据分析体系。
随着开源技术体系快速发展、成熟,银行业倾向构建效率更高、成本更低的新一代数据分析体系。
牛新庄认为,大数据在营销、运营和风险控制领域更有用武之地,尤其在风控领域的应用更具想象空间,这是因为大数据分析的本质是在可接受的成本下解决数据使用效率和决策智能自动化的问题。
对民生银行而言,构建新一代数据分析体系重点希望解决两个问题。
一是效率。移动互联和大数据的发展使得信息单元越来越小,传递越来越快,数据时效性越来越高。同样的数据分析结果,用时一周和用时一小时对商业应用产生的影响截然不同。对银行而言,从业务需求角度,所有的非交易系统正经历着从批量到准实时、从准实时到实时的转变。
二是智能自动化。用户和银行的接触渠道已从线下厅堂柜台逐步向线上迁移。
据统计,当前超过90% 的银行业务来自于线上渠道。业务流程自动化和智能化的本质是让信息系统有能力像人一样做出决策,而这需要一整套大数据技术体系支持模型计算,以及一整套大数据发展规划给予支撑。
四维大数据发展战略
民生银行希望借助挖掘分析算法、机器学习算法等,发挥数据效用,创造商业价值。“我们构建大数据基础技术平台,目的在于构建盘活银行内外数据资源的能力。”围绕这一目标,民生银行大数据发展规划可概括为人才、平台、数据和应用四个方面。
储备人才
大数据人才储备是重中之重。民生银行大数据平台主要基于Hadoop 技术,选择这一技术是由于该技术已在互联网环境中经受上万台集群规模验证,应用广泛,技术体系也较为成熟。但对商业银行而言,新技术应用需要新型专业技术人才。为此,民生银行从2013 年开始就有意识地从互联网企业引入经验丰富的Hadoop 技术团队。
专业的人才队伍为民生银行大数据构想落地实施奠定了重要基础,也为大数据新技术体系和数据驱动业务发展的思想向更多员工传递创造了一个通路。
据了解,民生银行信息科技部组织了大量有针对性的培训活动,邀请行内外专家开展专场讲座,全面提升团队分析能力,为大数据项目接入做了充分准备。
建设平台
经过谨慎论证,民生银行确定基于Hadoop构建新一代大数据平台。“这是因为我们更关注平台的灵活性、兼容性和现场支持力度。考虑到Hadoop平台自身的技术问题以及响应监管部门支持国产厂商的号召,我们最终选择与国内Hadoop厂商合作开发构建新平台。”牛新庄表示。
基于业务发展和机房现状,民生银行在生产环境构建了三套Hadoop集群,对不同集群按照应用特点进行分工定位,包括在线存储集群(提供在线查询如电子回单、历史数据等查询)、计算集群(提供批量加工计算)和灾备集群(两地三中心,对重要数据进行灾备)。
实施中,针对诸如基础网络环境的支撑状况、计算与存储集群机型的标准化、集群的管理应用等问题,民生银行科技开发部进行了细致研究和分析。同时,基于大数据分析平台,引入可视化挖掘工具,提升平台的易用性。
积累数据
多年的信息化建设历程为银行积累了大量历史数据,这些数据包括客户基本信息、资产信息、交易信息等结构化数据以及语音、图片、文档等非结构数据。而这些种类繁多的数据一直存储在银行各个系统中。
为此,民生银行大数据平台建设要解决的首要问题是数据的集中管理,在此基础上,要将用户行为数据、第三方数据逐步集中,并基于大数据平台的数据种类不断扩展。
实施应用
牛新庄认为,营销、运营和风险控制是大数据的典型应用场景,能带来更多创新。
而大数据对应用创新的支撑也可以简单归纳为两个方向:一是解决当前数据“存不下”和“算不了”的问题。如民生银行成立20 年来积累了大量的用户数据。这些数据存储在磁带库上,查询难度非常大,在处理部分监管或者纠察事件时,经常需要追查历史磁带库的数据,在传统存储体系下,需耗费很长时间,而新的大数据技术体系就能解决上述问题。
二是进行新技术的引入和探索,推动决策自动化、智能化发展。未来,大部分决策工作可交给计算机完成,就算法原理而言,目前的算法和十年前的并没有太大变化,但大數据技术的出现,加快了计算速度。2016年,Google AlphaGo战胜围棋冠军李世石的消息让人工智能瞬间进入公众视野。尽管当前人工智能还达不到像人类一样思考,但在某些固定场景下,人工智能可以通过对海量历史数据的学习、分析,达到甚至超越专家的知识水平。如在银行风险控制领域,依据专家知识对数据指标做出加工规则和决策判断,如果银行积累了足够多的历史数据,完全可以尝试让计算机进行决策。
据了解,民生银行已在非交易型系统中大量使用了大数据技术,投产上线的系统达到10 套。
相关链接
民生银行大数据“攻略”
据了解,民生银行大数据平台项目主要分为两类:简单计算查询类和高级分析挖掘类。
简单计算查询类项目解决从技术角度出发“存不下”和“算不了”的问题,这类项目大部分是通用平台系统。
高级分析挖掘类平台主要实现数据分析。
比如移动运营数据平台对民生银行所有的移动端的用户行为数据、地理位置数据等进行完整采集和分析,通过移动运营数据平台,民生银行可以及时了解移动客户端使用状况,开展用户行为分析,进行产品迭代更新和移动端产品运营。
再如手机银行资产汇集及查询平台,该平台是完全基于大数据强大计算和查询能力而开发的应用模块,用于实现手机银行客户画像、风险评分、理财产品推荐等功能。
民生银行大数据应用既要着手解决当前数据存储和计算问题,也要着眼未来,坚持“思想统一,人才建设,平台构建,数据完善,人工智能”的指导方针,致力于实现建设更快更智能的大数据平台的科技新构想。