商业银行数字化转型中的数据治理策略研究
2019-11-17刘凯于天
刘凯 于天
摘要:文章结合商业银行目前数据治理工作情况和存在的问题,并结合目前我国商业银行科技化、数字化进程发展情况,提出具体思考建议,为我国商业银行数字化转型奠定决策基础。
关键词:数据治理;数字银行;科技赋能
一、 数字银行与数据治理介绍
2017年来,全球各大领先银行纷纷拥抱数字化变革。据统计,国际领先银行每年平均投入税前利润的17%~20%用于数字化转型和创新。而在我国,根据2019年初中国银行业协会曾发布过一份行业调研报告,披露了多家银行在金融科技方面的投入(见表1)。从数据来看,上榜银行2018年的金融科技投入普遍占总营收的1%升至2%。对比2018年上市银行财报,尽管仅有少数几家银行披露了研发和科技投入的规模,但都在上述调研结果的区间内。而展望2019年,不少银行则将这一比例提升到了3%以上。
数字银行以大数据、云计算、人工智能和移动互联网等先进信息技术为支撑,全面强化了“以客户为中心”的理念,强调通过数字化的宽带网络和移动互联网等各种新兴渠道为客户提供便利化服务以增加客户黏性。通过“端到端”数据处理优化流程,对客户开展差异化经营以提升客户体验。通过客户行为数据捕捉和分析以引导创新,同时注重加强客户数据安全和隐私保护。
高质量的数据是构建数字银行的核心基础,高质量数据不应仅满足于高准确性,而应转变为一个包含丰富内涵、具有多种维度的综合性概念;而且,随着统计的服务外延从数据服务向决策服务转变,数据质量还需要满足用户的需求和期望。同时,结合全面质量管理理论,如果将数据视为产品,那么数据治理不仅包含数据本身的治理,还应包括数据产生和形成过程的治理。
综上所述,数据治理是在数据收集、处理和加工、生成和应用等数据产生和形成的整个过程中,影响数据满足用户需求的一组特性。一般情况下,数据治理包括数据收集过程的准确性、真实性、适用性等,数据加工和处理过程中的可比性、方法健全性、可衔接性等,数据生成和应用过程中的及时性、完整性、可获得性等,及整个过程的成本有效性等。
二、 数字银行数据治理的现状与挑战
1. 银行业数据安全现状。数字技术是指借助一定的设备将各种信息,如图、文、声、像等,转化为电子计算机能识别的二进制数字“0”和“1”后进行运算、加工、存储、传送、传播、还原的技术。它是数字技术(机器学习、自然语言处理、大数据分析)和IT基础设施(含IT基础架构、信息安全、云计算、量子计算等)等一系列技术的全集。
根据以上对于数字银行定义及其关键技术介绍,未来银行的发展方向已经由过去的应用中介转变为数据中介,通过综合利用自身业务数据,第三方中介和外部社交网络数据,银行可以对于各个领域的业务进行数字化流程改造,从而全面提升转型,因此对于数据的管理利用就成为了银行未来发展的核心竞争力。
信息时代对于数据安全的要求与日俱增,特别是银行业对于数据的保密性要求更高,高质量的数据管理是有效的数据利用的基础。然而,近几年出现的数据泄露事故频繁出现,例如去年Hotel Group的数据泄露涉及五百多万客户,Facebook 5 000万用户数据遭到泄露,在我国,华住酒店集团数据泄露影响范围涉及130万客户,此外还有涉及平台陌陌的数据泄露事件。由于数据泄露事件的出现,各国的监管层也开始意识到对于数据隐私保护监管的规定。
目前全球各个主要发达国家均对于数据隐私保护进行立法,核心原则包括:不过度收集数据;收集数据应该有具体的、合法的目的、数据储存应该有合适的期限;应该有可靠的数据库确保数据安全;在处理数据过程中确保透明性;应该有专门负责数据安全的团队或部门。
表2显示了目前我国银行业在个人数据信息保护中的法律法规,以上法规要求银行应将个人信息保护与其数据安全管控或IT风险管理框架结合起来。银行的数据治理建设应涉及战略、行为准则、内外部审计、员工培训等方面。
2. 数字银行在数据保护方面的挑战。目前银行获取数据主要来源于三个方面,首先,客户的数据大部分来源于线下业务系统累积的结构化数据,这也是银行数字化的核心基础数据;第二,从外部渠道引入的相关数据信息,例如从社交网站上采集的半结构化或非结构化数据,比如文本、视频等。第三,新的生态格局下,银行通过与第三方合作,拓展数据信息获取来源。在开放银行业务模式下,当银行将金融服务嵌入第三方平台时,一些新的场景和新的业务就会产生更多的数据流,譬如随着云服务发展,基于云计算会形成新数据,这将进一步挖掘数据的使用深度。
银行本身会面对很多新挑战,例如信用风险、经营风险和声誉风险,在数字时代这些风险又会演变成不同的形式,针对以上数字银行获取数据的不同来源,银行面临的数据保护与治理也有以下几个方面的挑战:
(1)数据真实性。海量数据是数字银行的根基,数据的真实性直接决定了银行业务发展的方向和趋势,伴随着数据采集渠道的日益拓展,通过交叉检验、生物识别和机器学习等技术来解决数据低质的问题显得迫在眉睫。因此如何保证数据来源的真实性,准确快速的对于伪造的错误数据进行鉴别,是数字银行面临的首要挑战。
(2)数据质量。数据收集范围和标准不一致导致数据清洗的难度和复杂度大幅提升,虽然银行内部为了实现数字转型已经开始注意内部数据的标准化,但是通过外界第三方渠道獲取的数据格式确千差万别。这些因素也是制约目前金融数据深度利用的最大障碍。
(3)海量数据。由于现代社会个人活动的网络化,造成了数据爆炸式的增长,对于海量数据的实时处理分析需要银行在IT系统的软硬件建设上进行巨大的研发投资,这就会对银行造成运用风险,另外如何设计API开放银行构建金融生态圈,也关系到银行的经营风险。
(4)数据孤岛。数据孤岛仍然是制约数字银行发展的重要因素。银行作为传统金融机构长期形成的合规文化氛围,主导着各项业务的规范发展,因而设计了诸多制约环节和监控措施。以至于银行的数据开放流程变得异常繁琐和低效。再者,掌握着大量真实信息的互联网企业、第三方征信公司和O2O平台之间也难以达到互联互通的程。
(5)数据信任。由于目前越来越多的银行在数字化转型中寻求与外部金融科技公司联合开放相关技术,致使一些中小型银行过度依赖技术供应商,从而导致技术风险和业务约束的不利影响。与此同时,互联网公司文化倡导开放共享,这与银行和内控合规严格文化相违背,如果不能很好的融合,合作伙伴或将为银行带来声誉风险。
三、 数字银行数据治理的应对措施
1. 建设一体化数据平台。为了实现数据分析的潜在巨大价值,让商业银行具体业务在大数据驱动下切实产生效益,在银行全行范围内建设一体化的数据平台作为大数据基础架构是重中之重。该平台从数据整合到一线执行共包括5层,且各层均配备相应的组织架构和KPI支持。一是数据整合层:基础层的功能是将不同来源的数据(例如客户的基本人口统计、储蓄交易、信用卡交易等)整合为一个集成数据库,具备标准化且统一的数据结构和格式;二是分析模型层:在一体化数据库的基础上,构建各种机器学习模型来获取洞见,并通过数据创造价值,例如利用聚类模型进行颗粒化客户细分、通过回归/分类技术开展预测性分析、采用优化技术进行资源分配等;三是软件工具层:软件工具是数据/分析模型和一线执行之间的连接性组织;四是一线实施层:一线员工需要利用软件工具,在其日常工作流中使用分析模型洞察。五是组织和KPI支持:所有上述工作需要组织和KPI体系的支持。
2. 注重数据积累,倡导互联互通。目前,数据孤岛是数字银行建设过程中资源整合的最大障碍。各个部门和子公司在拓展业务的同时,积累了海量的数据信息。但由于各个系统之间缺乏信息共享机制,导致形成了大量的数据孤岛,不利于银行基础数据库的建设。
数据共享的程度反映了商业银行的数字化发展水平,数据共享程度越高,数字化发展水平越高。要实现数据共享,首先应通过顶层设计建立一套统一的、法定的数据交换标准,规范数据格式,使用户尽可能采用规定的数据标准。通过自上而下的顶层设计,实现全行的信息流共享。具体做法可以通过以下三点实现:一是基本的安全性保障下的开放银行服务。通过专业的数据加密技术,保证数据共享过程中,不会被盗用和篡改,客户隐私不会被侵犯;二是数据使用范围和透明性。涉及客户隐私数据保证共享数据只能在客户授权范围和时间内使用,建立客户收回共享授权机制,确保客户收回共享授权后,数据共享方权限永久删除;三是数据保密权责分明。一旦发生客户授权共享数据的安全和隐私受损,需要能够在第一时间找到相关业务和技术责任人,根据具体问题进行排查和故障解除,并且通过事后漏洞审查,排除相关类型隐患的再次发生。
3. 人工智能实现数据自动化审核。基础数据库内容的存储更新是数字银行建设的关键,对于日常客户业务和外接导入的海量数据,数据库管理人员需要确认、更正、剔除数据,并在数据库启用后提供编辑数据的程序。数据质量分析通常首先进行数据质量审核,即在信息系统中进行数据准确性和完整性方面的结构化调查,它可以在整个数据文件范围内或数据文件范本内调查,也可以调查终端用户对数据质量的看法。
目前银行对于业务数据特别是信贷合规方面的审核工作还是主要依靠人工完成。而通过人工智能技术实现数据的自动化核查,是未来建设数字银行数据验证工作的必由之路。
现在金融科技公司已经在数据智能审核方面开始应用,比如第三方征信机构——芝麻信用积极地寻求外部合作,打通公安、工商、法院部分数据接口,掌握着丰富的内外部大数据,与此同时,蚂蚁金服借助芝麻信用公司的信用大数据。利用机器学习、视频对话和笑脸扫描等先进技术手段,对内外部大数据进行交叉检验,有效快速地进行风险识别和定价。
4. “多层水闸式”数据安全防范体系。维护数据安全是数据治理中不可或缺的一部分,数据的安全性能否得到保证以及当数据遭受一定的破坏后的灾備处理能力直接关乎整个银行的生存发展。因此,数据高安全性是衡量银行数据治理能力的重要参考指标之一。数字银行时代的数据安全防范体系应该集中在三个方面共同建设:
(1)采用“多层水闸式”防范体系。数字银行的客户渠道,网银、手机银行承担着大量交易,通过将一个公共数据库,把它拓展为多个同构的公共库,使数据分布存放成为可能。同时,根据客户ID对数据库进行垂直拆分,这样有效减少了高并发对数据库带来的访问的压力。在不同数据层级设定恢复节点,通过这种“多层水闸”的方式防控风险蔓延传导,一旦单个数据库出现故障,可以迅速定位和排查出故障源,控制IT系统性风险的发生。
(2)新一代IT系统安全架构。传统的银行IT系统架构的安全功能与应用系统集成实现,嵌入到应用系统中,与应用系统紧密耦合,导致安全策略与安全功能固化。数字银行时代“新一代安全架构”的应用系统只集成通用、标准化的安全代理,所有安全功能通过安全代理为应用系统提供,后台的安全服务可以统一调度、灵活组合,安全服务的调整不会导致业务系统的改造。
(3)不同权限的数据密码化存储。数字银行时代的IT系统将数据以密码形式存储,加强警卫以识别用户身份,防止从通信线路上窃听或盗窃存储设备等。在系统处理上,常采用以下措施:设置用户口令,对用户身份进行鉴定;对用户权限进行限制,如用户可以读某些数据却不能改变其属性值,或者用户可以取得整体统计信息但不能取得个体信息等;建立日志文件,以监视数据库活动;对数据采用集中管理方式。此外,还需要注意对数据结构的隐蔽。
5. 基于生命周期角度的数据治理。数据的生命周期包括数据创建、数据使用、数据归档、数据销毁4个阶段。而数据在生命周期内有效则可以满足业务操作和管理分析的需要;满足对历史数据查询相关政策和管理制度的要求;满足审计管理要求;减少数据冗余,提高数据一致性;减少存储、硬件、运维等方面基础设施投入;提升应用系统性能,提高响应速度。因此,数据生命周期的管理必不可少:
首先,在数据创建阶段,要求利用数据模型保证数据完整;执行数据标准保证数据准确;加入数据质量检查创建准确;保证数据在合理的系统生成。
其次,在数据使用阶段,要求利用元数据监控数据使用;利用数据标准保证数据准确;利用数据质量检查加工准确;确保数据在合理的系统使用;控制数据的派生。
然后,在数据归档阶段,要求利用评估手段保证归档时机;分数据类型归档数据。
最后,在数据销毁阶段,要求利用评估手段保证销毁时机;分数据类型销毁数据。
参考文献:
[1] 李璠.商业银行数字化转型[J].中国金融,2017,(17).
[2] 李虹含.大数据技术在商业银行中的应用:场景、优势与对策[J].广西大学学报(哲学社会科学版),2016,(1).
[3] 傅俊.数据挖掘技术及其在商业银行中数字化转型中的应用[J].软件导刊,2016,(2).
[4] 杨力元.数据管理模式对中国建设银行信息化建设的影响[D].兰州:兰州大学学位论文,2017.
作者简介:刘凯(1987-),男,汉族,河南省焦作市人,复旦大学应用经济学博士后流动站、浦发银行博士后科研工作站博士后,研究方向:数字银行;于天(1984-),男,汉族,天津市人,复旦大学应用经济学博士后流动站、浦发银行博士后科研工作站博士后,研究方向:大类资产配置。
收稿日期:2019-08-14。