大数据、AI平台支撑下的智慧金融产品研发与实践
2021-03-12代仕娅
陈 强,代仕娅
(1.兴业银行 信息科技部,上海 201201;2.兴业数字金融服务股份有限公司,上海 201210)
0 引言
金融科技蓬勃发展,以人工智能、大数据等为代表的核心技术驱动金融业务创新,持续提升金融服务的智能化水平,推动金融向高质量发展[1]。央行《金融科技发展规划(2019-2021)》明确表示,要探索人工智能在金融领域的应用,推动金融服务向主动化、个性化、智慧化发展,并指出要统筹优化数据资源、算法模型、算力支持等人工智能核心资产,探索人工智能在不同业务场景的应用路径与方法,创新智能金融产品与服务[2]。智慧金融已成为新形势下金融业务转型升级、高质量发展的必然方向。
从需求端来看,智慧金融是满足客户金融需要的必要手段。金融服务需求呈现精细化、生态化态势,单一的金融产品及服务已越来越难以满足客户的实际金融需要。为此,金融业务正走向大融合、大协同,其发展模式也迫切需要从线上化、移动化进一步向个性化、智慧化转变,通过智能化技术迅速感知客户需求,并让适配的金融服务主动、快速、精准地触达客户,使其享受到“所需即所得、所想即所得”的智慧化服务体验。
从供给端来看,智慧金融是促进金融供给侧改革的关键路径。依托智能化技术,对金融业务由描述性、统计性分析深入到诊断性、预测性、决策性分析,能够挖掘出更深层次的金融业务价值;智能化产品能实现对现有线上化、数字化产品的升级与改进,有助于创新和完善金融产品供给,提升金融的供给侧改革质效,也有助于优化金融资产的合理配置,降低金融业务成本,增强金融服务实体经济与普惠大众的能力。
大数据、人工智能等技术已广泛应用于金融的风险信贷、投资研究等诸多领域智能化建设中。随着金融业务的复杂程度日益加剧,智慧金融建设对大数据、人工智能等技术的应用与创新也提出更高要求,需要搭建统筹集成数据资源、计算资源、算法资源的平台化基础服务设施[3],为智慧金融建设在数据处理、算法建模、挖掘预测等方面提供更强有力的支撑,以充分释放数据的业务价值,提升智慧化服务的敏捷性、精准性水平。
本文基于投资研究、风险内控、财富管理等几类典型金融业务场景的智慧金融研发实践,重点阐述金融业的大数据平台、AI 平台的架构搭建、实施方法,以及在平台支撑下相关领域数据资产开发、算法模型构建的成果,并展示基于该研发范式推出的智能化应用效果,最后对智慧金融高效落地的路径进行了深入研究,为金融业智慧化转型、高质量发展提供启发与建议。
1 相关研究工作
在行业智慧化解决方案中,大数据平台、人工智能平台作为重要的基础设施,为智慧化建设提供基础性数据、算力、算法等方面的核心能力支持。康波等[4]提出面向行业应用场景的云计算、大数据、人工智能等基础平台的融合建设方案,实现不同平台数据的整合共享、高性能计算和统一数据建模,并基于平台推出了面向智能诊疗、智能辅助驾驶等多领域应用;王彦棡等[5]重点讨论了高性能计算与人工智能应用的结合,通过整合数据、计算、应用资源,支持全流程模型设计、训练和部署,实现智能化应用的快速研发,促进诸多应用领域发展;曹峰等[6]指出金融等传统行业对人工智能应用的需求不断提升,相关计算平台和应用服务平台的统筹建设是垂直行业智能化产品落地的重要基础,能有效推动社会经济智能化水平提升。
在金融行业,大型商业银行较早开展相关布局。工商银行推出全行统一的大数据分析与应用平台,支撑金融场景中海量、实时、复杂数据的存储与处理,并完成企业级人工智能平台建设,形成全流程、独立自主的建模能力,驱动风控、营销、客服等诸多金融领域的业务发展;中国银行将云平台、大数据平台、人工智能3 大平台作为数字化转型的技术支撑,已完成企业级人工智能生态打造,形成数据高效连接、AI 模型自学习、数据分析闭环的智能化研发模式,相关智能化产品使中国银行在营销成功率、高风险交易拦截、工单处理效率等方面有显著提升,增强了金融服务竞争力。
搭建整合数据资源、计算资源、算法资源的大数据平台与人工智能平台,并在此基础上进行数据资产的开发、算法模型的构建,已成为智慧金融建设的必要路径,但目前相关建设仍处于初期应用阶段。由于不同金融领域面向的客户群体、数据特点、业务目标都存在较大差异,决定了大数据平台、AI 平台的功能架构需要与具体场景的智能化应用紧密结合,也需要持续与业务演变相匹配,实现以智能应用为驱动的平台搭建与产品研发。
本文基于财务管理、投资研究、风险内控等具体金融场景,重点阐述在相关领域的智慧金融产品研发中,为满足数据、计算、算法等方面的资源及性能,大数据平台与AI平台所需的技术构架体系及主要功能组件。在大数据平台、AI 平台的支撑下,进行数据资产开发,在此基础上进行算法模型构建,能显著提升算法模型分析预测服务的精准性。
2 平台化智慧金融产品研发体系
智慧金融的核心在于依托智能化技术手段,形成面向业务场景需求的智能化应用解决方案[7],促进金融服务的优化升级,涵盖数据、技术、业务等全方位内容,是一个系统性工程。如何使大数据平台符合不同场景对数据收集、存储、加工、计算等性能要求,如何使AI 平台满足各类预测分析在模型构建、信息挖掘等方面需求,如何在平台支撑下研发出切实解决业务痛点、提升经营效益的智能化应用产品,是智慧金融建设过程中研究与关注的重点。智慧金融建设整体框架如图1 所示。
Fig.1 Intelligent financial construction architecture图1 智慧金融建设整体框架
核心技术层为大数据平台与AI 平台,其中大数据平台为AI 平台提供算法建模所需数据和计算资源支持,AI 平台可以向大数据平台反馈复杂数据的处理结果,丰富大数据平台提供的数据服务类型,两者协调运作,赋能金融业务场景建设,快速满足并响应不同业务领域的智能化应用需求。
2.1 大数据基础服务平台
大数据平台主要功能在于整合大数据采集存储、集成批量计算、流计算、边缘计算等方面的能力,构建起面向全集团统一的、企业级的大数据基础服务,为不同场景的智能应用建设提供便捷的数据访问与分析能力。同时在大数据领域落实数据统一、技术统一,避免各应用分别构建大数据集群、形成功能重复建设。大数据基础服务平台功能架构如图2 所示。
Fig.2 Big data platform architecture图2 大数据基础服务平台功能架构
平台基于Hadoop 生态系统,利用集群进行高效的数据存储与运算[8],平台重点实现以下几方面功能:
(1)数据采集与存储。金融业务场景的交叉程度与复杂程度日益提升,每项智能化应用所涵盖的数据范围往往会跨领域、跨系统,且涉及大量流式数据,如客户实时行为数据等,大数据平台需要对不同来源、不同类型的数据集中整合与存储,以便后续进行统一、高效的处理与分析。在构建过程中,大数据平台需要对接银行企业金融、零售金融、金融市场等相关领域的各类客户、业务、管理系统,以及对外部的第三方信息进行日志等实时数据采集;读取HDS、EDW 及各类数据集市中积累的数据,实现批量数据整合。平台可通过Sqoop/Canal 等对关系型数据库中全量数据及增量数据进行导入,采用Flume 进行图片、视频等非关系型数据,以及用户行为日志等流式数据进行收集,最终以不同方式将采集的数据加载、整合到HDFS、Hbase 等分布式存储系统中,供后续分析处理[9]。
(2)数据处理与计算。在传统数据之外,非结构化数据、实时流式数据等在金融业务的分析决策中逐渐发挥越来越重要的作用,带来数据处理方式的改进。在数据处理类型上,除了结构化数据,大数据平台还支持非结构化数据、半结构化数据等贴源数据处理,提升数据质量以更方便于查询、使用。在数据处理时效上,在采用MapReduce/Spark 等分布式计算引擎进行大规模批量数据挖掘分析的同时,引入Flink/Storm/Spark Streaming 等大数据流式计算技术实现对实时数据的计算处理,生成实时分析决策[10],满足金融市场行情分析、理财产品精准推荐等高时效场景数据处理需求。同时平台构建大数据沙箱,在保障数据安全的同时,为数据探索分析、AI 模型训练提供更贴近真实业务场景的开发环境。最终平台对各类数据加工处理后的结果以元数据的形式进行存储,以供进一步数据挖掘及业务应用。
(3)数据中台服务。大数据平台对原始数据进行加工处理后,生成的数据分析与探索结果,一方面以数据服务的形式直接输出给金融业务应用,另一方面为AI 平台提供算法建模所需的数据输入。基于业务逻辑将原始数据计算成可应用的指标,形成标准化的数据资产,能降低原始数据的噪声,增强数据的业务应用能力,提升数据的服务价值。根据数据工程化程度以及应用方式的不同,数据资产种类多样,涵盖了特征库、标签、知识图谱、规则引擎等,以共享、可复用的形式供不同领域智能化建设灵活调用。数据服务直接输出时,可以文件方式批量输出数据结果,也可以API 服务方式开放实时接口给应用系统,供其进行数据查询;数据资产作为AI 平台的数据输入时,可通过AI平台的沙箱功能从大数据平台提取部分数据,也可直接调用大数据平台的接口,使用大数据平台的数据和计算资源。
(4)数据管理与平台管理。数据管理主要实现对元数据、数据资产的查询、维护、更新,对数据质量检查、修正、调整,以及对数据关系的追踪与影响进行分析等。当数据服务出现明显异常时,能迅速定位并追溯到问题节点。平台管理主要体现在统一调度、统一监控、统一用户认证、统一安全体系等方面。
2.2 人工智能基础服务平台
AI 平台在人工智能计算资源支持下,集成多种机器学习框架及基础算法模型,形成全流程、一体化的模型开发能力,并提供涵盖计算机视觉、智能语音、自然语言处理等领域的AI 服务,为相关业务场景智能化产品研发提供核心建模支撑。AI 平台整体架构如图3 所示。
Fig.3 AI platform architecture图3 AI 平台功能架构
AI 平台具备以下功能:
(1)算法资源集成。不同金融业务对算法模型性能有不同的侧重,如信贷审批注重模型的业务可解释性,而个性化推荐更侧重模型的实时精准性。面对多样的业务场景,平台汇集了行业领先的机器学习算法库及深度学习算法 框 架,如Scikit-learn、MLlib、TensorFlow、Torch、Caffe、CNTK 等,供模型开发时灵活调用;在此基础上,涵盖主流的各类人工智能基础算法模型,如传统机器学习算法中的逻辑回归(LR)、支持向量机(SVM)、朴素贝叶斯(Naive Bayes)等;深度学习算法中的卷积神经网络(CNN)、循环神经网络(RNN)及相应网络衍生出的经典结构等;图模型算法中的社区发现算法、链路预测算法以及GNN 类图神经网络算法等。依托全面的开发框架以及基础算法,能够基于特定业务目标进行灵活的算法设计与重构,充分满足风险识别、财富管理、投资研究等领域对技术模型的差异化、定制化需求。
(2)全流程模型开发。AI 平台提供多种人工智能开发工具,支持从数据标注、数据预处理、特征工程、模型构建、参数寻优、模型评估、模型部署等全流程、一站式算法模型研发流程,极大提升各场景算法建模效率。在人工智能开发工具支持下,可通过对开发功能组件进行拖拉拽方式形成特定的工作流,基于对基础组件的调用减少代码的重复编写,以更便捷地完成数据分析、模型搭建等操作。如在数据标注环节采用自动标注工具,能迅速生成大规模数据的目标定义,以更便捷地构建训练样本;在特征工程环节,可点击“特征提取”组件自动实现对数据的离散化、归一化、关联计算等加工处理;对于加工好的指标变量,可点击“特征选择”组件选择卡方检验、决策树、信息熵等多种方法,挑选出有效的特征集合进入模型;还可点击“特征组合”组件对选定的特征变量进行自动组合,以生成更体现业务含义的新特征。
(3)AI 领域服务。计算机视觉、自然语言处理、语音识别是人工智能尤其是深度学习应用最为广泛的3 大领域,由于具有较大规模、公开的训练样本,这些领域已形成较多针对特定任务、成型的通用智能服务,如计算机视觉领域的人脸识别、目标检测、图像分类等,自然语言处理领域的分词、命名实体识别、文本分类等,这些通用服务已越来越深入地应用到风控、投资等金融核心领域的智能化建设过程中。AI 平台通过提供相关通用服务的功能组件,将各领域智能化产品在研发过程中进行共享与调用,提升整体智能化研发效率。同时,对于信用评分、营销白名单等银行场景中常用的智能化服务,AI 平台也提供相应的功能组件,满足各类业务对通用机器学习服务的需求。
(4)资源调度管理。算法模型训练尤其是深度神经网络模型训练需要以强大的计算资源为基础,故AI 平台需实现对异构计算资源的调度,为上层建模提供高可用、弹性可拓展的异构计算能力。平台采用容器管理技术进行CPU、GPU 等计算资源调度,且支持多租户计算资源的调度、隔离与管理,可实现不同业务场景多用户、多模型的并行训练、测试、部署及对外服务。
2.3 场景化数据资产及应用型算法模型开发
在大数据平台、AI 平台的资源与环境支持下进行数据资产开发与算法模型构建,才能研发出赋能业务场景的智能化应用。这两者相互作用、相互影响,但相互影响、相互作用的过程有所不同。一方面数据资产作为算法模型的输入,其质量会直接影响模型的分析预测效果,如在金融市场投资等不完全信息博弈领域,金融资产动态因子库这一数据资产对预测金融资产的价格至关重要;另一方面,算法模型作为某些数据资产的开发手段,模型的技术架构也将直接决定数据资产的质量,如对于知识图谱这类数据资产,依托算法模型从大量非结构化数据中提取出实体、关系等信息[11],是构建高质量知识图谱最为重要的步骤。
2.3.1 场景化数据资产开发
业务场景中原始数据通常形态多样、纷繁杂乱,充斥着无关的噪声信息,对业务的表达能力有限[12],不能直接用来进行业务分析或建模预测,而需要工程化处理后转化为应用价值更高的数据资产[13]。对应不同的应用目标,数据资产也具有丰富的类型,本文基于财富管理、投资研究、风险内控等金融场景,主要构建了特征因子库与知识图谱这两大类数据资产。
(1)动态特征因子库。动态特征因子库是在原始数据基础上结合金融领域业务逻辑思维,构建出能有效应用于业务分析及建模预测的特征指标,并随着数据的演变持续更新。基于金融资产的特征因子库(见表1)和基于客户的特征因子库(见表2)为财富管理相关算法模型构建奠定持续稳定、高可用度的数据基础。
Table 1 Example of financial assets’dynamic feature corpus(part)表1 金融资产动态特征因子库字典截图示例(部分)
Table 2 Example of customer’s dynamic feature corpus(part)表2 客户动态特征库数据字典截图示例(部分)
(2)金融知识图谱。金融知识图谱主要是通过大规模语义网络,将金融领域中结构化、半结构化、非结构化等不同类型的数据进行整合,并以图连接的形式加以展现[14],沉淀成结构化的知识体系,并通过进一步分析挖掘得出更深层的隐藏信息,使信息的检索查询都更加智能化[15]。本文构建了投研领域的企业债券知识图谱(见图4),以及风险内控领域的资金账户关联图谱(见图5),更清晰地展现不同主体之间的关联关系,研判可能的风险事件。
Fig.4 Enterprise bonds knowledge graph图4 企业债券知识图谱
Fig.5 Capital accounts knowledge graph图5 资金账户关联图谱
2.3.2 应用型算法模型构建
数据价值的释放需要设计和开发符合业务需求的数据挖掘与机器学习算法模型[16]。依托AI 平台丰富的算法框架,在数据资产基础上根据业务目标构建相应的金融模型,能有效提升分析预测服务的精准性。本文列出两类在智慧金融建设中具有较强金融属性与业务代表性的模型并研发形成相应的技术架构。
(1)行为序列注意力机制(BSA:Behavior Sequence At⁃tention)模型。该模型在前述金融资产、个人客户等动态特征因子库数据资产基础上构建,将金融资产的风险、收益等特征与客户的静态基本信息、动态行为特点等结合进行预测分析[17],发掘出与客户更适配的金融产品及资产组合(见图6)。
(2)图卷积神经网络(GCN:Graph Convolutional Neural Network)。该模型基于金融知识图谱这类数据资产进行构建,应用于投资研究中的金融风险预测,研判企业可能出现的风险事件[18];也被应用于风险内控中欺诈交易的识别,挖掘资金账户交易网络的深层信息,预警异常交易行为[19](见图7)。
Fig.6 BSA model’s technology architecture图6 BSM 模型技术架构
Fig.7 GCN model’s technology architecture(taking fraud as an example)图7 GCN 模型技术架构(以欺诈预测为例)
3 智慧金融产品业务实践效果
在大数据平台和AI 平台支撑下进行数据资产的开发及算法模型构建,最终实现投资研究、风险内控、财富管理等场景智能化产品的研发、落地与应用。业务实践结果表明,这些智能化产品显著提升了金融服务的智慧化水平,提高了业务的经营效益,有助于推动银行智慧化转型、高质量发展进程。
3.1 投资研究领域——智能投研
智能投研主要功能是帮助投研人员进行行业知识的提炼、总结、关联,构建出行业、企业等主体相关更加清晰、完整的关联关系及事件关系全景拓扑网络视图,并在此基础上进行风险及事件预测,辅助研判行业趋势。
在智能化应用过程中(见图8),将大量文本形式的行业研究报告、债券评级报告等作为分析挖掘的基础数据,基于场景化的Bi-LSTM+CRF 模型[20]、PCNN 网络[21]等,从报告中提取出关键信息,自动构建关联知识图谱,一方面帮助投研人员对报告核心内容进行迅速、便捷、全面的检索,另一方面基于GCN 模型前瞻性地预判企业可能面临的金融风险,更深入地辅助投研人员进行投资决策。
该智能化产品应用后极大提高了投研人员的分析效率,以一份城投债评级报告为例,如表3 所示。通常情况下人工进行深入分析、梳理大概要花费2 小时左右的时间,而智能投研产品能够在1 分30 秒内迅速完成对报告内容的解析、提炼,以关联图谱的形式进行展示,并可应用于检索查询及深入的挖掘预测。
Fig.8 Business application framework of intelligent investment research图8 智能投研业务应用解决框架
Table 3 Intelligent Investment Research Analysis Results表3 智能投研报告解析效果
3.2 财富管理领域——智能投顾
智能投顾旨在为客户推荐符合其特点的个性化资产配置组合。一方面在客户端评估刻画投资者的风险属性、行为偏好等特征,形成客户的全面画像;另一方面在资产端分析并筛选当前金融市场走势下的有效资产组合,最终通过客户特征与有效资产的结合映射,形成个性化的资产组合推荐。
在具体的智能化应用过程中(见图9),首先对场景相关数据进行汇集及工程化处理,形成股票、基金等金融产品,及客户相关的特征因子库数据资产;然后在数据资产基础上构建资产配置与推荐相关的业务模型。除了经典的均值—方差模型外,还重点采用前述的BSM 模型,将资产风险收益与客户行为特征同时纳入模型进行分析,为客户提供个性化的金融资产配置及推荐。
Fig.9 Robo-advisor’s business application framework图9 智能投顾业务应用解决框架
该智能化产品应用后,能及时、充分识别资产的风险收益特点,有效控制资产组合的整体风险,并基于客户的偏好特点进行配置与推荐,提高了相关资产的点击率及购买率。截至2019 年末,该智能化服务为直销银行上的基金和理财客户提供了分层化、差异化、个性化及更适配的资产推荐服务(见表4),推动直销银行零售财富管理规模实现15%以上的增长。
Table 4 Robo-advisor’s asset allocation results表4 智能投顾差异化配置效果
3.3 风险内控领域——智能案防
智能案防主要应用于商业银行内部违规操作、可疑交易等风险事件的识别、预警与排查,以降低违规交易事件带来的资金损失。
在具体的智能化应用实践中(见图10),首先对历史风险事件案例信息进行结构化处理,提取其中风险特征,形成违规操作风险指标库;然后结合交易账户相关主体的资金、信贷、往来等多维数据,构建资金账户关联图谱这一数据资产;再在关联图谱基础上采用此前构建的GCN 模型进行关联风险提取,并结合风险指标库深度挖掘可能的违规交易事件。
该智能化产品应用后取得了显著的业务效果,会计风险案件核查准确率高达90%以上,如表5 所示。在运行一年多的时间里对全行近3 000 万个账户进行排查,发现问题交易流水上万笔,挽回损失金额达上百亿元,为内控合规建立了一道有效的智能化风险防线。
Fig.10 Business application framework of intelligent accounting risk management图10 智能案防业务应用解决框架
Table 5 Intelligent risk accounting verification results表5 智能案防风险排查效果
4 智慧金融落地路径思考与启示
智慧金融建设中数据、技术及应用环环相扣又相互影响,构建大数据平台、AI 平台、应用平台三者之间顺畅的垂直交互架构,形成灵活的横向延伸模式,使智能化产品既能快速在当前金融领域落地,又能进一步敏捷推演至其他金融场景,对智慧金融的高效、全面建设起到决定性作用。智慧金融应用发展路径要从以下几方面着手:
(1)形成垂直切片、小场景演进的研发架构,如图11 所示(彩图扫OSID 码可见,下同)。从特定场景的某项具体智能化应用入手构建该场景的大数据平台、AI 技术平台、应用平台之间垂直切片架构,一方面通过聚合垂直领域各层面的相关功能,使智能化应用可以基于业务目标自行选择更有效的数据、设计更合适的算法、创造更精准的服务,并根据业务场景及服务目标的变化进行快速迭代;另一方面经过在垂直切片领域的探索试错,将成功、有效的方法、技术迅速拓展到更广泛的金融业务中,使智能化服务由小场景逐渐演进至全领域,为全面智慧金融建设提供更稳健、可靠的路径保障。
Fig.11 Vertical slice technology architecture图11 垂直切片的研发技术架构
(2)打通数据、技术、应用的循环交互链条,如图12 所示。在垂直业务领域的切片架构下,数据、技术与应用之间存在闭环传导机制,数据为技术模型提供分析基础,技术模型为业务应用输出决策能力,业务变化又产生新的数据及分析需求,只有疏通三者间的传导渠道才能使数据的信息价值、技术的预测能力成功转化成智能化服务。一方面在正向传导过程中要保障数据向技术模型顺畅传输,使技术模型因数据特点灵活设计,业务场景由技术模型驱动运营,最终使智能化产品触达到市场与客户;另一方面在反向传导过程中,要形成对业务经营中产生与变化的数据进行实时加工整合的能力,使数据随场景演变及时更新汇集,再通过技术模型得到新的分析结果,从而能迅速捕获到金融业务中稍纵即逝的新机会。
Fig.12 Interaction architecture of data,technology and business图12 数据、技术、业务的交互架构
5 结语
智慧金融是金融供给侧改革的重要路径,也是商业银行满足客户需求的重要手段,已成为金融业转型发展的必然选择。本文对商业银行相关业务领域智能产品的研发与实践进行了总结,并基于此对商业银行智能化建设的路径,尤其是大数据、人工智能相关核心技术在金融场景的落地应用、效能提升等相关问题进行了研究和思考,为商业银行全面高效推进数字化转型和高质量发展提出了一些更具前瞻性的建议。在业务领域智能化实践中,商业银行需将数据体系、技术体系、应用体系三个层面有机结合统筹推进,构建大数据平台、AI 平台、应用平台三者之间顺畅的垂直交互架构,以实现智能化产品在业务场景中敏捷化落地应用。