基于大数据的金融监管平台研究
2022-09-30周峰陈伟李莉林佳佳
周峰 陈伟 李莉 林佳佳
恒生电子股份有限公司 浙江杭州 310051
1 概述
在现代市场经济环境中,金融处于核心地位,在生产要素的优化配置中起着基础性作用。金融安全事关经济安全和社会稳定的全局,是支撑我国社会经济发展的关键,金融大数据监管平台通用解决方案是确保金融安全的基础性关键技术。金融监管信息系统是金融业运维、发展和创新的基础,是确保金融安全的重要手段。金融监管信息系统涉及面广,包括硬件、网络、软件、防护、灾备、金融风险管控等,其中金融大数据监管平台解决方案是确保金融安全的一项关键性、共性基础技术。研制自主知识产权的金融领域大数据监管云平台通用解决方案,对提升金融监管信息系统国产化率,构建安全可靠的金融监管体系,抵御金融风险与危机,确保国家经济安全具有重大现实意义。
互联网金融的不断发展与创新,使得基于大数据的金融监管成为新一代金融监管信息系统构建和服务的重要趋势,面向全国的地方金融大数据监管平台的通用解决方案具有巨大市场前景。如此巨大的处理需求及海量的金融数据给金融监管带来了巨大挑战。一方面,由于金融监管业务独有的特性,基于云计算的金融监管平台的建设在大规模异构虚拟化、海量分布式存储、大规模资源管理与调度等方面面临挑战;另一方面,随着金融数据的快速增长,异构金融数据的采集,流式金融大数据的处理,基于大数据的金融风险分析与建模,以及大规模金融监管规则的管理与应用等多方面也面临新的挑战。因此,迫切需要研制面向全国的地方金融大数据监管平台的通用解决方案,以应对上述行业共性技术挑战。
2 基于金融风险综合现实的跨行业风险监管模型
基于金融监管权的金融试点是一种选择。金融技术实验性监管的使用是指金融监管机构在其职权范围内免除对金融技术业务的监管要求(在某些情况下,立法机构也可以免除法定监管要求),减少现有的金融规则,特别是金融监管。金融科技创新业务设置的不必要障碍,使得金融科技公司和金融机构可以在风险可控的环境下尝试金融科技业务。金融规则制定权的金融试点监管具有以下特点:第一,金融规则制定权的金融试点监管是一种试错监管,有效的监管是通过不断的试错实现的。第二,具有金融规则制定权的金融试点监管,不受某些金融规则的约束。第三,金融规则制定权金融监管试点的目的是检验允许测试的金融创新业务是否符合监管目标。第四,具有金融规则立法权的金融监管试点过程是一个规则制定和不断修改的参与式过程。逐步完善规则,增加附加信息,建立金融技术监管试点程序。对于监管机构来说,以开放的方式从行业和其他参与者那里学习新技术、新知识和新经验的过程,制度是理解监管主体规则的初衷,培养“规则所有者”意识的过程。
3 规模异构虚拟化计算技术研究
在业务交易、行情推送等金融应用领域,面临性能不能满足业务需求或者是满足业务需求所需的资源量过大等问题,项目针对性地提出基于垂直优化和应用自感知技术的大规模异构虚拟化是金融监管云平台的基础,解决了如何确保金融领域动态虚拟环境中部署效率,如何确保金融领域动态虚拟环境中部署效率,缺乏统一的平台管理监控整个基础架构等挑战,突破了基于KVM、XEN等异构虚拟化技术,完成对计算、存储和网络虚拟化的管理支撑等需求,同时解决了运行的应用特征进行自感知,并根据感知特性进行系统性能优化等需求。
金融监管云平台需要支撑海量的异构用户数据、复杂多样的业务模型以及多样化的金融终端,向各类金融企业提供跨平台、跨业务、跨领域的互联互通的云服务。为此,项目拟基于××公司服务器虚拟化技术将众多相互连接的IaaS层服务器通过虚拟化软件以及现有的映射策略整合成一台虚拟服务器,然后所有用户通过整合成的虚拟服务器来调用所需要的处理器、内存、磁盘、I/O等资源,不会受到物理上的约束,更加方便管理,提高资源利用率,降低单台机器的负载,简化系统管理。
图1 金融IaaS服务器虚拟化技术
随着金融云系统规模的不断扩大,用户数量的增加以及服务质量协议(Service Level Agreement,SLA)的变化,通常采用更新硬件的方法来满足不断增长的需求。与此同时,云平台也必须支持虚拟机资源、操作系统和运行时环境动态的配置更改,从而最大限度地利用各种资源(包括硬件资源)实现性能的最优化。尽管传统的系统提供了各种配置方案来满足不同的需求,但是系统管理员必须根据自身的经验,手动调节各个参数,通过反复的试验才能使系统接近最优配置方案。因此,传统的配置方法不仅要求系统管理员有丰富的经验,而且需要消耗大量的工作时间。
复杂的金融云系统的吞吐量、资源消耗量、配置参数以及用户数量之间的关系是非线性的,如何预测这些数据间的多元非线性关系是复杂系统性能优化的难点。而核方法(kernel method)是统计学习中有效的非线性回归预测方法,可以用来预测复杂系统在不同配置和压力情况下的资源消耗量(包括CPU、内存、网络、I/O、硬盘等使用率)和系统的吞吐量。基于核方法回归预测算法的复杂系统自适应性能优化方法可以结合用户数量、系统配置和SLA自动生成一个可供参考的配置方案。系统管理员可以通过配置管理工具获得参考配置方案,并在此基础上对个别参数进行微调,从而可以迅速达到或接近最优配置方案。另外,该方法还将收集新部署或新更新应用压力测试的相关数据,并将测试结果与前面估算的结果进行比较,从而可以初步检测新应用是否存在潜在的问题。该方法可以在应用开发和部署阶段中使用,具体的流程如图2所示:
图2 复杂系统自适应性能优化方法
4 分布式云存储安全生物特征认证
在分布式云计算中,基于生物特征的身份验证在当前研究中起着至关重要的作用。分布式拒绝服务是当今云中的主要威胁,多个用户试图访问单个云服务器会导致响应时间增加并使安全性复杂化。即使数据缺乏机密性、可靠性和一致性,我们也提出了一种在云中的分布式存储上称为安全生物特征认证的方法。记录所有者的生物特征信息以进行身份验证。所有者注册完成后,数据将使用分布式方法加密并存储在云中。当用户尝试访问内容时,云服务器会验证用户的有效性并联系数据所有者以获取生物密钥以访问数据。在所提出的架构中,数据被安全存储,并通过所有者的参考,用户可以访问内容,避免相同内容的重复副本,并通过生物密钥增强安全性。提议的设计流程可以描述为:
(1)数据的所有者可以将内容上传到通过分布式模型加密的云上。
(2)云服务器可以避免内容的重复。提取所有者指纹的特征并将其存储在数据库中,以便用户在所有者许可的情况下可以参考原始内容。
(3)使用边缘检测和散列函数将用户的指纹转换为生物密钥。
4.1 具有重复数据删除功能的基于生物特征的身份验证
在这项工作中,使用了基于指纹的身份验证和基于哈希的重复数据删除方法。在各种生物识别技术中,指纹已被广泛接受并用于安全认证。在处理前对所有者的输入指纹图像进行归一化处理,然后使用优化的自学习方法提取指纹图像的特征,并存储在数据库中进行身份验证。基于Gabor滤波器的技术用于通过去除噪声来增强图像的平等性。随后,增强图像准备进行特征提取。使用边缘检测算法将脊末端和脊分叉提取为特征,然后将这些特征的哈希函数视为生物密钥,将其存储在数据库中以进行身份验证和去重。
4.2 基于安全的分布式存储加密
这个提议的算法取自Kumar & Begum,其中输入数据包被分成两个子串。子字符串被进一步处理,然后合并以存储在云服务器中。为了对数据包进行加密,对数据包执行异或运算,并将数据加密后发送到云服务器。因此,我们提出的具有重复数据删除方法的基于生物特征安全的分布式存储加密可以在用户和云之间获得安全的数据传输而无须重复。这种提议的方法可以通过将密钥共享给用户进行访问来避免内容重复,这将导致减少云的存储。
5 大规模云资源管理与调度技术研究
高可用性是金融系统稳定运行的关键,本文有针对性地提出大规模云资源管理与调度解决方案,金融云系统中软硬件资源数量剧增,硬件资源异构性越来越明显,应用也更加多样化,给目前金融云计算系统广泛采用的传统操作系统和中间件结合的分层架构带来了高效管理的挑战。大规模云计算系统管理与调度解决方案使用一种紧凑的垂直整合金融应用、操作系统、虚拟化技术和基础设施的系统架构,突破了云计算系统的自管理、自配置和自优化等技术难点。
大规模金融云环境通常需要维护管理一个规模庞大的后端基础设施,其不仅设备数量众多,而且种类多样,同时还需要管理运行存储于其上的各种软件、服务、虚拟机、用户数据等资源,导致其运维管理的复杂度和成本空前提高。金融云平台基础设施规模庞大,可能包含多地的多数据中心。因此需要研究开发支持跨地域、跨数据中心的大规模虚拟机、虚拟应用、虚拟服务的管理与部署技术。通过并发管理和快速部署相结合,实现系统的快速自动化部署,减少系统管理员、软件开发人员的工作量。
大规模智能管控系统旨在实现系统的自我管理、自我配置、自我优化,以及为用户操作提供辅助决策。其基础是对系统内各类资源的能力、特性、瓶颈,以及比较优势有全面的掌握,因此需要建立一个精确的资源优势评价模型。云平台系统能力评估模型采用资源服务化思想,将物理上由不同设备组成的分布式系统,按能力属性分解一系列服务单元,包括计算服务单元、存储服务单元、网络服务单元、内存服务单元等。并依据性能级别将这些服务单元聚合成若干个逻辑资源池,每个资源池对应一个设备列表,同一个资源池内的设备都具有某类同级别的资源服务单元,相同资源池的设备列表可相互交集。这样就能够获得一个以资源能力对应设备的倒排索引,再配合以负载加权,得到针对具体资源的设备优势排名。系统通过根据不同资源需求特点,从资源池交集中选择合适的设备。
项目旨在降低大规模金融监管平台管理中面临的管理操作难度,减少系统管理开销,实现虚拟机系统的快速大规模部署。项目需要解决以下技术难点:一是需要建立合理的系统能力评价模型,可以较精确地反应系统能力和性能瓶颈。二是需要解决大规模部署过程中的数据吞吐瓶颈,寻找有效算法避免大规模磁盘读写和网络传输。三是设计基于系统实时状态的资源优势评价算法,能够有效实现辅助决策过程中的资源优选。