APP下载

浅谈并行统计计算基础下的金融数据

2017-09-18赵哲衡

科学中国人 2017年23期
关键词:数据处理长度样本

赵哲衡

浅谈并行统计计算基础下的金融数据

赵哲衡

The University of Texas at Dallas

在信息时代,金融数据处理已经成为了困扰金融业的重要问题。基于这种情况,本文对并行统计计算这种数据处理方法进行了分析,然后结合金融数据特点对并行统计计算基础下的金融数据处理问题进行了探讨。

并行统计计算;金融数据;处理

引言

作为信息密集型产业,金融业的各项业务开展都要有数据提供支撑。但在信息时代背景下,金融业要面临海量数据的处理问题,所以如何进行金融数据的处理成为了行业关注的问题。利用并行统计计算方法,则能完成大量数据的并行处理,从而满足金融数据的处理需求。因此,还应加强对并行统计计算基础下的金融数据分析,以得到科学的数据处理方法。

1 并行统计计算分析

所谓的并行统计计算,其实就是统计计算中使用的并行方法。利用该方法完成统计计算工作,需要将工作划分为多项任务,然后利用多个节点同时进行各任务的处理,从而在较短时间内完成计算工作。而就目前来看,并行统计计算能够划分为多个类型,并且需要使用相应的统计算法策略。因此,想要应用并行统计计算,还要掌握其分类和算法策略。

1.1 并行统计算法分类

在并行统计算法分类上,目前人们主要根据硬件类型支持进行分类,即进行Flynn分类或Schmidberger分类。从设备组成上来看,使用并行统计算法需要完成列阵处理器、并行多机和管道处理器的配置。利用管道处理器,可对计算机指令进行分割,以获得系列独立步骤,然后利用列阵处理器完成列阵数据的并行高效处理[1]。所谓的并行多机,则是拥有多处理器的机器或由多个机器构成的集群,可用于进行并行统计计算。按照Flynn分类,可以将数据划分为单指令单数据分类、单指令多数据分类和多指令多数据分类这三种并行程序[2]。按照Schmidberger分类,可将并行统计计算机划分为多核系统、多处理器系统、多计算集群等。

1.2 并行统计算法策略

利用并行统计计算机进行统计算法实施时,需要采用并行统计的算法策略。目前,主要可以采用区域分解和任务分解两种策略。采用区域分解策略,即对跨节点统计问题的计算区域进行并行化处理,赋予各节点相应统计数据子集,并在多项统计数据中应用同一指令集[3]。而在分解区域的同时,各处理器将负责各自任务,然后一同进行统计问题的处理。采用任务分解策略,即由各节点对相同代码的不同部分进行执行,以实现任务分解。所以,各节点需要完成特定子任务的执行,程序也将被划分为协同任务,各协同任务需进行不同代码的执行。因此,采用该策略对各协同任务进行了异步执行,可以在不同计算机上完成统计任务。

2 并行统计计算基础下的金融数据

2.1 金融数据的特点

作为建立在数据基础上的产业,金融业每天都将产生大量的数据。通过对这些数据进行分析、查询和挖掘,才能完成潜在商机的挖掘,并为金融风险的管理提供数据依据。就目前来看,金融数据拥有几大特点。首先,金融数据拥有较大的数据容量,最高能够达到PB级别。其次,金融数据拥有较广的数据范畴,各金融业务节点上都存在数据,数据类型也较多,包含日志、图片、文本、音视频等,大多为非结构化和半结构化数据。再者,金融数据整体价值密度较低,因为拥有过多的数据,所以也有较大的数据噪声,其中夹杂较多无价值的数据。最后,金融数据拥有较快的变化,所以要求迅速完成数据处理。受这些因素的影响,金融数据的统计处理有较高的数据处理响应速度要求。但就目前来看,采用传统数据统计计算方法已经难以满足金融数据处理的快速响应需求。而分布式系统能够提供并行统计计算算法,因此能够用于进行大量金融数据的统计计算处理,继而更好的应对信息时代给金融数据处理带来的挑战。

2.2 金融数据的并行统计计算

图1 多元线性模型下的PLME

2.2.1 多元线性模型下的金融数据处理

在解决较多金融数据统计问题时,多元线性模型得到了使用。对该模型进行并行执行,能够有效完成统计问题的快速分解和分析。如下式(1),为多元线性模型,式中X∈Rn*p为已知矩阵,对秩进行了给定,满足rank(X)=p的条件,并且p≤n;Y∈Rn*1,为观察得到的随机向量;β∈Rp*1,指的是未知参数向量;σ2为正未知参数,I∈Rn*n,指的是单位阵。

在该模型中引入并行最大似然估计这一并行算法,则能分别将观察样本(X,Y)发送至r各节点,然后利用随机区域分解从各节点中获得不同子样本,并标记为(Xi,Yi),然后进行子样本最大似然估计计算(MLE)。完成各节点估算,则能得到PLME。采用该算法,就是利用区域分解法解决统计问题。(如图1)为多元线性模型下的PLME,po为子样本长度。

为验证利用该算法处理金融数据的有效性,可以破产数据为样本。该数据集中包含4500个观察样本,被称之为“Bank32nh”,拥有二维输出值和31个连续属性。利用R软件完成数据拟合,则能发现在二维输出上,相关系数R2为0.4156,连续属性F统计量则为102.5。对其子集检验PLME,使r取值7,并使rank(Ei)=ni=51,则能得到如下表1的相关系数序列。而31个属性二维输出值的PLME为关于子集估计含权为1/7的加权LS估计,其拥有与加权LS相同的统计特性,每个估计相关系数都比MLE大[4]。利用PLME,则能完成最优子集的查找。具体来讲,就是将r取1,然后使子集为350:400,可得R2为0.861,其将比总体大。对PLME时间性能进行验证,可以分别模拟对2、4、8、16个节点进行变形处理,产生的样本则来自于多元线性模型,样本数为1.6*106,p为3,子样本数为5000,可以得到处理2、4、8、16个节点分别能够得到3.08、1.66、1.01和0.64s的时间性能[5]。由此可见,利用该算法进行金融数据处理,可以得到与节点数近似线性的速度。而在p点增加的情况下,执行时间也将有所增加。通过增加节点数,则能减少大型数据集处理的时间成本。

表1 子集相关系数

2.2.2 并行自助模型下的金融数据处理

目前,在对计量经济学问题进行处理时,可以使用并行自助法获得数据处理的线性速度。现阶段,尽管并行计算软件已经得到了广泛使用,但是并行统计计算尚未得到广泛使用。利用并行自助法,则能为金融数据处理提供新的途径。具体来讲,在金融数据为独立同分布的样本数据和相依样本数据时,可以利用并行自助模型进行数据处理。因为这类样本具有一定的统计特性,能够通过使用并行自助得到最优子样本长度[6]。因为,如果金融数据样本长度过大,将导致数据处理花费过多时间用于缓冲。如果样本长度过小,采用重抽样法进行数据统计则将导致数据的相依性遭到破坏,进而导致数据处理精度降低。所以在处理金融数据时,需完成合理子样本长度的选择。采用并行自助估计算法,需要假设样本X的函数为θ̂,指的是参数θ的估计[7]。利用下式(2)和(3)对θ̂的偏和方差进行计算,则能得到样本的并行自助估计。估计参数的均方误差MSE则应该为E(θ̂-θ)2。而参数渐近均方误差AMSE为渐近最优子样本长度的MSE,所以可以根据均方误差得到最优子样本长度。

为验证该种并行统计算法的有效性,可以使用瑞士养老基金基准LPP2005REC数据为测试对象,并选取其中8列作为样本数据,具体包含LMI、SBI和SPI。如下表2,为各子样本长度kBopt和RMSE。在B取值1200的条件下,最优子样本长度在11-18之间。而在B逐渐增加的条件下,样本长度也将增加。所以,在金融数据为高维数据集的情况下,采用并行自助算法能够有效减轻数据统计计算负担[8]。而重抽样的性能与子样本长度有着直接的关系,因此在金融数据处理软件中常常会将n1/3当成是最优子样本长度,以提高重抽样的速度性能,进而使更多的金融数据统计问题得到解决。

表2 样本数据均值估计的最佳子样本长度

结论

通过分析可以发现,随着信息时代的到来,在对金融数据进行处理时,还要利用并行统计计算完成海量数据的统计分析,才能尽快得到有用的数据信息,进而为金融业创造更多的价值。因此,相信随着相关技术的发展,并行统计计算将在金融业得到广泛的应用,进而为金融数据的处理提供有力的技术支撑。

[1]李浩光.数据挖掘在防范金融风险中的研究及应用[J].计算机安全,2014,02:48-51.

[2]董春,袁卫平,亢晓琛,张玉,乔庆华.地理国情大数据基本统计的多进程并行计算[J].测绘科学,2014,05:13-17.

[3]宋磊,尹俊平,陈虹.基于R的并行统计计算[J].计算机科学, 2013,03:95-99.

[4]李湛.金融大数据中的并行查询[J].中国金融,2015,10:79-80.

[5]代红.基于Hadoop的金融智能云平台分布式架构[J].辽宁科技大学学报,2016,03:223-228.

[6]任媛媛,姚宏亮.岭回归视角下金融数据分析与算法实现[J].经济研究导刊,2013,32:206-209.

[7]王泰积,刘威仪,李竹渝.金融区间数据的动态回归模型比较与实证检验[J].统计与决策,2011,06:28-31.

[8]柴志雷,张圆蒲.基于GPU的轮廓提取算法的并行计算方法研究[J].计算机应用研究,2015,02:630-634.

猜你喜欢

数据处理长度样本
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
基于低频功率数据处理的负荷分解方法
无人机测绘数据处理关键技术及运用
用样本估计总体复习点拨
绳子的长度怎么算
高层建筑沉降监测数据处理中多元回归分析方法的应用研究
高层建筑沉降监测数据处理中多元回归分析方法的应用研究
规划·样本
爱的长度
随机微分方程的样本Lyapunov二次型估计