APP下载

金融大数据研究与应用进展综述

2019-01-11祁旭阳林天华张倩倩

时代金融 2019年34期
关键词:机器学习

祁旭阳 林天华 张倩倩

摘要: 身处大数据时代,人们生活的方方面面都离不开数据。同样,金融行业也存在着海量的数据,将大数据技术与金融行业结合,有助于推动金融行业的发展。本文介绍金融大数据的分类和面临的挑战,并总结和整理了目前处理金融大数据的主要算法,具体包括基于语义的金融大数据处理算法和基于时间序列的金融大数据处理算法。介绍了金融大数据在不同分类下的应用,并展望了金融大数据的发展前景。

关键词: 金融大数据  证券大数据  银行大数据  保险大数据  机器学习

一、引言

随着金融市场的不断发展,金融行业与互联网、大数据等计算机技术的结合也越来越紧密[1]。金融行业自身所产生的以及外围产生的数据量较大,且数据更新速度快,因此需要对大量的数据进行处理、分析,应对金融市场的快速多变,并改善金融业服务,降低金融行业风险,科学推出金融产品,提高金融行业的竞争力[2]。具体来说,大数据技术作为一种蓬勃发展的信息处理技术,在证券、银行、保险等各个金融行业得到了广泛应用。如果能够将金融大数据充分利用起来,那么就能更好地指导金融市场的发展[3]。

二、金融大数据的概念

(一)金融大数据的分类

根据行业不同,可以将金融大数据分为证券大数据、银行大数据、保险大数据三个种类,其在不同的行业有各自不同的特点。

1.证券大数据。证券行业的发展对于数据的依赖度很高,证券公司在日常的运作中不仅会产生大量的数据,而且也需要运用数据来指导投资,证券数据自身的特点与大数据的特征相契合[4]。证券行业大数据主要表现在行情数据,财经网站的股票行情图以及通达信等行情软件所展现的各类数据、K线图、日均线图等,背后都是海量的数据[5]。因此,大数据的应用水平对于证券公司的发展而言越来越重要。提高大数据的应用水平是证券公司业务与计算机技术融合的表现[6]。

2.银行大数据。随着证券行业的不断发展,银行的媒介地位逐渐降低。银行在支付领域也面临着第三方平台的激烈挑战,同时又要应对手机支付的逐渐普及[7]。银行要想在激烈的竞争中立于不败之地,就需要认识到大数据的重要性。

银行自身有着丰富的数据,同时也有税务、工商、海关等外部数据[8],目前银行大数据的治理体系建设比较匮乏,数据资源管理的整合度不高,并且其非结构化数据占比不断上升,因此比较难以挖掘数据资源的潜在价值[9]。

3.保险大数据。保险行业的关键数据有:承保数据、保险数据以及理赔数据。保单里包含有投保人信息、被保人信息,保障内容,赔付条款,免责条款等[10],这些使得保险行业的数据规模巨大。由此可见,数据的整合处理的程度影响着保险公司的发展,而恰当使用大数据技术则有助于保险公司的发展,京东、阿里巴巴等公司投资保险行业,这是保险行业走向信息化的积极信号,如魏丽等人认为“大数据”是保险与电子商务融合的核心[11]。

(二) 金融大數据面临的挑战

1.数据量大,跨地域、跨系统分布。金融大数据来源于金融领域的各个行业,包括银行业务、股票业务、用户消费信息等[12],这些数据都来源于实际的应用,产生量很大,数据从结构化到半结构化甚至非结构化的形态转变[13],数据量从太级(TB)向Z级转变[14]。并且,金融业务广泛,金融行业系统分布在世界各地,要将这些系统连接成为一个网络,才能够使得数据汇总起来,并对大量的数据进行分析,进而明确这些数据代表什么。以及面对这些数据,我们应该提出怎样的对策,从而更好地为金融行业服务。以上几点,对资源和时间提出了很高的要求。

2.数据组织形式多样、结构各异。在金融企业中,技术一般更新换代较慢[15],可能会导致各个数据中心互相孤立,难以进行数据和资源的共享,并且会因此增加服务器和存储设备的数量,但是服务器和存储资源却不能得到充分利用。其次,金融行业业务种类繁多,不同的业务往往会产生各异的数据结构[16]。因此,整合、处理、分析组织形式多样、结构各异的数据是金融大数据领域面临的又一个挑战。

3.大数据分析策略变化频繁。当今的金融市场环境变化迅速,而市场监管规则往往需要被提出、形成草案提交后再到最终被审核实行,这是一个相对较为漫长的过程[17],因此市场监管规则的滞后与企业金融运转之间常常存在着矛盾。

三、金融大数据的处理技术

(一)基于语义的金融大数据整合技术

1.语义概述。语义即资源的含义[18]。即给符号赋予含义,使它不再单纯地作为一种符号,而是转化成为信息。

Tim Berners-Lee给出了语义web体系结构模型[19],如图1所示。

该体系中从低层到高层分别为:Unicode和URI (Uniform Resource Identifier),XML,RDF,Ontology,Logic,Proof以及Trust。同时,Digital Signature贯穿全过程,建立语义Web的安全机制。核心层为XML, RDF, RDF Schema以及Ontology。其中,RDF定义了底层数据模型并且为更高层次的语义网、更复杂的特征提供了一个基础平台。

2.基于语义的金融大数据处理。基于语义的大数据处理现在研究并不充分,浙江大学的杨鹍[20]提出利用语义技术将各种数据进行关联,通过将复杂数据之间的关系以RDF的形式进行整合来实现数据的共享,从语义层次上进行数据的查询与计算;另一方面,通过利用分布式计算技术实现大数据的高效处理;最后,通过采用提供编程接口的形式由客户端实现数据采集的逻辑。

周亮[21]提出通过语义的相似性提取大数据关联特征,通过对关联特征的相似性判决统计量排序来排出关联顺序,关联规则信息融合的判决统计量为:

其中表示大数据采样序列;表示数据采样时间间隔,;表示均值,表示数据挖掘过程中的语义相似度特征量:

实验结果显示,通过对大数据语义特征的提取,能够有效提高金融大数据的处理速度。

(二)金融多元时间序列数据分析

曾海泉提出了一个金融时间序列分析的技术分析流程[22],金融时间序列相似性查找技术,可以提供条件选股的分析,也可以进行在线相似性检测。

万校基等提出的金融多元时间序列数据分析[23]在度量相似性时采用了动态时间弯曲(Dynamic time warping, DTW)方法,DTW算法既可以度量不等长时间序列的相似性,还能在不同时间点上匹配相同波动形态的数据对,这一点明显优于只能度量等长时间序列之间相似性的欧式距离,从而更好地体现了金融数据时间序列的异步相关性。在对多元时间序列进行特征降维时,则采用了自适用中心算法(Adaptive method based on Center Line,ACL),该算法可以充分反映其波动规律。

(三)两种金融大数据处理算法的优劣性对比

在处理金融大数据时,上述算法各有其优缺点,在选取处理算法对金融大数据进行处理时,主要考虑的是算法执行速度、执行平台、处理效果等,往往是根据这些方面来进行应用场景的选取。需要注意的是,在一些情况下,需要结合多种不同的算法来处理金融大数据,以期获得最好的处理效果。

四、金融大数据的应用

证券大数据、银行大数据和保险大数据等金融大数据在其各自的行业内应用广泛,为行业的发展提供了便利和帮助。

(一)证券大数据的应用

1.量化投资。量化投资主要是通过计算机技术对证券数据进行分析和处理,结合一定的算法,形成投资策略[24],其基础就是海量的证券数据。证券公司在为客户提供信息服务时,需要準确的行业报告和上市公司报告、股价的实时变动信息、大盘走势等[25]。将海量的证券数据应用到量化模型中,进行数据的处理和分析,最终得到结论从而可以为客户提供投资决策的建议[26]。在不断的发展过程中,形成了许多效果很好的量化投资模型。如Fame提出的三因子选股模型[27]和五因子选股模型[28],谢合亮等提出的Elastic Net量化投资模型[29],田利辉提出的我国股票定价的五因子模型[30]等。这些模型为人们的投资提供参考策略,而它们都需要对海量证券数据进行分析才能得到良好的结果,因此,证券大数据在量化投资中起着支撑作用。

2.个性化服务。在互联网大数据背景下,证券公司可以获得的证券数据量增大[31],根据收集到的数据,可以设计出符合客户需求的产品。并且由于收集到的数据具有实时性,因此可以不断根据客户喜好的改变而改变产品的设计,目前,很多公司从数据分析展开业务设计,取得了良好的个性化服务效果[32]。可以分析的数据包括股票价格、换手率、无结构化新闻和文本以及隐含在社会媒体和网络中的消费者信心和商业情绪等[33]。

(二)银行大数据的应用

1.客户画像。针对个人客户和企业客户,都可以通过银行大数据对其进行特征提取进而形成客户画像。消费能力数据、兴趣数据、风险偏好等都是个人客户画像描述的重点目标[34];企业的生产、运营、财务、销售和客户数据、相关产业链上下游等数据则是在对企业客户进行画像时需要考虑的方面[35]。通过对银行大数据进行分析,得到个人客户和企业客户的画像,可以提高银行自身的业务收入,并更好的服务于客户。

2.智能风控。银行大数据包含的数据范围大、数据量大,可以利用恰当的算法,从风险控制的角度对银行的大数据进行分析处理,产生针对于不同场景的模型,用科学的方法挖掘出客户可能存在的风险[36]。例如可以分析客户的还款能力和意愿,对客户的异常消费行为进行风险预警,形成主动和积极的风险管理模式[37]。

(三)保险大数据的应用

1.精准营销。在精准营销这一方向,保险企业已经逐步关注怎么能够在整个的保险业务流程中更好地去整合各方面的客户数据,借助于外部的数据资源,对客户的购买需求、消费能力等形成全面、精准的描述,然后再对客户进行产品推荐、交叉销售、保险顾问等营销行为[38]。曾小波提出将大数据技术应用于保险企业,有利于精准营销[39]。

2.风险控制。骗保行为频繁发生,风控对保险公司来讲一直是比较严峻的话题。有效的风控对保险公司具有重要意义[40]。而大数据技术可以帮助保险企业全面提高风控能力。李起义提出通过收集市场上存在的关于投保人的大量数据,包括人际关系、消费能力等,并利用大数据技术,对投保人的信用进行评估,进而预测相应的风险[41],从而降低保险公司的承保风险。冯子超认为大数据对于保险公司的风险方法、业务流程、业务管理等方面有积极意义[42]。

五、金融大数据的发展趋势

(一)数据融合

目前,数据融合在许多领域都在不断使用,金融行业也不例外。主要是金融行业可以获取到其他行业的数据,更好地了解到客户的需求,制定出更为切合客户的营销策略,同时降低行业风险。另一方面,跨行业数据融合可以更精确地了解到客户在不同领域的需求,使金融行业得以设计出适合于不同场景的金融产品,扩大客户选择的范围,提高金融公司的盈利。

(二)金融大数据安全问题

大数据应用于金融行业也是一把双刃剑,一方面有助于金融行业的发展,但同时也带来了一些问题,其中较为突出的是数据安全问题。

随着互联网的发展,恶意的网络攻击层出不穷,而金融行业的数据往往具有相对较高的价值,因此更容易受到不法分子攻击[43]。大数据技术应用于金融行业的一个特点就是造成数据的集中性,一方面数据容易存储、读取和管理,但从另一方面来看,一旦数据发生泄漏,那么将会造成数据的大量甚至全部泄漏[44],被窃取的数据又可能通过互联网快速传播,给客户和金融公司造成不可预想的严重后果。因此,随着大数据技术的发展,也迫切需要有效的计算机技术以及规范的法律法规来保障金融大数据的安全。

参考文献:

[1]靳玉红.大数据环境下互联网金融信息安全防范与保障体系研究[J].情报科学,2018,36(12):134-138.

[2]周煜.大数据在金融领域的应用研究[J].计算机产品与流通,2018(10):254.

[3]刘园,郑忱阳,江萍,刘超.金融科技有助于提高实体经济的投资效率吗?[J].首都经济贸易大学学报,2018,20(06):22-33.

[4]刘妍慧.大数据技术在证券交易中的应用分析[J].现代商贸工业,2018,39(18):152-153.

[5]郭震洲.大数据改造金融业[J].清华金融评论,2017(11):98-100.

[6]徐力.大数据证券监管之路[J].中国金融,2015(05):63-64.

[7]何金星.关于大数据驱动商业银行金融科技创新转型的探讨[J].中国商论,2019(03):37-38.

[8]孙速超.商业银行大数据应用现状[J].纳税,2018,12(29):199.

[9]赵倩倩.大数据技术在传统银行中的应用研究[J].现代商贸工业,2018,39(30):54-56.

[10]马向东.大数据时代的保险营销[J].中国保险,2018(04):40-42.

[11]魏丽,王治军.保险电子商务应抓住“大数据契机”[J].中国金融家,2013(6).

[12]FU Yong Gui,ZHU Jian Ming,ZHANG Ning.Analysis on Information Value of Big Data in Internet Finance.2015 Int.ernational Conference on Logistics,Informatics and Service Sciences (LISS).

[13]顾君忠.大数据与大数据分析.软件产业与工程[J].2013年第4期.

[14]张鼐,张英,杜云,李英剑.大数据环境下基于云的分析即服务平台研究[J].情报探索,2014(08):5-7+10.

[15]赵大伟.大数据技术驱动下的互联网消费金融研究[J].金融与经济,2017(01):41-45+92.

[16]孙杰.大数据时代互联网金融创新与传统银行转型[N].金融时报,2014,11(009).

[17]Nir Kshetri.Big datas role in expanding access to financial services in China[J].International Journal of Information Management.

[18]袁金平,鲍爱华,姚莉.语义Web技术及其逻辑基础[C].计算机工程,2008.34(24) 194-196.

[19]Tim Berners-Lee,James Hendler,Ora Lassila.The Semantic Web[C].Scientific American.2001.

[20]杨鹍.基于语义的金融行业大数据整合及处理技术[D].浙江大学,2013.

[21]周亮.基于语义相似性关联特征提取的大数据挖掘技术[J].智能计算机与应用.2018,8(05): 134-137+142.

[22]曾海泉.”时间序列挖掘与相似性查找技术研究”[D].2003.

[23]万校基,李海林.基于特征表示的金融多元时间序列数据分析[J].统计与决策,2015(23): 151 -155.

[24]许龙.量化投资的应用现状与发展前景[J].现代商业,2019(05):68-69.

[25]谢东东.量化投资的特点、策略和发展探讨[J].时代金融,2018(27):245+252.

[26]陈健,宋文达.量化投资的特点、策略和发展研究[J].时代金融,2016(29):245-247.

[27]Fama,E.F.and French,K.R.The Cross-Section of Expected Stock Returns[J].Journal of Finance Econimics,1992,47(2):427-465.

[28]Fama,E.F.and French,K.R.A five-factor asset pricing model[J].Journal of Financial Economics,2015(1):1-22.

[29]谢合亮,胡迪.多因子量化模型在投资组合中的应用——基于LASSO与Elastic Net的比较研究[J].统计与信息论坛,2017,32(10):36-42.

[30]田利辉,王冠英.我国股票定价五因素模型:交易量如何影响股票收益率[J].南开经济,2014(2).

[31]杨莎,余伟,李石君,曹晶晶,刘晶.基于Web大数据挖掘的证券价格波动实时影响研究[J].计算机科学,2015,42(04):166-171.

[32]杨龙.借力大数据技术 证券行业迎转型契机[J].清华金融评论,2017(08):32-34.

[33]孟庆江.解读大数据及其在证券公司的应用[A].中国证券业协会.创新与发展:中国证券业2014年论文集[C].中国证券业协会:中国证券业协会,2014:8.

[34]丁立,何坚.大数据技术在银行的应用[J].数字技术与应用,2018,36(06):122-123.

[35]栾林,王建宁,黄斐,丁玲.基于大数据的商业银行对公客户画像体系的构建及应用[J].国际金融,2018(11):51-55

[36]李小庆.银行大数据智能风控平台建设及应用[J].中国金融电脑,2019(04):71-74.

[37]黄莉莎.大数据助推商业银行信贷业务与风险管理创新[J].经济师,2018(11):165-167.

[38]王琪,鄂海红,宋美娜,黄叒.论大数据技术对保险行业的影响[J].软件,2017,38(05):7-11.

[39]曾小波.大数据的“3j”服务——保险企业营销服务与大数据应用[J].当代金融家,2014(2).

[40]蒋韬.大数据和人工智能在保险行业的应用及展望[J].清华金融评论,2017(12):49-51.

[41]李起义.基于大数据和机器学习的保险风险管理应用研究[J].信息系统工程,2019(01):145-146.

[42]冯子超.大数据对保险公司未来发展的影响探究[J].商业文化,2013(12).

[43]康瑛石,郑子军.大数据整合机制与信息共享服务实现[J].电信科学,2014,30(12):97-102.

[44]Lin Liu.Security and Privacy Requirements Engineering Revisited in the Big Data Era.2016 IEEE 24th International Requirements Engineering Conference Workshops (REW).

(作者單位:河北经贸大学)

猜你喜欢

机器学习
前缀字母为特征在维吾尔语文本情感分类中的研究
下一代广播电视网中“人工智能”的应用
基于支持向量机的金融数据分析研究