基于数据挖掘的金融市场风险刻画研究

2009-05-29徐宏忠符正平聂广礼

现代管理科学 2009年4期

徐宏忠　符正平　聂广礼

摘要：由于金融危机发生的周期性和规律性，对金融危机风险的预警和分析越来越重要并具有一定可行性。文章从经济分析和数量方法两个角度综述了当前金融市场风险分析与预警的方法，提出了基于数据挖掘的金融市场风险刻画的方法和步骤，对我国金融市场的风险预警具有很好的借鉴意义和实用性。

关键词：金融危机：数据挖掘；金融市场风险

一、引言

始于次贷危机的美国金融危机给美国以及全球的金融系统带来了沉重的打击，在短短一周的时间里世界上最大的四家美国投资银行全部走入历史，全球最大的私营保险集团AIG一夜之间成为美国最大的“国有企业”。在十月份美国道琼斯指数连跌八天，截止2008年10月12日全球股市蒸发6万亿美元，也使很多主权国家背负了沉重的债务。

金融危机的历史多次重演。金融系统的危机已经出现多次，如1929年美国大萧条、1990年日本银行危机、北欧银行危机等，诸次危机都造成了很大的破坏。虽然危机发生所在的各个国家的状况各不相同，各次影响也有小有大。但是这几次危机有着近乎相同的起因，那就是廉价的资金成本加上金融法规的开放，导致投资风气大盛。刺激股市和房地产价格飙涨(吴玥，2008)。这次美国金融危机的直接原因是金融衍生品过度开发，但是从根本上说也是美国前期过低的利率水平和过松的监管造成的。

金融危机是风险中孕育着机遇。从长远看，危机能够暴露经济发展中长期存在但被经济发展所掩盖了的问题，问题集中爆发，能够引起所有的人注意并进行经济制度项目式改进，是经济发展的正常环节。金融危机的教训能够帮助制定正确的经济政策，但是前提是要对金融危机的规律进行正确的总结。

由于历次金融危机多以共同或者相似的情形肇始、演变、结束，总结历次金融危机的历史原因和解救方法。及时发现金融系统中存在的问题。提出解决方案，上升为规则化的知识，在问题还没有给虚拟经济和实体经济造成深远破坏影响之前，对其及时予以纠正，对确保经济的健康发展是十分必要的。

数据挖掘技术(Data Mining)是进行金融市场风险知识提取非常好的选择。数据挖掘是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程，简单的说，就是从大量数据中提取或“挖掘”知识。数据挖掘分为关联规则、分类、聚类、预测、序列模式、类似时间序列等类别。由于信息技术的进步。数据挖掘和知识发现技术已经取得了长足发展。在处理速度。准确度以及应用领域上都有了很大的突破。

借助金融危机研究金融市场风险的目的是总结知识，吸取教训。对现行经济政策中的问题及时予以改正。基于数据挖掘的知识发现能够通过规则、模型、高频繁项集等各种方式来呈现总结得到的经验型知识，可以用于辅助金融市场政策的制定，并具有一定的预警作用。

二、金融市场危机风险研究现状

目前国内外对于金融危机风险的研究主要集中在两个方面，一个是从经济学的角度探讨金融危机发生的原因及其对策，另一个是用数量的手段对金融风险进行量化的研究，下面首先从经济学的角度对其研究现状进行分析总结。

金融危机本质上也是一种经济周期，经济周期理论是本研究的理论基础。经济周期(Business Cycle)是指市场经济生产和再生产过程中周期性出现的经济扩张或者经济紧缩交替更迭循环往复的一种现象(宋承先，1997)。在经济学的研究中已经出现非常多的经济周期研究理论，大体可以划分为凯恩斯之前的经济周期理论和现代经济周期理论，现代经济周期理论包括凯恩斯主义、货币主义和理性预期学派三个经济周期理论学派(梁小民。2000)。

随着信息技术的发展，一些数量或者实证的方法也成为研究的热点，目前已经有一些进行实证或者数量的金融风险研究。Kaminsky等人的“信号法”(简称KLR法)认为。一个指标偏离均值的程度超过阀值时，被称之为发出了一个信号，噪音一信号比率是实际发出的坏信号的份额(噪音)除以实际发出的好的信号份额。通过噪音一信号比来筛选出对金融危机有预警力的指标，噪音一信号比的倒数确定指标的权重，从而加权平均计算金融危机的发生概率。Frankel等人的概率单位模型(简称FR法)。先确定尽可能大量的对金融危机有重要影响的经济变量作为监测指标，通过解对数方程来得出各变量的权重向量，再加权平均计算金融危机的发生概率。

Sachs，Tomell&Vclasco;等人的横截面回归模型(简称STV法)，利用20个新兴市场国家的横截面数据进行估计。把危机指数(IND)定义为储备减少百分比和外汇减少百分比的加权和。利用横截面数据来估计模型的参数，然后检验，得到了模型。

这些预警方法在国内外应用广泛但均有其共同的不足是：主观性、缺乏非线性处理机制、缺乏整体全局观念、静态性。为了避免上述方法的局限性。有些学者在探索使用非线性分析工具——人工神经网络模型对金融危机进行预警。

数据挖掘在金融预测中也有一些应用。数据挖掘由于具有不需要依靠假设条件、能够处理大规模数据等优点已经在金融分析中有很多应用。数据挖掘在金融分析的应用主要包括对被预测对象有强力影响的因素的分析以及对某些变量进行预测(Sherry Y.Chen，2005)。

中国科学院管理、决策与信息系统重点实验室的汪寿阳等以集成思想为核心。以智能技术为集成工具。将文本挖掘技术、计量经济模型、人工智能技术综合集成起来，提出了一个处理复杂系统预测的新的方法论——TEI@I方法论。并将该方法论用在外汇汇率(汪寿阳、余乐安、黎建强，2007)和原油油价(Yu LA，Wang SY，Lai KK，2008)的预测上，取得了非常好的效果。

在国外的研究中，由于金融数据多是大样本、高维度的数据，而数据挖掘擅长处理多变量的大数据。因此有较多应用研究，数据挖掘在金融领域应用主要集中在信用卡审核、股票市场分析，投资决策等(Sherry Y.Chert，2005)。

综上我们可以看出，经济学角度的研究多从经济微观机理上探讨经济周期、金融危机的发生和发展，试图从消费、投资以及货币等角度解释经济周期：数量的方法虽然有一些成果。但是多是用于证明某几个变量有相关性。验证研究者的理论假设，不能给出金融市场风险的规则和模式。目前已经有一些人工智能的方法用在金融危机的研究中，但是现在将数据挖掘的时序关联规则和时序分类方法用在金融危机市场分析的仍然较少。

三、基于数据挖掘的金融市场风险

1、经济周期的理论研究。金融危机根本上也是一种经济周期。根据前面综述可以看出。关于经济周期已经有比较多研究成果，凯恩斯主义、货币主义和理性预期主义等经济周期理论从不同的角度分析经济周期，对某些现象做出了不同的解释。他们的共同之处就是承认经济周期是

经济本身的一个内在机制。但是各有各自的侧重点。

基于现有的研究理论，兼容并包地吸取各个学派的理论，从实体经济和虚拟经济两个角度分析导致金融市场风险的影响因素，分析预警模型需要考虑到的因素。

(1)从实体经济角度研究危机影响因素。根据成思危的理论，实体经济是指资本要经过形态的变换才能产生利润。即先将资本通过交换变成劳动力、设备、原材料、厂房等生产要素。然后通过生产过程变成产品，产品经流通变成商品。商品再通过交换变回货币形态。才有可能产生利润，这就是实体经济的运行模式(成思危2008)。生产、消费以及创新等都是实体经济的范畴。实体经济是虚拟经济的根本，系统地研究实体经济引起的金融周期变化，探讨实体经济的变动对金融市场风险的影响因素，从理论上探讨风险刻画时模型应该使用的影响因素。

(2)从虚拟经济角度研究危机影响因素。虚拟经济(Fictitious Economy)简单的说就是直接用钱生钱(成思危2008)，投机、投资以及货币因素等都是虚拟经济的范畴。货币主义所强调的货币量对周期的关系就属于虚拟经济范畴的经济周期理论，货币危机理论强调在发达资本主义国家流通的主要工具是银行信用，在经济发展高涨期。银行会放松银根，大量放贷，形成积累的信用扩张和经济高涨。但是当信用扩张到一定程度。银行会被迫停止信用扩张。从而导致危机和累积的衰退。该理论在一定程度上阐述了当前美国危机的原因，但忽略了实体经济的影响。系统化分析虚拟经济范畴的经济周期理论，进行虚拟经济周期理论的影响因素分析，得出能够预警金融危机风险的虚拟经济范畴影响因素。

经济周期的理论研究是本预警系统的理论基础，金融危机本质上也是经济周期的一部分。预警系统首先从虚拟经济和实体经济两个维度去分析现有因素对经济周期的影响，并彻底理顺各个影响因素之间的关系，形成影响因素列表。

2、数据收集和处理。金融市场预警需要从两个角度出发建立预警模型。一个是横向的，通过使用多次危机的数据建立模型；另外一个是纵向的，即同一个国家或者区域的时序数据模型。

横向的角度。根据设计的属性。可以收集使用多个危机发生前后的经济周期和金融危机的相关数据。包括但不限于近三十年来的6次危机：1982年～1983年的拉美债务危机、1990年代开始的日本经济衰退、1992年～1993年欧洲货币体系危机、1994年～1995年墨西哥金融危机，1997年东南亚金融危机，2008年始于美国次贷的金融危机等几次涉及范围较广、影响较大的危机。本模型将以危机影响区域作为研究对象，以年为时间窗口间隔。收集近三十年来在属性设计部分中所涉及的数据，并收集每一个时间窗口该国家的经济健康状况数据。

另一个角度即纵向角度，模型可以选取典型的危机发生区域，采用更加细化的时间窗口，收集处理数据。

3、据挖掘模型研究金融市场风险知识发现。根据前面选取的属性，主要进行时序分类和时序关联规则算法的研究，在已有算法的基础上，进行改进和创新，研究适合进行金融市场风险刻画的数据挖掘算法。

在前面数据挖掘模型选择和上述数据处理的基础上，进行模型建设和知识呈现。首先要进行数据的降维，上述影响因素理论分析时把各时期对金融市场风险相关的因素均尽可能地考虑在内，在模型使用时如果需要收集如此多输入变量。其成本将非常高。通过降维等技术将上述数据收集处理部分得到的数据进行预处理并建模。根据各个算法各自的优缺点分别建立金融市场健康预测模型和金融市场健康预测规则。

风险预警模型是基于时间窗的时序动态分析，时间窗的设计如下图所示。研究将用观察期的数据(T₁-T₂)作为自变量。用表现期(T₂-T₃)该样本的金融风险状况作为因变量，这样建立的模型将是动态的时序模型，模型将具有较强的预测能力。

将上述规则进行知识的呈现，通过设计知识管理系统，动态收集所涉及的变量，判断各个国家的金融风险状况。

四、结论

本文分析设计一个建立以预警作为基本功能的金融市场风险知识系统的过程。将金融市场风险预警模型以及所得到的规则知识系统化。随着宏观统计数据以及各种微观数据的变化，将通过金融市场风险系统动态化的更新对经济状况的判断，同时借鉴知识管理系统(Knowledge Management System)的建设经验。从多个维度展示预测结果和规则知识。这个系统将动态收集模型预测所需要的属性，进行金融市场风险的动态监控。一方面设置阀值，当单个属性达到风险上限时进行预警：另一方面将提供健康状况规则知识，动态进行经济健康诊断。