APP下载

正态逼近与基于覆盖宽度的EM估计

2013-11-05韩立岩蔡明生尹力博

北京航空航天大学学报 2013年5期
关键词:正态正态分布方差

韩立岩 蔡明生 尹力博

(北京航空航天大学 经济管理学院,北京100191)

在工程设计、工程统计和价值评估的参数统计推断中,统计量分布的确定是一个关键环节.当一个统计量由众多独立而微小的因素所决定时,中心极限定理保证了设定其服从正态分布的合理性.目前主流参数统计说到底还是基于正态假设的.但是,在工程与价值评估相关的统计分析中,众多实例的数据分析结果不能给出统计显著的支持正态假设的证据.例如金融投资中收益率往往具有尖峰后尾或者偏斜特性,工程可靠性分析中的部件寿命也往往不满足正态特性.对此,以往的研究重点集中在特殊分布的选择上,由此往往导出十分复杂的分布形式,使得后续的统计分析难以展开.对此,本文提出一个新的思路:非正态分布的正态逼近,并在极大似然估计的期望最大化(EM,Expectation Maximization)算法中提出基于最大覆盖宽度的定阶原则.

1 分布选择问题

1.1 对正态分布的突破

在工程领域,任何随机扰动都是以正态分布为基础.在经济学领域,Bachelier在1909年开创性提出用正态分布研究股票价格之后,正态假设逐渐成为价值分析的正统.马克维茨最优资产组合理论和Black-Sholes-Merton期权定价理论奠定了正态假设之下新古典金融学的基石.而在其后对有效市场理论的检验过程中,否定正态假设的经验证据却主导了文献.人们发现当信息不均匀地传递到市场时就会导致收益分布呈尖峰厚尾或者偏斜状态,而且在不同的时间频率上差异显著.在最新的文献中,Kim等人以深入的实证研究拒绝了收益率的正态分布假设,并分别采用连续型和离散型市场模型归纳了正态破缺的条件异方差效应[1],金融统计的成果对于工程领域也具有启发性.只要信息传导出现集簇现象,正态性假定就很难成立.

系统极端事件发生的频率往往大于正态分布蕴含的概率,Levy稳定分布对资产收益率分布的左右尾部进行单独建模,可以描述分布的不对称性并对极端风险进行比较.Longin的实证检验发现欧美金融市场收益分布尾部可用指数大于2的稳定分布描述[2].该分布适合描述具有胖尾特征的分布,特征指数越小尾部越胖,当指数小于2时稳定分布的方差不存在.稳定分布一般用特征函数表示,含有4个参数:特征指数(尾部形状)、偏斜度(对称性)、尺度参数和位置参数.Nolan指出该特征函数在参数空间内是连续的,且是最简单的表示形式,因而数值计算和统计推理都比较方便[3].然而,稳定分布不存在有限方差却与市场实际情况不符合.经验分析表明,长时间标度的低频金融数据经验分布的方差一般是有限的.对此,Mantegna等提出截断Levy分布,具有有限方差,同时保留了良好的尖峰性质[4].Koponen提出的平滑截断 Levy分布[5]、Gupta和 Campanha提出的渐近截断 Levy分布[6]、Matsushita和 Gleria等提出的指数阻尼Levy分布[7-8],可以更好满足收益率长期记忆性和波动持续性的正反馈情形.虽然截断Levy分布可以较好地描述经验收益分布特征,但其密度函数十分复杂,使其应用受到限制.

证券市场的丰富数据为分布选择提供了试验场.陈启欢认为中国股票市场大体符合自由度为5~9的t分布[9].王新宇和宋学峰对中国沪深股市收益的统计分布特征和市场风险规律进行了定量比较研究,分别采用稳定分布、渐近Pareto分布和截断Levy分布拟合中国股票市场收益统计分布,实证研究发现中国股市收益分布的中间部分适合用稳定分布描述,分布的尾部适合用尾部指数大于2的渐近Pareto分布描述[10].都国雄和宁宣熙根据上证综指和深证成指在此前7年中不同时间标度的高频数据,对收益的波动特性进行了实证分析,发现收益的概率分布不仅具有明显的尖峰胖尾特征和标度不变性,而且遵循渐近幂律特性,稳定分布较好地描述了分布的中间区域,其特征指数表明价格波动具有非线性分形特征[11].黄德龙和杨晓光利用scaled-t分布、logistic分布、指数幂分布和GARCH-M模型等对沪深股指收益数据分布进行拟合,认为scaled-t分布可以较好模拟股指收益分布[12].用t分布、对称Levy分布等代替正态分布描述具有尖峰厚尾的统计量分布以及建模中的误差项分布是目前比较好的选择,但仍然是属于经验主导的选择.

1.2 混合分布模型

在工程计算和价值评估中由于不同信息的到达时间以及对统计量的影响程度不同,同分布的假设往往不满足,人们需要异质性的分布刻画.混合分布模型就是一个自然的结果.混合模型通常由2个分布构成,其中一个为正态分布,描述统计量的分布形式,另一个分布则描述干扰项的波动情况,控制正态分布方差的变动.由于在不同时间长度上信息的到达是不均匀的,因此在不同时刻,方差的分布很可能就不同,混合模型的形式也就不同.研究者探索了大量的混合模型,Press构造的复合事件模型起到了引领作用[13].Praetz研究了正态分布方差服从Gamma-2分布的情况,他证明在这种情况下收益率服从 t分布[14].Blattberg与Gonedes研究了正态分布方差服从特征指数小于1的严格正的渐进Pareto分布的情况,此时收益率服从对称的渐进Paretian分布,且特征指数小于2[15].由于Gamma-2分布与特征指数小于1的严格正的渐进Pareto分布都是非对称有偏分布,因此这2类模型都较好地刻画了信息到达的不均匀特征,特别刻画了外部冲击所引起的统计量较大变动.

通过以上文献分析可以看出,采取分析统计量形成机理从而确定对应的统计分布,具有坚实的理论基础,但是难以满足良好的统计特性;使用现有函数拟合经验数据的方法获得统计分布,有较好的精确度,但是缺乏坚实的理论依据.在长期探索之后,人们又开始关注经典的由正态分布的线性组合所构成的混合正态分布.

2 非正态分布的正态逼近

正态分布以其简洁、参数线性和清晰的统计理论依据而得到最为广泛的认可,任何一种偏离正态分布的具有非对称、尖峰后尾性质的分布都是依某种程度对于正态的扭曲.从标准函数空间逼近其他函数的思想出发,能否选择一个恰当数量的正态分布的线性组合来逼近一个非正态分布,这可能是选择其他非正态分布的最为简洁的替代.而有限混合正态分布自19世纪被提出后,在工程领域有着一定程度的应用,但是缺乏统计理论支持.近年来混合正态分布的应用有了新的进展,赵希男和崔海波针对上证指数和深圳成分指数采用2个正态分布加权的混合辨识模型,运用5阶矩估计和均方误差最小化迭代方法确定权重分配,并运用柯尔莫哥洛夫优度检验判定二元混合辨识的统计效果[16].随着计算机的出现和发展,对混合正态分布参数估计的研究紧密结合Dempster等人的最大期望(EM)算法,获得了新的估计方法[17].熊明和谢民育给出了均值混合正态分布的估计方法[18].Caudill针对混合正态分布的受限回归模型给出了部分自适应估计[19].

考虑到有限混合正态分布的简洁性,借鉴泰勒级数和傅里叶级数的逼近思想,本文提出替代非正态分布选择的新思路:选择若干个正态分布的凸组合而形成的有限混合正态分布在极大似然估计意义下逼近所考虑的状态分布.从统计上讲,极大似然估计是概率意义下的最优化选择,这就从统计理论上支持了非正态分布的正态逼近.

3 基于极大似然参数估计的EM算法

下面从有限混合正态分布的概念开始,顺序给出有限混合状态分布及其参数的极大似然估计的EM算法.

3.1 有限混合正态分布

假定X为一随机变量,其概率密度为

则式(1)的分布密度的参数形式为

其中权重要保证密度函数的积分等于1.

3.2 有限混合正态分布参数的极大似然估计

给定总体,抽取样本为n的简单随机样本,X1,X2,…,Xn,其样本似然函数为

用极大似然法估计的参数为

3.3 参数极大似然估计的EM算法

EM算法是分E(期望)步和M(极大化)步两个步骤的迭代运算.

1)E步.给定参数向量初值:

则在初值条件下样本 X1,X2,…,Xn中 Xi∈N(μ(0)j,σ2(0)j)的后验概率为

3.4 正态逼近成分分布数目k的确定

EM迭代中成分分布数目k的确定是关键环节.对一个确定的k来讲,EM迭代除了给出所估计的参数外,还给出相应的对数似然函数值l().赤池准则(AIC,Akaike Information Criterion)根据最大熵原理得出了极大似然函数与熵之间的关系.根据这个关系,在有限混合正态分布参数的极大似然估计中,确定k使AIC准则AIC=-2l()+2N(k)最小,其中N(k)是所估计参数的数目.

但是考虑到极端情形的覆盖程度,本文提出覆盖性准则:计算每一个混合正态分布的经过标准差调整的最大均值与相应权重的乘积减去经过标准差调整的最小均值与相应权重的乘积,称之为“覆盖宽度”,选取最大覆盖宽度的混合正态分布作为原始分布的正态逼近.

4 实证案例

下面选择北美股市的综合股指MSCI_NA从2006年2月到2011年1月的日度数据,进行收益率分布的正态逼近.MSCI全球指数,是摩根士丹利资本国际公司(Morgan Stanley Capital International)所编制的覆盖全球的使用广泛的权威证券指数.所选择的时间段覆盖了2008年全球金融危机的前后时间,具有代表性.

采用混合正态分布对于经验分布做逼近.根据上面介绍的EM迭代算法,用Matlab实现.正态逼近的支数(成分分布个数)最大取到11.覆盖宽度的结果如表1所示.覆盖宽度在经过权重调整前,最大覆盖宽度的逼近支数为7,而经过权重调整后的最大覆盖宽度的逼近支数为5.因此最佳逼近的参数如表2所示.

表1 混合正态分布覆盖宽度

表2 基于最大覆盖宽度的正态逼近参数

图1 5支混合正态分布逼近的分布密度

5支混合正态分布的分布密度如图1所示.根据最小AIC准则的逼近选择为2支混合正态分布,5支混合正态分布的拟合效果优于通常的2支效果.另外,在实验中与主要非正态分布的拟合相比,正态逼近方法具有估计时间短、方法统一并适用正态情形的理论框架的优势.

5 结论

针对涉及统计数据建模的工程与价值分析中复杂的分布选择问题,结合混合正态模型的实践,本文提出非正态分布的正态逼近的思路,并在EM算法中提出最大覆盖宽度的定阶原则.实证结果验证了方法的可行性.今后研究的重点应放在分布逼近的稳健性评价与控制准则上,以满足复杂情形对于估计有效性的要求.

References)

[1] Kim Y S,Rachev S T,Bianchi M L,et al.Financial market models with levy process and time-varying volatility[J].Journal of Banking & Finance,2008,32(7):1363-1378

[2] Longin F.The asymptotic distribution of extreme stock market returns[J].Journal of Business,1996,69(7):383-408

[3] Nolan J P.Stabledistributions:models for heavy-tailed data[M].Verlag:Birkhauser,2003

[4] Mantegna R N,Buldyrev S V,Goldberger A L,et al.Linguistic features of noncoding DNA sequences[J].Physical Review Letters,1994,73(23):3169-3172

[5] Koponen Ismo.Analytic approach to the problem of convergence of truncated Lévy flights towards the Gaussian stochastic process[J].Phys Rev E,1995,52:1197-1199

[6] Gupta H M,CampanhaJ R.The gradually truncated Lévy flight for systems with power-law distributions[J].Physica A:Statistical Mechanics and Its Applications,1999,268(1):231-239

[7] Matsushita R,Rathie P,Silva S D.Exponentially damped Lévy flights[J].Physica A:Statistical Mechanics and Its Applications,2003,326(3):544-555

[8] Gleria I,Figueiredo A,Matsushita R,et al.Exponentially damped Lévy flights,multiscaling and slow convergence in stock markets[J].Physica A:Statistical Mechanics and Its Applications,2004,342(1):200-206

[9]陈启欢.中国股票市场收益率分布曲线的实证[J].数理统计与管理,2002,21(5):9-11 Chen Qihuan.The curve of stock market yield in China[J].Journal of Application of Statistics and Management,2002,21(5):9-11(in Chinese)

[10]王新宇,宋学峰.拟合中国股票市场收益的统计分布[J].系统工程理论与实践,2006(12):40-46 Wang Xinyu,Song Xuefeng.A study on describing the statistical distribution of returns in Chinese stock markets[J].Systems Engineering-Theory & Practice,2006(12):40-46(in Chinese)

[11]都国雄,宁宣熙.我国股市收益概率分布的统计特性分析[J].中国管理科学,2007,15(5):16-22 Du Guoxiong,Ning Xuanxi.Statistical properties of probability distributions of returns in Chinese stock markets[J].Chinese Journal of Management Science,15(5):16-22(in Chinese)

[12]黄德龙,杨晓光.中国证券市场股指收益分布的实证分析[J].管理科学学报,2008,11(1):68-77 Huang Delong,Yang Xiaoguang.Empirical study on distributions of stock index returns in China’s securities market[J].Journal of Management Sciences in China,2008,11(1):68-77(in Chinese)

[13] James S.A compound events model for security prices[J].The Journal of Business,1967,40(3):317-335

[14] Praetz P.The distribution of share price changes[J].Journal of Business,1972,45(1):49-55

[15] Blattberg,R C,Nicholas J G.A comparison of the stable and student distributions as statistical models for stock prices[J].Journal of Business,1974,47(2):244-280

[16]赵希男,崔海波.确定金融资产收益率分布形式的一种方法[J].数量经济技术经济研究,2004(9):56-63 Zhao Xi'nan,Cui Haibo.A kind of methods to determining return distributions of financial assets[J].Quantitative & Technical Economics,2004(9):56-63(in Chinese)

[17] Dempster,Nan Laird,Donald Rubin.Maximum likelihood from incomplete data via the EM algorithm[J].Journal of the Royal Statistical Society:Series B,1977,39(1):1-38

[18]熊明,谢民育.均值混合正态分布统计量的性质[J].数学物理学报,2009(3):685-690 Xiong Ming,Xie Minyu.The properties of the mean-mixture of normal distribution[J].Acta Mathematica Scientia,2009(3):685-690(in Chinese)

[19] Caudill S B.A partially adaptive estimator for the censored regression model based on a mixture of normal distributions[J].Statistical Methods and Applications,2012,21:121-137

猜你喜欢

正态正态分布方差
关于n维正态分布线性函数服从正态分布的证明*
概率与统计(2)——离散型随机变量的期望与方差
利用二元对数正态丰度模型预测铀资源总量
直觉正态模糊数Choquet 积分算子及其决策应用
生活常态模式
方差越小越好?
计算方差用哪个公式
抽样分布的若干反例
方差生活秀
正态分布及其应用