基于频率模型平均OPT权重选择对上证指数的实证分析

2021-05-17栗祥虎

长春工业大学学报 2021年2期

王珺，栗祥虎

(长春工业大学数学与统计学院，吉林长春 130012)

0 引言

随着经济全球化的发展，中国股票市场近年来发展状况良好。上海证券交易所成立了30年，上证综合指数的走势在很大程度上代表了股票市场价格变动情况，这使得众多金融经济领域专家学者对其波动特性及走势运用各种模型方法进行了研究与预测。孙碧波[1]通过技术分析研究发现，对于上证指数，持有期可变的移动平均线可以预测超额利润；曾慧[2]运用GARCH模型对上证指数的波动性进行分析发现，中国股票市场有尖峰后尾性、信息不对称等特点，表明中国股票市场行情与发达国家股票市场有相同的特点。

传统的模型选择方法是根据一些模型评价准则选择能解释现有数据的最佳模型，进而估计模型参数，其中最经典实用的就属最小二乘回归模型[3]，张俞[4]运用最小二乘回归模型分析了上证指数收盘价与股票成交量等股票价格指标之间的关系，拟合上证指数收盘价的效果良好。对于常见的多重共线性问题，岭回归模型是代替最小二乘回归模型的有效模型。韩鸣等[5]以岭回归模型研究了影响物流业股票价格的主要指标因素。而模型平均法则是综合考虑不同模型的分析结果，Buckland S等[6]首先创立了S-AIC和S-BIC方法，自此模型平均方法逐渐发展起来。近年来，Hansen B E[7]提出了Mallows极小化的权重估计准则来计算频率模型平均估计量。由于Mallows准则与平方误差渐近等价，因此最小化Mallows准则的模型平均估计量在大样本中也最小化了平方误差。在此基础上，Liang H等[8]提出了OPT方法，该估计有较好的小样本性质，结论证明，相对于其他模型选择方法，OPT估计是渐近最优的。因此，运用频率模型平均OPT权重选择法对股票市场进行研究也有其重要的意义。

1 频率模型平均方法

目前频率模型方法主要应用于线性模型

y=Xβ+Zγ+ε，

ε～N(0,σ2In)，

(1)

为选择矩阵。基于以上条件，FMA系数估计表达式可表示为

(2)

(3)

(4)

其中

权重表达式为

(5)

式中：qi----各模型回归变量的个数；

a(>0)，b(>0)，c(<0)----常数。

式(4)中

(6)

式中：A=Im-Wi；

B=Im-Wj。

由此计算式(4),令其最小化，此时再将得到的a，b，c值代入式(5)，便得到了各模型系数的权重，即可得出式(2)的系数值。

2 实证分析

2.1 数据来源

数据来源于同花顺软件2016年1月4日至2020年10月22日上证指数日度数据,共1 168组，因变量y为当日上证指数收盘价数据，自变量x1～x8分别为振幅、总手、金额、DEA(异同平均数)、涨跌、DIFF、涨幅、5日平均值。各指标变量定义见表1。

表1 变量定义

对以上数据做统计描述，见表2。

表2 数据统计描述

为了消除量纲的不同，对数据进行标准化，标准化后的上证指数收盘价时序图如图1所示。

图1 收盘价时序图

由图1可以看到,在2016年初收盘价暴跌后，直到2018年3月收盘价整体上来看是上涨的，期间有不同程度的波动，2018年3月起由于中美贸易战加剧，至2019年2月中旬，上证指数收盘价一路呈现暴跌的趋势，而近两年时间，其走势也是阴晴不定。2020年3月初，上证指数又迎来了最低点。由于美联储的无限量宽松,短期确实对市场起到稳定作用，同时美国财政纾困政策出台也有助于缓解疫情和油价下跌给经济带来的冲击，而国内银保监会公布《保险资产管理产品管理暂行办法》，有力引导长期资金参与资本市场，同时财政部长表示，中国积极的财政政策将更加积极有为，后续的政府刺激政策力度有望加大，上证指数又逐渐回暖，全球股指也持续反弹。在此，采用上述上证指数日度数据变量对收盘价进行模型拟合。

2.2 FMA模型实证分析

首先建立上证指数收盘价的回归模型

y=β1x1+β2x2+β3x3+β4x4+β5x5+

β6x6+β7x7+β8x8+εi。

(7)

总体研究思路是:首先从所有拟合模型中挑选出合理有效的回归模型，然后考虑所选模型中自变量是属于X还是Z，再进行模型权重的选择。

首先考虑的是最小二乘回归模型，做回归分析后发现,涨跌与涨幅的参数估计结果在模型中P值大于0.050表明不显著，因此将其去除；由于总手、5日平均的相关性较高，DEA和DIFF的相关性也比较高，应分别去除一个变量，在此将5日平均值和DIFF去除。虽然总手与金额的相关性也高，但是结合模型的拟合优度,决定将总手与金额一并留在模型中。最小二乘回归结果见表3。

表3 最小二乘回归分析

通过表3可以发现，各变量参数估计的P值都小于0.050，表明各变量拟合效果对因变量收盘价显著，即最小二乘回归模型

y=-0.175 2x1-1.297 2x2+1.588 2x3+0.224 0x4。

(8)

接下来运用岭回归模型建模分析，把相关性强的变量都引入模型中，岭迹图如图2所示。

由图2可以看出，当最佳K值为0.1时，标准化回归系数趋于稳定状态，分析结果见表4。

表4 岭回归分析

通过表4可以发现，各参数的P值基本都在0.050以下，变量涨跌的P值虽然等于0.053 0，但是模型整体拟合效果良好，即岭回归模型

y=-0.212 7x1-1.123 9x2+1.586 3x3+

0.404 4x4-0.536 2x5-0.187 5x6+

0.561 2x7-0.168 3x8。

(9)

然后进行广义线性回归建模分析。广义线性模型是线性模型的推广，不需要令因变量服从特定的分布，相比一般线性模型要宽泛许多，剔除回归分析中显著性不强的变量，分析结果见表5。

表5 广义线性回归分析

以上变量都通过显著性P值，即广义线性模型

y=-0.204 5x1-1.115 5x2+1.588 2x3+

0.395 3x4-0.176 3x6-0.179 4x8。

(10)

y=-0.175 4x1-1.295 8x2+1.588 2x3+

0.225 3x4-(3.340 7e-5)x5-0.001 4x6+

(3.496 5e-5)x7-0.001 4x8。

(11)

通过最终模型可以看到,x1振幅越大，代表股票活跃度越高，相应地当日收盘价就变低；x2总成交量越大，收盘价也越低，通俗来讲，中国股票市场中散户投机者众多，股票价格降低，股民就会顺势买入股票，相应地该股票活跃度就越高；而x3成交金额越大，说明收盘价越高，股民卖出的股票就越多；x4增大时，则说明收盘价走势升高，可持仓也可近期卖出。x4～x8属于辅助变量，同理可发现其估计系数的合理性，在此不一一赘述。短期内每个指标都或多或少与前后日走势相关联，综合其日度增减情况，便可分析出上证指数的涨跌情况，甚至大胆预测未来其走势。模型的拟合图如图3所示。

图3 FMA模型拟合图

从图3可以发现，FMA模型拟合的走势与上证指数收盘价走势基本同步，前期二者拟合效果非常好，整体走势基本相同，所以FMA模型对上证指数的分析有重要意义。

2.3 模型检验

首先对最终得出FMA模型残差进行观察，FMA模型残差、QQ如图4所示。

(a) 残差柱状图 (b) 残差QQ图

通过图4可以发现，模型的残差大部分都在0周围分布，QQ图也说明残差基本呈现正态分布，说明模型拟合效果良好。然后对平均模型与候选模型进行比较，标准偏差、方差、均方误差对照见表6。

表6 标准偏差、方差、均方误差对照

通过表6可以发现，经过FMA过程的频率平均模型的标准偏差、方差和均方误差比最小二乘回归模型小，虽然比其他两个模型略大，但也是在小数点后两位有所显现，所以综合来看,模型的普适性更强。

3 结语

通过得出的频率平均模型可以发现,当日上证指数收盘价与振幅、总手、涨跌、涨幅和五日平均值呈现负相关关系，与成交金额、DIFF、DEA呈正相关关系，因此当日上证指数收盘价的上涨和下跌可以通过观察以上变量的增减来分析。由于目前选取的变量有限，模型拟合效果还不算完美，若加入更多可参考的变量或筛选更多的待选模型，分析结果可能会更精确，这也是今后工作的重点。