外围股指与上证综指多元回归模型及其统计诊断
2012-09-21刘鹤飞张波
刘鹤飞,张波
(1.曲靖师范学院数学与信息科学学院,云南曲靖655011;2.云南大学研究生工作部,云南昆明650031)
外围股指与上证综指多元回归模型及其统计诊断
刘鹤飞1,张波2
(1.曲靖师范学院数学与信息科学学院,云南曲靖655011;2.云南大学研究生工作部,云南昆明650031)
从理论上给出了一种多元线性回归模型统计诊断的方法,并以外围股指对上证综指多元回归模型为例,检验了该方法的诊断效果.
统计诊断;数据删除;线性回归模型
随着全球经济一体化的加剧,一个国家的经济正越来越受到外部经济环境的影响,作为一国经济的晴雨表的股市更是首当其冲[1].2008年发生在美国的次贷危机就席卷全球,波及全世界的股票市场.目前,正愈演愈烈的欧债危机,也考验着全球股市.从1990年上海证券交易所成立以来,我国的资本市场也已经有23个年头了,正日益走向成熟.作为上交所的代表指数,上证综指已经成为众多专家、学者和股民研究中国股市波动的一个重要参考依据.本文选取了许多外国股票指数,建立了外围股指对上证综指的多元线性回归模型,并对模型进行了统计诊断[2].
1 外围股指对上证综指多元回归模型的建立
1.1 数据选取及来源
选取了全球比较有影响的11种股票指数2011年全年每个交易日的收盘价作为研究数据.包括美国纳斯达克指数(N)、标准普尔指数(B)、道琼斯指数(D)、英国富时指数(F)、法国巴黎CAC指数(C)、加拿大股票指数(J)、澳大利亚悉尼股票指数(X)、韩国首尔综合指数(Z)、日本日经指数(R)、香港恒生指数(H)、台湾加权指数(T)、以及上海证券交易所综合指数(S).所有数据均来自腾讯股票频道的环球股指栏目.
1.2 外围股指与上证综指的相关性分析
对11种股票指数进行缺失数据处理之后,得到11种股票指数2011年248个交易日的数据.利用SPSS[3]对其进行相关性分析,结果见表1.
表1列出了上证综指与11种外围股指的Pearson相关系数,我们选取相关程度比较高的7个变量,美国纳斯达克指数(N)、英国富时指数(F)、法国巴黎CAC指数(C)、加拿大股票指数(J)、澳大利亚悉尼股票指数(X)、韩国首尔综合指数(Z)、香港恒生指数(H),建立这7个变量与上证综指的多元线性回归模型.
表1 上证综指与11种外围股指的相关系数
1.3 建立多元线性回归模型
利用SPSS对选取的7个变量进行回归分析,结果见表2.
表2 多元回归分析结果Coefficientsa
则外围股指对上证综指线性回归模型为:
2 基于W-K统计量的数据删除模型对线性回归模型的统计诊断
2.1 模型原理
在本文的多元线性回归模型S=96.588+0.216N-0.460F+0.028C+0.198J+0.144X+0.199Z+ 0.042H中,为了评价第i个数据点Zi(x1i,x2i,x3i,x4i,x5i,x6i,yi)在该回归模型中的作用与影响,我们通过比较这第个i点删除前后模型统计推断结果的变化来检测这个点是否为异常点或强影响点[4].删除第i个数据点后的模型称为数据删除模型.
为了度量第i个数据点删除前后回归系数估计量之间的差异,我们引入W-K统计量,用W-K统计量来表示删除第i个数据点前后拟合值的差异,即)与之间的差异.其定义为
对于本文的线性模型,W-K统计量可以表示为
从上式可以看出,W-K统计量是一种广义距离,它反映了删除第i个数据点前后回归系数之间的差异,式中ti通常称为学生化残差,其服从t(n-p-1)分布,因此|ti|充分大的点为异常点,故WK2i充分大的点为异常点[5].
2.2 实证分析
经计算,2011年248个交易日的WK2i中,大于0.3的有1个,0.2至0.3之间的有4个,0.1至0.2之间的有13个,其余的都小于0.1.
WK2i大于0.2的5个交易日分别是:2011年1月20日WK2i为0.356;2011年1月25日WK2i为0.232; 2011年9月6日WK2i为0.218;2011年3月10日WK2i为0.211;2011年9月23日WK2i为0.207.因此认为这5个交易日是该回归模型的强影响点.
2011年1月20日国务院常务会议审议并原则通过了国有土地上房屋征收与补偿条例草案.上海市国土局发布通知,上海国土部门在约定土地使用权期满之后,将会无偿收回.这一消息可能是2010年1月20日上证综指大跌的原因,也是WK2i偏大的原因.
2.3 强影响点删除之后的线性回归模型
我们将5个WK2i偏大的强影响点删除之后,得到新的回归模型为:
3 强影响点删除前后线性回归模型预测结果比较
把几种相关外围股指数据分别代入强影响点删除前后的线性回归模型中,得出2012年1月前3个交易日上证综指的预测值(见表3).
表3 2012年1月前3个交易日上证综指预测值
从表中的预测结果可以计算出,强影响点删除前预测的偏差平方和s21=505.22,强影响点删除后的偏差平方和s22=150.15.
4 结语
本文介绍了利用W-K统计量的数据删除模型对线性回归模型进行统计诊断的方法,并用外围股指对上证综指回归模型进行了实证分析,比较了强影响点删除前后线性回归模型的预测值与真实值的偏差平方和.
[1]陈洁,张定胜.国际股市对上证综指的影响[J].北京理工大学学报:社会科学版,2012(1):32-37.
[2]韦博成,林金官,解锋昌.统计诊断[M].北京:高等教育出版社,2009.
[3]郝黎仁,樊元,郝哲欧,等.SPSS实用统计分析[M].北京:中国水利水电出版社,2007.
[4]王怀亮.回归诊断在统计数据异常值探测中的应用[J].黑龙江对外经贸,2011(2):118-119.
[5]杨虎,邵华.线性回归诊断中的高杠杆点度量[J].工程数学学报,2009(1):123-132.
(责任编辑万志琼)
Multivariate Regression Model of Outside Stock Index Acting upon Shanghai Composite Index and Its Statistical Diagnosis
LIU He-fei1,ZHANG Bo2
(1.School of Mathematics and Information Science,Qujing Normal University,Qujing 655011,China; 2.Graduate School,Yunnan University,Kunming 650031,China)
This paper gives a method of statistical diagnosis for the multivariate regression model and applies it to the analysis of the outside stock index acting upon Shanghai composite index.
statistical diagnosis;data delete;linear regress model
O 212.1
A
1672-8513(2012)04-0270-03
10.3969/j.issn.1672-8513.2012.04.010
2011-09-16.
刘鹤飞(1985-),男,硕士.主要研究方向:应用统计.
张波(1963-),男,硕士,副教授,硕士生导师.主要研究方向:应用统计.