APP下载

中国股市区域相依关系及其动态演化研究
——以2015年股灾为分析背景

2020-06-30吴献博惠晓峰

复杂系统与复杂性科学 2020年2期
关键词:互信息股灾相依

吴献博,惠晓峰

(哈尔滨工业大学经济与管理学院,哈尔滨 150001)

0 引言

近年来,越来越多的投资者希望通过科学的投资方法来尽可能地获得更高的利润并减少投资损失,为了达到这一目的,投资者们通常都会进行分散化投资,避免将投资全部放在某一单一种类的投资标的上,而是分散到相依性较小的不同种类或不同板块的资产上,因此厘清股票市场间相依关系已经成为分散化投资的关键,也对于资产优化配置和风险管理有着重要的意义。

目前关于股市相依关系这一课题,国内外学者都已进行了大量的研究工作,主要包括一国股市与国际上其他国家股市的相依关系、一国股市内部各个板块间的相依关系、一国股市与该国其他金融产品的相依关系等等,且在股市相依关系的研究中所用的方法也多种多样,主要集中在Pearson相关系数法、格兰杰因果法、Copula法和多元GARCH法等几种。其中,对于Pearson相关系数法:Meric等立足于美洲市场股市相依关系的研究,利用Pearson相关系数法,综合分析了美国股票市场与阿根廷,巴西,智利和墨西哥这4个股票市场之间的相依性[1]。Junior等利用Pearson相关系数法,研究了包括全球83个股票市场在内的股市相依结构,该研究结果表明全球股票市场间存在着显著的相依性,且该相依关系具有一定的地理聚类效应[2];对于格兰杰因果法:Huyghebeart和Wang以1997年亚洲金融危机为研究背景,通过协整检验和格兰杰因果法,研究该危机对于东亚地区股票市场的影响,并发现在危机过程中,美国股票市场对中国和东南亚等国的股市影响较大[3]。王璐等研究了美国股市与新兴市场国家的相依关系,并发现美国股市对于中国、巴西、印度和俄罗斯的股市有一定的影响,而且对于巴西股市的影响更为显著,这一结果也体现了股市相依关系的地理聚集性[4]。Ajmi等研究了伊斯兰股票市场与外界的相依性,通过线性和非线性格兰杰因果法,研究发现伊斯兰股票市场与外界存在着广泛的相依关系[5]。王克达等立足于金融危机期间股票市场相依结构和网络的研究,在格兰杰因果法的基础上,综合研究了全球40个国家和地区股票市场间的相依关系,研究发现金融危机对于股市间的相依结构有一定的影响[6];对于Copula法:王璐利用藤结构Copula方法研究金砖国家内部股票市场之间的相依结构,研究发现金砖国家股市内部的相依关系并不强[7]。Hammoudeh等与文献[5]类似,研究伊斯兰股票市场与外界的相依性,但使用的方法是Copula方法,研究结果与也与文献[5]相吻合,再次证实了伊斯兰股票市场与外界存在着广泛的相依关系[8]。Okimoto立足于G7集团内部国家股市间相依关系的研究,通过对市场不同行情的识别,进行区间划分并对比不同行情下的相依关系,发现在不同市场行情,G7集团内部各国家股市间相依关系会发生变化[9]。谈勇贤和郭颂立足于中国股市与世界股市相依性的研究,通过建立T-Copula模型并对比分析,发现中国股市与世界其他国家股市的相依性并不高,并认为中国股票市场应该更加融入世界市场[10];对于多元GARCH法:Kocaarslan等分析金砖国家股市与美国股市的有向相依性,通过建立DCC-EGARCH模型和对比研究发现,美国股市与金砖国家股市之间存在着双向影响,但是前者对于后者的影响要大于后者对于前者的影响[11]。朱沙和赵欢仍然立足于金砖国家,但研究的是金砖国家内部股市之间的相依性,通过DCC-MVGARCH模型的建立的对比分析,发现金砖国家内部彼此之间的相依性不尽相同,且在2018年金融危机之后金砖国家内部的相依性有所增强[12]。Majdoub等与文献[5]、文献[8]类似,采用AGDCC-GARCH模型,研究伊斯兰股票市场与外界的相依性,研究结果与也与文献[5]、文献[8]相吻合,证实了伊斯兰股票市场与外界存在着广泛的相依关系[13]。Kenourgios等立足于伊斯兰股票和债券市场,通过构建APARCH-A-DCC模型,分析了美国次贷危机和欧洲债务危机这两次大的冲击对上述两个市场的影响[14]。

从上述的国内外关于股票市场相依性的文献可以看到,目前的相依性研究大多数仍基于线性假设或者基于某一特定的模型和参数。如在计算相依关系中最为基础也是最常用的Pearson相关系数法,该方法只能度量变量之间的线性关系,而无法对非线性关系进行度量。而格兰杰因果关系检验法和多元GARCH模型也只适用于线性的条件下,但是大量的实证研究已经证实了金融市场是存在大量的非线性情况的。Copula方法相对于上述的三类方法,解决了无法度量非线性的问题,但是该方法在实际应用中,需要对模型进行选择、对参数进行设定,不同的模型选择和参数设定,都将影响实证结果的准确性。因此,选择一种既能应用于非线性条件下度量相依性,又可以免受参数估计和模型设定影响的方法来计算相依关系、构建相依结构尤为重要。而随着熵理论的发展及其应用的拓展,互信息等方法已经在大量的金融市场研究中得到应用,该方法可以很好地克服上述方法的缺点,可以依靠数据驱动,也可以用于线性和非线性条件下[15-19]。

目前,关注于国内区域市场间的研究文献较少,大多集中于研究国际市场间以及国内市场内部或板块之间的相依关系。而研究国内市场区域间相依性,可以为投资者提供一个分散化投资的参考,也可以为监管部门对金融市场进行更加有效的监管提供理论支持。因此,本文将基于熵理论等方法,对国内股票市场的区域相关性进行分析。

1 研究方法

1.1 互信息

Shannon在20世纪40年代给出了信息熵的定义,认为信息熵可以用来衡量某一事件的不确定程度。按照Shannon给出的定义,对于一个离散型的随机变量X,该随机变量的熵可以表示为:

(1)

而对于两个随机变量X和Y,定义它们彼此之间的联合熵为:

(2)

其中,p(x,y)表示两个随机变量X和Y在状态(x,y)下的联合概率。

对于给定的两个变量X和Y,假设已知它们各自的边缘概率分布,以及联合概率分布分别为p(x),p(y)和p(x,y),则这两个变量之间的互信息可以由式(3)来表示:

(3)

根据式(1)和式(2),经过运算互信息式(3)可以写成如下形式:

I(X,Y)=H(X)+H(Y)-H(X,Y)

(4)

由公式(4)可以看到,在数理关系上,两个变量互信息的值,可以表示为这两个变量熵的和,与这两个变量联合熵的差。从理论意义上来讲,两个变量的互信息表示的是:在已经掌握两个变量中的一个变量所包含的信息的前提下,该变量已知信息的掌握对于降低另一个变量不确定性的程度,或者可以理解为该变量已知信息的掌握对于增加另一个变量信息掌握的程度。两个变量之间的互信息,可以理解为两个变量间共同拥有的信息量,即如果两个变量中的一个变量为已知的,如果此时另一个变量的不确定性可以被很大程度上的减少,那么可以认为这个已知变量中包含着另一个变量中大量的信息。

同样,风险分析、评估也存在难点。沈崇德举例称,如风险指数到底是多少?因认识的差异,仁者见仁,智者见智。

1.2 核密度估计

设U={u1,u2,…,uN}为d维实数变量,其概率密度函数的核密度估计为式(5)。

(5)

其中,h为窗口参数又称为带宽,K(·)为d维核函数。则在高斯核函数下,式(5)变换为(6):

(6)

其中,S为其协方差矩阵行列式的值。

带宽的选择对于估计的效果具有很大的影响,本文根据文献[20],选择了最优的带宽,如式(7)所示:

(7)

通过核密度估计可以得到样本的概率密度,进而也可以得到其熵的公式,具体形式表示为式(8)[21]:

(8)

结合式(4)和(8),可以得到本文最终计算两个变量互信息值的公式,如式(9)所示。

(9)

根据已经观测到的数据,对该组数据所代表的变量概率密度和分布情况进行估计,是统计学的基本问题,也是研究的前提。目前的大量研究都基于某种假设,比如假设已观测样本的从正态分布,然后再估计该特定分布的参数。由于实际数据与假设的分布可能不同,导致该方法容易产生较大的计算误差。而非参数方法不依赖数据分布的特定假设或不做关于参数的假定,研究数据本身的分布特征,因而在各个领域的应用中得到高度重视。本文所采取的核密度估计法就是一种非参数估计的方法。

2 数据描述

本文选取的中国区域股票价格指数系列(简称“中国区域指数”),以国证A股综合指数为母指数,按注册地所属省(区、市)将母指数的样本股划分为31个区域组,由各区域组的样本股构建31条区域指数。本文所选数据来源于Wind数据库,数据的时间范围是2013年7月1日至2017年2月28日。表1介绍了区域指数在文中的编号、指数名称和指数代码。

表1 31个指数名称及代码

图1 价格走势曲线及各阶段划分Fig.1 The price trend and period division

根据以往文献的经验,本文按照公式(10)计算每个指数的对数收益率。其中:P(t)和P(t-1)分别为日期t和t-1的区域指数日收盘价;R(t)为日期t的区域指数对数收益率。

R(t)=lnP(t)-lnP(t-1)

(10)

采用式(10)计算各个指数的对数收益率,并对各个区域指数的收益率数据进行了统计分析,结果显示各个指数的收益率特征呈现出多样性的特点,收益率有正有负,且各指数收益率的偏度方向不尽相同,或是左偏或是右偏,其整体分布呈现出尖峰后尾的特点。所有指数收益率的Jarque-Bera检验都显著拒绝正态分布假设。由于时间序列的平稳性对熵的估计具有重要影响,本文对各市场收益序列也进行了ADF单位根检验。在进行ADF检验的过程中,选择Schwartz信息原则确定延迟,最大延迟设置为24。ADF根检验结果都拒绝单位根假设,说明可以认为各市场收益率序列具有平稳性。

3 股市区域相依关系及其动态演化

3.1 股市区域相依关系网络构建

首先计算在2015年中国股灾前的平静期,中国31个股票区域指数收益率之间的互信息值,并将每个股票区域指数当作一个节点。当计算出任意的两个股票区域指数之间的互信息值时,将该值作为代表这两个股票区域指数节点之间边的权值。因此可以理解为,如果两个节点间边的权值大,表明这两个节点所代表的股票区域指数间互信息值大,相依关系强;如果两个节点间边的权值小,表明这两个节点所代表的股票区域指数间互信息值小,相依关系弱。通过计算中国31个股票区域指数收益率彼此之间的互信息,并将互信息值作为边权值,最终构建起中国股市区域相依关系网络,其中,图2至图5分别展示了平静期、牛市期、股灾期和恢复期这4个时期内,中国股票区域指数相依网络的热力图。其中,横、纵坐标上的数字代表的是表1中31个股票区域指数的编号,坐标为(X,Y)方块的颜色表示编号为X和编号为Y的市场间边权值。

图2展示的是在平静期中国股市区域相依关系,从中可以看出,在这期间各个市场间的边权值普遍比较小,但是这些区域的指数:江苏综合指数(NO.15)、山东综合指数(NO.21)、浙江综合指数(NO.30)等与其他区域的指数之间的边权值相对较大,相依性较强。

图3展示的是在牛市期中国股市区域相依关系,从中可以看出,在这期间主要体现在贵州综合指数(NO.7)、海南综合指数(NO.8)、内蒙古综合指数(NO.18)等与其他市场之间的边权值增加,但是整体上31个区域之间的互信息值变化不大。该结论不同于谢赤等对2008年金融危机之前牛市的研究,该研究认为股票市场的关联网络结构在牛市时其关系会更加紧密[26]。

图2 平静期区域指数网络热力图

图3 牛市期区域指数网络热力图

图4展示的是在股灾期中国股市区域相依关系,从中可以看出,在这期间不同区域股票指数间的相依性有了很大程度上的增长。从微观个体的角度上来看,除了江苏综合指数(NO.15)、山东综合指数(NO.21)、浙江综合指数(NO.30)等与其他股票区域指数之间的边权值相对较大外,安徽综合指数(NO.1)也与其他市场间有着较大的相依性。图5展示的是在恢复期中国股市区域相依关系,从中可以看出,在这期间不同区域股票指数间的相依性较股灾期有所降低,但是仍然高于前两个时期。

图4 股灾期区域指数网络热力图

图5 恢复期区域指数网络热力图

本文接下来分析在这4个不同时期内,各区域指数收益率相依网络中各节点的强度(NS)。该节点强度反应的是在某一时期内,每个股票区域指数与其他指数之间互信息值的总和,如公式(11)所示:

NSi=∑wij

(11)

其中,wij为节点i与j之间的互信息值(即边权值)。

图6显示了平静期、牛市期、股灾期和恢复期中,区域指数网络各个节点的强度。图中横坐标的数字为表1中的市场编号,纵坐标为节点的强度值(NS),其中,图6a和图6b纵坐标的范围是0~40,图6c纵坐标的范围是0~70,图6d纵坐标的范围是0~50。对比这四个图我们可以发现,股灾期中股票区域指数之间的相依关系是最高的,相依关系较低的是平静期和牛市期,并且在前三个时期中,山东区域指数(NO.21)始终保持着最打的节点强度。从图6d中可以看到,在恢复期,网络的节点强度普遍出现下降,说明这一时期各区域间总的联系降低,但是大部分区域指数的节点强度仍然比平静期和牛市期的节点强度高。同时注意到,贵州区域指数(NO.7)、内蒙古区域指数(NO.18)、宁夏区域指数(NO.19)、青海区域指数(NO.20)、西藏区域指数(NO.27)5个地区的节点强度很弱,且贵州区域指数(NO.7)、内蒙古区域指数(NO.18)两市场的节点强度下降幅度较大。

图6 各区域指数的节点强度

3.2 股市区域相依关系核心结构构建

上一节主要是从整体上考察中国31个区域股票指数之间的相关性网络,这一节将更加清楚地展示中国股市区域相依关系的核心结构。为了既可以体现区域间的核心结构,又可以保证结果的客观性,很多研究者采用生成树对网络核心结构进行分析。图7展示的是使用最大生成树方法对平静期、牛市期、股灾期、恢复期我国区域指数网络核心结构的刻画结果。图中的数字是表1中31个区域指数的编号。从该图中可以观察到,中国各区域间的相依结构并没有呈现出地理聚类的现象,即所处相同地区或相邻省份之间并不倾向于拥有更强的相依关系。

图7 区域指数网络的最大生成树

从图7的核心结构中可以看出,江苏区域指数(NO.15)和山东区域指数(NO.21)在4个时期内都拥有较多的边,这说明江苏和山东两省在中国市场中处于中心地位,且上述两个区域是中国经济与金融业较为发达的省份,该结论不同于孙延风等认为一些经济欠发达地区在金融地区网络中占据重要位置[27]。特别值得注意的是,同样作为经济大省的广东省和重要的经济金融中心地区的北京市和上海市,并没有处于中心节点的位置,且在4个阶段中,广东区域指数(NO.5)、北京区域指数(NO.2)和上海区域指数(NO.24)三者彼此之间始终联系非常紧密。

综合上述结论,可以发现,江苏与山东两地的股票指数处于本文所选的31个股票区域的中心地位,且与该两省始终保持联系的区域较多;广东与北京、上海3个区域始终联系紧密,但是三地对于其他区域的联系很少;地理聚类的现象在中国内部各个区域之间并不明显,即区域与相邻区域并非经常保持着较强的联系,而是经济与金融业发展水平较为发达的江苏与山东两地经常被“盯住”。

图8 各滑动窗口市场间平均互信息

3.3 股市区域相依关系网的动态演化

上两节分析了平静期、牛市期、股灾期和恢复期中国股市各区域间的相依关系网络和相依关系的核心结构,都属于静态分析,本小节将采用滑动窗口的方法来探究中国股市各区域间相依关系的动态演化情况。本节的滑动窗口宽度设为150天,每次窗口滑动的距离为20天。之所以这样设定窗口宽度和滑动距离,是因为这样既可以保障每个窗口研究时所需的样本数量,也可以保障有足够的对比效果。依据上面的窗口宽度和滑动距离的设定,本节中共可得到滑动窗口38个,图8显示了各滑动窗口中,所有市场指数收益率的平均互信息值。

从图8中可以看出,在前期市场间的互信息很小,并且随着时间推移继续缓慢降低,且在15号窗口中达到最低值。根据样本阶段的划分,平静期和牛市期的全部样本包含在17号窗口之前,从18号窗口开始到26号窗口,它们中都含有股灾期的样本。从16号窗口开始,市场间互信息开始迅速上升,并且在25号窗口中达到最大值,而该窗口中所有样本属于股灾期。而在该窗口之后,市场间的互信息迅速下降,并在最后阶段回到与最开始相当的水平。这说明股灾增加了市场间的互信息,也即增加了它们之间的相依性。

图9展示了各个滑动窗口中具有最大节点强度和最小节点强度的市场,其中横坐标的数字表示38个窗口,纵坐标的数字表示本文所选的31个区域股市指数。从该图中可以发现在第6至第11号窗口和第27至第38窗口中(这恰好对应着牛市期和恢复期两个阶段),江苏区域指数(NO.15)拥有最强节点强度,说明与其他区域指数联系最为紧密;在其余窗口中,主要是山东区域指数(NO.21)拥有最强节点强度,这一结论与上一节中所得的结论一致。在节点强度最小的图中,发现在各滑动窗口中,贵州区域指数(NO.7)、内蒙古区域指数(NO.18)、宁夏区域指数(NO.19)、西藏区域指数(NO.27)等4个地区的区域指数拥有最小的节点强度,说明这些地区与其他地区的相依性较小。

图9 各滑动窗口节点强度最大和最小指数

4 结论

本文选取2013年7月1日至2017年2月28日的中国31个省区市股票指数作为研究样本,并将上述的研究区间划分为平静期、牛市期、股灾期和恢复期4个时间段,通过计算上述市场在各个时间段内彼此之间的互信息值,使用热力图、最大生成树等手段绘制相依性区域网络,并对比研究了中国31个省区市股票市场之间的相依结构,之后使用滑动窗口,研究了该相依结构的动态演化。通过上述实证分析,本文得到以下结论。

首先,在股灾期间,中国31个省区市之间股票的相依关系较其他3个时期有显著的增加,且在平静期和股灾期,山东比较集中的拥有最强节点强度,而在牛市期和恢复期,江苏拥有较集中的最强节点强度。其次,江苏、山东、浙江与其他区域市场之间的边权值相对较大,相依性较强,而贵州、内蒙古、宁夏、西藏等省份的市场与其他省份的市场相依性较小。江苏、山东、浙江是我国经济大省,这体现出区域股市间的联系与该区域经济发展程度有很大的正向关系。最后,广东与北京、上海3个地区始终联系紧密,但是三地区与其他地区的联系较少。上述结论也说明地理聚类的现象在中国各区域股票市场之间并不明显,主要体现在相邻区域的相依性不高。文章认为由于中国股市区域间不存在明显的地理聚类效应,这将从另一个角度向投资者提供寻找相依关系弱的股票,组成投资组合的方法,从而最大限度的分散风险。以往投资者在股票投资过程中,更多的关注于投资不同板块的股票,以期达到分散风险的目的,该操作的意义在于,不同板块股票之间的相依性比同一板块内股票之间的相依性总的来讲要小。而本文的研究发现了不同区域的股票之间,其相依性不同,在投资中可以选择区域相依关系较弱的股票进行分散化投资;对于监管部门,应该着重对处于相依关系中心节点区域的股票进行监管,尤其是在股灾期间,市场间相依性增加,此时找到处于股票区域市场中心位置的股票格外重要,而保证该区域股票的健康稳定运行,从而使得与该区域股票有更多关联的其他区域股票免受其不良影响。

对于文中得到的上述结论,有些与我们的常识相符而有些却令我们感到新奇,下面对上述结论做一些简单的理解和猜想。本文的实证研究发现,广东、北京和上海三地股票相依关系始终非常紧密,但是3个地区与其他地区的联系并不是很多,而江苏、山东、浙江与其他区域市场之间的边权值相对较大、相依性较强。上述提到的6个地区在中国股市区域相依关系中表现出了一定的特点,且这些特点在本文所研究的4个时期中都具有。上述6个地区有这样的相依性结构,与其自身的实际情况不无关系。首先,在近年来的中国GDP排名中,广东、江苏、山东、浙江都长期位于前四位,而北京和上海分别作为中国的政治中心和经济中心,在中国经济发展中发挥着重要作用;同时在上市公司数量和股民数量上,上述6个地区都排在全国的前六位,因此可以认为这六个地区是中国经济和金融业发展最为发达的6个地区,而欠发达地区更愿意与发达地区构建更强的相依关系,这就可以解释江苏、山东、浙江与其他区域市场之间拥有较强的相依关系。而研究中发现,北京、上海、广东3个地区并不像江苏、山东、浙江那样,与其他地区股票之间有较大的边权值,而是这3个地区始终保持着密切的相依关系。一个可能的原因是,上述3个地区都拥有全国性的证券交易场所,广东有深圳证券交易所,上海有上海证券交易所,北京有全国中小企业股份转让系统,同时,全国证券公司数量的近二分之一集中在北京、上海和广东这3个地区,而金融机构之间的业务合作以及全国性证券交易场所的运行,自然会增强上述3个地区股市的相依性。但是对于广东、北京和上海三地为何没有成为像江苏、山东、浙江那样的中心节点地区,为什么没有与其他的地区保持着高水平的相依关系,这需要进一步的研究。

猜你喜欢

互信息股灾相依
家国两相依
相守相依
基于改进互信息和邻接熵的微博新词发现方法
股灾一周年重要数据
股价创股灾以来新低的股票
相依相随
相依相伴
股灾爆发近一周年 人均亏损46.65万元
基于互信息的贝叶斯网络结构学习
联合互信息水下目标特征选择算法