APP下载

基于Lasso 时变图模型方法的我国股市网络结构分析

2022-05-30陈彬宸蔡风景

关键词:时变个股关联

陈彬宸,蔡风景

(温州大学数理学院,浙江温州 325035)

在金融市场,不管是传统投资组合,还是另类投资,投资者均需对股票头寸进行管理,分析股票间的相关性,从而达到资产优化配置的目的.早期,学者们基于相关系数[1]、Copula 函数[2]和小波分析[3]等方法分析股市相关结构.上述方法在分析股市相关结构时,大多是基于两两成对分析,不能为股市复杂相关结构提供非常可靠的证据.近年来,越来越多的学者利用网络分析方法研究股市相关性,以直观呈现股票网络结构,其中网络节点代表股票,节点间有边连接说明股票间存在关联结构.股市关联网络结构识别常用的方法包括相关系数阈值法[4-11]、小波分析[12]和互信息等方法[13-14].基于相关系数和互信息方法构建图网络结构能识别变量间的相关关系,但不能说明条件相关性,会导致出现虚假的同期相关关系.因此有学者利用偏相关系数和通过条件独立性识别网络中的边,避免虚假相关关系.Billio 等[15-16]构建基于偏相关系数的股票加权网络结构,图中边的宽度表示偏相关系数大小.Anufriev 等[17]基于偏相关系数的图模型方法构建股票的网络结构,忽略偏相关系数较小的边.

上述研究基于图模型的思想识别股市的相关性,为股市相关研究提供了很好的借鉴,但对高维数据的建模需要引入结构稀疏化学习.基于Lasso 方法的图模型稀疏化学习通过精度矩阵包含了概率图模型中的参数信息以及结构内容[18-20],本文将无向图模型方法应用于我国股市的高维数据建模,利用Lasso 方法给出精度矩阵的估计,从而识别上证380 个股的图模型结构.同时,针对金融资产的动态变化特征①Talih M.Markov Random Fields on Time-varying Graphs with an Application to Portfolio Selection [D].New Haven:Yale University,2003.,提出时变的Lasso 图模型理论,假定时点间的图模型结构随时间可变,构建动态时变的Lasso 图模型理论,通过局部组套索惩戒施加于结构化平稳的模型,进行结构化平稳处理.该方法能合并不同时点的信息,并对图模型施加结构平稳性,且适应数据中因变量的局部平滑.基于交替乘法算子方法ADMM(Alternating Directions Method of Multipliers),利用块快速计算和伪似然逼近来提高计算效率.

1 时变Lasso 图模型理论

令无向概率图模型对应的数据矩阵为X(t),假设每个样本X都服从独立同分布的p维高斯分布,其中t∈[0,1],μ∈Rp为均值,Σ ∈Rp×p为协方差矩阵,假设X(t)的元素独立,μ(t)为均值,Σ (t)为协方差矩阵且在t时刻平滑,x(t)为t时刻观测值.为简单起见,假设观测值.图模型识别的关键是估计协方差矩阵 Σ (t)的逆矩阵Σ−1(t)即精度矩阵,记为 Ω (t).精度矩阵 Ω (t)中某个元素为零表示无向概率图模型中的两个节点条件独立,即表现为两点之间不存在一条边,从而构造基于精度矩阵的图模型G(t)和边E(t).由于图模型结构是时变的,则边连接也是时刻变化的.

为估计第k个观测点的精度矩阵 Ω(tk),将一个有局部组Lasso 的加权非对数似然函数最小化,即

假设在t时刻协方差矩阵 Σ (t)是平滑的,那么核估计是合理的,可运用邻域时间点内的信息数据.因此,我们运用核光滑邻接矩阵代替核光滑协方差矩阵,相当于数据标准化.惩罚项为组Lasso 类型的稀疏正则化[21],这使得图模型结构随着时间推移而平滑地变化.平滑程度由调谐参数d(> 0)控制,邻域宽度越大,图的拓扑结构变化越缓慢.图结构稀疏性由调谐参数λ(> 0)控制,λ越大,图模型结构越稀疏.因此,在Lasso 时变图模型结构中需确定3 个调谐参数,分别为内核带宽h、邻域宽度d和稀疏性参数λ.我们通过交叉验证来选择这些参数.

为提供计算效率,更好应对高维数据问题,通过伪似然逼近算法.通过局部组Lasso 的L2范数惩罚方法估计模型参数[22-23].

2 基于Lasso 图模型方法的我国上证380 股指相关性分析

2.1 数据来源

本文将基于Lasso 图模型方法应用于上证380 指数的股票价格数据,分析个股数据间的关联结构,样本数据选取2014 年1 月2 日-2020 年3 月18 日.图1 给出上证380 时间序列走势.

图1 上证380 收盘价时间序列图

上证380 经历快速上涨、极速下跌和震荡阶段.本文将部分上证380 交易不全的个股剔除,保留2014 年1 月2 日已上市的231 支股票,每只股票有1 513 个交易日的数据.数据来源于同花顺iFinD 数据库①参见:同花顺iFinD-金融数据终端http://www.51ifind.com/..

对上证380 个股取对数收益率,设pi(t)表示第i只股票在时间t时的收盘价格,取对数价格收益率:ri(t)= lnpi(t) − lnpi(t− 1).

2.2 Lasso 图模型结构分析

为分析个股在关联网络中的地位和作用,本文用中心度来衡量和识别股票市场中与其他股票联系最紧密的股票.度中心性(Degree Centrality)是最广泛使用的中心性指标之一,它是指一个给定节点与其直接关联的节点的关联程度.

利用Lasso 方法,给出样本期间上证380 个股的图模型结构,见图2,计算通过R 语言程序实现.

图2 上证380 个股的Lasso 图模型

根据上证股票行业分类标准将股票划分为5 个行业类型:工业指数、公用指数、商业指数、综合指数和地产指数,用不同颜色标识不同行业.表1 给出个股中心度排名靠前的股票,兰花科创、紫江企业中心度相对较高,连接边数相对较多.

表1 点中心度排名靠前股票及边数

研究发现[1-14],不同市场阶段,股票间的相关性可能存在差异.我们根据上证380 股票走势,将样本划分为T1、T2 和T3 三个不同阶段.T1 为2014 年1 月2 日-2015 年6 月16 日,上证380指数从3 000 左右上涨到10 000 多,处于快速上涨阶段;T2 为2015 年6 月17 日-2016 年1 月28 日,上证380 指数从10 000 多下降到5 000 多,处于快速下跌阶段;T3 从2016 年1 月29 日-2020 年3 月18 日,上证380 指数先缓慢下降,再上升然后下降,总体处于震荡阶段.对于不同阶段股票样本,取相同惩罚参数估计Lasso 图模型结构,表2 给出3 个不同阶段个股中心度排名靠前的股票和平均边数量.

表2 3 个不同时段个股点中心度排名靠前股票和平均边数量

由表2 结果可知,不同行情上证380 股票边的数量大部分不同,这可能与当前公司盈利模式和宏观形势等因素密切相关.在T1 和T2 时段,上证综指处于急涨和急跌阶段,多数个股处于上涨态势,边连接情况相对平均.T3 阶段处于行情震荡阶段,表现为个股边数量之间波动较大.从边数量来看,T1、T2 和T3 阶段平均边数量分别为10、23 和13 条,说明市场处于急跌阶段,个股间的相关度较高.从个股相关度看,兰花科创、伊力特、浙江医药和四川路桥在3 个行情阶段有2 个阶段排名靠前,表现比较稳定.

2.3 Lasso 时变图模型结构分析

根据不同行情阶段分析可知,不同行情阶段对个股相关度有一定影响.因此,基于时变图模型理论,给出不同时点的我国上证380 个股收益率的无向图模型结构,计算通过R 语言程序实现.图3 给出6 个不同时间点(等长度间隔取时间点)的图模型结构.2014 年8 月13 日边数量为300 条,2015 年6 月26 日边数量为571 条,2016 年5 月10 日边数量为250 条,2017 年7 月6 日边数量为94 条,2018 年5 月18 日边数量为255 条,2019 年4 月1 日边数量为327 条.2014年8 月上证股市为牛市初期,呈现持续平稳上涨阶段,边数量为300 左右,2015 年6 月上证380牛市达到最高峰值,并处于快速下跌拐点,边数量较多达到500 多.2015 年6 月-2016 年5 月,股市中间虽有反弹,但总体处于下跌阶段,边数量为250 条左右.2016 年5 月-2017 年7 月,股市处于震荡行情,边数量最少,不足100 条.2017 年8 月-2018 年5 月,股市有出现一波上涨行情,股市相关性有所增强,边数量超过200 条.2018 年5 月-2018 年12 月股市呈现单边下行阶段,2019 年1 月-2019 年4 月,股市迎来一段小牛市,股市相关性进一步增强,边数量超过300 条,即个股变量选择集中与之相关的个股数明显增加.

图3 6 个不同时点上证380 个股Lasso 无向图

根据上证380 行业指数行业分类,分析不同行业内部和行业间时变的带有权重的图模型结构见图4.在带有权重的图模型中,每个点代表一个行业,每条边宽度与各个行业间边连接数量成比例,具体定义为行业间可观测到的边数量除以行业间可能存在的边数量(跨行业间小于0.001%的边不显示).

图4 6 个不同时点上证380 行业指数带有权重的图结构

上证380 股指中,地产行业指数中心度相对较高,跟其他行业指数联系比较密切.除2017年7 月6 日股市震荡期外,地产和商业行业指数均有边连接,且在2014 年8 月13 日、2016 年5月10 日、2018 年5 月18 日、2019 年4 月1 日边连接宽度最高,关联最为密切.2015 年6 月26日,地产指数和公用事业边宽度最高,联系最为密切.地产行业指数为上游行业,对商业贸易和公用行业指数的能源等相关产业均有显著影响.综合和公用行业指数在6 个时点均有边连接,且在2014 年8 月13 日和2015 年6 月26 日联系相对比较密切且稳定.综合行业和公用行业大多属于服务业,两者之间关联程度高.工业和商业在不同时点均有边连接,说明工业和商业行业指数关系稳定.

从不同时点行业图模型结构动态变化来看,在牛市阶段(2014 年8 月13 日和2015 年6 月26 日),综合和公用指数联系关联程度高.在熊市阶段(2016 年5 月10 日和2018 年5 月18 日)和牛市初期(2014 年8 月13 日),地产和商业指数关联程度较高.牛市顶峰阶段(2015 年6 月26 日),地产和公用指数关联程度最高.股市震荡期(2017 年7 月6 日),行业指数连接较少,工业指数和其他行业指数均有边连接,说明工业指数在经济运行中的核心地位.

以上图模型结构选取了6 个等长度间隔时间点,图5 给出这6 个时间点内的行业内边连接比例(行业内边数量除以所有可能的行业内边数量)时变图,可以看出,地产行业指数内部连接比较密切,呈现先下降后上升态势,说明地产行业指数个股出现分化情况.公用、工业、商业和综合行业指数内部边比例大体呈现先上升后下降再上升发展态势,跟个股边数量比较吻合,其中商业行业内部个股联动性相对较强.公用事业行业2016 年前牛市阶段边内部连接较多,2016 年后行业内部联动性明显变弱.

图5 各行业内边比例对比图

3 结论

本文提出高维数据变量选择的Lasso 图模型,并将该方法应用于上证380 股票指数分析股票间的关联结构.首先,采用静态Lasso 图模型方法分析个股网络结构及中心度,发现兰花科创、紫江企业等个股中心度较高,边数量较多,跟其他股票关联度较强.为分析行业对股票关联度的影响,分不同阶段进行Lasso 图模型估计,结果表明上证380 个股在极速上升期与极速下跌期关联性较强.

考虑到股市间相互关联和影响的结构变化特征,本文利用时变Lasso 图模型分析上证380 股票的关联结构,该方法能同时分析个股和行业间的关联结构,结果表明不同时点的上证380 个股和行业的图模型结构均存在较大差异,股票关联结构呈现动态变化特征.快速上升期(牛市)和快速下跌期(熊市),图模型边连接较多,关联结构较强;震荡期,个股和行业图模型边数量较少,关联性相对较弱.地产行业指数中心度较高,与商业行业关联结构密切且比较稳定,行业内部个股关联度高.公用行业指数和综合行业指数边连接比较稳定,工业行业指数跟其他行业指数边连接也较稳定.

本文通过Lasso 图模型方法识别高维数据变量时变的动态关联程度.以往研究[1-11]建立高维时间序列模型时往往受限于维数祸根问题,不能对参数进行有效估计,且大多是基于静态图模型结构.本文引入结构稀疏化学习后的Lasso 图模型建模方法可有效处理高维数据问题,能同时给出变量选择和参数估计结果,时变图模型能更好地刻画金融资产相关结构的动态性,股市相关结构识别效果较好,能有效推动变量复杂网络结构的方法论研究.基于非线性时间序列图模型的网络结构关系分析是未来研究拓展的重要方向之一.

猜你喜欢

时变个股关联
|直接引语和间接引语|
“一带一路”递进,关联民生更紧
连续上涨2天以上的31只个股
基于马尔可夫时变模型的流量数据挖掘
奇趣搭配
基于时变Copula的股票市场相关性分析
基于时变Copula的股票市场相关性分析
智趣
房地产开发Ⅱ个股表现
航空运输Ⅱ个股表现