基于共现分析和关联规则的概念股共现网络研究
2020-04-02,2
,2
(1.河海大学 商学院, 江苏 南京 211100; 2.“世界水谷”与水生态文明协同创新中心, 江苏 南京 211100)
概念与题材炒作现象在股票市场中屡见不鲜[1]。不少投资者以热点事件为背景购买目标股票,股票市场中的概念因事件驱动不断被创造[2]。概念股能够客观地反映投资者的关注程度,因此,热点概念股能够反映投资者的投资倾向与投资决策。同时,新闻媒体与社区论坛对概念股的宣传助推了股票市场上的概念炒作,成为股票价格集体波动的助推器[3]。概念股一般具有很强的时效性,其股价在概念存续期内波动性较大。
对投资者而言,重仓热点概念股很容易造成追高从而增加投资风险。因此,投资者在股票配置时一般倾向于购买与热点概念股相似的股票,对热点概念股进行对标。这种通过相似概念股配置股票资产的实质是概念股之间存在股票共现,例如,智慧城市概念股因与大数据概念股存在股票共现两者股价整体呈现同向变动。
然而,股票共现依据股票频次粗略判断概念股之间的关联性,难以精确计量概念股之间的依赖关系和强度[4]。大数据时代背景下,关联规则为解决股票共现的不足提供了新的工具,捕捉概念股之间的关联性对股票价格的影响成为一项创新议题。本文以股票市场中的概念股作为研究对象,以共现分析和关联规则为方法,探讨概念股与股票量价的相关性,以期为投资者提供借鉴。
一、研究综述与研究方法
(一)研究综述
已有学者对小范围特定概念股的关联性做过相关研究,苗晴和姚洪兴[5]基于股票价格日收益率数据建立“一带一路”概念股价格关联网络模型,实证分析了股市关联网络的复杂特性及其拓扑结构。他们发现概念股价格关联网络具有小世界效应和无标度特征,网络中存在凝聚子群现象,中心节点对网络影响较大。叶银龙[6]通过关联规则挖掘的方法对A股的21个概念板块进行了研究,结果表明:制造、石化概念是关联规则的核心,其他概念板块与核心概念之间存在紧密联系。通过强关联规则进行概念板块组合分析,对于出现明显涨跌情况的概念板块,预测出与之相关联的概念板块的涨跌趋势,以此达到规避风险或追求利润的目的。董晓芳和刘晓楠[7]在叶银龙的基础上运用关联规则算法对21种概念板块进行分析,证实长期概念板块指数之间的轮动由化工、制药、包装、金属、纺织、农业、零售7种指数作为关联规则的核心,其余板块与核心板块存在密切联系。然而,他们限于概念数量未能量化概念板块之间的关联性大小。王晓彦等[8]研究了热点概念股对投资者决策的影响,他们以人工智能概念股作为研究对象,分阶段研究人工智能在网络中的热度与人工智能概念股量价的相关关系,发现在网络热度低时,相关概念股整体表现与投资者关注度没有显著联系;网络热度爆炸并有利好时,网络热度与相关概念股的超额收益率显著相关,反映概念股存在炒作现象。
(二)研究方法
共现是指同一关键词在多篇文献中共同出现的现象。在概念股中,股票共现指一只股票属于多个概念股的情况,共现分析是对共现的股票进行定量分析,目的是揭示概念股之间的相互联系以及隐含的知识[9]。通常认为概念股中相同股票的数量越多,两个概念股之间的关系就越紧密。因此,对概念股出现的频次进行统计,不仅可以直观地了解概念股的主题,还可以对概念股的热点趋势进行深入分析,jaccard系数是衡量概念股相似度的有效指标,公式如下:
(1)
Γ(A)表示概念股A的股票集合。
关联规则算法是一种基于机器学习的数据挖掘算法,该算法可以在大数据集中发现事物之间存在的依赖或者因果关系[10]。它的目的是利用一些度量指标来发现数据集中存在的强规则[11]。支持度、置信度和提升度是关联规则中常用的度量指标。
支持度揭示了概念股A和B同时出现的概率,如果A和B同时出现的概率小,表明两者的支持度较小,支持度的计算公式如下:
support(A⟹B)=P(A∪B)
(2)
置信度揭示了概念股A出现时,概念股B出现的概率,置信度是有方向的,如果A与B的置信度为100%,表明A与B总是同时出现,置信度的计算公式为:
(3)
提升度是评价概念股关联性大小的量化指标,在满足支持度和置信度的条件下,提升度越大表明概念股相似的概率就越大,提升度的计算公式如下:
(4)
P(B|A)表示概念股A出现的条件下,概念股B出现的概率。当lift为1时,表明两者不相关;当lift大于1时,表明概念股B和概念股A正相关;当lift小于1时,概念股B和概念股A为负相关。
二、热点概念股发现
(一)数据来源
本文数据来源于Tushare金融大数据平台,时间为2017年8月至2019年8月,数据中包含股票代码、上司公司名称、日涨跌幅、概念股等字段。数据中共包含361个概念股、3656只股票。一只股票可以属于多个概念股,即股票与概念股之间为一对多关系。
(二)热点概念股
热点概念股指伴随公共事件出现、随着事件受公众关注而股价趋势走强的股票集合。热点概念股反映出投资者对事件的看法和态度,对投资者资产配置行为起到非常重要的作用。本文以每日交易中平均涨幅最高的概念股作为当日热点概念股,所得的热点概念股频次分布如表1所示。
表1 高频次热点概念股
资料来源:作者通过Tushare提供的基础数据计算而得。
表1显示当前受投资者追捧的概念股分别为次新股、白酒、AH溢价股,频次分别达到24次、13次、23次;其次,科创版、养鸡、南北船合并等概念股的频次也较高,这些高频次热点概念股主要分布于科技、食品等领域。水利、水电、污水处理、PPP、化肥等概念股的频次为零,是股票市场中的冷门概念股,冷门概念股主要分布于基建、能源等公共事业领域。高频次热点概念股对投资者的投资决策具有较大影响,在所有概念股中扮演重要角色。
(三)热点概念股演化分析
高频次热点概念股反映当前股票市场的投资热点,热点概念股的演化可以揭示股票市场中不同时段的投资者关注及投资热点,有助于识别投资主题的变化。根据热点概念股的时间分布情况,将热点概念股划分到不同时段,各时段内热点概念股的频次凸显不同时段的投资热点。表2为将热点概念股划分到3个时段的频次分布情况。
表2 不同时段的高频次热点概念股
资料来源:作者通过Tushare提供的基础数据计算而得。
从表2可以看出,热点概念股中AH溢价股、养鸡、白酒、民航概念股时间跨度大,热度存续期长;海南、光通信、玻纤等概念股的热度存续期较短;以大数据、智慧城市、科创版等为代表的科技概念股正在逐步成为热点概念股。通过判断热点概念股的时段,以持续时间为划分标准,热点概念股则可以分为两类:一类是短期热点概念股,另一类是长期热点概念股。短期热点概念股的特点是其热度持续期较短,这类热点概念股一般由普通热点事件驱动,以大气治理、耐火材料、黑色家电、动漫等概念股为代表,股价趋势表现为短时间大幅上涨后逐渐趋于稳定;长期热点概念股则在较长时期内保持热度,时间跨度大,出现频次较多,以白酒、养鸡、AH溢价股、券商、保险股为代表,股价趋势表现为有涨有跌。两类热点概念股存在显著差异,究其原因,短时效热点股由事件驱动,而长期热点股由投资者的投资策略驱动,因此,长期热点概念股的转移表明投资者资源配置的变化。
为直观地展示热点概念股的时间分布,以月份为时间节点,绘制概念股时间网络,在时间网络中,热点概念股与对应时间节点相连接,通过各时间节点的连线可以看出概念股演化趋势。图1为6只热点概念股的时间网络。
图1 热点概念股的时间网络
由图1可知,AH溢价股长期处于交易的活跃期,在一定程度上表明AH溢价股已经形成较为稳定的炒作主题,而不是受到热点事件影响。此外,白酒、养鸡概念股的节点连线较多且时间分布均匀,与大气治理、黑色家电等短期热度概念股有显著性差异。究其原因,短期热点概念股适合短线操作获利,无法给投资者带来长期的、稳定的投资收益。
三、概念股的共现分析与关联规则
(一)概念股的共现分析
股票共现为热点概念股与其它概念股建立了联系,是进一步分析概念股关联性的基础。普遍认为股票在概念股中的共现次数与概念股关联性强弱呈正向关系,每一概念股均有对应的最大共现次数的概念股。利用股票共现不仅可以直观地了解股票市场发展状况,还可以探讨热点概念股及其关联概念股的未来发展态势。股票共现情况如表3所示。
从表3可知,军工和军民融合概念股的股票共现数为177次,智慧城市与大数据概念股股票共现数为49次,新能源与锂电池概念股股票共现数为133次。显然,军工与军民融合、智慧城市与大数据、新能源与锂电池等概念股相互联系紧密,且在股票市场中占有较大份额。对于基建、能源等公共事业领域股票共现数显著较低,其中环保和PPP概念股共现34次,PPP与水务概念股共现次数为16次,PPP与水利概念股共现次数为9次。
表3 共现矩阵(部分)
资料来源:作者通过Tushare提供的基础数据计算而得。
PPP分别与环保、水务、水利概念股存在股票共现,这表明热点概念股的涨跌趋势可以通过股票共现传导给路径上的其他概念股。为了进一步从社会网络的视角理解概念股之间的关系,对于每一个概念股,选取与其具有最大共现次数的概念股作为网络中的节点,并用边连接从而构成概念股共现网络。通过Python语言的Networkx库和Matplotlib库进行概念股共现网络的构建和可视化,得到如图2所示的部分概念股共现网络。网络以大数据概念股为中心呈星状展开,离中心距离最近的概念股包括人工智能、独角兽、白酒、科创版等;同时网络还出现了以物联网、智慧城市、区块链等概念股为中心的社团结构,从网络中可以发现特色小镇与旅游概念股存在依存关系,央企改革与核电概念股显著相关。
图2 概念股共现网络
在概念股共现网络以及热点概念股演化分析的基础上,本文提出股票市场中概念股的三阶段循环过程,新旧概念股通过股票共现产生关联,概念股的三阶段循环过程如下。
1.概念股首次提及阶段。概念股由于热点事件首次被提及,标志着新概念股的出现,投资者对首次提及的概念股保持较多的投资者关注,首次提及的概念股其平均涨跌幅一般领先于其他概念股,是热点概念股。
2.概念股热度保持阶段。随着事件热度的逐步消退,概念股的表现开始分化,一是成为短期热点概念股,其股价表现逐步趋于稳定,热度保持时间受事件的重要性影响;二是投资者继续保持较高关注度,成为投资策略的目标概念股,成为长期热点概念股,其股价趋势表现为有涨有跌。在热度保持阶段,热点概念股的涨跌趋势沿着股票共现的路径传导给其他概念股,影响力取决于概念股之间关联性的强弱。
3.概念股被替代阶段。当概念股的热度消失或不再受到投资者的关注,新热点事件的产生会促生新的概念股,由于股票市场中上市公司数量的相对稳定,新的概念股通过股票共现与某一旧有概念股相关联,新概念股是旧有概念股的继承者,保持旧有概念股的部分属性与特征。同时,旧有概念股有概率被再次提及。
(二)关联规则分析
根据股票共现,每一只股票是概念股组合性质的体现,由于大多数股票同属于多个概念股,不同数量的概念股组合为模式,在这些概念股组合模式中,有的模式出现的频率很低,有的模式出现的频率很高,一般来说,频率高的模式具有实际意义。若X、Y、Z为单个概念股,则X⟹Y为概念股的二元模式关联,
从表4可知,共现分析无法准确计量多个概念股的关联性强弱,概念股数量的增加会使jaccard系数迅速变小。当支持度阈值为10%,置信度阈值为 50%时,可以从2项模式中发现许多具有实际意义的强关联规则,综合支持度与置信度两个因素,可以看到,关联规则的主体由云计算、军工、智慧城市、大数据、物联网等概念股构成。模式云计算⟹智慧城市表示该100只股票中有23%的股票都包含云计算与智慧城市概念股,包含云计算的股票有74.20%的概率包含智慧城市概念股,提升度为1.89表明云计算概念与智慧城市概念显著正相关;模式智慧城市⟹大数据显示该100只股票中有29%的股票都包含智慧城市与大数据概念股,置信度为65.91%,提升度为2.03。模式<智慧城市,云计算>⟹大数据表明,包含智慧城市和云计算概念股的股票,有91.3%的概率包含大数据概念股,提升度为2.12表明<智慧城市,云计算>与大数据概念股之间呈正向关联性,两者所对应的上市公司非常相似。2项模式云计算⟹智慧城市中最大共现数所对应的概念股均为大数据概念股,3项模式<智慧城市,云计算>⟹大数据中最大共现数对应的概念股为大数据、智慧城市概念股,这表明可以通过股票共现将多元模式的关联规则分解。
表4 概念股的关联规则(部分)
资料来源:作者通过Tushare提供的基础数据计算而得。
对于投资者而言,可以根据对应的关联规则配置股票。例如,由模式<智慧城市,云计算>⟹大数据可知,当云计算股和智慧城市股收益率上涨时,大数据股收益上涨的概率为91.30%,因此投资者可以根据这一预测信息做出决策。一种策略可以是看好云计算股和智慧城市股未来的涨势,准备好充足的资金,以低价购买大数据股,等将来行情渐涨时,以高价抛售大数据股,以获得较大的收益。另一种策略是如果已持有大数据股,在急需资金周转情况下,可以考虑在云计算股和智慧城市股还没有下跌的时候,提前抛售大数据股,获得收益。
(三)关联规则的验证
共现分析和关联规则对概念股关联性的强弱和方向进行了量化。为了验证符合关联规则的概念股之间市场表现的一致性,选取云计算、智慧城市概念股进行验证,其中,云计算概念股共有116只股票,智慧城市概念股共有126只股票,股票共现数为41,置信度为74.2%,jaccard系数为0.20,这表明两概念股为正向关联性。以两概念股的共同股票000063.SZ为信息源节点,绘制SIR(Susceptible Infected Removed)曲线,图3是两概念股中其它股票受信源影响的SIR曲线图。
a.云计算概念股的SIR曲线 b.智慧城市概念股的SIR曲线
图3中I线表示股价大幅上涨或下跌的股票数量随时间变化情况,R线表示股价稳定的股票数量随时间变化情况,S线表示有大幅上涨或下跌概率的股票数量。通过SIR曲线对比发现,云计算和智慧城市概念股的SIR曲线基本一致,这证实了通过共现分析和关联规则可以有效的计量概念股之间的关联性强度和方向,SIR曲线表现出的一致性表明,在共现分析的基础上对股票进行关联规则分析是可靠的、准确的。
四、结 语
本文以概念股为研究对象,通过共现分析、关联规则分析发现:(1)概念股是否成为热点不仅由热点事件驱动,还受到投资者投资策略的影响,科技相关概念股正成为投资者新的选择,但白酒、养鸡等概念股表现依然强劲。(2)股票共现是概念股中的普遍特征,股票共现的存在使得概念股经历着首次提及、持续、替代三阶段。(3)共现分析和关联规则相结合能准确计量不同概念股之间关联性的强弱和方向,对量化投资者具有实际意义。实验结果表明,通过共现分析和关联规则能够有效挖掘出概念股共现网络中的潜在关系,对于多个概念股之间的关系尤为有效,这克服了单一方法的不足。
本文构建的概念股共现网络能较好地根据关联性预测股价,但还是与现实操作有所差别,对于长期而言,单只股票的股价波动还受到基本面影响,因此还有待进一步挖掘。本文的研究有助于投资者从概念股共现网络角度认识股价波动,有助于投资者更好地预测股价趋势,降低决策风险。□