APP下载

一种证券标签分析技术的研究

2020-04-29兰子柠徐志明

智能计算机与应用 2020年2期
关键词:关联性图谱热点

兰子柠, 徐志明 , 宋 毅

(1 哈尔滨工业大学 计算机科学与技术学院, 哈尔滨 150001; 2 哈尔滨华德学院 电子与信息工程学院, 哈尔滨 150025)

0 引 言

近年来,随着证券市场和互联网技术的迅猛发展,证券信息也越来越多。面对快速多变的证券市场,投资者需要快速、准确、及时地了解证券市场和每个股票的相关信息(基本信息、财务信息、行情信息、新闻信息),确定自己的交易行为。

大量的证券信息给投资者带来了信息过载问题。证券信息的挖掘分析,帮助投资者更快、更准地了解证券市场和各个股票的情况。近年来,人工智能的迅猛发展给证券信息的挖掘分析注入新的动力,智慧金融的研究方向也成为新的热点[1],这方面的研究工作包含:算法交易、股票推荐等。

证券市场一般有数千只股票。证券机构设置了一些标签(行业、概念、风格)[2],帮助投资者对股票进行标签分类、板块划分。每个标签对应一个板块,包含一组股票[3]。例如“种业”为一个概念标签,对应的板块包含一组股票“丰乐种业、敦煌种业、登海种业、荃跟高科、北大荒、隆平高科、农发种业、神农基因、苏垦农发”。每个股票对应一组标签。例如:中国平安包含一组标签“券商,大盘股,融资融券,绩优股…”。这些标签构成了股票的最基本的特征。当用户遇到一只陌生的股票时,扫视该股票的相关标签,就能迅速了解该股票的概貌。

标签提供了股票分类的语义知识。有些标签之间存在着层次关系,可以构成标签分类树,见图1。有些标签之间存在着语义关联性,可以组成标签网络,见图2。这些结构性的标签知识,对于帮助人们分析和理解市场、板块、个股的行情波动的原因,具有重要作用[4]。

图1 证券市场的标签分类树的示意图

Fig. 1 Schematic diagram of the tags classification tree of the securities market

图2 证券市场的标签网络的示意图

Fig. 2 Schematic diagram of the tags classification network of the securities market

在证券市场上,股票之间、标签之间、股票和标签之间存在着广泛的关联性[5]。高关联性的股票之间、板块之间在行情上存在着一定的联动性[6-7]。本文将每个股票视为节点,将股票之间的关联性视为边,共同组成股票网络。在股票网络上,某些股票的行情波动可能传染给高关联性的邻居股票节点,在股票网络上进行扩散。另外,将每个标签视为节点,将标签之间的关联性视为边,共同组成标签网络。某些板块的行情波动可能传染给高关联性的邻居板块节点,在标签网络上进行扩散[8]。因此,如何分析股票之间的关联性、标签之间的关联性,以及分析股票网络、标签网络,分析股票之间、板块之间的联动性,对于预测股票、板块的行情具有重要意义。

A股市场的证券服务机构,例如:中信证券、国信证券、同花顺、东方财富等均提供了标签服务,同时通过人工方式设置行业、概念、风格等标签,提供了证券市场的板块划分。但是,上述的标签服务仍然存在着不足,因其并未对股票之间的关联性、标签之间的关联性、以及股票网络、标签网络进行深入分析,难以捕捉高关联性的股票之间、板块之间的联动性。

基于前文论述,本文主要研究证券标签的分析技术,研究内容包含:证券标签信息获取、标签之间的关联性分析、股票之间的关联性分析、股票网络分析、标签网络分析、市场热点分析,帮助投资者进行股票投资的决策。

1 证券标签的问题描述

假设,一个证券市场M包含着一组股票,S={s1,s2,s3,…},其中,每个si为一个股票。该市场也包含着一组标签(板块),T={t1,t2,t3,…},其中,每个tj为一个标签。M=(T,S)。

证券市场M每一时刻都有一组热点标签集合,H={t1,t2,t3,…},H是标签总集T的子集。

每个股票si包含一组标签,si={ti1,ti2,ti3,…}。每个标签tj包含着一组股票,tj={sj1,sj2,sj3,…}。

每个股票si用3个属性描述:涨幅、热度、强度,si=。每个标签tj用2个属性描述:涨幅、热度,tj=

定义1 股票网络将每个股票视为节点,将股票间的关联性视为边,所组成的网络,称为股票网络(Stock Network,SN),SN=(S,ES),称为股票图。其中,S为该网络的节点集合,ES为该网络的边集合。

定义2 标签网络将每个标签视为节点,将标签之间的关联性视为边,所组成的网络,称为标签网络(Tag Network,TN),TN=(T,ET),称为标签图。其中,T为该网络的节点集合,ET为该网络的边集合。

定义3 热点标签网络将每个热点标签视为节点,将标签间的关联性视为边,所组成的网络,称为市场热点网络(Hottag Network,HN),HN=(H,EH),称为热点图。其中,H为热点网络的节点集合,EH为该网络的边集合。热点标签网络是标签网络的子网。

定义4 标签之间的关联性就是2个标签(ti,tj)间的边权值Tij,即利用Jaccard相似度[9]公式来计算。标签网络的边权值的运算公式为:

(1)

所有的Tij组成了标签网络的邻接矩阵。通过设置标签网络的边权值的阈值,生成所有边权值大于阈值的边,就可以生成标签网络。

定义5 股票之间的关联性就是2只股票(si,sj)间的边权值Sij,即利用Jaccard相似度公式来计算。股票网络的边权值的运算公式为:

(2)

所有的Sij组成了股票网络的邻接矩阵。通过设置股票网络的边权值的阈值,生成所有边权值大于阈值的边,就可以生成股票网络。

定义6 股票与标签之间的关联性将一只股票si在30天内的收盘价序列X和一个标签tj在30天的收盘价序列Y之间的行情相似度定义为两者间的关联性,利用Pearson相关系数[10]公式来计算。计算公式可写为:

(3)

定义7 股票热度就是股票近期受关注程度,这体现在行情上就是股票走势的波动性。如果股票走势波动很大,无论波动是正向、还是反向,热度值都会很高,说明该股非常值得注意。反之,如果股票走势平稳,热度就相对较低。热度计算使用5个特征进行加权。这5个特征的权值为本文根据经验人工给定。

某只股票si的热度的数学公式为:

s_hoti=amplitudei*1+isUpi*2+continueUpi*3+

greatUpi*3+changei*1,

(4)

其中,amplitudei是si的振幅 ,振幅 = (当日最高点的价格 - 当日最低点的价格)/ 昨天收盘价;isUpi表示si每日是否涨跌;continueUpi表示si连续三天是否上涨或下跌。如果连续三天上涨则为1,或者连续三天下跌也为1,否则为0;greatUpi表示si在5日内累积涨幅或跌幅是否超过20%。涨幅超过20%和跌幅超过20%均为1,否则为0;changei是si的当日涨幅归一化到[-1,1]后的结果。

定义8 标签热度就是标签近期受关注程度。某个标签tj的热度的运算公式可写为:

(5)

总地来说,标签热度是其包含股票热度的平均值。

定义9 股票强度就是一只股票历史上的触及涨停数,在一个板块内,强度最大的股票为板块的龙头股。

定义10 市场热点标签就是某一时刻“最活跃”的标签集合。本文通过统计发现一天中不同时刻涨幅最大的股票集合变动很大,但这些股票所属的总标签集合变动较小。如果仅将涨幅最大的股票或标签作为热点,那热点图往往呈现出一种无规律性。投资者从极不稳定的热点图中并不能快速得到有效信息。为使热点图的结构相对稳定,采用从涨幅最大的“标签组合”中提取标签的方法,算法描述如下:

(1)算出某一时刻涨幅top300的股票集合S。

(2)令“标签组合”的集合combineT为空集,取S中任意两只股票的标签交集作为一个“标签组合”加入到combineT中。

(3)算出combineT中各个“标签组合”的平均涨幅并排序,选出涨幅top300的“标签组合”集合Top_combineT。

(4)统计Top_combineT中出现次数最多的30个标签作为热点标签集合。

(5)结束。

2 证券标签信息获取

本文研究的是国内A股市场,编写爬虫程序爬取新浪财经等各大财经门户网站上的A股股票数据和标签数据,其中股票相关的行情数据需要每日开盘前定时启动爬虫获取并存入数据库。标签数据经过去重后存入数据库。信息获取流程见图3。

图3 证券信息获取流程图

标签数据的去重步骤如下:

(1)将来源不同、名称相同的标签,合并为一个标签,同时将这些标签的股票集合也进行合并。

(2)将来源不同、名称不同、但股票集合完全相同的标签,将其合并为一个标签。

(3)将来源不同、名称不同、但股票集合重合度在70%以上的标签,人工判定是否去重。

最终,数据库中共有3 564只股票,其中上证A股有1 443只,深证A股有2 121只。经过去重后共有2 969个标签。

3 证券标签分析系统设计和实现

3.1 功能模块设计

本系统预期达到的目标是实现一个证券标签分析系统,系统功能主要由3个模块构成,分别是标签分析模块、市场分析模块、股票分析模块。证券标签分析系统功能图如图4所示。

图4 证券标签分析系统功能图

3.2 标签分析模块

该模块围绕标签网络TN进行功能设计。由于标签网络节点较多、网络结构复杂,难以展示全网。因此本文所展示的标签网络为以某个特定标签为中心的局部标签网络,称为该标签的关联图谱。选择一个标签t0作为中心节点,设定节点数量为n。标签t0的关联图谱是一个二跳网络。

第一跳由“t0-与t0关联性(定义4)最大的n个标签(t1,t2,…,tn)”组成。见图5。

第二跳由“(t1,t2,…,tn)-与t1关联性最大的n个标签(t11,t12,…,t1n),与t2关联性最大的n个标签(t21,t22,…,t2n),…,与tn关联性最大的n个标签(tn1,tn2,…tnn)”组成。见图6。对此可做阐释分述如下。

图5 “人工智能”标签关联图谱的一跳网络

Fig. 5 One-hop network of the "Artificial Intelligence" tag association map

图6 “人工智能”标签关联图谱的二跳网络

Fig. 6 Two-hop network of the "Artificial Intelligence" tag association map

(1)伸缩:二跳网络可以隐藏,从而达到伸缩的效果。

(2)鼠标悬停:当鼠标悬停在某一标签节点上时会出现该标签包含股票的悬浮表,表中股票由对应的股票强度s_strong,股票热度s_hot,股票涨幅s_change进行描述。

(3)关键指标排序:悬浮表中的股票可以按上述三种属性进行升序或降序地排列。如图7所示。图7中已经按股票强度倒序排列。

图7 鼠标悬停在“云计算”标签时的悬浮表

3.3 股票分析模块

该模块围绕股票网络SN进行功能设计。股票关联图谱仅展示以某只特定股票为中心的部分股票网络。用户输入一只股票的名称,即可查找该股票的关联图谱。

在股票关联图谱的研究中,选择一个股票s0作为中心节点,设定节点数量为n。s0的关联图谱是一个二跳网络。这里,股票关联图谱采用了“股票-标签-股票”结构,与定义1中的股票网络不同。这样设计的目的在于指导实际投资,比如当“中国平安”股票上涨时,通过这张图可以发现“金融创新-深圳金融股”和“养老概念”这两个标签都与中国平安关联性较强,用户可以考虑购入这两个标签下的股票,而买入这两个标签下的强度最强的股票最为保险。

第一跳由“s0-与s0关联性(定义6)最大的n个标签(t1,t2,…,tn)”组成。见图8。

第二跳由“(t1,t2,…,tn)-t1包含的强度最大的n个股票(s11,s12,…,s1n),t2包含的强度最大的n个股票(s21,s22,…,s2n),…,tn包含的强度最大的n个股票(sn1,sn2,…,snn)”组成。见图9。对此可做阐释分述如下。

(1)伸缩:二跳网络可以隐藏,从而达到伸缩的效果。

(2)鼠标悬停:当鼠标悬停在某一股票节点si上时会出现与该股相关股票的悬浮表,表中股票由股票强度strong、股票热度s_hot、股票涨幅s_change进行描述。此外还加入了属性“共同标签数”,该属性与定义5相符。故定义1中的股票网络可由各个股票节点的悬浮表描述。

(3)关键指标排序:悬浮表中的股票可以按上述四种属性进行升序或降序地排列。如图10所示。图10中已经按共同标签数倒序排列。

图8 “中国平安”股票关联图谱的一跳网络

Fig. 8 One-hop network of "China Ping An" stock correlation map

图9 “中国平安”股票关联图谱的二跳网络

Fig. 9 Two-hop network of "China Ping An" stock correlation map

图10 鼠标悬停在“浙江世宝”股票时的悬浮表

Fig. 10 Floating table when hovering over "Zhejiang Shibao" stock

3.4 市场分析模块

市场热点是实时更新的,数据库中存储的是分钟级的行情数据,所以市场热点图谱每分钟都会更新。用户查询该图,即可得知热门标签集合及其关联性。热点图呈现出节点聚集现象,这些聚集节点之间边的关系十分复杂,结构相对稳定,往往在一天中的多数时间内都是热点,而其余的游离节点大多数情况下在下一时刻就不再是热点了。投资者通过该图,可以选择购入聚集现象明显的标签节点下的股票。

在研究市场热点图谱时可知,市场热点图的结构符合定义3,如图11所示。图11上节点是定义10中的热点标签。这些热点标签还可以展开新的节点,新节点是涨幅最大的标签组合,如图12所示。

对于市场热点表来说,该表是热点图的表格形式,表中数据包含热门标签、标签组合及其涨幅,如图13所示。

图11 市场热点标签

图12 热点标签组合

图13 市场热点表

4 结束语

本文从标签角度入手,提出了一种新的证券市场分析技术。本文通过构建爬虫获取行情面、基本面等多种数据构建完整多样的标签数据库,分析标签之间、股票之间等多种关联性,构建了证券市场的股票网络、标签网络和热点网络,并合理设计关联图谱予以展示,揭示个股之间潜在的联动性。在一定程度上展示了市场结构和指导了实际投资。本文受到国家自然科学基金(61672185)的资助。

猜你喜欢

关联性图谱热点
基于图对比注意力网络的知识图谱补全
“植物界大熊猫”完整基因组图谱首次发布
基于单元视角的关联性阅读教学策略浅探
学贯中西(4):AI的时序性推论技能
燃气热水器性能与关键结构参数关联性分析
图表
4月高考热点关注
中国知名官方智库图谱
制度系统的关联性特征