基于隐马尔可夫模型HMM的证券市场择时策略研究
2018-08-10李琳洁
李琳洁
(安徽财经大学金融学院,安徽 蚌埠 233000)
1998年,鲍姆将隐马尔科夫策略应用于语音识别,并取得了显著的成效。在金融投资领域,隐马尔科夫模型通常被用来研究股票市场价格的震荡。由于马尔可夫链具有有限记忆的特征,也就是说其属性与其近时期内的数据相关,这与股票市场的价格走向类似,所以可以考虑基于马尔科夫链来根据历史数据来模拟未来股票价格走势。我们无法知道市场未来的确切状态,而市场状态与择时策略息息相关,我们就可以基于HMM的量化模型,通过观察股票市场的某些指标,例如成交量,主力资金流向,换手率等对市场状态进行预测,进而得到近期市场的大致走向,这对股票市场择时选择具有重要的参考价值。
一、隐马尔科夫模型HMM的建立与完善
由于隐马尔科夫模型的熵值得大小可以度量系统的不确定性和无规则性,这和股票市场股价波动趋势不谋而和。因此,我们可以猜测是否可以用隐马尔可夫的隐含状态的属性来度量股价的波动趋势呢,这就形成了一个基于HMM的量化雏形。
设状态序列Y,观测序列X,两个状态转移概率:从yi-1到yi的条件概率分布p(yi-1|yi),状态yi的输出观测概率p(xi|yi),初始概率po(y)。
隐马尔可夫模型依赖于已知数据的概率分布,当下的决策要根据以往的历史来确定,但是实际能够用来做测试的数据不连续,而且很庞大,不能一一给出所有数据的分布情况,所以才要估计x,y的条件概率。
由于隐马尔可夫模型需要每个变量之间有严格的独立关系,且有限的元素对市场状态的识别稍有欠缺,而最大熵模型相比使用范围更广,没有独立性要求,它的本质是有向概率图模型,即每个yi只依赖于xi,并且每个C(yi,yi-1,xi)组合之间是独立且局部诡异,相比较来说,比较完善。
在证券投资中,我们往往选择组合投资策略,进而更大程度的降低风险,我们可以在此称之为最大熵原理。当取得最大熵时,则代表各种随机的情况发生的可能性是相同的。据此,可以将客观存在的事实为前提,得到最大熵的概率分布关系。
假设特征函数为f(x,y),可以看出,它为一个二元隐函数,令f(x,y)=1时,表示事件x,y发生。
在实际市场环境中,某一观测值对应的隐含条件是由其所在的环境决定的,这就极大的体现出来特征函数取值的灵活性,我们可以根据市场的变化来随意的调整选取的指标。
在数据集T={(X,Y)}中,分别计算出模型和经验期望:
通过拉格朗日对偶原理将原式变为无约束的极值求解:
用p(yi|yi-1,Xi)分布来代替HMM中的两个条件概率分布,它表示从先前状态在观测值下得到当前状态的概率,即根据前一状态和当前观测状态。每个这样的分布函数pyi-1(yi|xi)都是一个服从最大熵的指数模型。
其中λi是模型中各个特征函数的参数向量,Z是以观测序列X为条件概率的归一化因子,其意义是将复杂的联合概率分布分解为多个因子的乘积。
最大熵模型,可以说是集简与繁于一休,形式简单,实现复杂。在现代社会,我们可以观察到有很多领域或多或少的用到了最大熵模型。比如谷歌的翻译机器。该模型最大的优势是可以在无数种影响因子的条件下建立对应的无数种模型,这正好可以满足影响股票市场波动的无数种因素的需求。世界上最早创立文艺复兴科技公司的达拉皮垂兄弟,改进了最大熵模型并成功的运用了最大熵模型和其他些先进的数学工具对股票预测,取得了前所未有的成功。据统计,从该基金1988年创六至今,它的净同报率高达平均每年34%。也就是说,如果1988年你在该基金投入一块钱,今天你能得到200块钱。这个业绩,远远超过股神巴菲特的旗舰公司伯克夏哈撒韦(Bcrkshirc Hathaway)。同期,伯克夏哈撒韦的总回报是16倍。纵观现代科技技术,很多数学手段被广泛用来信息处理,包括隐含马尔可大模型、子波变换、贝叶斯网络等等,在华尔街多有直接的应用。
二、策略的实证研究
参数设置。对A股市场做了实证研究(2010年~2016年),首先,本文作出如下说明:
隐藏状态数(hidden state)∶既要保证隐含状态间的相互独立,又要做出明确的市场现状分析,进而做出成功的投资策略。基于证券市场隐含状态的无穷化,所以这就要求HMM模型所观测的数据的平稳性、广泛性以及迭代次数的可信服性等。
特征向量∶1日、5日对数收益差、当日对数高低价差、当日成交量、对数独资余额差,总计5个;假设所有的特征向量的状态服从高斯分布。
结果如下图所示,我们用不同的颜色来表示不同的状态:
可以看到,不同市场的状态都可以用HMM来表示出来。大体上,我们可以认为市场有三大种(包括六种形态)显著不同的特征,即快速上升状态,快速下跌状态以及震荡状态。其中,震荡这种状态最为复杂,也就是难于预测,这可能与时下的国家经济政策、投资者的投资倾向、消费的季节性等因素相关。震荡状态包含有不同的亚隐藏状态,例如震荡上升,震荡下跌等复杂的市场状态。需要说明的是,这里对操作做了延时一日的处埋,即当天得到某状态后,第二天才能进行操作。可以看到,状态0和状态2是一个明显的上升阶段,可以分别对应于牛市的泡沫期和熊市的反弹期;可以明显看出,熊市下跌期是状态1,泡沫破裂阶段对应状态4,状态5很可能是市场由于某种原因上升后做出的的调整,而状态3的走势比较平稳,所以更加符合当前的市场状态。
利用股指期货市场可以做空的优势,我们可以做出这样一个策略,在不考虑第三天的情况下,当处于状态0和2时,第二天做多,当处于状态1、2和5时第二天做空,其收益曲线图如下所示:
从图中可以看到,从2010年至2016年的约6年间,可以获得约10倍的收益(股灾过后的影响被尽量压缩了),约为46.3%的年化收益率。所以这个模型的可靠性是相当可以。由于技术的限制,在现有的Python现有的版本中HMMleam扩展包不够完善,无法实时生行数据回测,所以日前暂时无法执行相关实时测试,相信等到该扩展包完善之后就能够实际投入量化操作之中进行实盘交易了。
由于当代A股市场更加的市场化、法治化、国际化,极大地打击了市场投机,这对有些原本被高估的板块施加了更大的压力。而优质蓝筹股却面临着前所未有的给予,这些优质股往往与经济基本面分析密切联系,越来越受到投资者的青睐,成为大众投资的重地,如大消费、大健康以及高端制造业等领域。与此同步,市场也更加注重对前景看好的板块给予更多的优惠政策。近年以来,“龙头+白马”股的强势行情,使得A股市场的机构投资成为重要的资金来源,公募、私募和保险等资金不断涌入。目前,投资者把重仓的重心转移向了优质股,这意味着企业的长期、稳定的盈利将会被给予更多的关注,而短期的炒作一方面由于投资者更加趋于理智化,另一方面由于监管力度的加强而越来越少,这有利于社会资金的有效配置。从投资者的倾向来看,未来资金有可能集中分布在两个板块:一方面是致力于经济转型和经济创新的新兴企业,比如互联网行业;二是代表企业核心竞争力的产业,也就是实力产业。最近“漂亮50”做为A股市场最具有发展潜力的蓝筹股的代表,其走势大致上紧随大盘走势,往往受到机构投资者的青睐。“漂亮50”往往会造成指数加速上行,经常出现在市场最后一冲的阶段,所以对于这种行情在把握时要随时准备撤离。而隐马尔可夫模型HMM的证券市场择时策略在风险和收益方面,长期表现良好,适合长期操作,而且面对极端情况能够保持稳定,具有良好的实用价值,适用于长期操作,对于投资者来说,能够大致预测合适的入场时机,是一个不错的择时策略选择。