基于NLP和深度森林的金融舆情抓取与分析
2020-08-17王子敏周杰梁佳雯何加豪
王子敏 周杰 梁佳雯 何加豪
摘要:采用自然语言处理技术对爬取的文本数据进行分词、去停用词处理,利用TextRank、TF-IDF算法提取关键字,构建适用于单篇文章的词重要性指数模型,从中提取重要变量建立适用于沪深300指数的投资者情绪预测模型,借助深度森林算法预测交易信号构建交易策略。结果表明,在样本期基于自然语言处理与深度森林算法对股票交易信号的预测准确率达72.23%,且收益也超过传统策略收益,具备重要的投资指导意义。
关键词:自然语言处理;深度森林;投资者情绪指标;量化交易策略
★基金项目:江苏省大学生创新创业训练计划国家级立项——“基于NPL的A股市场舆情监控及其量化投资策略研究”(项目编号:SZDG2019039)成果之一。
引言
自然语言处理技术作为人工智能领域的重要分支,始终被放在科研领域的最前沿。如今,随着新型算法的诞生以及新思想、新技术的提出,人类在自然语言处理领域已经实现了重大突破。尤其在英文方面,科研人员已经建立了一套相当完备的研究方法。英语文本由于其书写格式的独特性,对自然语言处理解决了分词处理上的困难。正因此,自然语言处理也被国外投资公司、交易人员大量的运用到量化交易中,并取得了不错的效果。本文紧跟金融前沿领域的研究热点,通过对中文文本的深度挖掘,并结合机器学习技术,探索自然语言处理技术在国内股票市场的实用性与可行性。
1、文献综述
对于投资者情绪的度量主要受限于数据的获取以及情绪指标的载体上,众多研究人员多用经济指标作为投资者情绪的代理指标。例如,彭益(2012)[1]采用概率统计的方法对指数涨跌的概率进行预测,Backer & Wurgler(2001)[2]选取了封闭式基金的折价率作为度量投资者情绪的指标,而鹿坪和冷军(2017)[3]则选取了消费者信心指数作为度量投资者情绪的指标。
在直接挖取投资者情绪指数方面,Danbolt(2015)[4]利用从Twitter上获取的海量投资者评论信息,从中直接提取情绪指标。石善冲等(2018)[5]提出了针对用户素质较高的微信平台的投资者情绪构建方法,但由于微信平台属于社交平台,在金融领域的专业度不够高,因此所获取的数据针对性有所减弱。孟雪井等(2016)[6]则通过筛选词汇出现的频率高低作为研究投资者情绪的特征,这也在一定程度上忽略了词汇的频繁出现会导致其代表性的泛化,最终会影响到模型精确度。
基于前人的研究基础和存在的问题,在数据来源方面,精选了“同花顺”平台的分析师评论,并结合词语的逆文档频率对重要词汇进行二次筛选,以期获得更具代表性的特征,最后使用机器学习算法,构建情绪指标。
2、数据获取
本研究爬取了2016年6月14日至2019年6月14日的11105篇金融研究评论,并在此数据的基础上通过TextRank、TF-IDF算法选取重要词汇共计124个建立金融语料库,并以这些词汇作为后续特征工程的输入变量。此外,本研究还爬取了百度指数,共计10万条左右。针对沪深300指数数据,本研究从wind中获取了2016年6月14日至2019年6月14日共计731个交易日的日内交易数据。
3、情绪指标建立
3.1 算法原理介绍
(1)TextRank算法
(2)TF-IDF算法过滤关键词
利用TF-IDF算法,将TextRank算法得到的793个词汇在进行一次重要性排序,提取出重要性更高的词汇,其中关键词过滤算法如下:
(3)投资者情绪指标建立
① 特征选择:
在进行数据预处理是,通常需要对已有特征做进一步的筛选以获得更加适合机器学习算法的特征。经过筛选后发现,随着词汇的推移,词汇的方差越来越小,最终趋向于0,因而这些词汇的发散性不强,对于目标的预测不具有很好的解释性,为了避免因特征选择过多而造成的过度拟合,我们选取“半导体”前22个词汇作为特征。
② 文本特征量化处理:
本文通過特征是否发散的标准已经筛选出了更为合适的22个词汇,并以此作为特征。之后,我们利用百度指数作为词汇量化的标准。此处我们选用百度指数的环比增长率作为百度指数的衡量指标
③ 建立指标模型:
将2016年6月14日至2018年6月14日的数据作为训练集,将2018年6月14日至2019年6月14日的数据作为测试集。训练集数据主要用于对机器学习模型参数的寻优工作,而本文使用的深度森林算法则是通过建立深度随机树模型,采取多次迭代寻优的方式寻找出特征最适合的权重。测试集数据主要用于对模型的检验,通过对预测精确度、召回率等指标的比较,判定模型是否具有使用价值。
4、模型对比
4.1 模型多角度对比
(1)模型策略与自然增长率的比较
观察图2,当执行买入并持有策略时,最终的收益率11.35%;而当执行模型发出的信号进行交易时,最终受益是29.84%。
(2)模型策略与移动双均线比较
观察图2,移动双均线获得了17.01%的收益率且最大回撤为-12.39%。移动双均线的回报率和最大回撤的表现比自然收益率的表现更加优越,这可能取决于移动双均线模型对于上涨和下跌的趋势把握的较好。但相较于本文建立的模型来说,移动双均线的表现在多指标上都要劣与本文建立的投资者情感指标模型,因而,本文建立的模型相较于传统技术指标具有较好表现。
结论
本文通过将建立的基于投资者情绪交易策略与买入并持有一年策略、传统技术指标策略进行对比后发现,基于投资者情绪的交易策略最终获得了29.84%的收益,明显高于买入并持有策略的11.35%和双均线策略的17.01%。与此同时,在深度森林算法的基础上对股市未来走势加以预测,精确度为72.23%。相比前人,精确度更高,更具有使用价值。
参考文献
[1] 彭益. 基于数据挖掘的股票指数涨跌概率推断[J]. 统计与决策, 2012(16): 159-161.
[2] Loewenstein G F, Weber E U, Hsee C K,et al. Risk as feelings[J]. Psychological Bulletin, 2001,127(2): 267
[3] 鹿坪,冷军. 投资者情绪与盈利管理——基于应计盈余管理与真实盈余管理的实证研究[J]. 管理科学学报,2017(2): 88-96
[4] Danbolt J, Siganos A, Vagenas-Nanos E. Investor sentiment and bidder announcement abnormal returns[J]. Journal of Corporate Finance,2015,33(3): 164-179.
[5] 石善冲, 朱颖楠, 赵志刚. 基于微信文本挖掘的投资者情绪与股票市场表现[J]. 系统工程理论与实践, 2018, 38(6): 1404-1412.
[6] 孟雪井,杨亚飞,赵新泉.财经新闻与股市投资策略研究——基于财经网站的文本挖掘[J].投资研究,2016, 35(8): 29-37.
[7] Barrios F , López, Federico, et al. Variations of the Similarity Function of TextRank for Automated Summarization[J]. 2016.
[8] Cong Y , Chan Y B , Ragan M A . A novel alignment-free method for detection of lateral genetic transfer based on TF-IDF[J]. Scientific Reports, 2016, 6: 30308.
[9] Zhou Z H , Feng J. Deep Forest: Towards An Alternative to Deep Neural Networks[J]. 2017.
[10] 命士汶,朱學锋,耿立波.自然语言处理技术与语言深度计算[J].中国社会科学,2015(3): 127-135.
[11] 黄润鹏, 左文明, 毕凌燕. 基于微博情绪信息的股票市场预测[J].管理工程学报, 2015, 29(1): 47-52.
作者简介:
王子敏,博士,南京邮电大学副教授,硕士生导师,研究方向为信息产业经济与管理;
周杰,梁佳雯,何加豪,南京邮电大学。