我国量化投资研究进展、热点与展望
——基于Citespace的文献计量分析
2021-02-10朱文莉于智超
朱文莉 于智超
(陕西科技大学经济与管理学院,陕西 西安 710021)
量化投资是一种以数据为基础、以模型为核心、以程序化交易为手段的交易方式。伴随实践的发展,国内关于量化投资的研究文献不断增加,本文以中国知网数据库(CNKI)期刊、硕博学位论文为样本,用Citespace可视化分析工具对国内量化投资研究文献进行系统分析,力求直观展现我国量化投资领域的研究进展、热点和趋势,同时为学者的进一步研究提供参考。
本文整理了2010—2020年CNKI中国学术期刊和硕博学位论文中的关于量化投资领域的文献数量,并对其进行可视化。根据图1可以清楚地发现,关于量化投资的相关文献总体上呈现出较为稳定的态势,但在2011和2015年出现小幅下滑,且在2019-2020年间出现极为明显的滑落,幅度达到40%。将其分为三个阶段,第一阶段为2010-2015年,在此阶段增长速度相对缓慢,且文献数量总和整体在100篇以下;第二个阶段为2015-2019年,文献数量呈现快速上升趋势,并于2019年文献数量达到261篇;第三阶段是2019-2020年,此阶段学术期刊
图1 总文献数量统计图
一、数据来源与研究方法
(一)数据来源
勾选CNKI的中国学术期刊和硕博学位论文(网络版) ,以”量化投资”或“Quantitative trading”为检索词,依次进行主题、篇名、关键词检索,发现我国2010年量化投资研究出现爆发式的增长。基于此,本文选取检索日期为2010年1月1日至2020年12月31日,数据采集时间为2021年5月1日。手工剔除了期刊文献中的学术会议通知、会议综述、书评等非学术研究性论文,得到1315篇样本文献,其中期刊论文568篇,学位论文747篇(硕士论文727篇,博士论文20篇)。
(二)研究方法
Citespace是美国德雷塞尔大学终身教授陈超美先生及其团队根据Java语言开发的软件,其主要应用于信息分析领域。该软件可以对文献的作者、研究机构、关键词等信息进行抓取,通过可视化的图谱将这些信息直观展现出来,进一步对信息分析,发现该领域的研究热点和趋势。本文采用的是Citespace的5.7.R5W版本。
二、研究现状分析
(一)论文数量和质量趋势分析
以及学位论文数量均出现显著下降。由图2可以看出,核心期刊的发文数量上下波动较大,趋势较不稳定,说明关于量化投资领域研究总体质量有待提高。
图2 核心期刊文献数统计图
(二)核心作者分析
在将CNKI数据转换后,将其导入Citespace分析,首先对研究作者之间的合作网络进行分析。设置时间段为2010-2020,时间切片为1年,节点类型选择“作者”,同时阈值“提取标准”设置为“Top N=50”,得到了1422个节点,529条连线,网络密度为0.0005的合作网络图。每个节点代表一个作者,连接线代表作者间存在合作,网络密度0.0005表示作者间合作密切程度很低,说明大多学者处于相互独立研究的状态。再用普赖斯定律计算量化投资领域核心作者的数量,计算方法为:n=0.749·,,其中最大发文量量Nmax=11,计算得得n≈3,,即发文量3篇以上的作者可作为量化投资领域的核心作者。结果表明,发文量为3篇及以上的作者共有35名,总计163篇(表1,中间省略),约占量化投资领域研究总论文量的13%,远不及普赖斯定律所提的核心作者群体发文量应占总发文量50%的标准。这也说明了目前量化投资领域尚未形成核心作者群体,缺乏研究的主力军和骨干。
表1 2010—2020年量化投资领域核心作者及发文量情况
三、研究热点和趋势分析
(一)关键词共现分析
关键词共现分析是对文献的关键词进行提取,研究关键词出现的频率及其之间的关系。在Citespace上进行设置,将时间切片设置为1年,分析节点设置为“keyword”,设置阈值插值(2,2,12),分别代表一个单位的时间切片内关键词出现频次最低为2次、共现频次最低为2次,以及关键词之间出现的共现率为12%。首次分析得到239个节点和510条连线,但出现一些相似的关键词,需对这些类似的关键词进行合并,如将“量化投资”“量化交易”及“程序化交易”合并为“量化投资”;将“量化投资策略”“量化策略”“交易策略”及“量化交易策略”合并为“量化投资策略”;“多因子选股模型”“多因子选股”“多因子”及“多因子模型”合并为“多因子选股模型”等等。合并之后再对图谱进行调整,最终得到图3所示的关键词共现图谱,图谱共有213个节点,400条连线,分别代表了出现2次以上的关键词个数以及它们之间的连线。
图3 2010-2020年量化投资研究领域关键词共现图谱
表2列出了出现频次大于等于20次的关键词,一共有18个。中介中心性大于0.10的关键词,可以视为具有高中介中心性的关键节点[1]。
表2 2010-2020年我国量化投资热点主要关键词
结合表2和图3,可以看出,关键词“量化投资”出现的频次最高(701次),其次是关键词“多因子选股模型”(116次),但它们的中心性都不高,分别为0.02和0.03,属于高频低中心性的关键词。接下来是关键词“量化投资策略”和“量化选股”,这两个关键词出现频次分别为101次和51次,同时中心性也较高,分别为0.26和0.5,属于高频高中心性的关键词,这四个关键词可以将其归入量化投资领域研究热点的第一梯队。
频次出现在20至50之间的关键词有“支持向量机”“投资者”“量化基金”,这些关键词虽然出现频次都不算太高(分别为43,39,33),但中心性都比较强(分别为0.16,0.25,0.33),可以将它们归入为量化投资领域研究热点的第二梯队。
除了以上所列的关键词,还有一些低频高中心性的关键词,如“技术分析”的频次和中心性分别为16和0.27,“大数据”的频次和中心性分别为14和0.2,这些关键词出现的频次较低,但中心性较高,也是量化投资领域研究的热点词汇。
最终,结合文献内容,将我国量化投资领域研究关键主题归纳为以下四个方面:
1.对量化投资的基本原理及其在我国的发展探讨。有的学者认为我国量化投资还处于初级阶段,但随着中国的金融市场不断成熟,运用量化投资的机理和方法将是未来国内市场投资策略的发展趋势;有的认为量化投资对金融大数据情报分析的研究亟待加强。总的来说,这部分学者从量化投资原理出发,认为随着我国金融业的发展,量化投资的研究将不断趋于成熟。
2.基于计算机技术对量化投资的策略研究。主要是利用计算机技术,通过计算机的算法,构建量化投资策略,然后利用历史数据对策略进行检验。在这些研究中,有学者利用Random Forest和Adaboost算法与因子库结合,构建的集成学习算法选股模型跑赢了大盘指数并取得了较好收益;也有学者利用 LSTM为基础提出了C-LSTM模型,并基于此构建了指数择时策略,大幅提升了择时信号的准确度。总的来说,利用计算机技术研究量化投资,其重点都是在计算机技术的应用上,通过计算机算法找到合适的选股因子,不断优化量化投资模型,构建跑赢大盘指数的投资组合。
3.基于行为金融学对量化投资的策略研究。主要是从行为金融学的视角出发,研究行为金融学中的各种因素对量化投资的影响。例如有学者构建了动量交易强度指标,通过实证发现了中国的开放式基金普遍存在动量交易行为;也有学者发现羊群效应和动量效应都是有情绪因素和信息传播引起的,短中期(60天内)将这两种效应结合构建组合,可以获得超额收益。总的来说,研究者大都将行为金融的中的指标进行量化,通过市场实证指标的影响,并以此为依据,构建投资收益超过大盘的资产组合。
4.对量化投资存在风险的关注。例如有学者提出量化投资在应用的过程中,减少传统道德风险的同时可能产生新型道德风险,建议规制和监管不断更新,与其发展相适应;再如有学者提出主成分吸收率对股市重大波动有预测能力,以此构建稳健的投资策略,能有效降低投资风险。总的来说,这部分学者从风险的角度出发,以降低量化投资的风险为目的。
(二)研究前沿探测分析
新生主题词的突显代表了研究前沿与研究的新颖度,对2010-2020年所有文献样本的关键词进行突变分析,得出了突变强度排名前34位的突变词,如图4所示。图中显示了关键词、查询的起始年份、关键词突变强度、关键词首次出现的起始时间及结束时间,而红色的线条由关键词的起止时间决定线条越长,关键词突变持续时间越长,如关键词“投资者”(图4),分析的起始年限为2010年,突变强度为3.81,该词在确定的分析期间,首次出现的时间也是2010年,结束于2015年,说明其在2010年至2015年间为量化投资领域研究前沿。
图4 2010-2020年量化投资研究的突变词
由图4看到,在持续时间上,“投资者”“量化基金”“分级基金”“统计套利”作为前沿热点持续时间较长,均到达或超过4年,但2017年之后都不再成为前沿热点。在突变强度上,“量化投资”“股指期货”“随机森林”这些词的突变强度较大,说明在这些词在出现的年份具有较强的新颖性,适合在这些年份作为研究对象。在研究时间推进看,持续到2020年的突变词有“金融科技”“人工智能”“强化学习”“深度学习”“集成学习”“配对交易”,说明量化投资领域研究的前沿热点多与计算机相关。总的来说,量化投资的发展得益于大数据、人工智能、机器学习等与计算机领域相关研究的发展,量化投资需要的数学模型、完善的数据体系、程序化的交易手段等条件,这些都通过计算机技术的发展得到了很好的应用,未来关于量化投资的研究,也一定是围绕着计算机技术而展开的。
四、研究结论与展望
(一)主要结论
1.近年来,量化投资研究文献数量在不断增加,但研究的质量并不稳定。目前该领域尚未形成核心作者群体,缺乏研究骨干。
2.在研究热点和研究主题方面,量化投资从以“量化选股”“量化投资策略”为主要关键词,扩展到“机器学习”“支持向量机”“股指期货”等关键词,主要形成了四个方面的主题研究,分别是对量化投资的基本原理及其在我国的发展的探讨、基于计算机技术对量化投资的研究、基于行为金融学对量化投资的研究、对量化投资发展中风险的关注。
3.在研究前沿方面,持续到2020年的突变词有“金融科技”“人工智能”“强化学习”“深度学习”“集成学习”“配对交易”,说明量化投资领域研究的前沿热点多与计算机相关,未来关于量化投资的研究,也一定是围绕着计算机技术而展开的。
(二)研究展望
随着我国金融市场的不断发展壮大,量化投资技术逐渐趋于成熟并被大家所接受,伴随实践的发展,量化投资将会更加受到研究者关注。根据Citespace文献计量分析结论和量化投资发展趋势,进一步研究应注重以下几个方面。
1.注重合作研究,在合作中形成更多高水平研究成果,提升研究质量,逐步形成核心作者群体。
2.加强本土化研究。与国外的成熟资本市场相比,我国资本市场开放时间较短,资本市场的政策和规则变动频繁,量化和对冲工具相对较少。基于中国资本市场的特征,可以更多关注政策和规则的调整、投资者的非理性行为,探索符合国内市场的量化投资理念和方法。
3.充分利用大数据技术获取数据,探索更为优化的量化投资模型。未来的研究,充分利用大数据深度挖掘信息数据,不断更新信息数据的同时,提炼有价值的信息数据,保证所收集信息的有效性和及时性,同时将计算机技术和数理统计有效结合起来,科学地利用人工智能、机器学习等方法,进一步去寻找更多更好的模型,不断更新完善量化投资模型。