机器学习驱动的基本面量化投资研究

2020-11-06钟小强

科学与财富 2020年22期

钟小强

摘要：基本面量化投资是近年来金融科技和量化投资研究的新热点。作为人工智能的代表性技术，机器学习能够大幅度提高经济学和管理学中预测类研究的效果。

关键词：机器学习;基本面;量化投资

互联网及大数据模式下的经济活动促使了更多高维、复杂经验数据的产生，机器学习在科学研究领域的应用为新范式下的经济研究提供了新型的研究方法，进而促使经济学研究由当前的线性、低维、有限样本、抽象模型向非线性、高维、大样本、复杂模型的转向。经济学实证研究及计量经济学模型理论研究中对机器学习的应用及相关文献的出现，是这次转向的主要标志。

1机器学习的内涵界定

广义的机器学习认为，机器学习是计算机科学的一些分支领域的集合，也是机器一系列在计算机科学、工程学、统计学尤其是社会科学中发展和使用。由于机器学习算法广泛应用于不同学科，不同领域或学科对机器学习的界定也不同。狭义的机器学习则来自各个学科对机器学习的分别界定。如计算机科学认为，机器学习是数据科学的核心，是现代人工智能的本质，机器学习简单来说就是涵盖了统计推断的人工智能。工业和工程学等领域认为，机器学习是对能基于现有经验自动改进计算机算法的研究，这种算法对人工智能的发展具有关键的促进作用。统计学认为，机器学习是从数据中挖掘出有价值的信息，是更高层次、更智能化的数据挖掘方法。统计学对机器学习三个层次的划分是基于计算机视觉理论创始人马尔关于计算机视觉的三级论定义的，他并将机器学习分为初级、中级和高级三个层次。初级机器学习是获取数据和提取数据特征;中级机器学习是数据处理与分析，包括应用问题导向的模型和方法的应用，也就是数据挖掘，但机器学习的数据挖掘更强调问题导向，重在提出和发展模型、方法及算法，并探讨其背后的数学原理或理论基础;高级机器学习是通过统计推断而达到某种智能与认知。统计学认为，机器学习和数据挖掘具有相同的本质，只是数据挖掘更偏向于数据端，而机器学习则偏向于智能端。计量经济学认为，机器学习是一种应用计量经济学研究方法，是传统计量经济学研究方法在数据处理与预测领域的一种进步，是大数据背景下计量经济学回归分析及預测方法的发展，机器学习基于计算机的算法，其本质是对计量经济学工具箱的一种丰富。经济学认为，机器学习是一个领域，旨在开发应用于数据集的算法，这些算法主要集中于回归（预测）、分类和聚类任务，分为有监督机器学习和无监督机器学习两类：有监督的机器学习是在样本数据或向量预先设定好“标签”（一系列的预先假定，如分类的标准）的前提下，总结出样本向量的映射关系，如正则化回归和分类;无监督的机器学习是在没有对样本数据或向量设定任何“标签”的情况下，从数据中识别出其内部蕴含关系的一种“挖掘”工作，聚类是典型的无监督机器学习。从机器学习的算法出现及其学科应用来看，机器学习具有计算机与人工智能的学科背景，涵盖部分统计学学科内容，研究方法具有高度兼容性，可应用于各个领域、学科门类，对机器学习泛泛的广义界定或基于某个领域、学科门类的狭义界定，都是不恰当的。因此，基于对机器学习的研究对象、学科主旨、学科特点和方法论基础，我们对机器学习的内涵作出如下界定：机器学习是旨在通过数据、文本、图片等现实经验信息，通过计算机算法来进行深度挖掘，进而对经验现实进行建模及预测的一门科学。机器学习强大的数据、文本、图片处理功能，基于计算机和人工智能的深度挖掘功能和基于数据、文本、图像等高度复杂经验信息的模型选择及预测功能，使其广泛应用于现实世界的各个领域，并与各个领域现有研究方法相结合，演化并生成了适合各个领域独特研究的系列机器学习算法，并伴随着各领域的发展而不断进化生成新的算法体系，这使得机器学习成为一门以多学科交叉共融为其首要特点的经验科学。从机器学习本身的学科特征看，机器学习以现实的经验信息为研究对象，以计算机和人工智能相结合的算法为研究方法，以数据科学、人工智能为算法逻辑基础，以对现实复杂的经验信息进行系统化表达与准确预测为学科宗旨，以多领域的交叉共融的高度兼容性和进步性为学科特点。从机器学习学科的方法论基础看，机器学习以逻辑实证主义为其方法论基础，以数据导向的研究模式为其研究范式，以模型与经验信息的一致为其模型体系的特征。

2基本面量化投资分析

基本面量化投资融合了量化投资（计算机驱动）与价值投资（人为驱动），是近年来备受关注的一种智能量化投资方式。其核心是分析股票的基本面因素和风险溢价（或超额收益）之间的关系，或股票收益的准确预测。当前学术研究中的基本面因素通常来源于市场异象的研究，即能够提供超额收益的公司特征。尽管现有研究提出了数以百计的被认为能够提供超额收益的市场异象因子，但后续的样本外检验发现大部分因子难以持续地提供超额收益。异象因子的大量涌现也对传统的资产定价方法提出了技术挑战：①资产风险溢价的候选因子多达数百个，且很多因子极为相近，而传统的组合排序和Fama-MacBeth回归并未综合考虑各因子，也未考虑因子间的交互作用;②当因子维度变大时，线性和非线性的考虑使得预测函数形式的搜索复杂度急剧增加，几乎无法通过人工去指定，但现有研究方法并未提供高维因子与预测函数形式选择的建议。以上两个技术难题呼唤着新研究工具的介入，前美国金融学会会长Cochrane认为，在处理如此众多的因子时，必须使用“不同的研究工具”。作为人工智能的代表性技术，机器学习和深度学习是其中强有力的备选工具。机器学习和深度学习包含众多类型的研究方法，如监督学习、无监督学习、半监督学习等。这三种研究方式的主要区别在于对数据样本标签的要求。监督学习需要样本的标签（比如股票收益），无监督学习无需标签，半监督学习则需要部分标签。本文选择（监督）机器学习来分析异象因子与超额收益之间关系，原因有三：①资产收益预测本质上是一个预测问题，而机器学习和深度学习旨在自动地寻找数据中的复杂结构和模式来辅助预测。在资产收益预测中，收益数据的存在从本质上决定了该问题是一个监督学习的任务。因此，监督学习中的回归方法天然地适用于资产收益预测研究。②针对前述两个技术难题，机器学习的三个特性使其适用于该预测问题。通过众多备选的预测函数形式，无论线性模型还是非线性模型，机器学习提供了一系列丰富的方法来实现更加准确的预测;很多机器学习方法（如深度神经网络等）专门被设计用于逼近复杂的非线性关系;参数正则化和模型选择等技术使得在选择预测函数时不易过拟合而导致虚假发现。③现有研究中丰富的异象因子为机器学习提供了有理论基础的输入变量，使得本文的研究区别于很多纯粹的金融数据挖掘。尽管机器学习和深度学习研究方法天然地适用于解决股票收益预测面临的挑战，但根据机器学习理论中的“没有免费午餐定理”，本文并不能预知哪个算法会取得最好的预测效果。因此，机器学习算法在中国股票收益预测问题上的表现也就成了一个实证问题，需要系统性检验。但是现有机器学习方法预测股票收益多从方法论的创新出发，仍缺乏系统性的研究来检视其作用和效果。

结束语：本文对机器学习在经济学和管理学中的应用研究具有重要的启示。机器学习在经济学和管理学中的应用主要有两个视角：①运用机器学习处理非结构化数据并提取代理变量，比如运用机器学习算法从文本中提取投资者情绪指标等;②在经济学和管理学中的预测问题上运用机器学习方法以提升其预测能力，尤其是样本外预测的效果。

参考文献：

[1] 黄乃静，于明哲.机器学习对经济学研究的影响研究进展[J].经济学动态，2018，（7）：115-129.

[2] 李斌，林彦，唐闻轩.ML-TEA：一套基于机器学习和技术分析的量化投资算法[J].系统工程理论与实践，2017，37（5）：1089-1100.