机器学习在计量经济学中的应用

2019-03-09朱明

大经贸 2019年12期

【摘要】随着计算机技术的发展，机器学习技术广泛应用于工业界各个领域。传统计量经济学与机器学习有着共同的理论基础和相同的研究方法，同时从研究方式与目的，对模型的要求、模型检验方式都有着明显的差异。对于传统计量经济学存在诸多不足，例如理论假设过强、样本不足、模型泛化能力弱等问题，机器学习的范式和方法可以应用于其中，可以有效解决传统计量经济学中的问题。

【关键词】机器学习计量经济学模型泛化

一、引言

机器学习被视为人工智能的子集，是对算法和统计模型的科学研究，计算机系统使用这些算法和统计模型来执行特定任务而无需使用明确的指令，而是依靠模式和推理。机器学习算法基于样本数据（称为训练数据）建立数学模型，以便进行预测或决策，而无需明确程序来执行任务。随着信息技术的快速发展以及互联网普及，大数据得以产生，机器学习在诸多领域如医学、金融、数据分析等发挥着重要的作用。随着机器学习在各行各业应用的不断深入，经济学界也开始广泛应用机器学习于经济领域的研究。这方面，国外学者已经取得积极进展，如诺贝尔奖得主萨金特就开设“量化经济”（QuantEco）项目，运用机器学习方法对传统经济学重新演绎。

计量经济学是以数理经济学和数理统计学为方法论基础，对于经济问题试图对理论上的数量接近和经验（实证研究）上的数量接近这两者进行综合而产生的经济学分支。然而，传统的计量经济学有着其固有的缺陷，无法对很多现实问题作出令人信服解释，尤其是在预测方面。而基于现有的样本数据对测试数据作出准确预测是机器学习基本任务。因此，将机器学习范式和方法运用于计量经济学中，可以很好地弥补传统计量经济学中的不足。

二、机器学习与计量经济学的异同

某种程度上，机器学习与计量经济学是“一枚硬币的两面”，许多经典的机器学习算法如线性回归、Logit回归等线性模型最早开始也是在经济学研究中运用，并随着计算机技术的发展逐渐开始在其他领域中应用。线性模型也是机器学习算法的基础，近年兴起的神经网络也是从线性模型发展而来。最优化是计量经济学主要研究手段，同时也是机器学习优化模型主要方法，因此两者研究本质都是最优化问题。从中可以看出，计量经济学和机器学习有着共同的理论基础和研究方法。

然而，两者的“任务”是不同的。传统计量经济学主要任务是对经济理论进行实证分析，对研究者提出理论进行事后检验，模型的可解释性非常重要;机器学习的主要任务是预测，主要解决回归和分类问题，模型的可解释性的重要程度并非最高。

三、机器学习能弥补计量经济学的不足

传统计量经济学广泛应用于主流经济学的研究，在学术界引起了许多争议，一方面，很多学者认为这使得“工具主义”在经济学界泛滥，忽略经济研究的本质;另一方面，传统经济学一直强于解释而疏于预测，对未来经济趋势总是无法作出准确合理预测。传统计量经济学的实证结果仅能对已有数据和观测结果进行检验，往往不重视对新样本的预测，这很容易使得模型过拟合。而机器学习其中一个主要研究方向是解决模型的过拟合问题，以更好地给出合理的预测。谷歌首席经济学家范里安（Hal Varian）认为，机器学习的范式和可以和计量经济学无缝衔接，机器学习诸多方法解决传统经济学存在的诸多问题。

1. 划分训练-测试数据集。传统计量经济学主要是通过统计量检验模型的拟合好坏，但这种方法有着很大局限，强于解释而疏于预测，尤其在对未知数据的预测上。算法模型使用训练集进行拟合，并对训练集预测，然后再对测试集进行预测，将两者的结果进行比较。如果训练集的预测结果与测试集的结果相差很小，则表示模型的泛化能力很好;反之，模型的泛化能力很差。

传统计量经济学一般不会划分数据集来检验模型的拟合好坏，无法检测模型的泛化能力，这使得计量经济模型无法应用到未知的数据。

2. 正则化。正则化在机器学习中主要用于防止模型的过拟合，提高模型的泛化能力。正则化是为解决过拟合问题而加入的额外信息的过程，而额外信息一般作为惩罚项加入到最优化过程中，以降低模型的复杂度。复杂的模型往往无法很好地拟合训练数据，但无法拟合未知数据。损失函数内置正则化技术，以“惩罚”参数过多的模型。“正则化”的意思是要让预测更加“规范”或更可接受，让模型更能适应未知的数据。

线性回归、Logit回归等线性模型在传统计量经济学有着广泛应用，但在计量经济学中线性模型有着很强的假设，比如同方差、不存在多重共线性等，这些假设在现实中很难实现。这就导致计量经济模型都存在过拟合现象。通过在计量模型加入惩罚项可以很好解决计量经济模型中不能满足假设的情况，可以很好解决模型过拟合情况。

3. 马氏链蒙特卡洛方法。马尔可夫链蒙特卡洛方法（MCMC）是一组用马氏链从随机分布取样的算法，之前步骤的作为底本。它从连续随机变量创建样本，其概率密度与已知函数成正比。它能有效解决数据分析中样本不足的问题。在传统的计量经济学中，数据样本的获取和样本质量的好坏对实证结果有着重要的影响。现实中，样本不仅在获取上存在困难，而且取得的样本质量上往往参差不齐。因此，MCMC能有效解决计量经济学中样本不足的问题。

四、结论与展望

随着计算机技术的发展和大数据的兴起，机器学习与其他学科领域融合会越来越多，而传统计量经济学与机器学习有着共同的理论基础和相同的研究方法。将机器学习的方法和范式运用于计量经济学中，既可以有效解决传统计量经济学强于解释而疏于预测的不足，还可放宽传统计量经济学过于严苛的理论假设，让理论模型更贴近于现实。此外，机器学习更加注重模型的预测能力，而不是模型的可解释性，因而大大降低了研究者的理论门槛。

【参考文献】

[1] 高华川.机器学习在经济学中的应用[J].纳税，2019，13（24）：152-153.

[2] 周志华. 《机器学习》[J]. 航空港， 2018（2）：94-94.

[3] Chevalier J . Comment on "Artificial Intelligence， Economics， and Industrial Organization"[J]. NBER Chapters， 2018.

作者簡介：朱明（1992），男，汉，湖南省郴州市，学生，硕士，广东财经大学，产业经济学