大数据时代的经济学思考：数据驱动范式

2017-11-28姚天驹

商情 2017年38期

关键词：经济学大数据

姚天驹

[摘要]经济学研究采用的主要模式是模型驱动范式，推动着经济学的发展。但是21世纪以来，数据量爆炸式增长，模型驱动范式难以满足经济学发展的需要，数据驱动范式应运而生，且具有十分强大的优势，将主导未来的经济学发展。

[关键词]大数据；经济学；数据驱动范式

随着科学技术的发展的进步，科学研究中的数据在数量和种类上都在不断激增，几乎每个领域都在经历数据爆炸。对于经济学研究来说，研究者也应当改变传统研究范式，对数据驱动范式进行研究以适应大数据时代的快速发展。

一、大数据时代的来临

20世纪80年代初期，大数据登上历史的舞台，阿尔文·托夫勒称之为“第三次浪潮的华彩乐章”。随着科学技术的不断进步、数据的重要性提高，大数据时代终于来临。进入90年代中期，信息产业界和学术界开始进行大数据的研究，大量有价值的成果涌现出来。直至进入21世纪，到达了数据大爆炸时代，2011年全球数据量高达1.82ZB（1ZB=2B），2012年全球纸质印刷材料仅承载不到200PB（1PB=2B）的数据量，2013年仅一天的数据量就需要1.88亿张DVD光盘才能容纳。随着大数据时代的来临，大数据爆炸式增长使得各国将大数据上升到国家级战略研究。我国对大数据技术发展时间较晚，直到2012年学术各界才开始了研究热潮。总体来说，大数据具有六大特征：（1）数据量巨大，大数据计量单位已变成ZB（2）和EB（2）。（2）价值巨大。大数据经过精确分析后具有广泛的应用范围。（3）数据类型多样，包括结构化、半结构化和非结构化数据等。（4）处理速度快。发挥大数据的最大应用价值需要将实时大量的大数据精确快速的进行分析。（5）流通灵活，大数据灵活的交易方式将会成为交易量最大的商品。（6）准确性，由于大数据的巨大样本量，经过分析处理得到的结果具有较高的真实性和准确性。大数据时代的来临，给经济学研究带来了思考和挑战，经济学研究范式也发生了改变。

二、数据驱动范式的兴起

（一）数据驱动范式的优势

首先是研究范式由“样本-总体”转变为“样本=总体”。在经济学统计研究领域，使用样本推断总体是一个重要的原则。以往的模型驱动范式采样的随机性难以实现，不能进行奇异值分析也不适合考察子类别情况。而大数据背景下的数据驱动研究范式能够避免这些问题，在数据采集、处理和分析技术上都有巨大的进步，样本即总体，可直接对数据进行分析，不需要考虑抽样方法和模型设计的缺陷。其次是不需要研究假定。数据驱动范式研究不需要假定数据必须符合正态分布等，也不需要假定因变量和自变量之间的关系。从数据原本出发，直接寻找数据之间的关系并发现其中的规律，加以总结形成研究结论。模型驱动研究流程为“假设一验证”，而数据驱动研究流程则是“发现一总结”。最后是检验方法科学，数据驱动研究采用交叉验证方法，将数据分为两类，训练集用来建模，测试集用来检验，实质上就是利用数据本身进行检验，结果的科学性和准确性得到大大提高。

（二）数据驱动范式与模型驱动范式的经济学研究案例分析

在宏观经济分析中，经济增长的“三驾马车”包括投资、消费和净出口，通过从《中国统计年鉴》中获取相关数据，这些数据形成经济增长数据集。以前人构建的中国经济增长问题研究模型为例，首先对经济增长数据集利用数据驱动范式进行随机森林模拟。随机森林算法主要是生成相互独立分布的多个随机向量θ1，θ2…，θk，以训练集为基础，建立树h（x，θi），其中i=1，2…，k。通过这个过程的多次重复生成多个彼此独立的树，由这些树来决定最终结果。这种算法的误差在于树的分类精度，还有树之间的相关性和强度，树的分类精度越大、相关性越小、强度越大，则结果误差越小，反之误差则大。随机森林算法还能度量变量的重要性，从研究结果看，以均方误差的平均递减排序依次为投资、消费和净出口，这个顺序同样代表了变量的重要性，这与我国目前宏观经济的运行趋势一致。

为检验数据驱动范式随机森林算法的准确性，采用模型驱动范式多元线性回归模拟对上述经济增长数据集进行分析，用GDP、CON、INV和NEX代表国内生产总值、消费、投资和净出口的增长率，建立多元线性回归模型如下：

从该模型的假设检验来看，拟合效果较好。各个自变量的参数估计假设检验显著水平均在0.01或者0.1，F检验也通过了显著水平0.01的检验，决定系数R2也超过了0.9。从自变量的系数能够看出，消费（CON）是我国经济增长的重要支撑力量，但我国宏观经济政策是以投资为导向的，这与实际不符，说明了这个多元线性回归模型的分析结果有可能是不准确的，需要进行检验。模型最重要的应用是进行预测，而预测的准确性需要使用交叉检验进行评价。而交叉检验应用原数据进行评价比假设检验更科学，在上述案例中，随机森林算法的模拟效果比多元线性回归模型要好的多，经过4折交叉检验，随机森林算法的测试集平均标准化均方误差为0.253，预测精度非常高，而多元线性回归模型测试集的平均NMSE则为4.378，结果还不及均值预测。因此结论是通过了T检验和F检验的多元线性回归模型仍然对于中国经济增长的分析是不准确的，还是需要由随机森林算法来进行分析。

三、科技创新数据集的随机森林模拟

随机森林模拟算法能够有效克服多元线性回归模型的不足，提升数据的驱动能力，对推动经济学的变革，具有重要作用。在对科技创新数据集进行随机模拟的过程中发现，制度因素是影响科技创新数据集驱动力的关键。人力资源和物力资源也是影响科技创新数据集的重要因素，固定物力对科技创新数据集的作用最不明显。研究结果表明，回归模型的驱动范式和随机森林模拟算法的驱动范式各不相同。单纯从模型的角度来说，包括多元线性回归模型和岭回归模型在内的回归模型，能够更加直观明了的显现出科技创新数据集的驱动力，同时，岭回归模型的驱动要大于多元线性回归模型的驱动力，能够更为准确的揭示科技创新数据集各变量之间的关系。原因是由多重共线对多元线性方程具有一定影响。而随机森林模拟算法未能建立统一的模型，对科技创新数据集驱动力的评价采用最优化算法，参照各个变量间的相互关系，获得测算结果。从对数据的要求来说，科技创新数据集与经济增长数据集具有相似性，在科技增长数据集中，多元线性回归模型的假设数量过多。以至于无法满足所有的假设。同时，由于多元线性回归模型受多重共线性的影响较大，不利于数据的拟合，因此，不得不依靠岭回归模型克服多元线性回归模型的弊端，但通过建立岭回归模型的方式，设定惩罚系数，也会在一定程度上降低模型测定的准确性。通过采用随机森林模拟算法，不需要对数据进行假设，大大减低了应用条件的限制，提升了算法的适应性。从预测的准确性来看，多元线性回归算法、岭回归算法和随机森林模拟算法的准确性都很高，其中一多元线性回归算法的准确率最高。原因是多元线性回归模型的决定系数高于其它两种算法。如果仅仅是为了实现对数据的预测，则可以忽略多重共线性，选择多元线性回归模型。基于此，笔者认为，应根据数据集的使用目的选择科学合理的算法。例如，在研究各变量之间的关系时，可采用岭回归算法和随机森林算法对数据进行拟合并求得结果。如果仅仅是为了实现对数据的预测，那么则应排除多重共线性对多元回归模型的影响，采用多元回归模型对数据进行预测。通过以上研究发现，利用多元回归模型对数据进行预测，准确率较高，岭回归模型能够克服多元线性回归模型的弊端，随机森林算法在数据集的拟合上较为稳健。因此，应结合实际情况，对三种方法进行合理运用。

四、結语

模型驱动和数据驱动两种范式之间的关系类似于牛顿力学、相对论和量子力学的关系，模型驱动范式在数据信息不发达的时代为经济学的研究做出了不可忽视的贡献，而现今在大数据爆炸式增长的时代，数据驱动范式利用模式驱动范式的研究理论和成果发展迅速，二者共同推动经济思想和理论的进步。endprint