统计学的新视野:大数据与机器学习
2023-11-29刘敬伟张小成
刘敬伟 罗 君 张小成
(1.茅台学院 工商管理系,贵州 仁怀 564507;2.贵州财经大学 大数据应用与经济学院,贵州 贵阳 550025)
随着科技进步和发展,数据量急剧增长,大数据概念和大数据分析应运而生。大数据指无法使用传统数据处理工具进行分析且结构复杂的大量数据的集合。广泛使用大数据分析的主要原因是连续生成和存储大量高维或非结构化数据的成本比以前低得多。当今时代每天都会产生大量信息,加上计算机硬件和软件的发展,人们能够更细致地考察和分析这些海量数据。借助数据挖掘、数据转换、数据合并以及机器学习算法等,这些数据在不同领域得到应用。人们更有可能获得关于所研究事物的详细资料和信息,也在不断开发新技术和新方法,以便更好地进行大数据分析。
大数据应用的目的是通过适当方法对海量数据和高维数据进行估计,了解变量之间的关系,寻找隐藏的数据结构,并揭示总体重要的共同特征。大数据能以不同的格式从不同渠道获取,除了已知的统计数据库,如统计年鉴,也可以是基于计算机的数据,如科学实验数据、传感器数据、图片、视频等,还可以是基于人工的数据,如社交媒体、个人博客和网站网页等。美国科技基金会联邦大数据委员会(Tech America Foundation Federal Big Data Commission)将不同来源的大数据定义为:“大数据描述了高速生成的海量复杂数据,需要先进的技术与方法来实现对信息的收集、存储、传输、管理和分析。”可以看出,大数据考虑了要处理数据的规模、结构和复杂性,也正是由于这些特性,它不同于常用的数据类型。
在天文学、生物学和遗传学领域得到广泛应用的大数据,已经开始在金融、医疗、营销和人工智能等其他领域发挥决定性作用,说明大数据具有广阔的应用前景。鉴于每个部门独特的动态变化,大数据的使用也因部门而异,基于此,收集什么样的数据以及如何使用这些数据也有所不同。随着大数据在众多领域广泛应用,近年来,大数据和大数据分析的概念在统计学领域开始受到关注,并不断发展出新的统计技术与方法。用于大数据分析的机器学习,由于其视角和难度不同,在统计学领域中的应用相对较慢。现有研究表明,人们对大数据和机器学习在统计学中的应用越发感兴趣,有学者认为从长远看,日益重要的大数据必将为统计学研究开辟新视野。为了在统计学中应用大数据、进行大数据分析并发展新的统计方法,清楚地解释大数据的概念并正确理解机器学习就显得非常重要。
本文通过梳理相关文献,分析大数据的特征、优势和挑战,考察大数据和机器学习在统计学领域的地位和重要性,论证大数据和机器学习将成为统计学新视野的观点。
一、大数据的概念与特征
(一)大数据的概念
Abaker(2015)为大数据下过一个简单定义:大数据是用传统数据库技术难以存储、处理和分析的数据量,意味着量大、高维,这些数据表示为具有大量的解释变量和观测值。大数据分为以下三种:结构化数据、非结构化数据和半结构化数据,这三种数据类型的获得源不同。结构化数据是按照预先定义的模式存储在文件中作为固定栏下记录的信息,以非常系统的方式创建和处理,如表格或其他形式,添加、删除、更新、存储、查询和分析这些数据很简单,结构化查询语言(SQL)通常用来查询结构化数据。非结构化数据是以非标准的、未知形式写入的数据,此类数据来源于如电子邮件、视频、图像、文本文件、社交媒体的帖子等。半结构化数据是关系数据库中不可用的信息,这些数据很难存储、检索和分析,执行这些操作需要专门的软件。
(二)大数据的特征
大数据有几个不同的重要特征。Laney(2001)将大数据的特征定义为数量性(Volume)、多样性(Variety)和速度性(Velocity)等几个组成部分,大数据的概念一般通过考虑这三个基本特征来研究,这三个特征在文献中也被称为3V维度。随着研究的深入,除了这几个特征,可变性(Variability)、准确性(Veracity)和价值性(Value)也被作为大数据的特征在文献中被广泛讨论,从而形成6V维度的特征。
大数据的关键特征是数据的数量性,即数据量。在大数据几个特征中数据量排第一,无论是用户生成还是机器自动生成的数据,通常用TB、PB或EB等单位来衡量数据量。大数据的速度特征(speed feature)是需要处理的数据频率,意味着数据正在以前所未有的速度生成、存储或更新。多样性是数据中的结构异质性,也表示数据来源的多样性(diversity)。可变性(variability)是确定数据的结构是否规则和可靠,即使在极其不确定和不可预测的情况下,可变性是数据含义的变化而非数据的异质性。准确性(veracity)是与某些类型数据相关的信度水平,包括可靠性(reliability)、精确性(accuracy)和精准度(precision)。准确性是表明数据集的可靠性和无差错程度的属性。价值性是从数据中可得到的价值及意义,数据的价值属性直接关系最终的研究目的。因此必须确保所做分析基于正确数据,且在分析结束时数据仍具有价值并得到明显改进。
大数据的其他特征,如有效性(Validity)、波动性(Volatility)、可视化(Visualization)和脆弱性(Vulnerability)在相关文献中也有提到。有效性特征与准确性特征类似,表明数据对其预期用途的准确度和有效性。波动性指数据的有效时长和存储时间。可视化指包含许多数据变量的复杂图形。脆弱性指数据来源的不足。除了这些10V特征,还可以增加复杂性(complexity)特征。复杂性指数据处理的难度和困惑。讨论大数据的这些特征,有助于了解大数据的优势和挑战,为可能遇到的困难提供解决措施。
二、大数据的优势与挑战
与传统数据不同,大数据具有自身的特点,是许多数据源的综合,数据源彼此间没有共同特征,且来自不同的总体。大数据分析的一个主要优势是可以从单个大群体中获得额外信息,而不是从统计总体中单独的一个子群体中获得。大数据的大样本容量使我们能够发现与统计总体的子群体相关的隐藏模式,从而有机会运用需要复杂统计技术的子群体数据对变异性进行建模。大数据分析的另一个优势是数据源是实时更新的,这一特征使判断正在发生的经济趋势成为可能。此外,使用大样本数据集还可以解决由有限观测值引起的统计问题,也有机会获得关于研究对象更详细的信息。
大数据除上述优势外,也面临着困境和挑战。从大数据的定义和特征可以理解,这些数据不同于分析中常用的数据类型。由于大数据的特性,此类数据的收集、存储、共享、传输、可视化和分析是大数据面临的重要挑战之一。另一个挑战是处理数据时可能出现的问题,如RAM限制等内存问题,在处理过程中解决时间问题,以及消除索引等数据结构化问题。
大数据样本容量大和维度高的特点使传统的统计方法不再适用,有待发展新的统计和计算方法。由于大数据的规模和样本量很大,使用大数据会遇到一些困难。首先是大数据的高维性可能产生的噪声累积、虚假相关和随机内生性问题,以及变异性(异质性)和偏差问题。其次是大数据的高维和大样本特征结合在一起时,可能出现分析的计算成本高和规则的算法不稳定等问题。如果在使用大数据时不考虑适当的方法而是基于传统方法进行预测,上述情形就会导致模型选择不一致。大数据很难用标准的数据处理方法进行检验,小样本的统计方法不适合大数据,因此,发展新的统计方法以克服可能遇到的困境非常重要且有必要。新的方法将新的统计思想和算法、机器学习结合起来,能够成功解决大数据使用中最常遇到的变异性、噪声积累、虚假回归和内生性等问题。
三、机器学习
机器学习是人工智能的一个分支,由建模和算法组成,这些算法使用数学和统计学方法从现有数据中推断,并通过这些推断对未知事物进行预测。机器学习的主要目的是作出精确预测,而估计函数通常难以解释且与特定概率模型相关。机器学习是一个广泛的领域,包括人工智能、计算机视觉和统计学习等,统计学习是机器学习的一个子集,在统计学中有很好的应用,是数据分析中不同预测方法和规范方法的总称,这些方法是现代经济中大多数智能服务和应用的基石。
从事大数据分析的研究人员使用各种机器学习算法获取所需信息并进行预测,这些算法根据数据的学习路径分为有监督学习和无监督学习两类进行预测。无监督学习指用来寻找数据中先前未知的结构与关系的方法,目的是在数据中找到相似的样本集,并对数据中的底层结构或分布进行建模,以了解有关数据的更多信息。有监督学习指基于训练数据集创建机器学习模型的过程,从训练数据中寻找算法学习过程,然后用测试数据对学习过程进行监督。有监督机器学习主要关注预测和估计问题,分为回归和分类两个部分:回归是用于估计定量变量的有监督学习,分类是将观察结果划分为定性类别以建模和预测定性变量的有监督学习。
对于有监督学习,有不同的机器学习方法,如LASSO、Ridge、随机森林、回归树、支持向量机以及矩阵因子等。统计学中的大多数应用都属于有监督学习,统计学方法与有监督机器学习之间的区别在于,很多有监督机器学习方法都依赖于数据驱动的模型选择。对于有监督学习方法,数据集通常分为训练数据和测试数据两部分。训练数据是由算法决定的观测值组成的数据,使用这些数据是通过所讨论的算法进行推断并创建模型,测试数据用来确定使用训练数据获得的模型与真实值的接近程度。机器学习可用于传统数据集以及大数据的预处理和估计,在低维数据和高维数据中都有应用。
四、大数据、机器学习与统计学
虽然大数据已经在很多领域得到普遍应用,在统计学领域的应用却相对迟缓,在经济与统计分析中使用大数据还存在一定的局限性,原因是社会科学领域中与大数据和大数据分析相关的概念还未被广泛接受。事实上大数据为更好、更细致地衡量经济趋势,对不同的主题开展新研究、发展新方法以及进行更强大、更准确的分析提供了重要机会。根据Einav和Levin(2014)的说法,大数据将影响经济学家提出的问题类型,通过允许更多的变异性,随时间推移对经济活动进行更详细的分析来提供更多信息。
不同领域针对大数据开展的研究相对丰富,但在经济学和统计学领域的研究尚在起步阶段,而大数据的特征正是统计学研究的重要源泉,有学者指出,大数据将对未来经济学和统计学产生重要影响。近年来大数据在统计学领域的应用受到重视,也发展出一些新的统计方法,以大数据为主题的理论研究和实践应用的学术会议也在逐渐增多。
大数据统计学家试图在不受数据约束的情况下,从更广泛的范围考虑内在原因来研究相关问题。考虑到机器学习在分析高维数据中的必要性,专家试图结合统计学与机器学习来提供更多的信息,这样在收集和分析大型数据集、建立变量之间关系并加以比较时,可以保证所需要的计算能力和算法精度达到最高。在获得经济计量与统计结果的同时,对大数据和高维数据的处理也成了可能。
由于机器学习的适用范围和存在困难,统计学领域大数据研究仍相对较少,但机器学习和统计学的结合使用已经引起人们的广泛关注,尤其随着最近几年机器学习算法的改进更是如此。统计学应用机器学习算法和方法时最重要的是了解统计学和机器学习之间的区别。统计学主要侧重估计因果效应和识别因果关系,机器学习提供的算法工具可以汇总数据中的各种关系,并基于模型选择做出适当的估计。简单来说,机器学习主要包括降维、模型选择和数据分析等。此外,统计分析主要针对观察值数量大于变量数量的情况进行,机器学习不仅可以分析此类数据,也使在观察值数量等于或少于解释变量数量的情况下进行数据分析成为可能。以上这些差异,尤其是机器学习不关注因果关系这一事实导致统计学家与机器学习及其算法保持距离。
斯坦福大学的Athey教授是支持在统计学领域使用机器学习的重要人物之一,并在该领域进行了许多理论研究。他简要概述了机器学习和因果推断之间的关系,创建了包括统计学习算法在内的研究框架,为统计学领域通过机器学习进行因果推断作出重要贡献。为了强调机器学习在统计学领域应用的重要性,Athey(2018)将机器学习定义为“机器学习是计算机科学诸多子领域的集合,也是计算机科学、工程学、统计学和社会科学中越来越多地应用和发展的一系列主题。”“机器学习是一个开发应用于数据集的算法设计的领域,其核心主题包括估计、回归、分类和聚类。”尽管机器学习方法在经济学和统计学文献中占有相对有限的地位,但基于在统计学领域收集大数据的可能性以及分析大数据的愿望,人们对这些方法的兴趣显著增加。在统计分析中,机器学习在降维、模型选择和数据分析等方面作用很大,且在机器学习的框架内考虑因果关系这一事实也促进了新统计方法的发展。近年来,与因果推断相关的统计学出现了新发展和新方法,机器学习在统计学中变得越来越重要。
五、大数据和机器学习在统计学领域的主要研究方向和未来展望
(一)主要研究方向
虽然经济学、统计学领域关于大数据和机器学习的研究起步较晚,但文献中也涌现出一些有趣的研究。Varian(2014)指出,在进行经济分析时集中起来的计算机更有可能执行大量的操作,例如数据收集和编辑、个性化和定制、预测和分析,同时强调通过计算机分析大数据的能力对经济研究结果的呈现意义重大。Varian(2014)定义了一些使用、管理和分析大数据的工具,指出机器学习在其工作中的重要性,强调将来通过计算机专家和统计学家的合作,能够取得非常好的成果。Einav和Levin(2014)广泛讨论了大数据如何改变商业、政府和经济的其他领域,并给出不同案例开展讨论,重点讨论了不断发展中的数据源和更详细的数据将给经济实践和分析带来的变化。在同年发表的其他研究中,他们认为,更详细全面的数据可以更好地量化经济影响和结果,从而提供新的研究问题。Einav和Levin(2014)强调,大数据将改变经济学家和统计学家处理应用研究和研究中使用统计工具的方式。Fan和Han(2014)讨论了大数据的挑战,他们通过解决大数据的数量和高维度困难,引起人们对复杂性、噪声数据和异质性等问题的关注。Taylor(2014)分析了如何使用大数据统计学方法来阐明经济问题,大数据将如何发展和改变经济模型,以及经济学与其他学科的合作。
有关机器学习的文献中,许多研究作了政策预测,如Jiang和Li(2016)、Athey和Wager(2021)、Dudik和Erhan等(2014)。Athey(2017)总结了在政策实施中使用估计方法时出现的几个问题。据了解,最近的研究主要集中在通过修正和开发新的统计技术进行因果推断,特别是在机器学习算法中。Hastie和Tibshirani(2009)讨论了大数据中的非参数方法,LASSO方法是有监督机器学习中最重要的方法之一,它是一种惩罚回归模型,由于大数据的高维性,这些估计方法在大数据研究中得到普遍使用。Belloni和Chernozhukov等(2015)展示了在他们的工作中将机器学习方法应用于经济学因果推理的例子。除此之外,其研究中还加入了人工神经网络和深度学习等概念,并强调了机器学习的必要性。
Belloni和Chernozhukov(2014)对LASSO方法提出了改进,借助这种改进,得到能够获得有效置信区间的条件。他们在研究中展示了真实数据集中可能出现的偏差量,还强调了预测建模和因果效应估计之间的区别。随机森林也是重要的机器学习方法之一,Wager和Athey(2017)在他们的研究中强调,虽然随机森林的结构看起来很复杂,且与标准的统计学方法有很大不同,但它与k近邻等非参数方法密切相关。此外,他们对随机森林方法进行了修正,使该方法能够以真实条件期望函数为中心给出渐近估计,并得到渐近方差的一致估计量。Wager和Athey(2018)引入了因果森林的思想,因果森林是机器学习中使用的大量树的平均值。Athey和Tibshirani(2019)还建议用广义随机森林替代局部广义矩或局部最大相似度方法。在另一项研究中,Athey(2018)定义了机器学习并讨论其优劣势,将机器学习与用于因果推断的传统统计学工具进行了比较。
(二)主要研究趋势与展望
根据以上文献梳理与分析,当前大数据和机器学习在统计学领域的研究热点及未来主要研究趋势可以归纳为如下方面:1.大数据分析。随着信息技术的发展,越来越多的数据被产生和收集,大数据分析正在成为统计学的一个重要方向,它涉及如何从大规模、复杂的数据集中抽取有用的信息。2.机器学习与统计学的融合。统计学和机器学习之间的边界正在逐渐模糊,两者的结合能够更好地处理复杂的预测和分类问题。3.深度学习。尽管深度学习更多被视为人工智能领域的一部分,但其在统计学中也有应用,特别是在处理高维度、非线性数据时。4.贝叶斯方法的复兴。贝叶斯方法在处理不确定性和复杂数据结构时具有独特的优势,随着计算能力的提高,贝叶斯方法在统计学中的应用越来越广泛。5.因果推断。因果推断试图从数据中推断出因果关系,而不仅仅是相关关系,这在很多领域都有应用,例如公共卫生、经济学和社会科学。6.计算统计。随着计算能力的提高,计算统计学正在成为统计学的重要分支,涉及使用计算机模拟和其他数值方法解决统计问题。7.隐私保护和数据安全。随着数据收集和分析的增加,如何保护个人信息和数据安全成为重要问题,包括开发新的、对隐私友好的统计方法,如差分隐私。8.可解释性和透明度。在机器学习和深度学习中,统计模型的可解释性和透明度越来越重要,统计学家正在寻找方法来理解和解释这些复杂模型。9.统计学在非传统领域的应用。统计学方法被应用于越来越多的非传统领域,如社会网络分析、基因组学和神经科学。10.自动化和AI驱动的统计分析。随着人工智能和自动化技术的进步,更多的统计分析将被自动化,如自动特征选择、自动模型选择和自动超参数调优等正在被研发应用。11.高维统计。在许多领域如生物信息学和网络分析,统计学家常常需要处理高维数据,高维统计研究如何从高维数据中提取有用信息,同时避免诸如“维度灾难”等问题。12.稳健统计。稳健统计研究如何创建对异常值和模型假设的小偏差具有弹性的方法,随着数据质量和数据一致性问题的增加,该领域的重要性正在增强。13.在线学习和数据流统计。在线学习指模型在新数据到来时进行更新,而不是一次处理所有数据,这种方法对处理大规模数据流和时变数据特别有用。14.时间序列分析的新方法。新的时间序列分析方法,如复杂的非线性模型和多元时间序列模型正在被开发和应用。15.统计学软件和编程语言。编程语言和软件工具,如R和Python正在持续发展以帮助统计学家更有效地进行数据分析,同时新的统计学软件也在不断出现。16.图形模型。包括贝叶斯网络和马尔科夫随机场等,可用于表示变量之间的复杂依赖关系,这些模型在处理高维数据和非线性关系时尤其有用。17.优化统计学。优化方法在统计学中的应用正在扩大,尤其在参数估计和模型选择中,最近凸优化、随机优化和分布式优化等方法的应用领域正在扩大。18.神经网络和深度学习的统计理论。尽管深度学习在实践中取得了巨大成功,但其统计理论基础仍不清楚,理解神经网络的统计属性和学习动态是一个重要的研究方向。19.元分析和系统评估。元分析和系统评估是复杂研究综述的重要工具,这些方法可将来自不同研究的结果进行汇总,并评估研究质量和偏倚。20.生存分析或事件史分析的新方法。生存分析或事件史分析是统计学重要分支,复杂协变量模型和多事件模型等新方法正在不断被开发和应用。
六、结语
与其他领域一样,在统计学领域能收集到关于不同测量变量的大量数据。大数据分析能够揭示与经典数据应用及预测方法的差异以及带来的新问题。鉴于大数据的样本量大、高维度等特点,在统计学领域需要使用机器学习等提供的方法和算法开展研究。在统计分析中使用机器学习方法和算法的同时,要明白统计学与机器学习之间的差异。为克服这些差异更好地使用大数据,开发新机器学习算法和方法很重要。
统计学中的大数据研究可能开创一个全新而有趣的领域。近年来,统计学领域的学术研究、学术会议等明显表现出了对大数据和机器学习的兴趣。大数据统计学和大数据计量经济学课程已经开始在硕博士课程中开设。从这种日益增长的兴趣中可以看出,除了统计学中现有的大数据应用,新的机器学习算法和方法将得到广泛应用。有了这些新的机器学习算法和方法,统计学研究将在大数据的使用上得到广泛应用,利用更详细的信息进行分析,并利用从不同来源获得的信息得出不同的结果。
通过统计学与机器学习的跨学科合作,建立一种通用语言揭示相关研究十分重要,将在不同领域发现更多可能。开发符合统计学研究目的的算法和方法,将对在统计学领域更广泛地进行大数据分析发挥重要作用。本文梳理最新研究文献的进展,为大数据与机器学习在统计学的研究开辟了新视野。