统计学方法的发展及其在大数据中的应用分析
2021-09-27张娟
张娟
摘要:统计实践活动在诞生之初只是单纯的计数与描述,其研究方法和理论是与相关的数学理论相结合的,也就是形成了一门逻辑构架严密的学科——统计学。概率论与数理统计,各种统计推断模型与方法,以及近几十年来计算机与网络技术的普及,给数据采集与处理带来的巨大进步,对统计学的萌芽与发展发挥了重要作用,使统计方法在各个领域得到广泛应用。通过统计员和有关专家的不懈努力,统计方法不断完善。从大数据时代统计方法的发展趋势,应用及拓展谈起,不仅能够加深对统计学方法的认识和理解,也为未来的统计学研究发展方向提供借鉴和启发。
关键词:统计方法;发展;大数据;应用
引言:当前,大数据浪潮已经逐渐冲击了世界,对人类社会产生了巨大冲击,同时也影响了世界的发展进程。大数据的强烈冲击对应用统计学研究也产生了深远的影响。本论文主要探讨和研究统计方法从萌芽到发展的过程中与大数据、并对其在大数据中的应用进行了探讨。
一、不同阶段统计方法发展概述
(一)统计学方法的萌芽
初期统计工作仅限于实际工作阶段,调查、登记、核实一件事。1671年诞生了政治算术学派和国术学派。就统计学研究的内容而言,国力学派注重国力在不同国家之间的比较,而政治算术学派则注重人口学和生活经济指标的比较。伴随着政治算术学派和国家权力学派的出现,统计开始发挥着超越计数的作用。将大量的统计实践归纳为统计理论,使统计知识系统化和综合化。从那以后,政治算术学派与国家权力学派争论了二百多年。最终,这一分歧的解决为今后的统计发展奠定了基础[1]。
(二)统计学方法的关键发展
1.概率论—统计学的基石
早期概率论,数学学派与国力学派争论不休的时期,数学家通过解答大量的博弈问题,创造了一种新的学科概率理论。结合式,递推式,条件概率式,全概率式,期望式的概念,使得概率计算由简单计数阶段发展到更加精确阶段。在早期,由于概率论本身还不够成熟,概率论和统计学的交叉并没有迅速展开。但随着数学分析等数学理论的发展,概率论在数学上有了很好的基础,大大提高了它的严谨性和通用性,为它在统计上的扩展提供了依据。
2.随机过程,十九世纪,概率论的发展由相对静态变量研究发展到随机变量时间序列即随机过程研究。随机性的产生大大拓展了概率论的应用和研究领域,使随机变量的研究由静态向动态发展,取得了很大进展。时间序列分析的理论基础是随机过程描述和研究变量随时间变化的运动过程,并将相关结果应用于实际预测和决策。随机性和实践性的特点使其在数学和非数学领域有着广泛的应用和发展。
3.大数定律,约在1685年,英国著名数学家伯努利完成了他的学术巨作《推测术》,但这本书1713年才出版,在书中他用数学把赌博中的现象理论化,并提出了伯努利定理。伯努利定理是“大数定律”的最初形式,而许多统计方法和理论都建立在大数定律的基础上。
(三)数理统计的提出与发展—统计学和实践相结合的开始
隨着大数定律和中心极限定理的提出,二项分布概率P的“逆概率”问题作为新的问题产生了。“逆概率”指的是结果推原因,即为数理统计。关于如何做统计推断问题,统计学家的观点主要分为两种:一种是频率学派,认为参数 E是固定的、未知的常数,而样本 x是随机的,其焦点是样本空间。二是贝叶斯学派,它与频率学派相对立。把参量 E看作是一个随机变量,样本x看作是一个固定变量,关注参数空间。源于十九世纪六十年代贝叶斯统计理论的贝叶斯学派,用概率论的方法来解决“反概率”问题。对于一些参数模型和小样本情况,贝叶斯方法较频率法更为方便,因为它可以避免求样本分布的麻烦。非参量模型不易设定先验分布,采用频度校合法更为方便。所以,两者是互补的。数学统计的出现,使得将统计的概率论和实际得到的数据结合起来,实现对统计参数的逆向推导成为可能,是统计学发展的一个重大突破。由此,统计数据能够从样本中获得总体概率估计,为以后的统计预测、控制和实证分析奠定了坚实的基础[2]。
二、统计学方法在大数据时代的应用
过去,对资料的收集整理主要是通过人工,主要包括试验调查资料和一些二级资料等渠道进行。资料稀少且昂贵。主要依据抽样数据进行统计分析。这种方法是以因果关系为基础的统计分析,是一门综合学科,它以一定的数据推论整体,进而得出事物的总体分布。随着计算机技术和互联网、物联网的发展,数据的取得、记录和储存和过去相比变得更加容易,可以用于分析的数据呈几何级增长。统计是以数据为基础的,在此意义上,大数据的产生对统计工作具有划时代的意义。海量数据具有多样性、海量性和高速性的特点,这与高统计成本、大误差相对应。但这并不意味着统计数字时代的终结。大数据的搜索,聚类和分类仍需要依赖于统计方法。机器学习是大数据时代统计学中最不可分割的部分。机器学习专家 MichelleJordan和 TomMitchell认为,机器学习是计算机科学和统计学的交叉学科,是人工智能和数据科学的核心。如今,机器学习已成为统计学的发展方向,扩大了统计学可研究问题的范围。与此同时,机器学习也离不开统计。有很多可以用于机器学习项目的统计方法,它们都很有价值[3]。
结语:
总的来说,只要有数据,就有统计数据。统计学从17世纪国力学派、算术学派的论战,到今天与大数据、计算机技术的互动,其内容不断更新和完善,应用领域不断拓展,统计方法也不断创新。伴随着大数据时代的到来,统计学研究开始从小样本的统计推断分析转向大样本挖掘。今后的趋势是把现有的统计方法和数据思维结合起来,产生新的统计方法,或者更广泛地应用大数据算法。未来我国统计方法的发展应充分考虑实际需要,积极适应时代的变化。目前,随着大数据时代的全面到来,大数据技术已在我国广泛应用,并在实际应用过程中取得了令人满意的效果。大数据与统计方法相结合,能够更好地反映统计方法的作用,使统计方法不断发展壮大,它的功能在大数据背景下得到了更加充分的体现。
参考文献:
[1]"大数据中的统计方法"课题组,马双鸽.大数据时代统计学发展的若干问题[J].统计研究,2017,34(01):5-11.
[2]李金昌.基于大数据思维的统计学若干理论问题[J].统计研究,2016,33(11):3-10.
[3]邱东.大数据时代对统计学的挑战[J].统计研究,2014,31(01):16-22.