APP下载

浅析大数据时代统计学的适用性

2021-11-22贾亚军

中国管理信息化 2021年9期
关键词:导向性总体样本

贾亚军

(山西省统计科学研究所,太原 030002)

1 统计学与抽样

统计学是以数据为基础进行的估计判断。数据是严谨的、枯燥的,但也是客观的、丰富的。数据是数字,但不只是数字。统计学还是一门关于数据的艺术。如何高效、准确地分析所得数据,并把它转化成比数据本身更有用的知识才是统计学的目的。世间的一切,貌似杂乱却又暗自遵循着某种规律,就像Pythagoras 学派形容的那样,万物皆是数,“在理性的基础上,所有的判断都是统计学”。

样本是相对于总体而言的,在进行调查或观测中,只是抽取了一部分作为样本。随机样本,在统计学中更是一个举足轻重的概念。样本之于统计学,如同利刃之于宝剑,羽翼之于苍鹰。统计学的目的就是通过对少量数据的观测、收集来印证尽可能多的发现。在人们获取和储存数据的能力都十分有限的年代,随机采样是一种捷径,人们无须耗时耗力去观测总体中所有的个体就可以通过样本对总体有一个大概的估计。

2 大数据与大数据思维

2.1 大数据的定义

大数据,一个多维、复杂、多源而又高速变化的数据海洋。这是《大数据时代》的作者舍恩伯格先生给出的定义。他强调,不能单纯地把大数据理解为数据规模很大。大数据具有著名的4V 特点,即海量规模(Volume)、多样形式(Variety)、高速产生(Velocity)和巨大的潜在价值(Value)。事实上,不是只有“数字”才被称为数据的。淘宝,大家一定都不陌生。确认收货之后,就可以对宝贝进行评价了,包括描述相符、服务态度、发货速度和物流服务4 个方面,在统计学中,就是4 个变量。Stanley Smith Stevens 在1946 年将变量分为4 类:无序分类变量、有序分类变量、定距变量和定比变量,即数据的4 种类型。淘宝评价中的星级就属于有序分类变量。这四种维度的数据,可以用于表达现实生活中的各类信息。

2.2 大数据思维

大数据给人们的生活、工作、思维方式带来深刻的变革。有的人对这个时代抱着宗教般的崇拜和莫名的热情;有的人则带着某种不安,诚惶诚恐地去拥抱这个新时代。大数据时代,是技术、数据和思维三足鼎立的时代。技术是物质基础,数据是资源,思维是关键。这里的思维,其实就是指数据思维。我们通常讲的大数据思维,主要指以下几种思维。

2.2.1 总体思维

传统统计学原理是利用少量样本窥探总体,这个总体总是事先明确的。但在大数据时代,人们开始放弃对总体的狂热追求,侧重于分析个体特征,通过对个体的观测预测未来。在获取数据和储存数据的能力都不是很发达的年代,人们无法观测总体,只能通过抽样技术来抽取样本,从而实现对总体情况的一个估计,是一种间接的样本分析法。而随着大数据时代的来临,获取和储存数据已经不是问题,人们有能力获取几乎涵盖总体的海量数据,其中包括原来样本中被遗漏的细节,信息量足够,误差也大大降低。另外移动互联网以及云计算的飞速发展也为数据的大量获取和快速处理提供了便利,大数据也正是在时代发展中应运而生的。

2.2.2 容错思维

与抽样时代对数据“精确性”的狂热追求不同,大数据思维强调的是数据的复杂性。这也有其客观合理性。其一,在资源有限的情况下,人们无暇既追求量又苛求质,以前采用抽样的分析方法,追求的是“以少博多”,所以要尽可能地确保获得的信息是精确的,如果不这样,就不可能起到“四两拨千斤”的估计效果,分析出来的结论也会毫无价值,甚至会起到相反效果,把决策者引向一条不归路;其二,虽然在微观上可能存在这样或者那样的误差甚至错误的信息,但把大数据作为一个宏观的、有机的整体来审视,却又能提供有价值的信息。我们要的是一个大的框架,一个既模糊而又精确的趋势的判断。或许大数据就应该是海纳百川的,只有包容适当的错误才能取得更大的回报。

2.2.3 相关思维

小数据时代,人们执着于关注事物的因果关系,通过样本分析揭示其内在机制。由于小数据本身存在缺陷,无法反映事物之间相关性,大数据的出现,才让人们更关注相关关系而非因果关系。事物之间总是有内在联系的,比如,A 总是伴随着B的发生而发生,至于为什么会这样,我们不用去在意。即大数据的核心要义是:通过观测线性的或者非线性的相关关系,揭示事物之间隐蔽的、复杂的关系,利用这些洞见去捕捉现在和预测未来。大数据笃信:研究相关性远比研究因果关系更具价值,它会为人类认识世界开辟全新视角。

3 大数据时代,“样本”已过时

在技术尚不发达的特殊时期,需要通过对少量数据的观测,去估测总体情况。而在大数据时代,获取和储存数据已经不是问题,人们有能力获取几乎涵盖总体的海量数据,能够直接观测总体。那么,是否真的如大数据的推崇者所言:样本已经过时,大数据才更接近事实?基于样本统计、预测分析的传统统计学是否还将处于主导地位?大数据是有益的补充,还是更替?我们该如何看待这些问题呢?

3.1 方法导向性研究仍然需要抽样分析

我们可以从科学研究的两种方法来讨论这个问题。研究的方法一般分为两类,一类是问题导向性,另一类是方法导向性。我们通常将以问题为切入点进行研究,在实践中思考,在思考中研究,并最终取得成果的方法称为问题导向性研究。这跟大数据处理问题的做法不谋而合:发现问题,之后向数据要答案。反之,就是方法定了,我们以倒推方式,拿着方法去套问题,在成型方法论的基础上,探寻其潜能的研究称为方法导向性研究。这就好比传统统计学中的抽样,统计学理论笃信随机抽样能够反映总体。因此,抽样分析在方法导向性研究中仍有用武之地。

3.2 数据探索阶段仍然可以继续使用抽样

无论信息技术发展到什么地步,大数据都无法覆盖社会的全部,受法律、伦理,尤其是技术等因素的诸多影响,无论大数据如何庞大,也只是总体中的一个样本。传统的统计抽样方法能够用尽量少的数据和相对复杂的模型获取有价值的信息。即便在大数据时代,这种方法成熟且优势明显的统计方法仍然有其用武之地。事实证明,大数据分析和抽样并不矛盾,尤其是在数据探索阶段,比如,在ETL(Extract-Transform-Load)过程中,信息是未知的,需要将数据抽取出来,并将不同数据源的数据进行转换和整合,得出一致性的数据,然后加载到数据仓库中,是数据从源系统流入数据仓库的通道。研究表明,在这个过程中使用抽样进行数据分析是一个有效的途径。另一方面,大数据往往需要过度抽样,导致数据无法高效处理,因此,从成本与效率的角度去衡量,只要不是失真的抽样,样本质量能得到保证,那么继续采取合理或适当的抽样也是必要的。

3.3 抽样依旧更符合经济学原理

在大数据时代,传统的思维模式受到挑战。这并不意味着这些基于传统思维的数据分析方法会被迅速淘汰。相反,在这个尝试新事物需要付出巨大成本和面临巨大风险的变革时代,在未来很长一段时间,传统的方法都还将继续发挥很重要的作用。比如,统计学中的抽样技术。虽然大数据思维强调完整的数据下的样本即是总体,但大数据的总体和真正意义的总体并不一定能够完全重合,事实上,在大多数情况下还存在相当大程度的偏差。并且,有能力和财力获取如此大规模数据的公司或者机构毕竟是少数,抽样依旧是一个更符合经济学原理且普遍适用于各行各业的方法。

在大数据发展风起云涌的时代,推销大数据思想,并且反复强调数据分析的重要性,绝对是社会发展的正能量。但与此同时,我们也必须冷静地看待大数据的一些潜在的缺陷和问题。这并不是怀疑大数据对新时代的贡献,而是说任何新生事物的发展都需要有一个过程,我们需要用辩证的方法去看待。大数据带来了思维变革、商业变革和管理变革,对于统计工作者而言,这种变革不仅意味着丰富了统计研究的内容、拓宽了统计研究的范围、增强了统计学的生命力,还意味着统计学在这个时代中更需要变革、进步,因为离开统计学思维的支持,难免会出现“大数据,大偏差”的窘境,使人们陷入无穷无尽的数据海洋而看不到彼岸。

4 结语

大数据带来了灵感,带来了创新。大数据是一种洞察力和决策力,引领着人们从一个混沌的时代走向一个澄明的时代,引领人们更清楚地认识世界与自己,以及二者之间千丝万缕的联系。在统计学中也有一系列方法可以对数据进行形象的阐述。使人们在面对大量数据茫然的时候,能够迅速提炼出有用信息,以一种直接、感性的方式勾勒出隐藏在冷冰冰数据背后的内涵。从辩证的角度来讲,大数据与抽样是同一问题的不同说法,不仅是样本,还是总体。抽样注重的是过程,大数据体现的是结果,二者相辅相成,并不矛盾。大数据的出现,弥补了部分样本难以体现规律的不足,显著提升人们对社会及事物的认知。

猜你喜欢

导向性总体样本
任务导向性训练与冰、酸剌激促进脑卒中后吞咽功能障碍康复的研究进展
2020年秋粮收购总体进度快于上年
任务导向性训练在脑瘫患儿治疗中的研究进展
外汇市场运行有望延续总体平稳发展趋势
论新闻记者如何把握好新闻导向性
推动医改的“直销样本”
直击高考中的用样本估计总体
随机微分方程的样本Lyapunov二次型估计
村企共赢的样本
关于医药卫生类高职院校校级课题立项导向性的建议