大数据背景下数据统计分析理念探讨
2019-02-19魏瑶/文
魏 瑶/ 文
数据是统计分析的基础,而随着现代信息技术的快速发展,数据驱动的大数据时代,以及与大数据相关的数据分析理念也发生了新的变化。2012 年由国家统计局统计科学研究所召开的大数据应用座谈会,将建立统计云架构的现代数据统计研究目标作为未来重要新兴战略规划。怎样深刻理解大数据时代?怎样依托统计科学来重新审视统计工作?大数据体现了数据科学研究对象的变革。当下,互联网、物联网、云计算等网络化数据呈现指数级增长趋势,数据资料可谓是“秒新分异”。据相关机构统计,互联网一日所产生的全部数据可以刻满1.68 亿张DVD。哈佛大学教授加里·金提出“大数据引发的是一场数据革命,庞大的数据库资源将成为各个领域量化进程的标志。”由此可见,面对纷繁芜杂的大数据,如何从中提取有价值的知识,才是数据统计分析创造价值的关键所在。
一、大数据概念及大数据时代数据统计的特征
(一)认识大数据
对于大数据,众说纷纭。字面意义中,其特征为大,而对于大,又是仁者见仁,智者见智。大数据是大数据时代的显著特质,数据是引领社会、生活、商业、科技创新发展的动力。大数据时代下的数据本身,其结构及内容也发生了变化。狭义来讲,大数据可以解释为数据的结构形式和规模获得了多样化发展;广义来讲,大数据除了数据结构、规模外,还涵盖数据分析处理的各类技术及方法。从数据维度来分析,横向的大数据,延伸为数据的规模,即海量数据;纵向的大数据,延伸为数据的结构形式,如结构化数据、半结构化数据、非结构化数据等。在统计学领域,对大数据的定义,可以将之界定为超越传统数据处理能力、超越传统统计思想、无法用主流软件工具或技术来进行复杂数据统计分析的数据集合。可见,大数据在现有数据处理技术基础上,还要融入网络媒介,引入创新统计学方法来进行挖掘、提取、管理、分析隐藏于大数据中的有价值知识。
(二)大数据的特征
了解大数据及其时代属性,对于大数据,其特征表现在四个方面。一是大量性。大数据时代下的数据,其数量规模是巨大的,尤其是在当下高速发展的网络平台,各类承载数据资料的网络化工具、终端设备等的普及,数据资料来源的广泛性,使得各类数据资料呈现指数级增长。二是多样性。单就大数据的数据类型,其种类繁多。如文本类数据,表现为结构化特征;网络化日志、音视频、地理位置等半结构化、非结构化数据类型等。由于数据资料来源的广泛性,数据的多样性就必然存在。越来越多非结构化数据资料的增长,需要我们优化数据统计分析方法和技术,从中提取有价值的数据知识。三是价值性。大数据时代下的数据统计分析,其价值也是巨大的。大数据不仅反映了社会、商业、生产、生活等方面信息,同样这些有价值的信息可能会转瞬即逝。通常,价值密度与数据规模成反比。以视频数据为例,一小时的连续不间断视频,其有价值信息可能仅有一秒。由此,对于数据的接收、处理思想和方法,都需要转变,从而更好地从大数据中提纯有价值的数据信息。四是高速性。面对大数据,传统的数据统计方法或工具,显然是无法快速、高效处理大数据的,藉于大数据统计分析的时效性,需要我们能够转变统计分析理念,从海量数据统计分析中获得高效统计目标。
二、数据统计分析理念的三个转变
对于大数据时代下的数据统计分析理念,显然传统的分析思想是需要转变的,如何转变?从数据统计研究视角,需要从三个方面来转变。
(一)对抽样调查理念的转变
在统计学领域,抽样调查是进行数据统计分析、推断,了解数据总体规律性的重要方法。但面对大数据,显然,抽样调查的数据对象更加复杂、多样,传统的抽样调查方法对大数据的数据收集、处理能力有限,抽样调查中样本的数量、质量与总体大数据相比,显得片面,无法真实反映总体数据规律性。也就是说,在大数据背景下,利用传统的抽样调查方法是行不通的。原因归结为:一是传统抽样调查中,面对大数据中数据规模快速增长、数据结构类型多样,随机取样困难等问题。现代网络技术环境下,对于信息数据的获取途径更多、更便捷,加之外出旅游、学习、更换工作岗位的次数增多,人口流动性加快,使得数据统计信息出现更多的不规律性。同样,面对商业领域,各企业经营状况不稳定,对市场机会的把握不力,导致企业经营风险更大,从这些企业数据信息进行抽样调查,无法真实反映企业实际状况。二是事先设定的调查目标反而局限了调查范围及内容。通常,抽样调查需要先确定目标,然后根据调查对象、调查经费选择适当的调查样本量。但对于大数据背景下的海量数据,前期所设定的调查目标,不能全面反映总体要求,反而限制调查范围。三是调查样本量局限,抽样结果经不起细分。以传统抽样调查为例,在一定经费条件下进行样本量设定,如果进行细分内容调查,则会因样本量太少而不具备代表性;同样,在随机抽样调查中,也经不起细分,导致调查结果错误率增大。我们以某地企业抽样调查为例,最初以服装企业展开抽样调查,之后,如果想具体了解小型服装企业经营状况,可能在抽样样本中满足该条件的企业很少甚至没有。回到大数据背景下的数据抽样调查实际,这些规模、结构繁复的数据,更难以从样本量中把握整体情况。四是纠偏成本高。在传统抽样统计调查中,抽样框不稳定情况多有发生,而一旦出现偏误,调查结果与预计结构相差巨大。面对大数据下瞬息万变的数据,纠偏调整统计调查方案,其成本更大。
(二)对数据精确性要求的转变
统计工作的目标在于从数据分析中获得完整性、精确性、可比性、一致性调查结果。这种要求,也是以往单一数据结构下的数据分析结果。不过,面对大数据时代,数据来源的广泛性、数据结构的复杂性、数据处理技术的多样性,使得“精确性”数据统计结果是难以获得的。也就是说,在大数据统计调查分析中,盲目追求精确性统计结果是不可取的。传统调查统计中,数据量有限,数据来源单一,从统计分析中可以获得反映总体数据特征的精确信息。但对于大数据下,“不精确数据”并非无益,也是我们认识总体的重要参考数据。数据的“不精确性”,不会破坏数据的完整性,也有助于我们了解总体数据的真实状况。如在“小数据”统计分析中,假设某人身高1.8 米,统计了两次,得到一次1.8 米,一次1.6 米,则在精确性统计结果中会取平均值,即1.7 米;在大数据统计分析中,对于该身高可能测得10 万次,其中有20 次为1.6 米,其余为1.8 米,则在统计结果中,就会将1.6 米的测量数据看作“异常值”予以剔除,但却很可能认定该人身高为1.8 米,反而更接近真实情况。所以说,大数据时代下对总体信息的统计分析,样本量的增加,反而更接近总体实际值。“不精确性”是大数据时代下数据统计分析处理允许的,是偶然产生的,但在实际统计调查分析中,还要加强数据分析方法的优化,降低“不精确性”。
(三)对数据关系分析重点的转变
传统的数据统计分析,往往假定事物间存在某种因果关系,并据此构建统计模型,验证假设。大数据时代下,数据结构、数据量的剧增,使得数据关系更趋复杂。因此,在大数据统计分析时,将不再关注“因果关系”,转而关注事物间的关联性。需要强调的是,在事物关联关系分析中,需要注意三点:一是大数据统计分析思路不同于传统统计方法。传统统计分析,以假设关系为参照,探究变量间的相互关系,这是藉于“先假设,后关系”的分析思路。相反,大数据统计分析,往往直接分析计算现象之间的相依性,即存在关联又存在关系。二是大数据统计分析中的关系形式不同于传统统计分析关系形式。在小数据时代,数据统计中的相关关系多为线性关系,而在大数据时代,相互关联的信息现象多而复杂,其关系既可以是线性关系,也可以是非线性关系。如在一些半结构化数据、非结构化数据统计分析中,变量之间的关联关系是无法直接进行表示的。三是大数据统计分析的关系目的不同于传统数据统计变量之间的关联关系。在传统统计分析中,往往探求变量之间的亲疏程度,了解其因果关系,并试图构建回归方程对因变量进行预测。在大数据时代,数据统计分析的目的,主要体现在变量或现象之间的关联性,实现由此及彼的关联预测。也就是说,在大数据统计分析中,一般不做原因分析。同时,考虑到大数据之间价值密度低,流式数据变化快,变量间的关联关系具有时效性特征。
三、结语
大数据时代下对统计数据分析理念的变革,为统计学理论、实践带来了发展契机。如依托现代云计算、大数据统计分析方法,来拓展数据统计研究的工作范畴,增强统计学的生命力。