大数据背景下统计学相关概念解读
2018-01-27杨秀艳
□杨秀艳
近年来,“大数据”已成为被广泛热议的词汇,有关文献层出不穷。就统计学而言,关注重点无疑是大数据分析方法的创新与发展。与此同时,人们也慢慢意识到“小数据”的重要性。然而什么是小数据?如何理解大数据背景下统计学的相关概念?本文就此谈点粗浅的看法。
大数据与小数据
在大数据兴起之前,数据几乎没有“大数据”和“小数据”之分。在大数据炒得如火如荼的时候,人们也开始关注“小数据”。例如,德波哈尔艾斯汀教授,记录了其父亲去世之前几个月的行为数据——发邮件、去超市菜市场买菜等数据,发现其频率逐步下降。这些个人社会行为数据都暗示着德伯哈尔艾斯汀的父亲生命特征正在逐渐衰落。然而医院的体检报告并未显示出这一讯息。正因此,德伯哈尔艾斯汀意识到“小数据”的重要性,也是世界上第一个认识到“小数据”价值的人。
关于什么是大数据,讨论的文章已经很多,本文不再赘述。那什么是小数据呢?目前主要有以下两种观点:一种观点认为小数据就是样本数据。例如,王成文认为小数据是为回答特定问题、通过传统抽样调查方式获得的数据,即小数据是基于抽样调查技术而建立的数据收集、存储、传输、处理的安全系统,认为抽样调查是“小数据”的本质特征。郑宇认为小数据来源于实验室,来自于被测试者(样本)的调查。徐立军认为数据体量窄小且通过传统抽样方式采集的数据就是小数据。按照这种理解,小数据就是体量小的数据,或者说传统数据即为小数据。另一种观点则认为以人为本是小数据的核心,个体信息才是小数据,例如德波哈尔艾斯汀教授所记录的其父亲的行为数据。于久贺认为“小数据”是指围绕个人中心全方位的数据,以及其配套的收集、分析、处理和对外交互的综合系统。吕晓莉也相信“小数据”是围绕不同个体的人而采集的相关兴趣爱好、思想行为等数字特征化的数据。
对于“小数据”的这两种观点,我们赞同后者。作为延伸,我们认为小数据不仅仅指来自于单个人的数据,也可以是来自于单个物体的数据。只要能从微观层面挖掘信息,一切事物都可以成为小数据研究的对象。大数据重相关关系的发现,小数据则有利于发现因果关系,因为小数据是在海量数据下根据特定需要有针对地提供个性化服务或寻找因果关系的依据。
显然,大数据与小数据之间存在着包含与被包含的关系。开展大数据分析必须从小数据着手,因为小数据是构成大数据的基础,通过小数据研究可以更好地为大数据分析提供依据。完善的大数据是以真实完善的小数据为前提的,数据库的建设必须在小数据上下工夫。
样本与总体
舍恩伯格和库克耶提出在大数据时代有三个重要的思维转变:其一,不是随机样本,而是全体数据;其二,不是精确性,而是混杂性;其三,不是因果关系,而是相关关系。第一个思维传达的是“要全体不要抽样”。大数据的“大”不仅仅是指量多,更是指量全。大数据的“大”应含有三层含义:“全体”、“可扩充”“有待挖掘”。其中全体是指在一定条件下的全体数据,且数据量必须达到一定规模。大数据区别于小数据的重要特征之一就是,快速动态变化性促使“大数据=全体数据”时,离不开一个前提,即“一定条件”。这个前提条件要视具体问题而定,正所谓具体问题具体分析。快速动态变化引起的可扩充性意味着研究者获得的数据皆为“过时数据”,对动态总体而言,大数据仍属于样本,无非是大样本与小样本以及样本数据类型有所差异。不少学者认为大数据的代表性强于样本数据,于是认为大数据优于样本数据。殊不知,大数据是计算机与互联网相结合的产物,获取渠道多为数字电视、网络、社交论坛等数据平台。活跃在众多数据平台的并不是所有的人而只是一部分人,若抛开数据背后的信息,研究结果往往有失偏颇。可见,如果脱离一定的条件,大数据并不一定优于小数据。
很多人知道,2009年Nature杂志上刊登一种谷歌搜索日志进行流感监测的方法。用美国居民在网络平台上搜索相关特殊疾病和相关药物的信息记录来即时预测美国疾控中心延迟发布的疑似流感比率占比。使用2003-2007年的数据作为训练集构造模型来预测2008年的流感比例占比,其预测结果与之后美国疾控中心发布的数据高度吻合。然而在2009年,使用该模型时其预测结果显示低估,在2009年的低估的基础上继续修改算法模型,修改后的模型在2013年则呈现高估。就研究对象而言,其选取的大数据也是样本,且在之后的预测中,因样本代表性不高,才导致预测结果低估或高估。当然也并不是指该研究中若采用样本数据,其模型预测结果会优于大数据,用该案例只是说明大数据并不一定等同于总体数据,大数据的代表性也不一定强于样本数据。
抽样误差与非抽样误差
统计学作为一门学科存在的意义在于帮助人类去量度数据的不确定性,驾驭不确定性,从而确保人们在损失最小或风险最小情况下做出最经济的决策。大数据与样本数据,对研究结果都会产生一定误差,其中包括抽样误差和非抽样误差。从数据量来看,大数据量远大于样本数据,这是不是意味着大数据的误差就会远小于小数据?答案自然是否定的。我们需要明确一点,误差的来源与构成十分复杂,绝非以数据量多少来衡量。就大数据而言,我们要考虑它有没有抽样误差、如果有如何测度等问题。有人认为大数据没有抽样误差,因为它是全体数据;而我们则认为大数据只是动态数据总体中的一个样本数据,一定有误差,但却不一定是抽样误差,因为它不一定是随机的。大数据是样本数据但不一定是随机样本数据的理由有两个:一是大数据的积累是有时间性的,伴随时间性就具有一定的系统性;二是大数据本身不一定覆盖了所有的研究对象,而这种不覆盖往往也具有系统性。所以大数据的误差测度之困难远远大于随机样本,因为随机样本的代表性是可以控制的。
就非抽样误差而言,样本数据比大数据更具有优越性。非抽样误差主要是指人为在处理数据过程(收集、记录、计算等)中带来的误差。样本数据是有针对性获得的数据,在收集过程中已经利用了人们的先验信息过滤了绝大部分错误数据,留下具有“发言权”的数据,因此对非抽样误差具有比较好的控制。但大数据由于事先没有设计、没有标准,来源复杂、结构复杂,往往对小数据的真实性难以掌控,再加上对非结构化数据解读可能产生的歧义,使得非抽样误差、特别是登记性误差产生的可能性更大,而且更加难以测度。
所以在大数据分析中,如何控制并有效测度误差是一个大问题。我们必须把大数据与小数据结合起来,在各个环节都要注意防控各种误差,以便保证分析结果的可靠性和有效性。
相关关系与因果关系
大数据重相关,小数据重因果,相关关系回答是什么,因果关系回答为什么。为此很多人提出在大数据时代用相关关系替代因果关系,不需打破砂锅问到底,了解“是什么”即可。任何问题或现象都不是注定的内在必然抑或偶然的巧合,而是许多具体机制的组合或联系作用的结果。根本性地解决问题和全面阐释现象不仅仅限于了解各现象要素之间的关系,还要了解导致问题和现象发生的深层结构。换言之,解决问题或分析现象不应该只停留在外在的关联层面上,应进一步挖掘其内涵。知道“是什么”,不一定知道“为什么”,知道“为什么”,却能知道“是什么”,即用因果关系解释相关关系,而非相关关系解释因果关系。当然这并不是否认大数据提供的相关关系价值,在大数据时代,数据维度可以多到令我们咋舌。统计分析方法是建立在独立同分布、变量个数小于样本数(k<<n)等前提条件的基础上,这就需要我们利用相关关系对解释变量进行降维,由“大维度”变成“小维度”,由“大数据”变成“小数据”。实现大数据分析的第一个物理过程,数据由大变小,由厚变薄。此外需要注意的是伪相关问题,例如,如果某研究者参考啤酒与尿不湿的例子,去研究火锅底料的销售量和社会失踪儿童数之间关系,并发现两者之间有很强的相关系数,于是得出结论说火锅底料的销售量会导致儿童失踪案例发生,显然这是一谬论。大数据下,数据量大(n增加)、变量维度广(k增加),容易造成统计结果显著,得出统计意义上的回归系数,但不代表两者之间有因果关系,没有因果关系的相关关系只是大数据对小数据的过度拟合。啤酒和尿不湿的销售量有一定的相关性,是因为每次买尿不湿的老爸会顺带买瓶啤酒犒劳自己,其相关性有因可循,但我们不能说买火锅底料的人会顺带拐卖儿童。是否是伪相关,关键是看两者之间是否有因果关系,相关关系和因果关系是相互依赖、相互促进,综合利用两者关系才能有效地进行统计分析,才能进行大数据分析的第二个过程,即化学过程——-价值提取。
定性分析与定量分析
定性分析和定量分析是统计学两大核心分析法,相对小数据,大数据更加侧重于定量分析,笔者认为主要原因是数据背后看不见行为人,无法事先进行深层次的定性分析。就统计学而言,分析现实问题最终都将回归到定性分析,定量分析只是更好地呈现数据,以一种简单明了的方式呈现数据,抑或说定量分析的结果是数据的另一种表达形式,仍属于数据,属于数据加工处理中最后一步加工后的产物,是数据的范畴。只有经过进一步的定性分析才能称之为信息。目前有一种现象值得关注:那就是追捧大数据,让更多的人热衷于定量分析而忽视定性分析。朋友圈的点赞数就能代表人们对帖子的喜爱程度吗?网络上搜索感冒药就能代表搜索人有感冒症状?网络评论就能代表网民对事件的真实看法?点赞有可能是行为人的言行不一,搜感冒药有可能是亲戚朋友生病,同样的言语评论各人理解不同,同一个“呵呵”,有人认为是真诚傻傻地笑,有人认为是不屑一顾地冷笑。数据分析脱离行为人就毫无意义。著名经济学家路德维希·冯·米塞斯曾提醒过:“就今日言,有很多人忙碌于资料之无益累积,以致对问题之说明与解决,丧失了其对特殊的经济意义的了解。”小数据提倡“以人为本”,强调人是一切数据存在的根本。将人纳入分析中,能得到更加准确的结论、深刻的见解。大数据侧重的定量分析适合解决宏观层面的问题,难以注重每个数据背后行为人的个体信息,小数据所含有的个体信息能更好地定性解读微观问题。宏观与微观结合,才能全方位无死角剖析问题。
[1]Ginsberg J,Mohebbi M H,Patel R S,et al. Detecting influenza epidemics using search engine query data[J]. Nature,2009,457(7232):1012- 1014.
[2]Marcus,Gary and Davis,Ernest. 2014. Eight(No,Nine!)Problems With Big Data. New York Time s.April 6.
[3]胡雄伟,张宝林,李抵飞 .大数据研究与应用综述(下)[J].标准科学,2013(第 11 期).
[4]吕晓莉.大数据时代高校图书馆小数据的应用价值与路径[J].四川图书馆学报,2016,(第4期).
[5]刘军.大数据是原油不是汽油[J].决策与信息,2015(第 12 期).