APP下载

喧嚣之后的沉思

2018-05-14贺光烨

关键词:假设检验

[摘要]大数据的出現和发展颠覆了传统社会科学研究的思维方式,也引发了一系列哲学层次的讨论。大数据乐观主义者认为,海量数据总是可以产生准确且具实践性的知识,而理论可有可无。为揭示隐匿在大数据分析过程中的问题及其可能产生的后果,笔者将其与传统的社会科学研究方法对比,从数据产生和分析方法两个方面对大数据的认识论和方法论进行探讨。本文认为,数据本身只是一个信息的载体,分析其中潜在的问题与数据的“大”小无关,而是与科学哲学的思维有关。通过大数据分析得出真实而有效的社会知识,需要将知识生产过程建立在适当的科学哲学基础之上,既不可完全依赖理论,亦不可完全抛弃理论。

[关 键 词]大数据 认识论 方法论 假设检验 机器学习

[作者简介]贺光烨(1985-),女,江苏南京人,南京大学社会学院助理研究员,博士, 研究方向为社会分层与流动、定量研究方法。

[中图分类号]C3 [文献标识码]A [文章编号]1008-7672(2018)02-0001-09

近年来,大数据之风席卷全球。大量研究显示,有关大数据经验主义和数据科学的认识论正在改变着生命科学、物理和工程学等领域的研究方法,也在不断促进社会科学领域理论范式和研究方法的重构。根据基钦的定义,“大数据”通常是指数据量达TB级甚至PB级的数据群。相比于以结构化数据为主的传统数据(即可用Excel、SPSS和STATA等统计软件处理的数据),大数据中图片、声音、视频等非结构化数据占相当比重,且其总体数据容量增长速度之迅猛,远超硬件技术的发展速度。面对如此庞大、复杂的数据集,传统分析方法已不足以应对,基于新计算机应用程序的大数据分析方法应运而生。安德森表示,数据洪流会令科学方法过时。通过大数据技术,我们可以在不受理论预设限制的情况下发现更多大数据中隐含的模式和关系。2012年,《纽约时报》的科学版记者史蒂芬洛尔撰文声称,“大数据”时代已经降临,科学、商业、经济等各领域的决策从此将不再依赖于传统的经验和直觉,而是日益基于数据和分析。大数据的产生和发展无疑带来了思维方式与科学方法论的变革。不仅如此,另有学者认为,这种基于计算机算法、程式的数据密集型分析工具开辟了继实验、理论、模拟之后科学研究的第四种范式,这种范式使我们能够从堆积如山的数据金矿中挖掘出知识。

大数据的出现和发展颠覆了传统社会科学研究的思维方式,也引发了一系列多科学研究的认识论的进一步讨论。相比传统社会科学研究的思维方式(即以一般理论为前提,进而推导可以验证的系列假设),大数据分析的思维则是让数据本身说话,不需预先决定对于某个问题哪些变量更加重要,而主要通过机器学习(人工智能中最能体现智能的一个分支)让数据自行学习,辨别关键变量,习得其中的关联规律,进而归纳出数据背后隐藏的模式。然而,从数据出发并不意味着数据挖掘凭空而来。大数据的捕捉和分析不仅需要依赖计算机硬件、软件系统的支撑,更需要由人来设定规则。物理学家马克思·玻恩曾说,科学在每个时期都和当时的哲学体系相互影响,它向哲学体系提供观测事实,同时从它们那里得到思想方法。对于大数据分析,大数据技术与平台,数据本体与监管环境对分析过程中的每一步均会产生影响。若忽略在数据获取和分析过程中研究者施加的影响,就会无形中扭曲数字痕迹,从而掩盖了现象背后的本质。

一个著名的案例就是谷歌流感预测。2009年谷歌几名工程师在《自然》发文——“用搜索引擎预测流感”,阐述了他们设计的谷歌流感预测系统。该系统的工作原理是使用汇总的谷歌搜索来预测流感疫情,并将预测结果与美国疾控中心的监测报告进行比对。这一系统一度被视为大数据分析优势的明证。然而不久巴特勒发现,通过谷歌流感预测系统预测的流感门诊病历数是疾控中心监测报告的两倍多。分析结果显示,造成这一失误的主要原因是谷歌流感预测系统中的关键词搜索系统混淆了大众的流感意识与真正的流感信号。这个问题从表面上看似乎是个技术性问题,实际是因为忽视了数据之外的社会情境及其与流感传播相关的思维逻辑。

其实,谷歌流感预测的案例在很大程度上反映了主流文献对大数据认识论的误解。他们将数据量大与数据代表性强混淆在一起,认为通过大数据可以极大程度地表达或者近似总体,因此基于大数据发现的任何模式均真实可信,无需理论指引。这引发了关于“大数据的诞生是否意味着理论的终结”的讨论。需要注意的是,脱离了科学哲学体系的大数据就如同失去灵魂游走的个体。数据生产过程中所留下的数字痕迹很可能具有误导性。就谷歌流感预测而言,其误导性表现在,当流感预测系统提到疫情,媒体就会进行报道,从而引发大众关于流感预防和治疗的大量搜索。由于这些搜索关键字涉及流感,从而又会加强系统对流感趋势的判定,形成了对流感疫情传播事件的过度拟合问题。因此,要挖掘出大数据背后真正的模式、生产出有效的知识,需要将其置于科学哲学体系之中,充分了解从数据产生到数据分析的各个环节。

为了揭示隐匿在大数据分析过程中的问题以及这些问题可能产生的后果,在以下部分,笔者从数据产生和数据分析两个方面对大数据的认识论和方法论进行阐述。前者从大数据产生方式、记录方式入手,举例介绍了数据挖掘过程中可能的误差来源。后者则基于大数据的特征,进一步讨论用传统统计方法分析大数据可能带来的问题。

一、 数据的产生

大数据分析的关键问题是在于大数据是否可以表达真正的社会现实。对于大数据分析,由于数据的获得和分析基本都是由计算机程序完成,理解大数据技术是如何生产出可供计算机和人类分析的数据尤为必要。瓦格纳·帕斯菲丝等学者也曾表示,在用大数据进行人文社科研究时,我们首先应该了解大数据是如何产生的。

(一) 谁参与了数据信息的编辑?

维基百科是大数据一个资料库。自成立以来,维基百科宗旨就是为了编译全人类可以自由使用的网络百科全书。维基百科其中大部分页面可以由任何人浏览和修改。与大多出版社不同,其内容编辑采用众包形式,没有特定的编辑。众包形式不设定参与编译人员的特征门槛,目的是鼓励更多自愿者的参与。且对于所编译内容,维基百科内容的更改与修正也是依靠众人的协作不断改进。从理论上讲,来自不同国别、种族、教育程度、性别、年龄段的个体都可以参与网页内容编辑。然而,即便维基百科对参与者不加以任何限制,全球范围内每个人参与的概率也不尽相同。区别于软件工程,维基百科缺乏类似内置质量监控的系统,内容的客观完整性和准确性也有待考证。在这种情况下,如若具有某些特征的人群(比如,特定的偏好和品味)参与编辑的概率更大,那么在条目生产和内容编辑上就有可能产生系统性的偏差。

亚当斯和布鲁克尔指出,在维基百科核心运作的社会系统会通过某些方式对社会世界形象产生系统性的扭曲,使得数据生产过程产生偏差。即便众包模式不需要太多的理论,但由于参与维基百科编辑者需要特定的技术手段,对特定的术语和网络社区行为规则的了解等为参与网络内容编辑者设置了隐形的门槛。正是这些隐形的门槛导致了维基百科在知识生产上的偏差。比如说,在维基百科有关美国社会学家目录中,女性学者代表性相对不足的一个重要原因就在于内容条目的主要贡献者通常是来自美国或欧洲的年轻白人男性计算机专家,他们在生产和编辑内容条目时可能产生有别于一般公众的偏好和品味。

(二) 谁贡献了数据信息?

近年来微博和推特数据也受到了越来越多媒体研究学者的关注,它们在社会科学中被广泛运用于对事件参与、政治运动等研究中 。这类数据通常被标记为“大”数据,因为通过计算机软件系统我们可以捕捉到用户在相关网站上查看、点击、下载、上传等数百万条行为的记录。然而多数情况下,微博和推特数据反映的是特定时刻活跃用户的一个片段。根据Twopchart——一个监控推特活动的公司发布的推特数据结果,截至2014年4月,在5.5亿个推特账户中有43%至少一年没有创建过一条记录。50%的推特记录仅由0.05%的推特用户创建。这种由活跃用户所致的偏斜分布数据难以对那些无法观测到的用户特征进行推断。正因为数据信息主要由活跃用户动态构成,使得推特信息的创建和分析产生了系统性的偏差。

大数据研究通常基于特定的假设。通过计算机软件系统产生的数据与我们通常使用的数据并无显著差异。数据量的大小只有在所产生数据样本可以充分代表总体时才有意义。无偏的数据是准确分析的前提,也是大数据能够为自己说话的基础。如微博、推特这类数据,尽管数据量大,但是由于其数据的生成并非基于严格的统计设计,所产生的数据分布有偏差,总体代表性确实令人质疑。更多、更大的数据并不会使其由非正态分布转变成正态分布。然而依照统计常规,大数据正因为其庞大的数据量使得几乎所有的发现在统计学的意义上都显著,这就形成了麦克法兰所提到的有关大数据“精确的不准确”问题。即便数据本身存在问题,如果分析结果的判断基于统计假设检验,大数据所呈现的显著结果使我们总是拒绝原假设,而得出错误的统计推断。

信息技术的快速发展(如大量的计算和网络工作、新数据库设计和数据存贮方式)不仅改变了数据产生方式,也对当今的统计学方法提出了极大的挑战。对于微博、推特数据的分析,统计假设检验为什么会无效?运用传统的统计方法进行大数据分析还会产生哪些问题?大数据在社会科学研究需要对这些问题特别关注。

二、 数据分析

如果要挖掘出数据中所蕴藏的真正的社会发展规律,我们不仅需要大量丰富可信的数据,还要有合适的分析方法。对于微博、推特数据分析,假设检验的失利并非偶然。将传统统计分析方法用于大数据分析会存在什么问题?如今的大数据分析技术又在多大程度上可信?回答这一问题需要我们弄清传统的统计方法和大数据分析方法在思维逻辑和方法执行上的差异。

(一) 大数据技术与传统数据分析方法的比较

传统数据分析方法通常是基于具体的问题,从少量、静态、结构清晰且低相关的数据集中提取信息,这些数据的产生来自科学抽样,分析方法严格基于统计假设。由于假设检验需要事先假定可能的变化维度,在很大程度上排除了研究者看不到或者想不到的因素,这就是所谓的“分类近视”(Categorical Myopia),即我们看不到超出我们视野的东西,这也是困扰传统调查数据分析和研究的最大问题。在大数据分析中,我们跳过事先的假定,直接通过数据挖掘技术分析繁复冗长、丰富多样、动态及时的具有高度不确定性、高相关性的数据集来探寻数据背后的模式和相互關联。面对如此高难度的挑战,大数据分析开始采用那些植根于人工智能和专家系统的新计算技术,通过机器学习自动挖掘和检验数据模式建立预测模型、优化结果。对于实证主义社会科学研究者来说,大数据使得用以科学研究的数据从稀缺走向丰富,从静态走向动态,从粗略的聚合数据转向更加精细、多维度高分辨率的数据。在分析上,大数据使得用以科学研究的方法从简单统计模型转向更加复杂精细的模拟研究。可以说,大数据分析提供了一种全新的认识论来观察和理解世界。有学者认为大数据分析很可能会为知识生产提供一种跨学科的新研究范式。然而,由于思维方式的差异,这种新的研究范式对传统统计方法同时提出了挑战。

传统统计方法是否真的不适用大数据分析呢?一般说来,统计学是基于已有的数据进行假设检验。由于检验时事情已经发生,因此属于事后检验。正是这种方式为科学统计和假设检验带来了特定的困难。菲德曼曾说, 基于一个数据集的结果复制和预测相比于基于一个数据集的多模型统计检验需要更加严格的验证体系,其所需的假设更少,从而使得伪相关关系出现的机会更小,可探索的模式更多,排除替代性解释的概率也更高。如果用一个样本来构建模型或者生成一个待检验的假设,为了得到稳健有效的结果,则不能用同一样本再进行假设检验。在现有研究中这一问题却被系统性地忽略。而数据驱动的大数据研究通常将所使用的数据拆分成一个个单独的数据集,其中一些用于估计模型参数,剩下的用于验证预测新发现的数据模式。表面上看,大数据分析似乎更符合科学分析的逻辑,然而伴随其中的问题却可能产生更加严重的后果。

(二) 无力的假设检验

假设检验是传统数据分析中一种基本的统计推断形式。在统计学中,其为根据一定假设条件由已知样本推断未知总体的方法,其思想源于统计大师费舍(Fisher)和皮尔逊(Pearson)。具体地讲,当总体分布未知时,为了推断总体的某些特性,提出某些有关总体的假设,然后基于样本对所提出的假设进行检验,决定是否拒绝零假设而接受备择假设。通常判定零假设是否被拒绝的显著性水平为α =0.05,如果假设检验所得p值小于α则拒绝零假设。虽然假设检验在社会科学和行为科学中被广泛运用,但是有关假设检验的思想其实一直存有争议。首先,在现实生活中,任何事物都存在一定程度上的相关,那种完全不相关的状态几乎不存在。因此,任何零假设都属于“准假”(quasi-false)。假设检验的另一个问题就在于p值。从统计上讲,p值会随着样本量的增加而减小的。对于大数据,其庞大的数据量和爆炸式增长速度令大多数任意生成的假设在0.05水平上均显著。如果数据本身在数据量和总体代表性上不存在任何问题,那么当基于大数据生成的零假设总是被拒绝时主要存在三种可能性:第一种表明任何事物都可能相互关联,那么基于假设检验所得结论对挖掘大数据背后的真正模式毫无意义;第二种则意味着假设检验有误,那么我们则不能将其用于大数据分析;第三种是假设检验没有问题,而通过假设检验进行统计推断时存在问题。

基于第三种可能性,弗里克在他的“大数据与认识论中”提到,基于一个设定,多样本比较可能与数据间的相关性及假设检验的第一种类型错误(Type I Error)有关 。例如,我们从足够大的数据中观察到A与B存在着相关关系,基于此,我们提出备择假设H,即A与B相关。对于A和B的相关关系存在两种可能性,一种情况是A确实与B相关,另一种情况是A与B的相关纯属偶然。如果后者为真,那么接受假设H则犯了第一类型的错误。根据假设检验规则,是否接受备择假设H在于p值的大小。如果统计检验显示p值小于0.05,则接受假设H。细究显著性水平0.05的意义,该数字表明,如果A与B确实无关(或者A与B的相关属于偶然),那么从同一总体中抽取大量样本,这些样本中会有5%会落入检验的拒绝区间,使我们错误地接受A与B的相关关系。需要提及的是,第一种类型错误基于零假设为真或者备择假设为假(即,假设H不成立),其不可能通过零假设被拒绝的次数,或者备择假设(假设H)成立的次数来估计。即便在100独立的检验中,零假设被拒绝了100次,可能表示没发生过一次第一种类型错误也可能表示发生了100次错误,或者介于没有发生和发生了100次错误中间的某种情形。这一问题其实一直是统计学上的一般问题,但是当面对依赖数据驱动的大数据分析时,这个问题愈发突出。首先,数据驱动的科学分析强调让数据自己说话,而忽视了现有研究理论和分析的语境,这使我们对数据背后可能模式的把控能力减小,增加了虚假相关的概率。其次,由于这一方法主要依靠计算机技术来抓取和分析数据,在大多数情况下,数据研究者也不清楚计算机算法具体是如何生成数据信息以及如何对数据进行处理的。这两者使得所生成的用来验证数据模式的“新”数据可能存在计算机算法方面的系统性偏差。弗里克表示, 任何分析,包括基于数据驱动的分析研究最好要有先验指引,否则即便新发现的数据模式被反复验证,基于算法所生成的验证数据也无法排除伪相关的嫌疑。通俗地说,新数据模式之所以被复制和反复验证并不是因为该模式真实存在,而可能因为基于某些算法获得的数据更容易具有该数据模式。

(三) 大数据分析与计算社会科学

数据科学时代正在重塑着政治学、心理学、社会学、公共健康学、通信科学等领域。以大规模数据和社交媒体为中心的计算社会科学正在重塑学者们的思维与视角,也推动着研究人员培训方式的转变。与传统上通过社会调查获得的基于受访者回答或者基于仪器评估(比如,脑电波等)的结构化数据非常不同,如今的科学研究人员开始通过海量数据库中所发现的文字、物体或现象的图片等非结构化信息探索数据模式。

这些文字、图片等数据常常需要通过自然语言处理来获取和缩减数据内容。在进行可靠且有效的数据分析时,学者们将需要在很多方面达成新的协议,比如,用何种工具收集和处理数据,所捕捉的数据该如何分类等等。对数据的复杂性也有了新的认识。通过传统方法获得的数据,通常需要清理、分类、建模进而发掘其中的模式来解决问题,其自始至终不接受数据的复杂性。而数据科学时代,复杂性已经成为数据的固有特征,此外,其更多得关注数据的动态性、异构性和跨域复杂性。这些变化为数据时代的学术研究打开了新的图景,重新定位和改变学科的发展方向。

1. 机器学习的矛盾与挣扎

机器学习是顺应大数据的特征所产生的大数据分析方法,其指用某些算法指导计算机利用已知数据得出适当的模型,并通过所得模型对新的情境给出判断的过程。然而从数据抓取、特征提取到模型选取,机器学习能发掘真正的社会现象间關系模式的前提在于,机器可以准确地将现实生活中的问题提炼成一个可以进行机器学习的问题。这其中的关键不仅在于计算机编程和运行过程,更加在于研究人员对所要研究的问题的深入理解。瓦格纳·帕斯菲丝等曾用“思维与机器”这一对比来说明大数据话题模型(Topic Model)的利与弊。

话题模型是一种应用非常广泛的产生式模型,也是目前利用大数据做人文社会科学研究最常用的文本挖掘方法。其建模方法通常是利用文档内与文档间的词共现的信息在跨文本语料库中生成各种话题集合。这些集合都被假设成跨文本语料库中的共同话题。与其他基于“词袋”技术的文本分析一样,话题模型尤其是无监督学习的话题模型从对语言完全无感的读者角度出发。基于这一特征,不同学者显示了不同的偏好。比如,雷切尔·布玛认为,通过这种没有指向性的非常规文本分析的视角可以发掘出一般读者所无法辨识的文本属性,进而激发和改变人类的思考宽度和广度。其他一些学者认为,这些计算模型往往对语境、语法、语义、语气等一无所知,可能很难捕捉到在文字内容背后的真正情感与意义,进而影响到分析结果。因此,泰德·安德伍德在“高维空间的文学使用”中将这些模型称为“迟钝的解释学工具。” 艾伦·刘也将它们描述为 “空洞的文字解读。” 另外,由于这些模型并不受理论和经验限制,在探索数据模式上可能存在优势。然而,因为学习过程中缺乏可靠的训练样本,基于这些歧义较高的样本所产生模型的不确定性也随之增加。

2. 软件密集型系统的困境

不论是数据产生,还是数据分析,大数据分析在根本上依赖于计算机软件,属于软件密集型系统。没有计算机的辅助,研究者的想法就如同空中楼阁。计算机的使用为研究者想法的实现提供了必要硬件条件。但由于受限于软件技术的发展,数据分析过程中仍旧有很多问题难以避免,比如,之前提及的有关数据驱动科学中常出现的基于算法的系统偏差。数据分析过程中还可能出现更加复杂的情况,这在处理复杂系统(Complex System)时尤为突出。复杂系统是由大量组分组成的网络,不存在中央控制,通过简单运作规则产生出复杂的集体行为和复杂的信息处理,并通过学习和进化产生适应性。 该系统活动呈现非线性,往往形成无数层级,且活动包含众多未知因素。因此,分析复杂系统对于软件要求上除传统的计算能力外,还需要将计算机模拟整合到普通科学实践的工具箱里来探寻其中的动力机制。对于前者,充分理解各种算法的局限性和风险,明白这些算法会如何引致以及引致什么样的误差,研究者就可以决定到底多大程度可以对这些算法施以信任、加以限制。而对于后者,情况则复杂许多,由于模拟本身涉及动态过程,并不是接受某一分析解决方案就能解决,其需涉及大数据集群的部署,而部署架构的过程大数据无法自动实现,这些问题在分析中很棘手,大数据分析遭遇瓶颈。

这些问题的产生往往与大数据的认知模糊相关。汉弗莱斯提出,对于某一过程,当认知主体x在时间t对其中所有与认知相关的元素没有全面了解时,我们则认为该过程存在认知模糊。在一定程度上,认知模糊既不属于科学质询(scientific inquiry)的某个新特征,也并不仅仅局限于计算方法中。对于软件密集型科学(SIS),这种认知模糊出现在不同时期的程序代码中(尤其是对“古董代码”错误或模糊的认知),以及不断发展的计算方法中(用传统统计方法进行大数据分析所呈现的问题),并经由软件误差不断升级(尽管在标准统计分析中我们常假设误差随机分布,但这一假设在软件系统中并不成立,根本原因在于我们无法事先排除所有的非随机因素)。又由于认知模糊的路径复杂性,这种误差已经越来越难以通过统计方法所探知。要改善大数据认识论的缺陷,就必须正视误差的影响。有学者提出,软件系统的模块化在一定程度上可以减少软件误差,令系统更加易于管理,然而随着时间的动态变化软件模块很快会演化为一个复杂系统而产生新的问题,这成为软件设计和开发中时刻需要引起重视和不断思考的问题。

由此可见,大数据的认知模糊成为了大数据技术矛盾与挣扎的核心。从本质上讲,这些局限性反映了大数据技术背后的理论缺失, 体现了大型软件系统的常规误差监测、修正与评估对内在认识论的挑战。②

三、 结语

在当代计算机技术的辅佐下,今天的社会科学研究者有相当的能力通过大数据分析技术获得传统调查研究以外的更丰富、更深层的信息。通过对知识结构、研究过程、信息内容以及现实的本质等重要问题的重新解读,让人们的思维方式产生了根本性的转变。大数据在丰富人们认知的同时,对研究的本体论、价值观也产生了一定程度的挑战。通过对比传统数据分析方法,本文从数据生产和数据分析两个方面讨论了大数据分析可能存在的问题。

大数据的布道者认为大数据的数据量庞大,基于大数据发现的数据模式和相关关系非常可靠。其所有的“理所当然”都是基于这样一个假设,即通过算法产生的大数据确实反映的是真实的全数据。然而,此假设令人存疑。首先,从数据的产生过程来看,如果通过某些方式产生的大数据与真实总体存在偏差,那么基于这样的数据所得论断并不可靠。再次,从数据分析的角度来讲,即便所产生的数据没有问题,不论是基于传统的假设检验还是通过机器学习尤其是无监督学习,所发现的数据模式仍有可能存在很大的争议。如大卫·雷泽尔等学者在《科学》上就大数据分析陷阱的阐述,数据量大并不意味着我们可以忽略有关数据的根本问题,比如测量、建构效度与信度及数据间的相关性等。大数据本身只是一个知识和信息的载体,大数据分析的潜在问题与“大”数据的大小无关,而与大数据的模糊认知有关。造成这一模糊认知的本质在于大数据的产生和分析在一定程度上脱离了现有的科学哲学体系。如何让大数据像人一样思考,让大数据生产出真实有效的知识,就需要将知识生产建立在科学哲学体系当中,既不完全依赖理论,亦不可完全抛弃理论。

近年来,越来越多的国内学者也开始基于百度搜索、本土的社交媒体等进行大数据分析。然而,在全世界范围内,大数据在社会科学中的应用尚属起步阶段。不论是在国内还是在国外,由于网站和媒体平台生成方式、数据记录方式等相似,导致他们在数据产生和分析过程中往往存在共通的问题,面临类似的关乎认识论和方法论的挑战。这些问题多隐匿在计算科学的理论和实践中,需要引起我們关注并加以辨别。如何将大数据应用于实证研究问题是当今计算科学家以及社会科学家所面临的重要挑战和机遇。本文所涉及内容实乃大数据分析中的“冰山一角”。这里,笔者提出自己的管窥之见,以起抛砖引玉之作用,见教于大方之家。

(责任编辑:亚立)

猜你喜欢

假设检验
假设检验结果的对立性分析
微信抢红包最高金额与其影响因素的回归分析
假设检验在审计抽样工作中的应用
MATLAB在数理统计假设检验中的应用
假设检验教学中的案例设计
中国国际获奖电影(2010—2015)情感倾向研究
统计推断的研究
沈阳市民使用理财APP的调查研究报告
凤爪重量质量管理报告
通俗简单地解释数理统计的思想方法