大数据思维范畴探究

2015-03-20张弛华中科技大学新闻与信息传播学院湖北武汉430074

华中科技大学学报(社会科学版) 2015年2期

张弛，华中科技大学新闻与信息传播学院，湖北武汉430074

大数据思维范畴探究

张弛，华中科技大学新闻与信息传播学院，湖北武汉430074

大数据思维有两层含义：一是人们思想上对大数据的认识和重视，这是一种思维态度；二是大数据思维范畴，这是一种思维方式。大数据思维范畴是大数据时代主观逻辑和客观逻辑的有机统一，反映了大数据这一新生事物存在发展的辩证关系。大数据的汹涌来潮，会改变人们传统的对可能和现实、必然和偶然、原因和结果、部分和整体、精确和模糊等一系列思维范畴的认识。

大数据；大数据思维；思维范畴

大数据的发展，不仅取决于大数据资源的扩展，还取决于大数据技术的应用，更取决于大数据思维的形成。也就是说，大数据发展必须是数据、技术、思维三大要素的联动。在网络时代数据无处不在、技术快速发展的条件下，大数据思维已成为决定大数据成败的关键。目前，大数据思维缺失，跨越学术与产业、技术与应用之间鸿沟的方法论缺位，是大数据发展的最大障碍。“出身不重要，思维更重要”[1]，只有具有大数据思维，才能更好地运用大数据资源和大数据技术。需要说明的是，大数据思维包含有两个意思：一个是在思想上对大数据的认识和重视，这是一种思维态度；另一个是大数据思维范畴，这是一种思维方式。本文着重讨论的是大数据思维范畴问题。

众所周知，思维范畴是主观逻辑和客观逻辑的有机统一，反映了事物存在发展的辩证关系。大数据思维范畴反映的是大数据时代人们思维方式的变革。

一、可能和现实关系

可能与现实是常见的思维范畴。现实标志着当下的实际存在，可能则是指包含在事物之中的、预示事物发展前途的种种趋势。在小数据时代传统思维条件下，人们对预示事物发展趋势的可能性的认识往往是经验式的，可称之为经验式的可能性认识。这种经验式的可能性认识对事物发展趋势的预测不准，主要是因为缺乏准确的、全面的、海量的数据作为支持。《大数据》一书的作者涂子沛引用胡适的著名文章《差不多先生传》来比喻中国人带有“差不多先生”的文化标签[2]329，是说中国人的思维方式缺乏科学性，习惯于“大概”。“大概”的预测准确率低，当然缺少科学性。而在大数据时代，在拥有海量的、整体的、实时的数据条件下，人们对事物发展趋势的预测就会准确得多，这种预测，可称之为科学式的可能性认识。

在谈到大数据的核心价值时，一致的观点认为大数据的核心是预测。中国工程院院士邬贺铨指出，大数据预测可运用到各行各业，“宏观经济学方面，IBM日本公司建立经济指标预测系统，从互联网新闻中搜索影响制造业的480项经济数据，计算采购经理人指数的预测值。印第安纳大学利用谷歌公司提供的心情分析工具，从近千万条网民留言中归纳出三种心情，进而对道琼斯工业指数的变化进行预测，准确率达到87%。”[3]47在医学领域，加拿大的研究人员开发了一种大数据诊疗技术，以便能预测早产婴儿的感染。他们通过把包括心率、血压、呼吸和血氧水平等16种生命体征转化成每秒1 000多个数据点的信息流，从中找到早产婴儿生命体征极其轻微的变化与较为严重病情之间的关联性。在城市管理领域，美国纽约市开发了一套新的火灾预防方案，这一方案在全市90万座建筑物的数据库中加入市政19个部门所收集到的其他数据，包括欠税扣押记录、水电使用异常、缴费拖欠、服务场所、鼠患投诉等各类数据，并将这些数据与过去5年的火灾记录进行计算分析，从而发现了建筑物类型和建造年份与火灾的相互关系，还发现了非法在屋内打隔断的建筑物发生火灾的高概率，在此基础上制定出新的火灾预防方案。火灾已经发生是现实性，火灾可能发生是可能性。火灾已经发生我们只能通过救火努力把损失降到最低限度，而最好的办法是通过可能性预测预防火灾不要发生。医学领域同样如此，最好的办法不是生病以后再去治病，而是通过可能性预测预防疾病不要发生。

大数据的核心意义在于发现和挖掘潜在价值，而不在于发现现实价值。其科学方法论意义不在于从“已知”的现实中发现问题和规律，而在于从“未知”的种种可能中发现问题和规律。中国工程院倪光南院士指出，科学研究的实验型范式、理论型范式、计算型范式都是在已知规律的情况下发现新的规律，而大数据“则是在未知规律的情况下，运用计算能力从大数据中发现规律并发挥规律的作用。”[4]通过“未知”发现规律，就很难预设理论模型，正是因为大数据是从“未知”中发现规律，图灵奖获得者吉姆·格雷（Jim Gray）才提出将大数据列为科学研究的第四范式（the fourth paradigm）。

大数据预测拉近了可能与现实的距离，使我们有能力逐步做到将好的可能性变成现实，将不好的可能性不变为现实。中国工程院李德毅院士指出，“大数据整天和我们在一起，大数据已成为连接虚拟世界和现实世界之间的桥梁。”[5]可以说，在大数据时代，虚拟世界和现实世界的距离和界线将发生新的变化，人们对事物的认知不仅满足于“已知”，更能精准地认识“未知”，不仅能描写性地分析“现在”，更能预测性地分析“未来”。大数据在“此岸”与“彼岸”之间架通了一座快速便捷的桥梁。

二、必然和偶然关系

必然和偶然范畴是与可能和现实范畴联系较为紧密的思维范畴。可能性既与偶然性有一定联系，也与必然性有一定联系。我们在预测事物发展的可能性时，必须同时考虑制约它的必然因素和偶然因素。

长期以来，人们传统的思维定势习惯于将自然界和人类社会看成是二元世界，由此采用“科学”和“历史”两个叙事框架，并形成科学主义和人文主义两大思潮。科学主义认为，自然界是决定论的，它的运动变化是有必然规律的，是可预测的，而人类社会是非决定论的，它的运动变化充满随机性、偶然性，是不可预测的。著名科学哲学家波普尔就否定历史决定论，主张非决定论。在小数据时代，之所以有人认为人类社会运动发展不可预测，是因为社会领域的数据杂乱无章，大都是非结构性数据，特别是情感数据、社交数据更是千头万绪、变动不居。但在大数据技术条件下，人类拥有了处理非结构性数据的强大能力，人们通过LBS采集人在地球上的全部运动轨迹，通过在线支付采集人们的全部支付记录，通过SNS采集人们的全部网络交往记录，通过电子邮件、文档、Timeline、视频监控等采集人们的言行记录。这使得大量随机的、偶然出现的数据可以实时捕获处理，使之变成确定性的、必然性的东西。

马克·吐温说，历史不会重演，但自有其规律。历史事件虽然往往表现为一些偶发事件，但偶然性背后存在的是必然规律。随着科学技术的进步，支持历史发展存在规律的观点的人越来越多，而大数据技术使人类揭示和认识社会历史规律更有可能和更加快捷。因此，有人认为，“与其说大数据的核心价值是对未来的预测，不如说是对过去沉睡的规律的揭示。”[6]也就是说，大数据不仅是人们认识事物发展可能性的强大武器，也是人们认识事物必然性的有力工具。

在描述大数据的4V特征时，实时快捷（Velocity）是大数据的重要特征之一。在实际应用中，大数据技术的实时快捷分析能帮助人们捕获随机出现的、稍纵即逝的、看似价值不大的信息。在大数据时代，正是数据来源的多元化和实时快速处理，使人们能更多摆脱偶然性的干扰而把握必然的东西。2011年10月，美国国家气象局（NWS）宣布，该局在全国数千辆客运大巴上安装了数据传感器，随着客运大巴的运动，这些传感器将沿途所采集的温度、湿度、露水、风力、光照度等数据实时传回国家气象局的数据中心，数据采集是每10秒钟一次，传感器每天要采集10万次以上的数据，数据中心对这些实时的、随机的、高粒度、高频率的数据进行分析处理，其发布的天气预报就不再仅仅只是“预”报，而逐渐走向“实”报、“精”报。

大数据用数据事实不断改变人们对历史和社会发展的现象与本质、偶然与必然的认识，使人们更易于透过偶然把握必然。“无尺度网络”概念的提出者艾伯特－拉斯洛·巴拉巴西指出，“虽然万事皆显出自发偶然之态，但实际上它远比你想象中容易预测”。他认为“人类行为93%是可以预测的”。只是“过去我们没有相关数据，也没有一定的方法来探究人类的行为”。其实，“人类的大部分行为都受制于规律、模型以及原理法则，而且它们的可重现性和可预测性与自然科学不相上下。”人类社会的运动规律和自然界一样，“许多事情遵循幂律分布：一旦幂律出现，爆发点就会出现。”[7]巴拉巴西所指出的人类社会呈现幂律式周期爆发运动，是用科学方式揭示了人类社会周期式的治乱规律。在大数据条件下，社会科学越来越多地运用定量分析方法研究问题，雅虎的首席科学家沃茨博士在《自然》上发表了一篇题为《21世纪的科学》的文章，认为得益于计算机技术和海量数据库的发展，个人在真实世界的活动得到了前所未有的记录，这种记录为社会科学的定量分析提供了极为丰富的数据。由于能测得更准，计算得更准确，他认为社会科学将脱下“准科学”的外衣，真正走进科学的殿堂[8]489。

三、原因和结果关系

在关于大数据思维变革的研究中，大数据对因果关系范畴的影响讨论相对较多。举得最多的案例是沃尔玛在其卖场中将啤酒与尿布摆放在一起销售的故事，还有在季节性飓风来临之前，将手电筒与蛋挞放在一起销售的例子。这些案例说明，在大数据条件下，看似两个互不相干的没有什么因果关系的事物，通过销售数据分析可以发现它们之间存在某种相关关系。而对于追求利润率的商家来说，不需要知道“为什么”啤酒与尿布放在一起会增加销量，只需要知道结果“是什么”就行。

传统思维中的因果关系分析是建立在严密的数理推理逻辑基础上的。中国工程院院士李国杰形容说，“我们都是从做平面几何证明题开始进入科学大花园的，脑子里固有的逻辑思维模式少不了因果分析，判断是否是真理也习惯看充分必要条件，对于大数据的关联分析蕴含的科学意义往往理解不深。”[9]传统的因果关系分析虽然逻辑链条完整，但由于是小数据，往往容易以部分代替整体，难免出现误差。寻找事物的因果关系是人类长久以来形成的习惯，因果关系研究促进了科学的发展和科学体系的建立，科学是研究因果关系的重要手段。

但在大数据时代，大数据研究是对海量数据做统计性的搜索、比较、分类和聚类分析，带有统计学的显著特点。统计学更关注相关性，相关性是指两个或两个以上变量的取值之间存在某种规律性。大数据的简单算法是统计学的逻辑，这如同热力学的分析模式，热力学并不关心具体的分子运动，而是关心温度、体积、压强之间的宏观关系。腾讯副总裁吴军博士在《数学之美》一书中论述了统计学对于现代科学的意义，他指出，人们花了近20年时间实现了从基于规则的语言处理到基于统计的语言处理的转变，统计语言模型在形式上非常简单，任何人都容易理解，因为“基于统计的自然语言处理方法，在数学模型上和通信是相通的，甚至就是相同的。因此，在数学意义上自然语言处理又和语言的初衷——通信联系在一起了”[10]26。而且，统计语言模型的简单性正符合牛顿在《自然哲学的数学原理》中所主张的“简单性原则”。被誉为大数据权威的维克托·迈尔－舍恩伯格指出，在日常生活中，我们习惯地用因果关系来考虑事情，所以会认为，因果联系是浅显易寻的。但事实却并非如此，与相关关系不一样，即使用数学这种比较直接的方式，因果联系也很难被轻易证明，而证明相关关系的实验耗时少，费用也少。“相关关系分析本身意义重大，同时它也为研究因果关系奠定了基础。通过找出可能相关的事物，我们可以在此基础上进行进一步的因果关系分析，如果存在因果关系的话，我们再进一步找出原因。”[11]88由此可见，舍恩伯格并不否定因果关系，只是认为，能找出相关关系，就没有必要非要寻找因果关系，这是大数据思维的新特点，也是大数据为何首先被工商界热捧的原因。

大数据思维对因果关系和相关关系的重新思考给我们提供了认识事物不同层面、不同领域的不同选择模式，它们不是相互替代的关系，而是并存关系。这种并存关系可能有以下两种情况。

第一种情况是，对学术性的科学研究来说，因果关系永远是探究科学之谜的密钥。《大数据时代》一书的译者周涛教授指出，“想想瑞士日内瓦的强子对撞机，我们在上面捕获了人类有史以来最大规模的单位时间数据。我们是希望找到或者验证某种相关关系吗？不是！我们试图回答的，正是人类所能问出的关于因果关系最伟大的问题：希格斯玻色子是否存在，我们的宇宙是否有可能用标准模型刻画。……放弃对因果性的追求，就是放弃了人类凌驾于计算机之上的智力优势，是人类自身的放纵和堕落”[12]译者序Ⅸ。在科学研究领域，不能放弃对因果关系的探求，但要高度重视相关性研究，李国杰院士认为，“对于开放复杂的巨系统，传统的因果分析难以奏效，因为系统中各个组成部分之间相互影响，可能互为因果，因果关系隐藏在整个系统之中。……因此，对于大数据的关联分析是不是‘知其然而不知其所以然’，其中可能包含深奥的哲理，不能贸然下结论。”[13]

第二种情况是，对实用性的商业活动来说，繁琐的因果关系探究已无必要，有相关关系支持赚钱就行，赚钱讲究短平快，所以企业收集和处理大数据，不必深究为什么能增加利润，更没有必要花大力气深究其背后的内在规律和盈利模型。

这里就出现了两种路径，一条是学术研究遵循的从数据到信息再到知识和智慧的研究思路，另一条是商业活动走的从数据直接到价值的捷径。美国Wired杂志主编Chris Anderson在他的文章“The End of Theory”中引证Google通过广告大赚其钱的案例后大声发问：“现在是时间问这一句了：科学能从谷歌那儿学到什么？”[14]

四、部分和整体关系

从亚里士多德到黑格尔，从贝塔朗菲到普里高津，都从自己理论的角度探讨了部分与整体关系范畴。这个古老的思维范畴在大数据时代又有了新的特点。在小数据时代的传统思维中，人们对整体的把握习惯于通过窥斑见全豹的方式来实现，抽样调查是数据有限条件下获得科学结论的主要手段。对于同质化程度很高的事物来说，随机抽样是掌握事物性质的重要方法，因为“所有数据其实都是样本而已”，“群体的任何一部分都是样本，抽样就是只观测群体中的一部分，以得到总体情况的信息。”[15]156但抽样调查有其局限性，主要表现在抽样随机性的实现比较困难；随机抽样不适合细节考察，不适合分析子类别的情况，子类型一旦细分，抽样分析结果的错误率会大大增加；随机抽样调查结果缺乏延展性，调查结论数据不可重新使用来实现别的分析要求。特别是对开放的复杂系统数据，如结构复杂的网络数据，“大样本比小样本更精确。小样本比大样本产生极端结果的概率大。”[16]93因此，能运用大数据来把握事物的整体性当然最好。

在大数据时代，大数据收集分析处理技术使获得接近于整体的数据越来越容易。从数据收集技术方面看，互联网、移动互联网、物联网的广泛应用使网站点击、手机导航传感器以及Facebook和Twitter能够实时产生海量数据，而大数据技术可以对这些数据进行实时处理，这将出现了大数据时代样本＝总体的“全数据模式”。在某些特定的情况下，虽然依然可以采用样本分析法，但这不再是我们分析数据的主要方式。美国大数据专家Bill Franks指出，“当有大量数据时，获取足够的样本并不难。今天的系统都具有足够的可扩展性，直接针对全体数据进行分析也是可行的，抽取10%的样本顾客进行分析便不再是必需的，因为我们可以直接分析客户。”[17]136全数据模式使得由“抽查”转变为“实查”成为可能，大数据使“我们离实查相当接近，并可以用来替代产生偏差的抽样。”[18]

全数据模式无疑提高了我们把握事物的精度，通过使用整体数据，我们可以发现一些可能被忽略的蜘蛛马迹，例如，为了防止信用卡诈骗，就不能放过哪怕一次异常交易情节。Xoom公司是一个专门从事跨境汇款业务的公司，它运用大数据技术分析每一笔交易的所有有关数据，2011年的一段时间，它发现用“发现卡”从新泽西州汇款的交易量比往常明显增多，于是紧急启动报警程序，从而防止了一个诈骗集团的金融犯罪。现在，很多银行都在使用信用卡消费监测报警系统，一个正常使用的信用卡如果突然出现一次大额度消费或跨国消费情形，客服人员会马上打电话提示持卡人，这显示银行对每张卡的消费记录不是零散的，而是整体的。

全数据模式涉及我们对大数据之“大”的认知。大数据之“大”不仅仅指数据体量大，而且还包括数据的整体性和价值性。不挖掘大数据的价值，数据再多也没有用，同样，不提高数据的整体性，数据再多价值也不大。因此，大数据是指不用随机抽样分析法这样的传统方法，而采用处理所有数据的方法，也就是说，大数据方法不是抽样分析法，而是整体分析法。

贝塔朗菲曾将亚里士多德关于部分与整体关系的观点概括为“整体大于部分之和”，因为在小数据时代，人们获得的部分数据的有限性与整体差距太大，部分之和不可能等于整体，但在大数据时代，人们获得整体数据的能力大大增强，亚里士多德的结论也日益受到质疑。

五、精确和模糊关系

传统的思维定势一直致力于追求对事物精确度的认识，从“测量就是认知”到“知识就是力量”，开尔文男爵和培根都是科学测量方法的创造者和倡导者。进入20世纪以后，量子力学的“测不准定律”揭示了统计性、不精确、不确定性也是物质运动的一种基本样式，使人们开始了对精确与模糊关系的重新认识。现在，大数据时代的到来，使人们开始进一步讨论“大数据混杂”带给人们思维方式的变化。

大数据之所以会给人混杂模糊的感觉，主要基于以下几点。

1.大数据思维往往没有预设。既没有设定的目标，也没有设定的问题；既没有设定的条件，也没有设定的理论模型。没有预设会给人思维混乱的印象，但也会给人思想自由的感觉。由于大数据更多是探寻事物之间的相互关系，输入数据后能够发现什么新情况新规律，能够从中得到什么启示，很多是自然形成的结果，这些随机出现的结果往往超出既有的思维判断，人们有时没有思想准备，一下子难以接受。谷歌公司研究部主任彼得·诺维格认为，在大数据时代，“没有模型你也可以成功”，大数据技术和大数据资源使我们可以在没有预设目标和理论模型的情况下进行数据挖掘，在互联网、云计算、人工智能条件下，只要有相关关系的数据，统计分析就能够发现过去的科学方法发现不了的新情况和新规律。

2.大数据混杂的出现与大数据之大有关。数据量越大，精确性越小，规模越大，错误越多，也就是说，数据量往往与精确性成反比，规模与错误成正比。因此，为了扩大规模，我们接受适量错误的存在。正如技术咨询公司Forrester所认为的，有时得到2加2约等于3.9的结果，也很不错了。

3.大数据混杂的出现与大数据的非结构化有关。大数据既包括文本数据，还包括图片、音频、视频、日志、地理位置以及聊天记录、支付记录等各种类别数据，这些数据结构混杂，格式不一。如果要达到格式一致，就需要进行数据分类清理，而这在大数据条件下既难做到，也无必要。在现在的数据仓库中，“只有5%的数据是有框架的且能适用于传统数据库的，如果不接受混乱，剩下95%的非框架数据都无法被利用，只有接受不精确性，我们才能打开一扇从未涉足的世界的窗户。”[19]

4.大数据混杂的出现与大数据的容错机制有关。Google的翻译系统是这方面较好的例证，“尽管其输入源很混乱，但较其他翻译系统而言，谷歌的翻译质量相对而言还是最好的，而且可翻译的内容更多”。“从谷歌的例子来看，它之所以能比IBM的Candide系统多利用成千上万的数据，是因为它接受了有错误的数据。”[20]54美国纽约大学教授冯启思（Kaiser Fung）在《数据统治世界》一书中论述了“出错的好处”，指出“虽然明知容易犯错，可依然信心饱满，这是大统计学家的标志。他们认识到没人能独占真理，只要世界上还有不确定性存在，真理就未可知。”[21]222正是大数据的容错机制大大提高了大数据预测的准确性，“不怕一万就怕万一”，因为万一的疏漏也许就是致命的。正如大数据专家D.J.Patel所指出的，在网上搜索I.B.M可以有成千上万种指代，而数据混杂换来的是没有遗漏，没有遗漏会使我们获得一些本可能被错过的变化。

大数据的混杂模糊表面上破坏了数据的精确性，其实它是在更大的规模上和更大的范围内实现数据的精确性，因为它减少了遗漏，减少了被错过的机会，提高了大数据预测的准确率，而准确预测正是大数据的核心所在。从小数据精确到大数据混杂再到大数据精确，人们的思维仿佛是走了一条正－反－合的道路，也就是肯定－否定－否定之否定的道路。

[1]王勤：《印刷“触网”：传统与新锐的碰撞》，载《中国新闻出版报》2014年3月27日。

[2]涂子沛：《大数据》，桂林：广西师范大学出版社2013年版。

[3]邬贺铨：《大数据时代的机遇与挑战》，载《求是》2013年第4期。

[4]倪光南：《关于大数据》，载《高科技与产业化》2013年第5期。

[5]李德毅：《在实践中研究大数据和你在一起》，载《科技资讯网》2013年6月5日。

[6]张建设：《大数据悖论》，载《中国计算机报》2013年第16期。

[7]（美）艾伯特－拉斯洛·巴拉巴西：《爆发：大数据时代预见未来的新思维》，马慧译，北京：中国人民大学出版社2012年版。

[8]D.J.Watts.“A twenty－first century science”，Nature，2007，volume 445.（489）.

[9]李国杰：《大数据研究：未来科技及经济社会发展的重大战略领域》，载《中国科学院院刊》2012年第6期。

[10]吴军：《数学之美》，北京：人民邮电出版社2012年第6期。

[11]（英）维克托·迈尔－舍恩伯格：《大数据时代：生活、工作与思维的变革》，周涛译，杭州：浙江人民出版社2013年版。

[12]周涛：《在路上晃晃悠悠.“大数据时代”》，杭州：浙江人民出版社2013年版。

[13]李国杰：《大数据研究的科学价值》，载《中国计算机学会通讯》2012年第9期。

[14]Chris Anderson.“The End of Theory：The Date Deluge Makes the Scientific Method Obsolete”，Wired，2008，16，（7）.

[15]（美）道格拉斯·哈伯德：《数据化决策》，邓洪涛译，广州：中国图书出版集团世界图书出版公司2013年版。

[16]（美）丹尼尔·卡尔曼：《思考，快与慢》，胡晓娇、李爱民、何梦莹译，北京：中信出版社2012年版。

[17]（美）Bill Franks：《驾驭大数据》，黄海等译，北京：人民邮电出版社2013年版。

[18]黄升民、刘珊：《“大数据”背景下营销体系的解构和重构》，载《现代传播》2012年第11期。

[19]张涛甫：《大数据时代的出版困局及其突破》，载《编辑学刊》2013年第2期。

[20]（美）冯启思：《数据统治世界》，北京：中国人民大学出版社2013年版。

责任编辑吴兰丽

Big Data Will Change Several Major Thinking Categories

ZHANG Chi
（School of Journalism＆Information Communication，HUST，Wuhan430074，China）

The heated discussion about big data thinking has two meanings：first is knowing and attaching importance to big data in thought，which is a kind of thinking attitude；Second is big data thinking category，which is a way of thinking.Big data thinking category is the organic unity of subjective logic and objective logic in the big data era，which reflects dialectical relationship of its existence and develpment.Big data surge will change the people’s traditional understanding about a series of thinking categories including possibility and reality，inevitability and contingency，causation and correlation，part and whole，accuracy and vague and so on.

big data；bit data thinking；thinking category

张弛，华中科技大学新闻与信息传播学院博士生，研究方向为新闻传播、大数据传播。

2014-11-30

C795

1671-7023（2015）02-0120-06