大数据时代下的四大思维方式转变
2016-04-25◆阳超
◆阳 超
21世纪信息技术日新月异,全球信息化已经成为不可阻挡的趋势,大数据无疑成为了时下最炙手可热的研究话题之一。随着大数据时代的来临,我们的生产、生活、工作和思维方式诸多方面都将进行大变革,我们将一改往日的小数据思维和眼光,以大数据思维和视角来看待和理解世界。
一、大数据时代的到来
大数据(Big Data),又称巨量数据、海量数据,其所涉及的数据规模巨大到无法在合理时间内,通过目前主流软件工具,进行截取、管理和处理。麦肯锡(McKinsey Company)认为:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。我所理解的大数据具有以下特征。
第一,数据样本的容量空前扩大。数据总量巨大,从TB级别,跃升到PB级别。数据类型繁多,除了标准的结构化编码数据之外,还包括网络日志、视频、图片、地理位置信息等非结构化或无结构数据。
第二,数据呈现的平台愈发宽广。伴随着传统媒体的改革和新媒体的兴起,数据的动态变化快速复杂,数据的来源渠道五花八门,呈现的方式也多种多样。可以说,有人类生活生产活动的地方就有数据,就能做数据分析。
第三,数据价值的体现日益突出。数据本身作为描述事物的特征和逻辑关系的指标,因信息技术发展而与商业金融、电子科技、医疗卫生、文化教育的生产生活实践联系在一起,产生了巨大的包括经济增长在内的价值。尽管巨量数据中的有用消息比例有限,但总体来说,数据价值的挖掘成了大数据时代的重要特征之一。
二、思维方式的转变
所谓思维方式,就是我们大脑活动的内在程序,是一种习惯性的思考问题和处理问题的模式,它涉及我们看待事物的角度、方式和方法,并由此对我们的行为方式产生直接的影响。正如恩格斯所说:“每一个时代的理论思维,从而我们时代的理论思维,都是一种历史的产物,它在不同时代具有完全不同的形式,同时具有完全不同的内容。”(《马克思恩格斯选集第4卷,人民出版社1995年版,第284页》)
人类的思维活动可以影响生产生活活动,思维自身的发展也必然受到自然界和整个社会环境的不断影响。正所谓:穷则变,变则通,通则久。计算机技术的更迭创新,无声宣告了小数据已走到穷途末路,大数据时代的大容量、广平台、高价值的特征给人类带来了巨大的机遇和挑战。要把握机遇、迎接挑战、创新发展,我们就不可避免地要了解大数据思维,适应大数据思维方式。其主要有四大思维。
(一)系统性思维。所谓系统性思维方式,就是指人们在思考和处理问题时,着眼于系统整体,侧重解决系统与子系统,系统与环境以及各子系统间的结构与层次等方面的线性和非线性关系,从而揭示出系统的运动变化规律,最终实现系统整体目标优化的一种现代思维方式。
系统性思维方式强调总体,而非局部。在大数据时代,随着数据收集、存储、分析技术的突破性发展,我们可以更加方便、快捷、动态地获得与研究对象有关的所有数据,不再因技术的诸多限制而采用样本研究方法。相应地,这也为思维方式从样本思维转向总体思维提供了技术保障。
系统性思维强调相互关联,而非静止孤立。在大数据时代,人们可以通过大数据技术挖掘出事物之间隐蔽的相关关系,获得更多的认知与洞见。通过关注线性的相关关系,以及复杂的非线性相关关系,可以帮助人们看到很多以前不曾注意的内在联系,还可以掌握以前无法理解的复杂技术和社会动态。这对于我们理解复杂事件的发展和复杂事物之间的关系裨益良多。
系统性思维强调动态发展,而非一层不变。在大数据时代,大量的传感器将我们身边的一切纳入物联网,使一切事物的动态、变化变成数据流,不断进入负责监控的计算机。云计算技术的强大数据分析能力将帮助人们对这些数据进行分析和处理。这些随时间流不断更新的数据正好反映了数据随时间的动态演化过程,构成了一幅动态演化的全景图,而建立在数据的动态发展分析基础上的对未来的预测正是大数据的核心议题。
(二)数据化思维。“数据”一词来源已久,在拉丁文中它被赋予了“已知的事实”的意思。数据化是指一种把现象转变为可制表分析的量化形式的过程。数字化是指为方便计算机的运算,把模拟数据转换成用0和1表示的二进制码。
数据化思维的核心就是量化一切。从世界古文明的结绳计数、甲骨图文;到公元1世纪到12世纪阿拉伯数字,先在印度的缘起,随后在欧洲的传播和应用;再到14世纪意大利会计手稿和复式记账法,推动了近代会计和金融行业的兴起;新工具的产生和使用既促进了测量和记录数据的繁荣,也孕育了大数据时代数据化思维。
互联网技术和其他科学技术的成熟,使文字、方位、沟通这些非具象的概念实现了数据化。Google的数字图书馆是很好的例证。2004年,Google开始启动数字图书字符识别软件来识别文本的字词,完成了文字数字化到文字数据化的转换。这不仅为全世界的读者提供了免费阅读的平台,还可以供计算机进行二次分析,在一定程度上有效约束了学术作品的抄袭剽窃行为。
数据化思维使我们意识到世界的本质即是信息。我们所处的大数据时代,就是一个在急速信息技术革命中,关注“信息”多过关注“技术”的时代。这一点,不管是在商业金融、公共卫生、教育人文、天文科技还是政府工作上,都可以得到验证。如通过GPS地理定位推荐最佳行程路径和通过夜间脑电波分析失眠患者的睡眠模式,通过量化在锻炼中身体各个部位失去的能量和进食不同的食物单位内所带来的卡路里来制定健康计划。
(三)容错性思维。容错性思维是大数据时代与小数据区分最大的思维方式。在小数据思维中,精确无疑是第一核心要义。当样本数量有限时,我们只能通过关注最重要的内容,获取最精确的结果,提高我们预测事物的能力。在大数据时代下,我们所观察的是总体样本,而非抽样样本。为适应大数据技术,思维方式要从精确思维转向容错思维,即当拥有海量即时数据时,绝对的精准不再是追求的主要目标,适当忽略微观层面上的精确度,容许一定程度的错误与混杂,以一个比从前更大更全面的角度来理解事物的发展。
一方面,数据规模的指数爆炸式增长不可避免地造成数据的混乱。从数据结构上来说,5%的数字数据是结构化可适用于传统数据库的,我们只有通过接受混乱和不精确,才能利用剩下的95%的非结构化数据。面对参差不齐的海量数据,我们无法竭力避免混乱,而是试图寻找标准途径。以内容分类为例,小数据时代的图书馆或储藏室用分类法和索引法存储和检索资源足以应付。当互联网平台帮助数据规模飞跃几个数量级之后,仍沿用原来精确的分类法,反而会造成更大范围的混乱。Facebook、新浪微博和其他图像、视频、音乐分享平台键入多个搜索标签体现的就是一种与传统精确性分类不同的分类思维。
另一方面,大数据的信息纷繁复杂,鱼龙混杂,为了把握和分析事物的本质,我们对精确度的沉迷程度不断减弱。因为容错思维认为,不精确的数值体现的大概轮廓和发展趋势已足够帮助我们认识问题。Facebook、新浪微博上分享的内容可以用“喜欢”和“赞”来描述受欢迎程度。数量不多时,精确的数字将会显示其上,如137。数量很大时,则会显示一个近似值,如4万。Google的Gmail邮箱会标注如“7分钟之前”,“3个小时之前”或者“两个星期之前”。这时候精确的重要性变得不那么突出,大致的数值描述已足够说明问题。
(四)开放性思维。大数据时代的开放性思维相对于传统时代的封闭的思维,更具主动性、透明性、互动性的特征。该思维方式形成和表现于四个方面。
一是社会环境的开放性,即现代社会环境的多元化、个性化发展趋势。全球化的发展孕育了开放与包容的时代特征。不同社会制度、不同经济结构、不同意识形态和不同宗教信仰的国家、民族相互联系,多元复杂的社会背景下,每个人的自我认识更多元更深刻,个人的主体意识不断增加。
二是认识主体的开放性,即认识活动中的主观能动性的极大提高。大数据发展的动力来源于人类测量、记录和分析世界的渴望。正是源自人类认识世界和改造世界的原始本能,人们才通过语言、绘画、文本、摄影、胶片、磁带等分享方式来延伸记忆。大数据的数据记忆特征极大激发了人们的主观能动性。
三是展呈方式的开放性,即互联网环境下表达平台的开放性。在大数据时代,互联网、云计算技术等信息技术为我们提供了便捷的共享手段。互联网的全球化覆盖消除了地理距离的限制,从根本上改变了搜索和提取的经济成本,去资料库获取信息的时间和成本被低廉的网络通信费用所取代。低廉的数字存储器、易于提取的数字加工工具,剥离了原始的背景信息,加速了抽象排列向分类系统过渡、提炼有效信息的进程。遍地可见的电脑、智能手机、摄像头以及其他诸多的信息采集设备和存储设备将海量数据置于公共空间,为公众共享信息提供了基础。
四是认识对象的开放性,即活动主体对问题观察的开放性:不再纯粹只关注因果关系,也开始深入相关关系;不再只单纯利用某次数据,更多的关注数据的再利用和挖掘。一方面,通过探求相关关系的“是什么”而不是因果关系的“为什么”,能提供更好的视角来理解世界。大数据时代,相关关系的验证实验耗资少、周期短,数学方法、统计方法及数据工具方法众多,使相关关系的探究更为准确。如经济学中收入与幸福的正比关系到非线性关系的转变。另一方面,不同于物质性实体,数据的价值可以多次被处理以发掘潜在的价值,并不会随着重复使用而减损。如:移动电话运营商收集用户的位置信息来传输电话号码、利用机票销售数据来预测未来机票价格、搜索引擎公司通过搜索关键词来监测流感的传播、麦格雷戈博士以婴儿的生命体征来预测传染病的发生。
总之,大数据以磅礴之势席卷而来,开启了人类历史上的重大时代转型,它改变了人们的生活模式和理解世界的方式,成为新发明和新服务的源泉。这些思维的转变,将改变我们理解和组建当下社会的方法。不管我们承认与否,它带给当今全球的益处是方方面面的。不论变化如何,我坚信正如维克托所说,最终将在大数据价值链中获益的是拥有大数据思维的人。