大数据的科普意义
2015-07-13沈志昌张森娜
沈志昌 郎 炜 张森娜
大数据的科普意义
沈志昌1,2郎 炜2张森娜2
1.台湾新光三越公司 2.中华科技史学会
倘佯在大数据冲击的思想大海中,人们进入一个没有正确答案且拥有更多复杂问题的时代里。面对多元文化的环境,必须厘清所获得的大量信息和数据,加以判断、分析、归纳,以期显现出个人所需要的生活方向,进而做出正确、合理的决断,才能游走在经济迅速变化的绳索之上。由于智能型科技的发展,使得众人提供信息、共享信息、吸取信息更为便捷。这种由0与1编码、塑造出来的世界,满足了人们记忆、联系、存取的情感和情绪。然而,用深奥算法所撰写的大数据,也相对带来了令人意想不到的困惑。为了免于沉溺在美丽的神话里,有必要了解大数据的科普意义。
大数据 相关性 科学普及
1 前言
在文艺复兴时期,学者们身处知识制约的时代,多用一般的工具来解读未来,如探索宇宙及人体结构等。与生活在现代的我们相比,他们并没有本质上的差异。随着智能型装置、云端技术的快速发展,使得以服务器为主导的大数据(big data)不断涌现。由于互联网的连结和应用达到空前的境界,因而可将过去与现在的信息连结在一起,并以此预测未来发展的趋势,甚至以其寻觅未雨绸缪的因应之道。
世界知名导演卢贝松拍了一部电影《Lucy》,充分展现人类借由药物与计算机结合,从而进入大数据的世界。女主角Lucy,因其体内吸收了过量的药物CPH4,而大幅地开启了她脑内的潜能,由10%逐渐地提升到100%。当Lucy的脑内潜能不断上升时,同时还会拥有超越一般人的记忆力和学习能力。因此,她能够操控周边的电子仪器、设备和物质,也可以读取他人内心深处的思维、进行时空旅行等。Lucy回到过去,见到了人猿露西,看遍了世界的演化,让自己觉得拥有神一般的能力。
后来,Lucy慢慢感受到自己身躯的极限,遂请教授设法与超级计算机连结。最终,她变成了黑色实体的USB,内存由0与1所形成的大数据知识,它们可以延续着她的生命。如今,智能型手机已相当普遍,每天会涌入海量的数据,举凡食、衣、住、行等信息皆可从手机中获得。身处大数据的今日,有必要了解“到底什么是大数据”。
2 大数据的黄金岛
艾略特曾对20世纪60年代的西方社会做了一番描述,当时的西方社会好像躺在手术台上的病人,注入了强心针之后,她似乎重新变得生气勃勃。从前科幻小说中的题材,如今逐步地实现了。在宇航方面,人们登上了月球、探测遥远的天际,既惊喜又迷惑。生命科学中脱氧核醣核酸的发现,开启了人工合成人的可能性。核能和太阳能等新能源的开发与运用,均与计算机科技有密不可分的关系。这些科学发展的成就,让人们再次体会文艺复兴运动的喜悦。人是无所不能的,应该重新思考对人类、地球,乃至宇宙的认识。
500年前,人们利用帆船航行大海,寻找东方的香料和黄金。而今,则是运用互联网来寻找黄金和财富。2008年,美国遭遇金融危机,它是由金融机构运用云端技术所造成的结果。这场国际金融危机,系以金融创新带动着全球经济引擎的信用。基于高额回报的预期,使得诡异虚拟的经济世界从梦想变成梦魇,导致全世界的实体经济笼罩在此阴影之中。为此,美国总统奥巴马提出“物联网振兴经济”的战略,并强化感测技术和智能型基础设施的建置。
2012年,奥巴马政府认为,大数据是“未来的新石油”。从大数据中提炼出有用的资料,那就是新石油。只要对海量的数据进行分析,就能创造出相当的经济价值。处在广大国土的美国民众,如需购物就要开车采购,因而美国政府重视能源的开发。如无石油开车,则无法行驶各处,这样的生活会苦不堪言。对美国百姓而言,用石油来描述大数据中的黄金岛,最为贴切。当百姓的生活过不下去时,就会信心动摇,产生危机。通常,政府当局为了解决问题,都会宣告一个梦幻的国度,让人们燃起希望的信心。
2008年的经济危机起源于一个“贪”字,时间一久人们总是会淡忘它。因为生活总是要继续过下去,所以自勉“危机就是转机”。真是成也IT、败也IT,借着梦想来暂时性减缓失去的危机。现今,从政府到各产业,都已离不开大数据。金融机构运用云端大数据,结果却又步上了昔日的金融危机。捷克裔法国作家米兰·昆德拉在翻阅希特勒书中的照片时,不禁想起了自己的童年。他成长的过程,适逢残酷的战争,好几位亲人死于集中营。在他的生命中,这一段失落的时光,已不复回归。NOKIA的广告词说得好,科技始终来自于人性。一旦科技抹灭了人性,人们就需要好好思考是否能在大数据的科技下驾驭自己的命运!
3 大数据的典型案例
大数据泛指云计算和物联网的合体,它是计算机相关产业应用的延伸,其特点不在于数据的多寡,而在于人们如何使用计算机软硬件,以及如何建制绵密的互联网结构,从海量的数据中寻得有用的知识,而非找到正确的答案。
与生活息息相关的各领域产业中,都企图以机械学习与统计分析等方法,将庞大的资料转化成可获利的工具。例如,能源和石油探勘、生命科学基因体、商业行为分析、多尺度的物理设计和制造业、气候模型与预测、天文、以及数字内容产业等等。在美国,大部分顶尖资本家和科技精英们对网络蓬勃发展的讨论沸沸扬扬,他们都希望借由控制人人不得不通过的网络大发利市,以及企图永远经营世界搜寻引擎、云端运算、广告刊登服务和社群网络等,利用本身不是金矿主人的网络群众,帮忙找到矿坑里的金子。通过美元货币,把全球财务导入有利于美国避险基金计划的方向。2008年,美国发生房贷崩解,引发了金融海啸,其灾祸大多起于云端运算。
云端运算是一种计算机运算的概念,它呈现了对人类“经验”的“模拟”效果,使我们省去了宝贵的时间和精力。然而,使用计算机的人往往有一种强烈的倾向,要去强调“模拟”与“经验”相似。有时候,还会反过来运用计算机建构出来的模型去规划真实经验世界的模型。计算机运用象征符号间的关系,来处理多套符号,它们是“信息0、1”的流动。那些符号及规则的运算,可将真实世界连结起来,显示一些具有代表性的意义。许多方程式需要在“大量”的未知点上找到适当的数值,方能解出方程式演算的结果,进而获对真实世界的代表性做出解释。
随着社群媒体、手机、监视器、生产线和各种传感器等的普及,不同管道的数据不断诞生大量数据。例如,当进行脸书(Facebook)按赞、网页搜寻、提款机作业、信用卡消费、医疗健检等行为时,暂且不管是否行使同意或不同意的动作,都会有意或无意地提供了该项行为的数据,将其上传到网络上的各个数据库内。从这些海量的数据中,专家们可设法找出它们之间的关联性,推测或解出原先看不到的图像。利用这些整理出来的结果,商人可借此推估顾客下一步想买的东西,医生也可以预测病人的身体状况和症状发展。大数据生活中的任何信息,都拥有某种程度的关联性,以拟定的问题架构,可进一步地寻找诠释的方法。
4 大数据的相关性
欲了解消费者为何购买某项产品,并不容易。大数据强调相互关系比因果关系重要,因而不需要耗费精神在事件的因果关系上,只要能掌握事件发生过程的相关性,或许可以略知一二。以医学为例,寻找某种病症过程中的相关性,然后再进一步寻找病症与基因间的关系。为此,列举两个有关医学的例子,以便了解相关性的重要。
4.1 健康预防方面
2014年10月30日,报纸的标题是“牛奶一日3杯,死亡率高1倍”,它是根据英国医学杂志刊登瑞典乌普萨拉大学教授麦可森的研究报告。麦可森提到,在1987—1990年间,针对61400位妇女,记录她们的饮食习惯,进行了长达20年的追踪与观察。由于报告是知名教授所做的研究,所以他的结果应有相当的可信度。他说,若妇女一天饮用3杯(约共680cc)以上的牛奶,则死亡率比每天喝不到一杯的人高出1倍,而且还会增加骨折的现象。虽然他也对男性做了类似的研究,但观察的时间没有那么长。
根据麦可森的说法,牛奶似乎变成了毒品了。有些专家认为可能是病人已经骨质疏松,再将死因归咎于每天大量摄取牛奶。这样的因果关系完全颠倒了,因为骨质疏松的人易骨折,容易导致死亡。然而,鼓励受测者多喝牛奶,因而导致骨折,这与死亡率增加的“关联性”却很明显。因此,多喝牛奶,是否容易骨折,是否会导致死亡率增加,这才是应该关注的课题,而非该研究的结论。
4.2 身体检测方面
20世纪60年代末期,美国医生对背痛病人尚无治疗对策。通常,要求病人回家卧床休息。这个疗法虽然简单,但却极为有效。即使不处理,还是会有90%的病人在7周内好转。到了20世纪80年代末,磁振照影问世后,情况改变了。磁振照影让医生首度能够透视人体,将脊椎和周边软组织的影像看得一清二楚,使得医生相信可以做出精确的诊断,找出造成疼痛的病因。然而,当看清每一个细节后,反而让医生们很难了解应该要注意什么,一时很难分辨出何者较为重要,何者较不相干。
由于磁振造影技术能够让检视每一个细小组织的缺陷,结果反而成为包袱,因为缺陷正是一种老化过程。信息太多的危险,会干扰医生合理的分析。相关性与因果性搅和在一起,反而会使人们困扰、迷失。因为照片展现的很有说服力,所以就会延伸出合理的结论。医生想帮疼痛找出一个解释,以便厘清生理结构上的病因,再施行手术来修补。倘若医生过于重视磁振造影的信息,则一时将很难摆脱数据应该多多益善的迷恋。
上述两个例子,主要在强调相关性的重要,它不可提供进一步研究的方向。健康是大家关切的,虽然学者或医生拥有令人崇敬的威严,但是他们若没有深入地探讨相关性,则很有可能会做出不负责任或错误的决策。
5 结束语
处于讲究速度及崇尚IT推陈出新的消费年代,消费者随时可享有免费的粉丝团或感同身受的体验环境。若讲求尊重消费者主权,则每个人均有选择的自由。然而,人们过于习惯接受快速信息的刺激,大脑根本来不及消化,也会一时理不出头绪,最终只好随波逐流。
认识大数据,已不只是兴趣,而是一项不可缺少的技能。生活不只是生存,什么知识都要会一点,它是召唤记忆的炼金术。大数据的神秘性,希腊神话中,赫密斯带着他的双蛇双翼之杖,掌管着商业、旅游及竞技等活动。他让神、人进入梦乡、也能使沉睡者立刻苏醒,游走于天地之间。
目前,人们已经很难逃离大数据所培养的生态圈。在这样的生态圈里,人们会在有意无意间碰到切身利益与顾及道德不能两全的情形。有时候,为了切身的利益,人们可能会牺牲道德的规范,甚至陷害别人,终至道德“江河日下”。日常生活中,粗茶淡饭便可生存。然而,一旦道德规范匮乏,难免成为“率兽食人”。现今的大数据生活,正在考验人们的智慧,如何有效地掌握道德规范。
[1] 颜琼玉, 庄雅茜. 一次看懂大数据的威力[J]. 商业周刊,2014(1410).
[2] 沈志昌, 刘宗平. 大数据始祖——哥白尼[J]. 中华科技史学会学刊, 2014 (19):70-74.
[3] 徐葆耕. 西方文学——心灵的历史[M]. 新竹:台湾清华大学出版社, 1990.
[4] 杰容·蓝尼尔. 周宜芳, 译. 别让科技统治你[M]. 台北:天下远见出版公司,2011.
[5] 米兰·昆德拉着. 韩少功、韩刚合, 译. 生命中不能承受之轻[M]. 台北:时报文化出版公司,1990.
[6] 王伟仲. 开创科学计算的研究与职场生涯[J]. 数学传播季刊,2014, 38(2): 12-22.
[7] 黄文璋. 统计里的关系[J]. 数学传播季刊, 2007, 31(1): 49-67.
[8] 雷勒. 杨玉龄, 译. 大脑决策手册——该用脑袋的哪个部分做决策?[M]. 台北:天下远见出版公司,2010.
[9] 陈雅雯. 蛇的原型意象研究[J]. 成大宗教与文化学报,2013(20): 111-146.