APP下载

回眸大数据

2017-05-12王国强吴秋月

张江科技评论 2017年2期

■文 /王国强 杜 影 吴秋月

王国强,中国科协创新战略研究院研究员。

杜影,吴秋月,中国科协创新战略研究院研究助理。

大数据革命的历史是人类认知世界、改造世界的一个缩影。

在2011年麦肯锡公司发布《大数据:下一个创新、竞争和生产力的前沿》研究报告、高德纳公司发布《2011年度新兴技术成熟度曲线》研究报告之后,经2012年英国牛津大学教授维克托·迈尔-舍恩伯格(Viktor Mayer-Schönberger)所著《大数据时代:生活、工作与思维的大变革》一书的宣传推广,大数据概念(Big Data)迅速风靡全球,一夜之间“火”了起来,成为科研机构、高校、企业、政府部门等各界的“新宠”,但其中也不乏质疑的声音。

近年来,随着大数据技术的成熟,大数据产业已经升级为国家战略。当前,德国“工业4.0”、美国“创新战略”、英国“农业技术战略”、日本“复兴战略”、韩国“智慧首尔2015”以及我国《“十三五”规划》都把开发运用大数据作为夺取新一轮竞争制高点的重要抓手,大数据时代已真正来临。回眸大数据的形成与发展,我们可以看到,大数据革命的历史同样是人类认知世界、改造世界的一个缩影。

大数据概念的前世今生

任何概念都是人类长期认知活动的结晶。大数据作为一个术语的历史虽然短暂,但是大数据概念的形成与发展却源远流长。顾名思义,大数据本质上还是数据。要理解大数据概念,就要知道什么是数据。所谓数据,简单地讲,就是用符号化的方式表达和记录信息,而语言、文字、数字和数学符号则是这种信息表达方式最早、最重要的形式,其中数与数据的关系最为密切。

信息从直觉表达开始到抽象表达体系的形成是一个漫长的过程。从语言的出现到文字的形成,历经3万多年,才搭建起人类认识现实世界和自身存在的“信息”框架。人类语言系统的发展,特别是文字书写系统的诞生,大大提高了人类的认知能力,有效记录了不同时期人类之间相互交流、交际的信息,形成了当今庞大的人类认知的知识集合——人类的文化世界。

同样,从人类的原始计数方法的产生到数字符号的出现,再到现代数学符号体系的形成,也经历了一个漫长的过程。计数是人类对数的认识的第一次抽象,在人类的蒙昧时期,中国古人有“结绳记事”和“刻痕记数”。在公元前8000年至公元前3500年间,两河流域有苏美尔人的计数泥板。在人类漫长的生产劳动和生活实践中,由于“有无”“多少”“大小”“得失”等量的表达需要,出现了数和量的概念,这是人类关于数的认识的第二次抽象。公元前四五千年,尼罗河流域的古埃及人创造了十进制象形文数字,两河流域的苏美尔人和巴比伦人创造了六十进制的巴比伦数字。二进制的发现则较晚,是近代科学的产物。18世纪初,德国著名哲学家、数学家戈特弗里德·威廉·莱布尼茨(Gottfried Wilhelm Leibniz)发现了用“0”和“1”两个数字表示的二进制数制运算规律。1854年,英国数学家乔治·布尔(George Boole)借鉴了二进制的运算规则,把形式逻辑转化为一种代数运算,建立了布尔代数,为第三次科技革命重要标志之一的计算机的发明与应用奠定了理论基础。

随着计算机应用的不断发展,各种各样的信息都可以用“0”和“1”表示,从而把信息变成了一种可以存储、复制、运算、判断的数字化信息,这就是现代意义上的数据概念。在计算机普遍使用的今天,数以及可以转换成数字的图形、表格、文字都是数据的组成部分。数据概念不再仅仅用于表征事物的特定属性,更为重要的是它已成为推演事物运动、变化规律的重要依据和基础。

大数据概念发展史

1944年

美国卫斯理大学藏书楼管理员弗莱蒙特·雷德(Fremont Rider)预测,图书馆的藏书量将超出人们的管理能力。

1964年

哈 里·格 雷(Harry Gray)和亨利·拉斯顿(Henry Ruston)在《电子计算机学报》上发表文章表达了对知识快速增长的担忧。

1975年

1975年,日本邮电部实施“信息流普查”计划,调查报告预言了“碎片化信息时代”的到来。

大数据概念是人们在对数据的规模、结构、速度不断变化的认识过程中形成的。随着人类行为的日趋复杂而规模不断扩张,人们一直坐拥不断增长的海量信息,同时也面临信息保存处理难的社会问题。1944年,美国卫斯理大学藏书楼管理员弗莱蒙特·雷德(Fremont Rider)认为,美国高校藏书楼的规模每16年就会翻一番,图书的数量将超出人们的管理能力。1961年,科学计量学奠基人普赖斯(Derek John de Solla Price)通过研究科技期刊和论文得出,新期刊的数量将以指数形式增长而不是以线性形式增长,每15年翻一番,每50年以10的指数倍进行增长。1964年,哈里·格雷(Harry Gray)和亨利·拉斯顿(Henry Ruston)在美国电气与电子工程师协会(IEEE)杂志《电子计算机学报》上发表文章表达了对知识快速增长的担忧,并建议:“不发表或发表不超过2 500字的文章以应对信息爆炸时代的到来。”

1975年,日本邮电部实施“信息流普查”计划,其后的调查报告指出,社会正在进入一个新阶段,在这一阶段,处于优势地位的是那些能够满足个人需求的碎片性的、更为详细的信息,而不再是那些传统的被大量复制的、一致性的信息。报告预言了“碎片化信息时代”的到来。1980年,美国社会思想家阿尔文·托夫勒(Alvin Toffler)在《第三次浪潮》中前瞻性地指出,20世纪80年代计算机数据处理能力的大幅度提升将给人类社会带来革命性的影响,并预言说:“如果说IBM公司的主机拉开了信息化革命的大幕,那么‘大数据’才是第三次浪潮的华彩乐章。”1997年,美国国家航空航天局的研究人员迈克尔·科克斯(Michael Cox)和戴维·埃尔斯沃思(David Ellsworth)首次在论文中正式提出大数据概念及其存储所带来的被称之为“大数据问题”的问题,标志着大数据概念初步形成。

2001年,高德纳公司分析师道格拉斯·兰尼(Douglas Laney)把大数据的特征概括为3个“V”:Volume(数据体量大)、Velocity(高速处理速度快)、Variety(数据类型繁多),进一步揭示了大数据多样性、多变性的数据特征。2008年,《自然》(Nature)杂志推出了名为“大数据”的专栏,“大数据”开始成为互联网技术行业中的热门词汇。2011年,麦肯锡公司发布《大数据:下一个创新、竞争和生产力的前沿》,首次谈到大数据的采集与应用,大数据开始走出技术圈进入商业圈。2012年,舍恩伯格出版《大数据时代》一书,开大数据系统研究之先河,大数据概念开始在社会上广泛流行。

互联网、社交网络、电子商务和移动互联网的快速发展,使人类社会的数据量呈现井喷式爆发性增长。据统计,目前人类一年产生的数据相当于人类进入现代化以前产生数据的总和。特别是社交媒体的出现,使这种快餐式碎片化海量信息“数据丰富而信息贫乏”的问题更加突显。据中国互联网络信息中心的数据显示,2016年下半年用社交媒体获取新闻资讯的用户比例高达90.7%,微信、微博参与新闻评论的比例分别为62.8%和50.2%,朋友圈、微信公众号转发新闻的比例分别为43.2%和29.2%。2013年,IBM公司在白皮书《分析:大数据在现实世界中的应用》解析说明会上提出大数据“4V”理论 :即Volume(数据体量大)、Velocity(高速处理速度快)、Variety(数据类型繁多)、Value(价值密度低)。大数据概念最终取代了数据概念,形成了当前意义上的数据概念,即所涉及的数据量规模巨大到无法通过人工,在合理时间内获取、管理、处理并整理成为人类所能解读的信息。

1980年

美国社会思想家阿尔文·托 夫 勒(Alvin Toffler)在《第三次浪潮》中指出,大数据是第三次浪潮的华彩乐章。

1997年

美国国家航空航天局的研究人员正式提出大数据概念及其存储所带来的被称之为“大数据问题”的问题,标志着大数据概念初步形成。

2001年

高德纳公司分析师道格拉 斯·兰 尼(Douglas Laney)把大数据的特征概括为3个“V”,揭示了大数据多样性多变性的数据特征。

大数据技术的发展历程

社会的需求永远是技术发展的动力,大数据技术也是如此。所谓大数据技术,就是处理“海量数据”的技术。它是在人们不断解决“数字化信息问题”“海量信息问题”“非结构海量信息问题”等社会需求中逐渐产生发展起来的,大体上可分为3个阶段:大数据技术前期、大数据技术形成期和大数据技术突破期。

计算机的发明与应用要求人们把事物信息转化为可计算、可度量、数字化的数据。从20世纪50年代到90年代初,随着1946年第一台数字电子计算机ENIAC的诞生和发展,人们开始普遍使用二进制中“0”和“1”两个数字来表达信息,采用电子线路来执行算数运算、逻辑运算和储存信息。大量用“0”或“1”代表的信号反过来又产生庞大快速的数据流,由此导致了涉及数字的转换、存取、处理、控制等一系列高技术的发展,如微电子技术、光电传输技术、数字压缩和编码技术、多媒体数据库技术等。1971年,英特尔公司生产出了世界上第一个微处理器芯片4004,人类第一次将高智能赋予无生命的设备,这是人工智能和计算处理历史上的重要转折点。它的诞生使微处理器打破了由大型中央处理器一统天下的局面,从而将计算机带到办公室的桌子上。微处理器的发明发展,使得数字转化的速度、效率和范围大大提高,让计算机技术应用无处不在。20世纪70年代中期,曾有人对计算机的各种应用做过统计,列出了6 000多种应用,在这些应用中,直接对人类产生最大影响的就是数据库技术的应用。数据库技术是数据处理和信息管理系统的核心技术,主要通过研究数据库的结构、存储、设计、管理以及应用的基本理论方法,来实现对数据库数据进行处理、分析和理解的技术。其中,数据模型是数据库系统的核心和基础。计算机技术、数字化技术、数据库技术等共同构建了大数据的技术基础。

海量信息的处理使数据挖掘理论与技术不断发展。从20世纪90年代至21世纪初,随着信息数字化能力和数据库技术的不断发展,人们开始思考如何解决大数据的“数据丰富而信息贫乏”的问题,于是数据挖掘技术应运而生。1989年8月,在美国底特律召开的第11届国际联合人工智能学术会议上,数据挖掘 (Data Mining,也称Knowledge Discovery in Database,简称KDD)概念被正式提出。从1995年开始,一年一度的KDD国际学术会议让“数据挖掘”一词逐渐在学术圈流行。数据挖掘指的是从数据库的大量数据中揭示出隐含的、先前未知的、潜在有用信息的过程。主要的技术方法有面向数据库或数据仓库的技术、机器学习、统计学、可视化、模式识别、神经网络、模糊集、粗糙集、遗传算法、决策树、最近邻技术等。复杂的数据挖掘系统通常采用多种数据挖掘技术。随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。此时,人们对大数据技术研究主要集中在“算法”(Algorithms)、“模型”(Model)、“模式”(Patterns)、“识别”(Identification)等问题上,大数据技术开始形成并不断发展,人类处理海量信息的能力得到大幅度提升。

2008年

“大数据”开始成为互联网技术行业中的热门词汇。

2011年

麦肯锡公司发布《大数据:下一个创新、竞争和生产力的前沿》,大数据开始走出技术圈进入商业圈。

2013年

IBM公司在白皮书《分析:大数据在现实世界中的应用》解析说明会上提出大数据“4V”理论。大数据概念最终取代了数据概念,形成了当前意义上的数据概念。

非结构海量数据的迫切需求让大数据技术取得突破。随着计算机、互联网和数字媒体进一步普及,以文本、图形、图像、音频、视频等非结构化数据为主的信息急剧增加,特别是以2004年Facebook创立为标志的社交网络的流行,直接导致了大量非结构化数据的涌现,使得传统的处理数据和海量数据的数据库技术难以应对。如何存储、查询、分析、挖掘和利用这些非结构化数据信息成为社会的又一个重大难题。为应对这一挑战,人们开始对数据处理系统和数据库架构进行重新审视,这就出现了各种非结构化数据处理技术,如基于NoSQL的非结构化数据管理系统、网络代价估算、多种支持模式演化等。2009年,谷歌公司软件工程师杰夫·迪恩(Jeff Dean)在BigTable基础上开发了全球首个分布式数据库Spanner,标志着“云计算”(Cloud Computing)、“大规模数据集并行运算算法”(MapReduce)、“开源分布式系统基础架构”(Hadoop)等大数据前沿技术理论开始走向成熟,并行运算与分布式系统成为当前大数据处理的主要技术方法并得到广泛应用。

大数据产业发展现状

2011年,麦肯锡公司发布的《大数据:创新、竞争和生产力的下一个前沿领域》研究报告,让“大数据”走进商业应用领域。2012年1月,瑞士达沃斯世界经济论坛发布《大数据,大影响》大会报告,让“数据就像货币或黄金一样是新的经济资产类别”成为产业界的共识。2015年,全球大数据产业市场规模为1 403亿美元,我国大数据产业市场规模为1 692亿元人民币,预计到2020年,全球大数据市场规模将超过10 270亿美元,我国大数据市场规模将接近13 626亿元人民币。

美国是世界上第一个发展大数据产业的国家,也是世界各国大数据产业的领头羊。2012年3月,美国奥巴马政府发布“大数据研究和发展倡议”,宣布将投资2亿多美元以拉动大数据产业的发展,正式将大数据发展战略从商业行为上升到国家战略,标志着大数据已成为当今时代的重要特征。2012年4月19日,美国软件公司Splunk成功上市,成为第一家上市的大数据处理公司,这一年被美国IT行业称为大数据元年。在美国政府的推动下,EMC、IBM、惠普、微软、甲骨文等IT老牌巨头积极通过并购实现技术整合,推出大数据相关产品和服务,Splunk、Clustrix、Junar、DataSift等一大批大数据新兴企业也开始出现,形成了美国政府、企业、科研院校和非营利机构等利益相关、系统共进的产业发展局面。

受美国影响,世界发达国家纷纷制定大数据发展战略,英国有《数据能力发展战略规划》、日本有《创建最尖端IT国家宣言》、韩国有《大数据中心战略》,欧盟有《数据价值链战略计划》。2012年7月,联合国发布的《大数据促发展:挑战与机遇》政务白皮书指出,大数据对联合国和各国政府来说是一个历史性的机遇,世界各国对大数据产业的关注达到了前所未有的程度。高德纳公司数据显示,2014年全球数据中心系统支出达1 430亿美元,比2013年增长2.3%。大数据对全球IT开支的直接或间接推动达2 320亿美元,预计到2018年这一数据将增长3倍。美国国际数据集团(IDG)调查显示,世界各国70%的大企业和56%的中小企业已经部署或者正在计划部署与大数据有关的项目和计划。

中国和美国几乎在同一时期关注大数据产业。2008年,秦皇岛开发区确定把大数据产业作为龙头产业,提出建设“中国数谷”的目标,在国内率先提出大数据产业概念。从2011年底到2012年上半年,国金证券计算机研究团队陆续推出3篇关于大数据的系列分析报告,首次在中国资本市场系统全面地阐述了大数据潜在的巨大社会意义和经济意义,开资本市场大数据之先河。2012年,首届数据科学与信息产业大会召开,标志着我国学术界、产业界和资产市场达成了共识,共同推进大数据的发展和落地。2013年,宽带资本、用友软件、云基地、百度在线、阿里巴巴等与大数据密切相关的企业共同发起成立“中关村大数据产业联盟”,标志着我国大数据行业系统推进局面初步形成。

从2014年开始,我国大数据产业发展进入了快速推进期,呈现出3个特点。一是市场规模增速不断加快。易观国际数据显示,我国大数据市场规模达到75.7亿元,同比增长28.4%,但与全球53.2%的增速仍有不小的差距。二是国外大数据企业进入国内市场的数量增多,除IBM、微软、谷歌、甲骨文、亚马逊等已经在中国市场站稳脚跟的传统企外,Teradata、Splunk、Cloudera、Tableau、Hortonworks、10Gen等大数据企业也纷纷入驻。三是大数据产业政策逐渐推升为国家战略。2015年,我国将软件及大数据产业写入“十三五”规划,并印发《促进大数据发展行动纲要》。2016年,我国颁布了《大数据产业发展规划(2016—2020年)》。2015年,国内大数据产业高速发展,市场规模已达1 105.6亿元,较2014年增长44.15%。其中,大数据基础设施建设、大数据软件和大数据应用分别占比64.53%、25.47%和10%。2016年,环境保护部、国务院办公厅、国土资源部、国家林业局、煤矿与煤炭城市发展工作委员会、交通运输部、农业部均推出大数据发展意见和方案,地方政府也纷纷出台有关大数据产业发展的战略,国内大数据产业政策从全面、总体规划逐渐朝各大产业、各细分领域不断延伸,标志着中国大数据产业政策已开始逐步落地。

当前,随着大数据技术被广泛应用到医疗卫生、食品安全、终身教育、智慧交通、公共安全、科技服务等各个领域,大数据产业进入到蓬勃发展的全新时期。但是,大数据产业发展仍然面临技术上的系统性和政策上的协同性等问题。

大数据火热背后的不同声音

“大数据”无疑是最受当今社会各界关注的时髦词汇之一,但人们对大数据的关注点并不相同。根据高德纳公司的新兴技术成熟度曲线研究报告,2015年和2016年大数据已连续两年没有出现在该曲线上,这说明大数据技术已脱离概念炒作进入应用阶段。根据媒体对大数据报道的内容,从技术社会学的视角看,人们对大数据的反思也从对技术不确定性的担心上升到技术的伦理价值判断。

大数据有误导结果的可能。大数据时代,“让数据说话”的盛行使更多的社会空间被量化,定量科学和客观方法的地位在一定程度上模糊了主观与客观之间的界限。美国微软研究院首席研究员克凯特·克劳福德(Kate Crawford)在其《对大数据的再思考》文章中认为:“数字无法自己说话。不论其规模有多大,数据集归根到底是人类设计的产物,而大数据的工具并不能使人们摆脱曲解、隔阂和错误的成见。”也就是说,大数据存在着偏见与盲区,“先天不足”。因此,一部分人认为,不仅某些数据并非中性,而且大数据测量对象的测量设计决策也源于设计者的主观诠释,大数据并不能完全准确地推出客观规律,被神化的大数据极有可能误导结果。

大数据不一定是好数据。互联网和各种社交媒体每时每刻都提供巨量的数据,这些数据掺杂着大量冗余的、混乱的、虚假的甚至是有害的内容,数据对象的价值密度被不断降低。但是,大数据倡导者仍努力从不确定中寻找确定性的结论,热情地拥抱着这种“混乱”。百度公司董事长兼首席执行官李彦宏在百度联盟大会上就曾表示:“现在每天产生大量数据,但很多是没有价值的数据,没有显示出足够的威力。”数据分析不可能不经过筛选而维持其完全原始的状态,这些数据尽管已经覆盖了数以百万计的用户群体,但依然有其局限性,真正需要的数据可能被更多混乱的海量“大”数据所掩盖和淹没。诸如此类的“魏则西事件”加剧了人们对数据“真伪”的担心,著名导演尤小刚在谈到利用大数据进行创作时就提醒说:“如果仅仅把浮于表面上的炒作结果放进去,很可能对文化建设造成某些破坏和误导。”

被剥离语境的大数据将毫无意义。数据在经过筛选简化套入模型时,其语境常常难以评估和保留。过去的社会学家和人类学家是通过问卷调查、访谈、观察以及对照实验来搜集关于人类关系的数据,并用这些数据来描述人类的“个人关系网络”。社交网站兴起后,大量研究者则常常是通过社交媒体去收集分析用户信息,借此描述人们的社交关系。尽管社交网络大数据是建立在联系的紧密度上,但联系的紧密度不等同于关系的紧密度,两个没联系的人也不一定没关系,两个有关系的人也不一定有联系。舍恩伯格在《大数据时代》一书中就讲到,只有能够想象并重建人们行为的发生语境,你所观察到的行为才有意义,缺乏对行为语境的了解,就不可能推出任何因果关系,也无法理解人们的行为原因。大数据面临处理语境问题的挑战。

大数据造成新的“数字鸿沟”。大数据时代,来自硬件的数字鸿沟在缩小,而来自软件的数字鸿沟在扩大。一是拥有数据的差别。例如,一些数据免费使用,一些数据有偿使用,还有一些数据严禁流出,这就导致了数据获取的差别;一些数据资源丰富且使用权限较大,而另一些却很少有机会拿到“数据通行证”,这就造成了数据储备使用的差别。二是公众利用数据的能力不同。在大数据时代,非结构化数据往往占有很大的比例,同样,拥有数据并不代表着能够利用数据。世界经济论坛发布的《2015年全球信息技术报告》指出,各国之间的数字鸿沟正在扩大。在技术大步前进时,这个问题更加令人担忧。欠发达国家有可能会更加落后,必须尽快采取具体行动,应对这样的局面。

大数据存在隐私安全的伦理问题。技术进步不可避免会带来一些社会问题,大数据也不例外。大数据分析不仅面临传统的物理安全、网络安全、数据安全等问题,还面临新的隐私保护和信任安全问题。360公司董事长周鸿祎说过:“大数据时代可以不断采集数据,当看起来是碎片的数据汇总起来,每个人就变成了透明人。每个人在干什么、想什么,云端全部都知道。”大数据让我们时刻暴露在“第三只眼”之下。京东商城、天猫商城在时刻监视着我们的购物习惯,谷歌公司、360公司在监视着我们的网页浏览习惯,微信、QQ在监视着我们的社交关系,我们无时无刻不在被监视、被数据化。尽管许多大数据的提供者尽力消除数据中的个人信息,但身份重新被确认的风险仍然很大,不法分子仍可以从大量的公共数据集中推断出个人信息并进行售卖。