APP下载

论大数据的科学特性及其决策学意义

2018-11-16王子迎高乐田

决策与信息 2018年11期
关键词:大数据

王子迎 高乐田

[摘 要] 大数据时代的到来引发了一场信息数据现代化革命,它不仅改变了人们对世界的认知,也催生了大数据科学的诞生。尤其是近年来,大数据的数学计算模型和统计分析工具的发展,为利用大数据进行知识发现和科学有效决策提供了可能性。而大数据对于决策学的作用在于,通过大数据的海量性保证了决策信息数据的充分性,而大数据的关联性研究又增强了决策的有效性,同时大数据定量分析的精准性也在逐渐改变着人类依赖直觉和经验的主观决策思维范式。因此,大数据作为新兴的决策战略资源,应在国家层面予以建设,建立以大数据为核心的决策模式,强化大数据决策科学理念;制定大数据国家发展战略,构建决策工作科學化体制机制;推进大数据决策学研究和人才培养,为决策现代化提供理论和智力支持。

[关键词] 大数据;大数据科学;大数据国家发展战略;决策学;大数据决策科学

[中图分类号] C934 [文献标识码] A [文章编号] 1002-8129(2018)11-0029-08

大数据科学是数学科学与现代信息科学技术等相结合的产物,它在社会管理、公共决策、产业升级等国家治理体系现代化建设方面发挥着巨大作用。当前,社会数据呈现出几何级数增长的发展态势,大数据科学被广泛运用于社会的各个领域和行业中,人类社会正在经历由大数据科学引发的一场现代化革命,这场革命也必将给公共决策带来深远的影响。公共决策作为国家治理体系中社会公共管理的核心环节,其决策的科学化能力和水平直接影响和决定着国家治理能力现代化的实现。充分认识大数据科学的基本特征和功能价值,科学分析大数据环境下公共决策过程面临的机遇挑战,积极探索运用大数据科学提升社会公共决策科学化水平的路径,对于实现国家治理能力现代化具有重要现实意义和价值。

一、时代之变:大数据时代已悄然来临

自数学科学诞生以来,人类就开启了用数据记录时代发展,用数据计算、分析、预测、演绎未来的历程。特别是自第二次工业革命以来,新技术、新发明层出不穷,以文字为载体的信息数据量大约每10年就翻倍增长。进入新世纪,数学科学和信息技术正以前所未有的发展方式,对经济、社会、科技领域的变革发挥着决定性的作用,各类信息数据也呈现出爆炸式发展态势,数据量以每3年翻倍的速度持续增长。尤其是近10年,随着计算数学、计算机技术和互联网的快速发展,以文字、视频、音频、图像和以数字为载体的工业生产、企业经营、社会生活等数据大量呈现,物联网、云计算、社交网络等被广泛运用于社会生产和人类生活的各行各业,数据的存储规模量、种类数、计算复杂性飞速增长。根据IBM公司和国际数据公司(International Data Corporation, IDC)提供的数据,人类每天都可以产生出2.5×1018(qui-

ntillion)的数据,预计到2020年,数据将以每2年翻一番的速度急剧增长,全球数据量将达到40ZB,中国拥有的全球数据量比例将由2012年的13%提升到21%[1]。正如美国《时代》周刊杂志所言:“在政治领域、商业领域、公共服务领域等,大数据的时代已经到来。”[2]

大数据作为知识创新和科学发现的新引擎,正在改变着人类社会的生产生活方式以及人们对世界的深层理解。大数据科学已被广泛运用于人类经济社会生产生活的各行各业,人们通过对大数据的分析,揭示和把握着国家经济结构调整、产业布局、工农业生产、公共生活、社会治理、军事活动、生命健康以及人的思想行为等方面的规律、特征和表象,为人类开展科学决策、实现科学发展提供了可能,为知识的发现尤其是跨学科研究提供了机遇和路径。世界各国高度重视大数据科学时代的到来,如美国政府把大数据看作“未来的新石油”,把对大数据的研究提升为“国家意志”,先后于1993年、2012年投资数亿美金启动“信息高速公路”计划和“大数据研究和发展”计划,致力于提高从大型复杂数据中获取信息和知识的能力,并服务于经济社会发展;2013年,美国、英国、德国、芬兰和澳大利亚5国学者联合推出“世界大数据周”活动,倡导各国政府制定大数据发展战略和措施;联合国也于同年发布《大数据促发展:挑战与机遇》白皮书,强调要运用丰富的数据资源进行前所未有的实时分析,进而帮助政府更好地适应经济社会的发展与运行;中国政府部门发布的《“十二五”国家科技计划信息技术领域2013年度备选项目征集指南》《中国云科技发展“十二五”专项规划》《物联网“十二五”发展规划》等把发展大数据作为国家战略予以重点支持;中国地方政府也借助大数据开展社会管理服务和创新,如南京市通过打造大数据云计算平台建设智能化公众服务平台,创新城市管理模式,建成了“智慧南京”;世界上越来越多的政府、企业等机构部门都意识到数据本身就是一种重要资源和资产,增强数据的计算分析能力是提升组织竞争力的核心要素之一。可以说,大数据科学开启了重大的时代转型,为国家治理现代化提供了公共决策科学化的来源和依据。

二、科学之维:大数据的科学特性

大数据时代的来临催生了数据科学的诞生。大数据科学是关于数据的科学或者研究数据的科学,是一门融合了数学、统计学、概率模型、信息与计算科学、计算机技术等多门学科的交叉科学,其核心就是对海量的数据进行挖掘分析,从中提取和发现新的知识和信息。

1. 大数据的概念。1980年著名未来学家阿尔文·托夫勒在其著作《第三次浪潮》中提出了“海量数据”这一概念,强调了数据在未来信息社会的重要作用。2008年9月出版的《自然》杂志推出了“大数据”特刊专题,随后大数据一词就成为热门词汇,高频出现于各个行业领域和政府工作报告之中。对于大数据,人们至今尚未达成统一的概念共识。在学界,美国权威研究机构Gartner将大数据定义为“需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资源”[3] 6。英国大数据研究专家维克托在其著作《大数据时代》中认为,“大数据并不是一个确切概念。最初,大数据是指需要处理的信息量过大,已经超出了一般电脑在数据处理时的内存量。大数据是人们获得新认知、创造新价值的源泉,是改变市场、组织机构及政府与公民关系的方法[4] 8”。中国学者邬贺铨院士认为,“大数据泛指巨量的数据集”。李国杰院士认为,“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合,它具有数据量大、种类多、速度快等特点[5] 17”。纵观国内外学者的观点,我们可以将大数据理解为规模特别巨大且需要用新的数据挖掘工具进行处理的数据集合,其具有重要的科技、经济、社会发展价值。

2. 大数据的本质及其科学特征。大数据的前提是数据,数据的本质也就是大数据所具有的本质。在数学中,我们可以把数据理解为x,x是作为不同于y的存在,且x和y是2个未知的、开放性的变量。由此看来,数据的含义是宽泛的,任何事物只要不是唯一的,它就可以成为另一个事物的数据或者尺度。也就是说数据本身就是为某一现象指派一种归属的数字、字符或者图像。因此,数据的本质就是可计算元素的数量的积累,其特征就是表征着事物关系,量化和解释着事物的信息变化。作为具有宏大规模和种类的大数据,其科学特征体现在5个方面:一是从数据内容来看,大数据表征着自然客观对象和过程;二是从数据特点来看,大数据的体量规模巨大,不同学科和不同领域的数据存在类型多样(如包括结构性数据、半结构性数据和非结构性数据等)、变化速率大、分析计算复杂的特点;三是从数据的来源类型和获取方式看,数据主要是信息化过程中数据设备所搜集到的网络数据、遥测数据、通信数据、GPS时间数据和位置数据、生产生活文本数据、图像音视频数据,还有通过观测、实验记录及后期加工的科学数据等;四是从数据的应用场景和分析手段看,大数据是一种高度复杂的计算性数据模型,一般与科学原理模型相结合,形成知识发现的方法,其应用场景大多为非线性复杂系统;五是从其功能价值看,大数据具有分析预测、知识发现与科学决策等功能和价值。

3. 大数据的数学计算模型和统计分析工具为其科学决策提供了可能性。大数据不同于传统小规模数据,其在搜集、存储、计算、分析数据等方面都有更高的要求。只有解决了大数据的存储、计算方法、统计分析工具等问题,大数据才能为知识发现和科学决策提供可能性。当前,在大数据存储方面,Google公司开发的NoSQL数据库、Microsoft开发的Azure Tables和VMware公司开发的Redis等已成功解决了不同格式、类型的大数据存储问题。在数据分析方面,Google公司发明了大数据分析的分布式编程模型MapReduce技术,Yahoo公司推出了开源项目Hadoop,此外还有HPCC、R语言、Storm、Apache Drill、Rapid M-

iner、Mahout等分析工具和平台。在对大数据的数学计算与统计分析方面,人们通过对总量、平均数、中位数、百分比、比率等数值以及研究一个变量与其他多个变量之间关系的回归分析,设立回归方程等数学模型,可以有效地进行数据计算;采用假设检验、主成分分析等科学方法原理通过样本(或少数变量)对总体(或多个综合变量)所提出的假设,进行验证和判断是接受还是拒绝进行数据分析;通过数学统计语言模型给出了数学计算概率P(s)的公式为:

P(s)=P(w1 w2···w3)=P(w1)·P(w2丨w1) ·P(w3丨w2)·…·P(wn丨wn-1)

这一公式有效地解决了对自然语言的處理和数据变量判断分析合理性的解释性问题。特别是拥有强大计算能力的云计算平台的出现,为快速处理大数据的丰富信息提供了技术和平台支撑。这一切都为利用大数据进行知识发现和科学有效决策提供了可能性。

三、价值之思:大数据的决策学意义

人类历来都重视对数据意义的认识和探讨。古希腊哲学家毕达哥拉斯从音乐、图形、数字的关系中提出了“数是万物的本原”的思想;中国的《周易》提出“道生一,一生二,二生三,三生万物”的思想,认为数据是世界生成的终极本质;大哲学家莱布尼茨、康德、马克思等也都曾论述过数据的重要性。在大数据时代到来的今天,数据的意义更是得到了科学家、哲学家们的高度重视,他们大多认为数据全面刻画和反映着世界的真实状态,数据本身就可以帮助我们分析和认识现象。英国大数据权威学者维克托·舍恩伯格甚至认为:“世界万物皆由数据构成,数据是世界的本质。”[4] 125更有人文学者一改人文思辨的路子,提出了“人文数据”的概念,认为“大数据可以用来测量和描述复杂的人类思想”,事实也是如此,如今人类已经将大数据广泛运用于与人的思想行为相关的教育学、医学、心理学等众多领域。由此看来,大数据是真实世界的记录载体,事物的状态尽在数据之中。大数据既然有表征事物本质和事物关系的功能,那么对人类而言,人们不仅希望通过大数据来认识生活世界,更希望通过对大数据的把握和挖掘分析使未来世界透明化,进而通过决策来科学地改造世界。从这个意义上看,大数据的最大价值和意义就在于其决策学价值和意义。大数据对于决策学的意义和价值体现在以下方面:

1. 大数据的海量性存在保证了决策信息数据的充分性。大数据以其巨大的数据规模和多样的数据类型使得决策所需信息的充分获取成为可能。大数据用于决策的一个显著优势就是可以提供海量的数据样本。人们可以通过物联网、互联网、传感器设备、移动通信终端等获取所需决策的对象及其关联事物的信息数据,进而建立起庞大的数据库,以镜像形式对其进行数字化处理,并在计算机构建的虚拟社会场景中呈现事物的真实状态,演绎其发展变化趋势,为决策者提供决策依据。海量的事物及其关联信息的数字镜像化可以为决策者提供充分的决策信息,这在传统思维下是无法想象的。尽管大数据也无法穷尽事物关联的全部信息,因为事物在不断发展变化,有了大数据也不一定能做出科学有效决策,但这也并不能否认决策信息获取的充分性是科学决策的前提和基础。我们可以通过渐进决策进行改进,以实现更有效的决策。

2. 大数据的关联性研究增强了决策的有效性。大数据出现之前,人们对数据的分析大多采取因果关系方法,遇到的最大困难就是对关联性信息数据强的事物在出现复杂信息数据时进行计算分析和处理的问题,因为传统的分析工具根本无法应对数据规模的巨大性、数据关系的丰富性、数据结构的多样性和数据计算的复杂性。大数据更多的是采用计算模型运行简单算法,重点关注与结果相关联的影响因素,而不太注重对因果关系的探究。决策者只需要对某些因素变量进行分组所导致的结果性差异予以重点关注,通过干预某些因素变量组去衡量干预效果,以此来进行辅助决策。由此可见,大数据辅助决策是根据关联性研究进行的,更有利于找到影响事物发展变化的主要因素,它克服了传统决策通过小样本因果关系分析难以找到影响事物发展变化主要因素的缺陷,使得决策更具有效性和针对性。

3. 大数据定量分析的精准性改变了人类依赖直觉和经验的主观决策思维范式。大数据带来了决策思维范式从依赖直觉、经验的主观定性决策到精准的数据分析的客观定量决策的重要变革。由于大数据反映着事物生成的本质,表征着事物的关系,并且每一个数据都是真实存在的,数据的计算依赖拥有科学原理的计算模型,因此其结果必然是精准精确的。数据的这种客观真实存在性和精确性决定了人们在应用大数据进行决策时,关注相关性,关注事物是什么,而不需要知道为什么,只需要看数据呈现的结果就可以直接做出判断和决策。这颠覆了人类依赖直觉和经验的传统决策思维范式,使得凭借直觉、经验的定性决策让位于精准的数据分析定量决策,这也对人类认知世界和改造世界提出了挑战。此外,在传统的决策思维模式中,决策的主体大多是政治精英、业务专家、科学家,而在大数据时代,大数据及其计算模型、分析工具都是共享的,普通民众也可以是决策的参与主体,这不仅有利于发挥人民大众参与决策的积极性和创造性,也有利于推动决策向更全面、多元化的方向演进。

4. 大数据的高速性提高了决策的及时性。决策的及时性是决策发挥作用的必要条件,它直接影响决策的效果。大数据以其高速性特点满足了决策的及时性需要。大数据的高速性体现在3个方面:一是大数据产生的速度快,人类每天每时每刻的生产生命活动都会产生PB级别的大量数据,且这些数据都是动态发展变化的。二是大数据获取速度快。人们借助物联网、互联网、移动通信终端、传感器设备以及遥测遥感监测技术、计算机信息技术等,可以适时采集、抓取和搜集到决策所需的信息数据并进行聚类分组。三是大数据计算分析速度快。在传统数据计算分析的过程中,人们大多采用分类聚类算法,然而聚类算法不是数曲线式(N log N)或线性(顺序 N)的规模,而是典型的N立方规模,但在大数据中,当 N 变得很大时,一些传统方法就会失效[6]。因此,在面对海量的大数据处理时,云算法以及数据统计模型工具以其良好的伸缩性,能够在很短时间内应对PB级别的大数据,可以快速提供虚拟场景模拟并演绎出决策方案的效果,以便于人们适时优化决策方案,及时做出科学有效的决策。

四、变革之道:大数据背景下决策科学现代化建设路径

大数据作为一种新兴的决策战略资源,给国家治理能力建设带来了全新的机遇和挑战。利用大数据创新政府公共决策已经成为世界各国政府改革发展创新的重要内容。当前,随着依法治国和国家治理能力现代化建设进程的加快推进,提高决策科学化现代化水平,就必须推进大数据科学与决策科学的融合发展。大数据在变革决策思维理念、革新决策手段方式、优化决策过程和效果等方面有着广泛的应用前景,也为决策科学化水平和决策现代化建设提供了路径。

1. 建立以大数据为核心的决策模式,强化大数据决策科学理念。理念是行动的先导,如果决策理念和决策模式跟不上大数据时代发展的形势,决策的过程和决策实际效果就会出现偏差。大数据对于决策的价值主要体现在决策过程中的事前预测、事中感知、事后反馈三个方面。以大数据为核心的决策模式,重点在于将大数据搜集处理、信息挖掘转化应用到决策的过程和决策的实际效果之中。因此,在大数据时代,政府要通过政策引导和知识理论学习,以大数据为契机使决策者牢固树立大数据决策思维方式,形成以大数据融入国家、地方治理决策的科学导向,切实遵循大数据科学决策规律,不断增强大数据思維意识,优化政府决策的思路和方式,强化对大数据的决策运用实践,将以往基于有限数据分析决策转为覆盖人数更多、范围更广、领域更宽、类型更多的大数据分析,着力创新大数据参与决策的工作流程,引导和鼓励地方社会多元主体共同参与并形成大数据决策应用的合力,从而以大数据决策科学理念和思维方式强化决策能力建设,推进决策科学化和决策体系现代化建设。

2. 制定大数据国家发展战略,构建决策工作科学化体制机制。当前大数据的蓬勃发展浪潮席卷世界,渗透到各个行业和领域,成为最重要的决策资源和改革发展创新的动力源。只有将大数据上升至国家发展战略,才能形成大数据决策科学发展应用的制度环境,构建起大数据决策工作体制机制,提升科学决策能力和水平。一是要制定推出大数据国家发展战略计划和项目,全面规划好大数据的建设、管理和应用工作,形成大数据决策的政策导向和激励制度;二是要建立大数据创新平台和大数据共享机制,统一数据格式和数据标准,打破信息孤岛现象、数据碎片化现象和数据条块分割的现状,整合政府、社会、企业多元资源,建立国家级大数据库、数据分析工具资源库和大数据决策方案仿真模拟场景中心等,确保大数据的规模、质量、综合性和决策实践运用的针对性与效果。三是加强大数据相关法律法规建设,建立数据安全保卫机制,明确数据共享、使用责任主体,设立数据搜集和使用规范,推动数据使用的交流融合,防止数据资源浪费、数据泄密及流失现象的发生。

3. 推进大数据决策学研究和人才培养,为决策现代化提供理论和智力支持。大数据决策学是一门交叉科学,它是研究大数据在决策过程中搜集分析、转化应用和形成决策的科学。将大数据转化为知识,将知识应用于决策实践,这是大数据决策科学的逻辑和使命。加强大数据决策科学研究,就要以多学科理论为支撑,运用数学计算科学、统计学原理方法、计算机语言程序设计、多媒体信息技术以及经济学、社会学、管理学、心理学等学科理论知识和工具模型,解释大数据的信息,梳理出大数据所表征的事物动态关系,建立起数据模型,提供科学方法指导,通过虚拟场景模拟演绎决策方案的实际效果,形成可视化、科学化的有效决策方案,为决策科学现代化建设提供理论支撑。同时,要以大数据科学理论为基础,积极强化大数据相关专业人才培养力度,推进校企、政企合作教育培训,着力建设一支有较大规模数量的大数据科学家、大数据分析师、大数据关系架构师、大数据模型设计师、大数据计算工程师等专门人才队伍,为决策科学现代化建设提供人才智力支持。推进大数据决策学研究和人才培养工作,必将开辟决策科学现代化建设的新篇章。

[参考文献]

[1]Gantz J, Reinsel D. The Digital Universe IN 2020: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East.Framingha-

m:IDC Analyze the Future,2012.

[2]张才明.大数据颠覆传统决策模式[J].中国经贸,2013,(6).

[3]Michael Wessler. Big Data Analytics For Dummies[M].New Jersey: John Wiley & Sons, Inc,2013.

[4]维克托·迈尔·舍恩伯格,肯尼思·库克耶.大数据时代[M].盛杨燕,周 涛,等,译.杭州:浙江人民出版社,2013.

[5]李国杰.大数据成为信息科技新关注点[J].硅谷,2012,(13).

[6]Tony Hey,Stewart Tansley,Kristin Tolle.第四范式:数据密集型科学发现[M].潘教峰,张晓林,等,译.北京:科学出版社,2012.

[责任编辑:汪智力]

猜你喜欢

大数据
基于在线教育的大数据研究
“互联网+”农产品物流业的大数据策略研究
大数据时代新闻的新变化探究
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索