大数据经济学的概念、框架与学科定位研究
2015-01-01俞立平
俞立平
(宁波大学 商学院,浙江 宁波315211)
一、引 言
著名未来学家阿尔文·托夫勒在《第三次浪潮》中,将大数据热情地赞誉为“第三次浪潮的华彩乐章”[1]7-23。虽然大数据概念提出的时间已逾30年,但大数据成为高频词是最近两三年的事情,根本原因是互联网、社交网络、物联网、云计算的兴起。2011年5月,麦肯锡发布了《大数据:创新、竞争和生产力的下一个前沿领域》报告,指出“数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素,而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来”。一般认为,该报告的发表标志着“大数据”时代的到来。2012年《世界经济论坛》发布了《大数据、大影响》的报告,从金融服务、健康、教育、农业、医疗等多个领域阐述了大数据给世界经济、社会发展带来的机会。
据国际数据公司IDC的报告,2011年全球创建和复制的数据总量已达1.8ZB(1ZB=1024EB,1EB=1024PB,1PB=1024TB,1TB=1024GB),预计到2020年,将增至35ZB,大数据有按指数爆炸式增长的趋势。在国家ICT产业(信息通讯产业)层面,目前美国ICT企业是大数据发展的主力军,EMC、IBM、微软、Oracle、SAP等传统IT巨头2012年度对大数据的投资达到4万亿美元。2013年2月1日,IBM宣布在2015年前拟支出145亿美元进行收购的计划,通过收购成熟公司来完成对大数据产业链的控制,完成向大数据业务转型。2013年4月10日,英特尔正式发布了其专为大数据存储、管理、处理和查询等应用而开发和优化的Apache Hadoop发行版软件的最新版本,推动大数据应用落地。
大数据已经渗透到许多微观经济应用领域。华尔街德温特资本市场公司分析3.4亿微博账户留言,判断民众情绪,依据人们高兴时买股票、焦虑时抛售股票的规律,决定公司股票的买入或卖出,2012年第一季度的收益率为7%。淘宝网站每天有超过数千万笔交易,单日数据产生量超过50TB,存储量40PB。百度公司目前数据总量接近1 000PB,存储网页数量接近1万亿页,每天大约要处理60亿次搜索请求,几十PB数据[2]。阿里公司根据在淘宝网上中小企业的交易状况筛选出财务健康和讲究诚信的企业,对他们发放无需担保的贷款。目前已放贷300多亿元,坏账率仅0.3%。
在宏观经济应用领域,IBM日本公司建立经济指标预测系统,从互联网新闻中搜索影响制造业的480项经济数据,计算采购经理人指数的预测值,仅用6小时就得出结果,并且和专业的采购人指数分析师们计算的结果基本一致。印第安纳大学利用谷歌公司提供的心情分析工具,从近千万条网民留言中归纳出六种心情,进而对道琼斯工业指数的变化进行预测,准确率达到87%。目前中国的大型商业银行和保险公司的数据量已经达到100TB以上级别,并且非结构化数据量在迅速增长。
在这样的背景下,分析大数据对传统经济学带来的冲击,及早应对大数据带来的挑战,力求对大数据背景下的经济学理论与方法进行深入的思考,不仅对经济学自身的发展具有十分重要的意义,而且有助于提高经济学应用于经济、社会的宽度与深度。
关于大数据在经济领域的应用研究,Bryant等认为,大数据真正重要的是其新用途和带来的新见解,而非数据本身[2]。邬贺铨认为,大数据应用领域涉及宏观经济、农业、医疗保健、科学研究等领域,必须应对大数据带来的挑战与机遇[3]。陈明奇认为,从整体上来看,中国明确大数据战略的地区和部门还是太少,更多是学术界、产业界的研讨和呼吁,国家层面大数据战略尚未进入议事日程[4]。国际数据公司IDC认为,大数据将引发金融行业的重要变革,中国金融行业应首先在战略层面对大数据进行规划,积极应对大数据时代的挑战,推进并建立数据驱动型发展方式[5]。程立国等分析了大数据对金融业市场营销、客户服务、风险防范、网点布局的影响[6]。郑承满研究了大数据对银行IT架构的挑战、数据整合的挑战、对大数据技术掌握的挑战[7]。冯芷艳等从商务管理在大数据背景下所面临的时代挑战出发,给出了社会化的价值创造、网络化的企业运作、实时化的市场洞察三个重要研究视角[8]。
关于大数据与经济学关系的理论层面,斯坦福大学教授Anand Rajaraman意识到大数据在经济学领域的应用,发明了一个新词Econinformatics,指将计算机科学和信息技术应用于经济学领域,特别指应用于大数据技术进行经济分析,强调技术层面。俞立平首次提出“大数据经济学”,认为大数据经济学是在经济学研究和应用中采用大数据并且采用大数据思想对传统经济学进行深化的新兴交叉学科[9]。维克托认为,大数据时代,思维方式产生三个变革:一是要总体,不要样本;二是要乐于接受数据的纷繁复杂,而不再追求精确性;三是不再探求复杂的因果关系,更加注重相关关系[10]1-23。杨华磊分析了高频数据对传统经济学研究范式的冲击,出现了“非主流经济学就是致力研究异常现象的经济学”,当然高频数据与大数据不是一回事,两者之间存在交集[11]。许小乐研究了大数据对统计学的冲击,认为“大数据”不在于数据量的多少,而是一种“以数据为大”的方法论,对传统统计工作的理念、方法以及价值将产生重大的冲击,对当前政府统计管理体制、机构设置、数据价值等形成了挑战[12]。曾鸿、丰敏轩研究了大数据对统计数据搜集、数据处理、数据发布的影响,认为大数据的各种特点对统计工作提出了新标准、新要求、新境界[13]。
由于大数据首先来源于技术层面,其在经济社会领域的应用也优先于理论,一些学者已经意识到大数据给经济领域带来的影响,但由于大数据成为热点的时间也就是最近两三年的事情,因此现有的研究许多侧重于应用,相关理论研究远不充分和系统。本文在分析大数据对经济学带来挑战的基础上,首先对大数据经济学进行重新界定,然后研究大数据经济学与其他相关学科的关系,最后对大数据经济学的学科定位进行分析。
二、大数据经济学的界定
(一)大数据对传统经济学的冲击
1.研究的数据对象完全不同。传统经济学的定量研究,一般是基于样本数据,很少有总体数据,这是由于数据的可得性决定的,而在大数据时代,数据往往是总体数据,这得益于互联网、物联网等信息技术的普及。传统经济学数据往往是结构化的,而在大数据时代,除了结构化数据外,还有大量的半结构化甚至是非结构化数据,比如网页文章、浏览记录、用户日志等本身也是数据。传统经济学研究是滞后数据的,因为只有当经济现象发生以后才能进行搜集整理,然后才能进行研究,而大数据时代,经济学研究基本上是实时的。传统经济学研究对数据的精度要求很高,而在大数据时代,这一切基本不太可能,需要通过方法和模型对数据进行清洗,然后进行研究。传统经济学研究不考虑异常数据,而在大数据时代,异常点数据成为宝贵的财富,因为大数据可以搜集到足够多的异常点数据进行研究。
2.研究的方法存在本质区别。传统计量经济学的研究遵循波普尔的证伪主义线路,即首先提出假说,然后通过计量模型检验假说,如此循环提高。模型的建立和验证以及经济学解释,本质上是对学者提出的某种预先的理论假设加以验证的过程。在大数据时代,通过数据挖掘,可以发现新的经济学规律或知识,大数据并没有改变因果关系,但使得因果关系不太重要。另外,传统经济学的因果关系有时是不太确定的,比如X的某种机制会对Y产生正向影响,同时X的某种机制也会对Y产生负向影响,那究竟最终结果如何呢?即使我们知道最终结果,此时的因果关系似乎也不重要了。
数据挖掘是典型的知识发现过程,它与传统经济学研究的最大区别在于可能自主地发现一些出人意料的新知识。数据挖掘并非传统意义上对某些假设的验证,而是一种提出假设的过程,其思路更接近数据生成过程本身,具备先验和智能性质。当然数据挖掘也面临一些问题,主要是数据的可靠性和算法设计的优化问题,相信随着大数据的发展,数据挖掘技术会越来越完善。
在一个研究中,传统经济学研究能够验证的假设极其有限,所采用的模型一般也是一两个模型,而在大数据时代,不提出任何先验的假设,实际上分析的是无穷多的关系,模型数量也是十分庞大的。Google公司在预测2009年美国甲型H1N1流感爆发时间时,把5 000万条美国人常用的检索词条和美国疾控中心2003—2008年期间季节性流感传播数据进行比较,先后采用了4.5亿个不同的数学模型,预测结果和官方数据的一致率高达97%,但比官方节省了两周时间。
3.某些统计方法和手段也完全不一样。传统的一些统计指数的计算,往往采用抽样调查数据,选取若干指标,然后采用多元统计技术进行计算,耗时长,成本高。大数据彻底改变了传统的统计指数计算方式,它是基于搜索引擎关键词、居民购买水平、浏览网站的频率和页面等等进行推算。IBM日本公司通过检索“新订单”、“雇员”、“生产”等关键词以及制造业的相关数据来预测采购经理人指数,其结果和传统统计学方法得出的计算结果基本一致。
(二)大数据经济学的定义与框架
在这样的背景下,大数据经济学的产生是大势所趋。根据大数据的特点、传统经济学的内涵以及大数据对传统经济学带来的冲击和影响,在俞立平以往对大数据经济学定义的基础上,本文将大数据经济学定义为:大数据经济学是借助大数据研究经济现象、经济行为、经济问题的科学,也是研究大数据和传统经济学关系的一门学科,包括大数据计量经济学、大数据统计学以及大数据应用经济学等子学科。大数据经济学是一门涉及应用经济、统计学、管理工程、计算机科学与技术、软件工程、情报学、心理学等学科的新兴交叉学科。为直观起见,用图1表示如下。
图1 大数据经济学学科关系框架示意图
大数据计量经济学主要研究在大数据背景下经济学建模的方法和技术;大数据统计学研究大数据背景下经济社会统计方法和技术;大数据应用经济学研究大数据在传统经济学各领域的应用,如:大数据人口环境资源经济学、大数据区域经济学、大数据产业经济学、大数据金融学、大数据国际贸易学、大数据国民经济学、大数据国防经济学等等。
大数据经济学与传统经济学存在一定的补充和替代关系。大数据提高了传统经济学研究的效率,可以通过数据挖掘发现一些新的经济学理论与知识。一些影响到国计民生的统计指数计算,如物价指数、基尼系数等完全可以通过大数据进行统计,降低了统计成本。对时间及时性要求较高的经济问题的研究,大数据也能实时进行分析。
三、大数据经济学与其他学科的关系
根据国务院学位委员会、教育部印发的《学位授予和人才培养学科目录设置与管理办法》(学位〔2009〕10号)的规定,《学位授予和人才培养学科目录》分为学科门类和一级学科,是国家进行学位授权审核与学科管理的基本依据,并用于学科建设和教育统计分类等工作,同时也是学位授予单位开展学位授予与人才培养工作的基础,用于研究生的招生和培养。考虑到大数据经济学尚处于起步阶段,在更详细的目录下讨论其与其他学科的关系是没有意义的,所以这里重点从一级学科的角度进行讨论(见图2)。
图2 大数据经济学与其他学科的关系示意图
与大数据经济学相关的一级学科主要有:计算机科学与技术(0812)、软件工程(0835)、心理学(0402)、图书情报与档案管理(0812)、管理科学与工程(1201)、统计学(0714)、应用经济学(0202),下面分别进行说明。
计算机科学与技术(0812)和软件工程(0835)是大数据经济学的技术支撑。大数据之所以产生,离不开现代的信息技术、物联网、互联网等技术,大数据的搜集、存储、处理,在技术方面涉及计算机系统结构、计算机软件与理论、计算机应用技术、软件工程等,这也正是大数据首先在信息技术领域得到应用,然后才向经济、社会领域渗透的根本原因。
管理科学与工程(1201)为大数据经济学提供管理理论与方法。大数据要在经济、社会领域得到广泛应用,必须依赖管理科学与工程的经典方法,包括运筹与管理方法、决策理论与方法、评价理论与方法、预测理论与方法、管理系统工程、知识管理等等。
统计学(0714)是大数据经济学的统计理论基础。既然是大数据,离不开初始的统计分析和数据清洗,借助统计学的一般理论与方法,对大数据进行分析是大数据经济学的重要应用领域之一,尤其在各种统计指数的计算与预测方面,大数据具有得天独厚的优势。
图书情报与档案管理(1205)是大数据经济学的重要信息处理手段。大数据包括大量半结构化、非结构化数据,甚至是自然语言,对它们进行处理需要经典情报学中的自然语言处理、文本挖掘、数据与信息的处理、信息系统与管理、信息资源管理等技术。
心理学(0402)是大数据经济学的主角——人的行为研究的基础。人的行为是产生大数据的重要源泉,而人的经济行为受心理因素的影响,谷歌的心情分析工具就是心理学在大数据领域的重要应用。行为经济学、神经管理学等新兴学科的产生,本质上就是心理学发展的最新成果。
应用经济学(0202)是大数据经济学的重要应用领域。传统应用经济学的二级学科中,几乎都有可能与大数据相关,如区域经济学、产业经济学、金融学、国际贸易学等等。
由于大数据涉及到经济学、管理学、理学、工学、教育学等学科大类,对研究者的知识结构要求很高,因此大数据经济学在起步阶段更多以应用为主,然后再逐步过度到理论与应用并重的研究阶段。
四、大数据经济学的学科定位
上文分析了大数据经济学的界定及其与其他学科的关系,下面将讨论大数据经济学的学科定位和归属问题。第一种方法是将大数据经济学作为一级学科,和传统的理论经济学(0201)、应用经济学(0202)并列,新增一个一级学科大数据经济学(0203)。大数据经济学目前暂设三个二级学科,分别是大数据计量经济学(20301)、大数据统计学(20302)、大数据应用经济学(20303),结果如图3所示。
图3 作为一级学科的大数据经济学学科架构
第二种方法是将大数据经济学作为应用经济学下面的二级学科,排在国防经济学后面,新增一个二级学科大数据经济学(20211),见图4。
图4 作为二级学科的大数据经济学学科架构
关于以上两种体系如何选取的问题,考虑到大数据经济学尚处于萌芽阶段,理论上尚需要进行大量的研究和探索,实践上还需要大量进行应用性研究,因此在这种情况下,可以暂时采用第二种体系,将大数据经济学作为应用经济学下面的二级学科,待发展到一定阶段后再升格为一级学科。
需要说明的是,统计学的学科分类比较特殊,在教育部新版的《学位授予和人才培养学科目录》中,统计学出现在两处,一是作为理学大类下面的一级学科,学科代码是0714;二是作为应用经济学的二级学科,学科代码是20208。如果大数据经济学中涉及统计学,那统计学就出现三处了。其实这并不矛盾,作为理学大类下面的一级学科统计学,其研究范围更加宽泛,涉及生物统计、医学统计、经济统计、社会统计等更多领域,而作为应用经济学下面的二级学科,统计学则主要集中在经济统计。大数据统计学作为大数据经济学下面的子学科,则更多是借用大数据进行经济统计。
五、结束语
大数据经济学是一门学科跨度很大的学科,涉及众多学科,对研究者知识的宽度和深度都提出了很高的要求,因此其突破应该在大数据应用经济学层面,首先在实践和应用领域取得进展,然后再催生理论层面的研究。
人工智能目前已经广泛应用到自然科学和社会科学的许多领域,但是在传统经济学领域,却较少见到人工智能的影子,大数据时代的到来给传统经济学的突破插上了腾飞的翅膀,借助大数据、云计算、数据挖掘、机器学习等技术,传统经济学开始出现智能经济学或智慧经济学的曙光,大数据经济学本身就是智能经济学,可以说,这是经济学研究的又一个高地。
[1] 阿尔文·托夫勒.第三次浪潮[M].黄明坚,译.北京:中信出版社,2006.
[2] 邬贺铨.大数据时代的机遇与挑战[J].求是,2013(4).
[3] Bryant R E,Katz R H,Lazowska E D.Big-data Computing:Creating Revolutionary Breakthroughs in Commerce,Science,and Society[R/OL].[2015-03-27]http://www.cra.org/ccc/files/docs/init/Big_Data.pdf.
[4] 陈明奇.大数据国家发展战略呼之欲出[J].人民论坛,2013(5下).
[5] 国际数据公司.大数据将引发金融行业重要变革[J].通讯世界,2013(4).
[6] 程立国,陈健恒,徐永红.大数据在金融业的应用初探[J].中国金融电脑,2013(10).
[7] 郑承满.大数据对商业银行的机遇与挑战[J].中国金融电脑,2013(7).
[8] 冯芷艳,郭迅华,曾大军,陈煜波,陈国青.大数据背景下商务管理研究若干前沿课题[J].管理科学学报,2013(1).
[9] 俞立平.大数据与大数据经济学[J].中国软科学,2013(7).
[10]维克托·迈尔·舍恩伯格,肯尼斯·库克耶.大数据时代——生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2012.
[11]杨华磊.高频数据对传统经济学研究范式的冲击[EB/PL].[2015.3.27]http://blog.sciencenet.cn/blog-456786-656901.html.
[12]许小乐.“大数据”与政府统计改革[J].调研世界,2013(5).
[13]曾鸿,丰敏轩.大数据与统计变革[J].中国统计,2013(9).