APP下载

大数据在社会科学中的价值:以DMSP/OLS夜间灯光数据为例

2016-05-30范长煜朱艳婷高雅静

关键词:社会科学灯光研究

范长煜 朱艳婷 高雅静

[摘要]“学术思想和研究的演变过程受到特定历史条件下研究方法和分析手段的深刻影响”,大数据时代的数据收集、统计分析和研究方法的跨越式变革成为社会科学发展的重大契机。本文以DMSP/OLS夜间灯光数据为例,说明了与传统统计数据相比,大数据带有的容易获取,高度客观性,应用范围广,以及与传统小数据有很好的匹配性等突出特征。目前,国内外社会科学界对大数据的研究和应用均刚刚起步,而现有少数在社会科学研究中的大数据应用充分展示了它的优势,对未来的社会科学发展具有重大的理论和实践价值

[关 键 词]大数据 社会科学 DMSP/OLS 夜间灯光数据 应用价值

[基金项目]本文是教育部2013年度哲学社会科学重大课题攻关项目“户籍限制放开背景下促进农民工中小城市社会融合的社会管理和服务研究”(批准号:13JZD018)阶段性成果之一。

[作者简介]范长煜(1985-),男,福建建瓯人,南京大学社会学院博士研究生,研究方向为组织社会学、劳工研究与定量数据分析;朱艳婷,南京大学社会学院博士研究生;高雅静(1993-),女,江苏镇江人,南京大学社会学院硕士研究生,研究方向为组织社会学、劳工研究。

[中图分类号]C8 [文献标识码]A [文章编号]1008-7672(2016)01-0001-09

一、 大数据时代的社会科学

上世纪90年代,诺贝尔获得者保罗·克鲁格曼在《发展、地理学与经济理论》一书提出一个观点:某些经济学理论或经济现象的研究受制于特定历史条件下的研究方法、分析技术和数据收集等因素而得不到发展,甚至被忽视或遗弃。①为此,克鲁格曼讲了一个非洲制图的故事。在15世纪,非洲地图上的距离、海岸线等并不十分准确,但当时根据冒险家和旅行者报告绘制的地图中却包含了内陆地区的大量信息,当然这些二三手资料绘制的地图也包含了不少错误和虚构的信息。不过,到了18世纪,随着绘图技术的进步和制图信息质量的提高,非洲地图的海岸线已基本与现代地图中的海岸线不相上下,同时沿海城市和人口等也很翔实地展现在地图上;然而,令人惊奇的是,这些非洲地图的内陆部分却出现了很多空白,很多旅行者虚构的故事没了,同时真实的城市与河流也没了。显然,非洲大陆地图的演变并不是一个线性过程,地图绘制并不是一个随着技术进步和信息积累而逐步准确完整的过程。克鲁格曼以这个故事讲述了上世纪50年代发展经济学和地理经济学辉煌之后所遭受“冷遇”的历程——缺乏有效的数学建模和可靠的实证检验,使得这两个学科的发展遭遇巨大的挫折。无独有偶,周雪光借由克鲁格曼讲述的故事把前述观点扩展到了整个社会科学:“社会科学学术思想演变的特点及其制约因素有着极大的普遍性, 类似的例子在其他学科中俯拾即是, 只是其表现形式可能因学科特点而异。”①他以统计分析技术的发展对美国社会分层和实证资料的获取对工业组织的内部研究,说明了社会学学术思想的演变和学术观点研究兴趣的走向与研究手段的变化息息相关。

如果人们站在世纪之交时对克鲁格曼和周雪光所论述的观点未能领会或者不以为意的话,我们认为是可以理解的,因为历史条件的局限,当时的研究方法、分析技术和数据收集与上世八九十年代相比并没有多大的改观或者进步;然而,就在此刻,当人们站在大数据时代的风口浪尖上时再去回顾他们的观点,其中的深意无疑已跃然纸上。进入21世纪以来,继互联网之后,大数据成为覆盖全社会的又一颠覆性概念席卷全球,并随着商业经济的发展和信息技术的不断进步快速地渗透到政治、经济和社会等生活的方方面面。互联网,尤其是近年来移动互联网的普及和智能设备的广泛应用,人们的活动痕迹几乎一览无余地被转化为数据存储起来,利用先进的计算机技术和编程语言,研究者不仅可以扩展和深化现有研究领域,还可以把研究的触角伸向以前难以或者无法从事的研究领域。例如,以往关于社会资本和社会网络的分析,研究者通常只能通过问卷调查收集人们关于社会网络的汇总性数据,因此很难深入分析人们实际的网络规模和结构,对网络功能和效应的理解带有很强的猜测性质。当前的大数据分析,使得社会网络研究现状完全改观,Eagle等对0.65亿(约占美国全国的90%)电话用户的通讯记录的研究表明社区成员社交网络的多样性与其经济发展呈正相关,证实了格兰若维特和博特的社会网络理论。②Ugander等使用Facebook的社交网络数据发现,随着用户社交网络规模的不断扩大,用户之间的分割由2008年的5.3步下降到了2011年的4.7步,验证了“六度分隔理论”。③然而,不仅于此,正如克鲁格曼所叙述的后期技术进步可以摒弃早期非洲地图绘制内容中带有的虚构、错误信息一样,我们认为大数据对社会科学更为深刻的影响体现在它可以改变传统的,依靠“想象”、“猜测”和“漫谈”的为学方式和不严谨、不求实的学术风气。

为了进一步阐述大数据对社会科学的重大意义,下面我们以DMSP/OLS夜间灯光数据——覆盖全球的人类夜间灯火痕迹为例,说明大数据的特征及其应用前景。

二、 DMSP/OLS夜间灯光数据:生产与特征

长期以来,精确测算一国或地区,尤其是那些缺乏有效统计的国家或地区的社会经济发展状况一直是困扰社会科学界的一道难题。2012年12月19日美国国家航空航天局地球观测站(NASAs Earth Observatory)公布了一组展示朝鲜半岛夜景的卫星照片,在互联网上广泛流传,如图1④所示。从图中的夜间灯光对比可以明显看出朝鲜与韩国在社会经济发展上的差距——韩国城市众多灯光密集,首尔地区亮如白昼;朝鲜则全国漆黑一片,平壤灯光亮度甚至不如韩国的小城市。如果要科学地比较和研究朝韩两国的状况,我们会发现如下困难:一方面,朝鲜是一个封闭的国家,极难获取相应的统计数据;另一方面,即使可以获得朝鲜的数据,也可能因为两国经济和政治体制的差异在数据统计口径上存在很大差异而难以比较。

那么,是否可以使用夜间灯光作为代理社会经济发展的指标?

事实上,早在上世纪90年代,国外有学者已开始探索使用夜间灯光作为代理社会经济发展指标的方法。目前,针对美国国防气象卫星计划(Defense Meteorological Satellite Program,DMSP)的可见红外成像线性扫描业务系统(the Operational Linescan System,OLS)传感器产生的夜间稳定灯光图像(简称“DMSP/OLS夜间灯光数据”),其研究开发已有了大量成果,并在城市规划、人口估计、国民经济测算、能源消耗以及生态环境影响评估等领域得到广泛应用,但目前国内社会科学界对这一领域仍甚少了解。①

1976年,美国发射了第一颗搭载OLS传感器的DMSP 卫星。OLS传感器原初设计目的主要是为了采集夜间月光照射下的云层分布、云顶温度及地面火情等数据,但由于系统具有较高光电放大能力,它不仅能监测云层,还可以探测到城镇灯光、火光、渔船灯光等。目前,DMSP/OLS夜间灯光图像数据由美国国家海洋与大气管理局(National Oceanic and Atmospheric Administration,NOAA)下属的国家地理数据中心(National Geophysical Data Cente,NGDC)②管理,并面向全球开放下载。DMSP/OLS夜间灯光数据,就物理特性而言,具有如下优点:“(1)DMSP/ OLS 在夜间工作,能够探测到城市灯光甚至小规模居民点、车流等发出的低强度灯光,使之明显区别于夜间黑暗的乡村地区;(2)由于数据在夜间获取, 所以不受光线阴影干扰;(3)与AVHRR (即NOAA系列卫星搭载的一种五光谱通道扫描辐射仪)相当的空间和时间分辨率,全光谱分辨率数据的空间分辨率为 0.56 km,是高分辨率数据;(4)非辐射定标平均灯光强度数据经过了消云处理、偶然噪声滤除处理等预处理过程,专门针对亚洲地区特点开发,不会受到灯光饱和问题的干扰,不需要对放大增益进行人为控制,因而可以充分利用现有数据储备进行多年度时间序列制图。”①现有研究从DMSP/OLS夜间灯光图像提取的常用数据产品有5种,见表1。

在五种数据类型中,现有研究使用最多的是由Elvidge 等人开发的“稳定灯光”数据。②最早的稳定灯光数据产生于1994至1995年的时序无云灯光图像,最终获得的夜间稳定灯光(nighttime stable light,NSL)图像的空间分辨率为1km×1km,这些图像可以计算灯光的数量,用来估算人类活动的空间分布;后期Elvidge 等人还使用辐射校准等方法克服了灯光密度缺失问题,拓展这一数据在人类活动研究领域的广度和深度,如人口密度、能源消耗等估算。③近几年,NOAA/NGDC公布了第4版DMSP/OLS稳定灯光时序数据,截止至目前,已对外公布了1992-2013共22年的图像数据。图2是2013年DMSP/OLS全球稳定灯光图像。

对社会科学而言,与传统的统计小数据相比,DMSP/OLS夜间灯光数据具有如下优势:(1)容易获得。传统的社会经济统计数据需要花费大量的人力、物力调查获得,DMSP/OLS夜间灯光数据容易获取,可以通过互联网随时下载,无需任何手续和费用。(2)应用范围广。传统数据使用范围狭窄,每个测量指标应用单一,而DMSP/OLS夜间灯光数据,在掌握相关处理技术后,可以根据研究需要灵活处理以讨论城市空间、人口密度、经济发展和能源消耗等广泛的主题;(3)具有高度客观性。传统统计数据容易受人为主观因素的影响产生偏误,如GDP统计,一方面在统计过程中容易因为各种失误出现偏差,另一方面官员出于政绩考虑常常人为篡改经济数据。DMSP/OLS夜间灯光数据通过卫星上的传感器扫描获得,不仅精度高,而且完全不受人为因素的干扰,即使是数据本身存在的缺陷也可以通过后期技术处理加以克服。(4)兼具全球性与时序性。传统的统计数据调查范围很有限,多数是国内抽样调查,普查很少,跨国调查则更少;而DMSP/OLS夜间灯光数据覆盖了全球,且提供年度稳定灯光数据,并在未来持续提供下载,是少有的全球性时间序列数据,尤其是对于那些缺乏有效统计数据的国家和地区而言,DMSP/OLS夜间灯光数据更体现出它的难得。(5)具有很好的匹配性。作为一个客观的环境变量,可与各层次数据相匹配来使用,如可以根据个体的位置加入其所处位置的灯光数据,作为社会经济环境的控制变量,这是绝大部分传统统计数据难以做到的。(6)是大数据。传统的统计数据是小数据,样本量很有限,即使是普查数据也无法涉及所有单位层次,而DMSP/OLS夜间灯光数据可以处理成大到洲、国家,小到街道、村庄等各层次数据,再加上每年陆续公布的数据,构成了一个海量数据库。

基于上述认识,我们认为DMSP/OLS夜间灯光数据在社会科学研究中大有用武之地,不仅可以改进当前关于社会经济发展测量的质量,提高数据的客观性、一致性和全面性,而且可以进一步拓宽社会科学的研究领域和范围,使得那些以往因数据难以获取而极少涉及的主题和地区得以纳入研究,如战乱、自然灾害以及缺乏公开有效统计数据的地区。

三、 DMSP/OLS夜间灯光数据:研究与应用

自上世纪90年代初开始研究DMSP/OLS夜间灯光数据以来,学界研究经历了缓慢起步到近年来迅猛发展的变化过程,图3的谷歌学术搜索结果展示了这一进程。从图中可知,外文文献增长经历了三个阶段,分别是1992年至2003年的缓慢增长阶段,2004年至2010年的徘徊增长阶段,2011年至今的快速增长阶段,三个阶段总共发表文章2057篇(绝大多数是英文文献,少量日文、韩文文献)。近几年之所以有如此快速的发展得益于NOAA/NGDC在2010年免费公开提供第4版DMSP/OLS夜间灯光数据,①大大降低了学界利用该数据的技术门槛。与外文文献相比,中文文献的发表量则相形见绌。从文献搜索的结果看,国内从2003年开始对DMSP/OLS夜间灯光数据有所关注,直到近几年才有所发展,总共发表的文章有175篇,不到外文文献的1/10。可见国内在该数据的研究与应用方面还有很大的进步空间。

就具体的研究而言,根据Pestalozzi②、Qingxu Huang等人③和王鹤饶等人④对DMSP/OLS夜间灯光数据的研究综述看,该数据主要应用领域包括:(1)城市发展及其影响,包括城市化指标建构、城市空间扩展、城市空间重建、基础设施建设、城市扩展对土壤的影响、城市热岛效应等;(2)人口与社会经济参数估计,包括人口估计、人口密度、GDP测算、货运量、贫困指数、人均收入以及化学能源与电力消费等;(3)偶然或短期光源监测,如森林火灾、天然气火焰、火灾面积估算以及渔业灯火监测等;(4)环境及其他问题,如CO2和氮氧化物排放、光污染以及战争与冲突、地震破坏、生态服务与气候站分布等研究。总的来看,目前大多数研究由遥感测绘和地理学界学者所做,即使是如人口密度估计、GDP测算等社会经济研究也多是这一领域学者的成果。在谷歌学术搜索中,我们在上述2057篇文献范围内,搜索到688篇文献发表于以“遥感”、“城市”、“环境”“地理”和“地理信息”等少数几类遥感测绘和地理学刊物上,占总篇数的1/3;中文文献则有104篇发表在类似刊物上,占175篇总数的3/5。显然,DMSP/OLS夜间灯光数据应用中,地理信息处理的技术门槛是造成其他学科难以利用它的重要原因。

但近年来,国外少数社会科学界学者已开始利用DMSP/OLS夜间灯光数据做了一些重要而有趣的研究。2014年瑞士圣加仑大学的Hodler和澳大利亚莫纳什大学的Raschky在《经济学季刊》(The Quarterly Journal of Economics)发表《地区偏向主义》(Regional favoritism)一文,①受到国内外学界的广泛关注。该文回答了长期被人津津乐道的话题:领导人执政时会不会照顾自己的家乡,或者领导人的家乡会不会沾领导人的光,受到特别恩惠。两位作者利用夜间灯光强度和国家GDP水平之间的紧密关系,研究了领导人在位与家乡夜间灯光强度的关系。他们假设,国家领导人在位时,其家乡的灯光会比其他地区变亮的速度更快。该研究通过对126个国家的38427个地区,1992-2009年17年的数据进行年度比较发现,很多国家都存在“沾光效应”,领导人的家乡夜间灯光强度会伴随领导人的在位增强,同时也会随着他们的卸任而减弱,甚至回落到初始水平。他们认为这可能是对领导人家乡的公共资金投入多为消费性的,缺乏可持续性。通过控制政体、教育、GDP、语言多样性、家族关系强度、外国援助、石油租金等变量,他们还发现在亚洲和非洲等地,政治制度水平和教育水平低的国家更容易出现“沾光效应”。2015年,Giacomo De Luca与两位作者又做了一项类似的研究,考察了政治领导人的“种族偏向主义”,分析结果发现政治领导人所属种族地区的夜间灯光密度比其他地方高10%,在种族细分和隔离的国家尤其如此,且在全球具有普遍性,不分贫富国家,没有政治制度差异。①

同是发表在美国《经济学季刊》上,布朗大学的Michalopoulos和伦敦经济学院的Papaioannou以DMSP/OLS夜间灯光数据的灯光密度作为经济发展程度指标,以撒哈拉以南非洲的种族为研究对象,考察了国家制度与地区发展之间的政治经济关系。②他们设计了一个巧妙的自然实验,对原本属于同一种族但后来却分属于不同制度环境的多个国家地区进行比较分析。分析模型中以平均灯光密度为因变量,以法律制度和腐败控制作为主要解释变量,并控制人口密度、水资源、土地面积、平均海拔、土地适耕指数、疟疾指数、石油开采指数、钻石矿藏指数、到首都的距离、到海岸的距离、到国境线的距离等变量进行断点回归设计。通过对200多个跨制度种族的研究发现,在考虑了种族固定效应后,国家制度与地区灯光密度之间的关系并不显著,即在平均意义上全国性制度并不能影响部族内的经济发展;但在结构上这一关系却存在异质性,其灯光密度会随着离首都(制度中心)距离的不同而发生变化。

此外,伦敦国王学院的Shortland 等人,基于DMSP/OLS夜间灯光数据对1993至2009年索马里战争的影响进行评估。③由于战争期间统计数据不易获取,灯光数据成为很好的战争影响代理变量。研究表明,战争对穷人和精英的影响很不一样。生活于城市边缘的穷人受益于局部稳定及全国相对更为和平的条件;城市中心区的精英则获利于战争所获得的人道主义援助。丹佛大学的Tilottama Ghosh 等人则利用DMSP/OLS夜间灯光数据对印度的非正式经济和迁移人口汇款规模进行估计。④作者首先通过灯光数据估算美国各州的城市人口,再以此估算各州的国民收入,进而结合印度各邦的城市人口,以美国各州国民收入为参数估算印度各邦的国民总收入,最后在调整印度的国内总收入估算的基础上预测印度非正式经济和迁移人口汇款的规模。研究结果表明,与官方国民总收入(GNI)估计相比,印度的实际非正式经济和汇款规模要高出50%。值得注意的是,国内学者刘修岩和刘茜于2015年在《财贸研究》发表《对外贸易开放是否影响了区域的城市集中》一文,他们利用1996-2012 年DMSP/OLS 夜间灯光数据研究对外贸易与城市集中度之间的关系。⑤两位作者试图以省内人口最多的城市之人口数占地区人口的比例作为城市集中度的测量指标,但1996-2012年中国部分城市的行政区划发生了较大调整,且人口统计口径也发生了变化,使得这些城市的人口数据缺乏一致性。为消除这些影响,作者以2000年为固定年份确定行政区划,使用区域内的夜间稳定灯光数量作为人口代理指标来计算城市集中度。

从上述利用DMSP/OLS 夜间灯光数据所做的社会科学研究以及现有文献搜索结果来看:首先,正如前文所述对于社会科学研究所具有的优势,这些研究很好地反映了DMSP/OLS 夜间灯光数据的应用广泛性、时空全面性、客观性与一致性以及良好的数据匹配性。其既可以代理经济变量,又可以代理人口变量;既可以应用于全球各国,又可以应用于某省某市;既修正了传统数据的主观性偏误,又能克服其因时空差异导致的不一致性。其次,从现有文献搜索的结果来看,DMSP/OLS 夜间灯光数据在社会科学中的应用即使在国外也才刚刚起步,研究成果还很少,但只要研究设计得好,恰当使用数据,可以在克服传统社会经济类数据缺陷的基础上做出很好的研究。第三,与地理学界较为单一地使用DMSP/OLS 夜间灯光数据相比,社会科学研究可以充分利用该数据的良好匹配性,把它与其他大数据相互配合使用,进而从经济、社会和政治角度更深入认识社会运行的内在机制。

随着DMSP/OLS 夜间灯光数据资源越来越丰富,积极引入和充分利用好这一优质数据应该受到社会科学界的重视。以往在测量一国或地区的社会经济发展中,往往会遇到:(1)有一些地方统计数据缺乏,如边疆地区、非洲地区等;(2)某些特定经济形式或群体的统计数据难以统计,如非正式经济、跨行政单位的少数民族群体等;(3)在跨国研究中有可能统计口径不一致、数据质量参差不齐;(4)在战争、地震、飓风等灾难时期,统计数据不易获取;(5)统计数据易受主客观因素的干扰,数据缺乏信度和效度,等等。这些因素常常成为影响某些主题研究的重大障碍,甚至使某些主题无法开展实证研究,如非正式经济规模的估计。我们认为,在社会科学研究中引入DMSP/OLS 夜间灯光数据,将对这些领域有直接的帮助,如经济学领域的贫困研究、区域经济比较、灾害损失估算等,社会学领域的劳工研究、城市化、社会隔离等,人口学领域的人口密度估算、人口迁移与集聚等,政治学领域的政治制度绩效比较、官员升迁、行政绩效考核等,以及法学领域的犯罪研究,等等。此外,作为一个越来越丰富的可存储数据,未来它也将成为宝贵的历史资料在史学界发挥重要的作用。

四、 展望:社会科学研究的机遇与挑战

一叶知秋意,一树识菩提。基于上述对DMSP/OLS 夜间灯光数据的特征说明与应用分析,我们对大数据的特征、应用现状与前景,大致可以获得如下认识。

与传统的统计小数据相比,首先,大数据作为对人类活动痕迹的实时记录与存储,在数据开放的情况下,不仅相对容易获取,而且数据量大,可以深入研究人类活动的更多细节;其次,具有高度的客观性,大数据对人类活动的记录是与活动本身相同步的,基本不受人记忆不准确的消极影响,即使数据记录在短期内受到某些特定因素的影响,也可以通过长期数据记录的检验予以消除,正如DMSP/OLS 稳定灯光数据就是根据全年记录消除汽车灯光、偶发火光等噪音影响的洁净数据产品;第三,良好的匹配性与广泛的应用范围,大数据可以与小数据相互匹配,相互校正,大数据可以丰富小数据的数据类型,而小数据因其相对明确的假设检验设计,大数据可以参考小数据的因果推断,大大提高数据预测的精度。

在研究与应用方面,正如对DMSP/OLS 夜间灯光数据的应用研究一样,一方面大数据在国内外社会科学界都才刚刚起步,但另一方面现有少数几项社会科学研究已经充分展示了它巨大的应用价值。2015年8月,国务院发布《促进大数据发展行动纲要》,明确指出在未来5-10年内,加快政府数据开放共享,发展工业、新兴产业、农业农村及大众创新等大数据任务。随着这些大数据政策的落实,数据开发与整合,以及数据开放平台的建设,未来大数据必将成为社会科学研究非常重要的组成部分。周雪光曾对学术活动评价道:“在当今的一些学术讨论中, 高谈宏论纷至沓来。然而这些讨论常常使用大而无当的概念, 说一些或模棱两可或色彩强烈的语言, 诉诸于人们的感官刺激。但是激动振奋感慨悲切之余, 欲作进一步思考竟发现无路可循,无据 可依。”①我们相信,大数据同各社会科学之间的多学科交叉、融合,可以改观当前这种不务实的学术风气,助推传统人文社会科学的研究理念、研究方法的改造,使社会科学朝着科学化方向发展。

(责任编辑:徐澍)

猜你喜欢

社会科学灯光研究
水中灯光秀
FMS与YBT相关性的实证研究
《云南社会科学》征稿征订启事
《河北农业大学(社会科学版)》2021年喜报
今晚的灯光亮了天
辽代千人邑研究述论
来一场灯光派对
视错觉在平面设计中的应用与研究
EMA伺服控制系统研究
数学在社会科学中的应用