大数据对CPI统计的影响及方法改进研究
2015-01-01陈梦根
陈梦根,刘 浩
(北京师范大学 统计学院,北京100875)
一、引言
在信息技术快速发展的背景下,大数据浪潮正以锐不可当之势汹涌而来,对社会各个领域都可能带来巨大影响。政府统计是社会一项重要的基础设施,大数据将给传统的政府统计体系带来冲击。国家统计局局长马建堂曾指出,必须充分认识大数据给政府统计带来的历史机遇和重要挑战,开发扩大政企合作渠道,积极主动利用海量电子化数据,加快推进统计现代化[1]179-186。从政府统计角度看,价格统计由于样本采集范围广、统计频率高等原因,成为受大数据直接影响最为显著的一个领域。消费者价格指数(CPI)作为最重要的一个价格统计指标,可谓首当其冲,成为统计学界关注的焦点之一。
现有文献中,有关大数据对CPI统计的影响研究还很少。基于价格采集技术与交易结算设备的发展,统计界学者较早关注CPI统计如何利用扫描数据的问题,例如,Richardson利用尼尔森公司的扫描数据对美国纽约大都市谷物类早餐价格指数进行研究,将初级扫描指数和运用非扫描总体编制的CPI指数结合起来编制实验性指数[2]。国内学者陈相成、乔晗研究了瑞士、挪威与荷兰利用扫描数据编制CPI的经验,认为这些国家将扫描数据作为CPI的价格采集手段,但未能充分利用描述码所获的其他信息[3]。乔晗进一步提出了利用扫描数据编制中国CPI的思路,试图为基于大数据的政府统计源头数据信息化改革提供理论依据[4]。实际上,大数据技术有助于改革CPI调查方法,基于大数据编制的CPI可与传统CPI相互印证,共同促进价格统计数据质量的提高,逐步过渡到以大数据方法计算CPI[5]。
二、大数据对CPI统计的影响分析
(一)大数据与统计变革
目前,大数据已成为各界讨论的热点,普遍认为世界正进入一个大数据时代。针对大数据的内涵,郑京平用4V来形容,即容量巨大、内容多样、流动速度快、不稳定[6]。具体而言:第一,大数据在量上远远超出了传统意义的度量范围,一般认为大数据的数量级应该以TB①① 数据的存储单位主要有Byte(字节)、KB(千字节)、MB(兆字节)、GB、TB、PB、EB、ZB。其中,1KB=1 024字节,1MB=1 024KB,1GB=1 024MB,1TB=1 024GB,依此类推。来表示,甚至是以PB、EB为基本单位,目前全球每两天形成的数据量约达5EB(即5×1018B),相当于人类诞生之日至2003年间形成的数据量总和;第二,大数据的类型多样,复杂程度高,包括结构化、半结构化和非结构化数据,并且半结构化和非结构化数据所占份额越来越大;第三,大数据的产生频率快,移动互联网、物联网等无时无刻不在大量生成海量电子化数据,全球所有数据的90%产生于过去两年;第四,大数据来源更加广泛、时效性更强,海量电子化数据生成和存储的管理者及使用者五花八门,虽然可以更好地反映数据的情况,但是具有不稳定的特性。
图1 大数据的内涵特征(4V框架)图
大数据在统计中的应用刚刚起步,国际组织、各国政府以及众多企业等已开始探索大数据在价格、交通、气象、社交、管理、决策等领域的应用。大数据将对传统统计带来巨大变革,主要体现在以下两个方面:一是统计思维的变化。大数据时代统计数据的生产与分析必须更加注重效率和时效性,更快、更有效地应用于经济社会管理、分析与决策。统计关注的重点可能不再是数据采集、加工与获得,而是海量数据如何甄别、提取和加工,从而得到有用数据。二是统计方法的变化,传统统计中抽样调查是最基本、最重要的方法,建立了成熟的科学理论依据,以确保数据的准确性与可靠性,而大数据条件下可能从样本直接跨越到总体,直接对总体开展分析。大数据时代的统计总体、个体及样本的定义方式和内涵将发生变化,可以利用一切可利用的、尽量多的数据来进行分析,而不仅仅局限于抽样样本框。当然,这也并非意味着放弃抽样方法,而是结合现有尽可能多而复杂的数据来获取抽样。考虑到效率、成本、技术等因素,很多情况下可能仍然会选择抽样方法,直到技术、方法、成本等因素成熟,才可能全面转向基于大数据要求的统计方法。
(二)大数据对CPI统计的影响
理论上,大数据对CPI统计的影响全面而深刻,涉及数据采集、计算公式、质量调整、权重、数据频率等各个方面,国内外对这一问题的研究才刚刚起步,尚无系统性成果。
1.大数据与CPI数据采集。目前,中国编制CPI主要采用人工采价和抽样调查方法,通过手持数据采集器采价。这种方式使数据采集相对于纯手工方式效率大大提高,及时性也显著增强,而且降低了人为误差。但是,现行方式仍然存在一些问题,如:抽样调查方法不可避免地引入抽样误差;采价成本相对较高,每一个基本分类仅选取两三种商品作为代表,会造成规格品选取和替代误差、获取成交价时的技巧性和记录数据时的工作误差等;按固定时点对规格品进行采样得到的样本数据为离散数据,由此计算的CPI有高估或低估购买商品的平均价格。为此,英国、瑞典、荷兰等发达国家已经开始积极寻求用海量的电子信息数据替代人工抽样调查数据。随着大数据技术的发展,纳入CPI编制的规格品的价格与结构和总体非常接近,这与传统的抽样数据即用少量样本进行研究有着重大差别,不但能够减少人为的误差,而且可以减少抽样误差。
2.大数据与CPI指数计算。计算CPI一般分为两步:一是计算单项商品和服务项目的价格指数,根据所属代表规格商品的相对数采用算术平均法计算;二是计算类别及总指数,目前国际上通行的指数计算公式主要有拉氏(Laspeyres)指数和派氏(Passche)指数,一般采用拉式指数公式,即以基期支出比重为权数将个体进行算数平均[7]2-13。从有效性和应用性考虑,汇总时中国采用拉氏固定加权算术平均数计算,公式如下:
一是公式中时间段t的长短与连续性问题。传统的CPI编制过程中采集数据一般是定时定点的,两个数据点之间一般间隔较长时间。事实上,商家和消费者都会根据价格来调整自己的销售或者购买方式,商品滞销时商家可能会采用打折促销的方式,而商品打折时消费者有可能会增加购买数量。固定时点数据可能高估或低估规格商品的价格指数,大数据时代可以通过网络信息技术获取商品价格和数量高频信息,动态计算CPI指数,降低统计误差。
二是公式中产品i的范围。大数据使我们易于获得近似总体的样本,CPI计算公式中产品i不会仅仅局限于八大类,而是扩大到居民消费的全部商品。阿里巴巴2011年推出的网络零售价格指数(iSPI),其成交价格是淘宝四级类物品的成交均价,权重为支付宝的金额,虽然iSPI没有将淘宝网所有产品的成交价格纳入统计范围(这主要是出于统计效率的考虑),但其均价来自第一个四级分级项目中所有成交价的均价。相比之下,传统CPI统计所覆盖的商品类别较少,对于目前一些家庭中的重要支出,如教育经费中的补习费、网上购物支出等都未进行统计,覆盖面相对较窄。
3.大数据与CPI权重更新。权重选择是CPI编制中的一个重要环节,目前中国一般每五年做一次大调整。最近的一次大调是在2011年,如表1所示,食品类权重占比下降,居住类权重占比上升。实际上,由于中国经济正处于转型时期,发展迅速,居民消费结构变化显著,权重更新慢成为CPI数据质量受到诟病的原因之一。首先,中国CPI权重调整频率相对于欧美国家而言更低,采用大数据技术可以有效解决权重调整慢的问题;其次,与发达国家CPI权重调整的高度透明性不同,中国历次权重调整过程中国家统计局很少公开各类商品的具体权重,在大数据的支持下,有关部门可以较为容易的获得CPI大类商品权重及下级分类商品权重,从而提高CPI权重的透明度。
表1 新旧CPI权数的构成表
4.大数据与CPI季节调整。物价变化可能受到季节因素的影响,季节调整是编制CPI过程中非常重要的一环。CPI季节调整就是通过统计手段估计和剔除季节性因素在CPI中的影响,使得CPI能更好地反映一般商品价格总体水平的变化。中国现行CPI数据并没有剔除季节性因素的影响,居民消费物价同比指数不但不具备再加工性,其上涨还受到过去CPI数值的影响,即“翘尾效应”。此外,CPI环比统计起步较晚,技术上还不够成熟,从而影响CPI的数据质量,不能及时有效地反映季节性的消费结构变化。在大数据背景下,CPI规格品采集数据的频率提高、种类扩大,使基本规格品得到的数据更加可靠,为采用 X-11-ARIMA 法、改进的 X-12-ARIMA法进行CPI季节调整提供了可能,同时也为结合Tramo Seats等季节性调整方法编制剔除季节性因素影响的CPI提供了基础[8]。
5.大数据与CPI质量变化调整。CPI统计必须针对以下情形做质量变化调整:一是规格品的质量在报告期内发生变化,但现行CPI统计方法无法将质量变化与单纯的价格上涨相区分;二是报告期内出现新产品,而目前统计的规格品并未将这些产品纳入统计范围之内;三是旧的产品被市场所淘汰,但是由于“一篮子商品”调整的时滞,这些产品仍然在规格品当中[9]。
受制于传统手工采集价格数据信息的不足,中国的CPI统计尚未实施质量变化调整。CPI调查员为了克服产品更新、不可替代性等问题,经常使用一些不规范的方法来解决产品质量变化问题,都是任凭调查员的主观判断。大数据时代可以通过电子化手段获取各种商品的多方面特征信息,例如扫描数据可得到产品不同维度的特征信息,从而为CPI质量变化调整提供了基础。这些海量的评价数据使对商品质量提升或下降的评价与估计成为可能,有利于对CPI质量变化调整系数的估计。
6.大数据与CPI数据质量。从规范流程来看,数据质量评估是CPI统计的重要工作环节之一,大数据对传统CPI统计体系下CPI数据质量提出了严峻挑战。首先,在及时性方面,与电子商务、互联网搜索、浏览指标近乎即时信息相比,传统市场手工采集的交易量和价格数据及时性与频率严重不足。其次,在准确性和可靠性方面,网络社会居民消费行为更为复杂,消费结构多元化,网购、打折、促销、二手市场等更为常见,对消费品价格影响巨大,但传统CPI统计未反映或极少反映这方面信息。大数据时代为更准确地评估居民消费物价水平的变化提供了新的契机,但也应看到,大数据时代数据错综复杂、真假难辨,各种“噪音”影响严重,保证CPI的准确性和可靠性同样极为困难。再次,在适应性和可得性方面,目前中国现行CPI统计对700余个规格品进行价格调查,并根据居民消费的支出对不同类别赋予不同的权重,最终计算得出CPI数据,但CPI分类指数体系较为粗糙,相比于美国等发达国家发布详细的细类指数仍然存在明显不足。在网络社会中,商业活动由传统渠道向网络渠道拓展,由此产生大量数据,电子数据信息产生速度迅速,计算机云计算技术使得政府在统计时可以在短期内获得大量数据,为细化指数和改进数据可得性提供了可能。
三、大数据视角的CPI统计方法改进
(一)CPI数据采集方法的改进
大数据为改进CPI数据采集方法提供了强大的技术基础,主要体现在数据范围和数源途径。一方面,大数据极大地拓展了CPI统计的数据范围。现行CPI调查制度对262个基本分类的每个类别各采集两到三种规格品,与现实生活中消费者购买的产品种类数差距巨大。进入大数据时代,统计部门可以根据实际情况,采集海量的各种不同规格产品信息,获得接近于总体的样本。另一方面,大数据改变了“定时、定点”采集数据的方式。通过政企合作等方式,与大型连锁超市、电商销售平台合作,建立高效的数据共享机制,从企业直接获得一手资料,提高数据的可获得性、及时性和准确性,为改进CPI数据质量提供更坚实的源数据基础。为此,政府统计部门可以和大型连锁商场以及利用条形码进行结算的商户合作,定期将数据发送到政府部门,或是政府从市场调研公司处购买经初步处理的相关数据。
(二)CPI计算方法的改进
大数据使编制CPI可用的样本数量急剧扩大,样本获取时间点的连续性加强,过去按一篮子规格品固定权重计算CPI的方法已经不再适合大数据时代的要求。因此,理论上应该摒弃传统拉氏公式计算CPI的方法,采用高级指数公式(Superlative Index Formulas)来计算,如高级的托恩奎斯特价格指数(Trailing Torngrist Index)或费雪理想指数(Fisher Ideal Index)。计算公式如下:
相比于传统计算方法,式(2)计算的CPI具有以下优点:一是链式加权CPI可以反映更多的替代效应。传统CPI计算公式在发生提替代变化时,由调查员选择同类产品中的替代品,只能反映同类产品的替代效应,而链式CPI则可以反映类似但不同商品之间的替换,比如牛肉价格上涨造成消费者对于猪肉的选择。二是链式加权CPI的计算较为复杂,需要以当期与上一期的消费支出来确认权重,因此公布存在滞后,但大数据时代可以快速获取并处理大量数据,这个问题在具有充足数据来源以及良好的数据处理技术时将不再成为困扰CPI计算的难题。
(三)CPI指数权重设定方法的改进
中国经济发展迅速,居民生活水平以及消费结构变化显著,相对欧美国家而言CPI权重调整理应更加频繁。特别地,随着恩格尔系数的下降,食品权重高估倾向越来越显著,住房类、交通类、文化娱乐等消费开支不断提高。英国、荷兰、瑞典等欧洲国家利用扫描数据实现CPI数据的电子化采集,并据此确定CPI的分类权重,为中国利用大数据设置CPI权重提供了思路,避免采用固定权重计算价格指数产生的误差。通过扫描数据和非扫描数据的结合,可以获得更为可靠的CPI分类权重,同时缩短调整权重的周期,以更准确、及时地反映消费者行为对物价的影响以及季节性因素等对CPI的影响。
关于CPI权重还有另外一个问题,现行价格采集方案尚未纳入网络销售,未能有效利用各大电商交易过程中产生的海量数据,可能降低价格调查的代表性。仅针对实体店采集价格信息,使CPI并非全口径调查,其结果在一定程度上是有偏的。解决该问题的一个简易方法就是利用电商交易消费品价格指数,如阿里巴巴的iSPI指数,对同期CPI进行修正,并根据网购占社会消费品零售总额的比例分配计算权重,具体修正方式如下:
其中,SC表示实体店社会消费品零售额占比,Si表示网络社会消费品零售总额占比,PC表示根据传统实体店调查数据计算得到的CPI指数,Pi表示iSPI指数。实践中,这些数据基本都可以获得,为修正工作提供了良好的基础。在大数据时代,政府统计部门应加强与大型网络公司、电商企业和大数据公司合作,利用其技术、数据优势编制网络价格指数,分配一定的权重,并与现行官方CPI统计体系结合,以得到能够服务于各方面的优质价格指数。
(四)CPI季节调整方法的改进
国际上CPI季节调整技术主要有早期的移动平均法、经济平滑法和季节调整X-11法。随着计算机技术的广泛应用,涌现了 X-11-ARIMA法、X-12-ARIMA法和Tramo Seats方法等。目前,国际通用的调整方法是X-12-ARIMA方法,由美国统计员David Findley在X-11-ARIMA 基础上做改进后提出,能够根据新的交易日和节假日效应做出调整。该方法只是根据美国节假日设计的季节调整模型,中国与美国的假日有所不同,不能直接针对中国的固定节假日(如国庆节和春节等)进行调整。针对中国节日分布,可以对该方法进行适当修正,形成所谓改进的 X-12-ARIMA-BHZ和 X-12-ARIMA-LZ方法。与此同时,大数据条件下通过计算机信息技术每天都能获得海量数据,大量无缺失月度数据为实施改进的 X-12-ARIMA-BHZ 或者 X-12-ARIMALZ方法进行CPI季节调整奠定了基础。
(五)CPI质量变化调整方法的改进
质量调整是CPI统计的难点之一,中国编制的CPI尚未进行质量调整。CPI质量调整方法众多,包括加法调整、乘法调整、重叠法、总体均值或目标均值虚拟、专家判断、链接法和特征价格法等,其中特征价格法目前较为流行,即所谓的Hedonic方法[10]。Hedonic方法基本原理是:第一,产品质量的变化引起价格的变化,商品可观察到的显性价格是其隐性特征的函数;第二,质量特征集的扩大影响价格的主要特征。Hedonic方法通过经济计量模型将产品特征与价格加以量化,从而得出剔除质量变化因素后的价格指数,代表性公式为半对数模型:
其中Zti代表产品i在时期t价格的特征组合。依据上述公式,可以估计出各个特征k在t时期的影子价格βtk,然后可以利用其作为调整CPI质量变化的依据。两种主要的调整方法分别为:一是将影子价格作为选取替代商品的依据。传统CPI计算方法选择替换品时主要由人工根据经验进行判断,通过计算影子价格可以确定何种特征决定产品价格。二是根据影子价格计算调整系数,直接利用调整系数来计算CPI,其主要公式如下:
其中,QAt,t-1是i种商品在t期和t-1期的调整值;βt-1是特征k在t-1期的影子价格;Ztik是产品i特征k在t时期的平均值,而Ztik-1是相应产品在t-1期的平均值,根据调整系数即可算出CPI变化中质量变动因素引起的部分。实践中,采用Hedonic质量调整方法必须获得产品特征的全面信息,在传统数据条件下往往难以实现。大数据为Hedonic方法的实施创造了条件,利用大数据的优势,可以获得销售商品的特征信息,从而计算每个小类的质量调整系数,当得到262类商品的质量调整系数之后,即可用于最终汇总CPI指标。
(六)CPI数据发布的改进
现行CPI数据发布制度还存在不少问题,统计部门应逐步转变观念,强化服务意识,充分利用大数据,不断提高CPI数据发布的详尽度和精细化程度,直至对262个基本项目的价格指数均可获得。利用大数据,统计部门能够对市场价格进行实时跟踪和汇总,提供及时的价格统计信息,通过规模以上零售机构设立联网直报机制,将交易商品价格及物量数据直接从业务系统中抓取,由统计部门迅速汇总、计算,完全可以大大缩短数据发布时间,甚至可以做到每周或每天都可以发布重要的价格指数。同时,大数据为完善CPI分类指数的编制发布提供了基础,甚至使得基本类指数的连续发布成为可能。
四、几点建议
正如英国大数据专家维克托·迈尔-舍恩伯格所指出,世界的本质就是数据,大数据将开启一次重大的时代转型,对数据统计界带来前所未有的挑战与机遇[11]10-12。当前,网络交易对消费物价的影响日益显著,零售终端采用电子化销售设备的普及率也正在明显上升。根据中国互联网络信息中心发布的《2013年中国网络购物市场研究报告》,2013年网络购物市场交易金额高达1.85万亿元,较2012年增长40.9%,网络零售市场交易总额占社会消费品零售总额的7.9%。在这种背景下,针对销售商品的信息呈海量式发展,大数据的格局日渐成形,对CPI统计的影响日益明显。从实践上看,大数据的应用必将对改进中国CPI数据质量提供有力支持,对此,提出如下几点政策建议:
一是要积极拓展CPI统计数据的来源,提高CPI数据的可靠性。通过与大型超市、电子商务平台的合作和数据共享,扩大CPI统计的样本范围,以更准确地反映真实的居民消费物价变动趋势。
二是要大力加强对大数据的开发研究,不断发展CPI统计方法。大数据时代,改进CPI计算公式和权重选取方法,积极探索CPI季节性因素与质量调整方法,提高CPI数据质量。积极发展大数据技术和云计算处理平台,确保统计部门能够真正通过技术处理从海量数据中得到计算CPI的相应数据,增加CPI的科学性和客观性。
三是要努力改进CPI统计的及时性与频率,改进数据发布制度。增进CPI计算的客观性和透明性,公开CPI计算的基本方法和相应产品权重的调整过程,使公众减少对于CPI统计的相应质疑,更好地服务于各类主体的决策。
[1] 马建堂.大数据在政府统计中的探索与应用[M].北京:中国统计出版社,2013.
[2] J David Richardson.Scanner Index for the Consumer Price Index[J].University of Chicago Press,2003(1).
[3] 陈相成,乔晗.扫描数据支持下CPI编制方法的研究[J].统计研究,2013(1).
[4] 乔晗.“大数据”背景下利用扫描数据编制中国CPI问题研究[J].统计与信息论坛,2014(2).
[5] 李世超.利用大数据改革CPI调查方法初探[N].中国信息报,2013-12-17(7).
[6] 郑京平,王全众.官方统计应如何面对Big Data的挑战 [J].统计研究,2012(12).
[7] ILO,IMF,OECD,Eurostat,United Nations,World Bank.Consumer Price Index Manual:Theory and Practice[M].Geneva:International Labour Organization,2004.
[8] 贺凤羊,刘建平.如何对中国CPI进行季节调整——基于X-12-ARIMA方法的改进[J].数量经济技术经济研究,2011(5).
[9] 高艳云.质量调整的价格指数编制中Hedonic插补法的应用[J].数理统计与管理,2010(11).
[10]徐强.价格指数编制中的Hedonic质量调整方法研究[J].财经问题研究,2009(8).
[11]维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代[M].杭州:浙江人民出版社,2012.