利用扫描数据编制CPI的国际经验及启示
2017-07-06丛雅静
丛雅静
(国家统计局统计科学研究所,北京100826)
利用扫描数据编制CPI的国际经验及启示
丛雅静
(国家统计局统计科学研究所,北京100826)
在大数据背景下,大数据对政府统计的理论方法和生产方式必将产生影响。文章介绍了扫描数据的基本内涵,并通过部分国家利用扫描数据编制居民消费价格指数的经验,提出在大数据背景下,我国政府统计利用扫描数据编制居民消费价格指数的几点建议。
扫描数据;CPI;国际经验
0 引言
大数据是“一场生活、工作和思维的大变革”,“大数据已经撼动了世界的方方面面,从商业科技到医疗、政府、教育、经济、人文遗迹社会的其他各个领域。”[1]一旦大数据为政府统计所用,政府统计的生产方式必将发生变化,促使政府统计各专业领域有所作为。大数据既是重要的数据源,又可以为政府统计提供辅助验证的依据。扫描数据作为大数据的一种,在居民消费价格指数(CPI)统计中恰恰可以承担这个角色。伴随着各种现代信息技术的蓬勃发展,扫描设备越来越普及,已渗透到日常生活的各个领域,扫描数据在体量上获得了巨大的增长。本文将介绍瑞典等国在CPI编制中使用扫描数据的经验,并在此基础上提出大数据背景下扫描数据应用于CPI的几点建议。
1 扫描数据
扫描数据,即Scanner Data。扫描数据看似新鲜事物,其实由来已久,而且每天都与人们的日常生活产生联系。当人们进入商场或者超市消费时,商品林林总总,每个商品包装或标牌上会有一个不同的条形码,结算的时候只要扫一下它,就可以在购物小票中清晰地看到商品的名称、价格、数量和折扣信息。扫描数据就是通过扫描这些条形码而得到的数据,它里面记录着产品名称、产品型号、产品编号、交易价格、交易数量、交易金额、交易时间、交易地点、产品特征等详细信息,构成了扫描数据的主要内容。
现在的扫描数据不单单是通过条形码来表现的,如二维码也是扫描数据的重要形式。随着信息技术的不断发展,扫描数据的种类和数据量越来越多。尤其是近几年,大数据、云计算、物联网等现代信息技术得到广泛应用,扫描数据也随之迅速扩大。
从条形码、二维码转变成扫描数据的过程中,除了扫描器,国际通行的EAN码(European Article Number)也起到了至关重要的作用。EAN码由前缀码、厂商识别码、商品项目代码和校验码组成。前缀码是由EAN组织分配的,而其他代码则是由厂商根据商品类别的不同而决定的。EAN码之所以流行并成为一种通用的代码,最大的优势在于唯一性。即每个商品有且只有一个唯一的EAN码,以便辨识出不同的商品。如果某一种商品逐渐退出市场,其EAN码即使被重新运用到新商品上,中间也会有一个较长的时间间隔,以避免商品混淆。
EAN码和扫描器加上零售商的电子交易系统,就可以形成扫描数据。商品的条形码相当于植入“芯片”,但“芯片”上并没有商品的品牌、重量等。只有商品经过零售商的电子交易系统记录下交易时间、交易地点、交易价格、交易数量等,才能成为有意义的扫描数据。
由于条形码具有简单、便捷、成本低等优势,现在条形码广泛存在于商品流通、物流仓储、图书管理、银行等生产生活的各个部门。伴随着条形码的普及,扫描数据每天都以亿为单位在急速增长。尽管扫描数据的规模不断扩大,但大部分扫描数据多是满足于超市、商场等部门的日常管理需要,扫描数据的价值还远远没有被挖掘出来。
2 利用扫描数据编制CPI的国际经验
2.1 瑞典利用扫描数据编制CPI的实践
在将扫描数据用于CPI编制之初,学者们虽然进行了一定的理论探讨,但都没有在实际操作中得到验证。1997年,瑞典统计局的Dalén利用油脂、洗涤剂、早餐麦片和速冻鱼的扫描数据试编了CPI,并指出即便扫描数据满足采价的基本原则,但是如何让其反映真实的价格水平也存在很多困难,因为在当时没有理论支撑也没有实践案例可供参考。在研究中,通过比较固定权重与根据商品重新计算权重、拉氏指数与费希尔指数等方法之间的差别,发现扫描数据既可以通过增大样本量等方式提高数据质量,又可以大大节约数据采集成本[2]。虽然这次运用扫描数据编制的CPI并未发布,但这是政府统计领域第一次开始进行扫描数据应用的探索。
随着扫描设备的逐渐普及,瑞典开始从日常消费品入手重新重视扫描数据的作用。在瑞典,大多数零售商品是通过超市和一般杂货商店进行销售的,销售网点的收银系统会自动记录商品的交易信息,这些交易信息以扫描数据的形式定期传送给零售集团。因此,只要与大型零售企业合作,就可以获得扫描数据,使其成为计算价格指数的原始数据。瑞典统计局直言,采价方式的改变直接影响了指数的计算方法。
在瑞典CPI统计调查中,代表规格品的选择与国际通行做法基本一致。目前,瑞典的CPI是基于瑞典4个主要零售集团全部销售网点的零售扫描数据计算的。按市场份额划分,瑞典的4大零售集团依次为Axfood、Bergendahls、Coop和ICA,每个集团旗下包括众多超市品牌。据估计,这些扫描数据占所有超市销售数据的80%以上。自2008年12月份开始,瑞典的零售商通过Email的形式把扫描数据定期提交给瑞典统计局。采价一月三次,其中一次为每月15日所在的那一周,其他两次分别向前和向后推一周。在瑞典零售商提供的扫描数据中,内容涉及零售网点、交易时间、商品名称、商品规格、商品销售量等,其中商品的EAN码分为不包含增值税、扣除折扣但并未扣除手续费的;包含增值税,不包含折扣但手续费未扣除以及增值税、折扣和手续费都在其中的三种。在商品种类上,除了蔬菜、水果、面包、猪肉等生鲜类食品外,其他的日常必需品基本都被扫描数据涵盖其中。
扫描数据报送给瑞典统计局后,瑞典统计局对数据进行清洗,这类似于传统统计调查中的数据整理过程。即数据首先需要通过电话回访等手段进行核实,但这样做成本太高,所以通常采取的做法是去除异常值,不过,目前瑞典统计局还没有对扫描数据这么做。
瑞典统计局分别测算了2009年和2010年扫描数据和人工采价两种方式下的CPI,见图1。
图1 瑞典扫描数据与人工采价两种方式下的CP|对比数据来源:Anders Norberg,Muhanad Sammar,Can Tongur.A Study on Scanner Data in the Swedish Consumer Price Index,Twelfth meeting Wellington,10-12 May 2011。
可见,使用扫描数据测算的CPI都略高于人工采价方式测算的CPI。在代表规格品既有人工采价也有扫描数据的情况下,2009年大约83.4%的代表规格品在两种采价方式下的价格是相同的,2010年86.2%是相同的[3]。但瑞典统计局认为最终测算的CPI差异主要受价格基期和月度随机的影响,2010年两者之间的指数差异明显缩小,所以瑞典统计局认为扫描数据代替人工采价方式测算CPI是明显可行的。
2.2 其他国家利用扫描数据编制CPI的实践
除了瑞典外,很多国家的政府统计部门也开展了扫描数据的应用。2002年,荷兰统计局率先将扫描数据应用到消费价格的编制当中。经过十多年的发展,占全国销售额一半以上的几家大型连锁超市基本都和荷兰统计局建立了联系,扫描数据的应用也日益成熟,扫描数据在规格品种类扩大、权重调整、调查成本节约等方面都表现出了极大的优越性。2010年以后,荷兰统计局开始推广利用扫描数据编制CPI的理论方法。
2005 年,挪威统计局运用扫描数据挑选了14000多种代表规格品,这在人工采价方式下是不可能完成的。挪威统计局计算了食品和非酒精饮料的价格指数,改进后的指数更能有效反映市场波动和季节性变化。目前,在挪威的CPI编制中,扫描数据占30%左右。
在指数编制过程中,扫描数据的使用帮助政府统计部门克服了权重调整、质量调整等很多难题。后来,瑞士、澳大利亚也都陆续将扫描数据纳入到他们的指数编制中。2008年,瑞士统计局以食品类商品为主要对象,与连锁零售商建立联系,通过互联网将扫描数据传送到统计局。经过不断地尝试,瑞士统计局陆续与更多的连锁超市建立了合作关系,并将规格品的种类和范围进行了扩大。自2012年开始,澳大利亚统计局开始正式收集扫描数据,每周商品零售商(如TESCO)会通过文件的形式将这些数据传送给统计局。但由于每个零售商的商品分类不尽相同,所以需要统计人员对数据进行重新分类。经过一段时间的测试和评估,扫描数据逐渐代替了13000个代表规格品,约占所需数据的85%。澳大利亚统计局运用扫描数据编制的CPI于2014年正式开始发布。
2.3 简评利用扫描数据进行CPI编制
通过瑞典等国利用扫描数据进行CPI编制的经验来看,扫描数据的优势有:一是节省成本。据瑞典统计局测算,如果全部使用扫描数据代替人工采价,每年能节省约50万克朗。二是提高效率,扫描数据的采集比人工采价方式更节省时间,瑞典统计局每个采价员平均需要1.5分钟完成一个代表规格品的采价,扫描数据可以实现同时大规模商品价格的采集。三是提高数据质量,因为与人工采价方式相比,扫描数据的代表规格品和调查网点都大大增加,从而使得数据质量有所提高。同时,在采价过程中,采价员的失误、货架和商品包装的调整都会影响采价结果,而扫描数据可以有效规避这些问题。四是改善统计方法。扫描数据可以作为辅助信息验证CPI的数据质量。通过比较扫描数据计算的CPI与传统人工采价计算的CPI之间的差异,校准CPI。瑞典统计局发现,使用扫描数据的价格信息比之前人工采价的信息更好,因为零售商收银系统记录的扫描数据提供的是给定的周平均价格,而人工采价提供的是给定的某一天的价格,运用周平均价格计算的月平均价格比按照某几天确定的月平均价格更为准确。
除了优势外,扫描数据在应用过程中也存在一些问题,主要有:一是如果在规定的报送时间内,某一种代表规格品并没有交易发生,零售商的交易系统中就没有这种代表规格品的价格,从而成为缺失数据。但这种情况在人工采价方式下是不会出现的;二是扫描数据整理编辑难度大。一方面,与人工采价方式相比,扫描数据格式不统一。每个零售商的数据格式都是为自身管理发展需要服务的,不同零售商之间的数据格式和产品分类差异较大。所以在扫描数据收集上来以后,需要统计部门对每一个零售商的数据进行重新编辑。另一方面,如果商品涉及到打折或者混合促销,商品的EAN条形码可能会有所不同,从而造成混淆,需要对数据进行清洗。因此,对扫描数据的整理编辑可能并不像瑞典统计局说的那么容易,比如英国的国家统计局一直在探索利用电子扫描数据进行采价,但他们认为从零售商手中得到的扫描数据按月进行清洗和编辑的难度和工作量是很大的,如果不进行这一过程,CPI的测算结果就是有偏差的。
3 利用扫描数据,完善CPI统计调查
大数据时代为扫描数据提供了广阔的平台。大数据量大、源多和速度快的特点,扫描数据全都具备。扫描数据的体量自不必说。从来源来看,扫描数据可以涵盖所有具有条形码或二维码的正规商品,在扩大数据源方面潜力巨大。在速度方面,只要技术条件具备,扫描数据可以轻松的实现实时获取。此外,扫描数据还有很多其他优势。比如,扫描数据更真实准确,扫描器会将商品的所有交易痕迹保留下来,扫描数据代表的是实际交易价格,这对政府统计部门来讲至关重要;扫描数据更有效率,可以大大减少采价员的工作量,而且也会减少企业不配合的情况,提高政府统计工作的效率。
在我国的政府统计部门,扫描数据是比较新的数据源。目前,我国CPI主要包括八大类,涵盖食品、服装、医疗、通讯、住房等多个方面,调查范围包括零售店、市场摊贩、医院、学校、邮局等公共服务部门以及互联网公司。随着电商企业的兴起,网购商品和服务的规模日益扩大,越来越多的企业单位采用电子计价系统,CPI统计调查的基础与环境都发生了新的变化。
在大数据时代,可以将CPI统计调查中的数据源分为三类:一是传统价格网点的价格数据,如农贸市场;二是网上电商的交易记录数据;三是电子计价单位的实时交易记录数据,如商场、超市、医院、民航、铁路等企业单位生产经营的电子记录。与扫描数据相关,目前最为迫切要解决的问题是研究建立商场、超市等电子计价单位交易记录直接报送制度,将电子计价单位的实时交易数据纳入CPI调查,应用扫描数据补充和丰富CPI统计调查的数据源,改进价格采集及计算的方法和手段。但是,与欧洲的小国相比,我国的CPI统计调查情况较为复杂,在广大的农贸市场和农村,扫描数据还没有得到普及。因此,可以首先在有条件的地方选择部分试点单位(如商场、超市),采集扫描数据。而且,尽管同一商品具有唯一的条形码,但是商品部分信息是由销售企业来确定的,所以,在使用扫描数据之前,要研究改进电子计价单位的商品分类,可根据联合国《按目的划分的个人消费支出分类标准(COICOP)》以及现行CPI分类标准,细化扫描数据的类型和特征,满足改进和完善CPI统计的需要。在一段时间内,扫描数据将和人工方式采集的数据一起为我国的居民消费价格统计服务。
[1][英]维克托·迈尔-舍恩伯格,库尔耶.大数据时代[M].杭州:浙江人民出版社,2013.
[2]Dalén J.Experiments With Swedish Scanner Data[J].International Working Group on Price Indices,1997.
[3]Norberg A,Sammar M,Tongur C.A Study on Scanner Data in the Swedish Consumer Price Index[J].Twelfth Meeting Wellington,2011.
(责任编辑/亦民)
International Experience and Inspiration of Using Scanned Data for CPI Compiling
Cong Yajing
(Research Institute of Statistic Science,National Bureau of Statistics,Beijing 100826,China)
In the new era today,big data will definitely effect some impacts on the statistical theory and the production mode of official statistics.This paper firstly introduces the basic connotation of scanned data.And then the paper utilizes the experience of some countries using scanned data to compile the consumer price index(CPI),and presents some suggestions about how China properly uses scanned data to compile the CPI at the background of big data.
scanned data;CPI;international experience
C829
A
1002-6487(2017)11-0031-03
全国统计科研项目(2013LX12)
丛雅静(1986—),女,内蒙古宁城人,博士,副研究员,研究方向:大数据与政府统计、宏观经济、区域经济。