瑞典CPI 编制中扫描数据的使用与价格采集研究
2011-08-09胡雪梅李文博
胡雪梅 李文博
(东北财经大学研究生学院,辽宁大连116025)
一、前言
随着各种扫描设备在商贸场所的普及使用,许多国家的统计部门开始着手考察扫描数据在指数编制中的有效性,以食物或日常消费类项目入手,大量资源被投入到销售网点的价格采集上。
2009年,瑞典统计局发现在整理扫描数据的过程中,价格采集的失误以及货架、包装中频繁变化的价格信息会致使测量偏差频发。因此,如何有效使用扫描数据并降低待估价格的标准误、提高统计质量并符合欧盟和国内的统计制度,是当今扫描数据有效性研究的重点。
二、扫描数据概述
(一)数据简介及其产生流程
扫描设备输出的数据通常用EAN码系统表示,EAN码是一种用于给销售网点中卖出商品标号的国际编码系统。开始的2~3位数字确定了生产商注册的国家,接下来的4~5个数字指明该公司编号,末位数字则用于说明该产品的类别。但是EAN码并不包含产品本身的信息,像品牌、重量、标签等信息是由销售的收银系统存储的。每个扫描出售并贴有EAN条码的商品,都会在此销售网点的收银系统储存其全部信息。然后这些数据(扫描数据)就会定期地传送给该销售连锁机构的总公司,并作为原始数据汇报给国家统计研究所(NSI),满足统计需要。
瑞典统计局研究发现,每个商业连锁都有特定的数据格式,也即每个连锁商店都需要根据自己编辑的程序量体裁衣。如与EAN码不同,打折优惠券拥有一套独特的条形码,当顾客给出优惠券时,条形码作为独立项目会在收银系统中登记,而价格的优惠部分会在收据上单独打印。
调查结果表明,若一种商品永久退出生产线,其EAN码可以在一段时期后再次利用在其他商品上。这个过程需要一年以上的时间,所以理论上不会引起混淆。
(二)研究背景
瑞典统计局的Dalén在1997年一次实验中率先研究了扫描数据。该研究设计了4×4的实验,分别将固定权数与单位值进行比较,单元值与月度单位值进行比较,直接指数与月度链式指数进行比较,拉氏指数与费希尔指数进行比较。比较四个条目组(油脂、洗涤剂、早餐麦片和速冻鱼)时使用的是尼尔森公司瑞典数据库的扫描数据。尽管瑞典第一份关于“用于CPI计算的扫描数据使用”的报告描绘了进一步工作和拓宽实验的前景,但是却没有后期跟进。Donmyer等(1991)指出,与此类似的是1972年俄亥俄州辛辛那提市的一家克罗格商店首次把扫描生成的销售记录与人工审计数据作出的比较,结果表明对于诸多条目和商品来说,扫描出的销售业绩相比之下更胜一筹。
Leaver、Larson(2001)发现,在使用尼尔森价格信息的纽约大都会区,美国劳工统计局给每个单独的项目计算了一个以扫描数据为基础的几何价格指数作为实验用检验指标。Richardson(2003)认为,这种检验指标“把初级扫描指标(只用扫描数据)和CPI数据中非扫描总体构建的指标联系在了一起”。这种实验用途的CPI是一种额外的指数,并且不会代替官方的CPI。
追求指标编制领先水平的荷兰统计局在2002年直接使用通过匹配项目得到扫描数据的方法来计算指标;2010年后,其CPI系统大规模并定期地推广这种理论。
澳大利亚统计局(ABS)为改善官方统计,一直致力于研究扫描数据,尤其是CPI体系,他们使用来自A.C尼尔森数据库的信息来构建扫描指标(Alcausin等,2002)。
Rodriguez、Haraldsen(2006)的研究表明,为了计算出CPI中食物和软饮料分类指数,自2005年8月起,挪威统计局开始使用全面的扫描数据信息。计算过程涵盖14000多个条目的价格信息,相比之下早年的非扫描数据系统只有250个项目。每月价格浮动在新系统中表现更明显,尤其是对那些随着季节变化营业额和价格波动很大的商品。
英国国家统计局(ONS,2006)申明其“一直以来都在探索电子扫描数据采集价格的可能性”。然而使用从商店直接得到的扫描数据已让其意识到按月净化这种数据会成为一项巨大而耗资的工程,而且问题数据极可能存在风险。因此该局正在调查其他方法,如价格指标的计算以及从大量家庭中收集的扫描数据的权重。
Muller等(2006)研究发现,在市场研究机构获得各种条目的价格信息后,瑞士联邦统计局也在力求研究直接应用扫描数据计算指数。2008年该局首次推广CPI编制中应用扫描数据,2010年则将该方法继续推荐给更多零售商。问题可能影响指标计算中扫描数据的应用,即:(1)超市连锁规模的大小会影响扫描数据的质量并且统计局不得不依赖于超市每月回馈数据的意愿;(2)对数据结构以及超市网络IT系统具体特点的了解不够充分;(3)尽管备有软件,但需及时更新与超市网络连接的补丁程序。
三、扫描数据的应用方法简介
(一)使用扫描数据代替人工价格采集
计算该指标等同于将此法用于全国CPI的计算过程,即原集中的杰文斯指数(Jevons index)。采集零售商店的普通样本时,零售商店和产品的样本可以远大于目前的实际容量(瑞典统计局拥有50个采价网点和3×400个采价产品),较大标准差可在小成本的条件下降低(如果扫描数据是免费得到的)。
(二)将扫描数据作为辅助信息使用
人工收集的小样本会产生待估价格标准误波动过大,对大样本或者总体来说,将扫描数据作为辅助信息可以减少这个标准误。步骤如下:
1.使用扫描数据计算出一个价格指数;
2.在有高品质测量方法的零售网点的一个小样本中手工收集价格;
3.使用手工收集的价格和扫描数据价格的平均比率来调整扫描数据价格指数。
(三)通过产品普查的扫描数据记录计算指标
瑞典统计局承认通过产品普查的扫描数据记录计算指标也许会存在一些问题。首先该局并不确定NSI工作人员是否拥有足够的知识,将超过一万种产品按其消耗用途正确分类。其次是瓶装水的储备、软饮料和啤酒并没有从价格体系中撤出,也即存款成本在指数计算上的估算发生变化,这与法规不符。第三,代替品不能被自动处理,比如说,一整包餐巾纸的数量减少而价格维持不变时,必须做出数量上的调整。
(四)在审计与质量控制中使用扫描数据
NSI可以使用扫描数审查手工价格采集。手动采集价格过程存在测量误差,其出现的频率与教育、人工操作、测量仪器、监督等因素的运作有关。
四、CPI体系中扫描数据与人工采集数据的比较
从2008年开始,作为研究对象的瑞典零售连锁商店约提供了49600个产品样本,这些连锁商店是通过扫描数据中的EAN码来识别的。这意味着手工价格采集的目标样本中的39%是为食品设计的,其他的日用品样本则要根据特定的总体来确定。
表1显示了扫描数据与普通价格采集数据中匹配成套项目的最终结果。不等的价格类别(10.7%)包含着不同程度的差异。
表12009 年1月—11月扫描数据(SD)与手工采集价格(MCP)的对比 %
手工采集中有10%的产品不包含在扫描数据中。这个类别至少由因两个原因不出售的产品组成。其一,如果条目描述是模糊的,一些价格采集者就会决定收集那种他们无意中得到而其他人却热衷收集的产品的价格。其二,即使商店中还有存货,商品在一周的销量也为零。当产品销量较小并且产品供给价格显著提升时,后一种情况可能发生。
现存问题是一些零售商店中手工收集时没有出现却在扫描数据中出现的产品的大部分信息在整个月份当中是“缺失”的,而这些信息在其他商店中却唾手可得。没有及时更新产品的EAN码是对这种差异的一个合理解释。瑞典统计局使用两年期样本来生成产品样本并在当年使用的做法会导致一部分EAN条形码滞后。NSI若想得到较准确的对比结果,就要定期更新EAN码。
食品和日常消费品价格指数是在每年1—11月计算出来的。一个指数可以根据手工收集的126300种产品组成的体系计算而成,也可以通过使用扫描数据代替49600个产品的方法来计算这个指数。
表2 2009年大部分日常用品的每月价格指数 %
注:基期为2008年12月
扫描数据指标与普通CPI之间的不同显示出了一个非常重要的差异:在0.1~0.2之间的扫描数据比普通指数要低一些。必须强调,扫描指数基础仅来自一个连锁商店,这意味着当扫描数据代替人工价格采集的数据时,其他销售网点的这个差异也许会更大。2010年3月,瑞典统计局对选定的采价网点进行了审计考核,通过把手工价格采集数据与扫描数据进行对比发现这个网点中有20种产品存在价格差异。
五、结论
(一)欧盟理事会关于消费价格指数统一的规定
欧盟内部的CPI计算指南是从理事会条例(EC)中总结出来的。委员会条例(EC)No 2602/2000第三段规定:“用于HICP的价格必须是在货币交易中由家庭实际支付的、用于购买个人商品和服务用途的购买价格,在标准价格和收费的折扣或非购买高峰期减少之后,包括产品的税费及补贴,并且在信贷合约及非购买行为发生期限内付款的情况下,扣除利息和附加服务费。”对于瑞典手工采集指南来说,价格采集者必须检查那些排除了任何制造商或支持优惠的零售商、折扣、会员优惠、攻击者或者退款的价格。
文件No 2602/2000的一个基本要点就是:统计局可以把扫描数据的使用作为一种采集方法,并进行下一步研究。对于其在国民账户中的使用来说,交易价格必须是注册过的;对提供的产品而言,扫描数据衡量了交易价格,这说明其比手工价格采集更有优势。
(二)扫描数据在瑞典CPI编制中现存问题的解释
日常消费品价格浮动的统计质量是根据抽样框的缺陷性、产品与商店类型的权重、抽样误差、测量误差等因素进行评价的。瑞典统计局使用的是商店和产品的抽样概率。因为在大多数统计中,抽样误差可以估计,其他来源的误差则不能,并且不能把它们简单地假设为随机生成的误差。如果目标参数是每月平均价格,那么为期一周或三周的平均价格优于每月价格,因为抽样时间点不同而产生的误差减小了。
来自连锁零售商店的数据并不包括会员优惠或者组合优惠,扫描数据也要刨除上述项目。我们必须假设手工采集的价格中存在测量误差。为了减少误差,瑞典统计局在价格采集者的教育、指导手册、测量仪器以及审计上投入更多的精力。
两个原因造成了手工价格采集中出现的产品中的10%没有在扫描数据中出现:其一,出售量较小的产品在一周内可能“随机地”滞留了;其二,一种产品的价格明显上涨使得消费者选择了另外的代替品或者另一家商店。这样从扫描数据中得出的价格观测值可能与指标的参数相关。这种缺失值不可忽视并具有一定风险,可能与一些统计推论相违背。没有证据表明扫描数据存在这样的影响。但假设这种影响存在,它在基期和报告期很有可能具有相同的规模,并且二者在一定程度上可能抵消。
作为质量保证的一部分,瑞典统计局将一直致力于发展将价格采集误差最小化的工作,因为CPI是一个重要的经济指标,必须在准确而可靠的价格基础上计算得出。
[1]Alcausin,G.,Anderson,M.,Khoo,J.and Tallis,K.(2002).Scanner Data in CPI Research and Compilation.Australian Bureau of Statistics.International Association of Official Statistics.Official Statistics and the New Economy.London.
[2]Dalén,J.(1997).Experiments with Swedish Scanner Data.International Working Group on Price Indices.Voorburg.
[3]ONS,Office for National Statistics.(2006).The consumer prices methodological programme:progress in 2005 and prospects for 2006.Economic Trends 627.
[4]Rodriguez,J.and Haraldsen,F.(2006).The use of scanner data in the Norwegian CPI:The”new”index for food and non - alcoholic beverages.Economic Survey,4/2006