统计面临新挑战
2016-03-14白燕燕楚菲菲赵永强
白燕燕,楚菲菲,赵永强
统计面临新挑战
白燕燕1,楚菲菲1,赵永强2
(1.兰州财经大学,甘肃 兰州730000;2.内蒙古工业大学理学院,内蒙古呼和浩特010051)
“大数据”是伴随着网络新技术的发展产生的数据形态,本质上是数据生产、传输和应用的社会化。“大数据”不在于数据量的多少,而是一种“以数据为大”的方法论,对传统统计工作的理念、方法以及价值将产生重大的冲击,对当前统计管理体制、机构设置、数据价值等形成了挑战。政府统计应当借助于“大数据”所带来的有利条件,从优化统计机构设置、推进统计业务数据化,提高数据挖掘分析能力等方面加快推进政府统计的改革。
大数据;统计;数据挖掘
1 数据的发展
1.1当代大数据的特点
在当代世界,网络上越来越多的数据是在我们周围不断增多的电子设备传感器上产生的。随着数据的数量和频率的增加,“大数据”的概念应用而生。其特点是数量巨大(volume)、增长迅速(velocity)、形式多样(variety),即3V的特点。大数据主要是非结构化的数据,这意味着它没有预定义的数据模型,并且不同于传统的关系数据库。大数据除了在私有企业创造新的商业机会外,也可以将有趣的官方统计数据作为输入,或者结合如抽样调查和行政登记这样更传统的数据源进行分析。然而,收集的信息用大数据方法合并成一个统计生产过程并不容易。因此,本文将试图解决两个基本问题,即What和How:国家统计局应该注重什么样的子集大数据并给予官方统计?国家统计局如何利用大数据并克服它所带来的挑战?
1.2统计的可靠性
数据革命是跟踪并储存人们产生的行动、选择、喜好,以此来了解他们的日常生活。官方统计数据也会持续产生有关信息,使之产生一个获得丰富深入了解人类社会经验、补充以往收集到的数据指标的巨大机会。
相比传统的官方统计资源,大数据方法会产生相关性更强、即时度更高的统计数据。官方统计不是完全依赖调查数据收集,而是依靠政府项目管理来获取数据。对于数据的获取,国家显然比私营企业容易,因为国家统计局的特权往往来源于立法。
2 大数据对统计的冲击
大数据现象使我们认识到,我们的世界现在已经充满数据。因此,官方统计的意义是不容忽视的。而我们需要解决的一个问题是,大数据如何能帮助我们预测更准确及时的经济、社会和环境等现象?这是官方统计所面临的挑战。
2.1统计的定义
统计的定义是由官方统计的基本原则来界定的,其原则是民主社会信息系统不可或缺的重要元素,它提供有关经济,人口,社会和环境状况的数据。官方统计服务于政府,经济和公众。到目前为止,国家统计局(NSO)和国际组织(IO)主要由两种方式产生数据:抽样调查和存储器中的管理性数据。大数据来源主要分为以下几类:行政(产生于对计划的管理,无论其是否为政府)。如电子病历,医院探访,保险记录,银行记录,食品银行等;商业或交易 (两个实体之间所产生的交易)。如信用卡交易,在线交易(包括移动设备)等;传感器,例如卫星图像,道路传感器,气候传感器;跟踪设备(移动电话、GPS跟踪数据);行为,在线搜索(关于产品、服务或任何其他类型的信息)网络页面视图等;主观观点(社会媒体上的评论等).
行政数据是国家统计局(NSO)用于统计目的的主要数据来源之一。行政数据被收集于统计办公室,并应用于官方统计。管理数据按统计局规定,周期性收集并应用于官方统计。传统上,国家统计局用结构化的方式进行公共管理、处理、存储和使用。
2.2统计使用大数据所面临的挑战
大数据在官方统计中的使用面临一些挑战,主要的挑战类型有以下几个方面。立法,即相对于数据访问和使用的权利;隐私权,即管理公共信托和接收的数据再利用它链接到其他来源;金融,即采购数据的潜在成本与效益;管理,即有关数据管理和保护的政策和指令;方法论,即数据质量和统计方法的适用性;技术,即与信息技术有关的问题。
2.2.1法律的局限性
在一些如加拿大这样的国家中,法律提供从政府和非政府机构访问数据的权利,而其他如爱尔兰这样数据的权利。这可能会引起访问某些类型大数据的局限性。国家统计局(NSO)访问数据的权利,原则上应该由法律来建立,但是往往没有特定法律条款来充分维护数据拥有者的权利。即使立法提供访问所有的数据类型,用于访问统计数据的目的在某种程度上可能还需要证明,这不会因国家的不同而不同。
2.2.2隐私的保护
定义隐私可能因国家而异,但一般定义为个人的权利,它是一种可能会被泄露的信息,能用来控制或影响个人的工作和生活。就像公司一样,希望保存他们的竞争力,保护他们的消费者。隐私是民主的支柱。大数据的问题,是服务和设备上以用户生成的数据很可能没有被大众意识到,或者不知道这些数据可以用来做什么。这样的数据将会积成更大的数据天池,引发个人的隐私问题。
2.2.3潜在成本与权益的权衡
国家统计局获得数据可能需要付出代价,尤其是获取私营部门的数据。如果立法对采集周围外部数据的财务模式保持沉默,国家统计局就必须做出正确的决定,以平衡质量(其中包括相关性,及时性,准确性,一致性,可访问性和可解释性),减少成本,从而减轻财政负担。大数据的成本可能对国家统计局是一笔很大的花销,但其潜在的收益远远大于成本,并且大数据可能会提供相关信息,以提高政府工作的效率(如医疗系统)。政府的采购规则也可能因此发挥作用。美国科技基金联邦大数据委员会(TechAmericaFoundation'sFederalBigdataCommission)在美国的一次报告中指出,转型大数据的成功在于,了解一个特定机构在关键业务中的需求,并根据这个需求去制定正确的方法,以此来利用可能的手段,采取侧重于服务的措施,以达到有利结果。2.2.4方法论的新要求
行政数据存在的问题,是大数据根本问题的代表。而对于大数据,数据是第一位的,接着官方统计学家就会对应建立一个数据框。这就提出了一个问题,产生一个连贯综合的国家官方统计体系的方法是唯一的么?
另一个问题是IT方法论。面对越来越多需要分析的数据,传统的统计方法对小样本的透彻分析也会有困难。在最简单的情况下,它们也是不够快的,所以需要新的统计分析方法和工具:从大量数据中发现有价值的信息的方法。如数据的可视化的方法,文本数据流挖掘技术,都能从大量的数据中提取有价值的小部分数据,在信息统计整合的过程中能够发现方法。如大规模的关联,宏微观一体化等统计方法。这些方法都特别适合大型的数据库。需要注意的是,方法是需要开发的,我们要做的就是在它使用于大型的数据库时,可以迅速的产生可靠的结果。
对于数据采集这一板块,大数据时代提出了收集和整合不同来源、不同类型数据的可能性。在不久的将来,利用组合的数据源来产生新的信息是特别有趣的一种挑战。结合“传统”的数据源(诸如调查数据和管理数据),用新的数据源提供机会来描述“智能”社区的行为,将又是一个未开发的领域,由此,可迎来新的机遇。
3 大数据在官方统计中的使用
探索得到的大数据对于官方统计潜在目的的可行性研究包括使用信息和通信技术 (ICT)的统计,在信息社会利用互联网流量来汇总数据的可行性研究。欧盟统计局的目标是在试点评估“以用户为中心”和“以网络为中心”的测量方法的可行性。
3.1交通和运输统计
在荷兰,一天大约产生8000万的交通循环检测记录。这些数据可以作为交通和运输统计的信息来源,也可能用于对其他经济现象的统计。该数据的提供非常精细,更具体地说,在荷兰的道路有超过1万个检测回路,这些回路每分钟对过往的各类车辆的长度和数量为指标来计算。长度类别的不同使得汽车和卡车产生差异。而这个分类严重的受到覆盖面和选择性的影响。检测到的车辆数不适用于每分钟,因为不是所有的荷兰道路都有检测回路。即使在最详细检测下,各个环路检测到的车辆数目也是不稳定的,这说明我们需要一个更好的统计方法。从大量数据中获取信息是统计学上的一个重大挑战。这些数据的充分利用,预示着有关经济发展的更详细的交通信息将能得到更快更可靠的统计。
3.2社交媒体数据统计
在荷兰每天大约产生100万的公共社交媒体信息,这些信息可提供给任何使用互联网的人。在社会化媒体上,人们自愿分享信息、讨论感兴趣的话题、联系家人和朋友,这些其实都可作为数据源。为了回应社交媒体是否为一个有趣的可进行统计的数据源,荷兰统计局从两个方面研究了荷兰社会媒体的消息,即内容和情绪。荷兰统计局在Twitter(在研究荷兰社会化媒体时,Twitter是主要的公共社交媒体)上的信息内容,大约50%的信息是无意义的,其余的信息主要讨论了业余时间活动(20%)、工作(15%)、媒体(电视和广播10%)、政治(5%),更严重的是“胡言乱语”阻碍了有用的信息,而且这些对文本挖掘的方法也有负面的影响。社会媒体信息决定的情绪透露了一个对统计数据源来说很有趣的潜在用途。荷兰社会媒体消息情绪被认为与荷兰消费者信心高度相关,特别是对经济形势的看法。这些关系在每月和每周是非常稳定的。但是,日报数据显示出这是极不稳定的行为。这些都突出强调了消费者信心的周线指标可能是继上周研究的第一个工作日产生的,这展示了快速传递结果的能力。
大数据与官方统计的结合,代表了一些类似于已经在过去的几十年中涉及的使用管理数据和官方统计数据的情况。与众不同的是,其对结合两者所做的统计建模可能有更广泛的应用。这样,可在维持官方统计的质量下,增强他们从大数据中获得接近实时的测量效率。
4 结论和建议
使用大量的数据并不是一件容易的事。在数据探索阶段,大数据与结构化数据相比较将花费大量的时间。其结果是,“新”的探索和分析方法是必需的。因为很多的方法都存在,并且已经使用,但是在官方统计领域它是新的。例如可视化方法,文本挖掘,以及高性能计算。
虽然国家统计局的很多统计人员都积极参与到了大数据技术方面,但大数据技术方法仍是私营部门的最重要的需求。官方统计需要合适的大数据分析工具和系统,这必然要求国家统计局参与其中。国家统计局与私营部门之间的协同效应不仅限于技术问题。国家统计局与私有数据源的业主合作是至关重要的,它触及敏感问题,如隐私、诚信、企业的竞争力、国家统计局的法律框架等。在这一领域中,授予国家统计局特权进入采购私有的大数据,处理一些问题应该是优先行动的一部分。
使用大数据,需要用不同的思维方式并拥有新技能的统计人员。官方统计需要可以处理更多数据、善于统计分析、拥有统计思维方式的人员,因为处理数据和IT技术(如编程技巧)密不可分。除此之外,这类人员还需从数据中提取有价值的“知识”的能力。虽然大数据统计和“数据科学家”普遍存在长期的技术问题,但可通过大学课程的调整来解决(有些大学已经开始提供相关的课程),从短期到中期而言,国家统计局应经过专门培训来发展必要的内部分析能力人员。这样,对国际合作及对官方统计界都是非常有益的。
[1] 维克托·迈尔·伯舍恩伯格,肯尼思·库克耶.大数据时代[M].盛杨燕,周涛,译.浙江人民出版社.
[2] 马建堂.大数据在政府统计中的探索与应用[M].中国统计出版社,23013,10.
[3]Exploiting'Big Data'for Policy'for the 9th meeting of the OECDCommitteeonStatistics,2012.
[4]Using Adminis trative and Secondary Sources for Official Statistics-AHandbook of Principles and Practices,UNECE publication,2012.
[5]Bollier,D.The Promise and Peril of Big Data,The AspenInsti tute,WashingtonDC,2012.
[6]Manyika et al.‘Big data'The next Frontier for Innovation,Competition and Productivity'McKinsey Global Institute,2011,May.
[7]The Conference Board,The Conference.Board Help Wante dOnLineDataSeriesTechnicalNotes,2011.
[8] 原鹏飞.国际官方统计打会论文综述[J].统计研究,2013,30(5):105-112.
G644