统计学在大数据时代下面临的挑战
2016-03-21杨程
杨程
山西大同大学(大同 037009)
统计学在大数据时代下面临的挑战
杨程
山西大同大学(大同 037009)
面对大数据科学潮流,统计学与数据科学之间又有着怎样的联系呢?本文以科学探讨的态度,详细分析当下大数据时代统计学的发展情况,面临着哪些挑战。面对这些影响,统计学又是以怎样的姿态面对的。
统计学;大数据;挑战
大数据时代对整个社会的推动影响巨大,统计部门为了跟随时代的脚步,要求更高的服务质量,深入分析统计学在当下数据背景下的现实作用。数据带给社会机遇的同时,又蕴藏着怎样的挑战,我们需要进一步研究统计学与大数据的关系,在挑战中促进发展。
1 机遇下蕴藏着挑战
社会潮流的推动力,使得全国甚至全世界逐渐走向信息时代,在数据大爆炸的当下也存在着很多问题与矛盾。而发展就是在问题中不断推进的,切实的处理问题才可以促其发展。所谓“识时务者为俊杰”,在信息时代各个阶段下,需要处理不同的问题以顺应现代总体的数据趋势。
2009年“大数据”这一词汇开始流行,其实早在1980年,著名未来学家A.托夫勒就在《第三次浪潮》中提到了大数据。这个时间段是大数据的萌芽阶段,需要的更多是大数据潮流的推动着,打开向整个世界发展的门路。
面对大数据涌现出来的现实,不仅有机遇也面临着层层挑战。社会需要通过科学的启蒙和引导,同时也不能盲目跟风,不要只考虑一个方向的偏执,也不要应运而生的投机者。这个时代需要切合实际的学术和数据科学的有效推进,拓展整个数据学科的发展,在不断寻找和发展中还要保持批判性思维,为了构成平衡的发展结构,在矛盾中保持艰巨全面。
在不同的成长时期应该着力于不同的发展重心,在接受大数据的同时确保整个信息化发展的稳定性,面对大数据带给这个世界的丰富机遇,也同时具备随时可以形成的挑战。
2 整个世界是否被大数据覆盖
2.1 互联网外的大鱼
迅速覆盖世界的大数据,通过互联网已经遍布开来,会有一些没有被覆盖到的地方,人们会认为那些地方,是落伍的不值得被覆盖的,跟数据发展的大局无关,因此认为在整体数据发展中可以将没有覆盖到的放弃。
然而实践中的情况又是怎样的,一些技术精英可以说最早就使用了互联网及手机信息技术,却在发展中为了避免“技术专政”而躲避数据互联网的覆盖。还有一些宗教或是政治相关人士更倾向于远离互联网。另有一些为了避税或是避仇等因素,选择尽可能的躲避互联网的覆盖。以上所说到的这些部分的群体,确实是大数据难以覆盖的,但是他们的经济行为恰恰对分析社会格局而言尤为重要,在推论中不容忽视。
大数据得到倡导的首要前提就是民主、开放和理性,然而在不同的国家或地区其实现的程度也是大不相同的。其实人类社会进入到大数据时代,其发展并不是同步的,世界会被分割为三种并存时代,即大数据时代、小数据时代和物数据时代。
2.2 数据的“海量”是相对的
在数据形成中,其覆盖面积再大或者发展速度再快,也会存在一些“黑暗地带”。信号问题一直存在于大数据发展之中,数据量变得巨大,但大数据的海量之大也是相对而言的。对于地球来说,海是那么的浩瀚之大,但是就宇宙而言就显得不大了,就地球上的数据问题来说,其规模也没有不可控的巨大。
经过相关研究资料可以得知,美国上网成年人中百分之十六在使用推特网(Twitter),其中年轻人和城市人的使用率较多,而对于整个社会而言,也不能将其作为一个代表性的样本。推特网数据显示,人们离家越远快乐指数越高。显然并不能代表所有人的意愿,或许这一判断会得到部分人的认可,却不能代表所有人。
相关报道研究,社会上的全部数据有百分之九十都产生于过去两年,那么也就是说当今的大数据,相对来说就是明天的小数据。对于数据我们是不能将其穷尽控制的,对于数据的掌握非常有限。今天所有数据的发展和覆盖,在明天或许就会被否定,所以就覆盖程度一说法是缺乏延展性的。曾有相关学者提出,人们会因现有的知识工作所限制,却不曾想到明天的工具或许比当下的要强大数倍,也就是说今天的数据资料不能预知将来。
3 统计学与数据科学
3.1 统计学与数据科学之间的关系
有部分学者认为统计学与数据科学之间应该达到统一,其没有存在差异之处,持“同一论”或“唯一论”。对于学科关系的不同认识,影响到这一观点的成立性。大数据时代在当今社会快速遍布,统计就可以代表数据科学吗,体现在现实中的一切就这么简单?
经过对相关文献进行进一步研究,发现很多论著在讨论数据科学分支时提到了统计学,大部分学者都持“之一论”或“属于论”。这样的论述否认了以上所说的同一论”或“唯一论”,统计学与数据科学之间是不等价的,某些相关学者将其视为某种交叉的关系。
将统计学认为是一门数据科学,理解为统计学就是数据科学中的一个分支,而其信息量的贡献有限。统计是一门数据科学对于大数据时代的发展很重要,而这只能说明统计学特别重要,而不能说统计学“唯一”重要。
3.2 四类世界与四种科学
就世界而言可以有各种各样不同的分类,科学也一样体现着不同的视角和观察格局。
在这里我们提出四类世界下的四种科学,广义上来说,可以将世界分为四类:应对物质世界、应对精神世界、应对赛博世界和应对行为世界。其相对应的四类科学分别是:物理科学、心理科学、数理科学和事理科学。人类多维思维的科学成果,使得社会科学更加丰富,它们之间的关系不是外在板块的叠加,四者之间是有机渗透的交错关系。现实世界的体现在同一个世界的四个不同维度,想要将其一科学用好学好,并不能单一进行。
总体而言,世界是多元化的,不是数据可以将其一切所代替的,当今不能仅仅依赖于数据的发展,在大数据时代,还是不能缺少定性和“较质”。
4 大数据时代的统计重心转移
4.1 数据的识别问题
统计实务通过统计学的理论指导,在不同阶段进行相应的科学研究。可以说收集基础数据是原先的统计实务的重心,如何获取数据是其考虑的主要问题。如何选择有用数据,就是当下大数据时代的重心所在。
数据的识别问题对于大数据时代的发展而言尤为重要,就是要将现实与理论以及方法之间的反复作用,从数据中总结出的数量规律能否成立是个重要的问题。
2012年“谷歌流感趋势”高估了年度流感发病率,可以说是数据误导中的一个典型案例。从人们在网上留的搜索记录,直接判断其是否患得流感,这样做确实不够科学。或许人们是出于其他原因搜索信息,或者只是为了了解一些相关事态而搜索的,如何区分真正的患者,还需要进行进一步的判断。所以,若太过于多的依赖有缺陷的大数据,就会对公共决策造成较大影响。
4.2 虚拟信息的识别问题
除了一些数据考察外,还存在很多虚拟信息识别问题,比如不少帐号是机器人自动程序或“半机器人”系统,还有虚假账号。所以,在使用网络数据分析社会状况的时候,应该警觉数据中有没有由自动化算法系统产生问题。
互联网营销中,大量的“刷量”以及水军好评差评等数据,可以说就是一种数据干扰,影响着数据的准确性,如今市场上有很多类似这样的噪声,最终使得数据价值降低。
另外,考虑在技术层面中实现“数据去重”,确保数据的完整性,以及对网络病毒的剔除等等这些问题,都是值得关注的数据问题。
5 结语
科技总是具有双面性的,对于大数据时代下统计学的发展,应该进行全面的分析,将面临的问题重视起来,充分认识统计学与数据化时代的联系,积极应对各种挑战。
[1]游士兵,张佩,姚雪梅.大数据对统计学的挑战和机遇[J].珞珈管理评论.2013,(02).
[2]邱东.大数据时代对统计学的挑战[J].统计研究.2014,(01).
[3]陈龙,程开明.大数据时代的决策:数据分析抑或直觉经验[J].中国统计.2014,(09).
(责任编辑:文婷)
F222
A
1003-3319(2016)04-00039-02
10.19469/j.cnki.1003-3319.2016.04.0039