APP下载

大数据背景下概率论课程的教学研究

2018-02-23唐小勇李小春

关键词:概率论总体事物

唐小勇 李小春

(1.湖南农业大学,信息科学技术学院 湖南长沙 410128;2.湖南农业大学东方科技学院 湖南长沙 410128)

引言

随着高等教育由精英教育向大众教育的转型,高等教育在满足社会精英人才需求的同时,还应该培养适应社会现代化发展的应用型本科人才。作为本科院校大多数专业的公共数学基础课程之一的《概率论》,一直在自然科学、社会科学、工程技术、经济生活等领域起着重要的作用。不同于其它两门公共数学基础课程《高等数学》、《线性代数》是研究确定性现象的数学分支,《概率论计》是研究随机现象的数据规律的一门学科。所谓的随机现象指的是事前不可预言的现象,需要在大量的数据中找出某种规律,然后对这种规律提出合理的假设,再对这种假设进行检验,最后根据这种规律来预测未来的发展趋势。不同于自然科学等存在的客观现象,社会生活中广泛存在着随机现象,因此,概率论也成为处理随机现象的最好工具。但是,随着“云时代”的到临,大数据受到越来越多的关注。根据研究机构Gartner给出的定义,大数据是需要新处理模式才能有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。根据IBM提出的有关大数据的特征,它具有“5V”的特征:规模性(Volume)、高速性(Velocity)、多样性(Variety)、低价值密度性(Value)、真实性(Veracity)。而随着大数据大规模的被广泛使用,不仅仅很多学者和研究机构也开始关注这个问题,各国政府以及企业也非常重视大数据的挖掘工作。大数据所隐藏的价值信息不但成为很多行业赢得竞争的关键,还对国家的稳定发展具有重大的战略意义。为此,李克强总理在2015年9月签批《促进大数据发展行动纲要》,纲要明确提出在未来5到10年推动大数据的发展和应用。[1]

但是,大数据的数据特征使得传统的统计学方法不一定再使用,传统的统计学理论需要更新。因此,与之相对应的《概率论》课程的教学也需要进行改革。

一、大数据与传统统计学

大数据给统计学带来了新的机遇,但也带来了一些新的挑战,一些经典的统计学分析在大数据中已经完全失效。因此,在大数据时代背景下,传统统计学应该如何发展?相关统计学课程又应当做怎样的教学改革,这都是统计学家与教学工作者很关注的问题。

1.相关性与因果性。舍恩伯格等在《大数据时代》中提到:“相关关系比因果关系更好地了解这个世界”,这种区别于传统数学研究“因果关系”的现象引起了更多国外学者的关注。数据之间的相关关系的研究,使得人们对于世界的认识有一个更为开放的信息系统视觉,对事物的认识不再局限于封闭的领域。比如淘宝每年在11.11日举办的光棍节大促销活动,淘宝官网通过hadoop数据平台,对2011-2015年的淘宝全网数据分析,发现中国人在八大行业如时尚美妆、家电数码、食品、服装等方面消费较多,而且对这八大行业给出了行业发展趋势报告。而且,通过个体的消费偏好、消费金额等数据,利用相关性原理,以计算机强大的分析能力来寻找个体购物的最优的关联物。很多网站也涌现出大数据相关性的应用成果,不需要个体自行搜索,系统根据历史记录,自动给出可视化的数据新闻。

虽然大数据分析的相关性研究的结果价值不凡,但相关性不能反应出事物之间的本质关系,只能反映出数据之间的关系。还有就是事物之间的相关性并不能替代事物之间的因果关系,因为基于相关分析的结果只是反映出事物之间的关联性,说明事物间有某种相同的变化趋势,但是事物之间可能并不存在因果关系。故如果做决策分析时,直接采用相关性的结论,可能会导致决策失误。

2.总体、个体、样本

总体、个体、样本是统计学中最基本的概念,也是统计学中最重要的关系,几乎所有的统计理论都是从这三个概念出发而发展出来的。现有的统计学中,总体指的是具有某种共同属性的组成的集合,个体指的是集合中的每个元素,即是符合总体属性的个别事物,是数据的承担者或是来源者,样本指的是从总体中随机抽取的每个元素组成的集合。统计学研究的是总体的发展规律,但由于一些客观原因如人力、物力的限制,无法来研究总体的发展规律,就从总体中随机抽样出一部分样本,通过对样本的研究来探讨出总体的发展规律。所以,在一般的统计学中,其研究的逻辑路线是:先确定好研究的对象,然后研究每个个体的性质,从中找出所需的变量或者研究指标,然后再抽样获取所需变量的具体数据,进而根据这些数据通过统计分析得出结论,然后对结论进行检验。这种思路,很显然是先确定总体,再由总体来确定研究所需的数据。但是,在大数据背景下,先看到的是数据而不是数据的承担者,特别是网络化时代当中的数据,根本无法得知数据的来源以及数据的基本特征,呈现出来的除了数据本身之外并无其他东西。这就导致大多数情况下直接面对全体数据,原来传统统计学中的抽样以及统计理论完全失效了。[2]

舍恩伯格等在《大数据时代》中也提出,大数据的“大”不仅仅是数据体量的大,更重要的是数据结构本身的重大改变。因此,他们在书中提出“要全体不要抽样的”观点。因为大数据可提供所有数据本身的信息,通过数据不但可以研究事物之间的普遍性规律,还可以具体研究个体的特征信息。但是,对舍恩伯格的“不需要样本”的观点,很多人持怀疑态度。因为在探索性的大数据分析中,抽样分析仍然需要,只是功能会发生改变。而且,从动态的来看,大数据只是某个时刻的总体而已,后面时刻总要包含前面时刻的总体,那么,前面时刻的大数据也只是后面时刻大数据的一个样本而已。所以,即使大数据的总体、样本的关系发生了改变,但抽样分析还是必不可少的,只是需要构建新的方法而已。

三、大数据时代下统计学教学的思考

大数据时代下,传统的统计学思维模式发生了改变,一些统计理论需要构建,新的软件需要学习。因此,在大数据背景下,概率论的教学该怎样进行?这是每个数学教师所面临的问题。

1.改变思维模式。由于大数据研究的事物对象发生了改变,直接面对全体数据本身,因此,统计思维模式也应跟着变化。在大数据时代下,数据不仅仅是研究对象,还是研究的基础资源,数据本身可以反映出事物之间的关系,还可以协助解决其他问题。所以,在现行的统计课堂上,需要改变统计思维模式。对数据的看法需要改变,从原来的研究对象来确定数据转变成通过数据来研究事物对象。通过对数据的掌握与分析,来进一步揭示事物的本质关系。

2.更新教学内容。由于大数据当中的研究对象发生改变,抽样的理论需要重新构建,传统数学当中的确定性关系不再至关重要,事物之间的相关性比因果性更重要,等等这些方法与概念的重新推导与定义,都需要更新教学内容。而且,在传统概率论教学中,重公式推导轻数值计算。所以,在大数据时代下,数学的理论推导应该让步与数值计算,统计学课程的设定应该更加重视应用层面的知识,应该培养学生解决实际问题的能力。

3.重视计算机技能。大数据时代下,一些传统的统计软件解决不了的问题,可以在新的软件下得以实现。而且大数据需要的是统计知识与计算机技能的结合,学生除掌握基本的统计理论外,还应该熟练操作计算机。运用计算机与统计方面的知识把数据整合在一起进行分析,转化成可以分析的统计数据,并对数据的结果进行解释,这些都需要加强学生的计算机技能的培养。

在大数据时代下,数据比黄金还重要,但如何把这些数据转化成所需要的知识,这还需要统计学的教学得到改变。因此,教师应该针对现实社会人才的需求状况,积极改革统计学的教学,来培养出适应时代发展的优秀人才。

[1] 李小平. 概率论与数理统计[M].北京:高等教育出版社, 2013.

[2] 马双鸽,方匡南.大数据时代统计学发展的若干问题[J].统计研究,2017,1:5-11.

猜你喜欢

概率论总体事物
线上线下混合教学模式在概率论与数理统计课程中的应用
用样本估计总体复习点拨
数学实验在概率论与数理统计中的教学应用
2020年秋粮收购总体进度快于上年
美好的事物
外汇市场运行有望延续总体平稳发展趋势
概率论方法在高等数学解题中的应用
奇妙事物用心看
直击高考中的用样本估计总体
TINY TIMES 3: A REAL HIT