大数据时代统计专业教学的几点思考
2020-08-15王东莹孟丽新
王东莹,孟丽新
(吉林财经大学,吉林 长春)
一 引言
随着云计算、人工智能、物联网等新兴科学技术的迅猛发展,各个行业和领域不断地创造巨量的数据、建立庞大的数据库,我们正处于前所未有的大数据环境。大数据涉及海量信息,极具研究价值和产业价值,并将深刻影响人类的决策模式[1]。针对大数据的存储、处理、分析等关键技术离不开统计理论的支撑,但经典的统计分析方法不能直接迁移到大数据,统计学科发展面临着大数据带来了重大机遇和挑战。为满足学科发展需要,统计专业教学需要对教学内容、培养模式进行改革,以培养适合大数据时代需要的高质量人才。
美国统计学会2000年首次发布统计学本科专业指导性教学纲要[2],旨在调整统计专业学生培养模式,以适应大数据时代需求。该纲要于2014年进行了一次全面修订和更新[3],重点强调统计专业人才技能培养的四个方面:(1)数据科学日益重要,统计专业人才不仅需要扎实的数学和统计基础,还要有强大的统计计算和编程能力,可以熟练使用专业统计软件和数据库;(2)真实数据是统计专业教育的重要组成部分;(3)更加多样化的统计模型和方法;(4)通过语言、图表和动画等用户易于理解的方式表达数据分析结论的能力。该人才培养模式对于国内统计专业本科教学具有借鉴意义。以往, 国内统计专业教学更多地关注于统计学理论与分析方法的讲授,而忽略应用层面上实践教学[4]。当学生面对结构复杂的真实数据时,会遇到各种各样无法事先预测的问题,较难给出有效的分析结果。因此,在大数据的时代背景下,统计专业教学应当转向以真实数据为驱动的人才培养模式,侧重于面对真实数据的统计模型、统计计算、统计表述。
大数据时代背景下,真实数据较为显著的特征可概括为四“V”特征:数据量大 (volume)、数据类型多样 (variety)、数据价值密度低 (value) 以及速率快 (velocity)[5]。现有统计学理论和方法在处理大数据的过程中面临诸多难题,如何建立以数据为驱动的人才培养模式,是统计学科教学亟待认真研究和解决的难题。
二 大数据时代对统计学科的新要求
(一) 探索大数据统计模型的建立及评价方法
由于大数据具有四“V”特征,经典统计分析方法可能失效。例如主成分分析、因子分析等多元统计方法主要针对的是数据量大、解释变量少的情形,不适用于具有明显高维度特征的大数据分析。再如,由于数据具有大量性,很容易找到显著相关关系,但是难以解释相关的意义,所以显著性检验在大数据分析中不再占据中心位置。面对大数据的统计分析方法更多地依赖于统计模型来刻画数量关系。然而,在大数据时代,人们更容易从不同渠道获取数据,为了兼顾不同来源数据的同质性与异质性特征,需要建立更复杂的统计模型。因此,针对大数据的高维数据建模及模型评价是统计学亟待解决的重要问题之一。
(二) 确立新的适应性、序贯性、动态的抽样方法
在大数据分析中,基于完整数据的运算几乎难以实现,从中选取具有代表性的部分数据进行分析不失为一个可行办法。抽样这一经典的统计方法,可以在大数据分析中发挥重要作用。但是大数据通常是在不同的时间、用不同的方法收集,随后把整个数据合并起来,这导致大数据内部许多部分的数据存在明显差异,无法满足统计抽样中同质性等基本假设。因此,大数据环境对抽样方法提出了更加严格的要求,需要新的适应性、序贯性、动态的抽样方法,例如基于案例的抽样方法和基于事件的抽样方法[6],以获取符合统计目的和精度所需的样本。
(三) 科学算法的计算复杂度、准确率和时效性面临考验
大数据涵盖了丰富的信息,但同时也相当松散且杂乱无章,数据噪音增多。在数据分析之前必须进行数据清洗、降噪、提纯等预处理工作,但是预处理如此大量的数据对于机器硬件以及算法都是严峻的考验[5]。目前,机器学习算法和云计算是进行大数据处理的有力工具,这使得将现有统计方法移迁到大数据背景下必须作出调整,以适应机器学习算法和云计算的框架,算法需要变得具有可扩展性。
此外,大数据思维注重全量样本数据而不是局部数据,当数据量增长到一定规模以后,可以从小量数据中挖掘出有效信息的算法并一定适用于大数据。但在选择算法处理大数据时仍须谨慎,并且多数情况下须做成调整和修正。以经典的Bootstrap子抽样方法为例,基于样本子集构造经验样本的方法可以实现降低计算复杂度的目的,但数据变异性的相应降低导致其结果依赖于子样本的选取。由此看出,此类算法在研究大数据在概率和统计问题中具有优势,但要达到降低计算复杂度,同时提高计算效率和估计精度的目的,仍需对其进行修正。
三 大数据时代对统计专业教学的新要求
大数据时代主要面临的是非结构化、规模化数据,当前统计专业教学在大数据分析方面具有局限性,主要体现为:统计模型及分析方法主要针对结构化数据、少量数据,不能直接迁移到大数据;侧重于理论传授,实践环节相对薄弱[7],容易导致学生面对实际数据时无从下手。因此,统计专业教学过程中建立以数据为驱动的人才培养模式以适应大数据时代要求,可以从以下三个方面入手。
(一) 增加大数据分析方法相关的教学内容
面对高速产生、多种类、多来源、多模态的海量数据,如何建立大数据分析方法,是统计专业教学的重大挑战。以往统计专业本科教学主要围绕线性回归模型、时间序列分析和多元统计分析展开,远远不能满足大数据分析的实际需要。大数据分析起源于互联网数据的高度聚集和流动,具有分布式或数据流形式的存储结构,需要对传统数据分析方法进行分解、规约、流分析的改进[8]。因此,统计专业教学中引入新数据分析方法,并与传统统计数据分析理论进行区分和联系,对于培养学生的数据思维能力十分必要。
(二) 兼顾数学思维、编程能力等交叉学科的专业技能培养
一直以来,大量数学知识、计算机知识被广泛地用于解决统计问题。而大数据背景下的统计专业面临的实际问题和具体数据更加繁复,与数学和计算机学科的交叉融合有助于丰富问题的解决方法、简化问题的解决路径。
当前统计专业日常教学中融入了数学专业知识,主要包括微积分、线性代数等基础知识,培养学生的数学运算能力。然而,大数据所涉及的运算量十分巨大,并非数学计算方法能够解决,需要借助于计算机等外部设备。因此统计与数学专业知识的结合,应当侧重于培养学生数学思维而非运算能力。
随着数据可视化工具、数据库、分布式计算、数据挖掘、人工智能、机器学习等方法,越来越广泛地应用于解决统计问题,统计专业技能培养过程中应充分考虑与计算机学科的交叉融合,注重培养学生的编程能力和算法思维。熟练掌握数据库和统计软件的使用方法,能够读写数据库、编写程序、设计算法、进行统计分析与建模,是当下统计专业毕业生的一项基本技能。
(三) 强化面向真实数据的实践教学和技能训练
大数据时代,统计工作的研究对象是大规模的半结构化、非结构化数据,具有较强的实际应用背景。然而,我国当前统计教学更多地针对教科书提供的二手数据,数据的应用背景明显被淡化,这种教学模式忽视了实际问题与数据分析之间的联系,学生的数据思维和问题解决能力得不到很好的锻炼,当他们遇到复杂的大数据分析问题时往往无从下手。因此,大数据必然引发新的教学模式,统计学课程应当引入来源于实际应用领域真实数据,引导学生把实际问题转化为统计问题并进行数据分析,培养学生用数据思考的能力。同时,统计专业教学应当逐步强化实践教学所占的比重。通过大量的实践训练,帮助学生积累统计分析方法的应用经验,引导学生结合实际问题对各类统计方法的适用性做出评价,并能有效呈现和表达他们的分析结论。这是一项极具挑战性的教学改革,但对提高统计人才的培养质量意义重大。
四 统计专业教学改革的路径与措施
(一) 确立多学科交叉培养、重视实践环节、强化大数据相关工作基础技能的培养模式
随着大数据不停地快速增长,从基因组到自然科学、再到社会科学,统计方法被广泛地应用于跨学科的研究领域,统计学知识对社会、经济、医学、生物、商业等领域影响越来越大。在这样的时代背景下,统计人才应该具备交叉学科的综合性知识与基本技能,通过数据分析解决行业问题,这既是统计人才的机遇也是挑战。熟悉计算机编程技术,并与业界充分融合的统计专业人才,能够为科学实践提供更高效、更稳健的数据处理与分析技术。因此,统计专业人才培养应当注重多学科交叉培养的模式,使学生对于统计问题的实际研究背景有更清晰的认识,能够根据具体科学领域对统计分析方法进行适当调整,以期获得可靠的分析结论。
(二) 建立以统计理论为核心,数学基础、统计计算、实践训练为辅助的专业课程模块
现阶段高校存在统计学方法课程过多且平行开设[9],简化过多的知识层次,建立完善的课程体系,形成清晰的课程模块对于基本素质教育和基本技能培养具有重要意义。根据美国统计学会统计学本科专业指导性教学纲要[3],统计专业的课程设置应该涵盖统计方法与统计理论、数据操作与统计计算、数学基础、实践训练四大课程模块。这对于国内统计专业本科教学具有借鉴意义。统计方法与统计理论必然是核心内容,后三者作为辅助也起到关键作用。
其中,统计计算是模拟研究的必要工具。通过随机模拟来验证解析方法已经得出的结论,是一种非常有效的学习方法[10]。然而,统计计算方法的模拟过程必须依赖于专门的统计分析软件。在大数据背景下,R软件可进行数据挖掘、建立统计模型并求解,在功能上远超SPSS,与SAS不相上下。应用R软件以及持续更新的R包进行实践教学,既可以促进学生对于统计计算技术的理解,也锻炼了模拟分析的能力,为其从事数据分析相关工作打下理论基础。
其次,数学基础的建立是为了加深对统计模型和理论的理解,提高数据分析结果的可靠性。统计专业的本科生应当具备扎实的数学理论基础。基础课程模块包括微积分,如一元和多元微积分;线性代数,如矩阵运算、特征根求解、欧式空间投影;随机过程,如随机变量、Markov链;优化方法,如梯度下降法、牛顿法、拟牛顿法等。对于数学基础知识的讲授过程中应重点强调其在统计中的应用。
实践训练部分强调对真实数据的清洗、建模、可视化,锻炼学生对统计分析方法的应用能力。结合具体行业数据,讲解数据分析过程中容易遇到的各类问题,探索统计方法的适用性,有助于加强学生的实操能力,掌握从事数据分析相关工作基本技能。
(三) 注重培养学生的数据思维、算法思维、创新思维和解决问题的能力
大数据时代背景下,统计学面临的数据来源于各个行业,涉及多种学科,在各实践领域具有广泛地应用,逐渐成为支撑学科。因此,统计专业教学培养任务愈加繁重、目标对象更为广泛。对于统计专业人才的具体要求可归纳为:(1)具有扎实的数学、统计学基础,以及交叉学科综合性知识;(2)具有统计计算和编程基本能力;(3)具有数据思维和素养;(4)具有创新、分析和解决问题能力。该目标侧重于学生三个思维和一种能力,即数据思维、算法思维、创新思维和解决问题的能力,以适应社会的实际需要。
五 结语
在大数据时代背景下,统计专业人才面临重大的机遇和挑战。统计专业教学应当转向以真实数据为驱动的人才培养模式,以培养具有数据思维、编程能力、实践能力的应用型数据分析人才为目标,并通过大量行业大数据的实践训练,全面提升人才竞争力,以拓宽本专业的就业方向和途径。