APP下载

PLS-SEM和关联规则的《多元统计分析》教学效果影响因素实证研究

2019-06-13旷开金郑开焰刘金福徐道炜裴文庆郑斯琳

武夷学院学报 2019年3期
关键词:学习态度学习效果关联

旷开金,郑开焰,刘金福,徐道炜,裴文庆,郑斯琳

(1.福建江夏学院 金融学院,福建 福州 350108;2.福建农林大学 计算机与信息学院,福建 福州 350002;3.福建农林大学 林学院,福建 福州 350002;4.生态与资源统计福建省高校重点实验室,福建 福州 350002)

多元统计分析是统计学中讨论多维随机变量的统计方法,是处理多维数据不可缺少的重要工具,它能够在多个对象和多个指标互相关联的情况下分析数据间的统计规律[1]。多元统计分析是统计学专业中的一门应用性、操作性极强的核心专业课,是统计学专业的主干课程,随着计算机的广泛应用,统计软件的普及,日益受到人们关注,被广泛应用于各个领域[2]。然而,随着大数据时代来临,各种各样信息资料的爆炸式增长给多元统计分析课程教学带来了前所未有的挑战[3]。《多元统计分析》作为一门技术性课程,在各专业领域都具有应用背景,相关学者也开展了一定的研究。纪志荣[4]等对农林类统计学专业教学,分析了目前课程教学存在的问题,从教学理念、教学目标、教学内容、实践教学等方面入手,全面、系统地论述了教学体系改革的内容、方法和途径。马金凤等[5]结合多元统计分析课程特点、教学中存在的问题及应用现状,提出对该课程进行教学改革,如淡化数学理论,以激发兴趣为导向,强化实践能力培养,优化考核方式等措施,以提高医学研究生多元统计分析的理论水平和实际应用能力。

然而,目前学者针对《多元统计分析》教学改革的探讨局限于定性讨论,缺乏相关实证研究。文章基于实际调查数据,运用可视化原理,结构方程模型及关联规则方法,探讨《多元统计分析》教学影响因素,并提出有效改进措施,旨在有针对性提升教学效果提供可靠参考依据。

1 问卷设计和样本获取

1.1 题目设计

1.2 样本选择与数据收集

研究以教学班级83名统计学专业学生为调查对象,分析不同态度、行为和学习方法因素下,多元统计分析学习效果的影响路径。调查过程中,调查人员亲自向被调查对象发放问卷,当面填写、回收。此次调查共发放问卷83份,回收83份,有效问卷83份。其中,男性占比30.10%,女性占比69.90%,卡方检验表明,男女比例与专业实际男女比无显著差异(P>0.05)。因《多元统计分析》为统计学专业学生的必修专业课,调查样本具有一定的代表性。

1.3 信度与效度分析

为检验所获取数据的可靠性和有效性,对调查问卷进行信度和效度分析,运用Cronbachα系数检验问卷信度,用KMO和Bartlett球形检验分析问卷效度。结果显示,每个结构变量以及总体的Cronbachα系数均大于0.7,说明问卷具有较高信度;总体KMO系数大于 0.8,且 Bartlett 球形检验 P 值小于 0.01,说明问卷具有较高效度。

2 数据可视化分析

2.1 不同态度与行为与成绩马赛图

为分析作业态度(ZY_attitude),作业方法ZY_method)与《多元统计分析》(DYScore)之间的关联,基于两个以上的类别型变量,通过绘制马赛克图(mosaic plot)描述相互之间的关联分析。作业态度表示是否能自己独立认真及时完成作业,其中,不做作业=1,偶尔=2,经常=3,每次都独立按时完成作业=4。作业方法表示对做布置的作业喜欢以何种方式完成,其中,按照给出的步骤解答=1,按照自己的思路完成=2,和同学们讨论=3,查找资料=4。在马赛克图中,嵌套矩形面积正比于单元格频率,其中该频率即多维列联表中的频率,颜色或阴影可表示拟合模型的残差值。由马赛克图(图1)可知,变量之间存在关联。经常自己独立认真及时完成作业的同学,并且按步解答的同学,期末成绩在80~89分居多,偶尔独立认真及时完成作业的同学,并且按步解答的同学,期末成绩在60~69分居多。还有一部分同学作业未及时完成,作业完成喜欢与同学交流讨论,但成绩在60~69分之间。马赛克图分析表明,大部分同学缺乏独立思考能力,解题缺乏查阅资料能力,造成不能完全理解知识要领。

图1 马赛克图Figure 1 Graph ofMosaic

2.2 成绩与学习态度、学习方法相关图

为了将有相似相关模式的变量聚集在一起,运用相关系数图刻画不同科目成绩间相关性。相关系数图中,主对角线下方的单元格,蓝色和从左下指向右上的斜杠表示单元格中的两个变量呈正相关,而浅黄色从左上指向右下的斜杠表示变量呈负相关。色彩越深,饱和度越高,说明变量相关性越大,相关性接近于0的单元格基本无色。上三角单元格用饼图展示了相同的信息,同样色彩越深,饱和度越高,说明变量相关性越大。正相关性将从12点钟处开始顺时针填充饼图,而负相关性则逆时针方向填充饼图。由表1和图2可知,《高等数学》成绩(GSScore)、《线性代数》成绩(XDScore)、《概率论与数理统计》成绩(GLLScore)、作业态度 (ZY_attitude)与 《多元统计分析》成绩(DYScore)呈显著正相关关系(P<0.01),且《高等数学》成绩(GSScore)、《线性代数》成绩(XDScore)、《概率论与数理统计》成绩(GLLScore)之间亦呈显著正相关关系(P<0.05),表明这三科学习成绩与多元统计分析成绩间关联紧密。但作业方法(ZY_method)与《多元统计分析》成绩呈负相关关系,这或许与平时作业布置形式有关,调查数据显示,51.22%同学喜欢按照给出的步骤解答,而只有7.32%的同学能独立查阅资料思考,表明在学习中学生依赖性较强,独立思考能力缺乏,甚至只为应付学业。因此,在教学改革中应着力培养学生独立解决问题思考能力,并着力巩固相关基础数理知识。

表1 不同科目成绩间相关系数Table 1 Correlation coefficientbetween different subjects

图2 不同科目成绩间相关系数图Figure 2 Graph of correlation coefficientbetween differentsubjects

3 结构方程模型

3.1 结构方程模型原理

结构方程模型为近30年来在应用统计领域广泛使用的数据分析方法,一般由测量方程和结构方程构成,为反映隐变量和显变量的一组方程。测量方程描述隐变量与指标之间的关系,结构方程则反映隐变量之间的关系。测量模型可用如下方程表达:

其中,η为内生隐变量,ζ为外生隐变量,X与Y为显变量。∧x和∧y反映X对ζ和Y对η的关系强弱系数矩阵。ε和δ为Y与X的测量误差。

结构模型可用如下方程表达:

其中,B表示内生隐变量之间的关系,T代表外生隐变量对内生隐变量的影响。ζ为结构方程误差项。

由于法律规范及监管政策存在原则性,模糊化及碎片化,很多政策缺乏落地的细则,这给绝大多数企业个人信息合规工作带来极大的困惑。2017年12月中国国家标准化管理委员会正式发布《信息安全技术 个人信息安全规范》(简称“《规范》”),《规范》一方面明确了企业收集、使用、分享个人信息的合规要求,为企业制定隐私政策及个人信息管理规范指明了方向;另一方面及时地填补了现阶段个人信息保护中诸多技术细节与实操领域的规范空白。

3.2 结构方程模型构建

为研究变量间相互关系,设定学习态度、学习方法、学习效果为潜变量。在进行结构方程模型分析前,需要根据研究的问题确定显变量和潜变量间的关系。结构方程模型分析方法主要有偏最小二乘法(PLS)和协方差法,偏最小二乘法不对数据做任何分布,根据原始数据迭代,从而估计出隐变量的值。文章基于R中plspm包,基于偏最小二乘方法和结构方程模型原理,构建结构方程模型。结果表明,均方根残差RMR为 0.098,拟合优度 GFI为 0.863,表示模型拟合度较好,图3和表2反映了潜变量间的相互关系。由图3和表2可知,学习态度、学习方法对学习效果具有显著的正向影响。同时,学习态度潜变量、学习方法潜变量对学习效果潜变量的路径系数分别是0.618和0.448,说明学习态度对学习效果的影响最大,学习方法次之。这可能是在课堂中,能勤于思考、课前复习,经常反思学习行为的同学,往往学习能达到事半功倍的效果。进一步分析学习态度潜变量对学习效果潜变量影响,其间接路径系数和直接路径系数分别为0.284和0.334和,表明学习态度通过合理的学习方法有助于提升学习效果。

图4反映了测量模型方程中可测变量与潜变量间的相互关系。由图4可知,能积极思考,反思学习态度、课前预习,这三个可测变量在反映潜变量学习态度上影响程度相当且倾向一致,表明三者之间是相辅相成。能与同学沟通交流,能够批判性地理解和认识所学知识是学习方法潜变量中重要因素,说明理解知识和沟通交流对学习的效果具有提升意义。

表2 结构方程模型效应Table 2 Effectof structural equation model

图3 潜变量间效应图Figure 3 Effect diagram of latent variables

图4 潜变量与观测变量间效应图Figure 4 Effect diagram between latent variable and observation variable

4 关联规则分析

关联分析的概念由1993年Agrawal,Imielinski和Swami提出,是揭示数据内在结构的重要手段,在定位顾客顾客消费、保险、医疗领域发挥了重要作用。关联分析中,规则置信度、规则支持度、提升度是重要的概念,可由以下定义测度[6]。规则置信度(confidence)是简单关联规则的度量,反映了X出现条件下Y出现的概率,即

规则支持度(support),定义为项目X和项目Y同时出现的概率,即

提升度(lift)定义为规则置信度与后项支持度之比,用来衡量规则的实用性,有实用价值的关联规则为规则提升度大于1的规则,数学表达式为:

关联规则分析常用的算法有Apriori算法和Eclat算法。Apriori算法可克服简单搜索可能产生的大量无效规则,计算效率低下等问题。文章基于Apriori算法[6-7],分析不同置信度和支持度下,选择提升度大于1的规则,分析《多元统计分析》期末考试成绩满意度与其他因子间的关联,结果见表3。由表3可知,关联规则后项支持度期末成绩满意度主要为满意和一般。在期末成绩满意中,能理解所学知识,能运用所学知识理解生活和学习中问题的个体,期末考试成绩满意度也高。调查数据表明,能理解所学知识,能运用所学知识理解生活和学习中问题的学生中,期末考试成绩满意及非常满意的占80%,这一部分学生能理解整个教学课程的来龙去脉,并运用到实际,这与主动思考问题是分不开的。另一些个体特征表现为,课程考试成绩较高,希望能进一步加深学习,期末考试成绩满意度较高,表明这部分同学学习目标明确,主动性强。还一些个体特征表现为,课堂积极思考,时常与同学沟通学习经验,对教学方式较为认可,表明这部分同学,由于课堂本身激发了兴趣,从而促进学习的自发性、主动性。

在期末考试满意度一般中,个体满意度倾向表现为与基础课程息息相关。这部分同学《高等数学》、《线性代数》、《概率论与数理统计》成绩集中在60~79分之间,针对《多元统计分析》的数据处理方法不明确,表现为学习效果满意度一般。调查数据表明,高数成绩、线性代数成绩在60~79分之间,分析能力提高不确定的学生中,认为期末考试满意度一般占81.82%,仅有18.18%个体满意。

5 结论与讨论

文章运用可视化原理,结构方程模型,关联规则原理,实证分析了影响《多元统计分析》的影响因素。

(1)通过可视化原理表明,《高等数学》成绩、《线性代数》成绩、《概率论与数理统计》成绩、作业态度与《多元统计分析》成绩呈显著正相关关系(P<0.01),但作业方法与《多元统计分析》成绩呈负相关关系。根据调查发现,大部分同学对平时布置作业喜欢按照给出的步骤解答,缺乏独立思考能力,以至于换种形式就无从下手。因此,在教学改革中可以尝试通过课堂学生间相互留问,学生间相互课后释疑的方式着力培养学生独立解决问题思考能力。

(2)结构方程模型结果表明,学习态度、学习方法对学习效果具有显著的正向影响。且学习态度对学习效果的影响最大,学习方法次之。其中,学习态度潜变量对学习效果潜变量影响,其间接路径系数和直接路径系数分别达0.284和0.334。在可测变量中,能积极思考,反思学习态度、课前预习,在反映潜变量学习态度上影响程度相当且倾向一致,同时沟通交流,能够批判性地理解和认识所学知识是学习方法潜变量中重要因素。因此,在今后教学中,可以尝试通过实验教程,案例分析,竞赛引导等形式,着力培养学生良好的沟通交流、反思学习习惯。

(3)关联规则表明,能运用所学知识理解生活和学习中问题;希望能进一步加深学习;课堂积极思考,时常与同学沟通学习经验,对教学方式较为认可对自身学习满意度较高。而另一方面表明,基础课程成绩一般的个体学习效果满意度倾向一般。关联规则结果将可视化与结构方程模型结果相统一,因此,对于《多元统计分析》课程的教学特点,积极加入思考,同时巩固基础课程至关重要。

多元统计分析是一门研究多指标随机现象统计规律的统计学科,随着计算机的普遍应用和软件的迅猛发展以及大数据时代的来临,已在在经济、金融保险、生物医学、环境数据、管理工程等相关领域发挥重要作用。今后教学过程中,应着力调动学生积极性,可尝试运用可视化原理,激发学生学习兴趣,将教学与科研、竞赛相结合,达到学以致用的效果。

表3 关联规则表Table 3 Table of association rules

猜你喜欢

学习态度学习效果关联
疫情期间线上学习效果评价分析
“百词斩”对于大学英语四级词汇学习效果的实证研究
高职院校专接本学生学习态度及教育对策探析
基于学习性评价原则提高研究性学习效果的研究
莲心宝宝有话说
“一带一路”递进,关联民生更紧
奇趣搭配
智趣
你的学习态度怎么样?
试论棋例裁决难点——无关联①