基于Apriori算法的师范生计算机问卷调查分析
2021-09-16杨超
杨 超
(辽宁民族师范高等专科学校 民族文化与职业教育系,辽宁 沈阳 110032)
信息技术能力是师范生需要掌握的重要职业技能,如何提高师范生信息技术能力一直是计算机教师不断探索的课题.为此,以调查问卷的方式对师范生计算机相关课程内容的调研,客观地分析调查问卷数据不仅为计算机课程优化提供参考,更可为某项重点改革提供导向依据[1].因此,采用科学的计算方法对计算机调查问卷进行数据分析有着重要意义.
1 Apriori算法
Apriori算法指关联规则数据挖掘算法,旨在从大量数据集中发现隐藏数据之间的联系[2].这种联系有两种形式:一是频繁项集,指经常在一起出现的元素;二是关联规则,暗示两种元素间可能存在很强的联系.通常用支持度、置信度和提升度来描述对形式的判断及对关联性强度的分析.
1.1 支持度
支持度是一个项集或规则在所有事务中出现的概率,用支持度计数/总事务数表示该规则在全部记录中出现的概率.支持度是确定强关联规则的第一个重要门槛,衡量了所考查的关联规则在“量”上的多少,并且子集的支持度大于项集的支持度[2].支持度表达式为:
其中:s(X→Y)表示规则X→Y的支持度=(X和Y一起出现的项集支持度计数)/总事务数.
1.2 置信度
置信度表示在先决条件X发生的前提下关联项目Y发生的概率,即指在项集Y确定的条件中包含X的事务出现的频率.置信度是通过规则进行推理的,因此具有可靠性,也就是说,对于给定的规则X→Y,置信度越高则在项集Y中出现项集X的概率越大,即P(Y|X)越大.置信度表达式为:
1.3 提升度
提升度表示在含有X的前提下同时含有Y的可能性与无此前提条件下项集中含有Y的可能性之比,即假如X→Y的提升度是1.15,表明“选择X后再选择Y的可能性”是“没有选择X但选择Y的可能性”的1.15倍,也就是说选择X对选择Y起到一定的提升作用.一般地,提升度lift>1就说规则X→Y是有效强关联规则,提升度lift=1就说规则X与Y相互独立,提升度lift<1就说规则X→Y是无效强关联规则.提升度表达式为:
2 基于R语言的Apriori算法数据分析
本文数据来源于省内某高职师范院校师范生计算机调查问卷.问卷内容主要调查当前师范生对计算机基础课程的感受情况,共涉及18道题73个选项.应用R语言中的Apriori算法对调查问卷数据进行分析[3],进而为计算机基础课程改革提供更为客观的依据.
2.1 建立矩阵,转换数据集
在默认生成的调查问卷中,数据内的行、列分别由参与者、选题选项构成,这种文字形式的数据在算法中不能直接进行计算,需转成“0”“1”形式的数据矩阵和特定的数据类型.本文设定选择选项即为“1”,没有选择即为“0”,对18道题中涉及的所有选项进行数据清洗,同时对空项或无意义数据进行处理,生成可导入数据的xlsx、csv或txt类型文件,再通过表1中的代码可将数据文件导入R语言中,导入的数据文件以数据框类型存在.
表1 数据集代码表
2.2 数据概况与导向策略
数据概况为结果分析、导向策略制定提供重要参考.通过R语言中summary()方法可对数据集进行频率查看,结果如表2所示.从表2结果可看出,数据集是项矩阵以稀疏的形式生成413行73项数据,并且依据频率大小进行排序,其中第29选项被选择了358次,占86.68%,说明绝大多数学生认为Office办公软件在计算机基础课程中尤为重要.这种以直接方式显示出的数据信息便于决策者从高频率项与高频率项、高频率项与低频率项之间寻找隐藏的信息[4],为下一步的导向分析提供重要参考.另外,项集长度也间接反映出参与者对调查问卷填写的考虑,如表3结果中显示有48人选择17个选项,16人选择18个选项,后面以此类推,说明大部分参与者在填写问卷时对选项涉及的内容有多方面的考虑,对待一些特定的选项存在多选情况.因此,后续的导向分析中应多作综合考虑.
表2 频率结果
表3 选项选择人数
2.3 利用Apriori构建数学模型
基于建立的数据集矩阵,利用R语言中Apriori算法对数据集进行深入分析.由于数据分析结果共111个,限于文章篇幅,这里只展示前10条数据并进行说明,代码及生成的数学模型如表4所示.通过表4发现,数学模型条件规则是以支持度为0.2、置信度为1、最小项集所包含元素的个数为2建立的,说明满足条件规则的项集均与29号选项有关联,并且在选择lhs中的项集元素时就一定会选择rhs项集中的元素.在众多参与者中,至少100人存在表4中的选择关联,选择lhs项集中元素的概率均大于24%,提升度大于1,这体现了lhs项集中元素与rhs项集中的元素有关联.
表4 Apriori算法代码及数学模型
2.4 模型优化与数据分析
在Apriori算法数学模型中共有111条关联规则,但从表4可以看到,选择选项30、31、41就一定会选择选项29,支持度为0.2687,提升度为1.15,而选择选项28、30、31、41也同样会选择选项29,支持度为0.2615,提升度为1.15,符合第四个结果中的lhs和rhs包含于第二个结果中的lhs和rhs,并且第四个结果中的提升度与第二个结果的提升度相同,说明第四个结果是第二个结果的冗余规则,因此需对模型进行冗余规则优化,代码、生成数据结果及选项说明如表5、表6所示.经优化后共生成48条关联规则,因生成规则数据过多,这里只针对支持度排序前五的数据进行说明.通过优化的数学模型可以了解,无论是认为计算机基础知识重要、计算机网络知识重要的师范生,还是认为计算机系统操作重要的师范生,都认为Office办公软件重要.表5的结果也说明,接触过相关计算机基础课程或经常使用计算机的师范生均认为Office办公软件尤为重要,说明师范生对Office重要性的认知可能根据应用需求判定而来[5].在认识到计算机基础课程重要性的同时,师范生认为课程中Office办公软件的操作讲解需要加强,说明目前Office办公软件的操作讲解可能不能满足师范生的学习需求,需要提出具有针对性的策略.通过图1中的Graph模型可以看出,在特定条件下师范生计算机基础课程调查问卷各选项均与Office办公软件重要性有关联,因此在后续的计算机基础课程改革中,应重点考虑多安排有关Office办公软件的教学内容.
表5 数学模型序号含义及优化代码
表6 序号含义及频率
3 结语
本文运用Apriori算法对师范生计算机调查问卷进行数据分析,通过对数据模型优化、图形构建及数据分析,在支持度、置信度、提升度等属性显示中大多数项集元素与Office办公软件重要性相关联,为后续计算机基础课程改革提供重要参考.