基于遗传算法和K-means算法的学习风格分析研究
2019-03-30王芳林龙成
王芳 林龙成
摘要:当下“互联网+教育”已成为热门话题,传统教学方式已无法满足在线学习的需要。如何借助教育数据挖掘技术,促进学生个性化学习,成为教师关注的热点。对此,文中在研究了现有学习风格模型的基础上,使用Felder-Silverman模型进行学习风格表示,并提出了基于遗传算法和K-means聚类算法的学习者学习风格分析方法,该方法弥补了K-means算法容易陷入局部最优解的不足。最后,分别采用传统K-means和GA-K-means分别对学习风格数据进行分析,实验结果表明,本文提出的GA-K-means算法在稳定性和有效性方面都明显好于传统K-means聚类算法,对学习者学习风格的分析更加准确与全面,有利于教师在教学过程中分析学生的学习风格,为学生提供个性化的学习支持和学习服务。
关键词:遗传算法;K-means聚类算法;个性化学习;学习风格分析
中图分类号:TP301.6 文献标识码:A 文章编号:1007-9416(2019)12-0106-03
0 引言
当下,“互联网+教育”已成为热门话题,以机器学习和深度学习为技术支撑,对个性化学习进行了重塑和再造,了解学习者学习风格是进行个性化学习的前提。本文在分析已有学习风格模型的基础上,设计了适用于在线学习环境的学习风格模型,提出了基于遗传算法的K-means聚类分析算法,弥补了K-means容易陷入局部最优解的不足,并利用该算法对学习风格数据进行分析,得到不同学习群体的属性,为个性化学习推荐提供基础。
1 学习风格表示
从学习者的角度来看,学习风格(Learning Style,LS)被認为是影响学习者学习活动的最主要偏好。在已有的学习风格模型中,常用的有Kolb学习风格模型、Honey Mumford学习风格模型和Felder-Silverman学习风格模型。
本文使用Felder-Silverman学习风格模型,按照四个维度对学习者偏好进行分类:主动与反思、感知与直觉、视觉与言语、顺序与全局,学习风格向量定义为:
LSi= (1)
式(1)中表示第i个学习者在第1个维度的得分。
本文通过问卷调查的方法,采集学生的学习风格数据。设计了学习风格量表,用于评估四个学习风格维度,学习风格量表由44个问题组成,每题从两个选项(“a”或“b”)选择一个。这些问题根据不同的维度分为四组,每组11个问题。表1是随机抽取的4位学习者的问卷结果。
每个维度的分数是通过较大的数减较小的数来计算的,后面是较大数对应的风格类型所代表的字母。表1中学习者1的学习风格结果为(3a,5b,7b,9a),对应该学习者的学习风格类型为“感知型+言语型+反思型+顺序型”。本文将每个维度的学习风格得分结果映射到1到12的实数,如图1所示,5b对应9,则学习者1的学习风格向量可以表示为LS1=(4,9,10,2)。
2 基于遗传算法和K-means算法的GA-K-means算法设计
遗传算法(Genetic Algorithm,GA)是一种借鉴生物界自然选择和自然遗传机制的随机搜索算法。遗传算法被广泛应用于提高人工智能技术的性能。结合遗传算法能够寻找全局最优解的优势,本文利用遗传算法初始化K-means的初始聚类中心点,提出基于遗传算法的K-means聚类算法GA-K-means。
2.1 传统K-means算法
K-means算法,也被称为k-均值算法,是基于距离的聚类算法,采用距离作为相似性的评价指标,两个数据点的距离越近,则相似度越大。计算样本间的距离公式有欧氏距离、曼哈顿距离、余弦相似度等,其中最常用的是欧氏距离。
K-means算法基本思想是通过迭代将数据集划分为不同的类簇,使得用不同类簇的均值来代表相应各类样本中心时所得的总体方差最小。误差平方和准则函数公式为:
(2)
式(2)中E表示样本空间中所有数据点到聚类中的平方误差的总和。p表示数据对象,Ci表示第i个类簇,mi表示第i个类簇的平均值。
2.2 优化后的GA-K-means算法的具体流程
GA-K-means是在K-means聚类中利用遗传算法选择最优的初始种子。
如图2所示,首先系统生成初始种群,用于寻找全局最优初始种子,遗传算法对当前种群进行选择、交叉和变异等遗传操作,不断更新种群,直到满足停止条件;然后根据输出的初始聚类中心,使用K-means算法进行聚类,输出聚类结果。
2.3 染色体编码
本文采用实数编码方式,使遗传算法更接近问题空间,便于设计专门问题的遗传算子,执行较大空间的遗传搜索,缓解“组合爆炸”的问题,改善了遗传算法的计算复杂度。每个染色体由K个学习者学习风格向量组成,K表示聚类中心数目,我们设定K值为5。每个染色体是一个1*20的实数序列,染色体的结构如表2所示,前4位表示第一聚类中心的学习风格向量,依次类推,最后4位表示第五聚类中心的学习风格向量。
2.4 初始化种群
本文随机初始化100组聚类中心,每组聚类中心由5个随机的学习风格向量组成。遗传算法经过一代又一代的进化来寻找最佳的染色体。在每一代中,它们通过使用遗传算子从当前种群中产生一个新种群。
2.5 适应度函数设计
适应度函数是促使遗传算法收敛到最优解的一个因素。我们选择总最小距离函数作为染色体强度的适应度函数,以找到K-means算法的最优初始种子。适应度函数定义如下:
(3)
式(3)中Gi表示第i个聚类,Lj表示属于Gi的学习者,LSj表示第j个学习者Lj的学习风格向量,gj表示Gj的聚类中心。适应度函数Fit表示每个学习者到各自聚类中心的距离的和。适应度函数Fit越小,说明初始聚类中心的选择越好。
在本算法中,将迭代100次作为停止标准之一。100代以后,以适应值最小的染色体作为最终输出。同时还设计了以下停止条件:如果最佳染色体的适应值连续10代不变,则遗传算法的过程将停止。
2.6 遗传算子选择
本文使用选择、交叉、变异算子,交叉算子通过双亲染色体交换有意义的遗传物质来产生两个新的后代,变异算子通过向种群中引入一个全新的成员来维持种群的遗传多样性。
2.6.1 选择算子
选择操作通过适应度选择优质个体,抛弃劣质个体,体现了“适者生存”的生物法则。常见的选择操作主要有:轮盘赌选择、排序选择、最优个体保存及随机联赛选择。本文采用轮盘赌选择方式,某染色体被选的概率Pc为:
Pc= (4)
式(4)中f(xi)表示第i个染色体的适应度值;∑f(xi)表示种群中所有染色体适应度值之和。
2.6.2 交叉算子
交叉是指两个染色体按照某种方式交换部分基因信息,从而产生两个新的染色体。常用的交叉方法有:单点交叉、双点交叉、均匀交叉及算术交叉。本文使用单点交叉,从其中可能的三个交叉点P1、P2、P3、P4中随机选择一个交叉点。交叉操作如图3所示,其中P2是所选交叉点。
2.6.3 变异算子
变异是指以一定概率随机改变染色体编码串中部分基因值,形成新的个体。常用的变异方法有:基本位变异、均匀变异、二元变异及高斯变异。本文采用基本位变异方法,从五种可能性(I到V)中选择一个随机基因组(四位),并根据学习风格情境,使用相反选择答案得到的4位编码串替换它。变异操作如图4所示,IV基因被反向基因组(7 8 10 6)替换。
2.7 K-means聚类
(1)以遗传算法得到的最优解作为初始聚类中心。(2)计算所有数据对象到这k个初始聚类中心的距离,并将数据划归到离其最近的那个中心所在的类。(3)重新计算已经得到的各个簇的质心,作为新的聚类中心。(4)计算公式(2)中的准则函数E,若E不满足,重复第2、3步,直到聚类的中心不再移动,输出聚类结果。
3 实证分析
为了检验本文提出的算法的有效性及对学生学习风格进行分析,本文使用MATLAB进行仿真实验,实验环境的硬件配置为Inter(R)Core(TM)i5-3470 CPU@3.20GHz 4.00GB,開发环境为 MATLAB R2016a。
3.1 实验一:有效性分析
本文为了对学习者学习风格进行分析,提出一种基于遗传算法和K-means聚类算法GA-K-means的分析算法。下面采用传统K-means和优化后的GA-K-means分别对学习风格数据进行分类,验证本文提出的GA-K-means算法的有效性。实验结果如图5所示。
可以看出,传统K-means算法虽然收敛速度快,但是容易陷入局部最优解,而本文提出的GA-K-means算法则能够避免早熟现象,且收敛平稳,收敛效果明显优于传统K-means算法。
为了进一步验证算法的有效性,对传统K-means算法和本文提出的GA-K-means算法分别进行10次实验,实验结果如表3所示。其中匹配度计算公式(5)为:
匹配度=每次实验都被分到同一类别的学习者个数/学习者总数 (5)
从表3可以看出,由于传统K-means算法对初始聚类中心的选择比较敏感,导致每次聚类结果都有很大差异,10次实验结果的匹配度较低,而本文提出的GA-K-means算法匹配度较高,具有较好的稳定性。
3.2 实验二:结果分析
学习者学习风格聚类结果如表4所示。
可以看出,学习者被分为五类:学习群体1(直觉+视觉+主动+全局)、学习群体2(感知+视觉+主动+全局)、学习群体3(感知+言语+反思+顺序)、学习群体4(直觉+言语+主动+全局)以及学习群体5(感知+视觉+反思+全局)。学习群体1的学习者喜欢通过图表、视频等方式学习新知识,能够很好的安排自己的学习过程。他们倾向于与人讨论,参与团队合作,在做中学的过程中寻找问题的答案,更有创新性;学习群体2的学习者倾向于按照教师提供的学习路径进行学习,他们习惯于学习微课视频等,然后在与同学交流过程中掌握知识;学习群体3的学习者倾向于通过文字信息获得知识,如教学PPT、导学案等,他们会边学习边思考,而不是与其他同学交流;学习群体4的学习者喜欢学习新的知识,有创新性,擅长理解抽象的概念,喜欢解决复杂有难度的问题;学习群体5的学习者倾向与通过视频、图表、图片等获得知识,注重细节,有耐心,能够按部就班的完成学习任务。
4 结语
本文在分析学习者学习风格表示和传统K-means算法的基础上,提出了基于遗传算法和K-means聚类算法的学习者学习风格分析方法。该方法弥补了K-means在寻找全局最优解方面的不足,结合遗传算法对学习者学习风格进行分析研究。实验结果表明,本文提出的GA-K-means算法在稳定性和有效性方面都明显好于传统K-means聚类算法,对学习者学习风格的分析更加准确与全面,有利于教师在教学过程中分析学生的学习风格,为学生提供个性化的学习支持和学习资源。
參考文献
[1] 王维,董永权,胡玥.基于大数据的个性化学习分析模型构建[J].黑龙江畜牧兽医,2019(20):166-169.
[2] Bourkoukou O,Essaid El Bachari,Mohamed El Adnani. A Recommender Model in E-learning Environment[J].Arabian Journal for Science & Engineering,2016,42(2):1-11.
[3] 刘婷.基于粒子群和K-均值聚类算法的学生心理分析方法研究[J].电子设计工程,2018,6(19):75-79.
[4] 乔兴媚,杨娟.学习风格用户模型分类及其自适应策略[J].现代教育技术,2019,29(01):100-106.
Study on Learning Style Analysis Based on Genetic Algorithm and K-means Algorithm
WANG Fang,LIN Long-cheng
(Nantong Health Branch,Jiangsu Union Technical Institute,Nantong Jiangsu 226010)
Abstract:At present, "Internet + education" has become a hot topic. Traditional teaching methods can no longer meet the needs of online learning. With the help of education data mining technology, how to promote students' personalized learning has become a hot topic of teachers' attention. In this paper, on the basis of studying the existing learning style model, we use the Felder Silverman model to express the learning style, and propose a learning style analysis method based on genetic algorithm and K-means clustering algorithm, which makes up for the shortage that K-means algorithm is easy to fall into the local optimal solution. Finally, the traditional K-means and GA-K-means are used to analyze the learning style data respectively. The experimental results show that the GA-K-means algorithm proposed in this paper is significantly better than the traditional K-means clustering algorithm in terms of stability and effectiveness. The analysis of the learning style of learners is more accurate and comprehensive, which is beneficial for teachers to analyze students' learning style in the teaching process and provide personalized learning support and learning resources.
Key words:Genetic algorithm;K-means clustering algorithm;personalized learning;learning style analysis