基于K均值聚类算法及朴素贝叶斯分类器的学习行为分析研究

2019-05-24姚家麟谭召于松楠鞠茵茵刘素娟

电脑知识与技术 2019年11期

姚家麟谭召于松楠鞠茵茵刘素娟

摘要：随着互联网技术在教育领域应用得越来越成熟，各类型的网络教学平台与测试系统层出不穷。无论是各个高校的网络授课系统，还是包含各类行业实际案例课程的网课平台，都为当代学习者与授课方提供了极大的便利。在各类教学平台中，均有大量的数据产出，对这些在线学习过程中产生的大量数据进行挖掘，可以有效地对学习者的学习行为模式提出建议与优化，同时，可以给授课方精准的授课效果分析，帮助授课方改进授课方针。在由大量用户组成的学习社区生态下，通过多维度数据挖掘，可以对不同用户给出精准的课业投放，大大提高用户的学习体验。

关键词：学习行为分析；K均值聚类；朴素贝叶斯分类器；数据挖掘；数据可视化；在线学习

中图分类号：TP393 文献标识码：A

文章编号：1009-3044（2019）11-0017-03

1 引言

在线学习与传统学习方式相比，为学习者提供丰富的学习资源和书籍无法比拟的信息环境，能满足学习者个性化学习的需求，为学习者提供更加自由的学习空间，学习者可以定制自己的学习方式，不断提高学习效率，从而将被动地接受变成主动的学习[1-4]。

但是随着在线教育的不断发展，也面临着巨大的挑战，特别是在学历教育或者正式教育方面，主要问题包括：

（1）教学的质量与效果问题；

（2）教学的个性化调整与适应问题；

（3）对学习的监控、教育、评价问题。

在大数据时代的背景下，各类“互联网+”产业纷纷致力于数据挖掘的研发与应用，“云计算”与“人工智能”渐渐成为高频词，而“互联网+”教育的相关产业中，针对上述三个主要问题，数据挖掘也同样值得探索与开发。对于用户在学习过程中产生的各类数据，通过科学的采集分析，能够划分学习者的类型，学习行为模式的类型，乃至学习效果的预测，将此反馈给用户，能够给予用户更好的平台使用体验并优化改善学习方法，提高学习效率，同时对于授课方而言，这也是调节授课方针的双向反馈[3-6]。

2 相关工作

2.1在线学习平台研究现状

当代在线学习平台以及网络教学平台层出不穷，其中MOOC（massive open online courses）慕课网更是业内典范。将各行各业的各类课程分布在不同的大类小类之下，以树状结构的形式引导用户选择想要学习的课程。其理念与实践得到了国内外众多大学的认同，包括哈佛大学、麻省理工学院、斯坦福大学、北京大学、清华大学等，他们在慕课网上免费公开自己的课程，供全球学习者进行在线学习访问，在这种网络教学模式下，全球千万用户得以收益[1-2]。并且，其证书体系也在平台的发展中日益完备，对于不同课程的考核方针以及考核过程具有不同的处理策略，确保其证书的有效性与真实性。然而，对于网络教学平台而言，学习者的学习效果，更多地取决于学习者的学习动机，并且由于网络教学的模式局限于对于资源的展示与访问，更需要学习者极大的自主学习欲望和较为高效的学习方法，否则，面对优质的课程资源，可能最终的学习效果难以达到学习者的心理预期。并且，不仅仅局限于慕课网，众多的网络教学平台均存在着这个问题，当学习者的学习方法较差或学习动机较弱，其学习效果相较于传统课堂教学并不尽如人意。因此，对于在线学习或网络教学平台而言，通过数据挖掘算法合理的定制个性化学习方案显得尤为重要。

2.2 K-means聚类算法

3 学习平台设计及在线行为分析

3.1学习平台搭建设计

学习平台采取Web应用程序的形式，以Python作为后端语言，包含业务逻辑处理和数据挖掘部分，使用Django框架搭建，在服务器端采用Nginx+uWSGI部署，以解决Django框架本身单线程的问题。数据库部分因是测试平台，采用MySQL数据库进行全部数据的存储。

平台主要业务如下：

对于大部分用户即学习者，平台提供：在线学习、在线练习、在线测试、论坛系统、智能反馈等业务。

对于平台的第二类用户即教学者，平台提供：开设课程、开设教学班、发布作业练习、发布考试、发布教学资源、导入题目、论坛系统、智能反馈等业务。

3.2 数据采集

在进行数据挖掘之前，数据采集是不可或缺的一步，无论是从关系型数据库中直接读取，还是从日志数据中筛选过滤，都是为后续的数据处理做准备。结合现有文献及资料，基于测试平台的构建设计，共收集九类特征数据。由于全部数据使用MySQL存储，对于日志数据库的设计采取分类分表的模式，操作日志、下载日志、搜索日志、错误日志分表存储，包含请求内参数、用户信息、浏览器信息、操作路径、时间戳等常规日志字段。

当用户进行相关操作时，请求中包含的参数信息，在业务模块成功执行后，带着请求信息、参数信息、时间戳信息共同存储至对应表，如图1所示，囊括页面切换、资源访问、模拟练习等用户操作，同时资源下载、站内搜索等模塊也会被转储。平台共涉及九类特征数据的采集，主要方法采用从数据库中筛选调取后，进行一定统计转储为数据模型。

3.3 数据预处理

对于以上九类数据模型，首先对缺失值进行分析填补，采用均值插补法进行填充，确保全部数据模型的完整性，其次采取聚类算法将连续型数据离散化，最后将处理完毕的数据重新转储成数据模型，以供进一步处理。

预处理方法：

1）均值插补[7]：

由于平台采集数据具有可度量性，因此使用该方法对缺失数据进行填补，通过计算某缺失值同类元素有效值的均值，将其填补进入空缺位置。

2）聚类算法：

算法流程：

（1）拟定K值，即总簇类数目；

（2）通过均值随机数*数据样本容量来拟定K个初始质心位置；

（3）设置最大迭代次数N；

（4）对于数据集中剩余非质心元素，测量其到各个质心距离，并将其归到最近质心的类；

（5）更新已经得到的各个类的质心；

（6）迭代（4）（5）两步直至新的质心与原质心相等或达到最大迭代次数；

（7）返回包含簇类划分的数据集。

在采集到的九类数据模型中，在线时长信息、论坛信息、资源信息、测评信息、搜索信息、在现时段信息均采用K均值聚类算法进行类目划分，而基础信息则直接对不同信息进行数字化处理，划分类目。页面访问信息在进行归一化处理后，也使用K均值聚类算法进行类目划分。

3.4 数据挖掘学习行为分析

平台采用朴素贝叶斯算法作为数据挖掘的主要算法。通过对数据预处理后的九类特征数据集进行先验概率与条件概率的计算建模，来进行用户的分类。

在经过K均值聚类算法离散化后，原有包含连续型数据的九类特征数据模型，全部转化离散型数据模型，通过计算每一类特征中每一簇类出现的次数，即可获得九类特征数据的先验概率，而通过计算在指定用户类别下的某类特征数据中每一簇类的出现次数，即可获得该类特征数据在指定用户类别下的条件概率。通过对全部特征数据集的计算，完成朴素贝叶斯模型的建立。

朴素贝叶斯分类：

（1）设X={A1，A2，A3，…，Am}为一个待分类项，每个A为X的一个特征；

（2）有类别集合Y={C1，C2，C3，…，Cn}；

（3）分别计算P（C1|X），P（C2|X），P（C3|X），…，P（Cn|X）；

（4）若P（Ck|X）=max{P（C1|X），P（C2|X），P（C3|X），…，P（Cn|X）}，则X∈Ck。

平台将成绩数据作为打标数据，通过不同成绩区段，将所有用户区分为五类用户，对于新用户即新个体而言，在获得足够的数据以进行K均值聚类以后，即可通过其表现出的九类特征数据来进行用户类别的预测评估。

朴素贝叶斯算法中，对于概率的计算存在着独立事件假设，而在现实生活中往往不是如此。学生的各类学习行为之间往往存在着关联性，同时，各类数据对于学生学习效果的影响并不相同，因此，在不对朴素贝叶斯算法进行改良的情况下，难以做出最为准确的评估，并且由于学生学习行为关联性的存在，在数据集较小的情况下，难以计算得出最准确的朴素贝叶斯模型。因此，需要在计算的过程中，对朴素贝叶斯模型进行加权处理，对于不同影响力的特征数据赋予不同的权重值，并且需要进行较长时间的样本训练，才能提高模型的准确率[12-14]。初始的权重值采用现有学习行为分析研究中的部分结论，后在真实数据的训练过程中，通过用户反馈及预测准确率双向调节各类数据权重值，以提高模型准确率[1-4]。

4 实验及分析

在模拟数据试验中，对九类特征数据，模拟生成共计7380条数据，通过参考现有文献及资料，对不同特征采取不同概率分布，见表1。

将模拟数据经数据可视化处理后，见图2，此为在线时长的柱状图，其x轴表示在线时长，y轴表示该单位在线时长的人数，显而易见其符合N（36000，21000）的概率分布。

在聚类测试中对不同数据源采用不同k值选取，经手肘法测试后，生成的最佳k值，见表2。

将模拟数据经数据可视化处理后，见图3，此为在线时长的聚类质心分布图，由于是一维数据，所以其x轴与y轴均为在线时长，三个质心分别落在19000，40000，63000左右的位置，测试用算法并未设置最大迭代次数，因此此为最佳质心位置选取，图4，此为聚类效果图，x轴表示划分类别，分别为0，1，2三类，y轴表示在线时长，结合图2在线时长统计图观测，其聚类效果良好，每个类目人数分布合理。

在成绩分段上，首先将成绩百分化后，低于55分为一类，55-68为一类，68-79为一类，79-88为一类，高于88为一类，共计五类。将九类特征模拟数据中的前80%作为训练样本，剩余20%作为测试样本，测试朴素贝叶斯分类器准确率，最终于源数据类别相符占62%，即在模拟数据实验中，该分类器能达到62%的准确率。

5 结论及展望

在网络教学平台中，K均值聚类算法和朴素贝叶斯分类器的使用具有可行性，但由于网络教学平台中能获取的特征具有局限性，并且当前算法并未对特征重要性进行加权处理，且各特征之间有着不可忽视的关联性，因此在模拟数据下，达到了62%的准确率足以体现该分类器在实际应用中的可行性。当从真实网络教学环境中获取到大量数据后，不仅仅能够对模型进行修正，同样可以对算法进行改良，优化，这是为今后探索数据挖掘算法在网络教学之中的应用做准备。对于该算法在在线学习平台中的进一步开发，可以从对数据的加权处理以及对更科学的特征值选取两方面入手。随着越来越多的用户群体加入，优质的网络教学也将被更多人接受认可，网络教学的意义与价值都将被放大，成熟的数据挖掘体系也将被建立。但在发展过程中，一定会存在着诸多问题，一步步优化改良是作为开发者不可或缺的素质。对于网络教学平台中用户行为特征值选取，建立完备的预测体系与个性化推荐体系，深入了解用户需求是接下来要面对的问题也是主要研究方向，同时，优化“教”与“学”之间的双向反馈也是极为重要的研究任务。

参考文献：

[1]蒋卓轩，张岩，李晓明.基于MOOC数据的学习行为分析与预测[J].计算机研究与发展，2015，52（3）：614-628.

[2]李曼丽，徐舜平，孙梦嫽.MOOC学习者課程学习行为分析——以“电路原理”课程为例[J].开放教育研究，2015，21（2）：63-69.

[3]胡艺龄，顾小清，赵春.在线学习行为分析建模及挖掘[J].开放教育研究，2014，20（2）：102-110.

[4]柴艳妹，雷陈芳.基于数据挖掘技术的在线学习行为研究综述[J].计算机应用研究，2018（5）.

[5]刘琼.在线学习系统的数据挖掘研究[D].武汉理工大学，2010.

[6]徐鹏，王以宁，刘艳华，等.大数据视角分析学习变革——美国《通过教育数据挖掘和学习分析促进教与学》报告解读及启示[J].远程教育杂志，2013（6）：11-17.

[7]金勇进.缺失数据的插补调整[J].数理统计与管理，2001，20（6）：47-53.

[8]袁方，周志勇，宋鑫.初始聚类中心优化的k-means算法[J].计算机工程，2007，33（3）：65-66.

[9]杨善林，李永森，胡笑旋，等.K-means算法中的k值优化问题研究[J].系统工程理论与实践，2006，26（2）：97-101.

[10]袁方，孟增辉，于戈.对k-means聚类算法的改进[J].计算机工程与应用，2004，40（36）：177-178.

[11]Hartigan J A，Wong M A.Algorithm AS 136：A K-Means Clustering Algorithm[J].Journal of the Royal Statistical Society，1979，28（1）：100-108.