网络课堂在线评论的挖掘分析<br/>——以网易公开课《王阳明心学》为例

网络课堂在线评论的挖掘分析
——以网易公开课《王阳明心学》为例

2018-01-26蔡永明

成功 2017年9期

张莹宋磊韩丹蔡永明

济南大学商学院山东济南 250022

一、引言

自美国麻省理工学院2001年启动开放课程运动后，各国200多所名校逐渐加入开放课程体系。近年来，国内网络教育平台进入飞速发展时期，目前较著名的平台主要有网易公开课、MOOC学院、Coursera等。大量优质课程资源在各大学习平台聚集，涵盖国内外高校开设的精品开放课程，学习者可以通过网络挑选课程并进行自主学习。然而，面对海量的学习资源，学习者如何快速找到适合自己的课程资源成为一大难题。学习者大多通过课程简介选择课程，很多人往往花费了数小时之后才发现课程内容、讲授方式并不适合自己。因此，急需一种方法帮助学习者快速、有效地把握课程内容、讲课风格及讲授质量。

在网络课程内容评价方面，早有研究者从各个角度给出评判。宋志明[1]提出传承知识、启迪智慧，满足学习者的学习需求是网络公开课的主要目的。刘进军(2011)[2]提出要建立完善的评价体系，实行学生和专家打分评价的模式。孙传远(2013)分析爱课程网的评论内容得出了开放课程质量评价的八个维度，给出正面或负面的评价倾向[3]。上述研究主要停留在人工评价方面，面对海量课程信息该方法费时费力，效率不高。本文利用LDA文本挖掘技术通过抽取用户评论的主题，获取课程的内容主题及用户评论的情感倾向，为后来学习者提供课程选择的重要依据。

二、相关理论

潜在狄利克雷分配模型LDA是由DavidM.Blei等人在2003年提出的一种概率主题模型。其在PLSA基础上，增加了文档-主题分布及主题-特征词的Dirichlet共轭先验，生成一种更完备的概率主题模型。其贝叶斯生成图如图1所示。图中，K为主题个数，M为文档总数，Nm是第m个文档的单词总数。是每个主题下词的多项分布的 Dirichlet先验参数，是每个文档下主题的多项分布的 Dirichlet先验参数。Zm,n是第m个文档中n个词的主题，Wm,n是m个文档中的n个词。两个隐含变量 m和 k分别表示第m个文档下的主题分布和第k个主题下的单词分布，前者是k维(k为主题总数)向量，后者是v维向量（v为词典中单词的总数）。

图1 LDA贝叶斯生成模型图

文档的生成过程可描述为：首先，依据参数，生成文档-主题多项式分布和主题-单词多项式分布；其次，对第m篇文档，随机抽样得到文档中每个词的主题分布 m；根据所得每个词所在的主题k，随机抽样 k到主题上的一个单词。持续该过程直到生成整篇文档。

三、实验分析

本文以网易公开课浙江大学《王阳明心学》为研究对象，该课程共9集，由浙江大学董平老师主讲，目前在网易公开课平台上有5874人参与学习，579人跟帖评论。自课程站点(http://open.163.com/movie/2011/10/F/G/ M7GF17HPS_M7GHGQTFG.html)利用火车头软件抓取该页面中的用户评论数据，部分评论数据如下面图2所示：

图2 《王阳明心学》网络评论数据

为保证分类过程中各环节的透明化，以减少中间过程的不可控因素，因此分词方法主要采用中科院ICTCLAS分词系统进行分词，经过分词、去除重复词汇和停用词、以及网页非文字符号，生成分析语料库。对模型进行训练以获取最优参数的设定，将LDA模型中超参数和设为默认值 =50/k，=0.01，迭代次数设置为1000次。本文采用困惑度结合肉眼观察结果，模型主题数最终确定为4个。从主题分布上看，比较突出的主题词是“王阳明”，查看相关主题词主要有：“不错”、“内容”、“平淡”、“唯心”……，分析可见该课程隶属唯心主义范畴，内容尚可，讲课风格比较平淡。