基于混合模型的虚拟学习社区角色识别策略分析*
2021-11-30王梦菊邵晶波
王梦菊 邵晶波
哈尔滨金融学院 黑龙江 哈尔滨 150080
引言
虚拟学习社区是借助信息技术创建的网络学习环境,是在联结主义的启发下出现的一种学习组织,也是将在线学习与社交网络相结合的产物。在虚拟学习社区中,不同的群体对构建知识的贡献和所起的作用不尽相同。因此,认识和理解虚拟学习社区中的各类角色,可以更好地分析和理解虚拟学习社区、预测用户行为、研究用户之间的关系和交互过程、对不同的角色采取不同的支撑策略。
1 相关方法与技术的研究现状与挑战
1.1 社会网络与社会网络角色识别
社会网络理论出现于20世纪50、60年代,德国社会学家Georg Simmelcon从社会学角度将其定义为:一个由一组代表社会成员的节点和表示节点间关系的边或连线构成的社会结构。 1969年,Milgram做了Small-World实验,1991年Guare提出“六度分离”概念。1992年,美国社会学家Ronald Burt提出了结构洞理论。美国斯坦福大学人文与科学学院社会学家Mark Granovetter对找工作的过程进行研究,得出结论:“弱连接”有着极快的以及可能具有低成本和高效能的传播效率。此外, “二对一理论”和结构角色理论也是目前主要的社会网络理论。但传统的社会网络研究具有准确性低、个人主观性强以及样本规模小等问题。
社会角色的概念最早是由人类学家Ralphlinton提出,指人们对于某种位置上人的行为的期望或要求。目前,社会网络角色识别的主要方法为以下4种以及之间的组合:社会网络分析方法、数学分析方法、内容分析方法、机器学习方法。另外,根据结构相似性、规则结构等价性、结构特征的分类、聚类、概率图模型等具体识别的方法,可归属到上述4种方法中。这些研究方法目前面临的挑战有:社会网络复杂性分析问题、海量数据问题和评价问题等。
1.2 虚拟学习社区与虚拟学习社区的角色分类
国内最早出现虚拟学习社区的概念是由陈超等在2001年提出。国外对于虚拟学习社区的研究早于国内,研究者们使用社交网络中的密度、出度/入度、社群图、中心性等基本属性来分析学习者的交互结构,一般将虚拟学习社区中的群体划分成核心、积极和非积极三类。已有学者为了研究学习者在构建知识中的角色和在虚拟社区中的地位,使用了结构洞、凝聚子群王、块模型中的结构等价等方法[1]。
在这些方法中,专门划分社交网络中行为人地位的是块模型和概率模型识别方法。传统的块模型主要是通过网络的关系结构来构建,忽视了用户间交互的信息内容。而概率模型,在不考虑网络关系结构的情况下,将文本内容与图中的边关联起来,虽然用到了节点间文本的关键信息,却缺乏像块模型从全局的角度来识别。因此,如何将这两种模式有效结合,是当前虚拟学习社区角色分类方法中的一个重要思路。
2 基于混合模型的虚拟学习社区角色识别策略
2.1 研究对象
研究对象为大型在线开放课程的课后讨论区。选取中国大学慕课中《操作系统原理》的课后讨论区作为模型设计阶段的数据来源,具备丰富的数据样本空间,适合作为训练样本。本文作者近两年使用中国大学慕课平台上的《操作系统原理》课程进行SPOC教学,熟悉该课程的教学过程,有利于对课后讨论区中数据进行特征分析。在模型评价阶段,拟选取我校智慧树平台上的在线开放课程《数据结构》的课后讨论区学习者昵称和发言文本作为评价数据源,本文作者为该课程负责人,方便调取后台数据,同时,熟悉课程学生情况,便于在实际教学和互动中掌握学生角色类别,为人工评价提供了可行性。
2.2 数据源
本文研究数据来源于MOOC中国慕课网和智慧树平台。
MOOC即大规模开放在线课程,于2008年次提出。2012年,美国的顶尖大学陆续设立网络学习平台,Coursera、Udacity、edX三大课程提供商兴起,给更多学生提供了系统学习的可能。平台上的课程向学习者免费提供,与真正的大学相似,有一套自己的学习和管理系统。MOOC平台课程具有资源工具多元化、课程学习方便、课程受众面广等特点。
智慧树于2009 年成立,是中国最大的MOOC式在线互动学堂,支持跨校授课和学分互认,适合实现跨校选课修读。该平台可实现在线课程和见面课相结合,同时设置技术向导,为教师和学生引领学习过程的开展。在课程教学的整个流程中都提供平台服务,同时,通过统计图和进程条等方式反馈个体和群体学习情况,使教师能够及时掌握学情。
2.3 数据源选取策略
社会网络数据的海量化和动态化,使角色识别算法的数据处理面临如下挑战:处理的时间即效率和算法的准确率。因此,本课题中数据源的选取考虑三个方面:数据规模、数据的时间变化和数据的种类多样化。如上所述,中国大学慕课平台是大规模在线开放课程平台,选课人数众多、数据规模较大,适合训练样本的选择;同时,课程的多次开课使得同一课程在不同时间阶段拥有不同学习者群体的学习数据,更适合作为动态训练样本,方便进行对比、评价。智慧树平台作为在线互动学堂,设有课程论坛和见面课,能够进行互动交流,使得教师在异步和同步互动中更加熟悉学生情况,方便进行学生角色的主观识别,从而对模型的识别结果进行主观评价。分别从上述两大平台中选取2门共3次课程数据,从而确保数据种类的多样化。具体选取策略如下:
2.3.1 选取大规模在线开放课程中国大学慕课中《操作系统原理》(第六次开课)的课后讨论区作为模型设计阶段的数据来源。本文作者近两年使用中国大学慕课平台上的《操作系统原理》课程进行SPOC教学,熟悉该课程的教学过程,有利于对课后讨论区中数据进行特征分析。使得训练样本空间有足够数量的历史数据作为静态训练样本,数据收集截止日期至2020年6月30日。
2.3.2 选取上述《操作系统原理》课程的第七次开课数据作为动态训练样本,进行识别模型测试。
2.3.3 采用智慧树平台上的在线开放课程《数据结构》的课后讨论区学习者昵称和发言文本作为评价数据源。该课程的负责人为本文作者,方便后台数据调取。同时,由于该课程的教学团队熟悉课程学生情况,便于在实际教学和互动中掌握学生角色类别,因此由一线教师进行人工评价(目前,人工评价仍是评估社会网络角色识别模型的主要方法)。
2.4 从宏观角度识别学习者角色,采用正则等价作为块模型的等价规则
结构等价的定义比正则等价严苛,在小规模的、自发形成的社交网络中,很难找到能够结构等价的两个节点。 像虚拟学习区中常见的场次多但参与人数不多的讨论,用正则等价比较容易实现区分角色的目标。将正则等价结构与块模型的构建结合,实现正则等价下的角色划分[2]。
2.5 从微观角度识别学习者角色,采用主题概率模型处理文本数据集,使用无监督分级贝叶斯模型实现
选取主题,即在课后评论区选取一个数量较小词汇的分布对大量的文本进行总结,这些分布被称为 “主题”。把主题定义为一个给定词汇的多项式分布。具体过程如下:
对评论区的每一个帖子,从狄利克雷分布中抽取出该帖子的主题分布。根据主题分布,对帖子中的每一个词汇选择一个单一的主题。从具有特定采样主题的词汇多项式分布中,对每个词汇进行采样。由该生成过程对应的分层贝叶斯模型,得到关于参与主体的主题信息和每个帖子中这些主题的权重信息。
2.6 构建基于“正则等价块模型-主题概率模型”的混合识别模型,弥补单一模型缺点
设计优化组合策略,计划使用迭代方法,将前期构建的正则等价块模型和主题概率模型相融合,构建混合识别模型。在动态训练样本空间上运行、修改优化。目前,社会网络角色识别的大多数方法,或是依据社会网络中的结构,或是依据社会网络中的内容。前者侧重从宏观角度识别角色,对主题或环境的因素几乎没有考虑;后者从微观角度识别社会网络中的角色,更多关注文本中的关键信息,缺乏对全局的认识。
本文采用“混合方案”,在角色识别中使用块模型关注社会网络的结构,同时使用主题概率模型关注社会网络的内容。通过对二者的优化组合,并考虑时间因素,使角色识别结果更符合虚拟学习社区的实际情况。
2.7 对模型分类结果进行评价
目前,还没有一种评估方法,可以对所有角色识别方法进行有效评估,甚至很多时候需要通过人工来完成。本文采取客观评价与主观评价相结合的策略。对于识别结果效率等定量问题,采用在相同样本空间上与其他识别方法对比的评价方法。而角色识别方法的评价问题中,最难解决的是如何判断识别结果是否符合实际情况,即识别出的角色在实际活动中是否符合角色特征。这是一个具有主观性的问题。针对这一问题,将采用智慧树平台上的在线开放课程《数据结构》平台上的数据作为评价样本空间,由课程团队中教师进行人工评价。采用以下四种方法,从角色识别的精度和效率两个方面进行综合评估:与常见的聚类算法进行对比。与单一块模型算法进行对比。与单一主题概率模型算法进行对比。由智慧树平台上的在线开放课程《数据结构》教学团队进行人工评价。
2.8 依据分类结果,提出虚拟学习社区建设的启发
通过上述混合识别模型,发现虚拟学习社区的学习者在知识构建的过程中形成的不同的角色。得到他们在交流讨论、知识传递的过程中表现的不同特征[3]。根据角色分类的结果,预计在以下方面有所启发:对虚拟学习社区的不同角色进行知识推荐,采取不同的策略,促进个性化学习。同时,角色识别的结果也为自适应课程中知识模块的划分和总体策略的制定提供了参考。挖掘导学者,向慕课的教师推荐“学生助教”。发现初学者,对其给予更多关注。在SPOC课程中,在线学习社区的角色识别可以帮助教师及时了解学情,调整与学生互动的方案,提高教学效果。学习者角色的识别结果,也可用于“自适应”课程针对不同的学习角色进行不同的知识模块组合。对于大型在线开放课程平台,学习者角色识别可以帮助教学者了解当前课程学习者的多样需求,对于课程建设,甚至专业课程设置、人才培养方案制定都起着积极的作用。