MOOC网络的行为交互及影响因素研究

2020-07-01蔡河长

科技和产业 2020年6期

蔡河长

(昆明理工大学管理与经济学院，昆明 650000)

大规模开放在线课程(MOOC)是近年来开放和远程教育领域的一种新的在线学习方式，进而引发了众多的教育专家对MOOC讨论[1-3]。与传统课堂相比，MOOC更加强调以学习者为中心的教学理念，能够使学习者获得从单线性到复杂路径的知识[4]。虽然MOOC以规模化、开放性、网络化和创新性等特征[5]，为学习者提供了全球优秀的教育资源，使得学习者可以实现更高层级的方法创新[6]。因此，深入探讨疫情冲击下MOOC学习者的学习行为模式对在线教育产业发展具有重要意义。

1 文献综述

2014年，中国大学MOOC正式上线开启了国内MOOC学习的热潮，同时，国内学者也逐步对MOOC开展了研究。李曼丽[7]指出教学者的教学设计和引导对MOOC学习者的课程参与度具有重要作用。唐九阳等[8]通过构建MOOC学习模型，针对MOOC的三大主体提出5类学习策略，来保持学习者的上线率和并引导学习者完成课程。自MOOC在国内备受关注以来，MOOC的学习者行为也是国内研究人员关注的重点。姜蔺等[9]探讨了学习者的学习特征对其学习效果的影响，并指出学习者的参与度是学习效果的达成的重要影响因素。危秒等[10]从学习行为的多个方面出发，构建学习成绩关联模型，研究结果表明不同的学习行为导致学习成绩的差异。薛宇飞等[11]基于edX平台数据选取了不同国家的学习者在线学习行为数据，通过计算其“学习活跃度”和“持续性”，比较了跨文化背景的学习者行为的异同，进而影响其学习行为的可持续。王晰巍等[12]利用结构方程模型探究社交媒体学习者转移行为的影响因素。沈欣亿等[13]通过多轮德尔菲法等研究方法，利用中国大学先修课的在线学习行为数据，构建了学习行为对学习绩效的关系模型。张媛媛等[14]对MOOC学习者的不同访问行为研究，通过二阶聚类方法，来刻画不同的课程资源访问模式对学习绩效的影响。王璐等[15]根据edX学习者行为数据，运用K-Means聚类算法将学习者划为5类，指出学习者参与程度不同会对MOOC教育质量产生差异。王哲等[16]运用复杂网络理论分析学习小组在线知识协作中的学习者角色及其行为与分布特征。

国外学者对MOOC学习者行为的研究相对广泛，Zheng等[17]通过探讨学习者学习MOOC的动机、观念和经验，指出深入了解学习者需求对于MOOC的未来发展是至关重要的。Hone等[18]基于开罗大学379名参与者的调查，结果指表明课程内容是MOOC参与程度的重要影响因素。Pursel等[19]研究了MOOC学生的人口统计学数据、预期行为和课程互动对MOOC完成量的影响。Goldberg等[20]认为教育背景的差异不会对课程的参与程度造成影响，并指出完成MOOC的参与者比未完成课程的参与者更喜欢在讨论区上发言。Kovanovic等[21]和Wise等[22]使用聚类分析和回归分析来研究学习者参与行为对社会知识构建的影响。Gasevic等[23]把社会关系和话语内容分析中产生的不同维度的协作学习建模为网络，把社会网络分析和认知网络分析相结合，运用于MOOC产生的学习数据上，结果表明高低不同层次的学习者存在差异。

综上所述，国内外研究者多从学习者个体行为作为切入点，探讨学习者的参与程度与学习绩效等其他指标之间的相关性，但却没有考虑学习者之间、学习者与课程之间的行为交互关系，没有考虑学习者连接而成的群体行为对其学习兴趣和参与度的影响；同时，学习者属性特征对学习者行为交互具有重要影响，而现有研究多从主观视角分析MOOC参与程度，缺少从学习者属性特征探析其对学习者参与程度的影响。因此，上述研究缺乏从整体网视角探讨学习者行为特征与其学习持续参与度的关系。基于此，本文试图融合社会网络分析和计量分析方法，从宏观和微观两个角度回答上述问题，即从宏观角度分析学习者关系网络的结构和拓扑有何特征以及从微观视角分析学习者属性特征对学习者学习参与程度有何影响？

2 数据来源及研究方法

由于网络中节点的局部特性，社会网络能够将网络的局部特性和全局特性联系起来[24]。因此，研究基于节点的局部性质作为网络分析的方法，运用python网络爬虫和集搜客软件对中国大学MOOC的课程和学习者信息进行采样。通过分析采样信息，研究能够刻画出中国大学MOOC学习者-课程的整体网络结构。

采集从中国大学MOOC的课程评论区开始，收集了每个评论学习者的主页上可以访问的所有信息，包括描述性信息，评论数，关注数，证书数，以及学习者参加的所有课程等信息。由此产生的“雪球样本”几乎包含中国大学MOOC平台部分的强连通组件的所有课程与学习者信息。本研究从中国最大的MOOC教学平台中国大学MOOC收集了大约3 370人的学习者元数据，共计77 790条选课记录。研究使用MATLAB和python对数据进行清洗，去除一些重复项和无用项去除，得到干净的数据后，运用python和Pajek对数据进行社会网络分析，并运用Gephi对图形作可视化处理。

3 MOOC网络分析

3.1 网络节点分析

不同学习者在中国大学MOOC平台上因学习了不同的课程而在网络中处于不同的位置，本研究旨在研究学习者与课程的二元互动关系，并基于二元互动关系建立MOOC二模关系网络。二模网络中，网络中的节点有两类；一类是学习者节点，另一类是课程节点。连线只在不同的节点之间产生，它们之间通过学习关系产生连接。利用Gephi对关系行为进行可视化及相关参数分析，中国大学MOOC的学习者与课程的关系如图1所示。由图1可知网络拓扑连接呈现“一多一少”的失衡：①大部分的学习者节点之间联系紧密，少数节点成为孤立节点；②多数学习者节点连接的课程数节点在2～3之间，少量学习者节点连接较多的课程数节点。

图1 学习者-课程二模关系网

在二模网络中，学习者的度数中心度是指该学习者节点所连接的课程节点的数量，即该学习者所参加的课程数量，图2展示了学习者的度数中心度分布，由图2可知：学习者的度数中心度分布图具有幂律分布的特征，为了更加深入研究学习者的度数中心度的幂律性质，研究将学习者节点由100扩大至5 000，并计算学习者的度数中心度分布。图3展示了N=3 370的学习者的度数中心度分布图。图4和图5对数据进行了双对数转化，图5将学习者的度分成30组，并用各组的组中值代表各组的实际数据，把各组的频数看作相应组中值的权，计算得到各组的平均值。

图2 N=100度分布图

图3 N=3370度分布图

由图4和图5可知，MOOC学习者度分布具有“低头”和“长尾”的特征。“低头”特征表明学习者的度分布在较小的范围内，其度分布频数保持在一个稳定的范围内，即当学习者学习的课程数在0～3门之间，学习者的数量保持不变。“长尾”特征说明当学习者的度分布超过某个值后，其度分布频数也将保持不变，即学习者学习的课程数超过150门的人数为一个定值。这意味着学习者的学习边界是150门课程左右，这与罗宾·邓巴所提出的150定律相吻合[25]。MOOC平台的人与课程构成的二模网络结构给学习者的学习能力设置了边界，不论是N=100还是N=5 000的学习者-课程二模网络结构，一个学习者能够有效学习的课程数约为150门，这就是邓巴数。而当度迈过“低头”阶段时，曲线进入“衰减”阶段，其度分布频数逐步衰减，至“长尾”阶段衰减结束。由图5知：学习者-课程二模关系网络中少部分学习者节点拥有大量连边，而大部分节点的连边却很少，节点度分布符合幂律分布。基于此，学习者-课程二模网络符合无标度，并由图5拟合计算得到学习者-课程二模网络在“衰减”阶段的度分布函数：

lgP(k)=3.66-1.55lgk

(1)

图4 N=3370点度双对数坐标绝对频数分布

图5 N=3370点度双对数坐标加权频数分布

3.2 学习者网络的最优化产出分析

Lera等[26]认为通过配置层次化组织，可以使得组织获得最优化产出。受Lera的启发，本研究考虑学习者总共学习了n门课程，学习者同一个学习周期内学习n0门课程以提高自身能力，获得信息增益。这可能是直接可以测量的信息增益产出，如学习成绩、获得了更多的技能、学习带来收入的增加等。同时，假定学习者学习1门课程，其信息增益为1；学习者学习了n门课程的联合信息增益Q就是n的β次方(β>0)。最直接的情况是β=1，即学习者学习每门课程的信息增益与课程数成正比增长。然而，对于学习者学习课程的数量较少时，其对应的β应大于1，这会造成“1+1>2”的超线性增长。对于学习课程数较少的学习者，可以期望他们的学习增益是整体大于部分之和。一般来说，学科互补性的课程能够有效扩大学习者学习边界，以提高学习者的信息增益。但随着学习课程的增加，协调学习时间将更加困难，这种超线性增长可能转化为线性增长(β=1)，甚至是亚线性增长(β<1)，一味地追求学习课程数的增加并不能有效地提高信息增益。学习课程数过多将导致学习者的信息过载，导致信息增益的下降。当课程数增加时，课程之间协调的成本课程数量的增加要快。因为每新选一门课程，学习者需要对新课程的了解时间将更多，新课程需要与现有每一门课程进行协调、衔接，使得协调成本达到n(n-1)/2。因此，协调成本正比于n2。

综上所述，对于学习者的学习行为而言，其数学建模遵循以下三条原则：

1)学习课程带来的信息增益呈指数化增加；

2)学习时间协调的成本与学习的课程数的平方呈正比；

3)不同类型的课程对信息与协调给予的权重不同；

基于上述原则，给定课程数的学习者增益β，学习者在某一固定时期内的学习者增益产出，可以如下方式建模：

Q=αnβ-λn2

(2)

其中，α和λ分别假定为学习系数和协调系数，并且都为正。为了得到学习者增益最大化条件下n的值，方程两边同时对n求导。n*(代表最优产出时n的值)取值如下：

n*=(αβ/2λ)1/(2-β)

(3)

(4)

为使学习者的总成本最小化，式(4)两边分别对n0或n1求导，可得：

n0～n1/3n1～n2/3

(5)

式(5)表明学习者一个固定周期内的学习课程数服从其未来时间段内欲学习课程总数的1/3幂律规则。因此，要保持学习效率的最大化，一个学习者在一个学习周期内学习的课程数应该是3～4门课程。

由式(5)可得：

C～n4/3

(6)

比较式(2)的协调成本和式(6)，研究发现成本由n2下降到n4/3。这一结果表明在学习者将课程有计划地分阶段学习完之后，其成本大幅度降低。由此可知：学习者制定课程学习计划并分阶段实施，能够显著提高学习者自身的效率，自身增益也更显著，而不是在一个学习周期里选择过多的课程，这容易导致学习者信息过载，并进一步降低学习者的学习欲望。同时，学习者通过系统交叉地学习，其学习增益将显著增加，而其学习的协调成本也将降低。介数中心度前十的学习者对应的选课数如表1所示，其选课数的平均值为84门。由式(5)可得：

n0≈4,n1≈19

(7)

假定表1中的学习者是中国大学MOOC平台2014年运行以来的注册用户，其学习时间应为60个月，故学习者效率最优化的单个学习时长为3.16个月，这与中国大学MOOC平台大部分课程的开课时长也相吻合，从侧面印证了模型构建的正确性与有效性。由图5可知：“低头”阶段右侧边界为3门课程，这意味着学习者在3门课程之内并没有形成学习的规模效应，而只有学习者学习的课程数多于3门课程时，学习效率的规模效应才开始显现。结果表明学习者想通过1～2门课程快速提高自身能力是不现实的，而大部分的学习者的课程数都停留在1～3门课程之间。因此，学习者应正视学习规模效应是在周期性的学习3～4门课程之后所带来的。

表1 N=100时，介数中心度前十的学习者

3.3 网络对比分析

为了更加深入分析学习者-课程二模网络在一模网络上的相关性质，本文将学习者-课程二模网络通过Pajek软件将其映射至学习者关系上，生成的网络称之为学习者关系网。本研究拟通过探究观测到的学习者关系网络与某种特定类型的随机网络的相似性，可以更深入刻画学习者关系网络的整体网络特征，以了解学习者关系网络的赖以生成的随机过程。基于此，适宜的随机网模型有助于解释学习者关系网络成员的学习行为。更进一步，通过Pajek软件随机模拟伯努利随机图模型、点度条件统一随机图模型、小世界随机图模型和优先连接随机图模型，并计算和分析其组元数、最大组员规模、直径平均距离、云集性、中介中心势，并由此分析学习者关系网络与典型随机图的异同。表2显示了学习者关系网络与生成的随机图模型的相关参数对比。总体来说，学习者关系网络与生成的随机图模型的相关参数差异性较小。就差异性而言，变异主要表现在中介中心势上：即4个随机图模型都不能很好地表征学习者关系网络的中介中心度；就直径而言，伯努利随机模型、点度条件统一模型和优先连接随机图模型对学习者关系网络的匹配程度都是一样高，而小世界随机图模型相对较差一些。而从平均距离来看，伯努利随机图模型与学习者关系网络最相似，但从其云集性度量相似性却是最差的；模拟结果也与现有理论相一致，即伯努利随机图模型的云集性会显著低于实测网络的云集性。而小世界随机图模型却恰好相反，小世界随机图模型在云集性与学习者关系网络最相似，在平均距离的度量上相差最大，而小世界网络中的行动者更偏好形成传递性闭合。在学习者关系网络中，学习者易通过学习同一门课程或共同的专业背景建立联系，进而表现出高集聚性，这也验证了学习者关系网络与小世界网络模型相似度高。换句话说，学习者关系网络中的传递性闭合和高聚集性表明学习者的专业背景、共同学习课程对维系学习者之间的关系起着重要作用。综上，MOOC学习者关系网并没有在整体网的所有属性与某个随机网完全一致，也就是说，MOOC习者关系网远比单一属性的随机网更加复杂，但上述分析表明在研究MOOC学习者网的单一属性时，可以将与其相似度高的随机网作为研究对象，进而探究其总体性质。

表2 随机网络模拟

4 学习者学习参与程度的影响因素分析

4.1 变量选择与模型构建

王晓光等[28]运用回归分析模型探究了关注数、博文数与粉丝数之间的关系。中国大学MOOC平台是在线开放课程平台中学习者间互动性比较强的典型平台，学习者和学习者之间存在相互关注关系、讨论、回复等行为会提高整个MOOC平台的社交属性，这都与微博特征具有一定的相似性。因此，在参照MOOC相关经典理论基础上，结合微博用户行为特征研究的经典方法，本文尝试从学习者的行为属性特征层面分析学习者学习参与程度的影响因素。鉴于MOOC课程话题的讨论数能反映该学习者在MOOC平台的活跃程度，也能反映整个MOOC平台的活跃程度。基于此，本文拟用学习者参与课程的讨论数来刻画学习者学习的参与程度，参与课程越积极，那么相应地参与讨论数也将会越多。本研究假定讨论数由关注数、粉丝数、证书数、评论数、学习者状态信息(如是否是学生)、参加的课程数共同衡量。因此，本研究将讨论数作为模型的被解释变量，关注数、粉丝数、证书数、点赞数、学习者状态信息、参加课程数作为模型解释变量。变量分类和赋值如表3所示，描述性统计见表4，计量模型如下：

discuss=β0+β1concern+β2fan+β3certificate+β4state+β5like+β6course+ε

(8)

式中：因变量discuss为学习者参与课程的讨论数；concern、fan、certificate、state、like、course分别表示关注数、粉丝数、证书数、状态、点赞数和课程数；为待估参数；为随机误差项。

表3 变量分类及赋值

4.2 回归结果分析

模型回归结果如表5所示。由表5可知：

第一，表5的回归结果显示模型的R2达到0.6656，表明模型具有较好的解释能力。

第二，粉丝数、证书数、点赞数、状态等解释变量均与讨论数存在显著地相关关系，关注数、课程数对讨论数的作用不显著；如果以学习者之间的相互关注数构建有向关系网络，关注数代表学习者的出度，粉丝数代表学习者的入度；模型回归结果表明在关注关系网中，入度对整个网络的活跃程度具有明显地推动作用。在关注关系网络中，被众多学习者节点指向的学习者更易对课程发表讨论或回复，也意味着其更易形成MOOC中的“意见领袖”，也更易形成以其为中心的小集团。而在学习者-课程的二模关系网络中，课程数代表了该学习者的度，而回归结果却表明课程数对讨论数的作用是高度不显著，这说明单纯课程数的增加并不能带来学习者的活跃程度的提高。

表4 各变量描述性统计

表5 回归结果

第三，从回归系数的角度看，学习者的粉丝数和获得证书数对学习者的讨论具有较强的推动作用，并且都形成了规模效益，即粉丝数和证书数增加1，其参加讨论次数将倍增。这说明充分发挥MOOC平台的社交属性和提高课程的整体通过率，有利于学习者的学习兴趣的增加，有利于学习者的参与课程的程度，对增加MOOC平台的活跃性也具有显著作用。关注数对学习者的讨论并不具有较强推动力，而状态对学习者的讨论具有抑制作用。

5 结论与启示

以“中国大学MOOC”为研究对象，随机爬取了MOOC平台的部分学习者数据，以学习者-课程关系构建关系矩阵，并进一步生成学习者-课程二模网络，分析二模关系网中的学习者与课程之间的网络拓扑结构。研究发现：第一，学习者-课程的二模网中，其度分布存在明显的幂律分布特征。同时，其度分布曲线存在“低头”和“长尾”特征。第二，度分布在达到150左右时，其度分布衰减结束，进入“长尾阶段“，表明学习者的学习边界是150门课程。第三，基于学习者的学习行为建模结果发现：学习者一个学习周期内的学习课程数服从其学习课程总数的1/3幂律规则。即一个学习者在一个学习周期内学习的课程数应该是3～4门课程。第四，将二模网络映射至学习者的一模学习者关系网络与伯努利随机图模型、点度条件统一随机图模型、小世界随机图模型和优先连接随机图模型对比发现，一模关系网络中在不同的指标下与不同的随机网具有相似性。第五，回归结果表明模型具有较强的解释能力，粉丝数和证书数对学习者参与课程(讨论数)具有倍增效应。

基于学习者的属性数据回归结果，并结合复杂网络理论和MOOC平台现状，得出如下思考：

1)MOOC平台具有社交属性的优势并未完全发挥。研究认为：继续强化MOOC平台的社交功能，继而将MOOC平台打造成社交、学习相互交融的学习平台，有利于学习者的整体参与课程的程度，也有利于MOOC平台的持续发展。

2)证书数对学习者参与课程的程度具有明显的规模效应。因此，进一步提高课程整体的通过率，有利于推动学习者的学习欲望，提高学习者的参与课程的程度，增强MOOC平台的活跃性。

由于学习者的参与课程的程度不仅仅受MOOC平台上的各种网络结构的影响，其参与度还受到线下的众多因素影响，亦存在数据方法不全面，研究不细致等不足之处。例如，学习者线下环境的影响、学习时间的不足等都可能对模型具有影响。因此，模型的解释变量有待继续拓展，以期可以更好地解释学习者的参与课程的程度。