基于改进RFM模型和证据推理的MOOC学习者忠诚度度量模型研究

2018-09-12王锐李荻阙师鹏廖作鸿

江西理工大学学报 2018年4期

王锐，李荻，阙师鹏，廖作鸿

（1.江西理工大学经济管理学院，江西赣州 341000；2.武汉理工大学管理学院，武汉 430070；3.麦克马斯特大学德格鲁特商学院，加拿大汉密尔顿ON L8S-4M4）

随着信息技术的飞速发展，在线教育得到了空前的发展，越来越多的在线学习平台涌现出来。MOOC（Massive Online Open Courses）作为其中的典型代表引起了全球教育界的关注。MOOC自2012在加拿大大规模兴起以来，课程注册人数逐年上升。MOOC学习模式在给学习者带来极大的便利的同时，也对学习者的学习能力、学习毅力等素质提出了更高的要求。因此，在当前MOOC学习模式下出现了“高注册率”与“高辍学率”并存的现象。据袁松鹤（2014）等人的调查：当前我国MOOC平台的注册者的实际课程平均完成率不足百分之十，注册者在学习过程中中途放弃的现象非常严重[1-2]。对于 MOOC 平台而言，罗晔（2015）,李思思（2015）、詹劼（2016）等的研究表明：教学过程缺乏及时、有效的针对学习者特点的个性化学习支持措施是导致高辍学率的重要因素[3-5]。而为MOOC学习者提供有效的个性化学习支持需要建立在对学习者进行细分的基础之上，只有明确学习者的类别，MOOC平台才能根据学习者的学习特点为其提供更有针对性的个性化学习支持服务措施。

当前关于MOOC学习者细分的研究主要有：Koutroppulos等[6]（2012）将用户的课程参与度作为分类指标，将MOOC学习者细分为“完成型”“学习内容挑选型”“观众型”以及 “脱离型”四种类型。Taylor等[7]（2014）则根据学生在课程论坛中的互动程度对MOOC学习者进行了细分。蒋卓轩等[8]（2015）则从学习者的认知规律出发结合学习者的学习行为数据对MOOC学习者进行了细分，将MOOC学习者细分为“旁观者”“顺便访问者”等五种类型。综合上述研究文献可发现：当前关于MOOC学习者细分的标准尚未统一，且大部分的研究主要依据学习者自身的属性（如：学习者的背景等）进行细分，并未考虑学习者的忠诚度。

当前关于学习者忠诚度的研究相对较为匮乏。查询中国知网（CNKI）发现：仅白立广（2010,2012）[9-10]、魏玲（2016）[11]、宗阳（2016）[12]等少数学者的若干篇论文涉及到学习者的忠诚度。白立广等人[9-10]仅从概念层面对学习者忠诚度进行了探讨，而魏玲、宗阳等人虽提出了MOOC学习者忠诚度的评价指标，并以此为基础对MOOC学习者进行了细分，但他们对学习者忠诚度的度量方法这一MOOC学习者忠诚度度量过程中的关键问题并未展开深入的研究。在传统教学模式下，由于技术的限制，学习者的学习行为数据难以收集与观测，学习者的忠诚度往往难以测量。而在MOOC环境下，对于学习频率、学习时长、学习进度等学习者的学习行为数据，MOOC平台均有准确的记录。因此，在魏玲、宗阳等人的研究基础之上，结合MOOC平台中的学习者学习行为数据可对MOOC学习者的忠诚度进行度量。

一、基于改进RFM模型的学习者忠诚度度量指标

（一）度量指标的确定

RFM模型是Hughes（1994）所提出的客户行为分析方法。该模型通过客户的最近购买时间（Recency,R），客户在某一时间段内的购买频率（Frequency,F）以及客户在某个时间段内的购买金额（Monetary,M）三个客户行为指标来分析客户关系的变化。RFM模型目前已被广泛应用于客户忠诚度评价、客户价值评价等领域。如：王文贤等（2012）、刘朝华等（2012）分别采用RFM 模型对金融客户及电信客户的忠诚度进行了度量[13-14]。虽然RFM模型能够有效地对客户忠诚度进行评价，但由于MOOC学习者在学习过程中并没产生任何消费，所以RFM模型不能直接用来度量MOOC学习者的忠诚度。而另一方面，MOOC学习者的学习行为与客户的消费行为也存在一定的相似性，因此，可以结合MOOC学习者的学习行为数据特点以及文献[11]与文献[12]中的研究成果对RFM模型进行改进，从而得到MOOC学习者忠诚度的度量指标，如表1所示。

表1 MOOC学习者忠诚度度量指标

其中，R（Recency）表示学习近度，在此R值取学习者访问学习资源时间间隔的平均值，为了方便处理，在此R值以天为单位进行度量。F（Frequency）表示学习频度，指学习者在一段时间内的学习总次数，包括观看学习视频、在线答题、在线讨论的次数。T（Times）表示学习者在一段时间内的学习总时长，为了便于统计，在此只统计学习者在一定时期内观看学习视频与在线答题的时长。T值以小时为单位进行度量。

（二）指标值的标准化处理

由于MOOC学习者忠诚度的度量指标值在度量单位以及度量量纲方面存在着较大的差异，为了消除量纲的影响，需要下面的公式对MOOC学习者在各指标上的取值进行标准化处理。

定义 2:在决策表 T=（U，C∪D），sig（Ci）表示条件属性Ci对决策属性D的属性重要度。sig（Ci）可通过下式进行计算。

通过上述的公式可计算出决策表T中所有的sig（Ci）。此时，可 sig（Ci）反映指标 Ci对 MOOC 学习者忠诚度的影响程度，将sig（Ci）进行归一化处理，

在公式（1）中，hi，j表示第 i名学习者在第 j项忠诚度度量指标上的标准化值。Vi，j表示第i名学习者在第j项忠诚度度量指标上的原始值；Vmax，j表示所有的学习者中在第j项度量指标上的原始值中的最大值；Vmin，j表示所有的学习者中在第j项度量指标上的原始值中的最小值。

（三）基于粗糙集的指标权重计算方法

R（Learning Recency）、F（Learning Frequency）及T（Learning Times）三个度量指标对学习者的忠诚度的影响是不同的，如：对于R指标而言，其值与学习者的忠诚度成反比关系，即学习者的R指标值越高，其忠诚度则越低；而对于F和T指标，其值与学习者的忠诚度成正比关系，即学习者在F与T指标上的取值越高，则学习者的忠诚度就越高。因此各指标的权重对学习者忠诚度的度量有重要的意义。传统的权重计算方法（如：AHP）往往对专家的经验有所依赖，具有较大的主观性。为了保证MOOC学习者忠诚度度量的客观性，文章采用粗糙集理论中的属性重要度方法，结合MOOC平台中的客户行为数据，对各指标的权重进行计算。

定义1：设有MOOC学习者忠诚度决策表T＝（U，C∪D，V，f），其中，U 为论域， C（C1，C2，…，Cn）表示条件属性集，其由学习者忠诚度度量指标构成。D为决策属性集，表示学习者的忠诚度。则决策属性集D对条件属性集C的依赖度可通过下式进行计算：即可得到度量指标Ci的客观权重Wi，即：

二、基于ER证据推理的MOOC学习者忠诚度度量方法

（一）指标的证据支持度的计算方法

通过上节中的方法可得到各指标对应的权重，而不同类型的MOOC学习者在各指标上的取值是不同的，所以根据学习者在各个指标上的取值，以确定学习者在相应指标上的证据支持度对MOOC学习者忠诚度的度量有着重要的意义。在此，采用决策规则强度的方法对学习者在各度量指标上证据支持度进行计算，其思路如下：

定义3：设学习者忠诚度决策表T中存在对象集 x（x∈U）,则 x关于 C 的上近似集记为，x关于 D 的上近似记为，则决策规则D）的强度为：

定义4：在决策表T中，设存在条件属性α（α∈C），则论域U在条件属性α的划分可记为：U/α={X1，X2，…，Xn}，论域 U 在决策属性集 D 上的划分记为令 H={α，D}，则论域U 在 H 上的划分可记为设VD表示D的值域。 ui表示中任意对象 Hi的决策规则强度。通过公式（5）可计算出ui。此时，P为识别框架Θ上的一个命题（P∈2Θ），则命题P对应的证据支持度可通过下式进行计算：

（二）各指标的证据合成方法

按上节的方法可计算出在每个证据的支持度，然后通过证据推理中的的递归算法可将指标的支持度进行合成，得到指标集在识别框架Θ上的综合信度函数，并最终计算出MOOC学习者忠诚度等级的综合置信度函数。具体算法过程如下：

步骤1：定义MOOC学习者的忠诚度识别框架可分为 n 个等级。记为为学习者忠诚度等级对应的忠诚度值。定义MOOC学习者的忠诚度度量指标为 E={ej，j=1，2，…，n}。

步骤2：mej，Hi表示度量指标ej支持学习者的忠诚度等级为Hi的综合证据置信度。wej为度量指标ej的权重。βej，Hi表示学习者在指标 ej上的证据支持度。令其中是由于权重引起的未分配信度，是由于不确定性所引起的未分配信度和可通过下面的公式进行计算。

其中，KI（j+1）为信度系数，KI（j+1）可通过下面的公式进行计算。

步骤4：通过上述的公式对指标集中所有的指标对应的证据置信度进行合成后，整个指标集对学习者忠诚度识别框架的综合置信度函数S（E）=可由下面的公式进行计算：

在上述公式中，β（Hi）为学习者的忠诚度等级为Hi的综合置信度。β（HΘ）为不确定学习者忠诚度等级的综合置信度。

（三）MOOC学习者忠诚度的度量方法

通过上一节中的方法可得到MOOC学习者忠诚度等级的综合置信度，v（Hi）为学习者忠诚度等级对应忠诚度值的函数。通过下面的公式可计算出学习者忠诚度值Val。

三、模型实证

文章选取“中国大学MOOC”平台“系统工程”课程作为研究对象，利用网络抓包工具获取了该课程自2017年4月10日至2017年6月30日340位在线学习者的学习行为数据。根据这些学习者在学习平台的学习记录数据，分别对每一位学习者在R（Learning Recency），F（Learning Frequency）及 T（Learning Times）三个度量指标上的行为值进行分类统计。由于学习者在这些度量指标上的行为值的量纲差异较大，因此按公式（1）对学习者在各度量指标上的行为值进行标准化处理，然后按表1中的规则对这些学习者行为数据进行分类，见表2，可得到MOOC学习者忠诚度决策表,见表3。

表2 学习行为分类规则表

表3 MOOC学习者忠诚度决策表

（一）指标权重的计算

根据公式（2），可算得 γC（D），γC-CR（D）

同上述的 γC（D）和 γC-CR（D）的计算过程，可得到和

根据公式（3）可得到 sig（CR），sig（CF）和 sig（CT）。

根据公式（4）可求得 WCR，WCF和 WCT。

（二）学习者忠诚度的计算

现有一名MOOC学习者A，其在R（Learning Recency）、F （Learning Frequency）及 T（Learning Times）三个度量指标的学习行为值通过公式（1）进行标准化处理后，再通过表2中的规则进行分类后，可得到 A 在 R（Learning Recency）、F（Learning Frequency）及 T（Learning Times）指标上的状态值为：AR＝1，AF＝2，AT＝2。根据学习者 A 的状态值，无法在表3找到相同类型的样本。因此，无法直接推断A的忠诚度等级。此时，通过文中的方法可有效地对学习者A的忠诚度等级进行推理。具体过程如下：

首先，根据前文中的指标支持度的计算方法对学习者A在各指标上的证据支持度进行计算，具体过程如下：

根据粗糙集理论可得到表3中对象集U在指标CR与决策属性D上的划分U/{CR，D}。

结合学习者A在指标R上的状态值为“1”（即：R=1）这一条件，可得到：B1={{U1}，{U3}}={D1，D2}。在B1中，所有的对象在R指标上的状态值均为“1”，但这些对象在决策属性D（即：学习者的忠诚度等级）上的状态值却并不相同，其中对象集U1在决策属性D上的取值为 “1”，而对象集U1在D上的取值为“2”。此时，根据公式（5）可得到对象集U1对应的决策规则强度uD1。

同理，可算得对象集U3对应的决策规则强度uD2。 uD2≈0.554。

由于在表 3 中，不存在“R=1，D=3”，“R=1，D=4”及“R=1，D=5”的情形，所以可得到 uD3=0，uD4=0，uD5=0。根据公式（6）可算得在R=1的条件下，学习者的忠诚度等级为 “1”（即：D=1）的证据支持度

同理，可算得学习者的忠诚度等级为“2”，“3”，“4”，“5”情况下的证据支持度

以此类推，可分别得到在F=2和T=2的条件下的证据支持度。

根据前文中的证据合成方法可对学习者在“R”“F”“T”三个指标的证据支持度进行合成，从而得到学习者A的忠诚度等级的综合证据置信度。具体过程如下：

首先，根据公式（7）可计算出学习者在指标“R”上的证据置信度和

同上述过程，可算得学习者在指标“F”和“T”上的证据置信度，结果如下：

根据前文中的证据合成方法对指标“R”与指标“F”上的置信度进行合成，其过程如下：

根据公式（12），可计算出合成系数 K（2）：

以此类推，将上述合成的结果再与指标“T”对应的置信度进行合成，可得到以下的结果：

至此，证据合成过程结束，在上述结果的基础之上，依据公式（13）可得到MOOC学习者A的忠诚度等级的综合置信度。

此时，设定MOOC学习者忠诚度对应的忠诚度效用值，结果如表4所示。

表4 学习者忠诚度效用值表

最后，根据公式（14）可测算出MOOC学习者A的忠诚度值。

根据上述的结果可判断出MOOC学习者A的忠诚度等级略高于“一般”，介于“一般”与“较高”之间。

对于上述的类似MOOC学习者A这种很难在决策表中直接找到相同样本的情形，魏玲等人的方法很难对其忠诚度进行有效的度量，而通过本方法可有效地对这些情形下的学习者的忠诚度进行度量。因此，本方法具有良好的可推广性。这为MOOC平台的学习者管理策略提供了理论依据。

四、结语

MOOC学习者忠诚度的度量对MOOC平台对学习进行分类管理有重要的意义，在RFM模型思想的基础之上，文章确定了 R（Recency）、F（Frequency）及 T（Times）三个 MOOC 学习者忠诚度度量指标，提出了基于证据推理的MOOC学习者忠诚度度量模型。最后通过“中国大学MOOC”平台“系统工程”课程中的学习者行为数据对模型进行实证。可得到以下的结论：

（1）R（Learning Recency）、F（Learning Frequency）及T（Learning Times）三个指标可有效对MOOC学习者忠诚度进行度量。在三个指标中，“T”指标的权重最大，“R”指标与“F”指标的权重近似相等。

（2）通过证据推理方法可有效地对学习者在“R”、“F”及“T”三个指标上的行为值进行合成，最终可度量出MOOC学习者的忠诚度值。

最后，通过R、F、T三个指标以及证据推理算法可对MOOC学习者的忠诚度进行度量，但在度量的过程中，并未考虑学习者在R、F、T三个指标上的取值存在着相互冲突的情形，这将成为后续的研究重点。