APP下载

线上平台英语听说能力训练模式自动匹配方法*

2022-02-22罗曼林杨高云

自动化技术与应用 2022年1期
关键词:模式匹配贝叶斯神经网络

罗曼林,杨高云

(岳阳职业技术学院国际教育学院,湖南岳阳 414000)

1 引言

传统英语课堂训练模式中,主要通过情景模拟提高听说能力,而情景模拟大多以游戏方式进行,难以获得实际场景的训练机会。此外,英语听说教学资源得不到充分利用,训练模式单一,缺乏对资源的有效整合。现今大部分学生拥有移动设备,能够随时在网络上获取感兴趣的信息,也为线上教育带来更多便利。但由于每个学生的基本状况不同,读、写能力水平存在一定差异,如何合理匹配训练模式是线上教育面临的重要问题。

为此,国内[1]提出利用知识库系统结合学生技能水平主动为用户匹配合理的训练模式。基于学生对访问查询的历史行为,设计一种融合技能的隐语义模型协同过滤推荐方法,将知识点难易程度当作潜在因子,综合分析用户能力水平,预测对训练方式的偏好程度,实现合理匹配;或将深度知识追踪模型和协同过滤方法相结合构成一种个性化匹配方法[2]。利用深度知识追踪模型对学生知识掌握情况进行建模,再通过协同过滤算法计算学生习题测试的正确率,根据测试结果,在一定难度范围内对训练模式进行匹配。国外重点通过对认知主义灵感的形态分析,设计对碎片进行自动分类的识别算法,通过使用可见性评估技术;首先确定类别的选择,然后设计一种方法,依赖于查找表、决策规则和模糊字符串匹配来对所有信息进行去识别。

常规方法通过了解学生知识水平掌握情况进行训练模式匹配以达到个性化匹配目的,但对学生知识水平情况预测得不够准确,导致匹配模式并不能满足用户要求。因此,本文将朴素贝叶斯方法与数据分布特征模式匹配(SMDD,Schema Mapping method based on Data Distribution)算法相结合完成线上平台英语听说能力训练模式匹配。朴素贝叶斯有着坚实的数学基础和稳定分类效率,所需估计参数较少,算法简便,利用该方法对用户进行特征提取,提高处理效率。此外,SMDD方法采用了神经网络的模式识别性能,有利于优化匹配结果,提高用户满意度。

2 线上平台英语听说训练模式分类

与教学相关的线上平台建设需要在相关部门统筹规划下,将教育网、校园网作为基础,整合各教育单位的教学资源,利用云计算方式集中储存[3]。该平台主要包括云技术、听说资源库、听说训练、在线交互以及管理模块。其中训练模式分为以下几种:

(1)在线教学

(2)自主学习

(3)在线互动

(4)听说测试

3 基于SMDD算法的训练模式自动匹配

针对上述四种训练模式,利用朴素贝叶斯方法对学生听说能力进行预测,充分掌握学生学习状况,根据预测结果匹配相应的训练模式。

3.1 听说能力水平相关性分析

利用改进的最大信息系数(MIC,Maximal Information Coefficient)方法通过线上平台对学生听说能力水平相关性进行分析,获取影响听说能力的有关因素。

MIC法存在高度普适性与均衡性。其普适性体现在不但能发现变量之间线性与非线性函数关系,还能挖掘函数与非函数关系。均衡性指针对同样噪声水平,MIC度量存在近似值。在统计学研究中,它能判断变量线性与非线性之间的关联程度,当结果等于零时,表明两变量不相关;若结果等于1则说明完全相关。

对变量(A1,A2)做MIC运算,若H(A1)和H(A2)分别表示变量A1、A2的信息熵,I(A1,A2)代表二者互信息,则互信息表达式如公式(1)所示。

因为互信息不存在上限值,如果I(A1,A2)取值范围过大,会增加合理判断的难度。所以需要对其进行归一化处理,获得标准的I(A1,A2)。

通常利用归一化互信息模型[5]对I(A1,A2)处理,其依据为I(A1,A2)≤min(H(A1),H(A2)),处理公式(2)如下。

利用公式(2)即可获得变量对(A1,A2)的互信息,其最大信息系数表达式(3)为:

式(3)中,D={(xi1,xi2),i=1,…,n}代表有序对变量(A1,A2),已知i,j对A1,A2构成的散点图进行网格化。利用G描述D的i×j网格,D中A1被分为i个箱子,A2被分成j个箱子,D|G描述变量对(A1,A2)分割为i×j个网格。

很容易看出,针对相同一个D不同网格G形成不同的D|G。所以利用公式(1)能计算出D|G的最高互信息值maxI(D|G)。从而分析出影响学生听说水平的相关因素,以此构建听说能力预测模型。

3.2 基于朴素贝叶斯方法的英语听说水平预测

3.2.1 用户英语听说水平预测

为保证训练模式匹配的精确性,需要预测学生的英语听说水平。因此,利用朴素贝叶斯方法对用户听说能力水平进行预测[6],从整体上讲,此过程分为三个阶段:

(1)准备阶段:主要工作为明确特征属性。对线上平台用户英语听说能力预测,用户特征属性是根据数据预处理以及相关性分析结果获得的,而得到的数据集合是由特征属性构成的。

(2)分类器训练阶段:属于算法对训练集合的学习过程,包括对训练集合中全部学生特征属性进行水平类别计算。

输入:样本数据集合Xn×q,输出:分类标签C。

步骤一:将数据集合Xn×q引入到训练集与测试集分类算法中,以此获取用户数据的训练集与测试集。

步骤二:分析训练集合中用户能力水平所属类别,计算P(Ci);

步骤三:明确训练集合中所有特征属性分类的条件概率P(xk/Ci);

步骤五:确定P(xk/Ci)P(Ci)中最大项当做测试样本所属类别,并将其当做最终用户听说能力预测结果;

步骤六:循环步骤4与5,直至全部样本的能力水平类别都被预测,最后输出类标签C。

3.2.2 英语听说能力水平分类

贝叶斯分类方法是对样本进行预测的统计学方法,通过获取样本所属种类可能性大小,结合预测结果实现对不同类型学生英语听说能力水平的大致分类。

假设X属于没有类别标签的数据,利用q个属性测量值对其表示,B是X属于C类的假设函数,P(B)是B的先验概率,P(B|X)代表在X约束B下的后验概率。则朴素贝叶斯算法分类步骤如下:

(1)已知样本集合Xn×q=,其中包含n个样本与q属性A1,A2,…,Aq。

(2)假设存在m个类别C1,C2,…,Cm,如果已知某个类别的样本={x11,x12,…,x1q},分类器会判断成为最高后验概率的类。也就是当P(Ci|)>P(Cj|)时,对任意j=1,2,…,m,i≠j均存在最大化值P(Ci|),且1≤i≤m。P(Ci|)中最大类Ci被称作最大后验假设[3]。

(4)针对特征属性很多的数据集合,可利用类条件独立的假设减少计算P(|Ci)的时间,认为不同属性之间互不干扰。P(|Ci)的表达式(4)如下。

公式(4)中,P(|Ci)表示训练集合中种类为Ci、属性为Ak的条件几率,若Ak属于离散量,则存在:

公式(5)中,sik代表训练集合中种类是Ci且属性是Ak的样本数量,si表示种类为Ci的样本数量。若Ak为连续量,并假设属性满足高斯分布,因此有:

公式(6)中,g表示属性Ak的高斯函数,与分别代表类别为Ci的特征样本属性的均值与方差。

3.3 SMDD模式匹配

在实现用户听说能力预测与分类后,提出SMDD(Schema Mapping Method based on Data Distribution)模式匹配方法。传统模式匹配方法多数利用编码形式,通过一定的匹配准则与固定计算方式实现模式匹配。由于数据的多样化与关联程度存在的模糊性使此种方式无法满足用户实际需求。为改善此现象本文利用神经网络的良好学习性能与泛化能力,将其引入到SMDD算法中,为模式匹配提供新思路。该方法对不同类型数据的模式元素进行假设,若其中数据特征相似,则进行模式匹配。通过神经网络的识别优势挑选出存在相同规律的元素集合,获取不同元素之间相似程度,最后向用户推荐候选结果,完成模式匹配。

(1)获取数据特征矢量

针对数据集合S1中任意模式元素ei,通过特征抽取器随机获取n个数据实例Ri={r1i,r2i,…,rni},利用等距离分割方法对Ri做离散化处理,形成数据特征矢量。如果元素类型为数值型,假定rmax=max(Ri),rmin=min(Ri),此时需要将区间[rmin,rmax]等距离分割为N个子区间△k,运算每个子区间中数据频率xni,形成数据样本特征矢量,表示为Xi=[x1i,x2i,…,xNi]n。

(2)神经网络训练

在神经网络训练过程中,会构成三层前馈网络NN,把聚类中心{Ei|i=1,2,…,M}当作训练样本,通过重复迭代过程,调节权重与阈值,适应输入激励,获取识别类。

假如,某个神经网络具有三个输入节点及四个输出节点,其误差阈值为ξ=0.003,针对的输入矢量(0.2 0.4 0.4)2,则神经网络理想的输出结果为(1 1 0 0)2。若输出结果为(0.85 0.06 0 0.1),此时还需继续迭代,直到误差低于ξ为止。SMDD方法中的神经网络训练具体过程如下:

步骤一:建立具有U个输入节点、V个隐藏节点、W个输入节点的神经网络,对权值矩阵F1=[ωij]U×V=0、F2=[ωij]V×W=0 进行初始化处理,其中ωij为输入值;

步骤二:假定输入向量为Y0,Y0=ci,i=1,2,…,M。net1与net2分别表示隐含层与输出层的向量。f1及f2代表两层次的激活函数,W为输出值。则激活曲线表示为:

步骤三:对局部梯度值δ进行反向运算,d表示期望响应,δ1与δ2均代表局部梯度值。计算公式(9)、(10)如下。

步骤四:获取误差梯度:

式中F为权值矩阵,E为输出向量;

步骤五:设定ηi为学习率参数,t表示时间变量,a 代表动量常数,利用下述公式对权值矩阵进行修正[7]。

(3)获取元素相似程度

针对数据集合S2,获取其模式元素ai具有的数据实例,形成特征矢量,利用神经网络运算和所有聚类中心的相似程度。

SMDD 结合上述得到的结果对学生匹配候选映射,将具有最高值的元素当作候选映射,实现模式自动匹配。

4 仿真实验数据分析与研究

为验证本文训练模式匹配效果,通过神经网络工具箱,建立三层神经网络。其中输入节点为U=5,隐藏节点为V=7,输出节点W=3,此外其它参数设置情况为学习参数η=0.3,训练误差为0.003。利用本文方法、文献[1]、文献[2]方法在匹配速度方面进行对比,结果如图1所示。

从图1中可以看出,三种方法的匹配速度相差较小,但是随着预测样本集合数量的增多,其它两种方法速度有所降低,而所提方法始终保持较高性能,这是因为神经网络得到很好的训练,减少迭代次数,提高匹配速度。

图1 不同方法匹配速度对比

此外,要想验证匹配的训练模式是否能提高学生听说能力,对某班学生进行训练后的效果评价。由教师对学生评价项目作出得分判定,评价结果分为A、B、C、D四个等级。

表1 不同匹配模式下学生训练成果

在不同方法匹配的训练模式下,利用本文方法训练后的学生听说能力更加优秀,获得更高教师评分。主要因为本文通过贝叶斯方法对学生听说能力进行深入分析,针对不同学生特点进行个性化匹配,每个学生的训练模式都是根据能力水平量身定制,因此得到良好的训练效果。

5 结束语

线上英语教学作为新型教育方式为人们提供很大方便,由于用户对数据共享的需求不断提高,出现了一些匹配方法,本文通过朴素贝叶斯理论与SMDD 方法相结合对英语听说能力训练模式匹配方法进行研究。仿真结果表明,此方法匹配性能优越,能够针对不同能力水平的用户匹配出对应的训练模式,增强训练效果,全面提升匹配质量。为学生听说能力的改善提供有效指导,对线上英语平台的发展起到推动作用。

猜你喜欢

模式匹配贝叶斯神经网络
基于递归模糊神经网络的风电平滑控制策略
数据库模式的主动在线匹配方法
基于贝叶斯定理的证据推理研究
基于贝叶斯解释回应被告人讲述的故事
基于模式匹配的计算机网络入侵防御系统
神经网络抑制无线通信干扰探究
基于神经网络的中小学生情感分析
具有间隙约束的模式匹配的研究进展
租赁房地产的多主体贝叶斯博弈研究
租赁房地产的多主体贝叶斯博弈研究