APP下载

一种在线学习社区的学习者情感识别方法研究

2021-05-10叶俊民廖志鑫宋家琦唐文韬葛沛鑫刘亭玉

小型微型计算机系统 2021年5期
关键词:向量语义注意力

叶俊民,廖志鑫,宋家琦,唐文韬,葛沛鑫,刘亭玉,曾 僖,刘 静

(华中师范大学 计算机学院,武汉 430079)

1 引 言

随着5G等信息技术的高速发展,在线学习已经成为学习者获取新知识的途径,在线学习社区就是实现这一途径的具体载体,其具体实例包括MOOC和QQ群等不同形式.在线学习不受学习时间和学习地点的限制,学习者可以利用自己的碎片时间自主选择有兴趣的课程进行学习.在线学习过程中如何根据学习者的情感促进学习者持续不断的学习是一个非常值得研究的课题.众所周知,学习者的情绪与其学习绩效有着密切的联系,如积极情感有助于激发学习者的学习兴趣,促进学习者在学习中的有效认知过程;而消极情感则会分散其注意力,影响其在学习过程中的信心与耐心,对学习者的认知过程产生阻碍,这将影响到学习者的学习成效[1].这一结论对在线学习社区的学习者尤为重要,由于在在线学习社区环境下,学习者和教师之间在时空上产生分离,这使得教师无法准确地了解学习者在学习过程中的情感状态,即产生所谓的情感缺失问题[2].近年来,国外学者开始研究学习者产生的文本信息中所蕴含的情感信息如何识别和利用问题.国外的相关工作如Kechaou等人对在线学习社区上的学习者评论文本的情感识别进行了研究,使用了互信息与信息增益相结合的方法,提取了文本情感特征,使用了隐马尔科夫模型和支持向量机相融合的方法,将学习者评论文本分类为正面或负面情感类型[3];KIM等人使用了启发式规则识别文本中所含的情感信息,帮助教师识别出自信心低下或挫折感强的那些学习者,以及时进行教学干预[4].Hew等人对MOOCs学习者评论进行情绪分析,以量化学习者对在线课程的满意度,结果表明教师、课程内容、课程计划等对学习者满意度会产生较大影响,这会直接影响在线学习者的课程完成率[5].Huang等人提出了一个描述在线学习环境中不同交互过程的四阶段模型,该模型刻画了学习者在学习过程中学习情感生成、碰撞、稳定的动态过程[6].Chen等人提出了一种基于学习者兴趣和情感识别的情感教育框架,首先对学习者的语音、文本和行为日志数据进行预处理,然后使用关联规则分析、SO-PMI(语义定向点互信息)和ANN-DL(具有深度学习的人工神经网络)等方法来学习学习者的兴趣挖掘和情感识别,结果表明该方法可有效地识别移动学习中学习者的情绪,能满足情感教育的要求[7].Olivier HABIMANA等人在一项针对情感识别的综述研究中指出,迁移学习方法DATN在情感分析数据集SemEval-18上能取得优于注意力卷积神经网络的分类准确度[8].Akputu等人提出了概念性的基于情感的在线学习模型(EEM),并提出了情感识别框架,该工作已在不同的情感数据集上进行了评估,表现良好[9].近年来,国内学者也展开了对在线学习社区学习者情感识别与应用方面的研究,如潘怡等人[10]设计了一种情感向量空间模型并基于规则的特征提取方法,实现了对文本情感的特征表示,在此基础上利用支持向量机方法对评论文本的情感进行了分类;田锋等人[11]研究了在线学习环境中的交互文本并提取了这些文本的主题,提出了基于学习者交互文本的情感识别框架,使用随机森林方法识别了在线学习者的情感,实验结果表明其分类效果好于支持向量机和朴素贝叶斯分类算法;朱烨等人[12]结合注意力机制提出了一种用于评论文本情感识别的卷积神经网络变种模型,该模型相较于其他模型具有更优的分类性能;Chen等人将半监督机器学习方法引入在线学习社区课程论坛帖子的情感分类任务中,同时利用有限的标记数据和大量的未标记数据,取得了与在大量标记数据上训练的方法相当的性能[13];Tang等人针对基于传统机器学习的文本情感分类方法较少进行情感特征提取的问题,提出了一种基于机器学习和模式匹配相结合的情感分析方法,结果表明情感特征的有效提取能够提升模型的分类性能[14];王根生等人提出了多元特征融合的GRU神经网络文本情感分类模型(TMMG),该模型在训练数据量不足时也能获得较好的分类效果[15];吴彦文等人构建了LDA和LSTM混合模型,用以解决短文本情感分类问题[16];韩飞等人提出了基于带权情感词极性判别算法,通过粗糙决策置信度模型对文本的最终情感类别进行判定,实验结果表明了该方法具有较好的泛化能力[17].

虽然相关研究利用有监督机器学习方法能够进行在线学习者的情感识别,但该研究工作还有许多方面值得进一步研究:

1)当前所采用的有监督分类方法需要大量有情感标记的文本,这需要研究人员投入大量的时间和精力进行文本数据的情感标记,据此才可以对情感识别模型进行训练,这样做显然会提升情感识别问题求解的成本;

2)当前大部分研究中的文本表示方法只考虑了词语的上下文关系,而没有考虑到词语的句法依存关系,这意味着对文本的语义信息刻画程度不够,这会影响到文本情感识别的有效性.

针对以上问题,提出一种结合了句法依存关系的文本表示方法,然后基于层次注意力迁移网络[18]完成了文本的情感识别过程,在此过程中使用了两个层次化注意力网络,具体思路如下:首先,利用文本的词序关系和句法依存关系得到文本的语义向量表示;其次,基于层次注意力分类网络HAN1对有情感标记的源域文本和无情感标记的目标域文本同时进行情感分类和域分类多任务学习,在注意力机制的作用下,提取两个域共享的情感特征;然后,使用层次注意力分类网络HAN2对两个域的文本进行情感分类,将域独有的情感特征映射到共享特征空间中;最后,联合训练层次注意力网络HAN1和HAN2实现了文本的情感识别.

2 问题定义

为了更好地阐述基于迁移学习的在线学习社区学习者情感识别研究工作,本节先定义相关术语如下.

定义1.域.一个域D由特征空间χ及边缘概率分布P(χ)组成.其中,χ是由所有特征向量组成的空间.

在本文中,在线学习社区中的一门课程的交流论坛代表一个域,论坛内的一条评论代表特定域内的一个样本.

示例1.(XSi,YSi)=("结合比赛视频的教学真有趣!",+1).

定义4.词序关系.对文本S=c1c2…cm分词后得到的文本的有序词语列表S′=[w1,w2,…,wn]中,相邻的两个词语构成词序关系R=.

定义5.句法依存关系.文本S的依存句法树DPS中,每一条依存边构成词语的句法依存关系R=.

其他术语有情感特征,即文本中能体现发言人情感色彩的主观性词汇,包括共享情感特征(即源域和目标域共享的情感特征,在两个域都能表达相似的情感信息)和独享情感特征(即源域或者目标域特有的情感特征,只在特定域表达一定的情感信息).

定义6.TSG-GE文本词语语义编码算法.TSG-GE(TextSemanticGraph-GraphEmbedding)文本词语语义编码算法是本文提出的多源信息文本表示算法.这个算法的主要思想是:首先对文本进行分词之后得到文本的有序词语序列作为信息源一,然后构造文本的依存句法树作为信息源二,再将两个信息源的信息融合得到文本语义图,也就是算法中TSG-TextSemanticGraph的含义.通过先前的步骤得到文本的语义图之后再利用图嵌入技术对语义图中的图节点进行表征,即可得到最终含有多源文本语义信息的词向量.

定义7.基于迁移学习的在线学习社区学习者情感识别.

输入:带有情感标记源域的在线学习社区学习者评论文本DS;待分类无情感标记目标域的在线学习社区学习者评论文本DT.

输出:无情感标记目标域在线学习社区学习者评论文本DT的情感类型YDi.

针对上述问题,本文基于迁移学习理论设计了一种在线学习社区学习者情感识别框架,如图1所示.

图1 在线学习社区学习者情感识别框架

该框架中的处理步骤分为3个阶段,第1阶段,结合文本的词序关系和句法依存关系计算词语的语义化向量表示;第2阶段,分别使用层次化注意力网络HAN1和HAN2提取两个域的共享和独享情感特征;第3阶段,联合训练好的两个层次注意力网络进行情感分类.

3 在线学习社区学习者情感识别

3.1 TSG-GE文本词语语义编码算法

因为需要根据语料库构建词典,像词袋模型、N-gram模型等传统离散化文本特征表示模型会出现维度灾难问题和特征稀疏性问题,而word2vec文本特征表示方法虽然解决了离散化表示中的固有维度灾难问题,但是其不能刻画文本的语义信息.为了得到具有语义信息的文本表示,在考虑了词序信息的基础上,融合了文本的句法依存关系,将文本转化成文本语义图,然后使用graph embedding技术对文本中的词语进行建模[19],不仅避免了维度灾难问题,还可以得到具有语义信息的词向量编码.具体过程如图2的算法.

图2 TSG-GE文本词语语义编码算法

具体而言,TSG-GE文本词语语义编码算法包括以下5个步骤.

算法功能:将文本词语转化为语义化的向量编码

输入:文本S

输出:词语语义编码semanticvec

第1步.按照词语的先后顺序:将文本S抽象成图数据结构,以刻画出文本的语序信息;将文本S=c1c2…cm经过分词后得到有序词语列表记为S′=[w1,w2,w…,wn];针对S′,将词语wi(i∈[1,n])抽象成图节点V1i,并将所有相邻的词语wj和wj+1之间,添加一条边E1j=,得到图G1=(V1,E1);

第2步.构建文本依存语法树:将第一步分好词的文本S′进行词性标记,得到Ps′=[p1,p2,…,pn];根据S′和Ps′构造文本的依存句法树DPS;针对DPS,将词语wi,i∈[1,n]抽象成图节点V2i,在具有依存关系的两个词语wj和wk之间添加一条边E2j=,得到图G2=(V2,E2);

第3步.将图G1=(V1,E1)和图G2=(V2,E2)合并得到文本语义图G=(V,E),V=V1∪V2,E=E1∪E2.

第4步.使用DeepWalk算法对图G采样,得到图G上的多条随机序列.

第5步.对采样得到的随机序列,使用Skip-gram模型构建词语语义化的向量表示.

将TSG-GE文本词语语义编码算法的第1步和第5步抽取出来单独合并在一起,便等价于传统的Word2Vec方法,即在传统的方法中,只考虑到了文本中各词语元素的线性先后关系,这就直接导致了训练得到的词向量只能表征一个词的当前上下文信息,无法表征文本中的长距离句法依存关系,针对此缺陷,通过将文本的依存句法关系引入到文本表示过程中,把线性的文本词语关系扩展成非线性的文本语义图结构,在一个图中将文本的多方面信息进行了融合表示,对应到算法流程中就是第2步与第3步的工作.图嵌入是将图数据映射为低维稠密向量的过程,能够用于表征图中的信息,因此为了将文本语义图中的信息提取出来,引入图嵌入技术对文本语义图进行解析,具体而言,使用Deepwalk技术随机采样文本语义图上的多条随机序列,这些序列的内部关系有的是文本中词语的先后关系,有的是文本中词语的句法依存关系,多方面信息的融合对文本本身的语义内涵进行了更全面的覆盖,这就保证最终通过文本语义图得到的词向量具有更丰富的语义信息.

3.2 情感特征提取

3.2.1 域共享特征提取

域共享特征是源域和目标域共享的情感特征,在此两个域中均能表达出相近的情感信息,例如“真棒”,这个词语具有两个特性:第一,区分了不同的情感类型;第二,实现了源域和目标域共享.利用这些特性,设计层次注意力网络提取域共享特征,可同时实现情感分类任务与加了梯度反转层的域分类任务学习,具体如图3所示.

图3 使用HAN1进行域共享特征提取

在使用HAN1对源域数据进行情感分类时,输入源域中的有标记数据XS到HAN1,计算词级别和句级别的注意力权重并得到文本向量,再将之输入分类器中完成情感分类,情感分类的损失函数Lsen如公式(1)所示,其中,yi∈{0,1},0表示负向文本情感,1表示正向文本情感.

(1)

做域分类任务可同时将分属两个域中的数据XS和XT输入HAN1,并计算得到文本向量,接着对样本的域标记进行分类.为了进行域迁移,故需减少两个域之间的差异,这意味着要让损失函数尽可能大,但由于一般意义下的梯度下降函数是最小化目标函数,所以需要对损失函数中的梯度做反转,这意味着:第一,正向传播时传递权值不变;第二,反向传播时,将神经元权值增量符号取反,即达到与目标函数方向对抗的目的.因此在将文本向量输入分类器之前设计了一个梯度反转层,以实现在进行基于域分类的对抗训练时,减少两个域之间的差异.域分类的损失函数Ldom如公式(2)所示,其中,di∈{0,1},0表示源域文本,1表示目标域文本.

(2)

现将这两个任务的损失函数相加得到HAN1最终的损失函数LHAN1如公式(3)所示.

LHAN1=Lsen(H(XS;θHAN1))+Ldom

(3)

HAN1的参数在两个分类器中共享,故均参与了梯度更新过程,其中一个参数控制最小化情感分类误差,另一个参数控制最大化域分类误差,以确保了来自HAN1的向量既实现了域共享性,又有利于情感的分类.当网络训练完成后,基于注意力机制的作用,不同的词根据其对分类结果的影响程度而被分配得到了不同的注意力权重,即每个句子中注意力权重最大的词就是域共享特征词.

3.2.2 域独享特征提取

域独享特征是源域或目标域独有的情感特征,在文本中常常与域共享特征共同出现,通常只在特定域中表达情感信息,例如对书本的评论词“耐读”或者对电池的评论词“持久”,这些词具有两个特性:第一,对于不同情感类别的区分有用;第二,为源域或目标域所特有.利用这些特性,设计层次注意力网络提取域独享特征,可同时实现情感分类和域独享特征分类,具体如图4所示.

在进行域独享特征提取时,为了排除域共享特征的对分类结果的影响,将输入文本X中的域共享特征词隐去,以达到不含域共享特征词的文本X′的目的,具体如公式(4),其中,hide函数是隐藏操作,实现将文本X中的域共享特征词用零向量代替,以达到隐藏词汇的目的.

X′=hide(X)

(4)

(5)

(6)

使用以上两个分类任务对HAN2进行多任务训练时,情感分类任务保证了域独享特征对区分不同情感类别有用,域共享特征分类任务可以发现两个域独有的特征,并将它们投影到域共享特征空间中.现将这两个任务的损失函数相加,可得到HAN2最终的损失函数LHAN2,具体如公式(7)所示.

(7)

HAN2的参数在两个分类器中共享,将文本的域共享特征词隐去后进行域共享特征词类别的分类,基于注意力机制作用,将其中对域共享特征类别具有较高区分度的域独享特征词,分配给较高的注意力权重.

3.3 在线学习社区学习者情感识别

基于注意力机制,域共享特征提取网络HAN1通过情感分类和对抗域分类任务,捕捉到两个域共享的关键特征;域独享特征网络HAN2通过将域共享特征隐去后,再实现情感分类和域共享特征分类,并将域独享特征映射到域共享特征空间之中.这两个网络均有情感分类能力,通过预训练,这两个网络最终生成的文本向量在表示上是互补的.因此,可将预训练好这两个网络,再做联合训练,即可实现跨域情感分类(见图5).

图5 对HAN1和HAN2联合训练以实现跨域情感分类

(8)

联合训练完成后,将目标域待分类文本XT同时输入到网络HAN1和HAN2中,以计算出相关的文本向量并使用softmax函数进行分类,具体如公式(9)所示.

(9)

上式中计算得到的sentiment之值便是待分类文本XT的情感类型.

4 实 验

在真实的MOOC学习数据集上进行实验,论证了本文方法的有效性.

4.1 数据集

实验数据是某在线公开的在线学习社区真实数据.该数据集包含了5门在线课程的学习者评论数据,这5门课程包括文学(L)、体育(S)、心理学(P)、数学(M)和经济学(E),其中的评论数据样例见表1.

表1 学习者评论数据示例

数据的统计信息见表2,5门课程(即5个域)的学习者评论数据均超过900条,表中的“评论数量”反映了对每个域内数据的情感分布统计.发表评论的学习者数目,则根据用户ID去重后再计数得到.每名学习者平均发表评论数量是将课程的评论总数除以发表评论的学习者数得到的比例数,该值反映了一门课程的交流活跃程度.每篇评论的平均词数是对所有评论文本分词之后,统计词数量再除以总的评论条数得到,该值反映了学习者发言的平均状态.

表2 实验数据的统计信息

4.2 在线学习社区学习者情感识别结果

基于层次注意力机制的域共享特征提取网络HAN1能够识别出两个域之间共享的情感特征词;基于层次注意力机制的域独享特征提取网络HAN2,会对文本中的域独有特征分配更大的注意力权重.现说明一下相关对照实验结果.

第1组对照实验,其目的是探究不同的文本表示方法对文本情感分类结果的影响.在体育到文学跨域情感分类任务S→L中,选取不同的文本表示方法进行对比实验,实验结果如表3所示.

表3 用不同文本表示方法进行文本情感分类的结果

对照实验组采用了4种不同的文本表示方法,即CBOW、Skip-gram、Fasttext和基于Graph embedding的文本表示方法.在CBOW方法中,使用周围词预测中心词并依据预测结果使用梯度下降方法来不断地调整周围词的向量,训练完毕后,可获得整个文本里面所有词的词向量[20].Skip-gram用中心词来预测周围的词并依据周围词的预测结果使用梯度下降方法不断地调整中心词的词向量,以得到文本所有词的词向量.Word2vec模型下的词顺序不重要,模型训练完之后,每个词根据其上下文关系可映射到一个向量上,以表示词与词之间的关系.Fasttext加入了N-gram特征以对文本的词序信息进行刻画.本文使用了基于Graph embedding,该方法不仅考虑了文本的词序信息,还结合了文本的句法依存关系,将文本抽象成语义图之后,再通过Graph embedding得到文本的词向量.实验结果是:本文方法在精确率P、召回值R和F1这3个指标上取得了优于对照实验组中的其他词向量表示方法,说明本文的文本表示方法能取得比传统Word2Vec方法具有更丰富语义的词向量,提高了下游情感分类任务的分类准确率.

第2组对照实验的目的是比较不同文本分类模型在情感分类任务上的优劣,为此对在线学习社区学习者评论数据使用了不同的文本分类模型.由于所使用的迁移学习方法涉及到源域和目标域两部分数据集,而传统的有监督机器学习算法只在一个特定域上进行训练学习,因此对从域A迁移到域B的任务A→B而言,我们对应地在目标域B上开展了有监督学习的相关实验,由于数据集中共包括5个不同的域的数据,考虑从任何一个域迁移到其他剩余的4个域,在这总计有20个跨域情感分类任务{S,L,P,M,E}→{S,L,P,M,E}对照实验结果如图6所示.

图6 使用不同的文本分类模型进行情感分类的F1值

对照实验组采用了结构化映射学习(SCL)、支持向量机(SVM)、卷积神经网络(CNN)、长短期记忆网络(LSTM)和层次注意力迁移网络(HATN).其中SCL是迁移学习的一种实现技术,在这里作为迁移学习的基线模型用以与HATN方法进行对比.在本文所涉及到的5种文本分类方法中,SCL和HATN方法属于跨域情感分类方法,涉及到源域和目标域两个范畴,但是SVM、CNN和LSTM方法不涉及到跨域的问题,它们只在一个域上开展有监督情感分类任务,因此在具体实验中,只在每一组迁移任务的源域上开展实验作为对比.观察图6的实验结果,发现除了实验编号为1、3、10、18的实验,其余实验均是HATN方法得到了最优的F1值.现对图6中的实验结果进行说明:

1)实验编号1、10、18的最优实验结果均是LSTM方法在域L上取得的,观察表2实验数据的统计信息,可以发现域L中每篇评论的平均词数是5个域中最大的,即域L中的文本往往具有较长的文本长度,而LSTM模型恰好擅长播捉长文本中的信息,由此在这几个实验上取得了相较于其他方法更优的F1值;

2)实验3中SVM方法在域M上取得最优结果,这是由于数据集较小的缘故造成的;

3)从整体上来看,迁移学习方法与有监督机器学习方法相比,由于缺乏目标域上的数据标记,存在着先天的分类能力不足的问题,但层次注意力迁移网络依然能够在绝大部分实验中取得了更好的F1值,最重要的是该方法能够节省标记数据的时间成本和人力成本.同时,在所有的20个实验上,层次注意力迁移网络方法均超过了同为迁移学习方法的结构化映射学习方法,说明该方法是一个有效的跨域分类模型.

5 结束语

针对在线学习社区学习者的情感识别问题:

1)提出了多源信息文本表示方法—TSG-GE文本词语语义编码算法,在文本语义图上通过图嵌入技术得到含有丰富语义信息的词向量;

2)将迁移学习技术引入到在线学习社区的学习者情感识别任务中,避免了有监督学习需要大量有标签数据的问题.

在理论研究的基础上,本文通过在真实数据集上的实验得到了两个结论:

1)融合了文本词序信息和句法依存信息的文本表示方法的语义刻画能力强;

2)基于迁移学习的在线学习社区学习者情感分类方法在整体上看不如有监督的机器学习分类算法,但该方法省去了对目标域的数据需做的标记过程,所以这节省了大量的时间成本和人力成本,并且在一定的情况下能得到更好的分类效果,所以在这个意义上讲,本文提出的方法是有效的.

在今后的研究中,还可以从情感识别粒度上进行扩展,在情感极性分类的基础之上对情感的类型进行更细粒度的划分,比如兴奋、激动、期待、沮丧和失望等具体情绪,更具体的情绪类型能够给在线学习社区的学习者带来更细致的学习分析与教育干预.

猜你喜欢

向量语义注意力
真实场景水下语义分割方法及数据集
向量的分解
让注意力“飞”回来
A Beautiful Way Of Looking At Things
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
汉语依凭介词的语义范畴
阅读理解两则