基于注意力机制和CNN-BiLSTM模型的在线协作讨论交互文本自动分类
2023-09-14李淑红邓明明孙社兵任济洲
李淑红 邓明明 孙社兵 任济洲
摘 要:针对当前的在线协作讨论交互文本分类仅采用深度学习方法时,存在无法充分获取上下文语义关联以及忽略关键特征词,造成分类结果准确率下降的问题,文中提出一种结合注意力机制的深度学习网络模型—CNN-BiLSTM-Attention,进一步强化文本的语义特征。利用该模型对在线协作讨论活动中产生的12 000条交互文本進行分类,分类结果表明,CNN-BiLSTM-Attention的分类准确率整体上可达到82.40%,有效提升了文本分类的效果。
关键词:深度学习;卷积神经网络;长短时记忆网络;注意力机制
中图分类号:TP18 文献标识码:A 文章编号:2096-4706(2023)13-0026-07
Automatic Classification of Interactive Texts in Online Collaborative Discussion Based on Attention Mechanism and CNN-BiLSTM Model
LI Shuhong1, DENG Mingming1, SUN Shebing1, REN Jizhou2
(1.Henan University of Economics and Law, Zhengzhou 450046, China;
2.Australian National University, Zhengzhou 450046, China)
Abstract: In response to the problem of insufficient contextual semantic association and neglect of key feature words in current online collaborative discussion interactive text classification using only deep learning methods, resulting in a decrease in classification accuracy, this paper proposes a deep learning network model that combines attention mechanism - CNN-BiLSTM-Attention, to further strengthen the semantic features of the text. Using this model to classify 12 000 interactive texts generated in online collaborative discussion activities, the classification results show that the overall classification accuracy of CNN-BiLSTM-Attention can reach 82.40%, effectively improving the effectiveness of text classification.
Keywords: deep learning; Convolutional Neural Network; Long Short-Term Memory Network; attention mechanism
0 引 言
在线协作讨论场景中基于讨论的学习能够为学生提供重要的益处[1]。通过技术支持的在线协作讨论使得学习者能够跨越时空的局限,更大程度上询问问题,彼此交换观点,进行意义协商,最终提升学习者的协作讨论能力、促进其认知技能和批判性思维的发展[2,3]。交互是协作学习的基本活动单元,在协作学习过程中具有非常重要的作用[4]。学习者在交互的过程中产生大量文本语料,分析这些交互文本中的语义信息,对于识别在线讨论过程中的认知发展、情感交流、争论过程,协商模式等特征行为具有重要作用。香港大学研究者Law[5]指出,如何分析和理解由学生产生的大量对话语料对于教师和研究者是一个严峻的挑战。
通过学习者的交互文本识别言语意图本质上是一个文本分类问题。传统言语意图识别多采用基于研究者的人工标注方法和基于协作讨论参与者的自我标注行为[6]。人工标注方法需要耗费大量时间及人力,且仅支持事后分析,无法满足在线协作学习过程的动态实时分析。自我标注行为在协作者发表交互言语时要求协作者报告自己的行为意图,这种强制标签的形式打断了交互过程的自然连续性,为研究而研究,阻碍了协作过程的顺利开展。
因而,发展针对该情境下的自动化文本分类方法,自动识别学习者在交流中表达的陈述、提问、情感和管理等行为意图,对于明确学习者的参与模式和交互策略,并进一步预测学习效果、挖掘协作问题解决规律及协作知识演变规律等问题具有重要价值[7]。然而,在线协作学习场景的交互讨论具有自己的特殊性,如在面对某课后问题,是否采取小组协作讨论方式时,本研究收集的学生讨论文本为“我们需要利用小组合作,缩小个体之间的差异”“应该提议咱们就一人来一段嘛”“建议直接留一个人发言就好了,不需要team”“希望自主找到解决问题的方法”。在线协作讨论交互文本具有较多地使用短文本语言,常用缩略词、使用网络化流行语和强对话逻辑特征等,因而直接采用传统深度学习方法难以取的较好的分类效果。如何结合协作交互文本特征实施更为细致的数据预处理、特征词抽取、分类模型构建等成为当前重要的研究挑战。
1 相关研究
使用机器学习方法是当前计算机领域内自动文本分类采用的主流方法,主要包括支持向量机、朴素贝叶斯、决策树、K最近邻等。如Dhanalakshmi等[8]采用SVM和朴素贝叶斯模型对学生评论的极性进行分类,探索学生对教学质量的满意度。Sivakumar等人[9]结合K-means聚类与朴素贝叶斯方法作为分类模型,对收集到的学生反馈文本进行预测分类,用以提高学生学习技巧。Zheng等人[10]利用四种机器学习分类算法(决策树、朴素贝叶斯、支持向量机和随机森林)对学生在计算机支持的协作学习环境中产生的在线聊天记录分类,识别自我和社会共享调节活动。这些机器学习方法通常将文本表示为高维度高稀疏的向量,其特征表达能力较弱,需要人工进行特征工程,在处理大量数据和语料库时会带来较高的代价[11]。
随着计算能力的提高、大数据集的可用性以及算法的不断创新,深度学习技术得到了迅速的发展,并在自然语言处理(NLP)领域取得了巨大的成功[12]。和传统机器学习方式不同,深度学习可以自动地在输入数据中提取高层语义特征,因此表征能力也更强。常用的深度学习算法模型有卷积神经网络(Convolutional Neural Networks, CNN)、循环神经网络(Recurrent Neural Network, RNN)、长短时记忆网络(Long short-Term memory, LSTM)等。Kim[13]提出基于卷积神经网络的句子级文本分类模型,该模型在训练词向量时,利用CNN进行预训练,优化特征表达,得到由静态向量表示的句子,提高了分类效果。Xu等[14]利用BiLSTM神经网络模型对评论文本情感进行研究,有效地捕获上下文信息,结果表明BiLSTM情感分析模型要优于RNN、CNN和LSTM。Sharfuddin等人[15]提出基于BiLSTM的孟加拉文本情感分类模型,准确度可以达到85.67%。随着文本分类任务越来越复杂,对文本分类模型的性能要求也越来越高,部分研究人员开始尝试在BiLSTM神经网络模型中加入其他模块,利用集成模型来构建文本分类模型。如郭浩等[16]提出一种基于CNN和BiLSTM相结合的短文本分类模型,利用CNN与BiLSTM相结合的孪生神经网络结构,在联系上下文的同时,提取句子不同粒度的特征,对句子进行深层语义编码,有效地提高了短文本分类的准确率。以上的研究都对文本分类任务中上下文联系提出了有效的解决方法,但仍未考虑文本中关键信息的特征提取问题。
注意力机制的引入,让神经网络模型在众多的输入信息中聚焦于对当前任务更为关键的信息,过滤掉无关信息,从而解决信息过载问题,并提高任务处理的准确性。Du等[17]提出了一种基于CNN的注意力模型,能够提取句子中的关键部分,提高模型的预测能力。Xie等[18]利用基于自我注意力的BiLSTM模型,用于对短文本的情感极性分析,利用自我注意力机制对隐藏向量和局部向量进行融入,降低了矢量拼接带来的计算复杂度,提升了短文本分类的效率。
文本分类任务是自然语言处理中最为重要的一个任务,在线协作讨论交互文本分类任务的核心问题之一就是特征选择[19]。注意力机制能针对原始数据集中的局部数据筛选出关键信息,并对关键信息赋予相应的权重,最终在全局角度对每个局部关键信息的权重加权平均,得到全局关键信息的权重,以此提高数据分类的准确率。CNN模型能够自动提取交互文本中的局部特征信息,BiLSTM从全局角度考虑文本的上下文语义关系,非常适合于具有上下文依赖关系的文本分类问题的解决。基于此,本研究结合注意力机制与CNN-BiLSTM构建交互文本分类模型,采用Word2Vec词嵌入向量对输入文本进行表示,结合CNN和BiLSTM提取文本特征的优点,采用注意力机制重点关注文本中和任务相关的关键特征,以此达到更高的文本分类精度。最后,利用softmax分类器对处理后的信息进行分类,得到分类结果。
2 CNN-BiLSTM-Attention交互文本分类模型
本研究采用CNN-BiLSTM-Attention模型进行文本分类任务,CNN-BiLSTM-Attention模型一方面利用CNN提取交互文本局部关键特征信息,利用BiLSTM模型保留文本序列信息,获得文本序列上下文语义特征信息,充分挖掘上下文语义时序的依赖关系。另一方面,能够重点关注文本中的关键内容,加大模型对关键信息特征向量的注意力,优化文本表示。本研究采用的模型结构如图1所示。
.1 词嵌入层
在获得输入层的输出数据后,本文在词嵌入层利用Word2Vec技术将完成停用词和分词处理的非结构化交互文本数据转换成为结构化的词向量。本文选用的Word2Vec技术可以考虑上下文之间的联系,相比与传统机器学习的特征工程,转换得到的词向量是低纬度且稠密的向量,更加适合于在线协作讨论交互文本分类任务。
2.2 CNN神经网络层
由于传统的特征提取采用人工提取的方式,對于研究者的专业水平要求高,同时由于交互文本常是缩略词和网络化流行语,会造成特征提取过程费时费力的情况出现。为了克服人工提取的弊端,本研究采用卷积神经网络的方法提取交互文本的局部关键特征。
CNN由卷积层、池化层和全连接层组成,以经过Word2Vec预训练所获得的词向量wi ∈ R d作为CNN网络的输入,其中d表示词向量维度。CNN根据不同大小的卷积核建立多个卷积层,用来提取交互文本的局部特征信息。卷积计算公式:
ci = f (ωwi:i+h-1) + b
其中,wi:i+h-1表示每次卷积操作的取词数;b ∈ R表示偏置项;f表示一个非线性激活函数,如tanh函数或者校正线性单元(ReLU)函数。目前,大部分的卷积神经网络基本上都是使用ReLU函数,因为它可以使卷积神经网络取得更好的效果。经过卷积层特征矩阵作为池化层的输入,池化层用于压缩数据和参数的数量,筛选有效特征,减少特征总数量;在筛选特征的同时,池化层保证了数据特征的不变性和鲁棒性。这里使用最大池化层降低维度,经过池化层后的合并向量作为CNN网络层的最终输出。
2.3 BiLSTM神经网络层
CNN神经网络层将局部特征向量数据输入BiLSTM层后,本文采用Hochreiter等[20]提出的LSTM模型作为参考,构建出BiLSTM模型,用于提取输入数据中的上下文语义特征。LSTM模型是一种为了解决RNN长期依赖问题、梯度消失和梯度爆炸问题的特殊循环神经模型。LSTM模型加入了自适应的门控机制,来保证LSTM神经单元能保存先前状态和记忆当前输入神经单元的特征抽取,从而获取文本中的长期依赖关系,达到更理想化地从文本整体角度理解文本语义。
LSTM模型记忆单元中的门结构由3部分组成:输入门it(input gate)、遗忘门ft(forget gate)和输出门ot(output gate),LSTM门控机制的结构如图2所示。
门结构用于记忆和更新记忆神经单元的信息。其中,在当前t时刻,更新各个门控机制及单元状态的算式如下:
其中,x表示输入的交互文本词向量,t表示当前时刻,t-1表示上一时刻,h表示LSTM的单元输出,ht-1表示上一层的生成状态,c表示记忆单元值,б表示Sigmoid函数,Wi、Wf、Wo、bi、bf、bo分别表示输入门it、遗忘门ft和输出门ot的权重和偏置量。式(1)表示对记忆单元的更新,作用为遗忘部分信息并且更新当前输入信息中需要更新到当前记忆单元中的信息。式(2)表示计算当前的输出结果,最终由输出门ot决定输出的信息。
当前记忆单元值由上一层的记忆单元值和当前单元产生的信息所得到。然而,标准的LSTM网络在处理时间序列任务时,忽略了下文语义特征信息。本文在LSTM模型的基础上,采用两层LSTM模型分别作为CNN-BiLSTM-Attention模型中BiLSTM层的正向传播通道和反向传播通道。利用正向传播通道提取文本序列的上文语义特征,利用反向传播通道提取文本序列的下文语义特征,最终将两个通道所提取的语义特征相结合,得到上下文语义特征。
2.4 Attention层
本文采用CNN-BiLSTM模型结合注意力机制来进行交互文本分类,利用注意力机制从全局角度获取文本联系并关注局部关键文本联系的特点和优秀的处理冗余信息和信息丢失问题的能力,从而进一步强化文本的语义特征。
本研究采用Attention机制中的Attention函数对输入的数据按照不同的权重参数进行组合。利用键值对(Key-Value)查询的方式来设计Attention函数,其工作结构如图3所示。
注意力机制可以用如下的算式进行表示:
ui = tanh (Whi + b)
其中,hi表示输入隐向量,tanh表示双曲正切激活函数,uT表示训练所得参数向量的转置,t表示语句序列长度,v表示利用tanh激活函數计算得到的最终句子表示。
2.5 输出层
在经过BiLSTM获取文本上下文深度语义依赖关系和Attention机制加强局部关键信息文本语义特征后,本研究利用Softmax函数作为分类器进行文本分类。将输出值yi使用Softmax函数进行计算,得到相应的概念分布,计算过程为:
其中:θ = {E,Wi,Wf,Wo,bi,bf,bo},E = [e1,e2,e3,…,en],公式中,D表示输入文档,θ表示模型训练学习得到的参数,ki表示文本所属分类,i ∈{1,2,3,4,5,6}。Attention-BiLSTM模型最终预测分类输出表示p (ki | D, θ )概率最大的分类。
3 实验与分析
3.1 数据集
本研究采用的数据集来自中国某高校面对大二学生所开设的四门在线协作学习课程,利用收集到的课程中各小组在线协作讨论交互文本作为本次研究的实验数据集。其中包括12 000条语料。为保证交互文本数据最大程度保留真实在线交互学习场景下的讨论交互文本特点,以保证本文模型在实际应用中的泛化能力,采用的分类表基于郑娅峰[21]对在线讨论交互文本分析的研究,将在线讨论交互文本分为陈述类、协商类、提问类、管理类、情感类和其他类这六类。具体分类类别如表1所示。
本研究通过人工标注的方法对原始语料进行手工分类,之后按照8:2的数据划分比例,将每一类数据划分为训练集与测试集。陈述类、协商类、提问类、管理类、情感类和其他类六类讨论交互文本的分布情况如表2所示。
在获得到相应的在线协作讨论交互文本后,将收集到的交互文本数据集按表2所示的类别标注为C1、C2、C3、C4、C5、C6这6类。例如,“C语言规定每个语句的后面都要加分号结束的”属于陈述类,类型序号标注为C1;“数学好难啊!”属于情感类,类型序号标注为C5。
3.2 实验设置
为了验证本文采用模型的可行性,设计出以下实验进行测试。实验环境:实验平台为Google TensorFlow,编程语言为Python,开发工具为Jupyter Notebook。如表3所示。
其中,kernel size代表词向量卷积窗口;embedding_size代表词向量的维度;hidden_size代表BiLSTM的隐藏层节点数;learning_rate代表学习率;dropout代表丢失率;batch_size代表单次迭代训练批处理样本的个数。
3.3 评价指标
本研究使用准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1值评价在线协作讨论交互文本分类模型的分类效果,其计算方法如下所示:
3.4 实验结果与分析
本研究选择几种在自然语言处理领域中广泛应用的文本分类算法,作为评价本文所提方法有效性的基准,比较结果如表4所示。其中,NB和SVM为传统的机器学习算法,CNN、RNN、BiLSTM为深度学习算法,选取同一实验数据局进行对照实验。
实验结果表明CNN-BiLSTM-Attention模型的分类效果最佳,其准确率达到82.40%,在陈述类、协商类、提问类、管理类、情感类以及其他类讨论交互文本分类方面的F1值分别达到了88.46%、72.90%、94.78%、80.10%、72.15%、88.57%。由表4可以得到,在交互文本数据集上,与传统机器学习支持向量机(SVM)与朴素贝叶斯(NB)模型相比,CNN-BiLSTM-Attention模型在交互文本分类任务中的性能优于SVM和NB,与SVM相比,CNN-BiLSTM-Attention模型准确率提高了8.25%,相对于NB,CNN-BiLSTM-Attention模型准确率提高了12.07%。这是因为SVM和NB都是浅层结构模型,其特征学习和分类器优化是分开的两个步骤,不能最大限度地发挥二者联合协作的优势,其次,深度学习模型具有提取全局特征和上下文信息的能力,传统机器学习模型很难有效地捕捉全局特征,因此CNN-BiLSTM-Attention模型在文本分类上的性能要优于SVM模型和NB模型。
在交互文本分类任务中CNN的准确率要比CNN-BiLSTM-Attention模型低7%,这是因为CNN是利用卷积核通过局部感知域的特点对局部数据进行卷积处理,但面对文本数据时,由于CNN只能针对局部消息进行学习,很难联系到上下文信息,因此,CNN-BiLSTM-Attention模型在交互文本分类上的性能要优于CNN模型。CNN-BiLSTM-Attention模型和RNN模型相比,RNN的准确度相对较低(低3.48%)的原因在于RNN在处理长期记忆时存在缺陷,而CNN-BiLSTM-Attention模型通过增加对过去状态的过滤,可以选择一定的过去状态来对当前状态更有影响,不是简单的选择最近的状态,从而解决了RNN模型在长期记忆方面的缺陷,因此,CNN-BiLSTM-Attention模型在交互文本分类任务中的性能优于RNN模型。与BiLSTM模型相比,CNN-BiLSTM-Attention模型准确率提高了2.98%,这是因为BiLSTM缺少了注意力机制对文本关键词特征的加权表示,因此,CNN-BiLSTM-Attention模型要优于BiLSTM模型。从整体角度进行分析,CNN-BiLSTM-Attention模型在陈述类、提问类和其他类交互文本的分类结果较好;而对协商类、管理类以及情感类交互文本在分类结果上较差。
4 结 论
针对在线协作讨论交互文本特点,结合CNN、BiLSTM和Attention网络的优点,本文提出了一种基于CNN-BiLSTM-Attention的在线协作讨论交互文本分类模型,通过CNN模型捕捉交互文本的局部信息利用BiLSTM获得交互文本上下文语义特征,使用注意力机制加大关键信息的语义特征表达。最后,在数据集上进行实验,并与六种基线模型进行比较,结果表明本文提出的CNN-BiLSTM-Attention模型能够有效地区分交互文本类型。但是,本文的模型依然存在一定缺陷,实验结果显示模型在区分协商类、管理类、情感类交互文本时,準确率较低。在未来的研究中,我们将尝试设计更为复杂高效的深度神经网络模型,并进一步扩大交互本文的数据集规模来优化交互文本分类模型的分类效果,从而提高交互文本分类的准确率。
参考文献:
[1] CHERNEY M R,FETHERSTON M,JOHNSEN L J. Online Course Student Collaboration Literature:A Review and Critique [J].Small Group Research,2018,49(1):98-128.
[2] WISE A F,SPEER J,MARBOUTI F,et al. Broadening the notion of participation in online discussions:examining patterns in learners online listening behaviors [J].Instructional Science,2013,41(2):323-343.
[3] LI Y Y,DONG M K,HUANG R H. Toward a Semantic Forum For Active Collaborative Learning [J].Journal of Educational Technology & Society,2009,12(4):71-86.
[4] QIU M Z,HEWITT J,BRETT C. Online class size,note reading,note writing and collaborative discourse [J].International journal of Computer-Supported Collaborative Learning,2012,7:423-442.
[5] LAW N,YUEN J,LENG J. Understanding Learners Knowledge Building Trajectory Through Visualizations of Multiple Automated Analyses [M].[S.I.]:Springer US,2011(49):47-82.
[6] ZHENG L,YANG K. Analyzing Interactions by an IIS-Map-Based Method in Face-to-Face Collaborative Learning: An Empirical study [J].Journal of Educational Technology & Society,2012,15(3):116-132.
[7] JOKSIMOVIC S,JOVANOVIC J,KOVANOVIC V,et al. Comprehensive Analysis of Discussion Forum Participation:From Speech Acts to Discussion Dynamics and Course Outcomes [J].IEEE Transactions on Learning Technologies,2020,13(1):38-51.
[8] DHANALAKSHMI V,BINO D,SARAVANAN A M. Opinion mining from student feedback data using supervised learning algorithms [C]//2016 3rd MEC International Conference on Big Data and Smart City.Muscat:IEEE,2016:1-5.
[9] SIVAKUMAR M,REDDY U S. Aspect based sentiment analysis of students opinion using machine learning techniques [C]//2017 International Conference on Inventive Computing and Informatics (ICICI).Coimbatore:IEEE,2017:726-731.
[10] ZHENG J,XING W L,ZHU G X. Examining sequential patterns of self- and socially shared regulation of STEM learning in a CSCL environment [J].Computers & Education,2019,136:34-48.
[11] 杨锋.基于线性支持向量机的文本分类应用研究 [J].信息技术与信息化,2020(3):146-148.
[12] 奚雪峰,周国栋.面向自然语言处理的深度学习研究 [J].自动化学报,2016,42(10):1445-1465.
[13] KIM Y. Convolutional Neural Networks for Sentence Classification [J/OL].arXiv:1408.5882 [cs.CL].[2022-09-20].http://de.arxiv.org/pdf/1408.5882.
[14] XU G X,MENG Y T,QIU X Y,et al. Sentiment Analysis of Comment Texts Based on BiLSTM [J].IEEE Access,2019,7:51522-51532.
[15] SHARFUDDIN A A,TIHAMI M N,ISLAM M S. A Deep Recurrent Neural Network with BiLSTM model for Sentiment Classification [C]//2018 International Conference on Bangla Speech and Language Processing(ICBSLP).Sylhet:IEEE,2018:1-4.
[16] 郭浩,許伟,卢凯,等.基于CNN和BiLSTM的短文本相似度计算方法 [J].信息技术与网络安全,2019,38(6):61-64+68.
[17] DU J C,GUI L,XU R F,et al. A Convolutional Attention Model for Text Classification Course [C]//Natural Language Processing and Chinese Computing:6th CCF Conference,2017:183-195.
[18] XIE J,CHEN B,GU X L,et al. Self-Attention-Based BiLSTM Model for Short Text Fine-Grained Sentiment Classification [J].IEEE Access,2019,7:180558-180570.
[19] DENG X L,LI Y Q,WENG J,et al. Feature selection for text classification:A review [J].Multimedia Tools and Applications,2019,78:3797-3816.
[20] HOCHREITER S,SCHMIDHUBER J. Long Short-Term Memory [J].Neural Computation,1997,9(8):1735-1780.
[21] 郑娅峰,张巧荣,李艳燕.协作问题解决讨论活动中行为模式自动化挖掘方法研究[J].现代教育技术,2020,30(2):71-78.
作者简介:李淑红(1972—),女,汉族,河南郑州人,教授,博士,研究方向:数字图像处理、人工智能;邓明明(1995—),女,汉族,河南驻马店人,硕士在读,研究方向:自然语言处理;孙社兵(1996—),女,汉族,河南濮阳人,硕士在读,研究方向:数据挖掘。
收稿日期:2023-10-12
基金项目:国家自然科学基金青年项目(61907011);国家自然科学基金青年项目(62077005);河南省科技攻关项目(222102210326)