基于AT—LSTM的弹幕评论情感分析

2018-05-14庄须强刘方爱

数字技术与应用 2018年2期

庄须强　刘方爱

摘要：弹幕评论能更准确、具体地反映出用户在观看视频时的即时情感和褒贬评价，因此本文提出了一种基于注意力机制的LSTM（AT-LSTM）情感分析模型。首先基于注意力机制更好的挖掘出整个弹幕评论中的情感关键词；然后利用LSTM模型有效结合视频中前后弹幕评论的情感依赖关系，最终提取出基于主题的“高光”视频片段。实验结果表明所提方法的准确度比传统LDA和LSTM方法有了进一步的提高。该模型可以帮助用户更准确的获取网络视频弹幕数据中包含的情感信息，进而提供了一种新的视频检索与视频推荐新途径。

关键词：深度学习；弹幕评论；情感分析；AT-LSTM

中图分类号：G206 文献标识码：A 文章编号：1007-9416（2018）02-0210-03

1 引言

弹幕视频是近年来出现的一种将观众评论与视频内容相结合的视频形式，融合了视频与社交元素。用户可以在观看视频的同时发表评论，且弹幕评论会以弹幕的形式实时出现在视频上。

弹幕评论数据包含评论文本及其对应的视频时间点信息，因此与一般的评论数据相比，弹幕数据能更准确、具体地反映出用户在观看视频时的即时情感和褒贬评价，这些情感和评价信息可以为其他用户在选择视频时提供参考。利用情感分析技术从网络视频弹幕中提取情感信息，可以帮助用户获取视频评论文本整体的情感倾向，以及评论情感随时间的变化情况。随着弹幕功能在各大主流视频网站的推广，弹幕评论中的观点和情感表达将更具普遍性和参考性。在弹幕评论情感分析的基础上，可以建立根据评论情感的视频检索新途径，满足更多元、个性化的检索需求。

本文结合弹幕视频特性设计一种基于注意力机制的LSTM情感分析模型（AT-LSTM）来提取视频中的精彩片段：

（1）有效的分析了视频中弹幕评论的前后相关性，从而更准确的获得弹幕评论的主题信息。（2）依据主题模型对弹幕中的词进行主题分类并计算视频片段之间的情感相似度，得到基于主题分布的精彩视频片段。（3）通过加入注意机制突出了弹幕评论中关键性情感词的影响作用，进一步提高了模型的准确率。

2 相关工作

2.1 弹幕定义

弹幕：弹幕可以定义为一个三元组，其包含了用户输入内容、发送时间、用户ID。本文主要对中文、英文、数字三种形式的弹幕内容进行分析，其中英文弹幕包含了部分网络用语，如“QAQ”（表示哭泣）等；数字部分包含了常用网络流行词，如“233”（表示大笑）和“666”（表示厉害）等。

如图1所示不同语言的弹幕形式，弹幕视频截图上方的文字为用户发送的弹幕。

2.2 “高光”视频片段

“高光”视频片段：本文的宗旨就是找出弹幕视频的情感鲜明突出的“高光”视频片段（“Highlights” video shots）。所谓“高光”视频片段，即视频中的精彩片段，是指用户对视频某一部分内容带有强烈感情色彩讨论。

通过研究发现，视频弹幕评论包含有一定的“时间相关性”，即当用户发送弹幕评论Ci时，他们可以参考当前以及先前的弹幕评论内容，因此，相邻的评论在语义向量上可能是相似的，当视频呈现一段精彩内容时（高光片段），用户通过大量参与评论从而产生了对应的“主题”。基于这种现象，我们在弹幕评论Ci周围的一定区域Aj=（视频片段的长度为te-ts），则我们把具有某种主题T的评论的视频片段Aj称之为“高光”视频片段。

2.3 Attention-based LSTM（AT-LSTM）

LSTM（Long Short Term Memory）是一种有效的链式循环神经网络（Recurrent Neural Network，RNN），被廣泛用于语言模型、机器翻译、语音识别等领域。标准的LSTM检测不到弹幕评论中重要的情感评论。为了解决这个问题，我们建立了一种注意机制，它可以捕捉句子的关键部分的注意力机制。

文本的输入序列为输入序列{x1，x2，x3，…，xt}作为历史节点，历史节点的输入向量的累加求均值，得到文章总体的输入向量表示X，X作为编码阶段最后的输入。{h1，h2，h3，…，ht}对应于输入序列{x1，x2，x3，…，xt}的隐藏层状态值。Ht对应于输入X的隐藏层状态值。

图2中的ai就是历史节点对于最后节点的注意力概率。Ai越大表示这个词在弹幕评论中的情感语义越重要。图中输入序列{x1，x2，x3，…，xt}是弹幕评论文本的词语表示，X是弹幕评论总体的输入向量表示。计算出{x1，x2，x3，…，xt}对于弹幕评论总体的影响力权重，可突出关键词的作用，减少非关键词对于文本整体语义的影响。

aki= （公式2-1）

eki=vtanh（Whk+Uhi+b）（公式2-2）

其中aki表示节点i对于节点K的注意力概率权重。T为输入序列的元素的数目。V、W、U为权重矩阵，hk为最后输入对应的隐藏层状态。hi表示输入序列第i个元素对应的隐藏层的状态值。主要思想是计算历史节点和最后输入节点的关系分数，然后计算占总体分数的比重，通过这个公式我们得到了每一个输入对于最后输入的注意力概率。

计算注意力分布概率的语义编码和特征向量，计算公式：

C=akihi （公式2-3）

Hk=H（C，hk，X）（公式2-4）

其中语义编码C主要是通过注意力概率权重与历史输入节点的隐藏层状态乘积的累加得到。最终的语义编码是将含有历史节点的注意力概率分布的语义编码和文章总体向量作为传统LSTM模块的输入，然后最后节点的隐藏层状态值Hk就是最终的特征向量。该特征向量，包含了历史输入节点的权重信息，突出了关键词的语义信息。

3 基于AT-LSTM的情感分析模型

3.1 准备工作

时间标签不仅包含类型信息，还包含视频中的时间范围，我们首先设置一个m秒的时间窗口，将视频分割成视频片段。对于每个视频片段，我们将其视为基本单元，并提取其时间标签。

我们倾向于突出显示标注主题的视频片段，因为可以获得更多的“高光”视频片段，我们对分割后的视频片段集将进行主题聚类处理。因此，我们用对应的主题来标注每个评论，对于每个视频片段，我们可以简单地计算评论是否存在某种主题，并将其频率表示为f并且，如果我们有一个存在某种主题的片段，该视频片段可以识别为“高光”视频片段。

如果视频片段S被识别为“高光”视频片段，则可以用Shighlight={}来表示，其中表示片段的时间范围，f表示评论的主题频率。在某一个主题中，权重f越小的词与该主题的相关性越低。所以我们只考虑取每个主题的Np个有效词。

对于所有视频片段找到主题频率f对应的最大值max和最小值min，我们可以设定一个阈值θ来计算该片段是否是Shighlight视频片段（其中α称为合格率）：

θ=α*min+（1-α）*max（0≤α≤1）（公式3-1）

3.2 主题聚类

我们以监督的方式处理“高光”视频片段。由弹幕Ctrain和一系列现有的标签Ltrain={}组成的训练集，我们将Ctrain分成等长的视频片段，然后计算每个片段的主题频率f。本文通过使用LDA算法作为分类器，对Shighlight中的每个主题片段聚类可以得到主题集合Slabeled={}。

3.3 主题合并

最后，对于任何相邻的Shighlight片段和，即T1=T2，我们将合并这两个片段得到新的Shighlight片段。将所有片段合并后，我们获得了最终的“高光”视频片段集合。

4 实验

4.1 实验数据

本文的实验数据是由国内弹幕网站bilibili上下载的视频及弹幕组成。数据包括不同类型的弹幕视频，过滤掉少于40条弹幕的视频，如表1所示每条评论数据包含评论文本和评论时间。本文选用NLPIR作为中文分词工具，通过对弹幕数据进行分词、清洗、去噪之后，设置时间窗口m=100s，将视频分割成视频片段，整理得到1600个视频片段以及132850条弹幕评论，并随机将其中的一半训练数据Ctrain，一半作为测试数据Ctest。

4.2 实验设置

本文选择了LDA，LSTM算法作为本文实验的对比算法。实验过程包括以下几个步骤：

（1）对所有视频进行分段，对每个视频片段分别計算情感向量。（2）利用AT-LSTM模型对视频片段情感相似度分析。输出的语义特征维度为50，训练过程中采用dropout策略，且dropout取值0.5。（3）利用LDA算法计算每个视频片段情感相似度分数，并取分数最高的Ntop个视频片段作为高光视频片段集。

4.3 评价指标

本文采用正确率（precision）、召回率（recall）和F值（meanF1）三个标准作为模型性能评价指标，指标计算如下：

precision= （公式4-1）

recall= （公式4-2）

meanF1= （公式4-3）

其中：TP表示输出的判断正确的关系个数，（TP+EP）表示输出的所有关系个数，（TP+EP）代表测试集Ctrain中的所有该关系的个数。

4.4 参数设置

本文主要对模型中的四个主要参数进行学习：（1） AT-LSTM模型的训练轮数Nt；（2）LDA过程的隐含主题个数Ntop；（3）主题采样迭代次数σ；（4）主题中的有效单词个数 P。

参数学习结果如图3所示。AT-LSTM模型的训练迭代轮数Nt为400时，模型效果达到最佳效果。当Nt超过400，实验结果相差不大。对于用于识别“高光”视频片段的合格率α，我们设置α从0.1到0.5，其结果如图所示。可以看出，随着α从0.1增加到0.5，Precision降低并且Recall增加。α相对较小时，我们的框架可以产生更多的“高光”视频片段，当α设为0.3时，我们的模型在F1得分上可以达到最好的表现。从图3中数据可以发现，当主题数量Ntop为25左右，F1达到最优值。当Ntop>25时，F1开始迅速下降。而当Ntop<25时，对于风格不同的视频片段为同一主题的概率会增大，这样同样不能发挥主题模型在情感识别中的优势。有效单词个数P取100左右，F1达到最优值，此时采用更多数量的词参与计算，会使得主题情感的准确性降低。

4.5 实验结果

如表2是所有模型的实验结果。可以看出LDA和非基于Attetion机制的普通LSTM的实验结果并不理想，其最好结果是AT-LSTM在Ntop=25取得，对应的F1=0.741。当Ntop取得25时，AT-LSTM比LDA模型和LSTM模型均有所提高。LSTM在Ntop取不同值的情况下均优于LDA。其主要原因为LDA根据视频片段的主题分布来计算片段之间的相似度，然而弹幕评论中网络用语较多，这种在各个视频片段中出现概率都很大的词可能会在不同的主题中都具有较大的权重，这样就降低了主题模型在情感识别中的效果。

表3是Ntop取值25时3种模型的Precision、Recall、F1-Score详细实验结果。通过对比分析实验结果可以发现，基于AT-LSTM的视频片段推荐方法明显优于基于LDA和基于LSTM的推荐方法，其主要原因是结合了注意力机制，突出了LSTM关键性输入对模型的影响，获取了更多前后关联弹幕评论的语义信息，从而证实本文方法在弹幕评论的情感分析应用中准确率的优势。

基于AT-LSTM的推荐算法考虑到了当遇到没有情感标注的词，即一个完全陌生的新词，如何通过主题模型计算出该词的情感值。相对于其他三种方法，AT-LSTM考虑到当一个陌生的词在不同场景中可能会有情感差异，并结合该词当前的主题分布实时计算出该词在当前视频片段中的情感向量，因此基于AT-LSTM的推荐方法优于其他对比方法。

5 结语

网络视频弹幕评论信息经情感分析及可视化处理后获取网络视频的情感特征及走势，可作为视频的情感标签，在此基础上我们可以建立一种基于评论情感的视频检索模式。本文提出了一种基于注意力机制的LSTM模型（AT-LSTM）对网络弹幕评论数据集进行实验，并结合弹幕评论聚类主题进行分析。通过实验对比该模型与其他算法模型，我们的模型的性能优于其他模型。利用情感分析模型得到的“高光”视频片段，可以推荐用户观看感兴趣的弹幕视频，帮助用户获取网络视频中包含的情感信息，进而提供一种新的视频检索途径。

参考文献

[1]Wu B， Zhong E， Tan B， et al. Crowdsourced time-sync video tagging using temporal and personalized topic modeling[C]// ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM， 2014：721-730.

[2]Chen X， Zhang Y， Ai Q， et al. Personalized Key Frame Recommendation[C]// International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM，2017：315-324.

[3]邓扬，张晨曦，李江峰.基于弹幕情感分析的视频片段推荐模型[J].计算机应用，2017，37（04）：1065-1070+1134.

[4]何炎祥，孙松涛，牛菲菲，李飞.用于微博情感分析的一种情感语义增强的深度学习模型[J].計算机学报，2017，40（04）：773-790.

[5]郑飏飏，徐健，肖卓.情感分析及可视化方法在网络视频弹幕数据分析中的应用[J].现代图书情报技术，2015（11）：82-90.

[6]梁军，柴玉梅，原慧斌，高明磊，昝红英.基于极性转移和LSTM递归网络的情感分析[J].中文信息学报，2015，29（05）：152-159.