攻击性言论识别的研究

2021-11-21万珂蓝

现代计算机 2021年6期

万珂蓝

（四川大学计算机学院，成都610065）

0 引言

社交是人们日常生活中重要的活动之一。人们的社交渠道之所以产生了质的飞跃，这都离不开互联网的兴起和发展。随着各种网络平台的出现，人们分享和获取信息的成本变得十分低廉，然而方便的同时攻击性言论也充斥在人们视野中。本文将攻击性言论定义为能够激怒个体或群体的文字内容，其包含方面甚广，涉及仇恨言论、人身攻击、骚扰、嘲讽等。近年来，言论滥用相关的研究越来越得到重视。皮尤研究中心2017 年针对美国网络骚扰的调查报告[1]指出，受调查的美国成年人中有41%曾在网络上经历过骚扰行为；《2018 中国青少年互联网使用与网络安全情况调研报告》[2]也说明了受调查的青少年中有71.11%遭遇过暴力辱骂、77%经历过侮辱嘲笑。

防止攻击性言论的滥用对维护社会和谐有重要意义。有效避免言论滥用的基础是快速自动且准确地识别攻击性言论。本文旨在对目前主流的攻击性言论识别成果进行介绍。识别任务本质是对文本进行分类，分类方法大致能分为两种：一类是基于传统机器学习的方法，该方法首先需要对文本进行特征的挖掘，然后使用合适的机器学习算法对特征进行分类。第二类是基于深度学习的方法，该方法需要将文本转换为对应的向量，将其作为输入参与到深度学习模型的训练，训练好的模型则可以对文本进行分类。

1 文本特征

使用基于传统机器学习的方法进行文本分类时，输入的特征数据会对算法结果产生影响，所以为算法找到正确的特征是重点也是难点。对不同任务，适用的特征可能不同，也可能需要多种特征混合使用以达到更优的效果。

（1）词典

使用字典/词典是文本挖掘中最简单的方法。此类方法需要构建尽量完备的任务相关词典，然后对目标文本进行关键词匹配并计数，匹配结果可直接作为特征，计数结果可用于计算程度得分。在攻击性言论检测中，使用到的词典一般会包括：脏话、含有冒犯意味的代词、俗语、常出现的网络词等。Elisa Bassignana 等人[3]创建了多语言仇恨词汇词典HurtLex，其中不仅包含相关词汇，还带有词汇特性。经过人工评估过滤后留下精准信息，机器翻译为53 种语言，根据人工结果分为广义和狭义两个版本，可作为多语言的言论滥用检测工具。词典方法只负责为文本匹配提供基础，将句子看做词汇或短语的集合，不考虑上下文关系。

（2）N-Grams

N-Grams 是文本检测任务中最常用的技术，同样也是攻击性言论识别任务中常使用的特征之一。最常见的N-Grams 方法是将句子中N 个连续单词分为一组，然后枚举所有组合并计算其出现次数。N-Grams相对于词典，一定程度上考虑了上下文词汇间的关系。在攻击性言论检测任务中，字符N-Grams 比单词N-Grams 表现更好[4]，这是由于用户可能在发表攻击性言论时为了避免词典的搜索，对敏感词汇进行了有意的错误拼写。N-Grams 的难点在于N 值的选择，N 值过大会影响文本处理速度，N 值过小则可能忽略掉关系信息直至退化为词典方法。N-Grams 通常与其他特征结合时表现更优。Cynthia Van Hee 等人[5]在社交媒体网络欺凌检测任务中使用了N-Grams 方法，通过验证，当单独使用特征时，表现最好的是单词N-Grams 方法，在英文数据中F1 得分为0.60。但是结合了其他特征之后整体效果提高了4 个百分点。

（3）情感特征

文本情感分析是自然语言处理中一个不同于攻击性言论识别的任务，但情感特征在攻击性言论识别中是有意义的。一般而言，攻击性言论在情感极性上更有可能是消极负面的。当然，并非所有极性为负的言论都是攻击性的，所以情感特征需要和其他特征结合在一起使用。在文本情感分析任务中，可以使用基于情感词典的方法，还可以使用基于机器学习的方法。Hajime Watanabe 等人[6]在Twitter 仇恨言论检测任务中使用了基于情感词典的方法提取出的情感特征，从每条推文中提取正负词汇数目、正负俚语数目、正负表情符号数目、正负标签数目，然后计算得分值用于判断极性。

列举了攻击性言论识别任务中常用的三种特征，识别任务中还有更多的特征：可用于故意错误拼写检测的距离度量特征、能提高语境重要性的词性特征、主题分类特征、模式特征等。

2 基于机器学习的方法

基于传统机器学习的方法在攻击性言论识别任务中的应用十分广泛。此类方法通常会先提取文本特征，相应特征的选择基于特定的任务内容，然后再使用机器学习算法作为分类器进行学习，不同的算法对特征的适应性不一，最后的效果也会有些许差别。当然，基于传统机器学习的算法不仅可以用于检测分类任务，还可以用于特征提取任务，但在攻击性言论的特征提取任务中可能会因为数据稀疏而导致特征提取难度较大，所以主流使用传统机器学习的方法都是先提取特征，然后再使用分类器进行分类。

2.1 相关技术

基于传统机器学习的方法在分类器的选择上提供了多种可能。一般研究都是以实验结果为标准，然后再确定最合适的分类器。在攻击性言论识别任务中常用的分类器有逻辑回归、支持向量机、随机森林、朴素贝叶斯等。

（1）逻辑回归（Logistic Regression）

逻辑回归又称对数几率回归，常用于二分类问题，以估计目标属于某一个类别的可能性。逻辑回归因其简单、可并行的特点而被广泛使用。逻辑回归首先假设数据服从某个分布，然后使用极大似然法进行估计。逻辑回归可以简单理解为以线性回归模型为基础的，使用了Sigmoid 函数以引入非线性因素的分类模型，其目标是为了尽量好地拟合非线性决策边界。决策边界可以标识出分类边界，结合决策函数就能得出目标样本的类别。

（2）支持向量机（SVM）

支持向量机也是一种线性分类器，是使用监督学习方式进行二分类的广义线性分类器。其目标是找到具有最大间隔的划分超平面即决策边界。SVM 在图像、文本分类领域应用广泛。实际问题可分为线性可分与线性不可分两种情况：线性可分即样本特征空间中存在能使两个类别分开且与之间隔最大的划分超平面，在这种情况下，SVM 需要通过监督学习找出这个超平面。线性不可分即样本特征空间中存在的是超曲面，此时一般思路是将样本从原始空间通过核函数映射到一个更高维的特征空间中，使得样本在高维特征空间内线性可分，以此将问题转化，常用的核函数包括了高斯核函数、Sigmoid 核函数等。

（3）随机森林（Random Forest）

随机森林是包含了多个决策树的机器学习算法，其分类结果由单个决策树输出类别的众数决定。决策树是基于树结构的，决策树的叶节点对应于决策树的决策结果，通常需要经过一系列判断才能得到。决策树的学习目标是找出准确分类边界的同时树的泛化能力能保持较强。在构建树的过程中会不断剪枝优化以防止出现过拟合现象降低模型的泛化能力。同时，决策树的分类边界有轴平行的特点，结合特殊的树形结构也使得结果相较于其他算法拥有较好的可解释性。随机森林在决策树的基础上，数据和待选特征都是随机选取的。在攻击性言论识别任务中，通常数据比较稀疏且类别不平衡，使用随机森林可以在一定程度上平衡误差。

2.2 国内外研究

Thomas Davidson 等人[7]在研究仇恨言论自动识别的研究中，从Twitter 上获取了随机推文并分为仇恨、冒犯和中性三类。他们使用了多种N 值的N-Grams 特征以及语法特征，分类器使用了逻辑回归、朴素贝叶斯、决策树和线性SVM。实验结果表明逻辑回归和线性SVM 的效果显著优于其他算法。

Shervin Malmasi 等人[8]同样在仇恨言论检测的研究中使用了Twitter 数据。并且使用了基于字符的和基于词汇的不同N 值的N-Grams 特征，然后直接使用线性SVM 作为多分类任务的分类器。通过实验结果，发现使用4 个字符为一组的N-Grams 作为特征能得到最高的精确度，但是与基线模型还有一定差距，说明这些特征并不能很好地表示样本。

Despoina Chatzakou 等人[9]在对Twitter 进行网络欺凌检测时使用了多种特征，基于用户的、基于文本的以及基于社交网络的特征。分类器在比较多种树算法之后选择了由10 棵决策树组成的随机森林。实验在数据集上的结果精准度较高，也说明了结合多种类型的特征之后能提高分类的效果。

George W.Kennedy III 等人[10]在网络骚扰的研究中使用了字符N-Grams、单词N-Grams、情感极性等特征，然后以实验效果最好的随机森林作为分类器对特征进行学习。学习了从Twitter 和Reddit 上获取的评论，分类F1 得分达到了0.90 的优秀效果。

3 基于深度学习的方法

近年来，深度学习在自然语言处理中应用范围逐渐增加。深度学习可以通过简单的表示来构建复杂的表示，旨在学习样本数据的规律和表示。简单而言，深度学习可以自行学习样本的特征，并进一步分析。尽管深度学习从属于机器学习的范畴，但相比传统机器学习算法，深度学习拥有较复杂的网络结构，能结合简单特征形成复杂表示。在文本挖掘任务中使用深度学习，首先需要将文本处理为合适的词向量作为输入，然后构建网络结构用于训练。在攻击性言论识别任务中，使用深度学习方法通常效果会比传统机器学习方法更好，但词向量的优劣会对训练结果产生影响。

3.1 相关技术

在自然语言处理领域，词向量的训练可以作为一个单独的任务，其成果也为下游任务提供了基础。深度学习可以理解为表示学习，起源于对神经网络的研究，通过增加隐层的数目使网络结构更深，将低层的特征表示转化为高层的特征表示以完成更为复杂的任务。

（1）词嵌入

词嵌入是语言模型与表征学习的统称，目的是将文本中的词语映射为向量空间中的向量。简单而言，就是把文本形式转化为数字向量形式。最基本的词嵌入方法为One-Hot 编码，即独热编码。独热编码根据文本词汇数目转化为0/1 向量形式，只有对应词的位置为1，其余位置为0。独热编码在表示词向量时不考虑词之间的相关性，而Word2Vec 方法[11]则会查看词的上下文并以数字向量形式表示出来。Word2Vec 是目前较主流的词向量表示方法，分为连续词袋模型（CBOW）和Skip-gram 模型，CBOW 模型从上下文单词预测目标单词，Skip-gram 模型从目标单词预测上下文单词。近年，预训练模型的成果显著，Glove 全局向量表示[12]、BERT 多语言预训练模型[13]等模型的分享，使词嵌入技术进入新的高度。

（2）深度神经网络

在文本分类任务中，最常见的基础深度神经模型有卷积神经网络模型（CNN）以及循环神经网络模型（RNN）。卷积神经网络由输入层、隐含层、输出层构成，其深度体现在隐含层的多层结构中。隐含层主要包含对数据进行特征提取的卷积层、对信息进行过滤的池化层、对特征进行非线性组合的全连接层。卷积神经网络在进行文本建模时，通过卷积层的卷积核滑动窗口对文本向量做卷积操作，用以提取文本局部的特征。通常文本词汇之间是有上下文序列关系的，此时需要有序列信息处理能力的深度网络，以此递归式的循环神经网络产生，其序列关系处理能力体现为每一刻的输入都包含了上一刻隐层的输出。最常见的循环神经网络是长短期记忆网络（LSTM），比基本的RNN多出了遗忘的功能，只有算法认可的部分能被记忆，否则信息不重要被遗忘。

（3）注意力机制

注意力机制是对人类注意力行为的仿生模拟。当阅读时，人类对词汇注意力的分布是不均匀的，注意力机制的目标就是从任务中找到关键信息并赋予更高的权重。简单来讲，注意力机制就是强化关键信息，弱化无关信息。注意力机制通常会根据具体的任务调整关注方向和加权模型。Ashish Vaswani 等人[14]将注意力定义为将查询和一组键值对映射到输出的方法。注意力机制有时空之分，也可以根据作用范围分为全局权值计算和局部权值计算两种。

3.2 国内外研究

Pinkesh Badjatiya 等人[15]在Twitter 仇恨言论检测中使用了CNN 和LSTM 的方法，实验表明深度学习效果在任务中的表现显著优于传统机器学习，并且单独使用网络时CNN 的效果比LSTM 效果更优，但结合梯度提升决策树后LSTM 的效果明显优于CNN。

Ji Ho Park 等人[16]在言论滥用检测任务中，考虑到Twitter 言论的特殊性，需要同时获取词汇级别和字符级别上的特征，所以使用了结合字符CNN 和单词CNN的混合CNN 模型，同时提取不同级别的特征。从实验结果可以看出结合之后的模型比单独的模型效果更优秀。但针对不同标签的数据，在数据平衡性不一的情况下，可能适用的算法不同。

Shiwei Zhang 等人[17]在嘲讽识别任务中，使用了从情感分析任务中迁移的结合注意力机制的双向长短期记忆网络。利用了在情感分析训练中学习到的隐式情绪特征，提高了模型检测嘲讽言论中不协调性的能力。实验也说明了相较于单一的神经网络方法，结合相关特征之后效果会很好，同时通过迁移学习效果可能会更好。

Pushkar Mishra 等人[18]在言论滥用检测任务中使用了图卷积网络，本质上是加入了更多的相关信息如用户个人信息、用户社交信息等，而非单一的言论文本内容。将特征作为图节点输入到图卷积网络中进行学习，结合逻辑回归和图卷积网络之后得到的结果令人惊喜。通过图卷积网络，模型能够直接捕捉用户的语言行为和群体结构特征。

4 结语

本文对攻击性言论识别任务进行了研究。介绍了文本识别任务中可能使用到的典型文本特征，并归类了两种常用方法：基于传统机器学习的方法和基于深度学习的方法。攻击性言论识别任务在近年来得到了很多关注，也有相关的比赛和研讨会。攻击性言论检测可以应用于网络平台的言论滥用对抗，也可以用在风格迁移任务中。相信在未来，相关研究的热度将持续。