APP下载

基于改进TFIDF-Logistic Regression微博暴力文本分类

2022-01-18刘思新田一龙魏韵郦李旭睿

吉林大学学报(信息科学版) 2021年6期
关键词:特征词暴力样本

刘思新, 高 珺, 田一龙, 魏韵郦, 李旭睿, 吴 静

(吉林大学 a. 汽车工程学院; b. 计算机科学与技术学院, 长春 130022)

0 引 言

网络暴力是指符合以下特征的行为: 1) 网民在意见表达中使用侮辱、谩骂与人身攻击等语言暴力; 2)舆论对当事人构成直接或间接伤害; 3)表现为网民的群体性行为, 是多数人对少数人意见的压制[1]。网络暴力事件对当事人影响较大, 轻则使当事人受到精神伤害, 重则导致其抑郁甚至更为严重的后果。网络暴力事件由于施暴者众多, 且多采用匿名发言或别字指代等特征, 造成施暴信息与其他网络信息混合夹杂, 难以通过关键字搜索等方法进行区分。对此, 国外学者提出要建立网络暴力文本的自动化检测方法[2], 分别建立了基于国外大型社交平台的暴力网络言论语料[3-6]。Dadvar等[7]和Kontostathis等[8]分别利用词典和词袋分析模型建立了网络暴力文本检测系统, Kovacevic等[9]和 Hosseinmardi等[10]分别通过机器学习的方法构建出一种自动化检测网络暴力的系统对网络暴力进行分类, 而随着深度学习的广泛应用, 越来越多的学者[11-15]投身于网络暴力文本自动检测的研究。

目前国内对此方向的研究报道较少, 2012年, 钟云[16]报道了用大数据对网络暴行的监测相关研究, 此后, 朱晓旭等[17]基于半监督的脏话文本特征提取方法, 采用SVM(Support Vector Machine)和最大熵分类器建立了脏话文本语料库。黄瑞[18]基于情感词典的方式建立了暴力语言检测系统。强澜[19]基于半监督学习的方法构建了网络暴力文本语料库, 并建立卷积神经网络模型, 取得不错的分类效果。

笔者基于近期社会热点事件, 采集相关微博语料, 在上述研究的基础上, 结合一种改进的TFIDF(Term Frequency-Inverse Document Frequency)文本向量化方法研究了逻辑回归算法在暴力文本分类上的优劣。实验结果表明, 该改进方法较传统方法综合指标提升幅度较大。

1 数据预处理

1.1 数据集构建

采用爬虫技术, 针对近期重点舆论关注和争议事件, 从新浪微博(m.weibo.cn)共爬取34 525条评论, 其中包括生活类、 网红类、 政治类和其他类, 其分布占比如图1所示。

图1 数据集组成

表1列举了数据集部分数据。然后, 对34 525条评论根据网络暴力的定义进行人工筛选标记, 得到正面样本(判断为网络暴力, 并标记为1)共15 800条, 占总数据集45.7%, 负面样本(其他评论, 标记为0)共18 725条, 占总数据集54.3%。

表1 数据集部分数据列举

1.2 数据清洗

1.2.1 分词

为将文本数据向量化, 以得到特征向量, 常见的思路是通过每条评论的组成词中提取某些特征作为向量化标准。因此, 数据处理的第1步是根据词语特征将语句做出分词处理, 例如将“让这种小丑在公众平台上频繁出现不会带坏小孩子吗?”分词后成为: “让 这种 小丑 在 公众 平台 上 频繁 出现 不会 带坏 小孩子 吗 ?”python环境下采用jieba模块即可完成分词工作。

1.2.2 去除停用词

在统计分析提取词语特征过程中, 有一些词语、 符号等在语句中对于语句表达的情感色彩没有任何意义, 被称作停用词。例如“罢了”、 “维持”、 “#”、 “....”、 “@”等, 将停用词从数据集中剔除后, 可得到如图2所示的数据集词云。

图2 去除停用词后的数据集词云

2 特征提取

2.1 传统TFIDF方法

在中文文本中抽取特征词表征文本信息, 并通过规则对其进行形式化表现后, 使用机器对文本进行处理。文本的良好特征应具有4类特性: 可区分性、 可靠性、 独立性及特征词的精简。常用的特征选择方法有文档频率、 信息增益、 互信息和CHI(CHI-Square Test)统计等[20]。词频-逆向文档频率(TFIDF: Term Frequency-Inverse Document Frequency,FTFIDF)是一种基于统计的数学方法, 其通过统计当前样本中每个词的TFIDF值作为特征向量的每个元素, 从而可以判断出一个词语或短语在样本集中的重要程度。传统TFIDF方法计算公式如下

(1)

(2)

FTFIDFi,j=FTFi,j×FIDFi,j

(3)

其中ni,j为某词条ni在样本j中出现次数,FTF为词频,D为样本总数, |{j:ni∈dj}|为包含某词条ni的样本总数,FIDF为逆文档频率。

由上述定义,FTFIDFi,j越大, 则表示某词条ni对样本j越重要。传统TFIDF方法在文本特征提取上应用广泛, 对文本分类任务效果显著。

2.2 改进TFIDF方法

传统TFIDF方法具有如下两点不足之处: 一是未考虑类间集中度问题; 二是未考虑类内分散度问题[21]。考虑某一特征词ni, 若其为稀有特征词且在样本集中均匀分布, 若按照传统TFIDF方法, 其FIDF较大, 此时,FTFIDF较大, 即将某一非关键特征词列为关键特征词。另一方面, 若ni为分类的关键特征词, 且在某一类别中大量出现。但若按照传统TFIDF方法, 其FIDF较小,FTFIDF较小, 即未能充分识别此类特征的关键性。在微博暴力文本分类情景中, 暴力词汇在暴力文本中常常大量出现, 但往往不能精确捕获其关键性, 为此, 提出以下改进方法

(4)

其中wi为权重参数, 定义如下

(5)

其中ε为趋于0的极小正数,ξi为ni在当前类出现频率,ζi为ni在其他类出现的频率。

上述改进方法解决了类间集中度和类内分散度问题, 对暴力样本, 上述模型能在异常值数量较少的情况下依然给予其正确的权重配比。因此其对异常值不敏感, 稳健性优于改进前。

3 逻辑回归模型

3.1 逻辑回归算法简介

逻辑回归算法是一种常用的非线性二分类因变量回归统计模型, 在机器学习领域也得到了广泛应用。该算法通过极大似然估计法估计参数, 具有一致的渐进正态性。逻辑回归算法是在线性回归算法基础上, 加入logit变换以应对非线性情形

(6)

其中P为归为某类的概率,θ1,θ2,…,θn为回归系数,x1,x2,…,xn为影响因子。

通过Sigmoid函数(见图3), 将函数值映射在[0,1]之内, 确定合适阈值(一般取0.5), 即可完成二分类

图3 Sigmoid函数

(7)

上述问题的求解即如下似然函数的最大化

L(θ)=∏[(p(xi))]yi[(1-p(xi))]1-yi

(8)

两边取负对数, 并考虑加入L2正则化, 即可得到如下目标函数

(9)

其中C为正则化系数。

3.2 逻辑回归算法的合理性

由于中文语义的进步性以及在微博特殊环境下中文语义的多样性、 歧义性, 一般难以用理论证明最适合的判断微博暴力文本的方法。此处列出在传统TFIDF输入下, 常见的多种机器学习方法在已建立数据集上的效果, 如表2所示。结果表明逻辑回归算法较朴素贝叶斯模型, 逻辑回归模型, 随机森林模型和KNN(K-Nearest Neighbor)模型算法的AUC(Area Under Curve)和准确率最高, 因此, 采用逻辑回归模型输入改进的TFIDF特征向量。

表2 常见机器学习方法在数据集上效果

4 机器学习模型评价指标

4.1 主要评价指标[22]

精确率, 表示预测为正的样本中预测正确的比率

(10)

召回率, 表示在原先为正的样本中预测正确的比率

(11)

F1分数, 精确率和召回率的调和平均数

(12)

ROC曲线, 即受试者工作特征曲线, 其中特异度为

(13)

AUC指标, 即ROC曲线下方面积, 取值在0.5~1, 越接近1, 模型拟合效果越好。

准确率, 即预测正确的样本占样本总数的比例

(14)

5 实验流程与结果分析

5.1 实验环境

实验基于Windows10操作系统, python3.6.4, 机器学习模块sklearn0.22.1, 科学计算模块scipy1.4.1, 矩阵运算模块numpy1.18.1, 数据处理模块pandas1.0.3等。

5.2 实验流程

实验流程如图4所示, 首先进行数据预处理, 然后构建改进与未改进的TFIDF向量输入逻辑回归模型, 最后比较与评估。

图4 实验流程图

5.3 回归参数确定

考虑到数据集本身正负样本存在不均匀情况, 因此正负样本权重分配不同, 此处按照样本数量进行权重分配, 即正样本权重为0.457, 负样本权重为0.543。

为防止模型出现过拟合现象, 加入L2正则化, 其中C为正则化系数, 利用K折线交叉验证和超参数网格搜索的方式取得最佳。其思想如下: 设定待定的C后, 将训练集样本分为k份, 其中k-1份为学习集, 1份为测试集, 依次循环k次, 每次验证各个待定的参数C下的AUC指标, 最终选择平均AUC最高的C。此处k取20,C取2。

5.4 结果评估与比较

ROC曲线比较结果如图5所示, 综合比较评估结果如表3所示。

表3 综合评估结果比较

图5 ROC曲线

由上述结果可知, 改进的TFIDF向量化方式配合逻辑回归模型, 在暴力文本分类上能取得非常显著的效果, 相比于传统方法, 其精确率提高19.4%, 召回率提高14.1%, F1分数提高16.6%, AUC指标提高14.4%, 准确率提高14.5%。可见, 这种改进方法为暴力文本分类提供了一种新方法, 具有广泛应用意义。

6 结 语

笔者在总结前人暴力文本分类工作的基础上, 弥补了传统机器学习算法在暴力文本分类上的应用, 并提出一种改进的TFIDF-LogisticRegression方法, 结合新浪微博暴力文本, 分别构建出传统和改进两种模型, 并对最终评估指标进行横向对比, 实验表明改进方法较传统方法其各类指标均有明显提升。今后将进一步优化数据集, 尝试将改进模型推广于其他文本分类任务。

猜你喜欢

特征词暴力样本
基于Simhash改进的文本去重算法
反性别暴力
第二章 暴力原则
基于类信息的TF-IDF权重分析与改进①
用样本估计总体复习点拨
一种面向财务文本分类的TF-IDF改进算法
两公婆之间的暴力
规划·样本
随机微分方程的样本Lyapunov二次型估计
暴力和痛苦