APP下载

基于自然语言处理的政务留言文本分类研究

2021-12-24李铭鑫尹凯倩吴岳松郭晨璐李想

电脑知识与技术 2021年29期
关键词:数据挖掘

李铭鑫 尹凯倩 吴岳松 郭晨璐 李想

摘要:现阶段网络问政系统发展趋势较为缓慢,政府部门迫切需要提高管理水平和问题处理效率的方法,面对海量的留言文本,快速准确地处理留言成为目前急于解决的问题。该文通过对比现有的文本分类方式,通过Word2Vec模型对文本进行特征提取,获得初步词向量表示,构建了逻辑回归模型(LR)、朴素贝叶斯(Naïve Bayes)模型、TextCNN、TextRNN等分类模型对留言问题进行对比分类。

关键词:问政留言;数据挖掘;中文文本分类

中图分类号:TP3  文献标识码:A

文章编号:1009-3044(2021)29-0160-02

社情民意调查是采用科学的调查和统计学方法,对一定时期一定范围内的社会公众进行的对社会现实主观反应的调查,具有反映民意、引导舆论、决策参考、检验政策实效等作用。随着互联网的发展,社情民意调查的途径不断增加,微博,微信,市长信箱,阳光热线成为网络问政平台,成为政府了解民意、汇聚民智、凝聚民气的重要渠道。各类社情民意调查文本数量的不断增加,给留言划分以及热点整理工作带来了挑战[1],因此,建立基于自然语言处理技术的“智慧政务”系统,提高政府部门管理水平和处理问题的效率成为政府的普遍需求,本文通过实验对比,找到一种相对合理的政务留言文本分类模型。

1预处理

1.1 Jieba分词和去停用词[2]

由于留言文本存在句子冗杂,主题不明确等问题,文本整体具有较强的干扰性和隐蔽性,导致文本分类识别存在着巨大的挑战。因此对中文文本一般进行分词(如Python语言中的jieba库),对收集到的每一条留言进行预处理工作,并通过预处理完成去停用词等操作。

1.2 Word2Vec

本文采用了自然语言处理的 Word2Vec[3]方法,通过 Word2Vec工具分别对预处理后的留言文本进行词向量训练。

1)Word2Vec 的CBOW模型

Word2Vec 中的CBOW模型的工作原理是通过上下文预测当前中心词。在本文中,设置windows_size为3,向量的维度为200,现在将中心词wi上下文分词的独热编码输入,由于win⁃dows_size为3,故有2个 One-Hot 编码向量输入。设输入层的权值矩阵为Win,v为W 的一行,则有lookup 的过程:

由此可知,将One-Hot编码的向量wi和W相乘,wi中只有一个维度是1,得权值矩阵中wi对应的每一行向量,则该行向量vi就为分词wi对应的词向量。

2)特征提取处理

通过lookup得出每个分词的词向量,因为这些词向量是权值矩阵 W所对应的每一行分向量,所以维数相同。将其累加后求取平均值所得的向量,即该句对应的语义向量为最终的数据输入分类模型。

CBOW模型的训练目标是使训练集中的样本的似然概率最大,需要优化似然函数的值,则有:

即使用梯度下降法,多次迭代求取最优值。

1.3训练数据

实验训练数据使用“问政湖南”网站(https://wz.rednet.cn/#/ home)共计12710条脱敏留言数据。

2构建分类模型

常用的文本分类算法有传统的机器学习算法和深度学习算法等。本文选取机器学习中的逻辑回归算法和朴素贝叶斯分类器,与神经网络算法中的TextCNN和TextRNN做对比,对比其分类功能,选取最优模型对留言内容进行分类。图1是文本训练流程图。

数据集有七个类别,召回率(Recall)、精确度(Precision)、 F1-score 的值对应的是二分类问题中的评价标准,因此,将七分类问题转换为多个二分类问题,其中 F1-score 为首要指标。

2.1逻辑回归分类器

逻辑回归算法是典型的二分类算法[4][6],可用于预测和分类。逻辑回归模型可以看作一个Sigmoid 函数,将输入的向量

映射为概率值,实现预测功能,再调整其阈值进行分类。

一般我们规定:hθ(x)< 0.5时,当前处理的数据属于同一类别;相反的,就属于另一类。根据实验验证,阈值设为0.5。

2.2朴素贝叶斯分类器

朴素贝叶斯分类器[7]是一种简单,且分类快速精确的分类器,朴素贝叶斯分类可以在分类中表现出良好的抗干擾能力,综合准确率较高。

朴素贝叶斯分类器是一种建立在条件独立性前提下的分类器,根据贝叶斯定理和前提,可以得到朴素贝叶斯的以下分类公式:

CNB = argmaxP(Y)∏ =1P(xi|Y)  (3)

朴素贝叶斯的分类过程的关键就是计算条件概率和先验概率,这样就可以进行分类操作。

2.3 TextCNN分类器

TextCNN模型是2014年Yoon Kim针对CNN 的输入层做的一些变形[5],整个模型由四部分组成:输入层、卷积层、池化层、全连接层。卷积操作是CNN 的重要特征之一,卷积层以特征映射为组织的方式,其中的每个单位与前一层的局部感受野连接,利用共享的卷积核(或称过滤器)与局部感受野做卷积运算,这里的卷积核为128,再通过激活函数做非线性运算,得到特征值,给定一个矩阵X ∈ RM × N 和卷积核,一般 m 其卷积如式所示:

卷积操作将矩阵映射为一个3*1的特征矩阵[2,3,4],通过max-pooling 方式池化,从提取的特征矩阵中选取最大值,用 dropout与其他通道的最大值拼接,组合成筛选过的特征向量,再通过softmax层对文本进行7分类。

2.4 TextRNN分类器

TextRNN是直接利用循环神经网络处理文本的词向量序列[5],并通过softmax函数进行分类。对文本进行分类时,我们一般会指定一个固定的输入序列或文本长度:此时对于过长的文本需要进行截断,反之则进行填充。

3实验

对四种模型进行K折交叉验证,分别得到10组召回率(Re⁃ call)、精确度(Precision)、F1-score 的值,对其求平均值有:

(1)在以召回率(Recall)、精确度(Precision)、F1-score为评价指标时,TextCNN较逻辑回归模型F1-score提升了17.2%,较TextRNN的 F1-score 提升了0.1%,性能较为显著提高。基于 Word2Vec 的TextCNN模型相比于LR模型和TextRNN模型更具有优势,分类效果更好。

(2)在基于4种模型训练时,计算出逻辑回归模型训练时长为13分钟,朴素贝叶斯模型训练时长为33分20秒,TextCNN模型训练时长为20分钟,而TextRNN训练时长为1小时27秒。

(3)在交叉验证的过程中,通过分析结果的方差得出,TextCNN的F1值方差较小。

4结语

在针对训练效率、模型F1-score 与交叉验证情况分析后,得出结论:在基于文本内容进行一级标签分类时,优先选择TextCNN模型作为分类器。

参考文献:

[1]陈曦.文本挖掘技术在社情民意调查中的应用[J].中国统计, 2019(6):27-29.

[2]曾小芹.基于Python 的中文结巴分词技术实现[J].信息与电脑(理论版),2019,31(18):38-39,42.

[3] Mikolov T, Chen K, Corrado G, et al. Efficient Estimation of Word Representations in Vector Space[J]. Computer Science, 2013.

[4]许腾腾.基于贝叶斯逻辑回归文本分类模型的改进及其应用[D].兰州:兰州财经大学,2018.

[5]涂文博,袁贞明,俞凯.针对文本分类的神经网络模型[J].计算机系统应用,2019,28(7):145-150.

[6]安波.基于逻辑回归模型的垃圾邮件过滤系统的研究[D].哈爾滨:哈尔滨工程大学,2009.

[7]潘忠英.朴素贝叶斯中文文本分类器的设计与实现[J].电脑编程技巧与维护,2021(2):37-39,70.

【通联编辑:代影】

猜你喜欢

数据挖掘
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
数据挖掘技术综述与应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议