APP下载

基于卷积神经网络的群众留言分类

2020-09-03代耀彬朱燕燕黄双华

无线互联科技 2020年12期
关键词:池化层列表卷积

代耀彬,朱燕燕,黄双华

(河海大学,江苏 南京 210098)

网络问政平台是互联网时代下政府为群众提供服务的主要平台,也是政府与群众信息交流的主要方式。目前,大部分电子政务系统仍是依靠人工进行数据整理,不断攀升的文本数据量对相关部门的工作带来了极大的挑战,如何快速对群众的留言进行分类成为当前的热点问题。深度学习在图像分类上有着较好的分类效果,不少学者开始研究深度学习算法在短文本分类上的应用[1]。本文拟通过使用卷积神经网络,实现对于群众留言信息的快速分类。

1 模型架构与诊断结果

本文所设计的基于卷积神经网络群众留言分类模型主要包括3个方面:数据的预处理、建立模型、结果诊断,整个模型架构流程如图1所示。

图1 模型架构流程

1.1 数据预处理

本文实验所用到的数据集来自相关政务网站上的群众留言,数据集主要包括群众的留言信息和工作人员对留言进行的分类。留言主要分为劳动与社会保障、环境保护、商贸旅游、城乡建设、卫生计生、教育文体、交通运输7大类。

首先,采用简易数据增强(Easy Data Augmentation,EDA)技术[2]对文本进行数据增强,减少类别分布不均衡的影响。得到了82 872条留言数据。其次,对增强后的数据集进行分词与停用词处理。最后,通过TF-IDF算法提取留言文本的关键词,形成关键词库。TF和IDF的计算公式如(1—2):

其中,f(t,d)表示词条t在文档中出现d出现的次数,dft表示语料库中包含词条t的文档数量,N表示语料库中全部的文档数量。

通过token词典将关键词列表转换为数字列表。对文本中单词出现的次数做统计并排序,从而将每一条留言的文本分词列表替换成数字列表,截长补短,使得所有记录的关键词序列的长度为50。针对82 872条留言记录,最终得到一个82 872×50的数组,为模型做数据准备。最后,利用分层抽样的方法,抽取70%数据作为训练集,30%作为测试集。

1.2 模型建立

卷积神经网络是一种带有卷积结构的深度神经网络,卷积结构大大减少了深层网络占用的内存量,全值共享有效减少了网络的参数个数,缓解了过拟合问题。本文使用基于Tensorflow的keras深度学习框架,搭建了两层卷积神经网络,提高了神经网络的准确率。卷积层和池化层是卷积神经网络特征提取的核心模块,采用自适应矩估计算法(Adaptive moment estimation,Adam)对网络中的权重参数逐层反向调节[3],使得损失函数值最小,通过不断迭代训练提高神经网络的精度。模型的流程如图2所示。

图2 模型建立流程

(1)embedding层。直接初始化embeddings,基于语料通过训练模型网络来对embeddings进行更新和学习,从而将输入的数字列表转换为词向量。

(2)卷积层。经过embedding层之后,每一条留言记录(留言详情)由高质量特征线性表示,将其输入卷积层,对输入数据进行特征提取。实验过程中,第一层的卷积核大小为3,第二层卷积核的大小为4。采取relu函数作为激励函数不断迭代。

(3)池化层。进行降维操作,降低文本的向量维度,也是一层特征选取和信息过滤,由池化大小、步长和填充控制来确定池化区域,实验过程中,针对两层池化层,取池化大小pol_size=3,步长stride=3,填充控制padding=same。

(4)全连接层。神经网络的最后一层,采用全连接层的方式,第二层K_max池化层处理后的文本特征向量经过矩阵的concat和reshape之后变成一维数组,送入Softmax分类器,计算类别概率,预测输出分类标签。

2 评测标准及实验结果分析

本文采用F-score方法对模型进行评价,根据分类结果建立混淆矩阵(见表1)。针对该模型,计算出各分类的精确率、召回率、F1值如表2所示。

表1 分类结果混淆矩阵

表2 模型分类效果评价

可知,模型的综合预测效果达到了95%以上,而一般传统的机器学习模型的准确率在85%以下,对于数据量大、特征难以提取的文本数据,用深度学习的算法更为合适。用测试集中的数据进行预测,随机选取5个类别,从实验结果可知,原始数据集的标签和预测标签的结果一致。

3 结语

通过对群众留言的研究,本文提出了一种基于卷积神经网络的群众留言分类模型,并利用大量的文本数据进行验证,经验证取得了很好的分类效果。

猜你喜欢

池化层列表卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
卷积神经网络模型研究分析*
学习运用列表法
基于深度学习卷积神经网络的人体行为识别研究
从滤波器理解卷积
基于全卷积神经网络的SAR图像目标分类*
基于傅里叶域卷积表示的目标跟踪算法
列表画树状图各有所长
不含3-圈的1-平面图的列表边染色与列表全染色
一种基于卷积神经网络的性别识别方法