APP下载

面向武汉市网络问政的文本挖掘研究

2021-06-04王灿梁霄

科技视界 2021年12期
关键词:问政分词分类器

王灿 梁霄

(湖北文理学院数学与统计学院,湖北 襄阳441053)

1 问题分析与挖掘目标

近年来,随着互联网技术的发展和盛行,大数据时代已悄然而至,群众参与政府工作的途径也越来越多,于是群众留言信息成为网络问政的产物。互联网的普及加快了网络问政的出现,它是信息技术快速发展和群众积极性不断提高的产物,它不但解决了群众问政的时空障碍,而且可以让群众可以随时了解政治动态并直接与政府沟通。

与此同时,网络问政也成了学者的聚焦点。李传君、李怀阳学者[1]通过分析政府回应网络问政存在的问题,提出了构建良性的政府回应机制的相关建议;孟天广、赵娟[2]讨论了关于了网络问政回应制度在我国的扩散发展态势、制度管理体系设计、应用以及其运行管理模式,考察了政府在不同的管理制度模式下的网络问政回应制度管理绩效,为国家进一步建设现代化的具有回应性的政府提供了理论和实践参考。沙勇忠[3]等学者探究政府与群众互动行为对网络问政制度的直接影响,使用文本挖掘技术和机器学习等方法,利用数据探索作为推论——分析统计检验的“数据驱动”研究理论模式,分析和识别并描绘了网络问政问题中社会群众与其他政府以及社会组织的其他网络问政主体互动行为及有关话题的结构,进一步讨论网络问政制度效果的影响因素。

本文通过对武汉市政府网站上的群众留言和回复建立分类模型,有助于提高效率,尽快将留言分派至相应的职能部门。通过对群众留言信息的分析,可以及时发现群众关心的热点问题,有助于有关部门进行针对性地处理,提升政府的服务效率,对政府“智慧政务”的建立具有十分重要的意义。

我们从武汉市政府网站得公开信息中获取数据,主要包括群众留言和政府部门的回复,然后对获取的数据进行分析,实施数据清洗、分词和去停用词等文本预处理操作,并根据分词后的结果画出高频词的词云图。本文主要研究的问题有对群众留言信息进行分类、挖掘热点问题以及对政府有关部门的回复进行评价。

2 数据预处理

本文使用Python中duplicated()方法检查留言详情中的重复对象,在重复的留言中,保留一个即可。中文分词的目的就是将一个连贯的句子按照一定的分词标准将其分成一个个具有独立含义的词[4]。分词的好坏直接影响后期模型的准确率,它是文本挖掘的基础。只有经过分词处理,才能把原始的文本数据进行向量化处理。本文利用Python语言环境中的jieba工具包对文本进行分词处理。在本文中,首先扩展了通用的停用词表,然后又自定义了一些新的停用词,将分词处理过后所得到的词与停用词表进行匹配,若匹配成功,则删除该词,反之保留。

3 问题求解

数据中共包含7类一级标签的9851条数据,在python语言环境中,对这些数据重新按标签排列,标签分别为劳动和社会保障、城乡建设、教育文体、卫生计生、交通运输、商贸旅游、环境保护。使用duplicated()方法检查留言详情中的重复对象,结果显示有909条重复对象,删除重复对象(保留第一个)后,还剩8942条数据。去重后各类标签的文本数量如图1所示。

图1 去重后各类别情况

本文采取了通用停用词表和自定义停用词表对留言详情进行分类。通过词云图来展示对留言详情进行这一系列操作后的效果,让读者一眼便能看出主要内容。以劳动和社会保障类群众留言词云图为例,如图2所示。

图2 劳动和社会保障类群众留言词云图

TF-IDF是一种常见的加权方法,在计量单词个数的基础上,降低常见词的比重,提高稀缺词的比重。本文先将message(留言详情)转换成词频向量,再将词频向量转换成TF-IDF向量,最后开始训练分类器。本文使用了4种不同的机器学习模型,分别为:多项式朴素贝叶斯、线性支持向量机、逻辑回归和随机森林。这四种模型的准确率可视化图如图3所示。从箱体图中可以看出随机森林分类模型的准确率最低,主要是因为随机森林属于集成分类器——由许多子分类器组成,而集成分类器不适合用来处理高维数据,比如文本数据,因为文本数据有许多不同的特征值,使得集成分类器难以应付,另外三个分类器的平均准确率都在50%以上。其中线性支持向量机的准确率最高,故我们选择支持向量机模型作为主要的挖掘方法。

图3 4种机器学习模型的准确率

其中,准确率最高的是线性支持向量机模型,我们查看其混淆矩阵,并将其预测标签和实际标签之间的差异表示出来。混淆矩阵如图4所示。混淆矩阵的主对角线颜色不同,其显示的是预测正确的数量,而除了主对角线外,其他的都是预测错误的数量。从图4的混淆矩阵中可以看出“教育文体”这一列除了对角线数字和为10,说明有10例预测错误,准确率较高;而“交通运输”这一列除了对角线数字和为240,表明有240例预测错误,准确率较低。

图4 线性支持向量机模型混淆矩阵

多分类模型一般使用ROC、F-Score等指标来评价模型,而不使用准确率评价,因为准确率反应的不是每一个分类的准确性,当训练数据每一类的个数相差太大时,准确率就不可以反映出模型的真实预测精度。

从图5中F1分数来看,“劳动和社会保障”和“商贸旅游”类的F1分数最高,达到80%,“交通运输”和“环境保护”F1的分数较低,仅34%,主要原因可能是“交通运输”和“环境保护”这两类的数据较少,使得支持向量机模型学习的不够充分,然后导致失误较多。从该图中还能看出线性支持向量机模型的精度为0.70,召回率为0.70,F1分数值为0.69,整体效果较好。

图5 各个类的F1分数

主题模型(LDA)算法是数据挖掘与文本处理中一个非常实用的方法,通过概率分布的形式给出每篇文档的主题,从文档中提取实用的主题信息。对文字隐藏的主题进行建模,改正了以往信息检索中文档相似度计算方法的缺点。在进行LDA建模时,需要先确定主题数量K的值。主题数量K的值直接影响到最终结果的好坏。对于一个未知的分布,Perplexity(困惑度)越低,则说明模型效果越好。从图6中可以看出,当主题数为12时,困惑度达到最低,故我们可以确定最优主题数为12。

图6 困惑度随主题数量的变化图

根据确定的最优主题数训练LDA模型,将群众反映的多数一致的留言进行分类,然后建立热度评价指标。本文采用了热度排行Reddit算法。

根据预处理后的数据,我们建立群众留言详情的语料库词典,将答复意见通过doc2bow转化为词袋模型,对该模型进行进一步的处理,获得新的语料库,将其通过tfidfmodel处理,得到tfidf。通过计算token2id得到特征数,然后计算稀疏矩阵的相似度,建立索引,最后得到相似度结果。从结果中我们可以看出,政府答复意见和对应留言情况的相似度都大于0(主对角线元素全都大于0),说明政府的答复意见和群众留言详情之间有相关性。从结果中,我们还能看出相似度系数值都不高,究其原因,在实际生活中,答复意见都是根据留言内容而定的,一般来说,这两者之间虽说的是同一个问题,但一个是问,一个是答,两者之间的联系仅仅是主题相同而已,其他内容都是不尽相同的,故就造成了相似度值不高这种现象。

4 总结与建议

本文的主要目的是利用文本挖掘和机器学习技术建立对武汉市网络问政中群众留言的多分类模型,并对模型进行评价。对于群众留言分类,通过对4种机器学习模型的对比分析,本文选择了线性支持向量机分类模型,其F1值达到了0.70,分类效果较好。对于热点问题分析,通过进行LDA建模,首先确定了最优主题数为12,然后根据确定的主题数对留言详情进行划分,通过Reddit算法建立热度评价指标,结果显示噪声扰民和强制学生去定点企业实习是热度指数最高的两个问题。建议相关部门多花费一些精力去解决这些热点问题。对于留言回复的评价,通过计算留言详情和政府答复意见的相似度,发现相似度值都大于0,从而说明了政府的答复意见和群众的留言都是相关的。通过查看词云图和高频词,可以明显看出,答复意见中的前几个高频词中有“回复”“收悉”“调查”等,说明政府对留言详情中所涉及的问题基本都进行了相应的调查并给予了答复,这些高频词表明了政府对所搜集到的留言都进行了答复,并进行了相应的调查去核实,这些高频词反映出政府答复意见的完整性和可解释性都较好。

猜你喜欢

问政分词分类器
分词在英语教学中的妙用
做好人大代表问政需要三个条件
结巴分词在词云中的应用
结巴分词在词云中的应用
BP-GA光照分类器在车道线识别中的应用
网络问政节目应为公众所期盼
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别
论英语不定式和-ing分词的语义传承