基于文本挖掘技术的智慧政务舆情分析研究
2021-01-01方博平郭佳怡陆欣怡王梦怡宋涛
方博平 郭佳怡 陆欣怡 王梦怡 宋涛
摘要:对智慧政务平台的群众舆情建立了文本聚类模型进行信息挖掘与分析。基于FastText原理利用Python语言进行数据预处理并实现文本数据的分类。使用TF-IDF算法将文本信息转换为权重向量并提取文本关键词,结合K-means聚类算法建立文本聚类模型,实现对群众舆情中高频热点问题的挖掘和排序。最后,对政府反馈意见以信息量、可解释性、相关性3个评价指标进行权重计算,构建了广义线性回归模型的评价指标体系。每一步骤均给出了相应实例分析及计算结果。
关键词:智慧政务;FastText;TF-IDF算法;K-means聚类;广义线性回归模型
在互联网的快速发展和渗透下,网络问政平台为收集海量群众舆情文本数据提供了方便。但如何快速处理大量留言文本数据并进行有效处理成为亟待解决的问题。
本文利用收集自互联网公开来源的群众问政留言记录,及相关部门对部分群众留言的答复意见,采用FastText原理对留言詳情信息进行分类,用TF-IDF算法计算权重,提取文本关键词,结合K-means算法提取热点话题,计算余弦相似度筛选高质量答复建议,构建答复意见质量评价指标体系的广义线性回归模型。
1预处理工作
数据来源为互联网公开渠道。基于Python语言,预处理选择中文分词模块jieba对群众留言进行分词,采用精确模式用于去除文本标注的无效信息,为后续进一步处理作准备。
建立停用词字典,选择了CSDN网站的停用词表,其中包含1893个停用词。在分词以后去停用词。最终对留言文本分词后去停用词的部分结果如图1所示:
使用n-gram算法进行特征提取,将文本内容按照字节顺序进行大小为N的滑动窗口操作,最终形成长度为N的字节片段序列。经多次测试后,得出2-gram最适用。
2分类模型构建和热点问题的挖掘
2.1群众留言文本分类
通常情况下,在得到文本向量进行分类处理时常选择余弦相似度计算。但由于群众舆情文本的词汇一文本矩阵是一个不易计算的大矩阵,因此不选择余弦相似度的方法,而是借助Softmax函数来实现,同时也实现了语义空间的降维。
Softmax函数能将一个含任意实数的K维向量“压缩”到另一个K维实向量中,使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1。该函数多于多分类问题中。计算Softmax函数耗时较长,因此可用分层Softmax来加速,即根据类别的频率构造霍夫曼树来代替标准Softmax,通过分层Softmax可以将复杂度从N降低到logN。
由于想要模型训练速度快且不需要预训练好的词向量,故选择FastText文本分类算法。FastText的结构为:输入—隐层—h-softmax。原理是将输入层中的词和词组构成特征向量,再将特征向量通过线性变换映射到隐藏层,隐藏层通过求解最大似然函数,然后根据每个类别的权重和模型参数构建霍夫曼树,将霍夫曼树作为输出。
2.2热点问题挖掘
2.2.1留言信息特征提取
热点问题的挖掘是群众舆情政务处理的重点,需要政府相关部门高度重视。在对群众留言详情信息分词后,可以通过将这些词语转换为向量供文本挖掘使用。通常采用TF-IDF算法将词语信息转换为权重向量。TF-IDF算法的具体流程分为三步:
第一步,计算词频,即TF权重(Term Frequency)。词频(TF)是某个词在文本中出现的次数。考虑文本有长短之分,为了便于不同文本的比较,需要对“词频”进行标准化。
第二步,计算IDF权重,即逆文档频率(inverse Document Frequency),建立一个语料库模拟语言的使用环境。IDF越大,此特征性在文本中的分布越集中,则该分词在区分该文本内容属性能力越强。
第三步,计算TF-IDF值(Term Frequency Document Frequency),公式为:
TF-IDF=词频(TF)×逆文档频率(IDF)
实际分析得出TF-IDF值与一个词在留言信息表中文本出现的次数成正比,某个词文本的重要性越高,TF-IDF值越大。计算文本中每个词的TF-IDF值并进行排序,次数最多的即为要提取的留言信息表中文本的关键词。
对群众舆情信息生成TF-IDF向量的具体步骤如下,得到的结果如图2所示。
(1)使用TF-IDF算法,找出每个留言描述的前5个关键词;
(2)对每个留言描述提取的5个关键词,合并成一个集合,计算每个留言描述对于这个集合中词的词频,如果没有则记为0;
(3)生成各个留言描述的TF-IDF权重向量。
2.2.2话题表示模型构建
K-means聚类算法是无监督的机器学习方法,将数据集划分为不同的类簇。将每个簇看成是一个话题,运用K-means聚类方法采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,把得到紧凑且独立的簇作为最终目标。其中,k个聚类具有以下特点:各聚类本身尽可能紧凑,而各聚类之间尽可能分开。一般选取欧氏距离作为相似性和距离判断准则,计算该类内每个点到聚类中心的距离平方和,聚类目标是使各类总的距离平方和最小,根据最小二乘法和拉格朗日原理,聚类中心应该取为各类别数据点的平均值。
为保证聚类模型的效果,应选择合适的中心点。现采用以下方法来确定K-means中心点:首先选择彼此距离尽可能远的那些点作为中心点,采用层次进行初步聚类输出k个簇,以簇的中心点作为K-means的中心点的输入。然后多次随机选择中心点训练K-means,选择效果最好的聚类效果。
2.2.3文本聚类话题提取
根据聚类得到的话题类别,结合留言文本数据的内容,现提取得到排名前五的热点话题及其相关内容如下:
3答复意见质量评价指标与模型构建
3.1文本指标提取
根据留言的内容,从反馈的问题意见中提取特征。对于答复意见文本信息中提取的主要特征指标有相关性、可解释性、信息量等。对于以上特征指标可以通过以下不同的方式获得:
3.1.1相关性指标
相关性是指答复意见与留言主题的相关性。答复意见通常使用向量的形式来表达,因此可以通过计算文档之间的距离来计算文档相似度。利用余弦相似度计算方法来计算留言主题与相关工作部门的答复意见之间的相似度。
当余弦值接近1,夹角趋于0度时,说明两个向量越相似。当余弦值接近于0,夹角区域90度时,表明两个向量越不相似,以此来判断相似度。答复意见与留言主题相关度越高,则该答复建议对主题的价值越大,其质量越高。可以选取一个阈值,进而筛选出每个主题相关度大于该阈值的评论作为该主题下质量较高的答复建议。
3.1.2可解释性指标
可解释性是指政府部门答复意见的可读性。答复意见的可读性可以用自动化可读性指数ARI(Automated Readability Index)来表示。ARI的计算公式为:
API=4.71·(总字符数/总字数)+0.5·(总字数/总句数)-21.43
3.1.3信息量指标
信息量是指从内容上确保答复意见质量,以答复意见长度衡量(词/字数统计),即答复意见内容的长度。通常认为,答复意见内容越多所包含有效信息越多,参考价值越大,在一定程度上会增加民众对部门工作能力的信服力。现使用分数表示文本信息量,少于10个字为0.1分。11至20个字为0.2分,以此类推,大于90及以上为1分。
3.2答复意见质量评价指标体系和模型
使用不同的指标权重构建工作部门答复意见质量评价模型,将会得到不同的结果。因此,基于上述评价指标,使用基于主成分分析权值的方法计算模型中各个评价指标的权重后再构建评价指标体系。具体做法如下,首先,将相关工作部门答复意见中数据对应的各个评价指标的数据进行标准化,以降低各个不同评价指标中的差异度。其次,对各个评价指标进行主成分分析以及权值的计算。最后,對评价指标进行主成分分析。对信息量、可解释性、相关性这三个主成分评价指标进行权重计算后再使用广义线性回归算法建立模型,对答复意见的质量进行预测。
引入四个符号:答复意见质量(Q),相关性(Relevancy),可解释性(Credibility),信息量(Words)后建立广义线性回归模型Q=(φ·Words+φ·Relevancy+φ·Credibility+ε作为答复意见质量评价指标体系。
基于主成分分析权值的方法计算得出的信息量、相关性和可解释性这三个评价指标的权重分别用φ、φ、φ表示,其中,ε表示常数项。
最终,经过模型训练得到的答复意见质量评价指标体系的广义线性回归模型计算公式为:
Q=0.28Words+0.26Relevancy+0.28Credibility+0.01
4结论
对“智慧政务”中的文本数据即群众的留言数、热点问题以及相关政府部门的答复数据建立了文本聚类模型进行数据挖掘与分析。分析过程包括数据预处理、数据筛选与特征提取处理、聚类分析、构建评价指标与建模等。每一分析步骤均给出了实例分析和对应结果,在文本数据分析过程中需注意如下事项:
(1)对获得的留言数据利用基于FastText原理的Python程序进行处理,可实现对留言数据的分类,降低模型训练时间,提升可建模度,增加模型的准确性。
(2)利用K-means文本聚类算法,可以更好地将留言加入对应的话题簇,从而对热点问题进行更好的分类和筛选。
(3)在构建答复意见质量评价指标与模型中,通过提取的指标特征构建广义线性回归模型对相关部门的答复意见质量进行分析。为平衡模型,需对文本模型的目标值进行标准化,使对答复意见质量的评价更为准确。
*通讯作者:宋涛,博士,讲师,研究方向:交通行为和交通流建模与分析。