基于BERT模型的“互联网+政务”群众留言文本热点追踪研究*

2022-09-24徐绪堪印家伟王晓娇

情报杂志 2022年9期

关键词：分析

徐绪堪印家伟王晓娇

(1.河海大学商学院南京 211100；2.常州市工业大数据与知识管理重点实验室常州 213022)

0 引言

2015年以来,在“互联网+政务”服务建设的号召下，网络问政平台以其快捷、不受时间和空间限制的优势逐渐受到政府部门的关注和使用。随着新一轮信息技术的发展，“互联网+政务”持续推动了地方政务治理的深入改革[1]。为了提高网上政务治理的效能，需要实时动态监测企业、社会公众等各方组织对政策的反馈并及时进行调整[2]。然而，网络问政平台的留言不断增加，传统人工信息分类和整理的方式无法保证准确和高效，导致政府机关对问政平台的信息利用不够充分。基于此，本文引入多种分类模型，构建了基于BERT模型和Affinity Propagation算法的热点追踪框架，从海量政务文本数据中追踪用户关心的热点问题并分析出目前“服务型政府”转型过程中存在的痛点问题，为“服务型”政府效率提升、精准服务提供科学参考，帮助各级政府部门更好地了解民情、听取民声、体察民意、汇聚民智，实现群众留言信息的深度挖掘与精准化管理。

1 国内外相关研究述评

1.1 “互联网+政务”相关研究

国内外学者对“互联网+政务”相关研究主要集中在治理模式的探索和影响因素的分析。宋锴业通过对政务平台的案例分析，认为频繁的政务质量反馈更容易促进各社会主体主动了解公共事务，表达自身需求，形成新型的政府治理形态[3]。易兰丽等基于政策注意力的视角，以省级“互联网+政务”服务平台的建设历程数据为研究对象，研究了省级政策注意力在响应中央政策信号时的中介传导效应[4]。郑跃平等以全国79个城市的政务热线部门作为研究对象，梳理了地方政府数字化改革中存在的问题，认为目前智能化技术的应用还无法有效支撑数据的精细化治理与政务服务的创新发展[5]。周文泓和向宇等认为“互联网+”背景下政务平台建设中存在制度系统性较差、用户信息管理割裂、缺少用户主体视角等问题，政府部门需进一步优化完善[6]。陈世香等以深圳市南山区政务微信电子平台为研究案例，以需求导向，分析了政务微信平台提升公共文化服务效能的运行模式[7]。张勇进以信息搜索方式和微信社交平台为例，反复观察政策运行的效果，认为政府要把握互联网时代的新特点，从群众需求出发，启动“互联网+政务”服务，提高决策水平[8]。Anthopoulos L G在“互联网+政务”研究中，对其他地区的政府服务模式进行了研究和分析，包括服务对象、服务环境和各个发展阶段的形态特征，提出了“互联网+政务”建设中的新模式[9]。Tooran Alizadeh等学者通过社会化媒体和网络传播，研究澳大利亚政务对公共舆论的理解，以促进公民参加地方政府事务，实现智能化处理[10]。徐绪堪等构建了政务APP评价指标体系，并引入直觉模糊层次分析法，对“浙里办”等5个有代表性的政务APP的服务效能进行了评估[11]。Qian L针对“互联网+政府”服务用户使用率低、公众参与意识不强等问题，分析区块链产业背景下“互联网+政务”公众采纳的影响因素[12]。汤志伟等针对我国31个省级政府的在线服务现状,设计了省级政府政务服务在线办理能力差异的整合性分析框架，探究了省级政府政务服务在线办理能力差异的影响因素[13]。叶鑫和董路安人通过分析电子政务现阶段存在系统运维成本高、政府知识获取能力较弱、跨部门政府合作水平有待提升等问题，基于云计算技术，设计“互联网+政务服务”云平台体系架构[14]。

1.2 文本分类相关研究

文本分类是按照特定的标准利用计算机对文本集进行自动分类标记的过程,众多学者利用深度学习方法对文本进行分类，现有研究集中于基于词向量的文本分类模型、多领域深度学习模型相互融合优化等方面，Mikolov等创新提出了Word2vec模型，该模型采用三层神经网络结构，可以训练出更高质量、更高精确度的词向量[14]。Pennington等人提出GloVe模型，该模型通过共现矩阵分解计算单词向量[15]。但以上的模型仍有不足，Word2vec、GloVe等模型对于一词多义这一难题，没有很好的解决，GoogleAI团队提出使用了双向Transformer结构的BERT模型[16]，该模型采用两种新的词向量计算方法，获得了NLP领域创纪录的成绩。杨阳和刘恩博等针对短文本中词与词语义联系微弱、难以获取主题词的问题，提出了基于标签图和注意力机制的单词共生短文本分类模型(WGA-BERT)[17]。在多领域深度学习模型相互融合方面，杨先凤和赵家和等构建一种融合字注释的文本分类模型，显著提高文本分类模型性能和精确度[18]。范昊和何灏将基于BERT、BILSTM和TEXTCNN三种算法的分类模型进行融合，以提高新闻标题的分类精度[19]。张玉洁和白如江等以图书情报领域的SAO短文本为研究对象，将BERT的SAO分类方式和语义联想相结合，用以解决文本分类时面对的领域知识不足和语义特征缺失等问题，极大提高了文本的分类效果[20]。胡吉明和付文麟等从政策文本的语义和内容特征出发，利用LDA主题模型和改进的TextRank 模型来构建政策文本分类和表示的一体化框架，以期提高文本的分类效果[21]。杨春霞和马文文等提出融合CNN-SAM与GAT的多标签文本分类模型，全面提取文本内容特征并挖掘全局标签之间的关联性[22]。

综上所述， “互联网+政务”具体实施过程中存在技术、管理工作方式、系统配置、政府支持度不够等问题，实时监测各方主体对政策的态度与需求，有效推动了“互联网+政务”的高质量建设。文本分类技术在多个领域已经得到广泛应用，但在“互联网+政务”群众留言文本领域的应用还处于初期的探究阶段，对群众留言管理利用不够充分。基于此，本文通过预训练的神经网络语言模型，深度挖掘“互联网+政务”网络问政平台的留言内容，结合聚类算法和BERT模型，追踪群众的留言热点，动态识别政策实施阶段群众的需求，将深度学习技术赋能于政务治理中。

2 “互联网+政务”群众留言文本挖掘模型构建

“互联网+政务”群众留言主要为城市规划及政策制定提供参考，其表达了群众对于该市政府工作的要求与期待，描述人民基本生存和生活状态。上海市人民政府网站在“互联网+政务”建设方面的工作较为全面，将市委领导信箱、市政府领导信箱、各区、街道 (乡镇)网上领导信箱等人民群众向政府留言的渠道进行融合，将群众留言展示在“办理公开”模块下，并显示出所有部门的留言处理统计数据和对应排名。群众留言的内容包含了来信标题、来信时间、来信内容、回复部门、回复时间及回复内容，该平台收到群众留言超11万条，其中平台选登的已由相关单位进行回复的群众留言高达两万多条，选登留言的发布日期最早为2016年8月26日。平台数据展示较为全面简洁，易于数据采集和文本挖掘。

2.1 方法选择为推动服务型政府建设，实现对“互联网+政务”群众留言的充分利用，利用文本挖掘中的文本分类、文本聚类技术对群众留言进行分析，实现热点追踪。通过对比分析BERT模型、LSTM模型、fastText模型在群众留言文本分类上的效果，利用Affinity Propagation聚类算法对每个分类下的问题进行聚类，最后基于聚类形成的问题进行热度计算得出热点问题进行分析。

2.1.1BERT深度语言模型

近年来，NLP界以预训练深度语言模型(Pre-trained Language Model)为发展方向，在传统神经网络模型的基础上，进一步改善了文本语义表示的效果。预训练深度模型使用基于特征的(feature based)策略和微调(Fine-tuning)策略以完成下游任务，BERT模型是具有微调策略的预训练模型的代表。BERT深度语言模型以Transformer为主要架构，其结构如图1所示。

图1中的E1，E2...EN表示在模型的起始处添加[CLS]，模型的结尾处添加[SEP]标记的中文字符。它们依次经过12或24层双向的Transformer(Trm)编码器，通过计算就可以得到文本字符语境化的向量表示(Contextual Embedding)。Transformer是一个基于自注意力(self-attention)机制的编码-解码器，底层编码器的输入是字符向量、字符向量和句子段向量之和。模型中的每一层由两部分组成：多头自我注意和前馈神经网络。前者使编码器在给出每个字符时注意到其他字符的信息。后者用于增强模型的拟合能力。在模型的每一层进行加和范数运算后，生成一个新的特征向量作为下一层编码器的输入。顶层编码器输出的[CLS]标记的向量T1可以看作是整个句子的语义表示，而顶层编码器输出的向量T2和T3分别是字符E2和E3的上下文向量表示。它们为文本分类、指名实体承认等任务提供了重要支持。此外，为了提高语义表征能力，BERT提出了两个预训练任务：掩蔽语言模型(Masked LM，MLM)和下一句预测(Next Sentence Prediction, NSP)。在当前语言智能领域，以BERT为模型，采用微调迁移学习策略可以在文本分类、文本聚类、命名实体识别(Named Entity Recognition, NER)等具体任务中发挥作用。

图1 BERT深度语言模型基本架构

2.1.2AffinityPropagation聚类方法

进行标注的数据集可以采用文本分类的方式进行分析，在特定分类下，会存在语义缺失问题，给人工标注带来巨大难度[23]，为解决此类问题，本文选择聚类算法对留言文本进行后续处理。

聚类是一种无监督的学习方法，它将一类数据按一定规则划分为若干个子数据，一个子数据称为聚类。2007由Frey等人提出的AP聚类(Affinity Propagation Clustering,AP)不需要预先设定聚类数目[24]，更适用于高维和多维数据。与传统的基于划分的聚类算法相比，该算法大大提高了聚类性能和效率。AP聚类根据N个数据点之间的相似度进行聚类，不用在聚类任务开始前设置具体的聚类数目，因为其将全部数据都视作潜在的聚类中心。AP聚类引入了N*N的相似度矩阵，该矩阵由N个数据点之间的相似度组成，并以对角线上的值S(i,i)作为第i个数据点能否成为聚类中心k的评判依据。AP算法中传递两种类型的信息：一是吸引度(responsibility)r(i,k)，代表从点i传送至k的信息，用以判断k点是否适合作为i点的聚类中心。二是归属度(availability)a(i,k)，代表从k点发送到i的信息，用以判断i点是否适合选择k点作为聚类中心。吸引度和归属度的数值越高，k点作为i点聚类中心的可能性就越大。

2.2 “互联网+政务”群众留言文本挖掘框架设计

“互联网+政务”群众留言文本挖掘利用分类技术对文本初分类，以LSTM模型和FastText模型为基线模型，对比分析BERT模型、LSTM模型、FastText模型在文本分类上的效果(各类的F1值与整体的F-score)。政务文本初分类后，基于语义相似度与BERT命名实体识别的留言热点问题挖掘，首先基于BERT模型，将每条留言的语义向量与命名实体(Named Entity)作为特征表示；第二，利用基于图的Affinity Propagation聚类算法，实现留言的无监督自动聚类，第三，结合同一聚类簇下诸项留言进行热度计算，获取热点问题，最后对于热点问题进行分析并提出相应建议，具体流程步骤如下图2所示。

图2 基于BERT进行群众留言文本热点追踪流程图

3 上海市群众留言文本热点追踪实例应用

3.1 数据采集与预处理

本文主要以上海市群众留言为例进行文本分类及热点追踪，数据主要来源于上海市政府信箱、上海市委信箱、上海信访的“互联网+政务”网络平台，由于本文数据源为静态网页，因此数据采集方案使用了Scrapy框架进行数据的抓取，采集字段包括：标题、时间、文本内容。共采集近三年“互联网+政务”群众留言29 074条。对采集的数据进行预处理，结合标题和发表时间，删除重复数据，经处理后保留11 122条群众留言数据。

在输入的文本方面，考虑到BERT模型允许单一文本的最长长度为512个字符，Sun[25]等人的相关实验表明，长文本截取前512个字符，可以在BERT模型中取得理想的分类效果，本文拼接了每一条留言的标题文本与详情文本，截取前512个字符作为模型的输入，以提高分类效果表现。

3.2 算法评价依据

混淆矩阵(confusion matrix)是评价算法效率的标准格式，用n行n列的矩阵形式来表示。本文以二分类为标准，其中TP(True Positive)表示将正类预测为正类数，真实为0，预测也为0；FN(False Negative)表示将正类预测为负类数，真实为0，预测为1；FP(False Positive)表示将负类预测为正类数，真实为1，预测为0；TN(True Negative)表示将负类预测为负类数，真实为1，预测为1 。本文采用的算法评价指标计算方式如下：

精准率(Precision, PPV, Positive Predictive Value)又叫查准率，表示在所有被预测为正的样本中实际为正的样本的概率。

(1)

召回率(Recall，Sensitivity，TPR，True Positive Rate)又叫查全率，表示在真实值是 Positive的所有结果中，模型预测对的比重。

(2)

F1-值(F1-score)综合了Precision与Recall的产出的结果。F1-Score的取值范围从0到1的，1和0分别代表模型的输出最好和最差。

(3)

准确率(accuracy)是指于给定的测试数据集，分类器正确分类的样本数与总样本数之比，即损失函数是0-1损失时测试数据集上的准确率。

3.3 “互联网+政务”群众留言文本分类

清洗后的数据集中包含11 122条群众留言，分为住房规划、消费权益、部门不作为、医疗卫生、教育培训、环境保护、交通出行7个类别。每条留言均包含留言主题、留言详情字段。将数据集打乱顺序后，按照8∶1∶1的比例，分别划分为训练集、验证集和测试集[25]。包括BERT在内的所有模型，均在相同的训练集、验证集上进行训练、调整超参数，并在相同的测试集上进行测试。

在超参数设置方面，参考Sun[26]等人在BERT上的文本分类经验设置超参数：学习率lr=2e-5，衰变因子ξ=0.95。此外，训练遵循早停(early stopping)原则，当模型的损失在验证集上不再下降，就视为模型在验证集上已经收敛，可以停止训练，避免过拟合(Overfitting)问题。

在文本分类任务中，BERT模型提取顶层的[CLS]的768维的特征向量v为整个文本的特征表示，然后连接一个768*n的全连接层W(n为文本类别数)，最后通过softmax函数进行归一化，输出一个文本分别属于各个类别c的概率：

P(c∣v)=softmax (W·v)

(4)

其中softmax函数：

(5)

模型会在训练过程中调整全连接层W以及BERT12层模型的参数，使得每个文本的正确类别所对应的概率最大化。

图3 BERT模型在验证集上的损失变化图

如图3所示，当BERT模型在训练第3轮(epoch)时，在验证集上的损失开始上升。

图5 BERT模型在验证集上的accuracy随训练轮数的变化情况

图4关于BERT模型在验证集上的正确率变化情况也表明，在第2轮训练时，分类的正确率较前一次明显提升约0.76%；但第3轮训练的accuracy提升已不明显。因此，综合模型在验证集上的损失与正确率，根据早停原则，第2轮训练结束后的BERT分类模型已经收敛，可以作为最终模型。

3.3.1BERT模型分类效果及与其他模型的对比分析

最终收敛的BERT模型在测试集上测试的结果如表1所示。

为证明BERT模型在留言分类任务上的良好能力，将基于字向量的LSTM(Long Short-Term Memory)和基于fastText的2个文本分类模型作为基线模型，比较BERT与基线模型的效果。

表1 BERT模型在测试集上的各类分类效果

本文使用的LSTM模型为加入了dropout机制的通用改良版本。LSTM和FastText模型超参数设置情况如表2所示。

表2 LSTM与FastText模型的超参数设置情况

图5 三个模型在测试集各类上的 F1值对比图

三个模型在测试集上的F1值，如图5所示，在7类留言文本中，BERT在6类上的分类F1值均取得了最佳效果。仅在住房规划这一类上，FastText的分类效果略优于BERT。

衡量各模型综合分类能力的F-score分数如表3所示：

表3 各分类模型的 F-score

可以看出，基于BERT的留言文本分类算法取得了最佳效果，其F-score高出 LSTM模型约12.7%，也高出广泛应用的文本分类模型FastText约2.48%。BERT深度语言模型高达91.62%的F-score证明了它在群众留言文本分类任务上的优越性与实用性。

3.3.2文本分类结果

采集到的“互联网+政务”群众留言文本数据在预处理后，对比分析 BERT、LSTM、fastText算法的分类效果，最终使用了BERT模型的输出结果作为本文的分类结果，分类结果如图6所示。

图6 分类结果统计图

由图可知，群众在政府平台反馈最多的是住房规划类问题，约占所有问题的28.7%，其次是医疗卫生领域问题，约占所有问题的17.6%，排名第三的为交通出行问题，约占所有问题的12.5%。

3.4 “互联网+政务”群众留言热点问题追踪

本文对11 122条群众留言按类别分组进行无监督聚类，采用一种无须预设聚类数目的Affinity Propagation聚类算法，留言热点问题自动追踪的总体流程如图 7 所示，首先BERT模型增量训练，使之学习到留言的句法语义信息；第二步获取留言的语义向量，利用AP聚类算法初步聚类；最后基于BERT模型，识别留言中的命名实体。设置条件集合R，过滤异常值，在筛除了异常值后，对各个问题聚类簇进行统计，针对清洗后数据中的每一个类别，分别计算其热度指标。

图7 留言热点话题挖掘的总体流程

3.5 结果分析

由群众留言分类结果可知，住房规划、医疗卫生和交通出行类别的留言较多，这三类与人们生活密切相关。通过热度评价计算得出这三类热度前5位的热点问题如表4所示。

表4 热点问题表

住房规划类别中主要可以归纳出三类热点关注问题，分别为居民安全、房屋租赁和房屋质量。房屋租赁问题长期存在，主要牵涉长租公寓服务供应商的“爆雷”问题。该类问题主要由市级房屋管理局及下属行政区住房保障和房屋管理局、规划和土地管理局负责处理答复，以上部门应该保障群众利益不受损害的基础上进行城市基础设施的建设，事中认真落实规划，确保实际施工过程中协调好各方利益，根据群众反应问题，及时对房屋的工程规划做出合理调整。房屋租赁方面，考虑建设保障性住房，向外来务工人员给予一定的政策性帮助，同时协调多方做好房屋租赁市场监管工作，以人为本，合理引导企业参与建设。房屋质量方面，房屋管理局及下属行政区住房保障、房屋规划、土地管理局等应当严格要求商品房开发前的资格审查与报批，严格打击商品房开发过程中的不合规问题，对于交付后的商品房存在的严重质量问题加大惩处力度，提高企业违法成本，以杜绝类似情况再次发生。

医疗卫生类别中防控政策、疫情期间就医、基层医疗管理和医美行业医患纠纷为群众最为关心的四类热点问题。新冠疫情的出现严重影响了居民的正常出行和就医，这也侧面反映出政府应对重大意外事件的能力有待加强，在疫情防控常态化形势下，如果继续保持疫情期间出行管理政策不明晰、就医渠道不通畅，将会影响人民群众的生活质量。除此之外，有大量群众留言集中反馈个人在某医疗美容医院的就医失败经历以及经济纠纷。该类问题涉及方面较广，除了市级的医疗保障局、药品监督管理局以及各级卫生健康委员会负责处理答复外，医院同样负责。明晰疫情防控常态化下的群众出行政策以及疫情期间外乡人、本地人就医管理办法。在医美行业的医患纠纷方面，走访调研造成纠纷的真实原因，加大力调查各大美容机构资质，出台相应政策保障患者权力。在基层医疗管理问题上，应当深入到每一个群众的生活中，对基层医疗从业人员加强管理，出台更为严苛的政策。

交通出行类别中噪音扰民、线路规划和网约车与出租车纠纷为群众关心的热点问题，这些问题的存在严重影响居民生活质量，增加了居民出行成本；不利于出租车、网约车行业的良好发展，造成恶性竞争事件频发。该类问题主要由市级交通运输管理管理处、下属区级交通管理委员会以及当地的地铁营运管理公司负责问题答复。在噪音扰民方面应当将着力点放置在夜间施工及隔音设施的安装中，事前在规划建设的研究中考虑施工过程中以及投入使用后对于群众造成的影响，建设事中过程应当严格执行施工规定，确保在群众休息的时间停止施工，事后过程做好群众走访工作，解民生、听民意，及时加设隔音设施或向群众发放隔音耳罩。在线路规划问题中，应当做好前期调研工作，协调多方利益，为市民乘坐公共交通设施出行提供方便，了解群众心声，将群众的需求融入建设的研究中。在网约车与出租车的纠纷问题上继续加大力度监管，抬升出租车等营运车辆的拒载成本，在网约车资格申请方面做到更加透明简洁，减少群众疑惑。

4 总结

“互联网+政务”中群众的留言反馈对于政府的城市建设、政策规划具有重要作用，准确快速的捕捉到群众反馈的关键问题并高效解决，不仅可以提高政府的管理水平，而且可以更好地为群众服务。本文通过BERT模型，对网络问政平台留言进行分类，将其分为住房规划、消费权益、部门不作为、医疗卫生、教育培训、环境保护、交通出行共7个类别。在热点追踪任务上，基于Affinity Propagation的算法对留言进行聚类，结合话题时长、留言数两类因素，计算出各个问题(话题)的热度值，最后对热点问题进行深入分析并，向政府相关部门提出一定建议，实现问题与部门的精准匹配，辅助政府部门进行高效决策。然而本文仍存在一些不足之处，数据收集方面仅局限于上海地区，数据预处理过程中为了达到最佳的分类效果，对海量消息文本进行了一定程度的裁切和合并，在后续研究中采集带有不同地域标签的群众数据进行关键词分析，减少对原始数据的调整。