基于ABSA方法的移动政务用户情感分析*
2022-03-06商容轩米加宁
商容轩 张 斌 米加宁
(1.哈尔滨工业大学经济与管理学院 黑龙江哈尔滨 150001)
(2.湖南农业大学公共管理与法学学院 湖南长沙 410000)
随着第四次工业革命进程的深化,移动智能技术与地方政府治理正进行深度融合。在新冠肺炎疫情爆发后,“非接触”的疫情防控原则推动政府公共服务供给模式加速走向“缺场”。随着移动互联网应用渗透率的提升,截至2020年12月,中国在线政务服务用户规模已达8.43亿[1],在线政务服务供给模式也逐渐从“网上办”转向“指尖办”。移动政务APP以其移动性、伴随性、渗透性、公开性等优势迅速成为各地方政府深化政务公开、提升地方数字治理水平的重要载体。
当前,在中央“放管服”改革与移动智能技术的双重驱动作用下,我国移动政务APP普遍开通了在线评论功能,公众作为地方政府移动政务产品的用户可以通过对政务APP评级或留言的方式对应用质量进行评价与意见反馈[2]。政务APP在线评论数据每天以指数级趋势增长,形成了潜在的口碑传播效应[3],同时由于移动政务产品的特殊性,移动政务产品在线评论的情感倾向性会对用户线上政务满意度与政府公信力产生重要影响。当前,随着各地方政府政务APP的上线与普及,下载量、用户量、线上业务办理量等相关客观数据逐渐成为考核各地线上政务能力的重要指标。部分地区基于上级压力下的基层数字治理出现“唯数字”的倾向,其政务APP的功能也随之产生了异化,“线上”比“线下”更麻烦的报道层出不穷,本应是便民利民的移动应用却反向成为了约束公众的“异己力量”,有部分学者称政务APP的普及成为“指尖上的形式主义的泛化”[4]。因此,对移动政务用户进行细粒度情感分析以提升群众满意度、认可度尤为重要。如何利用移动政务用户的情感分析结果实现公众需求的精准性满足,帮助地方政府把握移动政务发展的痛点并提升政府移动公共服务的供给质量与效率,不仅是学术界需要深入探究的热点问题,也是地方政府作为公共服务供给主体亟须解决的现实问题。
1 相关研究
1.1 ABSA方法
情感分析(Sentiment Analysis,SA)是通过对于评论、问题、事件、案例、新闻等文本信息的研究而挖掘出隐藏在文本中的情绪、观点的一种研究方法[5]。ABSA是情感分析中的属性级情感分析任务,该方法由两大任务构成——方面抽取与情感分析。ABSA的目标是通过提取不同评论实体以及不同属性方面的情感意见,得到方面级别的<方面,情感>的二元组[6],以确定意见的极性、结果的汇总以及多维度的对比(具体实现过程见图1)。
图1 基于方面级评论文本情感分析(ABSA)框架图
ABSA方法相较于传统的情感分析任务具有一定的优势,近年来已经成为自然语言处理领域研究的热点之一[7]。总体来看,ABSA方法有以下显著特征:
首先,ABSA方法包含方面抽取与情感极性分析两大任务目标[8]。在方面抽取任务中,既要完成对评论实体的抽取(Aspect Term Extraction,ATE),又要完成对于方面类别的抽取(Aspect Category Extraction,ACE)。评论实体(Aspect Term,AT)是评论文本中的显示词汇,是文本中的固有实体;而方面类别(Aspect Category,AC)经过预定义的评论描述角度,可以是文本中的实体词汇,也可以是文本中待挖掘的隐式主题。
其次,ABSA方法可以实现细粒度的情感分析任务。在SA中,根据细粒度的不同,可分为三个级别[9]:一是文档级的情感分析,用于分析整篇文档的情感倾向。但往往一篇评论型文档的情感态度并不是单一的,该方法对于进行辩证分析的文本内容是没办法进行细致挖掘的;二是语句级的情感分析,用于分析评论数据可以判断以语句为单位的情感走向,是目前大多数文本分析研究中运用的方法。但此方法存在着认为一条语句仅存在着一种情感的假设前提,但在现实情况中一条评论语句可能是对多方面问题的评述,甚至对不同方面会存在完全不同的转折情感态度。同时,由于词袋中相同情感词汇在不同领域所表达的情感极性也存在截然不同的可能性,因此在应用于跨领域的迁移学习时,其分析结果的准确性十分有限;三是方面级的情感分析即ABSA,该方法通过其两阶段的任务目标,实现了对文本数据的细粒度挖掘,弥补了粗粒度文本分析的局限。
在移动政务问题背景下,移动政务用户作为政务APP的实际体验者和功能的使用者,使用过程中会对移动政务系统或服务产生具有差异倾向性的情感。通过对政务APP的用户评论与反馈进行情感分析与方面级情感匹配,可以探究我国政务用户对于政务APP基于方面级的属性需求与情感满足情况。考虑到移动政务的用户评论均为较短的文本数据,并且每条评论数据往往包含对政务APP多方面的评价,因此综合考量ABSA会是一个较为适合的分析方法。它一方面能够通过主题模型进行方面抽取,实现细粒度的情感差异分析;另一方面也能通过多角度的情感强度测量,得到可验证的普遍性结论,进而关照本文的研究旨趣。另外,该方法已在商品评价、酒店评论、购物类APP等研究领域中得到使用和验证,因此方法选择上具备较成熟的适用性。
1.2 移动政务用户研究
目前对于移动政务的研究主要基于以下几种视角:(1)技术采纳视角认为用户对于移动政务的采纳在本质上属于信息系统采纳行为,基于此理论研究者提出了技术接受模型(TAM)[10]、技术接受与利用整合理论(UTAUT)[11]与创新扩散理论(IDT)[12];(2)用户需要视角认为,移动政务的使用应旨在满足用户需求[13],要想完善移动政务服务机制,就要强调公众需求的重要性,将公众需求与移动政务建设有机地联系在一起[14];(3)公众信任视角认为信任因素是影响公众的移动政务使用意愿的重要因素[15],从类别上可以细分为政府信任与技术信任[16],从时间上可以细分为初始信任与持续信任[17];(4)用户满意视角将提升用户满意度作为信息系统成功的目标,D&M模型认为系统质量、信息质量与服务质量共同影响着用户的满意程度[18-19],使用行为的满意度又会影响用户后续的媒介接触行为[20-22];(5)用户持续使用视角基于综合理论模型,对用户对政务系统的持续使用与不持续使用行为进行了多角度的实证研究[23-25]。总体而言,现有研究已从多主体的角度,通过实证研究或者案例研究的方式,探究了多种因素在移动政务用户使用满意度方面的影响,并据此对政府改进移动政务工作提出优化建议。“如何提升移动政务服务质量和水平”已然成为学者关注的焦点与研究落脚点。
随着移动政务研究方法的多元化,对用户评论数据进行情感分析的研究方法,因其对用户评论情感趋势的独特甄别与对用户痛点的精准挖掘,也逐渐受到电子政务研究学者的青睐。冯小东等通过文本挖掘的方式发现公众对于政务信息的情感倾向程度会显著影响政务信息的传播效果[26]。刘桂琴采用LDA主题模型对政府数据开放网站数据进行训练,并对不同主题类型的评论情感差异进行探讨[27]。刘晓娟和王晨琳将政务微博评论数据作为研究对象,基于SnowNLP模型计算社会情绪以求分析舆情演化趋势[28]。纪雪梅等构建情感词典对政务微博公众评论情感进行计算并进行多因素方差分析,以探究政务回应对公众情绪的影响机制[29]。但目前运用情感分析方法深度挖掘多用于商品评论,而将其运用于移动政务评论领域的文章数量整体较少。同时,在情感分析方法的选择中,运用传统情感分类方法如情感词典的文章较多,但传统情感分类方法主要依赖于情感词典的构建和判断规则质量,而两者都需要耗费很多人力(包括人工设计和先验知识),规则的质量实质上就决定了情感分类质量。因此,结合以上背景与文献梳理,本文尝试探究的问题为:运用方面级情感分析方法对移动政务用户评论进行细粒度的情感挖掘,实现移动政务用户的情感倾向性测度与分析。
2 数据采集与分析
本文构建的基于ABSA方法的移动政务用户情感倾向性评估基本流程具体步骤包括:(1)获取用户在线评论文本,并对评论文本进行预处理,其中预处理包括设置停用词、设定关键词、分词、词性标注、转词向量等标准化工作;(2)将进行预处理后的评论文本输入LDA主题模型,以实现关键评论实体的抽取与方面类别的抽取任务;(3)将评论文本直接输入BERT模型完成ABSA方法中情感倾向性判定的任务;(4)测量评论实体级别的情感距离,进而根据评论实体所属方面的中心相关度计算方面级情感倾向性;(5)结合移动政务用户期待模型中划分的方面层级,根据次级方面的情感倾向性强度测量一级方面的情感倾向指数,从而实现对地方政府政务APP的多维细粒度评估测量。
2.1 数据采集与预处理
本文以APPStore上的政务APP为研究对象,筛选出截至2021年5月23日在APPStore上线期间评论量超过1000条的18个便民服务类政务APP,具体包括:浙里办、江苏政务服务、天府通办、皖事通、云上贵州多彩宝、闽政通、辽事通、随申办、北京通、i深圳、郑好办、智慧南京、智慧青岛、e福州、鄂汇办、办事通—一部手机办事通、我的宁夏、椰城市民云。其中以省级政务APP为主,为满足深度学习模型训练需求,爬取部分市级APP评论数据进行训练集的补充,共采集数据42125条评论信息,并采集各APP的用户在线评论进行量化分析(数据采集格式示例见表1)。
表1 评论数据采集格式示例
数据采集后对评论数据进行预处理工作,合并评论标题与评论内容,将其作为主要的文本研究数据。通过设置停用词、进行去重等方式,过滤掉无效评论,对评论文本进行标准化清洗处理,清洗后的文本数据作为待使用数据,共35744条评论信息。在数据清洗完成后,对采集的APP用户在线评论语料进行jieba分词操作,对特征提取的输入语料进行初始化操作,以完成对输入数据的预处理工作。
2.2 在线评论方面级情感分析
方面级情感分析可以拆解为两项任务目标:子任务一的目标是实现方面提取,而子任务二的目标是实现情感分析。本文选取两项子任务互相独立的方式进行实验,其中两项子任务可同时进行,互不干扰。最终<方面,情感>二元组由子任务目标的规则匹配进行生成。
本文运用LDA主题模型完成方面级情感分析子任务一——方面提取。LDA模型结构包括三层:文档、主题和词语,可以进行文本降维及主题聚类[30]。通过LDA主题模型的训练可以获得“主题—词”概率分布为p(wi|k|zk),wi|k是通过LDA主题模型抽取出的评论实体,代表了第k个主题下的第i个词。评论文本语料经过分词处理后的其集合为D,LDA主题模型抽取出的评论实体所组成的集合为W,存在集合W∪D,对于元素中的集合存在wi|k∈D。p(wi|k|zk)在本质上是LDA模型所抽取的评论实体与其所属方面主题的中心相关度。
本文选择运用BERT模型完成方面级情感分析子任务二——情感分析。BERT是Google在2018年公开推出的一个基于深度双向编码器预训练的语言理解模型,已在评论实体识别、文本分类等多个NLP任务实验中取得比以前方法模型更高的精度[31]。情感分析任务的目的是给定评论实体,根据文本特征以及上下文内容,按照分类目的给评论实体加上情感倾向标签并且得到具体评论实体的情感分布概率(积极、中性、消极)以实现倾向性情感判定。本文将数据采集中的移动政务评分直接作为BERT输入所需的情感分类标签,其中1、5分别定义为消极与积极情感,其余评分定义为中性情感。尝试运用BERT、LSTM、CNN、SVM以及KNN完成评论文本情感分类任务,并对比了多模型的精确度、召回率与F1值,实验中训练集、验证集、测试集的划分比例为6:2:2(多模型文本分类结果见表2)。
表2 多模型实验参数对比
由表2可以看出,BERT网络对移动政务评论文本识别F1值达到0.92以上,并且运用BERT模型实现ABSA中的情感分类任务是有效的能够获得较高的精确度与召回率。
通过BERT模型所训练出的评论实体级别积极文本分布概率为p(pos|wi),代表了全部评论文本中第i个评论实体的积极情感倾向指数;消极文本分布概率为p(neg|wi),代表了全部评论文本中第i个评论实体的消极情感倾向指数。θ为标准化系数,通过对于同一主题方面类别的评论实体与主题的情感级别求加权平均值,可以分别得到该主题方面级别的积极情感指数(Aspectpos|zk)与消极情感指数(Aspectneg|zk),分别在式(1)与式(2)中定义:
本文借鉴了Kohavi和Wolpert提出的K-W差异模型[32],通过分析方面级别积极与消极情感的情感距离[33]可以得到评论文本方面级情感倾向指数(Aspect-levelzk),在式(3)中定义:
需要注意的是,本文对于方面属性定义了两个级别,分别是:一级方面和次级方面。因此,在本文的方面级情感倾向指数测算中,当topic作为一级方面时,k∈[1,4];而当topic作为次级方面时,k∈[1,10]。当方面级的情感倾向指数小于0时,证明该方面属性的用户消极情感相对较为强烈,公众期待的满足程度较低;反之,证明该方面属性的用户积极情感相对较为强烈,公众期待的满足程度较高。同时,经过多方面级别间的横向对比,可以发现公众期待的满足程度较低的方面级因素,从而挖掘出当前移动政务工作的用户痛点。
3 研究讨论与结果验证
3.1 移动政务用户需求的方面分析
通过LDA主题模型的训练,可以得到形式为<方面,评论实体>的二元组合,通过LDA主题模型的评论文本进行挖掘,得出结果(见表3),方面类别按照“文章—主题”相关度降序排列。用户对于移动政务的期待与需求主要围绕使用自愿性、系统稳定性、服务响应性、功能协同性、系统适配性、内容趣味性、内容丰富性、界面交互性、系统流畅性、功能实用性这十个主题方面类别展开。
表3 LDA主题模型评论文本挖掘结果
本文结合期望确认理论与信息系统成功模型,对LDA模型实现的评论词聚类进行评论目标识别与特征归类,认为使用动机、服务质量、系统质量与信息质量是当前中国公众对于移动政务的主要期待维度,并依此构建移动政务用户需求模型(见图2)。
图2 移动政务用户需求模型
整体来看,移动政务用户需求模型为双层模型,本文将LDA主题模型训练得到的主题方面属性设定为次级方面,而将根据理论总结与主题归类的四个维度属性(使用动机、服务质量、系统质量、信息质量)设定为一级方面。
具体来看,公众对于使用动机的期待包括内在因素与外在因素,内在动机主要指使用目标的实现,而外在动机主要体现为社会接纳。对于公众而言,如“健康码”等业务的普及成为公众出行生活的常态化需求。从政府的角度来看,移动政务应用的下载量与使用量成为了衡量地区移动政务发展水平和网络可见度[34]的重要指标,于是有部分地区强迫基层公职单位与所属事业单位部门人员进行下载与推广。而在LDA主题模型的文本挖掘的结果中,使用自愿性这一主题的文档相关度最高,因此可以发现中国公众对于使用自愿性的期待是十分强烈的。
公众对于服务质量的期待主要体现为服务响应性与服务可靠性,当前中国公众对于移动政务的可靠性期待基于对政府的信任,但当科技公司成为移动政务发展的重要中介时,对技术以及科技公司的信任也会逐渐影响公众对于可靠性期待的满足。公众对于服务响应性的期待既包括对于用户个性化需求反馈的期待,又包括部分便民业务办理的即时性需求即对于响应速度的期待。
中国公众对于移动政务系统质量这一维度的期待属性相对丰富,具体包括稳定性期待、流畅性期待、适配性期待以及易用性期待。系统的稳定性与流畅性可以提供给用户愉悦的使用感受,产生心流体验从而提升用户的持续使用能力。系统的适配性期待主要指向系统的运行与维护状况,由于移动终端设备的多样,统一的界面与程序就不可能满足公众的多样化需求。系统的易用性期待旨在提升用户完成目标任务的能力以及使用实际产品的能力。从本质上是提升公众使用移动政务应用的能力,超过他们使用相应非数字化产品的能力,以弱化实体政务大厅的可替代性,展现具有泛在化特征的移动政务优势。
中国公众在信息质量这一层面上,期待咨询获取信息内容的丰富性、完整性与趣味性。同时,中国公众强调共享性体验即信息功能的协同性需求,公众期待在政务应用内部或同一地区多政务应用间的个人数据是联通的,不需要用户进行反复地填写与验证。公众期待存在于数字空间的移动政务可以完全脱离物理空间的现实世界而存在,避免多次现实的交互,以增强政务应用使用的沉浸感与持续性。最后,与一般性的移动应用相似,公众对信息质量也同样存在着功能效用性的期待,移动政务应用使用行为的产生与持续需要有效触发的连续呈现,并且用户的动机和能力要高于临界值才能激活触发并做出行为。为了在移动政务应用设计中有效地利用触发,需要优化界面设计、精简流程,在操作流程中适当的情境和位置为继续行动提供行为号召。
3.2 基于方面级别的用户情感分析
本文对于评论文本数据通过BERT情感分析模型进行情感3分类,测算出通过LDA抽取出的关键实体的积极情感分布概率与消极情感分布概率。并结合主题-词汇相关度为情感分布概率赋值,测度出不同次级方面的Aspect-level。通过对于主题情感强度正负的判断与情感倾向性指数可以了解当前移动政务在不同方面级别的情感满足程度(其情感满足程度见表4)。
表4 政务APP方面级情感倾向强度指数表
根据政务APP方面级情感倾向强度指数表可以发现,在使用动机、服务质量、系统质量、信息质量四个公众关注的方面之中,仅有服务质量的Aspectlevel为正值,可见当前中国公众对移动政务发展在服务质量方面的需要被满足程度较高。同时,在一级方面层次进行横向对比,可以发现中国公众对移动政务服务质量总体上情感满足程度相对较高,究其原因,一是电子证照的推广重塑了行政审批的流程与形态;二是“放管服”改革缩减了审批环节、压缩了审批时间,缩减了公众办理业务的时间成本;三是对于用户评论的问题以及建议反馈的及时性,汇聚民智,吸纳民意有助于改善移动政务服务质量。
系统质量和信息质量两个一级方面的消极情感倾向较为强烈,情感满足程度较低。在信息质量方面,功能协同性和内容的丰富性是公众产生消极情绪的主要因素。从具体的功能以及业务上看,登录功能、身份认证功能、健康码功能是从评论文本中挖掘到的公众使用热点功能,但以上几项功能却在推广过程中普遍的存在问题。究其原因:一是数据孤岛的存在,数据共享问题仍广泛的影响着民众的使用感受;二是功能的流程设计仍然较为机械化,重复填写数据与表单的问题仍然存在;三是功能与服务器的联动性需要加强,许多公众在评论中反馈到“无法接收验证码”的问题,短信验证码的延迟原因可能包括网络延迟或服务器的通信延迟,要求政府部门在移动政务的建设中既要在技术层面关注服务器的运营与维护,又要在功能设计中注意流程与通讯技术的适配环节。
在公众较为关注的四个一级方面之中,系统质量的Aspect-level最低,消极情感倾向强度最为强烈。但细化来看,该方面整体的消极情绪主要受系统流畅性的影响,其他三因素:系统稳定性、系统适配性与界面易用性情感影响较小,甚至其中系统适配性会产生正向情绪影响。在现有关于移动政务发展的研究中,尤其是结合信息系统领域的研究,学者多数在对策建议方面指出需要提升系统的整体质量。从本研究结果来看,虽然系统质量的确是移动政务亟需改进的方面,但其成为移动政务发展的痛点的主观原因是源于公众在使用过程中的使用感受不佳:出现“闪退”“卡顿”“延迟”“加载”的现象,系统的流畅性不足严重削弱了公众使用政务APP的满足感,加剧了用户的负面情绪。
对次级方面的情感倾向强度进行横向对比(见图3)。首先,公众对于政务APP的系统流畅性整体期待较高,但需求满足程度却呈现较低的状态,消极情绪在多个主题方面中最为强烈。且在系统流畅性方面,70%评论实体的消极情感倾向超过50%,政府相关的技术部门与所委托的科技公司的工作质量在用户登录、信息加载、程序运行、网络流畅度等实体层次均亟需进行提升;其次,功能的协同性也是当前中国移动政务发展的痛点,尤其是公众高频业务的使用与系统承载力的协调问题;最后,在使用自愿性方面,许多学者都研究了持续使用政务APP的影响因素,但实际上个体的使用意愿在对政务APP的使用感受是存在显著影响的。在APP的下载与使用动机方面,使用者开始使用移动政务本应基于便利的实用性需求,但实际上政务APP被动使用的情况是广泛存在的。部分地区政务APP的评论中可以发现,“摊派下载”的情况十分严重,从LDA主题模型训练出的“主题-词”分布可以看到,在使用自愿性主体方面中,“强制”“下载”“任务”都是被训练得到的关键评论实体,同时“政府”“学校”“医院”这些体制内及其下属单位都是承担摊派下载任务的重要人群,从侧面印证了当前公众在移动政务发展中很关注使用行为的自愿性,强制性的使用要求会增加公众的消极与厌烦情绪,不利于政府移动政务相关工作满意度的提升。
图3 次级方面的情感倾向横向对比
3.3 基于方面级情感测量的政务APP评估
本文利用以上方法计算在线评论的情感强度,将评论集的四维属性即使用动机、服务质量、系统质量以及信息质量作为政务APP在线评论的四维度属性值计算方面级情感强度值,并通过该计算结果对各省级地方政府政务APP进行排序(部分省级政务APP用户口碑情感测量结果见表5)。
表5 政务APP用户口碑情感测量结果
根据等级划分规则和实验测量数据,正面口碑效用排序结果从大到小依次为:浙里办、云上贵州多彩宝、江苏政务服务、天府通办、鄂汇办、皖事通、办事通、闽政通、辽事通。用户情感口碑计算结果较高的政务APP是浙里办、云上贵州多彩宝、江苏政务服务和天府通办等,用户对于这些政务APP的评论在整体评论中呈现积极正面的情感态度。用户情感口碑等级稍低的政务APP是办事通、闽政通和辽事通。
由于政务APP的特殊性导致用户无法自由选择替代性产品,导致用户使用动机的被动性较高,加剧了用户使用政务APP的负面情感倾向。自主选择能力与人的自由需求息息相关,具有内在主动性而进行下载使用的用户因其自由需求得到相对的满足,因此更易对该软件产生积极的情感倾向;反之,在个体被委派以“任务”的形式进行强制性的政务APP的下载与推广时,就会引发个体抵抗与厌烦的消极情绪。因此,从研究结果来看,当前中国公众在对政务APP的使用自愿性上情感满足是缺失的,为提升公众的情感满足程度,政府要实现体制内的“净化”,摒弃“唯数字”的倾向,改进移动政务的宣传方式,通过不断拓宽宣传渠道让公众了解并自愿下载使用政务APP。
同时,通过对在线评论的挖掘可以发现,系统质量是影响政务服务APP公众满意度的最主要因素,虽然在系统质量这一维度中,系统稳定性、系统适配性、界面友好性与系统流畅性都是公众对移动政务建设较为关注的方面维度。但从其实际的情感影响来看,系统流畅性是公众对系统质量所做出的情感反馈具有强度最高的情感影响。系统的流畅性直接影响着政务APP的可用程度,进而影响着政务APP的口碑评价与普及。政府在开发政务APP的过程中,除了要在系统正式上线前要反复测试,确保系统流畅、可用,同时也要在系统正式上线后持续保持关注,实现技术部门或技术公司的定期系统维护工作,避免与手机系统版本不适配的问题发生,对发现的系统问题及时进行版本的更新。
政务APP作为以政府为发布主体的移动应用仍应遵循APP的基本设计逻辑。中国政府相对于企业而言,在收集公众数据方面具有更强的天然优势。那么政府如何更好地去管理数据池,如何在部门间实现数据共享的同时去实现有效的数据治理就成为了“数字空间”政府发展的关键。从本文情感分析的研究结果来看,当前中国公众虽然对于移动政务信息供给的创新性、趣味性、丰富性的情感反馈偏向中性态度,可见信息推送与供给的质量并不是当前中国移动政务发展的重点。但从本文需求分析的研究结果来看,中国公众对移动政务信息推送的精准度、更新的及时性、内容的趣味性等方面是存在一定期待的。因此,在部分移动政务发展较为先进的地区,在改善移动政务痛点的基础上,考虑如何运用人工智能等新兴数字技术提升政务APP信息供给的质量是下一步移动政务发展的重点。
3.4 实验结果验证
为了进一步验证本文所提出的基于ABSA方法测量情感倾向性强度方法的有效性,借鉴李吉等[35]论文的实验结果验证方式,将9个省级政务APP用户评论的情感倾向性强度测量结果与专家评分结果进行对比实验。笔者邀请了12名具有副高以上职称的专家、7名第三方政务评估机构工作人员以及15名高校硕士以上学历的研究生组成专家组进行政务APP使用情感评分。
专家组具有丰富的政务研究与评估经验,因此评分具有较大的可信度以及可靠性。实验过程中,需要专家组成员阅读被随机抽取的政务APP用户评论,并从使用动机、服务质量、系统质量以及信息质量4个维度分别打分,然后对打分结果进行加权平均,并最终汇总成情感倾向性强度得分。将其与本文计算结果进行比较得到政务APP情感倾向性差异度(具体内容见图4)。
图4 省级政务APP情感倾向性测量差异度
从图4结果来看,本文提出的方法与人工方法的差异度值都小于0.4。其中,浙里办、江苏政务服务、天府通办、云上贵州等政务APP情感强度测量差异较小,均低于0.25。辽事通和办事通等政务APP情感强度测量差异度稍大,但总体仍小于0.4。由于很多服务事项在线上办理过程中才能获得最为真实的体验,且专家组成员对于方面主题的内涵认知存在差异,导致专家组评分结果与情感强度计算结果稍有不同,但通过有效性测量可以发现结果分歧度较小。因此,本文运用ABSA方法对移动政务用户评论进行的细粒度情感分析结果具有较高的可信性与有效性。
4 结论与讨论
本文结合系统成功模型与期望确认模型将政务APP情感倾向性测度模型划分为使用动机、服务质量、系统质量以及信息质量4个一级方面,运用LDA模型挖掘了政务APP评论文本的隐式方面并定义为次级方面,通过BERT模型将关键评论实体情感倾向概率映射到评论实体所属方面层级中并测量情感倾向度,实现了用户需求隐式方面的抽取与情感倾向分析的细粒度分析。同时爬取18个政务APP在线评论数据用于模型训练,并选取9个在线评论量较多的省级政务APP进行实例验证。
该研究在进行过程中仍存在一些局限:首先,在系统稳定性方面,根据情感倾向性指数测算结果发现,积极情感与消极情感均较为强烈。其原因,是选取的18个不同地区的政务APP在系统稳定性方面差距较大,两级分化状态较为明显,在今后的研究中可以对多方面的正负情感分歧度进行进一步的横向对比研究;其次,公众关注的多重维度在情感上实际上是相互作用的。那么多种条件方面如何组合发挥作用,可以在后续研究中运用fsQCA的方法,以全国各地方政府APP作为研究对象,运用研究组态思想,以探究提升移动政务工作的组合策略。