APP下载

如何评价移动政务服务质量?
——基于省级政务客户端用户评论的探索性研究

2022-01-05冀翠萍

湖北社会科学 2021年11期
关键词:政务评分用户

冀翠萍,马 亮

(1.山东省委党校 公共管理教研部,山东 济南 250000;2.中国人民大学 公共管理学院,北京 100872)

一、引言

移动政务是电子政务和数字政府的前沿领域,各地正如火如荼地建设实践,形成了政务微博、政务微信、政务小程序和政务客户端(App)等构成的移动政务服务体系,有效解决了政务服务的最后一公里,政务服务效率和质量得到显著提升。[1](p99-111)特别是政务App 作为一种独立运行的移动端应用程序,面向公众和企业办事需求提供多对象、多流程的复杂业务功能,成为政府提供政务服务的主渠道和主阵地。[2](p31-38)因此,对政务App发展绩效进行研究有重要意义。

移动政务是政务服务创新的重要手段,是沟通公众与政府的重要桥梁,是影响公众政府信任和公众满意度的重要载体,如果移动政务服务绩效欠佳,就会显著负向影响用户的使用意愿和体验。[3](p198-207)当前,各政务App绩效表现怎样,又如何去评价和测量发展绩效?现有研究认为技术质量、服务质量、安全性能等是衡量电子政务服务质量与满意度的重要指标,[4](p60-64)提出可通过政务App的系统兼容度、稳定度、便捷度、流畅度等过程化指标进行衡量。[3](p198-207)但是,当前的研究实践较多采用问卷调查、访谈等方式获取数据,问卷和访谈属于小样本研究,样本范围受到抽样条件等限制,并且都是封闭式的、高度结构化的设计,其指向性、主观性较强,调研过程易受到外部因素的干扰,数据的客观真实性难以得到有效保证。尽管有部分研究实践采用了体验团、体验官等形式,[3](p198-207)然而,政务App 要面向海量用户群,他们的手机型号、操作系统、使用环境、网络速度、年龄差异、数字素养等均不一致,仅靠数量较少的体验团、体验官难以完整、准确、全面获得真实评测结果。

政务服务的对象是公众和企业,政务服务绩效的优劣也应该由公众和企业来评价。2019 年国务院政府工作报告提出建立政务服务“好差评”制度,就是要采集和归集公众和企业对各类政务服务的真实评价信息,[5](p51-58)然而在实际推行中却遭遇数据收集困难的尴尬。[6](p14-22)移动互联网的发展创新了收集公众真实意见的方法,比如,用户评论就是评价移动服务质量的重要数据,但是对其开发和利用得还较少。[7](p71-85)政务App 在手机应用商店上架推广,用户可对应用商店中的政务App 发表评论,这些评论数据内容丰富、更新及时、易于获取,并且只有那些留下深刻印象的应用才会促使用户有动力去发表评论,因此这些评论数据能够真实表达用户最为关心的内容。[8](p43-53)

当前,31 个省、直辖市和自治区以及新疆生产建设兵团均推出了基于App的移动政务服务,积累了大量用户评论数据。这些数据是从用户体验出发对政务App 服务效能的检视,可以测量政务App服务质量,可以用于完善移动政务的绩效评估。本研究采集各省级政务App的用户评论数据,分析这些数据在不同手机平台上的表现,以此探求将用户评论数据引入政务App绩效评估的可行性。

二、文献回顾

(一)关于政务App绩效测评的研究。

近年来我国政务App 发展迅速,应用数量、服务模式不断增长创新,但却并没有相应提升公众的使用率和参与度,某些时候对政务App服务质量的评价甚至有所下降。[1](p99-111)研究发现,政务App 存在更新维护不及时、运行不顺畅等技术问题,[9](p83-91)这类基础问题的存在,导致用户对政务App 无感,难以形成“用户黏性”,无法发挥出其作为政务服务提供和政民互动渠道的价值和作用,[10](p76-81)这可能与政府较多关注政务App 的建设而忽视后期维护和完善有关。[11](p74-84)政务App建设发展特别需要发挥绩效评价的“指挥棒”作用,引导各级政府部门重视建设和发展中的薄弱环节和关键问题,对症下药地进行整改。[1](p99-111)

学界已经关注到政务App 绩效问题的研究。首先,研究关注到政务App 绩效评价体系的构建。朱春奎等对电子政务研究的梳理总结发现,电子政务服务质量与满意度的评价主要包含信息质量、服务质量、组织表现、技术质量、安全性能、满意度六个方面。[4](p60-64)徐绪堪等构建了政务App 服务效能的评价指标体系,还组建了评估团队,对样本App进行了参与式体验和评价。[3](p198-207)其次,研究关注到要从用户感知出发评估政务App 发展绩效。Hung 指出,移动政务带有强制性使用色彩,感知有用性和感知易用性可以显著影响用户的满意度。[12](p33-44)王法硕等研究发现系统质量是显著影响政务App用户满意度的重要因素,政务App系统能否正常访问、运行是否稳定、设计与功能是否合理直接决定了用户的使用意愿。[13](p65-74)最后,学界和业界积极探索政务App 绩效评估的实践。复旦大学数字与移动治理实验室构建“掌上好办”指标体系,从可得性、有用性、易用性、满意度、安全度五个方面,对省级移动政务App 发展情况进行评测,同时关注到技术和用户的重要作用,设立“技术性体验”和“用户体验评价”指标并占有一定权重。[14]

综上所述,研究已经关注到政务App服务质量的重要性,以及用户感知的重要作用。但是,已有研究多是从政务服务供给侧出发,站在政务App的外部对可获得的功能模块进行评测,考察政务App有什么,比如有哪些信息、服务、渠道和方式。[7](p71-85)但是,政务App 服务的对象是公众和企业,公众和企业自有对政务服务的主观感知和评测,也就是用户的使用效果,这是从需求侧出发对政务App服务质量的真实评价,如果用户侧评价指标缺失将导致评估的完整性和全面性受到挑战。既有研究发现,公众与政府的“合供”可以很好地帮助政府提升服务质量,对于电子政务发展具有显著推动作用。[15](p68-89)政务App发展有赖于用户提供的反馈,用户的积极参与对于提升其质量和绩效至关重要。

实际上,大数据时代的到来,为政府更好感知公众、与公众互动提供了可能。美国联邦政府实施了一项数字分析计划(DAP),对政府提供的移动政务建立数据跟踪,实时获取政务App 下载量、平台商店用户评论等,并以此作为移动政务绩效评估和服务优化改进的支点。[16](p97-107)公众的政务服务使用行为、使用频率、在线评论等反映了公众的问题、需求、态度和意愿,这些海量数据可以帮助政府发现公共服务中存在的问题,决定如何提供更好的公共服务,[17](p1011–1026)实现“以评促建”“以评促改”,发挥绩效评估的积极作用。

(二)关于用户评论数据的应用研究。

私营部门较早注意到用户评论对商品或服务发展的重要作用,认为用户的体验和使用反馈是商品优化改进的支点,用户的吐槽和意见建议是App迭代更新的重要指南,因此私营部门会将各个渠道的用户评论视为“富矿”。有研究对携程酒店、豆瓣影评、美团等用户评论数据和评论行为进行挖掘,为商家精准营销提供决策依据。[18](p99-104)[19](p99-104)[20](p85-93)

现有研究还关注公共服务中用户评论数据的应用。Herbst 等利用Yelp 中美国40 个城市消费者的评论数据,使用自然语言处理技术分析评论中的情感和心理状态,探讨群体收入、环境安全、环境质量、孩子与老师之间的互动等影响父母选择托育机构的因素。[21](p288-306)张文亮爬取了39所省级公共图书馆在大众点评App上的评分和用户评论,揭示用户评论的倾向性,分析公共图书馆评价要素之间的关系。[22](p51-60)第三方应用市场上的评论数据也开始得到重视和利用。[23](p53-61)范建军以移动知识付费平台“得到”为例,对用户在App Store上的评论和评分进行分析,发现用户最为关注的是内容和功能,也较为接受付费内容的价格。[24](p67-70)张莉曼等以学术知识类App“丁香园”的用户评论为样本,进行主题识别分析和语义关联分析,为App运营者完善平台功能提供借鉴。[25](p155-162)

与私营部门广泛使用用户评论的现状相比,公共部门却少有效仿。仅有网络舆情、网络问政的应用相对充分些,分析网民评论中的情感极性、[26](p37-42)评论主题语义网络,[27](p77-90)帮助政府部门理解网民观点、情感的变化,为舆情处置提供参考。令人欣慰的是,已经有研究者开始关注到政务服务中的用户评论数据。比如,刘桂琴获取武汉市政务公开数据网上的用户评论数据,分析定位用户痛点、用户关注以及政府工作中存在的问题。[28](p18-23)公众的在线评论资源丰富也很有见地,提供了关于公共服务的各方面意见建议,是传统统计调查方法难以代表和覆盖的,基于对在线评论数据的有效挖掘,可以聚合公众意见,将公众反馈有效纳入公共服务的改革范畴。[29](p1011–1026)

三、理论框架

(一)对用户评论信息来源进行再评估。

利用应用商店中各政务App的评分评论数据,可以观测各地区移动政务服务质量。但是,各手机平台面向用户群不同、使用习惯有差异,加上用户生产内容过程中传统意义上的“把关人”缺失,用户评论质量参差不齐,各手机平台上的用户评论是否都值得花力气去挖掘?如果这些数据价值密度低,无法有效反映用户意愿和需求,那就很难为政务App运维者提供有用可信的反馈信息。[30](p55-63)因此,本研究需要去衡量和评价承载用户评论的信息来源(手机平台)质量,最终筛选出较高质量的平台,从而对高质量平台上的用户评论数据进行挖掘分析。

于文轩和马亮建构了一个对第三方评估进行再评估的分析框架,认为可以从独立性、相关性、效度、信度、易懂性、功能性等六个方面对第三方评估进行评估,[31](p144-171)并对中国两个大型公共服务绩效测评项目进行比较。本研究中各手机平台形成的用户评论可看作是对政务App的第三方评估,当前就需要对这些手机平台进行再评估,因此本研究可借鉴其分析框架。

信度和效度是评价绩效的两个重要标准。信度指可靠性,即不同测量者使用不同测量方法测量的结果应该具有很高的一致性。如果测量的信度不高,那就说明测量的结果是不可靠的、不稳定的,被评价对象就会接收到差别较大的“绩效信号”,他们在彷徨犹豫中不知道该选择和相信谁,测量的效用就会大打折扣,甚至会影响被评价对象对于评价主体的印象和态度。效度是评测程序、指标、方法等是否科学,能在多大程度上客观地反映现实,可以通过观测评价原数据是否公开、统计技术是否科学、样本量是否充足等,获得对效度的度量。

(二)信息来源质量评价模型。

基于信度和效度的度量标准,我们构建本研究的评价模型(如图1)。我们认为手机平台上政务App 的用户群越广泛、用户评论越积极、样本量越大、数据内容越丰富、用户评论越客观、用户评论可持续性越好,用户评论信息来源的质量就越高,就越适合用于移动政务服务绩效的评估。

图1 信息来源质量评价模型

渗透性。下载量是评判一个App 运维质量的关键指标,高下载量也是信度与效度的重要保障。消费者在消费过程中会表现出马太效应,用户受到应用程序下载量的影响,通常选择高下载量的应用程序使用。[32](p742-749)因此,App 运营者非常看重App下载量指标,也较多采用市场推广的手段提高下载量。本研究以省份为行政区划的政务App,其用户群有较强的地域性,省份与省份之间、省份与各直辖市之间的人口基数差异较大,因此不能单纯考察用户下载量这一绝对值指标,应该体现出不同人口基数下的下载量差异,用渗透性表征更恰当,渗透性能够有效地测量政务App 在本地用户群中的普及和流行程度。

活跃度。评论数量是用户就某一产品或服务发表的评论数的总量,是用户人数的直接体现,也是产品或服务信息量的间接体现。Duan 等对电影的在线评论研究发现,电影评论的数量和电影票房之间有相互影响关系。[33](p233-242)Chen 等发现评论数量能造成一种积极的观察学习效应,评论数量越多,越促使更多的用户有意愿去知晓和了解该App。[34](p238-254)评论数量显示了用户对该产品或服务的关注程度,可以作为其影响力的重要指标。[35](p162-171)对于政务App来说,评论数量同前述的下载量一样,还要与地区实际相结合,考察政务App的影响力实际就是考察有多少用户积极进行评论,即用户的活跃度。活跃度越高,代表用户越积极发表评论,越能为政务App绩效评测提供数据资源。

客观性。政务App绩效受地区经济发展水平、互联网普及程度、地方数字治理能力等影响,在客观上是不均衡的,《省级政府和重点城市一体化政务服务能力(政务服务“好差评”)调查评估报告(2021)》《2021 年省级移动政务服务能力调查评估报告》均显示当前省级政务发展绩效有“好”“中等”“差”,总体呈现倒U 形的正态分布。Sussman 等认为,信息的客观属性是体现信息质量的重要指标。[36](p47-65)因此,我们预测不同手机平台上的各个省级政务App评价也应该服从正态分布,意味着测量指标能够真实有效地度量出每个样本的绩效。

极端性。对Yelp旅游类产品的研究发现,用户更喜欢极端评价,极端评价能够表达评论者观点的鲜明方向,比中立评价更能影响后续用户的选择。[37](p67-83)对亚马逊网站手机产品的研究发现,极端评价对评论有用性有积极的正向影响。[38](p16-27)我们认为,对政务App使用无感的用户一般不参与评价,而那些对政务App使用感触较深(糟糕或愉快)的用户会参与评价,通过极端评价反映用户态度,极端评价的评论中往往会深入对问题、需求和痛点的描述。因此,极端性的评论有更多的特征点可以给后续用户或者App运营者参考,更能有效地体现评论的价值。

有用性。由于网络的开放性,用户发布在线评论的成本很低,导致部分虚假、无效信息充斥于在线评论,甚至部分评论数量多、噪音大,无益于其他用户的决策和运营者服务的改善,反而增加评论的无序性,降低评论的可信性。因此,评价用户的评论文本是否有用,是否真正表达用户体验,开发运营者能否从评论文本中提炼出优化完善的建议点,这是观测用户评论效度的重要手段,也是测量信息来源质量的重要指标。

可持续性。应用商店在提供服务的同时,负有网络生态治理的平台主体责任,因此应用商店设置删除评论的功能,对产生的攻击性言论、反党反社会言论等进行必要的清理。但是,部分应用商店将这种功能进行市场化运作,受利益等因素的驱动,将删除用户评分评论的权力泛化、扩大化,这就影响评分数、评论内容等数据的抓取和分析,也影响用户对该平台的认可度。因此,将用户评论在平台上的存活情况视为评论利用的可持续性,这是应用商店信度的重要保证,是测量信息来源质量的重要指标。

四、研究方法

(一)数据采集与处理。

随着各地政府加快推进移动政务服务的集约化建设,省级移动政务客户端日益取代市县乡和职能部门单独开发的App,而成为地方移动政务的主入口。因此,我们对省级移动政务服务App进行研究,来考察用户评论数据如何用于“好差评”制度实施。

数据采集面向App Store和Android平台(华为、小米、VIVO、OPPO),获取应用商店中31个省(自治区、直辖市)和新疆生产建设兵团(不含港澳台)开发和运营的移动政务App 中的相关数据,政务App以国家政务服务平台中的地方移动政务和各省份政务服务官网提供的链接为准(如表1),采集App评分、用户评分数、用户评论数据、App下载量、App评分等级分布等数据,数据采集截至2021 年8 月7日。因样本数据类型较多、数据更新频率高,所以在采集期内样本数据会略有波动,但是不影响本文的主要研究发现。七麦数据平台汇聚了移动客户端的各类用户评论数据,为本研究提供了主要数据来源。在本研究中,我们主要关注如下数据。

表1 政务App样本一览表

App评分。App评分是用户群体对该应用的综合定量评价,可以体现用户对App 的认可程度,同时也是应用商店对App 进行推广排名的参考指标。[39](p193-200)App 评分取值1~5 之间,是连续数值型变量。

用户评分数。用户对政务App 的星级评定会计入用户评分数。评分数过少,App 评分就缺乏客观性和精准性。因此,本研究剔除少于20个用户评分数的App评分,用户评分数以次为计量单位。

App下载量。App下载量是用户下载该App的实际次数,用户每下载一次,App 下载量数据增长一个,下载量数据以万次为计量单位。

用户评论数据。用户自主发表的对App 应用的评论。评论数据由中文字符、英文字符、标点符号与表情符号等组成,鉴于直接抓取的用户评论数据噪音较大,本研究需要对用户评论数据进行清洗,剔除广告评论、无效评论、纯表情符号、开发者回复。特别说明的是,iOS 平台提供了开发者与用户的互动渠道,以便开发者对用户提出的问题和建议进行反馈,也就是“开发者回复”,这部分数据不属于用户产生数据,无益于本研究的分析,因此剔除开发者回复评论数据。用户评论数据是非结构化文本数据,对评论数据的采集处理,同时可以获得用户评论数。

评分等级分布。应用商店通常设定1星到5星五个评定等级,用户评分时选择不同星级,应用商店根据各用户评分星级生成App总体评分,通过对各应用商店的数据计量发现,App总体评分值=(5*5 星评分数+4*4 星评分数+3*3 星评分数+2*2 星评分数+1*1星评分数)/当前总评分数,该测量办法既体现了不同星级的权重,也充分考虑星级间的差异性,评分等级分布显示了五个评定等级各自的评分数据。需说明的是,小米应用商店设定“差评”和“好评”两个等级,无法获取本研究的研究特征,因此,我们未采集和分析小米应用商店。

其他数据。本研究涉及的地区人口数据来源于国家统计局网站,以各地区2020 年末常住人口(万人/单位)为来源数据;省级电子政务发展水平数据来源于中央党校(国家行政学院)电子政务中心发布的《省级政府和重点城市一体化政务服务能力(政务服务“好差评”)调查评估报告(2021)》中的省级政府调查评估总体指数。这些数据均为政府统计数据或政府委托的权威调查报告,具有较强的可靠性和稳定性。

(二)测量指标量化。

本研究中用i代表手机平台的编号,用j 代表样本App 的编号,五个手机平台各自都有对样本App的评分,用Si,j表示每个App在一个手机平台上的评分,下载量用Di,j表示,评分数用SDi,j表示,评论数用RDi,j表示,地区人口总数用Totalj表示。

渗透性(Penetration)。手机平台在本地区用户中的普及和占有情况,取值为:政务App 下载量与本地区人口总数的比值,具体数值化是Pi,j=Di,j/Totalj。渗透性越高,代表该平台辐射和覆盖的用户面越大,对用户的影响也就越大。渗透性计量单位为百分比。

活跃度(Activity)。手机平台用户参与政务App 评价的情况,取值为:政务App 评分数与政务App下载量的比值,具体数值化是Ai,j=SDi,j/Di,j,指的是已经下载App的用户群中有多少用户参与App使用的反馈评价。活跃度计量单位为万人。

客观性(Objectivity)。手机平台各政务App 评分分布情况,用评分数据是否服从正态分布来表征,客观性的考察以Shapiro-Wilk检验结果SWi,j为依据,SWi,j>0.05,说明评分数据服从正态分布,否则不服从正态分布。

极端性(Polarization)。政务App评分内部极端评分的占比情况。5 个评定等级中,1 星为极差,5星为极好,统计每个App评分中的1星、5星评分的总数为极端评分数SEi,j,看极端评分数在总体评分数中的占比情况,具体数值化Pi,j=SEi,j/SDi,j。极端性计量单位为百分比。

有用性(Usefulness)。评论文本有多种度量指标,包括评论发表时间、评论字符串长度、评论文本语义特征、评论情感特征等。Mudambi 等尝试过用评论字数来衡量评论质量,结果发现,评论的篇幅越长,涉及商品的介绍便越多,消费者也会获得更多的有用信息,正向影响评论有效性和购买决策。[40](p185-200)还有学者对评论文本长度与评论有用性的关系进行了深入研究,证明评论的文本长度与评论有用性呈显著的正相关关系。[41](p598-612)Huang等学者发现,文本长度对评论有用性的影响有一个临界值(144 词),阈值内为正向影响,超过这一阈值,其影响就会显著减弱或几乎不存在。[42](p17-27)本研究对每个手机平台上的政务App 评论文本进行文本长度的计量,并取均值为Li,j,当Li,j<144 时,Li,j越大说明评论文本的有用性越强。有用性以词为计量单位。

可持续性(Sustainability)。用户评分数不同于评论数,是因为用户在评分时可以选择既评分也评论,也可选择只评分不评论,所以App 的评分数通常意义上要大于或者等于评论数。如果出现评分数小于评论数的情况,通常就是应用商店删除用户评分导致的。因此本研究用评分数与评论数的差值就能显示是否存在删除评分的情况,用差值在评分数中的占比就能显示删除评分的程度,也就是用户评分评论的存活程度,具体数值化是SSi,j=(SDi,j-RDi,j)/SDi,j。可持续性以百分比为计量单位。

五、研究发现

(一)政务App评分的可用性分析。

各手机平台对政务App 的评价情况与官方的评估报告之间是怎样的关系,这是能否将政务App评分纳入政务服务“好差评”的重要因素。要兼顾各个手机平台的评分贡献,得到每个样本App的总评分Scorej,本研究认为下载量是用户需求和认可的表现,在计算总评分时需要充分考虑下载量所占的比重,并将其作为评分值的系数。下载量Di,j与地区总人口数Totalj比值为加权系数Wi,j,样本App在应用商店中的总体评分就可以通过以下公式获得:Scorej=

《省级政府和重点城市一体化政务服务能力(政务服务“好差评”)调查评估报告2021》中关于省级政府调查评估的总体指数是连续数值型变量,将样本评分Scorej与省级政府调查评估的总体指数进行相关性分析,发现两者在1%水平上显著,相关系数为0.708,表现为强相关。也就是说公众对政务App 的总体评价与权威调查报告的趋势基本一致。因此,公众的评价可以用于衡量政务App发展的绩效,对移动政务“好差评”评价有可用性。

(二)信息来源质量的评价分析。

依据前述的信息来源质量评价模型,我们对样本数据进行六个方面的分析。

1.渗透率分析。

样本缺失iOS 版本、Android 版本、小米数据、VIVO数据等,会带来样本个数的变化,因此样本的个案数量不一致。描述性统计分析(如表2)显示,华为平台渗透率均值58.75%,是所有手机平台中最高的;iOS 平台渗透率均值5.79%,是所有手机平台中最低的。

表2 主要变量的描述性统计分析

数据显示有多个地区的渗透率大于100%,这可能有几个方面原因:一是用户存在反复下载的情况。有调查显示,用户人均安装App 数量约40 个。政务App具有低频特点,公众需要办理政务事项的时候下载并使用,使用完毕后为了减轻手机运行负担又进行卸载,直到下一次有需求时再次下载安装。所以,这会造成同一个用户多次下载,而高下载量也从侧面反映了公众的需求以及政务服务能够满足公众需求的能力。二是地区外用户因为跨省办理、跨地区办理等原因,也需要安装本行政区域外的政务App。本研究中的渗透率将本行政区域内的常住人口界定为测量基数,但是随着人口的频繁流动,跨地区跨区域办理需求旺盛,政务App的便捷性可以满足这种需求。跨地区用户也会带来一定的下载量,说明本地区有比较高的移动政务服务能力。三是开发运营者组织的测试、研究者的测试等也会带来一定下载量,导致渗透率的提高。

2.活跃度分析。

前述已说明,当评分数SDi,j<20 时,评分数、评分值两项都将设置为缺失项。实际情况是有多个地区如黑龙江、陕西、青海等地的评分数都是个位数,所以描述性统计里的个案数较低。从各平台的活跃度来看(如表2),iOS 平台的活跃度均值为16.19,也即每万次下载量中有16.19个评分数,明显高于其他四个平台,说明其用户较愿意表达自己的态度和观点。华为平台的活跃度最低,均值为0.09,且标准差较小,也即各政务App在华为平台的用户参与度和活跃度不足。相较于其他三个平台,VIVO 平台的活跃度有一定优势,体现出其用户比较愿意参与政务App的评分评价。

需要说明的是,我们发现华为应用商店存在明显的删除评论现象,每日的评分数据波动较大。对被删除的评论进行数据抓取发现,历史评论数并不低,说明华为平台的用户参与也很积极活跃。至于应用商店删除评论的原因,则有待未来探查。

3.客观性分析。

因样本量小于2000,采用Shapiro-Wilk 检验数据分布的正态性。结果显示(如表2),iOS 平台(p=0.156)、华为平台(p=0.110)、小米平台(p=0.168)评分均服从正态分布,而VIVO 平台和OPPO 平台评分不服从正态分布。从各平台的均值上看,iOS 平台、华为平台、VIVO平台均值相当。

对五组数据进行方差分析发现,仅有小米平台与OPPO平台(p=0.011)在5%的水平上存在显著差异。从描述性分析中可以看到,小米平台的评分均值为3.35 分,显著高于其他平台。OPPO 平台均值则显著低于其他平台。其他平台间不存在显著组间差异。

此外,研究发现“随申办”“爱山东”“粤商通”在小米平台上收获了满分5.0 分的赞誉,但同时三个省份的政务App 在其他平台的评分趋势却不甚相同。尤其是“爱山东”在其他四个平台的评分分别为2.7分、1.9分、2.9分和2.7分,其标准差达1.16,与小米平台的评分显著不同。因此,本研究希望探求小米平台为什么给予满分的评价,是否存在其他因素。

对三个政务App 小米平台上的评论文本做内容分析,将评论文本清洗后输入ROST CM6,通过社会网络分析提取高频词,通过情感分析生成情感极性和得分(如表3)。结果发现,三个政务App 评价内容均跨越了多个版本,“随申办”的372个评论数就跨越了24个版本,评论数相对均衡;但“爱山东”仅2.3.7 版本就有1986 条评论,而且时间段相对集中,出现一定程度的失衡。三个政务App情感得分均为正面积极,高频词多聚焦于“实用”“体验”“功能”等,缺乏对每个政务App特征点的具体描述,评论的丰富性和有用性略显不足。

表3 小米平台满分政务App内容分析

4.极端性分析。

五个平台均存在极端评分情况(如表2),极端占比均高于80%,并且标准差较小,说明各个政务App 在极端评分上的表现趋同;VIVO 平台和OPPO平台的极端评分占比为92%和93%,说明用户在给政务App打分时很少选择中立评分,一般选择极端评分来表达自己的态度。其中,“全省事”在华为、VIVO、OPPO 平台上的评分量不太充足,却全部都给予“极好”和“极差”评分,未见中立评分。用户都希望通过极端评分来表达态度,希望引起App开发运营者的关注和反馈。

5.有用性分析。

五个平台的有用性存在显著区别(如表2),iOS平台文本长度均值为35.28词,高于其他四个平台,最大的文本长度为92.34 词低于阈值144 词。阈值范围内文本长度越长,文本的有用性就越高,说明iOS平台评论的有用性最好。华为平台文本长度适中,标准差较小,说明文本长度分布比较均衡。VI⁃VO平台的评论文本长度最短,仅有15个左右的词,很难表达有特征性的观点和看法,说明其评论的有用性较差。

6.可持续性分析。

五个平台的可持续性存在显著差异(如表2),iOS 平台可持续性最好,仅有一个为负值,其余全为正值,均值为0.51,说明评分数与评论数之间的差距较小,较少存在删除评分情况,标准差为0.3,说明整体比较均匀,iOS 应用商店中用户的评分和评论数据存活性好,可持续利用状态好。华为平台的可持续性最差,仅有一个样本是评分数与评论数持平,其他均是评分数少于评论数,最高的达到-40.81。查看原始数据发现,该政务App 当前仅有26个评分数,但历史数据中有1087个评论数,均值也为负值,这说明华为平台存在普遍的删除评分情况,用户评分评论被大量删除会带来数据的不稳定,也带来信息来源的不可靠。此外,小米平台、OPPO平台也存在不同程度的删除评分情况,而VI⁃VO 平台的情况则要好一些,均值为正值且标准差较小。查看原始数据发现,VIVO 平台仅有一个政务App的存活占比为负值,其他均为正值。

综上所述(如表4),我们认为在这5 个主流平台中,“好差评”制度应主要使用iOS 平台的评分和评论数据,可以参考运用部分Android 平台的评论数据。

六、结论与讨论

(一)结果讨论。

手机应用商店中积累了大量的用户评分评论数据,用户评论大量指向了政务App 运维问题,是移动政务服务供给能力、技术服务能力的重要表现,可以进行数据挖掘分析,用于完善移动政务绩效评估体系。但是,目前这方面的研究还比较稀缺。本研究以5 个主流手机平台上的32 个省级政务App为研究对象,收集和分析不同平台用户的评分评论情况。

首先,研究发现用户评论是衡量政务App服务质量的有益补充。研究发现,只有对政务App使用有比较深刻感悟的用户才参与政务App评价,通过打分来表达自己使用的(不)满意;更进一步,公众是在自主空间内根据自己的切身感受给出的分值,没有外界因素的干扰,打分更具真实性和客观性。用户评论也不是简单的褒奖或发泄,特别是一些看似负面的评论信息,实际是将用户的需求和痛点展现出来。

有研究发现,用户评论强烈的负面消极情绪会降低评论的有效性,而中等程度的负面消极情绪则可以提高评论的有用性。[43](p79-86)部分负面情绪的评论文本包含使用体验、功能需求、错误反馈和优化建议等信息,而部分语气温和的评论则缺少具体的评价特征点,具体的问题和优势指向都不明确。也就是说,适度表达情感极性的用户评论更有助于运营者发现问题。政务服务的开发运营者应该包容这种情绪的存在,积极挖掘和吸纳用户建设性的意见建议。

其次,研究发现用户评论的信息来源质量表现出一定差异(如表4)。本文构建了政务App用户评论信息来源质量评价模型,在渗透性、活跃度、客观性、极端性、有用性和可持续性六个维度进行了数据比较分析。结果显示,iOS 平台的活跃性表现极好,在客观性、极端性、有用性、可持续性上表现最好,但是其渗透性还比较低,用户群的覆盖面还不足。这表明iOS 平台上的评分评论数据有用、管用且易用,但是iOS平台的用户群代表性略显不足。

表4 各平台在政务App评论可靠性维度的表现

华为平台在渗透性、客观性、极端性上表现较好,在有用性上表现适中,但是华为平台的活跃性与可持续性不足(与应用商店删除评分评论有关)。这表明其评分评论数据客观、有用,需要达到一定规模才能发挥作用。但是,其对评分评论的管控机制又限制了其长效发展。

小米平台的总体评分偏高,因其只有“好评”和“差评”的打分机制使得其客观性减弱,也使得最低分和最高分并存。总体来看,小米平台在渗透性、可持续性方面表现还不足,活跃性、客观性、有用性表现中规中矩。

VIVO和OPPO平台在极端性方面表现突出,表明用户群希望通过极端表达引发关注。但是,二者在渗透性、活跃性、客观性、有用性等方面表现较差,说明评分和评论数据很难说明真实问题。最后,VIVO平台相较于OPPO平台在可持续性方面表现较好。

我们认为,不同手机平台的表现可能与用户群有关。Bertrand 的研究发现,iPhone 是最常见的财富象征,“拥有一部iPhone”给了研究者68.1%的概率可以正确地推断其拥有者属于“高收入”群体。[44]然而,国内第三方数据服务平台Mob Data 发布的《2018 年第三季度中国智能手机市场调研报告》显示,一部分iPhone用户的月收入低于3000元;华为手机的用户群收入较高,以中老年用户为主;小米手机用户群主要是中产阶层和年轻群体,OP⁃PO和VIVO的用户画像偏重更为年轻群体。[45]

iPhone 群体受到手机开放生态和应用习惯的影响,更愿意发表自己的观点。但是,受价格、经济贸易等多重因素的影响,iPhone 在用户普及率和渗透性方面很难有大的提升;华为手机用户由于年龄、工作以及应用习惯等影响,较多默默接受和使用,而不善于去发表自己的意见建议。小米、VI⁃VO、OPPO 等年轻群体相对活跃,但是表达的客观性和有用性还有待提高。因此,从政务App服务质量评价的角度来看,iOS 平台的评分数据更具客观性,可以考虑引入,或者引入政务App 总评分作为评价服务情况的一个侧面;从用户评论挖掘的角度来看,在对政务APP 进行评价时应重点挖掘iOS 平台和华为平台的用户评论,同时兼顾考察其他平台上的用户反馈。

最后,研究发现政务App可得性问题是影响用户评论的重要因素。用户要使用App,首先要顺畅便捷地登录到App中,但是研究发现大量用户评论指向了登录问题,特别是在1 星评论中“注册”“认证”“登录”等成为高频词,而评论原内容显示“注册不上”“认证通不过”“人脸识别没用”等是反馈较多的问题。

政务App可得性是首先应该得到保证,也是较容易得到保证的。但是,总体来说省级政务App可得性做得还不够,这可能涉及运营者的测试范围、测试机型、测试网络等局限。规模以上的用户群提供了天然的测试环境,用户在政务App评论中提出的这些诉求是App改进和完善的方向。但是,部分App 并没有很好吸纳用户反馈,即使经过了长时间的迭代更新,问题依然没有彻底解决。

从组织角度出发,政务App可得性还有一个推广问题,而这是公共部门不太擅长的事情。1 星评论中大量出现“推广”“强制”等高频词,说明App管理运营与公众间存在认知偏差,强制使用的做法拉开了公众与政府间的距离。公众认为好的政务App 不需要推广,这也赋予了政务App“不好用”的刻板印象。但是,App 运营者重视用户评论就容易得到用户的肯定。“云上贵州多彩宝”对iOS 平台上的负面评论(1 星)进行了“开发者回复”,开发者回复会发送到用户的邮箱。这种一对一的跟踪回复,是把用户的感受和评价摆在至关重要的位置,也必然提升用户对于政务App的好感和满意度。

(二)研究不足和未来方向。

本文还存在一些不足,未来研究需要予以深化和发展。首先,我们构建了用户评论信息来源质量的评价维度,这些维度仅是从能够抓取到的用户评分、评价、下载量角度,是否就能够全面刻画App用户评论的质量,能否用于App 服务绩效的评价,甚至辅助“好差评”制度的实践,还需要深入研究和探讨。其次,我们对采集到的政务App评价数据进行了初步的描述性统计,但是还缺乏深度利用。比如,利用一段时间的用户评论数据去探求用户评论与软件版本升级之间有没有关系,或者对用户评论数据进行挖掘,分析满意和不满意背后的因素,发现究竟哪些因素真正能提升政务App 绩效,等等。最后,我们构建了政务App 总评分的计算方法,目前是将用户渗透率作为系数,与政务App评分加权而得。本研究发现,五个平台的可靠性是有区别的,仅仅用渗透率作为加权系数是否科学,是不是可以考虑适当提高iOS 和华为平台的权重,适当降低其他平台的权重,这些问题都需要在未来进一步探索。

猜你喜欢

政务评分用户
VI-RADS评分对膀胱癌精准治疗的价值
“互联网+医疗健康系统”对脑卒中患者HAMA、HAMD、SCHFI评分及SF-36评分的影响分析
我给爸爸评分
Castleman disease in the hepatic-gastric space: A case report
政务云上看政情
关于陈某政务公开申请案的启示
二维码让政务公开更直接
关注用户
关注用户
关注用户