移动健康应用程序评价工具的研究进展

2023-04-16王婧婷郑朱婷董小兰袁长蓉

军事护理 2023年2期

王婧婷，郑朱婷，董小兰，袁长蓉

(1.海军军医大学护理系，上海 200433；2.复旦大学护理学院，上海 200032；3.海军军医大学基础医学院学员六大队18队，上海 200433)

移动健康应用程序(mobile health apps，MHA)是医疗健康研究与服务中为提升患者健康结局的智能手机或平板电脑应用程序[1]。MHA近年来发展迅速，极具提升患者诊疗和照护体验、改变医疗保健服务模式的潜力。越来越多研究者将MHA作为患者支持和延续护理的重要手段，开展了MHA的内容构建、产品开发、评价和临床应用。尤其后疫情时代背景下，MHA在远程就医和延续性健康管理中的优势更加明显，为患者提供了更加便捷可及、个性化的健康支持和诊疗服务。对MHA的评价涉及多个方面，但目前并无规范化的评价流程及标准，研究者使用的评价量表多为非医疗健康领域APP的评价工具，针对MHA的评价工具缺乏。因此，本研究目的在于对应用于MHA可用性评价和质量评价的评价工具进行综述，为相关研究者选择MHA评价工具或构建评价工具提供参考和借鉴。

1 MHA可用性评价工具

1.1 普适性可用性评价工具

1.1.1 系统可用性量表(system usability scale，SUS) SUS由Brooke 于1986年编制，包含可使用性和易学性2个维度，共10个条目，信效度较好(Cronbach’s α系数=0.91)，在小样本研究中可靠性也较好[2-3]。中文版SUS，且信效度良好(Cronbach’s α系数= 0.84)[4]。SUS条目较少、易于使用，是目前MHA可用性评价中应用最广的量表[5]。

1.1.2 软件可用性评价量表(software usability measurement inventory，SUMI) SUMI由Kirakowski 等[6]于1993年编制，包括高效性、影响、有益作用、可控性和易学性5个维度，共50个条目。SUMI的主要特点是有一套标准化数据库，数据库中有二百余种不同应用程序的可用性档案数据。在青少年肥胖管理APP[7]、体力活动促进APP[8]可用性评价中已有应用。尚无中文版。

1.1.3 整体评估系统可用性问卷(post-study system usability questionnaire，PSSUQ) PSSUQ由Lewis[9]在1992年开发，包括系统有用性、信息质量和界面质量3个维度，共19个条目，在用户完成所有任务的测试后填写问卷。PSSUQ 量表信效度良好，总Cronbach’s α系数为0.97，各维度Cronbach’s α系数为0.91、0.91、0.96[10]。已有研究使用中文版PSSUQ问卷评价可用性[11-12]，但未见PSSUQ的严格翻译及信效度检验结果。

1.1.4 可用性、满意度和易用性问卷(usefulness,satisfaction,and ease of use，USE Questionnaire) USE由Lund等[13]于2001年构建，包括有用性、易用性、易学性和满意度4个维度，共30个条目。USE量表可用于用户较长时间使用MHA后进行的可用性评价[14]。量表信效度良好(Cronbach’s α系数=0.98)[15]。尚无中文版。

1.2 特异性MHA可用性评价量表

1.2.1 健康信息技术可用性评价量表(health information technology usability evaluation scale，Health-ITUES) 该量表于2018年由Schnall等[16]开发，其理论基础为健康信息技术可用性评价模式(health information technology usability evaluation model，Health-ITUEM)[17]。Health-ITUES包括工作生活质量、感知有用性、感知易用性、用户控制4个维度，共20个条目。用户控制和感知易用性体现了用户与系统的互动，感知有用性通过用户使用系统的任务完成情况评估，工作生活质量值表示系统对于工作生活的影响。量表采用Likert 5级评分，从1(非常不同意)到5(非常同意)，得分越高表示可用性越好。Health-ITUES量表信效度良好，各维度Cronbach’s α系数为0.85～0.92。Health-ITUES有韩语版[18]，尚无中文版。

1.2.2 移动健康APP可用性问卷(mHealth app usability questionnaire，MAUQ) MAUQ是Zhou等[19]于2019年开发的针对MHA的可用性评价工具，根据MHA的分类(交互型APP、独立型APP)和使用者(使用者为患者、使用者为医护人员)不同，MAUQ共有4个版本，且建了网站以方便开发者使用MAUQ 评估MHA的可用性。交互型APP的MAUQ量表包括使用的易用性和满意性(8个条目)、系统信息安排(6个条目)、有用性(7个条目)3个维度，共21个条目。量表信效度良好，总Cronbach’s α系数为0.90，各维度Cronbach’s α系数分别0.895、0.829和0.900。2022年，Zhao等[20]构建了中文版MAUQ，信效度良好(Cronbach’s α系数=0.912)。

2 MHA质量评价工具

2.1 普适性MHA质量评价量表

2.1.1 移动应用程序评分量表(mobile app rating scale，MARS) MARS由Stoyanov等[21]于2015年开发，是评价MHA质量的最常用工具之一，也可作为设计和开发高质量MHA时的参考项目清单。MARS包括3个客观质量评分(参与度、功能、美观度和信息)、主观质量评分和6个可增加且可以调整的APP特定评价条目，用于评价APP对用户知识、态度、行为的影响和作用。MARS量表信效度良好(Cronbach’s α系数=0.90)[21]。MARS量表有意大利文版[22]、日文版[23]、韩语版[24]、法语版[25]、阿拉伯语版[26]和德语版[27]，并在以上国家应用，但尚无中文版。

2.1.2 用户版移动应用程序评分量表(user version of the mobile application rating scale，uMARS) uMARS是Stoyanov等[28]于2016年在MARS基础上构建的供终端用户使用的MHA评价工具。uMARS也包括客观质量评分和主观质量评分，另有评价用户感知到的MHA对其健康行为的影响和作用的感知影响子量表和1道供评价者进一步提出改进的建议或意见的开放式问题。uMARS量表信效度良好(Cronbach’s α系数=0.9)[28]。中文版uMARS量表含14个条目，包括信息、功能、用户参与度3个维度[29]。信效度良好，总量表Cronbach’s α系数为0.890，3个维度Cronbach’s α系数分别为0.895、0.871和0.853。

2.2 特异性MHA质量评价量表

2.2.1 移动医疗应用程序体验质量评分量表(quality of experience qoe in mhealth applications，QoE MHA) 基于QoE模式[30]，Martinez-Perez等[31]于2013年开发了QoE MHA量表，评价MHA的内容质量(7个条目)、安全性(2个条目)、易用性(3个条目)、可获得性(1个条目)、性能(2个条目)、外观(2个条目)、易学性(1个条目)和准确性(1个条目)，共21个条目。采用Likert 5级评分，从1(非常不同意)到5(非常同意)，得分越高表示质量越好。若MHA已经开发完成，可以使用QoE MHA进行评价，若MHA还在开发中，则可仅用内容质量维度中的4个条目进行评价。尚无中文版。

2.2.2 健康照护APP评估工具(health care apps evaluation tool) Jin 等[32]于2015年构建了健康照护APP评估工具，用于评价健康照护APP内容(精确度、可理解性、客观性)、设计(一致性、设计适用性、语言适用性)、技术(安全性)三个维度，共23个条目。条目选项均为4级评分，一点都不(0分)、有一点(1分)、相当多的(2分)、大量的(3分)，总分最高69分，0～23分为不太满意，24～46分为一般，47～69为满意，得分越高提示APP质量越好。量表信效度良好(Cronbach’s α系数=0.905)，三个维度Cronbach’s α系数为0.840、0.891、0.870。尚无中文版。

2.2.3 英国皇家医师学院健康信息学部门清单(Royal College of Physicians Health Informatics Unit checklist) Wyatt等[33]于2015年开发的英国皇家医师学院健康信息学部门清单，是一款供临床工作者对MHA进行质量评价的清单式问卷，共包括3大类问题，即APP的开发者和内容情况(9个条目)，APP运行情况(4个条目)，APP有效的证据(5个条目)，共18个条目，条目选项为是、否、不知道/不相关/不清楚。英国皇家医师学院健康信息学单元清单是为数不多的由医学专业人员针对MHA开发的质量评价工具。尚无中文版。

2.2.4 慢病APP清单(app chronic disease checklist，ACDC) Anderson等[34]在2016年基于已有的评估清单和质性研究结果构建了ACDC，用于评价慢病管理APP的参与度、功能性、易用性、信息管理4个方面，共24个条目。条目选项为3级评分，特征不明显或不起作用(0分)、特征稍明显或起作用(0.5分)、特征明显或起作用(1.0分)，总分越高提示APP质量越好。尚无中文版。

2.2.5 APPLICATIONS量表 Chyjek等[35]于2015年构建的MHA治疗评价量表APPLICATIONS，对APP的综合性、价格、付费订阅、参考文献、APP内消费、连接性、广告、文本搜索框、设备内兼容性、其他特征(如图片或图像、视频等)、导航的便捷性、主观描述进行评价，共10个客观题和2个主观题。2个主观题目“导航便捷性”和“主观描述”采用Likert 5级评分法，1(非常差)到5(非常好)，其他客观条目则用0和1表示“无”和“有”，总分越高表示APP的质量越好。尚无中文版。

2.2.6 国家健康与护理卓越研究院行为改变指南(National Institute for Health and Care Excellence behavior change guidance，NICE BCG)量表 McMillan等[36]2016年构建的是行为改变类APP的质量评价工具NICE BCG量表，包括目的、计划和发展、可用性、初步评估和调整、行为改变技术、行为保持与复发预防、评估、使用手册、数据保护9个主题，共62个条目，条目选项为“是”“否”，“是”的占比越高，可用性越好。尚无中文版。

2.2.7 Enlight 量表 Baumel等[37]于2017年构建了用于评价MHA和基于电子医疗干预综合质量和治疗潜力的Enlight量表，包括质量评估和清单表两部分：质量评估包括可用性、视觉设计、用户参与度、内容、治疗说服力、联合治疗和一般主观评价；清单表包括可信度、隐私解释、基本安全性和基于证据的程序排名。质量评估采用Likert 5级评分法，1分(非常差)到5分(非常好)，计算各维度平均数；清单表部分每个条目分级方法不同。Enlight量表信效度良好(Cronbach’s α系数为0.83～0.90)，尚无中文版。

2.2.8 健身APP评分工具(fitness app scoring instrument) 健身APP评分工具由Guo 等[38]在2017年根据美国运动医学会制定的指南开发，用于各项健身APP内容质量评价。量表从有氧运动(10个条目)、力量与抗阻力训练(12个条目)、柔韧性(5个条目)三个维度进行评价，共包括27个条目。条目采用Likert 5级评分，三个领域按3∶3∶1的权重计算得分，最高总得分为70，得分越高提示APP质量越好。该工具信效度良好(Cronbach’s α系数=0.59～0.99)，但使用本量表评估耗费时间较久，评价一款APP一般需要30～40 min。尚无中文版。

2.2.9 营养APP质量评估量表(nutrition app quality evaluation，AQEL) DiFilippo等[39]于2017年构建了AQEL量表，用于评价基于营养支持的健康干预APP的质量。AQEL包括行为改变可能性、信息支持获得性、APP功能、技能发展、APP目的5个维度，共25个条目，另有5个条目用于评估APP对各年龄组适用性和4个条目用于评估APP对特定人群的适用性，可选择特定年龄组和人群进行评估。AQEL量表信效度较好(Cronbach’s α系数=0.8～0.9)。尚无中文版。

2.2.10 药物使用相关医疗APP质量评价工具(quality assessment tool for evaluating medical apps targeting medication-related problems) Loy等[40]于2016年构建了药物使用相关医疗APP质量评估工具，包括适宜性、可信度、可用性、隐私性四个维度。评分包括适宜性评价和总体质量评价。适宜性评价包括监控功能、药物相互作用检查、药物剂量计算器、药物信息、用药记录5项功能评价。总体质量评价得分为可信度、可用性和隐私性三个维度的得分之和，得分越高提示APP质量越好。量表信效度未报告，尚无中文版。

2.2.11 服药依从性APP质量评估工具(medication adherence app quality assessment tool，MedAd-AppQ) Ali等[41]于2018年构建了MedAd-AppQ，用于评价服药依从性APP。MedAd-AppQ包括内容可靠性、可用性、便捷性三个领域，共24个条目，最高得分为43分，其中内容可靠性11分，有用性29分，便捷性3分。根据每项条目评价情况计算总分，得分越高提示APP质量越好。MedAd-AppQ信效度良好(Cronbach’s α系数=0.801)。尚无中文版。

2.2.12 照护与健康APP评价组织问卷-24题版(organization for the review of care and health applications-24 question assessment，ORCHA-24) Leigh等[42]于2017年构建了ORCHA-24量表，在慢性失眠障碍APP的质量评估中使用。包括数据管理、临床疗效及保证、用户体验与参与度三个维度，共24个条目。条目选项均为2级评分，分别为是(1分)、不是(0分)，根据每项条目评价情况计算各维度得分及总分，得分越高提示APP质量越好。尚无中文版。

3 MHA可用性及质量评价工具的发展与应用现状

目前，普适性MHA可用性评价工具中，国内外使用最多的是SUS[5]；SUMI总体适用性很广，在MHA可用性评价中也较为常用；USE量表在国外也有一定应用，但SUMI和USE皆因尚无中文版，在国内无使用；PSSUQ有中文版在使用[11-12]。Health-ITUES和MAUQ是为数不多的针对MHA可用性的评价工具，Health-ITUES无中文版，MAUQ中文版[20]2022年刚刚发表，有待推广使用。MHA质量评估工具中，MARS和uMARS是国外使用较多的评估工具。uMARS量表虽不是针对MHA评价构建的，但有用于评价用户感知到的APP对其健康行为的影响和作用的“感知影响子量表”，适于评价MHA。本研究纳入的12个特异性MHA质量评价量表中，有可进行一般MHA评价的量表，也有针对慢性病管理[34]、行为改变促进[36]、健身[38]、营养[39]、服药依从性[40-41]、慢性失眠障碍[42]MHA的评价工具，但均无中文版，尚未在国内MHA质量评价中应用。

4 MHA可用性及质量评价工具的优势与不足

4.1 MHA可用性及质量评价工具有助于促进MHA可用性和质量提升 MHA评价工具从多个维度评价MHA的可用性和质量。在MHA的不同开发阶段使用可用性评价量表评价，可尽早发现MHA存在的可用性问题，从而及时进行改进，提高MHA可用性、用户使用感受和满意度。针对MHA的质量评价工具不仅从多角度评价质量，研究者还可将评价工具(如MARS[21]、英国皇家医师学院健康信息学部门清单[33])作为设计和开发高质量MHA时的参考项目清单，指导MHA开发；QoE MHA可对已开发完成的MHA进行评价，也可仅用内容质量维度中的4个条目对开发中的MHA进行评价，促进MHA的内容和功能在开发阶段得到完善[31]。

4.2 MHA评价工具的理论支撑、中文版构建及检验有待加强本研究纳入的MHA可用性和质量评价工具中，仅Health-ITUES量表提及其研发是依据Health-ITUEM模型[17]，QoE MHA量表构建中依据QoE模型[30]，具有理论基础，且只有SUS、MAUQ、uMARS量表有经严格检验的中文版[4,20,29]。因此，国内研究学者有必要在合适的理论指导下，构建适于我国文化背景和研究需求的MHA评价工具，以提升量表的科学性和适用性。

4.3 针对MHA的可用性和质量评价工具有待推广多数评价量表(如SUS、SUMI、PSSUQ、USE量表)最初并非针对MHA设计的评价工具，其评价内容更关注应用程序的技术层面，适于专业开发人员进行复杂应用程序评价，缺少对MHA医疗相关特征评价。MHA的快速发展激发了对特异性MHA评价工具的需求，学者们开发特异性MHA质量评价量表，对慢病、营养、健身、行为改变、服药依从性等领域的MHA进行评价。但目前使用这些特异性MHA质量评价工具的研究数量并不多，仅有APPLICATIONS量表被用于不止一项MHA的评价，如宫颈癌APP[43]、医疗翻译器APP[44]、避孕APP[45]、妊娠期管理APP[35]评价。因此，MHA特异性质量评价工具尚有待推广应用。

4.4 供终端用户使用的MHA质量评价工具有待拓展大部分MHA质量评估工具是供开发人员或医护专业人士使用，以从专业角度对MHA进行评价。仅uMARS量表是供终端用户(如患者或照顾者)使用的MHA治疗评价工具，并将评价结果作为改进MHA的依据，促进MHA更好地满足终端用户需求[28]。因此，有必要发展可供MHA终端用户使用的质量评价工具，依质量评价结果更新迭代MHA，为患者及照顾者提供更优质的移动医疗健康服务。