恶性肿瘤药物治疗相关不良事件健康状态负效用测量研究的系统评价Δ

2022-07-29卢钰琼代展菁中国药科大学国际医药商学院南京211198

中国药房 2022年14期

卢钰琼，代展菁，路云，常峰（中国药科大学国际医药商学院，南京 211198）

成本-效用分析是药物经济学常用的分析方法之一，常以质量调整生命年（quality-adjusted life years，QALYs）作为产出指标。健康状态效用值（health state utility values，HSUVs）表示人们对特定健康状态的偏好程度，是计算QALYs 的关键参数[1]。负效用（disutility）是HSUVs 的一种，英国约克健康经济联合会将其定义为某种特定症状或并发症导致的效用下降（通常表示为负值），也常作为关键参数被纳入经济学评价模型[2－3]。例如，在估计2型糖尿病患者的疾病负担时，常需将糖尿病相关并发症（失明、截肢、中风、心肌梗死、肾衰竭等）导致的健康效用值降低考虑在内[4]。又如Freeman 等[5]对免疫比浊法在指导化疗患者氟尿嘧啶剂量调整中的经济性进行评价时，考虑了腹泻、恶心、黏膜炎等不良反应的负效用值。

目前，国际上已开展了大量有关负效用的测量实践：Hall 等[6]基于时间权衡法（time trade-off，TTO）调研了200名18岁以上的英国普通公众，应用广义估计方程模型估算得到了高风险转移性激素敏感性前列腺癌治疗相关不良事件（疲劳、恶心呕吐等）的负效用值；Pan等[7]基于欧洲五维五水平健康量表（European quality of life five dimensions five level，EQ-5D-5L）调研了289名2型糖尿病患者，采用普通最小二乘法估算得到了患者神经病变、心脏病变、脑血管疾病等并发症的负效用值。但关于如何进行负效用测量，国内外并未形成统一标准规范。考虑到恶性肿瘤是我国乃至全球的主要致死疾病，且相关不良事件的负效用研究相对较多，因此本研究以恶性肿瘤药物治疗相关不良事件的负效用为例，对国内外相关文献进行系统评价，以了解健康状态负效用测量的实践情况和存在的问题，为我国开展健康状态负效用测量研究、计算药物经济学评价中的健康产出提供方法学参考。

1 资料与方法

1.1 文献检索策略

计算机检索中国知网、万方数据、维普网3个中文数据库和PubMed、Web of Science、the Cochrane Library 3个英文数据库，检索时限均为各数据库建库起至2021年7 月。同时，手工检索纳入文献及相关系统评价和经济性评价研究的参考文献。

1.2 纳入与排除标准

纳入标准包括：（1）国内外学术期刊上公开发表的研究文献；（2）测量了恶性肿瘤药物治疗相关不良事件的效用值；（3）结局报告了效用值原始数据。

排除标准包括：（1）与效用测量无关的文献；（2）文献综述或理论研究；（3）会议摘要、学位论文、新闻报道、资讯、采访、评论等文献；（4）重复发表的文献；（5）无法获得全文的文献；（6）非中文或英文文献。

1.3 文献筛选与数据提取

应用EndNote 20 软件进行文献管理，Excel 2201 软件进行数据提取。由2名研究者独立筛选文献、提取信息并交叉核对，如遇分歧则与第三方讨论决定。提取的文献信息包括文献基本特征（文章标题、第一作者、发表年份、文献类型、调查国家/地区、恶性肿瘤类型、不良事件类型等）和效用值测量实践情况（研究设计类型、健康状态开发、健康状态验证、基础状态设定、健康状态排名、效用测量工具、样本人群类型、样本人群规模、样本代表性检验、效用报告类型、效用统计方法等）。

1.4 纳入文献质量评价

英国国家卫生与临床优化研究所（National Institute for Health and Clinical Excellence，NICE）决策技术支持文件曾制定过检查清单以评价效用测量研究的质量，但该清单内容表达不够清晰，难以被研究者准确理解，在实践中多经改良后再应用[8]。本研究采用Mok等[9]改良后的检查清单，该检查清单内容简单易懂，包含样本人群规模、受访者选择和招募、纳入与排除标准、工具应答率、数据完整性、工具适当性、其他研究问题、不确定性估计、积分体系适当性9项条目。同时，本研究设定，若条目评价结果为“是”计1分，“否”则计0分；质量评价总分为实际得分与理想得分（各条目都得分）之比。

2 结果

2.1 文献筛选流程及结果

根据预先设定的检索词和纳入、排除标准对文献进行检索和筛选，最终纳入77篇文献，具体流程见图1。

图1 文献筛选流程图

2.2 纳入文献基本特征

2.2.1 发表年份纳入文献最早发表于1991 年。随年份增长，相关文献数量呈波动式上升的趋势，其中2010和2013年文献数目最多，均为7篇。结果见图2。

图2 纳入文献的发表年份分布

2.2.2 文献类型纳入文献主要为效用研究（49 篇，63.64%），即研究效用或负效用的测量；其次为药物经济学评价（28 篇，36.36%），即研究目的为药物经济性评价，研究过程中对患者的健康效用进行了测量以获取效果指标。

2.2.3 调查国家/地区纳入文献中，有4篇未说明调查国家/地区，故本文假设作者所在地为调查国家/地区。经统计，纳入文献涉及英国的最多（24 篇，31.17%），其次是美国（17篇，22.08%）。调查国家/地区为中国的仅3篇（3.90%）。结果见图3（图中，因同一文献可能涉及多个国家/地区，故图中文献数量合计值＞77篇）。

图3 纳入文献的调查国家/地区分布

2.2.4 恶性肿瘤类型除部分文献描述为“恶性肿瘤”（4 篇）和“妇科恶性肿瘤”（1 篇）外，其余文献共涉及18种恶性肿瘤，其中以乳腺癌相关文献最多（17 篇，22.08%），其次是非小细胞肺癌和黑色素瘤（均为8 篇，各占10.39%）。结果见图4。

图4 纳入文献涉及的恶性肿瘤类型分布

2.2.5 不良事件类型纳入文献共涉及120 种不良事件，其中报告文献数量≥3篇的不良事件有25种。有36篇文献（46.75%）未描述不良事件的具体情况，仅描述为“不良事件”。具体不良事件以腹泻（24 篇，31.17%）和疲劳（21 篇，27.27%）居多。结果见图5（图中只展示了报告文献数量≥3篇的不良事件）。

图5 纳入文献涉及的不良事件类型分布

2.3 负效用测量实践情况

2.3.1 研究设计类型近半数文献未说明研究设计类型（35 篇，45.45%）。说明了研究设计类型的文献（42篇，54.54%）根据是否对样本人群进行主动干预，分为观察性研究和临床试验；根据是否应用TTO、视觉模拟标尺（visual analogue scale，VAS）和标准博弈（standard gamble，SG）等小插图测量工具，又可分为小插图研究和非小插图研究。

2.3.2 健康状态开发与验证多数纳入文献未说明健康状态开发方法（48 篇，62.34%）和健康状态验证方法（52 篇，67.53%）；说明了开发方法（29 篇，37.66%）和验证方法（25 篇，32.47%）的文献均为基于直接测量工具的效用研究文献，主要通过文献回顾、专家访谈、患者访谈、患者论坛、以往效用研究、测量工具评估、药物标签信息等方法获取基础信息以进行健康状态描述，再通过专家审查、预调研、患者访谈、以往效用研究、公众访谈等方法判断健康状态描述能否有效获得效用值。

2.3.3 基础状态设定基础健康状态的设定是指以基础状态为锚点，测量样本人群处于基础健康状态时发生不良事件（如疾病无进展状态时发生腹泻）的效用，后续通过数据处理、统计估算得不良事件的负效用值。纳入文献大多设定并说明了基础健康状态（46篇，59.74%）；部分文献未说明是否设定了基础健康状态（31 篇，40.26%），可能是以无不良事件为基础健康状态，也可能未设定基础健康状态直接测量了不良事件的效用值。

2.3.4 健康状态排名仅有20篇文献（25.97%）明确要求对样本人群健康状态的效用值高低进行排序，以帮助样本人群理解健康状态描述进而反馈有效的测量结果。这20 篇文献均为基于直接测量工具的效用研究文献，健康状态排名主要应用了VAS、等级评定（rating scale，RS）等效用测量工具（17 篇），少部分文献应用了Likert量表（1篇）或未说明排名工具（2篇）。

2.3.5 效用测量工具纳入文献多应用SG（23 篇，29.87%）和欧洲五维健康量表（European quality of five dimensions questionnaire，EQ-5D）（23 篇，29.87%），其次是TTO（21 篇，27.27%）和VAS（13 篇，16.88%）。可见，健康状态负效用测量多应用直接测量工具，这与Matza等[10]小插图研究推荐的不良事件负效用测量工具是一致的。此外，12 篇文献（15.58%）同时应用了多种效用测量工具，1篇文献（1.30%）未说明效用测量工具。

2.3.6 样本人群类型及规模纳入文献的调研对象多为患者人群（45 篇，58.44%），其次是一般人群（27 篇，35.06%）、医护人群（10篇，12.99%）、医学肿瘤学家（2篇，2.60%）、风险人群（1篇，1.30%）等；有7篇文献（9.09%）同时调研了多类样本人群，1 篇文献（1.30%）未说明样本人群类型。有58篇文献（75.32%）说明了样本人群规模，样本人群区间跨度较大（10～1 582人），但分布较为集中（集中在10～200 人）；58 项研究共纳入11 185 人，平均每项研究192.84人。

2.3.7 样本代表性检验 63 篇文献未说明人群代表性检验情况（81.82%），其中54 篇文献（85.71%）的样本人群类型为非一般人群，13篇文献（20.63%）为一般人群，其中部分文献同时涉及非一般人群和一般人群。14 篇文献（18.18%）进行了人群代表性检验，其样本人群类型均为一般人群，均根据该国家/地区的人口普查数据进行了代表性检验。

2.3.8 效用报告类型有31篇文献（40.26%）以负值形式报告了不良事件对效用的影响，如Shingler 等[11]测量得到腹泻（3～4 级）的负效用值为－0.327；26 篇文献（33.77%）以合并基础状态的非负值形式报告了负效用值，如Swinburn等[12]测量得到疾病稳定状态合并腹泻（3级）的效用值为0.534；另有20 篇（25.97%）文献以非负值形式报告了负效用，如Chou 等[13]测量得到腹泻（3～4级）的负效用值为0.34。

2.3.9 效用统计方法半数以上的文献（45 篇，58.44%）未说明效用统计方法，其中42篇文献（93.33%）的效用报告形式为非负值或合并基础状态的非负值，其效用值可根据效用测量工具基础算法算得；还有3篇文献（6.67%）的效用报告形式为负值，均为药物经济学评价研究。在说明了效用统计方法的文献（32 篇，41.56%）中，有10篇（31.25%）采用了基础状态合并不良事件效用与基础状态效用的差值来计算不良事件的负效用值，有3篇（9.38%）采用了广义估计方程的方法，其余文献采用的方法较为分散，限于篇幅，本文不一一罗列。

2.4 纳入文献质量评价

质量评价结果显示，77篇纳入文献的质量总评分为0.683（表1）。由于评价质量划分尚无统一标准，因此本系统评价参考Degeling等[14]的判断标准，设定＞0.800～1.000 分为高质量、＞0.600～0.800 分为较高质量、0.000～0.600 分为低质量。根据上述标准，本研究纳入文献的整体质量较高。

表1 纳入文献的质量评价

同时结果显示，未报告受访者选择和招募的文献最多（63 篇），其次是未报告工具应答率、不确定性估计、纳入与排除标准，分别有51、33、30 篇文献；另外，纳入文献存在样本人群国家/地区与效用积分体系不一致、未报告样本人群规模、未报告调查国家/地区等问题（表1）。

3 结论与建议

本研究对国内外公开发表的恶性肿瘤药物治疗相关不良事件负效用测量文献进行了描述性系统评价，初步探索了该领域相关研究的健康状态负效用值测量实践情况。系统评价结果显示，不良事件负效用值测量研究文献发表数量近年来呈波动式增长的趋势，可见负效用的测量研究越来越受到医药相关决策者和研究者的重视，但目前我国少见有相关研究发表。总结负效用的测量实践情况发现，负效用测量的基本实施路径至少包括基础研究设计、健康状态确定、效用测量调研和调研数据统计4个关键环节。在基础研究设计环节，需要确定研究的基本目标，即确定测量何种疾病或何种干预措施的何种症状或并发症的负效用；需要确定研究设计类型，即数据收集的方式和时间；需要确定效用测量工具，即根据研究的基本目标选择合适的效用测量工具；需要确定样本人群，即需要确定样本人群的国家/地区、人群类型及人群规模。在健康状态确定环节，需要进行健康状态开发和验证，尤其是基于直接测量工具的效用研究；需要进行基础状态设定，即设定样本人群发生目标症状或并发症时所处的基础健康状态。在效用测量调研环节，需要进行健康状态排名，尤其是基于直接测量工具的效用研究；需要基于健康状态脚本及效用测量工具对目标样本人群进行调研以获取基础数据。在调研数据统计环节，需要检验样本人群的代表性，尤其是基于一般人群的效用研究；需要基于合适的效用统计方法计算获得负效用测量结果。

本研究还发现，目前的健康状态负效用测量研究尚存在如下问题：一是我国负效用测量研究实践较少，可能导致基于我国人群开展的药物经济学评价缺乏负效用相关数据。本研究纳入的77 篇恶性肿瘤药物治疗相关不良事件负效用测量文献中，仅3篇文献的调查国家/地区涉及中国。二是负效用的报告类型和结果多样，导致不良事件负效用结果合并存在困难。纳入文献的效用报告类型包括负值、合并基础状态非负值及非负值3种，三者数据关系较为复杂，如何进行数据合并来为药物经济学评价提供效用数据仍有待研究。三是负效用测量研究的部分重点事项未予报告，严重影响了文献质量。例如调查国家/地区、样本人群类型、样本人群规模、效用测量工具、效用积分体系等关键内容报告不完整。

为规范负效用的测量研究，本研究提出如下建议：（1）建议规范负效用测量研究实践路径以指导相关研究的开展。我国药物经济学评价正面临缺乏负效用数据的问题，虽然学者可通过引用非目标人群和非目标国家的负效用值，或基于临床经验和专家意见进行数据假设，或不考虑负效用来完成研究[15]，但终究不能从根本上解决数据缺乏的问题。今后可在本研究总结归纳的健康状态负效用测量路径的基础上，结合本团队已经发表的有关健康状态负效用的合并方法和影响因素分析结果[16]，明晰测量路径中各个环节最优的实践方法和需考虑的注意事项，以促进健康状态负效用研究高速度增长和高质量发展。（2）建议制订健康状态效用测量指南以规范研究过程和报告内容。目前，我国仅有《药物经济学评价指南（2020）》对HSUVs 的测量提出了较为简单的要求[17]。然而，国际上已有多个HSUVs 测量指南，如NICE发布的多个决策技术支持文件[8，18]、国际药物经济学与结果研究会（International Society for Pharmacoeconomics and Outcomes Research，ISPOR）发布的多个良好实践报告[19]，以及小插图研究建议[10]等。我国可借鉴上述国际指南的开发思路，开发基于特定HSUVs 的测量工具及普适性的HSUVs 测量指南，为我国HSUVs测量研究提供方法指导和报告规范。（3）建议加强多学科合作以提高研究水平和结果质量。健康状态效用值测量研究涉及临床医学、心理测量学、卫生经济学、数理统计学等多个学科，效用测量过程涉及基础研究设计、健康状态确定、效用测量调研和调研数据统计等多个环节，需要具有扎实基础理论知识的学术研究者和具有丰富效用测量研究资源的临床实践者合作开展HSUVs测量研究，从而提高HSUVs测量的研究质量，为临床治疗和医药卫生决策提供更可靠的证据。

综上所述，本研究以恶性肿瘤药物治疗相关不良事件的负效用为例，对国内外相关文献进行了系统评价。结果表明，现有负效用测量包括基础研究设计、健康状态确定、效用测量调研和调研数据统计4个关键环节，相关研究存在中国人群数据缺乏、结果报告类型不一致、测量重点事项报告不完整等问题。建议今后应进一步规范负效用测量基本实施路径，制订健康状态效用值测量指南，加强多学科合作，以提高健康状态效用测量的研究质量。

（利益相关声明：本研究设计、实施和结果未受资助方的影响，无利益冲突）