斯坦福谵妄评估量表的汉化及在胃肠外科术后患者中的信度效度评价

2023-09-18李昆鹏李国宏陈进霞吴郊锋赵晓丹

中国护理管理 2023年8期

李昆鹏李国宏陈进霞吴郊锋赵晓丹

谵妄是老年患者术后常见的并发症之一，研究显示，65岁及以上患者术后谵妄的发生率为5%～50%，而急诊手术患者的谵妄发生率更高，可高达36%[1]。谵妄患者易产生相关并发症进而引起不良预后，影响患者生活质量[2]。早期预防可以使住院患者谵妄的发生率下降30%～40%[3]，但是研究显示，缺乏有效的筛查工具是阻碍谵妄早期识别的主要因素之一[4-6]。斯坦福谵妄评估量表 (Stanford Proxy Test for Delirium，S-PTD)是斯坦福大学2015年开发的谵妄筛查量表。国外研究显示其相较于其他的谵妄评估量表优点如下[7-8]：该量表依据谵妄诊断金标准DSM-5（the fifth edition of the Diagnostic and Statistical Manual of Mental Disorders）开发；条目适中、评估方法简便，平均评估时间1～2分钟，尤其适用于人员编制少、工作节奏快的外科病房使用；临床情境中灵敏度高（80.72%～82.7%）、特异度高（90.37%～95.3%）；量表适用范围广，可用于内、外科住院患者，重症患者（包括因机械辅助通气交流不便或病情原因不合作的患者）；考虑到谵妄病情波动的特点，该量表评估时机是在结束值班前，护士对该班次时间段内患者病情的评估，评估更全面，避免了漏诊。而目前我国尚无该量表引进报道。因此，本研究汉化该量表并进行文化调适，建立中文版S-PTD并在我国胃肠外科手术患者中评价其信度、效度。

1 方法

1.1 量表的汉化

1.1.1 原量表介绍

S-PTD是斯坦福大学2015年开发的谵妄筛查量表。原量表在普通病房的临床情境中敏感度为82.7%，特异度为95.3%[7]，共包含13个条目，未做详细维度划分。该量表为他评、观察性量表，护士在经过8～12小时值班后，根据值班期间跟患者（家属）的互动、观察的结果进行评分。量表采用Likert 3级评分法评分，前12个条目“经常”计2分，“偶尔”计1分，“从不”计0分；第13个条目为年龄：“＞70岁”计2分，“56～70岁”计1分，“≤55岁”计0分。所有条目都采用正向计分，≥3分考虑谵妄阳性。

1.1.2 量表的翻译与回译

获得原作者授权后，采用Brislin模型[9]对S-PTD进行汉化。邀请2名有欧洲留学经历的医学博士独立正向翻译量表，研究小组将2份翻译稿进行对比、整合，讨论合并成为中文版1稿；再邀请1名大学英语教师、1名熟练掌握英语读写的护理专业研究生，在没有阅读过原英文版问卷的情况下对中文版进行回译，课题组将回译版与原量表进行对比，对不同之处再次调整，直至中文版与原量表内容基本相同且表述符合我国文化要求。

1.1.3 文化调适

文化调适过程严格按照Guillemin等[10]提出的保持原量表与目标语量表跨文化等价性，从语义等价、习语等价、经验等价、概念等价4个方面进行评价，文化调适小组由多学科人员组成，且包含双语背景专家。本研究采用了现场小组会议法对量表进行文化调适，邀请9名专家对中文版S-PTD进行评议，包括胃肠外科、精神科主治医师各1名，重症医学科、神经内科、精神科主管护师5名及护理学教授2名。文化调适小组与量表的翻译者、回译者和综合者共同讨论以使每一处差异均达成一致，形成中文版2稿。

1.1.4 预实验

采用便利抽样法，选取入住南京市某综合性三级甲等医院胃肠外科的患者30例进行预实验。纳入标准：18～85岁；拟行胃肠外科手术（预期手术时间＞2小时）。排除标准：术前存在认知障碍、有精神分裂症或精神病史、存在视听障碍或不能用普通话交流；实际手术时间≤2小时；患者或家属不同意参与研究。脱落标准：撤回知情同意书，要求退出实验的患者；失访、转院或死亡者；因其他原因由研究者中止实验者。问卷填写结束后记录填表所需时间及意见[11]。根据调查结果和专家组的意见，形成最终的中文版量表。

1.2 量表的信度、效度检验

1.2.1 研究对象

2021年10月至2022年9月，采用便利抽样法选取入住南京市某综合性三级甲等医院胃肠外科的患者为研究对象。根据量表条目数的5～10倍确定样本量[12]。本量表共13个条目，故量表信度、效度检验至少需要样本量130例。胃肠外科手术患者术后谵妄发生率高于20%，根据灵敏度和特异度估算样本量方法[8]，另考虑样本脱落10%，估计检验灵敏度及特异度所需的样本量应不少于315例。故本研究共需样本量至少445例。所有研究对象自愿参与本研究，并签署知情同意书。

1.2.2 研究工具

研究工具包括：①一般资料调查表，由研究者根据研究目的并结合文献自行设计，包括姓名、住院号、年龄、性别、入院诊断、手术名称、手术时长等；②中文版S-PTD，供护士使用；③DSM-5，供精神科医生使用。

1.2.3 资料收集方法

患者入院后24小时内完成入组筛选。术后5天内，由经过培训考核的护士使用中文版S-PTD在每班结束时评估1次，当日患者任一时段出现谵妄则判定其为阳性。精神科医生采用DSM-5对患者过去24小时病情做判断，考虑到谵妄病情的波动性，医生诊断在护士评估后2小时内进行，每日1次。医护人员相互不知晓评估结果，评估持续到患者出院或在院死亡。

1.2.4 质量控制

制订中文版S-PTD使用说明，实验前对资料收集护士进行统一培训、考核，经考核合格后方可进行实验。由研究者本人每日收集评估后的量表。调查结果双人双机录入，为保证问卷的有效性，如量表13个条目缺失1项以上或该患者全部条目缺失20%及以上视为无效问卷。

1.2.5 伦理原则

本研究已通过东南大学附属中大医院临床研究伦理委员会的审查(批件号：2021ZDSYLL247-P01)；向入组的患者及家属说明研究的目的及意义，征得同意后签署知情同意书，确保患者或家属自愿参与实验；保护患者的隐私，研究结果仅限于本研究使用，不涉及其自身权益、不影响其正常诊疗。

1.2.6 信度、效度检验方法

1.2.6.1 效度检验

采用内容效度指数（Content Validity Index，CVI）评价量表内容效度[13]。采用电子邮件的形式选取9名经验丰富的谵妄领域的专家对本量表的各条目与所需测量概念的相关程度做出评价。其中“1”代表该条目与研究内容一点都不相关，“4”代表该条目与研究内容非常相关。I-CVI（Item-level CVI）的计算方法是以单个条目为单位，计算评分为“3”或“4”的专家数除以专家总数的结果，而S-CVI（Scale-level CVI）的计算方式是测定所有I-CVI的平均值。当I-CVI值≥0.78，S-CVI值≥0.90时即可认为量表具有较好的内容效度[14]。通过收集专家意见，对条目的内容与表达方式进行适当修改。采用探索性因子分析检验量表的结构效度。采用主成分分析法和最大方差正交旋转法进行探索性因子分析。

1.2.6.2 信度检验

（1）内部一致性：通过计算Cronbach’sα系数，Guttman折半信度和Spearman重测信度来评价量表的信度。量表的Cronbach’sα系数＞0.80，各维度Cronbach’sα系数＞0.6，折半信度和重测信度＞0.7，则认为量表信度良好[15]。

（2）评定者间信度：选择经过培训、考核的2名研究护士每日日间对相同患者使用中文版S-PTD独立完成评估1次，评估持续至术后第5天。比较2名研究护士评估的一致性，计算Kappa值评价评估者间信度[15]。

1.2.7 统计学方法

采用SPSS 22.0软件对资料进行统计分析，计量资料采用均数±标准差描述，计数资料采用频数、构成比、率描述。量表的效度采用内容效度和结构效度进行评价；信度通过Cronbach’sα系数和Guttman折半信度评价内部一致性，用Kappa值评价评估者间信度，使用Spearman重测信度评价量表的稳定性。以DSM-5为金标准，根据受试者工作特征曲线（ROC）下面积（AUC），灵敏度、特异度和约登指数评估中文版S-PTD诊断谵妄的性能。以P＜0.05为差异有统计学意义。

2 结果

2.1 研究对象一般资料

本研究共入组492例患者，有效样本量为458例，有效回收率为93.09%。其中男299例（65.28%），女159例（34.72%）；年龄（63.97±12.77)岁；胃恶性肿瘤145例（31.66%），肠道恶性肿瘤205例（44.76%），胃部良性疾病16例（3.49%），肠道良性疾病92例（20.09%）；胃全切除手术107例（23.36%），胃大部切除手术52例（11.35%），肠切除手术299例（65.28%），其中肠造口19例。

2.2 量表翻译与文化调试结果

本研究根据专家意见及预调查过程中的反馈意见对量表做了相应的修改，具体如下。①文化调试过程中考虑国情，家属往往要求医护人员对患者隐瞒病情，条目2旨在判断患者的意识和定向力，故专家建议将条目2B“他/她的病情如何”改为“与现陪护人员的关系”；此外，将条目2C中内容“忘记主要团队成员的身份或角色”修改为“忘记了管床医生和责任护士是谁”；将条目5C内容“学习使用新的医院设备（如吸痰器）”修改为“学习使用新的医院设备（如尿壶、拐杖、轮椅、呼叫器、床栏）”；条目6A内容为“在与护理团队或家人讨论护理选择时，难以合理地处理信息”，考虑我国护理人员及家人照顾的主要内容为饮食、喂水等，为了使评估内容更清晰、明确，此项修改为“简单进食种类、是否饮水抉择困难”。②专家内容效度评价过程中，根据收集的专家意见，对条目的语意与表达方式进行适当修改，如条目1C中“填写菜单”改为“填写表单”；条目3B中“忘记访客、食物、生活秩序等”修改为“忘记探陪人员、用餐等日常事务”；条目4C中“对简单的问题做出含糊的回答”修改为“对简单的常识性问题不能作准确回答”；条目5A中“了解他病情的新信息”修改为“对常规饮食/活动指导等不能理解、配合”。条目13为年龄评分，与其他条目相关性差，专家建议将该条目作为独立因素考量。

2.3 预实验结果

护士使用修改版中文S-PTD进行评估，平均完成问卷时间为1～2分钟。研究者与参与护士共同讨论量表的使用体会，根据反馈意见将条目7A中“找不到他/她的餐盘吗？”修改为“难以定位视线范围内的物品，如抽纸或手机等”。形成中文版S-PTD量表终稿。

2.4 量表信度、效度分析结果

2.4.1 内容效度

首轮专家函询I-CVI值为0.67～1.00，其中条目13为年龄评分，与病情无关，专家内容效度评分为0.67，经研究小组评议，该条目暂保留，作为独立因素考量。第二轮I-CVI值为0.78～1.00，S-CVI值为0.95，具有较好的内容效度。

2.4.2 结构效度

探索性因子分析结果显示，KMO值为0.813，Bartlett’s球形检验值χ2=1886.474（P＜0.001），表明该量表适合做因子分析。采取主成分分析法和最大方差旋转法进行分析，设置特征值＞1，对公因子进行提取[16]。共提取3个公因子，累计方差贡献率为59.368%，旋转后各条目因子载荷详见表1。

2.4.3 信度

本量表纳入13个条目的Cronbach’sα系数为0.769，删除条目13后量表总的Cronbach’sα系数为0.827。删除条目13后量表各因子的Cronbach’sα系数为0.726～0.741。量表Guttman折半信度为0.738，Spearman重测信度为0.783。本研究中评估者间信度共完成了21例患者的评估，回收有效量表210份，计算Kappa值为0.981。

2.5 量表灵敏度、特异度以及最佳临界值

458例患者中发生谵妄的有87例，发生率为19.0%。根据诊断结果，当量表诊断阈值为2.5时，约登指数最大为0.613，此时灵敏度为0.678，特异度为0.935。绘制ROC曲线，计算曲线下面积为0.853（95%CI：0.801～0.905，P＜0.05），见图1。因实际工作中量表评分为整数，当更注重灵敏度，避免漏诊时可取最佳阈值为2；当更注重特异度时可取最佳阈值为3。

3 讨论

3.1 中文版S-PTD具有较好的可操作性和可行性

护士作为患者的全天候照顾者，对患者病情变化信息获取更加及时、全面，因此在谵妄早期识别中护士起到重要的作用[17]。但因大部分普通外科病房护士数量少、工作量大，阻碍了术后谵妄的评估[18]，中文版S-PTD作为观察性量表，在护士8小时工作后，根据患者本班时段的情况进行评分，完成测试一般仅需1～2分钟，未增加护士工作量且同时考虑了患者短时间内症状的波动，不易造成漏诊[8]。德国Nydahl等[19]的研究和我国一项针对外科病房的术后谵妄评估现状调查[20]均显示：量表评估过程烦琐，护士谵妄相关知识不足是影响谵妄评估的重要因素。目前，护士对谵妄评估的依从性和准确性均不能满足临床要求[18-20]，急需一个评估简便、有效、易于掌握的评估量表以供护士使用。本研究在量表引进过程中严格按照Brislin模型进行，逐条翻译并根据我国文化适当调整条目内容，使之更适合我国患者使用。中文版S-PTD条目数适中，评估内容是患者日常言行、情绪、睡眠状态等，评估结果简单、易获得。因本研究在量表评价过程中，研究者严密追踪患者入组及评估情况，故未评价护士评估的依从性。但本研究共入组492例患者，有效样本量为458例，有效回收率为93.09%。样本脱落的原因为手术时间不足2 h排除24例、转科数据不全3例、当日拒绝4例、术中诊断不符合3例，均与量表评估使用无关。以上结果均说明中文版S-PTD具有较好的可操作性和可行性，适用于外科病房护士对胃肠外科手术患者术后谵妄的筛查。

3.2 中文版S-PTD具有较好的效度

效度指测量工具对所需测量变量的准确测量程度。内容效度是指量表条目与测量内容的符合程度，当I-CVI值≥0.78，且S-CVI值≥0.90时，说明量表内容效度良好[21]。中文版S-PTD的I-CVI值为0.78～1.00，S-CVI值为0.95，说明量表具有较好的内容效度。结构效度是评价量表结构稳定性的指标，因子分析是其最常用的检验方法。本研究采用探索性因子分析检验量表的结构效度。探索性因子分析的结果显示，共提取3个公因子，累计方差贡献率为59.368%，表明量表的结构效度理想。考虑原量表未对条目做详细的维度区分，中文版S-PTD也未划分维度。

3.3 中文版S-PTD具有较好的信度

信度代表测量结果的一致性和稳定性，常用Cronbach’sα系数评价量表内部一致性，运用Guttman折半信度及Spearman重测信度表示量表的稳定性[22]。当量表总的Cronbach’sα系数＞0.8，分量表Cronbach’sα系数＞0.7，重测信度＞0.7时，显示量表信度良好[23]。本研究中根据专家内容效度评价及量表可靠性统计结果删除量表条目13后，中文版S-PTD总的Cronbach’sα系数为0.827，各因子的Cronbach’sα系数为0.726～0.741，说明量表12个条目之间的内部一致性好。量表Guttman折半信度为0.738，说明中文版S-PTD各个条目间的内在相关性和同质性好。量表Spearman重测信度为0.783，表明量表具有较好的稳定性。评估者间一致性常用Kappa值表示，Kappa值≥0.6时表明一致性好[24]。本研究中2名研究护士使用中文版S-PTD评估谵妄时，总体Kappa值为0.981，相较于原量表和其他谵妄评估量表有较好的评估者间一致性。因为S-PTD的评估项目来源于患者住院期间的常见言行和病情观察的内容，是客观观察所得，只需要护士对值班期间患者是否出现类似状况做记录，因此量表Kappa值高，评估者间信度好。

3.4 中文版S-PTD的诊断价值较好

量表的诊断价值常用灵敏度和特异度评价，灵敏度越高，能够正确识别谵妄患者的能力越强，特异度越高排除非谵妄患者的正确率越高[25]。本研究中量表的灵敏度为0.678，特异度为0.935。相较于原量表的灵敏度（82.7%）稍低，特异度相当[7]。一般当灵敏度和特异度固定不变时，人群患病率越低，实验的阳性预告值愈低，阴性预告值愈高[25]；本研究中灵敏度低可能与研究对象谵妄的发病率较低，研究场所为普通外科病房，护理人力资源不足导致对患者谵妄相关症状发现、观察不足有关。截断点界值是评价实验观察值正常与异常的界定，将实验结果划分为阳性与阴性两部分[26]。研究结果显示，中文版S-PTD诊断的阈值为2.5，但考虑此量表评分结果为整数，故当更注重灵敏度，避免漏诊时可取最佳阈值为2；当更注重特异度时可取最佳阈值为3，本研究取阈值为3。这一结果与原量表结果一致[7]。ROC曲线上每一点都代表着不同诊断阈值对应的灵敏度与特异度，ROC曲线下的面积能客观反映诊断系统的效能。一般认为ROC曲线下面积＞0.9表示诊断价值高，0.7～0.9表示诊断价值较好；0.5～0.7表示诊断价值低[25]。本研究中诊断阈值为3时，曲线下面积趋于最大，约为0.853，说明S-PTD的诊断价值较好。此外，该项研究具有最广纳入和最小排除标准，比较接近“真实世界”的临床实境。作为护士使用的筛查工具，它保持了与其他谵妄评估工具报告相当的高特异性，可快速、有效筛查出谵妄人群，及时预警、协助医生尽早干预以改善患者的预后。