术后认知障碍评估量表的研究进展*

2022-03-23综述李雪寒审校

重庆医学 2022年3期

冉娇综述，李雪寒审校

(四川大学华西医院麻醉科，成都 610041)

随着外科手术和麻醉技术的进步，越来越多的疾病可以通过外科手术治疗。2012年的全球手术量约3.12亿次手术，较2008年增加了33.6%[1]。Lancet全球手术委员会表明随着全球卫生事业的改善，到2030年全球手术量约每10万例中将有5 000例接受手术治疗[2]。同时，根据世界银行统计，从2008-2018年全球65岁及以上人口数量增加了25.44%；截至2019年全球65岁及以上人口约占总人口数9%，到2050年这一比例将增加到16%，约12.6亿。据估计到2050年，我国60岁及以上老年人口约4.98亿。且年龄段越高，人口数增长速度越快，到2050年80岁以上高龄老人占全部老年人的比重约26.64%[3]。随着人均寿命的延长和人口数量的增长，手术量逐年剧增，特别是65岁及以上老年人的手术。人口老龄化和手术量的增加对围术期麻醉管理提出了挑战。为了提高围术期麻醉质量，越来越关注手术患者术后并发症的管理，特别是在老年患者中常见的术后神经系统并发症。

1887年，Savage提出术后精神错乱是麻醉导致。此后，术后谵妄(POD)和术后认知功能下降常以病例的形式报道。直到1980年，在术前和术后对患者进行神经心理组合测试才提出术后认知障碍(POCD)这一概念。在随后的临床研究中，各种各样的神经心理测试组合(NTB)被用于POCD的诊断中[4]。在《精神疾病诊断和统计手册》(DSM-Ⅴ)中对谵妄的诊断是根据临床症状，但并没有出现对POCD的诊断和说明。POCD这一概念更多的是出现在临床研究中，其诊断完全依赖于NTB的结果。

谵妄是由急性脑功能障碍或脑病引起的临床综合征，其特征是注意力和认知能力发生剧烈变化且会在短时间内出现波动，伴或不伴有器质性疾病。根据患者的行为和唤醒水平，谵妄可分为低活动型、高活动型和混合型，低活动型容易被漏诊而延误治疗[5]。符合DSM-Ⅴ谵妄诊断标准且发生在术后1周或出院前，即POD。以往的研究中认为POCD是指患者在手术和麻醉后注意力、记忆、执行力等较术前下降，术前的神经认知评估通常在术前1～3 d完成，而术后评估通常在术后7 d及术后1、3、6、12个月进行[5]。2018年6-11月同时在6本杂志提出将手术和麻醉后出现的认知障碍与一般人群的神经认知障碍诊断标准保持一致，将其归类到DSM-Ⅴ中的神经认知障碍(NCD)，围术期发生的认知障碍统称为围术期NCD，具体名称根据认知紊乱发生的时间和严重程度适当调整。术后0～30 d出现的认知障碍，在排除了POD的前提下，称之为神经认知恢复延迟(DNR)。术后30 d到12个月内出现的认知障碍称之为POCD，根据认知障碍的严重程度分为轻度POCD和严重POCD。在病因学上，术后12个月才出现的认知障碍不再认为与之前的手术和麻醉相关。本文主要关注术后12个月内的NCD评估，因此继续使用POCD这一名称[5]。

1 认知领域的分类

在探讨POCD、评价NTB时，有必要先了解对于麻醉医生而言抽象的认知这一概念。在DSM-Ⅴ中，认知领域包括复杂注意、执行功能、学习和记忆、语言、感知-运动、社会认知。

警觉、定向和执行控制构成注意网络模型。警觉指的是大脑对可能到来的信息刺激保持高度敏感的状态；定向指的是大脑能够在通过各种感知方式输入的大量信息中选择一部分有用的信息；执行控制指的是根据输入信息的要求，完成指定行为而抑制常规反应倾向[6-7]。选择性注意、分配性注意和持续性注意组成注意的核心部分。执行功能是一项高级功能，包括计划、决策、工作记忆、错误利用、抑制控制及认知灵活性各方面。在众多神经心理测试中都涉及执行功能，例如示踪测试、反映认知灵活性的数字符号测试、涉及抑制控制的Stroop色词测试、Flanker测试。记忆系统可分为3个阶段：感觉记忆、短期记忆和长期记忆。刺激作用于感觉器官产生短暂记忆，持续几秒钟，很少一部分信息进一步处理成为短期记忆。长期记忆包括陈述性记忆和非陈述性记忆[8]。陈述性记忆需要意识的参与，可以进一步分为对事件的回忆，即情景记忆和对知识、概念、定义的记忆，即语义记忆。非陈述性记忆来源于过去的经验而没有意识的参与，例如骑自行车。语言包括表达性语言和接受性语言，Boston图片命名、语义流畅性和语音流畅性测试都反映表达性语言的能力，根据指令做相应的动作——简易精神状态测试量表(MMSE)中的三步命令即反映接受性语言的能力。感知-运动功能在组装任务(如搭积木)和临摹图画中起作用，这是一个复杂的认知能力，需要视空间技能、协调和执行等能力参与。社会认知是个体能够识别他人思想和感觉的能力。

根据研究领域标准(research domain criteria，RDoC)认知系统领域包括注意力、感知、陈述性记忆、语言、认知控制、工作记忆6部分。RDoC的分类和DSM-Ⅴ分类不完全一样，但不管是DSM-Ⅴ还是RDoC对认知领域的分类都有一定的重叠。RDoC中特别强调工作记忆，工作记忆是一种对信息进行暂时储存和加工的容量有限的记忆系统。工作记忆和短期记忆的信息能维持的时间都很短，但是工作记忆强调的是信息的储存和操作。工作记忆让人们记住一串数字、完成心算和接话接下来的事情。而在DSM-Ⅴ中，工作记忆属于执行功能的一部分，常见的工作记忆测试有数字广度-倒背、运算广度等。因此，在RDoC中认知控制和工作记忆重叠最多[9]。

虽然没有完美的认知分类，但了解认知领域有助于选择和评价目前临床研究中用于评估POCD的NTB。

2 临床研究常用的神经心理测试量表

临床研究中不同的神经心理学测试量表和统计学方法使得POCD的发生率不一致甚至有较大差异。在非心脏手术中POCD的发生率为12%～40%，心脏手术POCD的发生率普遍认为比非心脏手术高，为40%～50%[4,10]。通常采用的神经学测试量表和统计学方法越严格，POCD的发生率越低。

虽然NTB对POCD的诊断至关重要，但是目前临床试验中并没有统一的NTB用于诊断POCD。从MMSE、蒙特利尔认知评估量表(MoCA)到复杂的NTB，甚至计算机化NTB均被广泛应用于POCD的诊断[11]。目前大多数临床研究均采用NTB评估POCD，但是不同临床研究中NTB所包含的子测试不完全相同，子测试的个数也不一样。NTB子测试的个数对POCD的发生率会产生影响(类似于Ⅰ类错误)，有可能随着子测试的个数增加POCD的发生率而增加[12]。在不同的临床研究中NTB测试的时间间隔也不一样。除此在外，早期的临床研究中未采用非手术患者对照，考虑到重复测试所致的学习效应，非手术患者作为对照组被纳入POCD的研究中，采用可靠变化指数(RCI)计算学习效应[4-5]。目前临床研究中常用的神经心理测试量表主要有简易神经心理测试、NTB(包括计算机化NTB)。

3 简易神经心理测试量表

常用的简易神经心理测试量表有MMSE和MoCA，一般用于认知功能障碍的筛查。MMSE是一项经典的痴呆症筛查量表，包括定向(时间和地点)、记忆力、注意力和语言能力等。MMSE总分30分，分数越高认知功能越好，小学文化17分以上和初中及以上文化23分以上认为认知功能正常。MMSE具有良好的重测信度，重测信度为0.78～0.91，耗时短，易操作[13]。但MMSE受文化程度影响大，存在天花板效应，总体得分呈负偏态分布，大多数受试者分数偏高；对轻度认知障碍(MCI)敏感性降低；评估的认知领域不够全面，不能有效绘制个体认知轮廓[14]。MoCA包含视空间/执行功能、命名、记忆、注意力、语言、抽象能力、定向，总分30分。MoCA重测信度为0.85～0.97[15]；具有易操作、耗时短；相对MMSE具有更高的敏感度。MoCA最大的不足是中文版的引入和使用需要根据不同的文化背景对评估的内容做适当调整。受文化背景的影响，在命名测试中，58.2%的受试者无法识别“犀牛”和“骆驼”；单词记忆中，“天鹅绒”和“教堂”也不容易被受试者理解[16]。

随着流行病学研究的发展，特别是针对大人群、长期随访，电话随访应运而生。修订版认知功能电话问卷(TICS-m)尤其适用于受试者不能进行面对面评估的情况。TICS-m由MMSE演变而来，包含12个项目，评估了时间和空间定向力、思维控制、记忆、常识、语言和计算力。TICS-m总分50分，分数越高认知功能越好。TICS-m量表的内容结构和MMSE相似，侧重于记忆功能，同样操作简单。但相对MMSE而言，TICS-m的得分接近正态分布，天花板效应不明显，能更好地用于MCI的筛查[17-18]。电话版MoCA总分22分，分数越高认知功能越好。TICS-m和MoCA相比，在测试视空间和复杂语言方面受限制。

4 NTB

简易神经心理测试量表不能单纯用于诊断临床研究中POCD的发生率，较多用于患者术前认知功能的筛查，通常需要NTB才能满足临床诊断。选择合适的神经心理测试量表非常重要，一方面避免量表个数太少不能涵盖所有的认知领域，不能对患者进行全面评估；另一方面又要避免量表个数过多，变异性大导致偶然的认知障碍，增加POCD的发生率；而且，评估时间过长，受试者难以配合[19]。到目前为止还没有统一的NTB。国际POCD研究组(ISPOCD)研究表明，以下4种测试量表测试结果和常模人群的年龄、IQ有很好的相关性：字母-数字编码、Stroop色词测试、感念转换测试、视觉语言学习测试，此外，这4个测试量表具有很高的可重复性[20]。1998年，MOLLER等[19]在一项纳入1 218例受试者的多中心临床研究中，其NTB由视觉词语学习测试、概念转换测试、Stroop色词测试、纸笔记忆扫描测试、字母-数字测试、Four boxes test 6个测试组成。后续很多临床研究NTB中子测试的选择都参考该NTB。临床研究中常见的NTB还有中文版阿尔茨海默病联合注册表-神经心理学成套测试(CERAD-NAB)、重复性成套神经心理状态测试(RBANs)等。

临床研究中NTB多种多样，但最常使用的测试还是比较固定(表1)。在选择合适的测试组成NTB时，(1)应该注意NTB能对受试者的认知领域做全面的评估，当然有的测试不一定只涉及单个认知领域。(2)选择的测试最好有平行版本，可以减少受试者的学习效应。除了采用平行版本，为了减少学习效应，在试验设计时通常会纳入一组年龄、学历相匹配的非手术患者作为对照组。还要避免测试难度太大或太小，因为天花板或地板效应而降低该测试的敏感性。(3)测试要有比较好的重测信度，但是重测信度受两次测试的间隔时间长短影响。在临床研究中两次测试的间隔时间一般为7 d、1个月和12个月。

就NTB而言，轻度POCD的诊断标准：A、至少两个子测试-1.65≥Z>-1.96,即分数下降在1～2个标准差内；和(或)B、-1.65≥Zcombined>-1.96。同样地，重度POCD的诊断标准：A、至少两个子测试Z≤-1.96，分数下降即超过2个标准差；和(或)B、Zcombined≤-1.96。

随着计算机的普及，计算机化的NTB在临床研究中的使用也越来越多。计算机化的NTB基于网页管理，具有标准化管理和刺激提示，精确测量受试者反应时间，及时与受试者的既往测试结果和常模人群数据对比等优点，使用平行版本来降低学习效果[22]。

5 展望

POCD的研究长期是在手术和麻醉的背景下进行，和非手术患者的认知功能下降没有任何联系，和神经病学、精神病学、老年病学、神经心理学、外科学等学科没有交叉。EVERED等[5]还强调围术期神经认知紊乱不再仅限于客观NTB的评估，同时来源于患者的主观抱怨，知情者或医生的观察和工具性日常生活能力(ADLs)也成为围术期神经认知紊乱不可缺少的部分。为降低围术期POCD的发生率，临床研究提出了各种干预措施：减少抗胆碱能药物的使用、监测麻醉深度避免麻醉过深、监测脑氧饱和度；药物治疗，如右美托咪定、维生素D、COX-Ⅱ抑制剂、他丁类药物和利多卡因等；以及围术期认知训练和体能运动等各种措施[23]。目前虽然还没有任何一种干预措施的改善效果得到一致肯定，但是从术前到术后多学科的参与及评估量表的统一，必将POCD的临床研究推入新纪元。