孤独症婴幼儿图片测验的信效度分析

2019-01-07李维君邹时朴钟云莺

现代医院 2018年11期

龚俊李维君邹时朴钟云莺钟霞

孤独症谱系障碍(Autism Spectrum Disorder，ASD)是一类症状表现为社交交流缺陷和受限、重复性行为的发育行为障碍，其对患儿的社会功能产生明显影响，甚至终身残疾。目前ASD的预后取决量表的早期筛查。国内外均为文字性量表，尚缺乏图表性量表。考虑到江西省目前主要以农村人口为主，受限于文化程度对文字的理解欠佳，故引入孤独症婴幼儿图片测验(Pictural Autism Screening Scale for Infant and Toddlers，PASS- IT)，以检验其信、效度，探讨其筛查早期ASD的适用性。

1 对象与方法

1.1 对象

1.1.1 ASD组为2015年4月—2016年9月于江西省儿童医院儿童保健科就诊的ASD患儿。入组标准：年龄60月龄以内，由儿童保健科主任医师根据美国精神障碍诊断与统计手册第5版(Diagnostic and Statistical Manual of Mental Disorders-5, DSM-5)[1]，确诊为ASD，共入组90人，其中男81人，女9人；年龄18～56个月，平均(33.53±8.38)个月。

1.1.2 全面发育迟缓(Global Developmental Delay, GDD)组入组标准：由儿童保健科主治医师以上专业人员采用Gesell发育测验进行诊断，共入组96人，其中男78人，女18人；年龄21～60月龄，平均为(37.47±10.39)个月。

1.1.3 正常儿童组入组标准：由儿童保健科主治医师以上专业人员采用丹佛发育测验检查为发育正常儿童。共入组92人，其中男82人，女10人；年龄18～48月龄，平均为(31.93±7.63)个月。

三组年龄差异无统计学意义(考虑三组年龄不全满足正态分布，故采用Kruskal-Wallis H检验比较3组年龄，H值为6.263，P=0.064)，3组男、女性别比无统计学差异(2=3.792，P=0.150)。因此三组之间样本具有可比性。

1.2 工具

1.2.1 孤独症婴幼儿图片测验[2]PASS-IT为美国北达科他大学儿科学专家Larry Burd编制，由25张图片组成，根据儿童平时是否有如图片所示的动作或表情回答“是”或“否”，项目9、11、15、21、23、24回答“是”计1分，其余项目回答“否”计1分。总分≤20为阳性结果，怀疑为ASD患儿。

1.2.2 儿童孤独症评定量表(Childhood Autism Rating Scale, CARS) CARS是目前最常用的ASD评估工具之一，总分<30分为非ASD；总分在30～36之间，则为轻或中度ASD；总分≥36分，则为重度ASD。

1.2.3 婴幼儿孤独症筛查量表(Checklist for Autism in Toddlers-Twenty-Three，CHAT-23)中文版[3]CHAT-23分家长问卷(A)和观察部分(B)部分，A部分由家长评估，共23项，其中包括7个核心项目；B部分共4项。筛查标准：23项中≥6项阳性或7个核心项目中≥2项阳性或4个观察项目中≥2项阳性考虑ASD可能。

1.3 实施过程

首先收集符合标准的ASD、GDD、正常儿童，其中ASD采用CARS评定DSM-5的诊断标准进行诊断，GDD采用Gessell发育测试来诊断；正常儿童采用丹佛发育筛查测验来确定。然后对所有的受试者进行PASS-IT和CHAT-23评估。

1.4 统计方法

运用SPSS 20.0统计软件进行数据统计分析,采用Cronbach a系数和分半信度评估PASS-IT的信度，采用Spearman相关系数评估PASS-IT的效标效度；采用2进行项目分析；采用Kruskal-wallis H检验和Nemenyi法检验评估PASS-IT的区分效度。

2 结果

2.1 信度

2.1.1内部一致性系数 PASS-IT中文版的Cronbacha系数为0.895。

2.1.2 分半信度经过Spearman-Brown修正后的分半信度系数为0.916。

2.2 效度

2.2.1 各项目的鉴别诊断效度考虑每个项目为二分类变量(阳性为1，阴性为0)，属于计数资料，故采用2检验进行三组之间的单项阳性率比较，从表1可知：除项目10、11、15、21、22外，其余项目三组间阳性率比较差异有统计学意义。见表1。

表1 各项目三组之间比较

2.2.2 量表的区分效度考虑到三组量表总分不全满足正态分布，故采用多个独立样本比较的Kruskal-WallisH检验比较三组之间量表总分：H=124.555，P<0.001，存在显著差异，有统计学意义。采用多个独立样本两两比较的Nemenyi法进行三组总分两两比较，ASD组和GDD组之间存在统计学差异，2=-59.965，P<0.001；ASD组和正常组之间存在统计学差异，2=-95.881，P<0.001；GDD组和正常组之间存在统计学差异，2=-35.916，P<0.001。

2.2.3 效标效度考虑到PASS-IT中文版总分和CARS总分均不满足正态分布，故采用Spearman相关系数评估PASS-IT中文版的效标效度。PASS-IT中文版与CARS总分的Spearman相关系数为0.597，P<0.001。

3 三组PASS-IT中文版的筛查情况

以美国的筛查界限分标准(总分≤20为阳性)为评判标准，ASD组阳性为89人，阴性为1人，灵敏度为98.9%；GDD组阳性为66人，阴性为30人，特异度为31.2%；正常儿童阳性为17人，阴性为75人，特异度为81.4%，总体特异度为63.7%。

本研究进一步探讨最佳的界限分，以Youden指数即：灵敏度(ASD组)+特异度(GDD组+正常组)-1最大为标准，见表2。

筛查界限分≤15分，Youden指数最高，ASD灵敏度为90%，GDD组特异度为81.2%，正常组特异度为98.3%，为本研究适合中国本土的最佳筛查界限分。见表2。另外采用CHAT-23评估，灵敏度为96.8%，GDD组特异度为70.8%，正常组特异度为80.7%。PASS-IT灵敏度比CHAT-23稍低，但已达到较高水平，特异度明显比后者高。

表2 各界限分的灵敏度、特异度、Youden指数 (%)

4 讨论

儿童ASD是致残性较高的发育行为障碍，目前在门诊就诊的人次逐年增高[4]。其预后取决于尽早发现与干预。从临床实践来看，大多数ASD在2岁以前就已经存在症状，而实际上大多数ASD在3岁以上才被发现[5]。因此如何尽早发现ASD患儿显得尤其重要，而目前早期筛查ASD有赖于筛查量表[6]。本文所研究的量表是孤独症婴幼儿图片测验(PASS-IT)，是图表式筛查量表。本文主要研究其信效度、项目分析，以探讨其筛查早期ASD的适用性。

从信度结果显示：PASS-IT的Cronbacha系数为0.895，分半信度为0.916，表明PASS-IT的内部一致性系数和分半信度较好，评定结果具有较好的稳定性和一致性。

本研究采用三组之间的单项阳性率比较来检验量表各项目的鉴别诊断效度。结果显示，除了项目10、11、15、21、22，PASS-IT中文版的多数项目具有较好的鉴别诊断效度。项目10(喜欢被拥抱)和项目22(大人准备抱的时候，会张开手臂准备)反映无论ASD、GDD还是正常儿童均喜欢被拥抱或张开手臂准备被抱。对于项目11(专注车轮15 min)而言，在临床上极少有ASD、GDD患儿能连续专注车轮15 min及以上，ASD一般是频率较高，正常儿童也很少如此；项目15(对玩具摆放次序打乱感到烦躁)的内容家属难以理解，容易被理解为儿童玩耍被干扰会感到烦躁生气；项目21(脚趾走路)可能被家属误认为是偶尔出现。

从三组量表总分比较来看，三组总分存在显著差异，ASD组显著低于GDD组，而GDD组显著低于正常组。

在量表研究中，如效标效度相关系数在0.4～0.8之间，则说明效标效度较理想[7]。本研究发现PASS-IT中文版总分与CARS总分的Spearman相关系数为0.597，P<0.001，有统计学意义。CARS由主治医师及以上医师评定，结果与临床诊断符合度较高，提示PASS-IT中文版具有较好的效标效度。

本研究发现以美国的界限分为评判标准，ASD的灵敏度为98.9%，张娜等[8]研究所得的PASS-IT的灵敏度为88%,低于本研究结果。一般而言筛查量表的灵敏度不应低于90%[9]。说明本研究的灵敏度较好。但特异度为63.7%，接近张娜等[8]的64.25%，与本研究纳入GDD有关，因为考虑到辅助诊断试验评价的对照组选择除正常人外，还应包括与病例组难以鉴别的病种[10]，而在临床中发现ASD与少量的GDD难以鉴别，故本研究对照组中不但纳入正常儿童组，还包括GDD组。从本研究中发现GDD组特异度仅为31.2%，而正常组特异度为81.4%，进一步探讨筛查界限分对GDD、正常组特异度的影响。

本研究分别计算了不同的筛查界限分水平时量表的灵敏度和特异度，发现如果以总分≤15分为评判标准，Youden指数最大，ASD组灵敏度、MR组特异度、正常组特异度分别为90%、81.2%、98.3%。从上述结果来看，总分≤15分作为中国本土的筛查界限分更恰当，但需要更大的样本量进行验证。由此可知中国病人和美国病人之间无论ASD还是GDD的精神病理可能存在跨文化差异。另外与CHAT-23比较，灵敏度稍低，但仍较理想，特异度比后者好。

总之，PASS-IT具有较好的信度和效度，因此可用于ASD的早期筛查。同时，项目以图表式显现，文化程度偏低的家长也能很好理解，有助于减少理解偏差所致的应答错误。但是，该量表少数项目对于三组的鉴别效度欠佳，因此，应进一步完善。另外筛查界限分的确定，仍需要更大的样本量来确定。