神经心理发育障碍儿童静态眼睛照片深度学习的病例对照初步研究
2021-08-11杨友
杨 友
某些神经心理发育障碍儿童的眼睛特征可能具有重要的临床价值,如孤独症谱系障碍(ASD)。临床儿科医生对ASD儿童的眼睛特征有一些描述[1-4],如缺乏持续的眼神交流,眼神飘忽不定,斜着眼睛看人,躲避眼神对视等。除ASD外,情绪障碍、述情障碍和视觉障碍也会影响儿童眼神交流[5-7]。这些常见的神经心理发育障碍主要表现为社会交往功能缺陷,并呈现出一些相似的眼神特征。早期干预可以极大改善预后,因此需要进行早期筛查。随着人工智能的发展,机器学习越来越多地应用于医学图像分析,如计算机辅助诊断[8, 9]。笔者既往研究显示脸部表情可以应用于儿童发育神经心理障碍的早期筛查[10]。单纯静态眼睛图像是否具有同样的价值,值得进一步探讨。
1 方法
1.1 知情同意和伦理 本研究经上海交通大学医学院附属上海儿童医学中心(我中心)伦理委员会批准(批准号:SCMCIRB-W2020002)。本研究为回顾性资料收集,无法找到受试者,无法取得知情同意,且研究项目不涉及个人隐私和商业利益,获取我中心免知情同意。
1.2 双眼图像采集 应用Google人脸图片搜索引擎进行图片搜索,以“autism and child/autistic child”和“normal child/healthy child”关键词搜索到的图片分别归为神经心理发育障碍组和对照组。图片选择参照既往发表的文献[10]。人工删除完全重复的照片、卡通照片、有面部畸形的照片、没有儿童脸的照片和有多个儿童脸部的照片;当照片中包含成人的脸时,应用绘图工具去除成人脸。应用图像工具识别和挖取每张儿童人脸照片中的双眼图像。生成的眼睛图像调整至128×28分辨率(8位灰度)。
1.3 卷积神经网络(CNN) 由LeCun等设计的多层人工神经网络确立了CNN的现代结构[11]。CNN是一种深度学习模型或类似于人工神经网络的多层感知器,常用来分析视觉图像。基于一台安装了Kera、Scipy和Python成像库(PIL)的Windows 7计算机,采用二进制交叉熵损失函数和RMSprop算法优化器对模型进行训练。
1.4 评估分类效果
1.4.1 深度学习模型 采用CNN模型机器基于神经心理发育障碍组和对照组的眼睛特征深度学习。将图像数据分为训练集、验证集和测试集。运用深度学习训练模型结果对测试集进行预测分类。神经心理发育障碍组测试分数>0.5为分类正确,对照组≤0.5为分类正确。因为该模型较小,所以任意选择了一个训练次数,并且使用了激进的dropout率。为避免过度拟合,及早停止训练(训练次数在25次)。根据既往报道[12],本研究所提出的CNN人眼分类器以良好的准确性排除了数据的过度拟合。
1.4.2 深度学习训练模型的准确性和损失率 以分组检索结果为“金标准”,以深度学习训练模型分组为待测标准。①准确率=(真阳性例数+真阴性例数)/(真阳性例数+真阴性例数+假阳性例数+假阴性例数);②损失率,通过训练集和验证集来计算。应用交叉熵损失函数计算正确标签的似然对数。交叉熵的计算公式为:L=-[y× log(p)+(1-y) × log(1-p)],其中y为样本标签,正确为1,错误为0,p为预测正确概率。通过损失函数的计算,更新模型参数,减小模型的经验风险。
1.5 生成眼睛照片 CNN特征提取采用深度学习训练模型,提取的特征通过支持向量机(SVM)训练。特征图像由卷积图层的可视化生成(详情见网站:https://github.com/wepe)。
1.6 统计学方法和受试者工作特征(ROC)曲线 计量资料以xˉ±s表示,计数资料以n(%)表示,P<0.05为差异有统计学意义。应用SPSS 24.0软件录入数据、进行统计分析和绘制ROC曲线。
2 结果
2.1 一般资料 采集到826张儿童眼睛图像,神经心理发育障碍组413张,对照组413张。训练集736张(89.1%),神经心理发育障碍组和对照组各368张;验证集44张(5.3%),神经心理发育障碍组和对照组各22张;测试集46张(5.6%),神经心理发育障碍组和对照组各23张。
2.2 训练集和验证集的准确率和损失率 表1显示,训练集和验证集准确率随训练次数增加呈升高趋势,训练集和验证集损失率随训练次数增加而逐渐下降。
表1 不同迭代次数训练和验证准确率和损失率比较(xˉ±s)
2.3 深度学习训练模型的特异度和敏感度 深度学习训练结果显示,神经心理发育障碍组和对照组测试分数分别为0.66±0.20和0.20±0.15,差异有统计学意义(t=9.03,P<0.001),正确分类例数分别为18/23例(78.3%)和22/23例(95.6%)。准确率为87.0%,敏感度为78.3%(95%CI:58.1%~90.3%),特异度为95.6%(95%CI:79.0%~99.2%)。深度学习训练模型ROC曲线显示,AUC=0.962(图1)。
图1 眼睛照片分类器ROC曲线
2.4 特征性眼睛图像生成 由CNN卷积图层的可视化生成神经心理发育障碍组(图2A)和对照组(图2B)的特征性眼睛照片。神经心理发育障碍儿童和正常儿童眼间距像素(图像显示的基本单位)数为分别90和70。
图2 眼睛照片生成结果
3 讨论
本研究首次通过深度学习训练模型为神经心理发育障碍和正常儿童提供了眼睛特征的初步证据。结果表明,通过深度学习训练模型可以获得眼睛特征,有利于通过眼部特征改善儿童神经心理发育障碍的早期筛查。
眼睛区域包含人脸识别最重要的视觉信息[13]。与其他任何特征相比,人们更喜欢看眼睛[14,15]。本研究主要侧重于眼睛特征的筛选,有别于以往通过表情刺激获取的情绪体验[16],使用源于网络的826张眼睛图像通过深度学习训练模型进行分类,结果表明,区分神经心理发育障碍组和正常对照组儿童眼睛图像,具有较高的真阳性率和较低的假阳性率,由于为计算机判读,不存在人为主观判断的偏差。鉴于人眼也很难通过观察眼睛图片来推断人的社会心理特征,结果是可接受的,深度学习训练模型可以将两组眼睛照片进行恰当分类(表1和图1)。需要说明的是,与通过人脸进行筛查测试的结果相比[10],眼睛特征深度学习训练模型的准确率略低,可能是由于忽略了脸部其他部位的信息所致,这也符合人类的认知实践,缺乏背景参考信息会增加再认的难度,比如辨认戴口罩和帽子的人脸时往往更加困难。另外,也可能与及早停止训练有关。为避免过度拟合,眼睛照片的训练次数为25次,而以往全脸照片的训练次数为200次[10]。
深度学习训练模型在生成的两组眼睛的图像中,眼间距存在肉眼可识别的差异。神经心理发育障碍组较正常对照组儿童眼间距宽,两组眼间距相差20个像素数。该结果符合一般临床实际,如最常见的21-三体综合征、18-三体综合征等。另外,神经心理发育障碍特征性眼睛图片可见眼神分散、游离,可能和眼间距宽有关;而正常儿童特征性眼睛图片眼神更加聚集,有凝视感。总体而言,对照组的眼神较神经心理发育障碍组更有交流的欲望,与以前的研究结果一致[17,18]。
本研究的局限性:①基于互联网检索的图像数据进行分类,增加样本量有助于提高结果的可靠性。②缺乏拍摄静态图像时的情景信息。至少控制以上因素可能会进一步减少研究的实验偏差。