基于自注意力机制的新生儿胆道闭锁识别
2023-04-29秦中翰艾成博谭超群刘洪杜文超杨红雨吴志红陈虎
秦中翰 艾成博 谭超群 刘洪 杜文超 杨红雨 吴志红 陈虎
摘要:新生儿胆道闭锁是新生儿常见的致命疾病之一,并且该病在亚洲的发病率高于世界其他地区.新生儿胆道闭锁需要及时发现及时治疗,然而由于缺少专业的儿科医生和辅助诊疗手段,新生儿父母往往不能及时发现而错过了最佳治疗时间.因此,本文开发了一个具有实际应用价值的预诊算法,通过新生儿粪便图片预测新生儿是否患有新生儿胆道闭锁,并提醒新生儿父母及时就诊.为了让算法在应用场景下识别率更高,本文的算法基于一个真实场景下拍摄的新生儿粪图片数据集开发. 首先我们设计了一个自注意力网络模型BANet(Biliary Atresia Network),将图片的浅层特征和深层特征相结合,可以得到更好的分类效果. 由于拍摄自应用场景下的图片存在过暗和过曝等问题. 通过分析数据集的亮度分布,我们设计了一个自动亮度调节算法解决. 此外,图片中的阴影也会对识别结果造成干扰,因此我们在训练阶段增加了一种阴影数据增强方式来缓解这一问题.为验证本文提出算法的有效性,本文设计了一个和医生的对比试验.结果证明BANet在四分类的识别率、二分类的识别率、特异性和敏感性等客观评价指标上占有明显优势.本文提出的BANet能够有效利用图片中的颜色、异常点等信息,并且通过对图片亮度进行补偿,提高了整体算法準确率和鲁棒性,在实际应用场景取得了良好的效果.
关键词:新生儿胆道闭锁; 自注意力; 数据增强; 卷积神经网络
收稿日期: 2022-11-25
基金项目: 国家自然科学基金(61871277); 四川省卫生健康委员会科研课题(19PJ007); 成都市卫生健康委员会科研课题(2022053)
作者简介: 秦中翰(1998-),男,山东临沂人,硕士研究生,研究方向为图像处理与神经网络.E-mail: zhonghanqin@stu.scu.edu.cn
通讯作者: 陈虎.E-mail: huchen@scu.edu.cn
Recognition of neonatal biliary atresia based on transformer
QIN Zhong-Han1, AI Cheng-Bo2, TAN Chao-Qun3, LIU Hong1,3, DU Wen-Chao3, YANG Hong-Yu1,3, WU Zhi-Hong3 , CHEN Hu1
(1. College of Computer Science, Sichuan University, Chengdu 610065, China;2. West China Hospital of Sichuan University, Chengdu 610065, China;3. State Key Laboratory of Fundamental Science on Synthetic Vision, Sichuan University, Chengdu 610065, China)
Neonatal biliary atresia is one of the most common fatal diseases in neonates, with higher incidence rates in Asia than in other parts of the world. Early detection and treatment of neonatal biliary atresia are crucial, yet the lack of professional pediatricians and auxiliary diagnostic and treatment methods can cause parents to miss the best treatment window. To address this issue, this paper develops a predictive algorithm with practical application value that uses neonatal stool pictures to predict whether the newborn has neonatal biliary atresia and reminds parents to visit a doctor in time. To achieve higher recognition rates in practical scenarios, the algorithm in this paper is developed based on a real-scene dataset of newborn fecal images. First, we designed a self-attention network model BANet (Biliary Atresia Network), which will combine shallow features and deep features of pictures to get better classification. To address issues as dark or overexposed images, we developed an automatic brightness adjustment algorithm by analyzing the brightness distribution of the dataset. Furthermore, we added a shadow data enhancement method duiring training to mitigate the inference of shadows on recognition results. In order to verify the effectiveness of the algorithm proposed in this paper, we design a comparison test with doctors. The results show that BANetoutperformed doctors in objective evaluation indicators such as the recognition rate of four classifications, the recognition rate of two classifications, specificity and sensitivity. The proposed BANet can effectively use the color, abnormal points and other information in the picture, by compensating the brightness of the picture, the accuracy and robustness of the overall algorithm are improved and good results have been achieved in practical application scenarios.
Neonatal biliary atresia; Self-attention; Data augmentation; Convolutional neural network
1 引 言
新生儿胆道闭锁是一种在婴儿期破坏肝外胆管的肝胆类疾病[1].胆道闭锁一般在婴儿出生后1~2个月发病.葛西手术是治疗新生儿胆道闭锁的首选治疗方法[2].最佳葛西手术时间是出生后两个月内,并且治疗的时间越早,新生儿术后的存活率越高[3].未接受治疗的婴儿可能在2岁以内死亡[2],所以及时诊断非常重要.由于基因和饮食习惯等因素影响,新生儿胆道闭锁在亚洲的发病率远高于其他地区[4].然而由于缺乏儿科医生和一些辅助诊断工具,很多患者得不到及时有效的治疗.因此,有必要开发辅助诊断工具以帮助父母检测胆道闭锁.
我们与四川大学华西医院儿科合作,收集新生儿的粪便图片.所有图片均由新生儿家长拍摄,汇总后由三位专家医生标注,最终共有2946张图片可作为数据集供后续使用.我们命名为新生儿胆道闭锁粪便数据集.
基于这个数据集,我们使用CNN(Convolutional Neural Network)、Transformer[5]等机器视觉技术开发一个新生儿胆道闭锁的识别算法.现有研究表明,图片纹理对深度神经网络分类的影响很大[6].而我们的研究中,颜色是分类的最重要依据,纹理次之.因此为了让图片的颜色特征在最终分类过程中的权重更大,我们设计了一种网络结构,将图像的浅层颜色特征和深层特征融合,提高模型的识别率.
在模型训练过程中,我们发现由于数据集中的图像来自真实使用场景,拍摄设备和照明条件有较大差异,部分图片存在过曝和过暗等问题.光线环境和设备很大程度上干扰了模型的预测结果.因此我们设计了一种自动亮度调节算法来解决这个问题.
此外在研究过程中,通过分析模型的热图,发现模型对图片中的阴影部分给予了过多的关注与权重.图片中不规则的阴影对模型的识别结果产生了极大的干扰.因此,我们设计了一种数据增强方法,在训练过程中随机给输入的图片增加阴影,让训练模型注意到阴影不是图像的主要特征,增强了模型的泛化能力.
由于我们的算法是基于真实场景下开发,因此我们设计了一个对比实验来比较算法、医生和患者使用新生儿粪便比色卡的识别率,以此来验证我们算法的有效性.
综上所述,本文有以下贡献:(1)设计了一种可以将浅层特征和深层特征相结合的自注意力网络BANet,提高了算法的识别率;(2)提出了一种在实际应用场景下可自动调节图片亮度的算法,提高了模型在不同光线环境下的鲁棒性;(3)提出了一种图像增强方法,增强了模型的泛化性能,解决了图像阴影对模型识别的干扰.
2 相关工作
2.1 传统方法
自2002年起,台湾开始向新生儿家庭发放新生儿粪便比色卡(ISCC)[7],并向新生儿父母宣传如何使用比色卡以便及时发现异常.新生儿粪便比色卡帮助潜在患者及时发现疾病并治疗,提高了患者的存活率[8].2013年,北京推出大便色卡,上海和深圳也紧随其后引入了比色卡[9,10].新生儿粪便比色卡预筛选有效,但其效果并不完美.由于发放和宣传如何使用新生儿粪便比色卡并不方便,家长们也可能缺乏经验没有及时发现婴儿的异常.
随着信息化发展,手机得到广泛使用.2015年,约翰霍普金斯大学首先开发了名为PoopMD的应用程序,通过分析用户上传的新生儿粪便图片识别是否异常.PoopMD使用的算法是基于颜色空间的色彩对比,将拍摄图片的粪便颜色与新生儿粪便比色卡中的颜色进行比对得出结果[11].由于颜色是判断是否有疾病的主要指标,异常大便的饱和度低于正常大便.2016年,Shen等人[12]使用HSV颜色模型中的饱和度作为鉴别是否异常的重要指标,将提取粪便的主要颜色并计算饱和度,异常粪便的颜色饱和度低,正常粪便的颜色饱和度高.2017年,Hoshino等人[13]基于类特征信息压缩(CLAFIC)方法设计了一种分类算法,将随机挑选图片中的几个点并使用这些点的RGB和HSV值作为分类的主要依据.
2.2 深度学习方法
随着神经网络的发展,深度学习方法在图像处理方面的应用愈发成熟,一些基于深度学习的图像处理方法,如图像分类算法ResNet[14],ViT[15]等都展示了神经网络在医疗分类任务中的的潜力和可能性.
在新生儿胆道闭锁识别方面,Angelico等人[16]基于神经网络设计了一种分类方法.该方法的分类标准也是基于新生儿粪便比色卡,并将新生儿粪便比色卡中定义的7类简化为3类.其中1~3 类为“正常”,4 类为“不确定”,5~7 类为异常.该算法先分析图片的主要颜色,然后使用归一化算法来补偿照明情况,最后放入神经网络中分类.
3 方 法
在3.1节中,我们尝试各种BackBone网络模型.通过实验发现只使用卷积的网络和只使用Transformer的网络并不能取得很好的效果,因此我们设计了BANet网络. 在3.2节和3.3节中,通过分析BANet识别错误的原图和注意力热图,我们发现图片过暗或过曝会影响模型识别,并且图片中阴影部分会干扰模型识别过程.为了提高模型在真实场景下的鲁棒性和泛化能力,我们设计了一种亮度调节算法和图像增强算法来缓解这些问题.此外,在3.4节中我们根据医生的诊断经验,尝试了各种颜色空间寻找一种可以更好体现数据集中的色度差异,最终通过实验选择了YCrCb格式用于后续的训练和应用.
3.1 网络模型设计
在网络模型设计阶段,我们通过实验发现,仅使用深度卷积网络,如ResNet[14]、EfficientNet[17]等,或仅使用Transformer的自注意力网络,如ViT、Swin[18]等,都不能取得很好的性能.Transformer 具有更大的模型容量和全局注意力,但其缺乏归纳偏差,需要大量数据进行训练.然而,我们的数据集数量偏少,不足使其收敛.卷积网络具有更好的泛化性,收敛速度快,并且不需要大量数据就可以很好地拟合.但其只有局部感受野,缺乏全局注意力.Dai等人[19]设计了CoAtNet巧妙地结合了卷积网络和Transformer网络,让其同时具有全局注意力和更快的收敛速度,并且所需要的数据量可以大幅减少.基于此种设计思想,我们设计了BANet.
如图1a所示,BANet网络模型分成三部分:浅层特征处理模块、注意力模块和颜色特征处理模块.通过分析医生的诊断过程,我们发现图片的颜色和异常点是诊断的主要依据.因此我们设计了浅层特征处理网络来得到浅层特征,并增加注意力网络来提取图片中的异常点特征信息.此外,目前的研究发现,图片纹理在神经网络识别过程中所占权重更大[6].而对于本文项目,颜色特征对于最终的识别也非常重要.而在神经网络特征提取过程中,图片的颜色特征可能会丢失,因此我们设计了一种颜色特征处理模块,可以保留图片的颜色特征用于最终的识别.
浅层特征处理模块仅由卷积组成,由于卷积只具有局部注意力,增加DConv[20]层扩展其感受野.注意力模块主要由Transformer层组成,Transformer层的结构如图1b所示.颜色特征处理模块主要由ROI层和全连接层组成,因为数据集的图片边缘一般是无效信息,因此我们仅选取图片中央部分计算图片三个通道的均值.实验表明,以图片中央为中心,ROI长宽为原图0.6倍时效果最好.计算ROI各个通道的颜色均值并输入全连接层生成特征.最后和注意力模块提取的特征拼接并输入全连接层输出结果.
最后我们使用交叉熵作为损失函数,定义为
其中,(xi,yi)是数据集D的样本;xi是图像;yi是它的真实标签. p(xi) 是第 i 类预测概率,由 BANet 计算得出.
3.2 数据集的曝光分析
在分析BANet错误识别结果时发现,部分图片过曝和过暗会导致识别出错,因此我们通过分析数据集的亮度情况,设计了一种自动图片亮度调节算法,可以有效地解决图片亮度异常问题,提高了算法识别率.
首先,我们将数据集中的所有图片转换成HLS格式并计算每个图片的平均亮度值,计算亮度的公式如下:
其中,X是输入的图片;n和m是图片的长和宽;X(i,j,1)表示图像在(i,j)位置的图像亮度值.图片HLS格式中,1表示亮度值通道.
计算所有图片的亮度并绘制数据集亮度的统计直方图,如图2a所示.
如图2a所示,我们发现数据集亮度分布近似均值为μ=140.33,σ=16.89的正态分布.其中中间图片的亮度正常,处于左端的图片亮度过暗,右端的图片过曝.过暗和过亮的图片很容易造成误判.根据正态分布,区间[μ-2×σ,μ+2×σ]内的数据约占 95.44%.我们定义了两个阈值:dark_threshold和light_threahold,作为调整亮度的边界条件,并将其初始化为106和174.我们设计了一种基于Gmma校正[21]的图片亮度调整算法,根据图片亮度与阈值之间的差值来调整图片的亮度.亮度调整公式如下.
图片亮度调整是通过γ参数校正,γ的计算方式是根据图片亮度均值与阈值之间的差值计算得出.如果图片过暗,那么γ<1,图片亮度提升;如果图片过曝,γ>1,图片亮度下降.
综上,整个亮度调整算法流程如下.
(1)在将图片输入识别网络前,首先图片转换成HLS格式.
(2)计算图片的亮度均值并与阈值做比较,如果低于阈值dark_threshold, 则表示图片亮度过暗;如果高于阈值light_threahold,则表示图片过曝.
(3)如果图片过暗或过曝,根据亮度调整算法调整图像亮度到正常的曝光区间.
通过实验发现,当dark_threshold =122和light_threahold=158时,识别效果最佳.并且根据图像亮度调整算法,调整后的数据集亮度分布收缩,如图2b所示,过暗或过曝的图片得到了补偿.此外通过消融实验(详见实验部分),图片亮度调整算法确实可以提高算法的识别率.
3.3 随机阴影增强
通过分析BANet错误识别结果的热图,我们发现模型的注意力更多地集中在图片的阴影部分,这与医生的判断方式不相同.如图3第2行图片所示.BANet错误地把阴影部分视为识别的关键部分.为了解决图片阴影部分的干扰,我们设计了一种图像增强方法.
受CutMix[22]和Cutout[23]等数据增强方法的启发,我们提出了一种随机选择矩形区域并降低其亮度的数据增强方法-随机阴影增强(Random Shadow).我们定义了随机矩形区域的边长shadow size,降低的亮度值shadow value以及使用Random Shadow的概率shadow rate.
通过Random Shadow模拟阴影,让模型注意到阴影不是图片的主要特征,从而提高模型的抗干扰能力,增强模型的泛化能力并提升算法识别率.使用Random Shadow的前后对比如图3所示.
3.4 整体流程
因为医生在临床上会根据新生儿粪便的颜色和色深来诊断,所以我们尝试了各种类型的颜色格式(HSV、LAB、YCrCb等)以探索一个可以更好展现类别差异的颜色空间.一般拍摄的图像都是基于RGB颜色空间,而在RGB颜色空间中,颜色和色深无法非常直观地体现出来.如果将RGB转换成YCrCb空间,Y表示亮度,Cr和Cb分别表示色度,作用是描述图片的色彩及饱和度,用于指定像素的颜色.这种更符合医生临床判别经验的色彩空间可以将数据中的差异更好地表现出来.因此取得的实验效果最好.
本文方法的处理流程如图4所示. 在训练阶段,首先根据亮度调整算法调整图像的曝光,然后通过Random Shadow生成阴影.最后将图像放入模型中进行训练.在测试阶段,直接调整图像的亮度并将其放入模型进行分类.训练的伪代码如算法1所示; 测试的伪代码如算法2所示.
4 实现和评价指标
4.1 评价指标和对比方法
本文对照医生、一种传统方法(新生儿粪便比色卡)和三种现有方法(BabyPopo,HSV,Poop MD),采用常用于医疗图像分类的评价指标,特异性、敏感性以及识别率分析.所有方法都在验证集中测试,因为有些方法是二分类和三分类算法,我们将其中的几种类别融合后再做实验,然后比较各个客观评价指标.此外,为了更好地展示我们提出方法的有效性,还使用了ROC曲线、T-SNE和消融实验等方法.
4.2 数据集
由于新生儿胆道闭锁识别缺乏公开数据集,而且目前现有方法都是基于实验场景下的数据集开发和测试,因此我们构建了基于真实应用环境下的新生儿胆道闭锁粪便数据集.本文数据集的所有图片均由新生儿父母使用手机在真实使用场景下拍摄,并由四川大学华西医院儿科收集,所有图片均拍摄自0~3个月大婴儿的粪便.纳入研究的所有人均签署了父母的知情同意书,本研究已获得四川大学华西医院伦理委员会的批准(伦理审查批准文号:2021-1317).
三位专家基于新生儿粪便比色卡,将数据分成4类(严重异常,异常,可疑和正常).首先,两位專家分别对图片进行标注,互不干扰.然后第三位专家审查了结果并评论了以前专家注释的冲突数据.如果两位专家对冲突数据的判断相同,我们使用两位一致专家的结果.如果冲突的数据被标记了 3 次不一致的结果,则图像被丢弃.经检查发现,被丢弃的图片存在模糊、添加了滤镜等问题,所以颜色与真实粪便颜色存在较大差异,失去了研究价值.最后,共有2946张224×224的四分类RGB图像进行训练,并且从中挑选101张最具代表性的图像进行测试和结果分析.
图5显示了四个类别的一些样本.呈现白色或灰白色的粪便属于严重异常;呈现浅黄色或浅绿色的粪便属于异常;呈现绿色或黄色,里面有异常点的粪便属于可疑,需要进一步观察;呈现深绿色、深黄色的粪便属于正常.
我们将数据集分为三个子数据集.训练集用于训练模型,测试集验证模型的准确性.此外,验证集用于比较我们的算法与儿科医生和其他算法之间的性能.三个数据集的分布情况如表1所示.
4.3 实现细节
本文所有深度学习方法都在Pytorch框架下,输入图像大小为224×224,训练100个epoch,batch-size为16,weight decay为5e-4;采用SGD进行优化,momentum=0.9,nesterov=True;初始化学习率为0.0001,采用I. Loshchilov等人[24]提出的余弦退火算法调整学习率;在warmup阶段训练10个epoch,采用Kingma等[25]提出的Adam函数进行优化,使学习率线性增长,从1e-7上升到1e-4.所有深度学习方法都按照以上的设置在两张GTX1080上部署.
5 实验结果分析
5.1 颜色空间实验
我们设计了颜色空间选择实验,尝试了各种类型的颜色空间.如表2所示,相比RGB颜色空间,YCrCb颜色空间可以提升0.68%.虽然诸如HLS等颜色空间也可以将颜色分成亮度和色度,但是在YCrCb颜色空间中,Cr和Cb两个通道描述的是红色信号和蓝色信号与RGB信号的差异,可以更好将数据集中不同类别的颜色差异展现出来,因而取得的效果最好,是最适合本文研究的色彩格式.
5.2 亮度调整实验
根据前面的数据集亮度分布分析,95%的数据分布在[106.55,174.11]亮度区间内.如表3所示,我们以数据集亮度的正态分布参数为基准进行实验.通过实验表明,dark_threshold=122, light_threshold=158的时候效果最好.
5.3 随机阴影增强实验
本文设计了随机阴影增强实验,我们尝试了各种尺寸的阴影、不同的shadow value值和随机增加阴影的概率值.因本文算法输入的图片尺寸是224×224,因此尝试了[16, 32, 64, 128]4种阴影尺寸;Shadow value尝试了[20,30,40]3种不同的值;Shadow Rate尝试了[0.1,0.2,0.3,0.4]共4个值.
如表4所示,使用控制变量法,首先固定shadow value和shadow rate选取最合适的阴影尺寸.然后固定阴影尺寸,选择最合适的shadow rate.最后选择合适的shadow size.实验发现,阴影尺寸不适合太大,并且阴影部分的亮度不可过度降低,否则会降低算法识别率.此外,因为数据集中只有部分数据有阴影干扰,当shadow rate偏大时,训练集中的大部分数据都增加了阴影,模型会自动处理阴影,而测试集中的部分数据并没有阴影干扰,因此算法识别率会降低.实验结果表明,当shadow size=32, shadow value=30, shadow Rate=0.3时,取得了最好的效果.
5.4 消融实验
我们设计了一个消融实验来验证我们提出的方法的有效性,如表5所示,我们的模型相比ResNet和ViT取得了更好的效果.此外随着方法增加,算法的识别率不断提高. 实验结果表明效果提升原因主要有以下几点:(1) 网络结构的改变,颜色处理模块可以更好将浅层的颜色特征传递到深层特征;(2) YCrCb色彩空间相对RGB等其他颜色空间,可以通过分离色度和亮度更好地将不同类别颜色差异展现出来;(3) 亮度调节算法通过评估图片亮度对整体图片进行亮度调整,在实际环境下可以得到更好的发挥;(4) 随机阴影增强可以增强模型的泛化能力,避免在识别过程中过渡关注阴影.叠加使用亮度调节算法和随机阴影增强并没有取得理想状态中双倍的提升效果,这是因为两种方法在某种意义上相互冲突.亮度调整算法可以在一定程度上去除阴影,而阴影增强给图片增加阴影,降低了图片整体亮度,而图片整体亮度降低,在我们实验中表明是不利于提升识别率的.
5.5 现有方法对比
为了比较BANet、医生和其他方法的识别率,我们设计了一个对比实验.专科医生测试集中挑选了最具代表性的101 张图像作为验证集,并比较了医生、算法和使用新生儿粪便比色卡的特异性、敏感性和识别率.由于一些算法没有将粪便分为4种类型,因此我们在实验过程中做了一些调整.在PoopMD实验中将严重异常和异常归为一类;在BabyPoop 实验中将异常和可疑归为一类;HSV大便颜色饱和度将粪便图像分为两类,因此将异常、严重异常和可疑归为一类.
19 名儿科医生参与了我们的对比实验.因为现在新生儿粪便比色卡(ISCC)在很多地区还在使用,因此我们还邀请了10名没有接受过任何医学培训的人(代表新生儿患者的父母)使用新生儿粪便比色卡(ISCC)对验证集进行分类.可以看到新生儿患者父母使用ISCC因为缺乏经验,其识别率低于医生和BANet.如表6所示,我们的算法在各项指标上效果都优于其他方法,我们的算法具有很高的实际应用价值.
5.6 可视化分析
我们使用T-distributed Stochastic Neighbor Embedding (T-SNE)[26]来显示不同类别之间的差异.我们将测试集的数据输入BANet,并提取BANet最后一层的特征,每个特征都是一个2048维向量.为了在二维平面上展示,我们使用T-SNE算法挑选了其中最具代表性的二维特征.如图6所示,图中每个点代表一个图像,同一个类别的图像聚集在一起.T-SNE表明该模型可以很好地将四个类别从特征层面分离出来,验证了模型分类的理论可行性.
此外,我们展示BANet在测试集上的预测结果,如表7所示.
我们在测试集上绘制了BANet在多分类上的ROC曲线,如图7所示,每一类的AUC值都在 0.9左右,平均AUC值可以达到0.92.可以看出,我们的分类器具有优良的性能.
6 结 论
本文提出了一个全新的基于自注意力机制的算法,以解决使用新生儿粪便图片识别新生儿胆道闭锁的在真实应用场景下识别率低的问题.采用提出的亮度调整算法,对过暗和过曝的图片进行亮度调整.同时本文提出的BANet融合了图像的浅层颜色特征和注意力网络的深层纹理和异常点特征,使得网络识别率效果更好.此外,本文提出随机阴影增强算法可以增强模型的泛化能力,解决了图片阴影对识别的干扰.我们在101张验证集上与医生、患者和其他算法分析对比,与目前存在的其他方法对比,本文提出的算法在真实场景中识别新生儿胆道闭锁的识别率相比之前大幅提高.此外,由于算法基于比之前算法更大的数据集开发,我们的模型的实用性和泛化性更强.因此,BANet能够更准确地识别疾病,使得预诊断效果更好.
但是本文的工作仍然存在一定局限性,首先,我们的方法依然存在参数量相对较大,训练和推理速度较慢等问题.上述问题都是我们后续研究的重点.
参考文献:
[1]Asai A, Miethke A, Bezerra J A. Pathogenesis of biliary atresia: defining biology to understand clinical phenotypes[J]. Nat Rev Gastro Hepat, 2015, 12: 342.
[2]Otte J B, de Ville de Goyet J, Reding R, et al. Sequential treatment of biliary atresia with Kasai portoenterostomy and liver transplantation: a review[J]. Hepatology, 1994, 20: 41S.
[3]Mark Davenport, Deirdre A Kelly J L H. Biliary atresia [J]. Lancet, 2009,374: 1704.
[4]Chiu C Y, Chen P H, Chan C F, et al. Biliary atresia in preterm infants in Taiwan: a nationwide survey [J]. J Pediatr, 2013, 163: 100.
[5]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [EB/OL].[2023-02-19].https: //arxiv.org/pdf/1706.03762.pdf.
[6]Geirhos R, Rubisch P, Michaelis C, et al. ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness[EB/OL]. (2022-11-09)[2023-02-19]. https://arxiv.org/abs/1811.12231.
[7]Chen S M, Chang M H, Du J C, et al. Screening for biliary atresia by infant stool color card in Taiwan [J]. Pediatrics, 2006, 117: 1147.
[8]Lien T H, Chang M H, Wu J F, et al. Effects of the infant stool color card screening program on 5-year outcome of biliary atresia in Taiwan [J]. Hepatology, 2011, 53: 202.
[9]Zheng J, Ye Y, Wang B, et al. Biliary atresia screening in Shenzhen: implementation and achievements [J]. Arch Dis Child, 2020, 105: 720.
[10]Kong Y Y, Zhao J Q, Wang J, et al. Modified stool color card with digital images was efficient and feasible for early detection of biliary atresia—a pilot study in Beijing, China [J]. World J Pediatr, 2016, 12: 415.
[11]Franciscovich A, Vaidya D, Doyle J, et al. PoopMD, a mobile health application, accurately identifies infant acholic stools [J]. Vera Plos One, 2015, 10: e0132270.
[12]Shen Z, Zheng S, Dong R, et al. Saturation of stool color in HSV color model is a promising objective parameter for screening biliary atresia [J]. J Pediatr Surg, 2016, 51: 2091.
[13]Hoshino E, Hayashi K, Suzuki M, et al. An iPhone application using a novel stool color detection algorithm for biliary atresia screening [J]. Pediatr Surg Int, 2017, 33: 1115.
[14]He K, Zhang X, Ren S, et al. Identity mappings in deep residual networks[C]//Proceedings of the 14th European Conference on Computer Vision-ECCV 2016 Amsterdam. Netherlands: Springer International Publishing, 2016: 630.
[15]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: transformers for image recognition at scale[EB/OL]. (2021-01-03)[2023-02-19].https://arxiv.org/abs/2010.11929.
[16]Angelico R, Liccardo D, Paoletti M, et al. A novel mobile phone application for infant stool color recognition: an easy and effective tool to identify acholic stools in newborns[J]. J Med Screen, 2021, 28: 230.
[17]Tan M, Le Q. Efficientnet: rethinking model scaling for convolutional neural networks [C]//International Conference on Machine Learning. [S.l.]: PMLR, 2019: 6105.
[18]Liu Z, Lin Y, Cao Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. [S.l.]:IEEE, 2021: 10012.
[19]Dai Z, Liu H, Le Q V, et al. CoAtNet: marrying convolution and attention for all data sizes [J]. Adv Neural Inf Process Syst, 2021, 34: 3965.
[20]Howard A G, Zhu M, Chen B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications [EB/OL]. (2017-04-17)[2023-02-19]. https://arxiv.org/abs/1704.04861.
[21]Heidrich W. High dynamic range imaging: acquisition, display, and image-based lighting [M]. San Francisco, USA: Morgan Kaufmann, 2010: 69.
[22]Yun S, Han D, Oh S J, et al. CutMix: regularization strategy to train strong classifiers with localizable features [C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.[S.l.]: IEEE, 2019: 6023.
[23]DeVries T, Taylor G W. Improved regularization of convolutional neural networks with cutout[EB/OL]. [2023-02-19]. https://arxiv.org/abs/1708.04552.
[24]Loshchilov I, Hutter F. SGDR: stochastic gradient descent with warm restarts[EB/OL]. [2023-02-19]. https://arxiv.org/abs/1608.03983.
[25]Kingma D P, Ba J. Adam: a method for stochastic optimization [EB/OL]. [2023-02-19]. https://arxiv.org/abs/1412.6980.
[26]Maaten L van der, Hinton G. Visualizing data using t-SNE [J]. J Mach Learn Res, 2008, 9: 2579.
引用本文格式:
中 文: 秦中翰,艾成博,譚超群, 等.基于自注意力机制的新生儿胆道闭锁识别[J]. 四川大学学报: 自然科学版, 2023, 60: 062001.
英 文: Qin Z H, Ai C B, Tan C Q, et al. Recognition of neonatal biliary atresia based on transformer [J]. J Sichuan Univ: Nat Sci Ed, 2023, 60: 062001.