基于FCN的眼底图像中央凹自动检测算法
2020-07-18黄文博
燕 杨, 黄文博
(长春师范大学 计算机科学与技术学院, 长春 130032;吉林大学 符号计算与知识工程教育部重点实验室, 长春 130012)
在彩色眼底图像中, 中央凹位于黄斑无血管区, 通常以暗红色圆形区域呈现. 中央凹的精准检测可为眼底疾病智能辅助诊断及视网膜病变的临床防治提供可靠依据, 但由于彩色眼底图像中的病变如出血斑, 其灰度特性与中央凹极相似, 因此仅基于中央凹灰度特征的传统算法很难将其精准识别.
目前, 多数中央凹识别方法是利用中央凹与视盘、 血管间的位置关系[1]. 首先基于中央凹和视盘或血管网络结构的全局信息, 识别出中央凹检测的感兴趣区域; 然后基于中央凹的局部信息, 检测中央凹的具体位置. 如Tan等[2]通过在视盘四周圈出指定直径大小的感兴趣区域, 在其中寻找灰度最低值确定中央凹, 但这样定义的感兴趣区域并不准确; Li等[3]先用血管结构寻找中央凹搜索区域, 然后用阈值分割检测中央凹; 考虑到中央凹内无血管, Chin等[4]先通过视盘和主血管网络等位置关系定义出中央凹感兴趣区域, 然后计算血管加权密度确定中央凹. 在利用血管网络结构确定中央凹的算法中, 如果血管的对比度较低, 则会影响中央凹的检测精度.
在眼底病变图像中, 特别是中央凹周围有与其外观相似的暗病变如出血斑时, 或病变较严重破坏了中央凹的特征时, 利用灰度特征或血管网络的算法无法准确检测出中央凹, 并且若血管网络结构分布异常或因个体特异而分布不规则时, 则中央凹并不存在与血管结构的上述先验信息, 中央凹识别准确率将会大幅度降低. 针对上述问题, 本文提出一种基于全卷积网络(FCN)的中央凹检测方法, 为了结合合适的全局特征, 将像素级特征扩展到全局金字塔池中, 把局部和全局特征进行合理融合, 使中央凹的最终检测更可靠.
1 识别算法设计
由于眼底图像的复杂性及各种病变的出现, 会导致局部先验概率或深度先验概率失效. 对于局部先验概率, 当中央凹附近出现病变或中央凹局部外观特征不明显时, 在中央凹检测感兴趣区域中, 局部先验概率分布图将会出现多个高概率值区域, 或者感兴趣区域内局部先验概率的最大值将会远低于正常眼底图像中央凹区域的概率值, 此时局部先验概率分布的置信度降低, 而全局先验概率分布和深度先验概率分布将保持较高置信度; 当中央凹出现更复杂的病变时, 在中央凹检测感兴趣区域中, 整个深度先验概率的最大值将会远低于正常眼底图像中中央凹区域的概率值, 此时深度先验概率分布的置信度降低. 考虑到基于血管网络的全局先验概率具有对病变的鲁棒性, 此时, 只有全局先验概率分布保持较高置信度. 准确的中央凹感知依赖于预先理解其周围像素的信息分布, 目前多数中央凹误检与缺乏利用全局上下文信息有关. 因此, 具有适当全局先验的深层网络可提高中央凹的识别性能.
1.1 实现局部分类的FCN模型构建
1.1.1 卷积层 卷积层为深度神经网络数据计算的核心, 本文以单层卷积网络f为例进行计算, 即
f:H×W×D→H″×W″×D″,xy,
(1)
如果滤波器w∈H″×W″×D″, 则输出向量y可表示为
(2)
(3)
以H″为例, 输出计算如下:
(4)
1.1.2 激活函数 常用的激活函数有Sigmoid,tanh,ReLu等, 公式分别如下:
图1为不同激活函数的曲线对比. 由图1(A)可见, 96%~99%的神经元在方框轴段未激活; 由图1(B)可见, Sigmoid和tanh曲线与上述神经元性质不符; 由图1(C)可见, ReLu函数是非负校正函数, 与上述研究结果相符, 所以本文选择ReLu函数作为激活层, 表示为
yi,j,k=max{0,xi,j,k}.
(8)
图1 不同激活函数的曲线对比
1.1.3 池化层 对像素级局部特征图降维, 采用最大池化实现, 可减小平均偏差, 更清楚地表达边界和纹理, 若图像尺寸为W1×H1×D1, 窗口长为F, 步长为S, 输出尺寸为W2×H2×D2, 则其过程如下:
(9)
本文将样本划分为H‴×W‴个模块, 输出其最大值, 则
(10)
1.1.4 全连接层 全连接层将上述所得特征映射作为标注. 设上层输出为x∈H×W×D, 当前层输出为y∈1×1×D, 通过滤波器w∈H×W×D×D′与上层进行卷积, 有
(11)
图2 Dropout使用效果
1.1.5 Softmax层 将上层输入通过Softmax模型计算其归属类别的概率, 实现中央凹局部像素级分类.
1.1.6 Dropout Dropout令有些节点不参与训练, 提高框架的泛化能力及避免过拟合. 图2为在本文网络中使用Dropout的效果.
1.2 实现全局上下文特征提取的金字塔池化模块构建
在深度神经网络中, 利用上下文信息的程度可通过感受野大小表示[5]. ResNet[6]的感受野理论上比输入图像大, 但文献[7]研究表明, FCN的感受野远小于理论值, 特别在深层网络, 导致很多网络并未包含足够多的全局信息, 本文提出通过全局上下文特征解决该问题.
全局平均池化常应用于图像分类方法中[6,8-10], 可较好提取出全局上下文特征. 文献[11-13]研究表明, 该策略可在语义分割方法中有效应用, 但其不足以包含复杂场景的重要信息, 因其像素被分类标记为各类物质, 若将其结合为单个向量会导致丢失空间信息而模糊. 所以, 将局部和全局上下文特征相融合将对精准分类更有帮助, 区分度明显的特征可结合不同感受野大小的子区域特征[14-15]. 文献[15]将各层级的特征图输入至全连接层中分类, 该全局先验的目的是解除深度神经网络对图像分类时要输入特定大小图像的限制.
为进一步防止损失各子区域之间的上下文特征, 本文提出分层全局先验, 包括各尺度、 各子区域之间的上下文信息, FCN最终特征图即为其输出, 称为全局先验特征. 金字塔池化部分结合了4个尺度特征, 如图3所示, 其中: 红色表示概率的级别, 是采用全局池化得到的单一bin输出; 其他3级将输入特征图分为几个子区域, 并依次池化, 继而拼接容纳空间信息的单一bin. 金字塔池化部分的各级别输出涵盖各种尺寸的特征映射, 为维持全局特征的权重, 本文在各级后采用1×1卷积核, 金字塔级别维数为N时, 能将上下文特征的维数降至初始特征的1/N. 然后利用双线性插值上采样低维特征图, 获得与初始特征图相同尺寸的特征. 最后将各级别的特征组合成金字塔池化全局信息.
金字塔级数与各级尺寸均可改变, 这与输入金字塔池化层的特征图尺寸紧密相关. 该结构通过采用不同大小的池化核提取各子区域的特征, 所以各层级池化核的尺寸要有合适的距离. 本文金字塔池化部分为4层, 各层bin尺寸依次为1×1,2×2,3×3和6×6.
基于上述模块本文构建了采用金字塔池化模块的FCN中央凹检测网络, 如图3所示, 在给定一个输入图像(A)的情形下, 首先利用FCN获取最后一个卷积层(B)的特征图, 然后利用金字塔解析模块获取不同的子区域表示, 再进行上采样和级联层, 形成最终的特征表示, 该特征表示包含(C)中的局部和全局上下文信息. 最后, 输入卷积层以获取最终的识别结果(D). 通过进行预训练过的ResNet[5]框架提取输入图像的特征图, 特征图最终大小是输入图像的1/8, 如图3(B)所示. 通过图3(C)的金字塔池化部分提取(B)中特征图的上下文特征, 4级金字塔池化后, 池化核尺寸依次是图像的全部、 1/2与小部分, 最后组合成全局信息. 在(C)过程最后, 将上述获取的全局信息和初始特征图拼接在一起, 通过卷积层生成(D)中最终的预测图. 采用该金字塔池化模块的中央凹识别网络为像素级识别提供了有效的全局上下文特征, 金字塔池化部分可提取并组合各层级上下文特征, 得到的全局特征更典型.
图3 采用金字塔池化模块的FCN中央凹检测网络
2 实验结果与分析
为了验证本文方法的有效性, 在DIARETDB0[16]和DIARETDB1[17]标准眼底数据库中进行中央凹识别实验. 表1列出了本文方法与其他方法对中央凹识别精度的对比.
表1 本文方法与其他方法对中央凹识别的精度对比
由表1可见, 本文方法识别结果更精准. 文献[18-20]方法首先根据中央凹和视盘的空间关系定义中央凹感兴趣区域, 然后通过数学形态学、 模板匹配及区域极小值等识别中央凹. 本文方法利用全局与局部特征及深度学习网络, 使病变与中央凹更具区分度, 本文方法的精度比其他对比方法精度有明显提高, 实现了中央凹的精准识别.
本文模型中央凹识别结果如图4所示, 其中: (A)为彩色视网膜原始图像; (B)为中央凹标注样本; (C)为视网膜G通道图像; (D)为本文方法对中央凹的识别结果; (E)为本文识别结果与G通道图像叠加对比. 由图4可见, 本文方法可精准识别中央凹.
图4 基于FCN的眼底图像中央凹识别效果
综上所述, 针对传统算法很难识别彩色眼底图像中央凹的问题, 本文提出了一种基于FCN的眼底图像中央凹自动检测方法. 首先构建了实现局部分类的FCN模型, 实现像素级局部分类; 然后构建金字塔池化模块, 并将像素级特征推广到其中, 使统计数据更好地实现了全局语境表达. 为进一步防止损失各子区域之间的上下文特征, 本文提出了分层全局先验, 包含各尺度、 各子区域之间的上下文信息, 然后将各级别的特征组合成金字塔池化全局信息. 采用金字塔池化模块的FCN中央凹检测网络提供了有效的全局上下文特征, 金字塔池化部分可提取并组合各层级上下文特征, 对比全局池化其所得全局特征更具区分度, 最后将局部及全局上下文特征相融合, 实现了对中央凹的精准检测. 在标准眼底数据库中的实验结果表明, 本文方法较对比方法性能有显著提高.