基于正则化逻辑回归的阿尔茨海默病早期诊断模型*

2021-10-25张贻泉徐培然韩莉莉张宝昌肖如意刘汉磊崔新春

曲阜师范大学学报(自然科学版) 2021年4期

张贻泉，徐培然，韩莉莉, 张宝昌，肖如意，刘汉磊, 崔新春

(①曲阜师范大学计算机学院，276826，日照市;②济宁学院计算机科学系,272071，济宁市;③曲阜师范大学管理学院,276826，日照市;④济宁医学院网络信息中心，273100，山东省济宁市)

0 引言

阿尔茨海默病(AD)是一种退行性神经疾病，一旦患病不可逆，最常见于老年人[1].2017年全世界有3000多万人患有AD，到2050年这个数字将增加2倍[1].由于世界人口老龄化的发展，患有阿尔茨海默病和其他形式痴呆的人数迅速增加，这是对世界范围内保健和社会保健系统的一个重大挑战.轻度认知障碍(MCI)是介于正常和AD之间的一种中间状态.据估计，年龄在58岁以上的MCI患者中有40%～60%有潜在的AD病理[2].每年大约有15%的MCI患者转换成AD.因此，准确诊断AD和MCI对延缓疾病进展具有重要意义.但MCI患者临床症状不明显，这一阶段的诊断非常困难.因此，设计和实施正确识别MCI不同阶段(早期轻度认知障碍(EMCI)和晚期轻度认知障碍(LMCI))的方法具有重要意义.

近年来，计算机辅助诊断AD和MCI引起了人们的广泛关注[3].许多机器学习方法已经成功地应用于AD分类领域[4].其中逻辑回归(LR)被认为是一种较强的判别方法.LR有一个直接的概率解释，它可以获得除类标签信息之外的分类概率[5,6].然而，高维问题的求解仍然具有挑战性[7,8].与从MRI数据中提取的特征向量维数相比，用于训练的样本数量通常非常小.这可能会导致逻辑回归模型的过拟合问题，带来较大的计算压力[9,10].为了解决这个问题，在最近的文献中提出了许多优化方法.Koh等人[11]引入L1正则化逻辑回归作为解决大规模问题的特例.L1正则化可以缩小回归系数，同时选择较小的特征子集[12].L1正则化具有一定的优点，但也存在一些不足.首先，L1正则化在某些情况下会产生不一致的特征选择，并且在参数估计时经常引入额外的偏差[13].其次，L1正则化只在一组相关特征中选择一个基因.最后，L1正则逻辑回归是不可微的.它有许多计算上的挑战，特别是当任何一个权值为零时.Jorge等[14]和Zhang等[15]采用L2正则化逻辑回归对AD进行分类.L2正则化直接对每个特征的权值进行优化，获得优异的性能[16].此外，L2正则逻辑回归平滑且凸，计算比较容易.L2正则化虽然可以将特征的权重限制在尽可能小的范围内，但不能减少特征的数量.本文采用独立成分分析方法对数据进行降维，利用ICA作为一种应用广泛的降维算法，提高了计算效率，减少了特征个数.因此，我们在逻辑回归模型中加入ICA和L2正则化，提高AD的分类效果，避免过拟合问题.值得注意的是，逻辑回归的目标函数没有解析解，不能直接得到最优参数，只能采用迭代法求解[17].牛顿算法是优化的最常用算法之一，该算法相对简单过程容易控制.我们利用牛顿算法对模型进行优化，得到一个最小的损失函数.

1 材料

1.1 ADNI数据库

本研究使用的所有数据均来自阿尔茨海默病神经成像倡议(ADNI)数据库(http://www.loni.ucla.edu/ADNI).ADNI是一个非营利性组织，由美国国家生物医学成像和生物工程研究所于2003年成立[18].ADNI用于检测序列磁共振成像(MRI)、正电子发射断层扫描(PET)、其他生物标志物、临床和神经心理评估是否可以结合来测量MCI和AD的进展[19].ADNI提供不受限制的数据访问，并鼓励研究人员开发分析.

图1 AD早期诊断框架

1.2 受试者

结构磁共振成像(MRI)是一种广泛应用于AD诊断和预测的成像方式[20].MRI图像易于获取，具有良好的诊断准确性[21].可以获得大脑的形态学数据，如灰度密度、灰体积、皮层厚度.因此，使用结构MRI图像进行分析.我们选择了197例ADNI数据库中的MRI图像，其中AD 51例、CN 50例、MCI 96例.96名MCI受试者中，LMCI 51名、EMCI 45名.

1.3 系统框架

本文提出的AD早期诊断框架如图1所示.该框架包括图像预处理和特征提取，独立成分分析和RLR模型.详细信息将在下一节中描述.

图2 图像预处理和特征提取过程

2 方法

2.1 数据预处理和特征提取

从ADNI数据库下载的MRI图像需要进行一系列图像预处理，提取90个感兴趣区域的灰质体积作为有效特征.将有效特征输入到分类器中进行分类.图2展示的是图像预处理和特征提取过程.

本文使用SPM8软件(http://www.fil.ion.ucl.ac.uk/spm/)和VBM8工具箱对MRI图像进行预处理.预处理过程包括5个步骤，即(1)颅骨剥离(移除非脑组织),(2)空间标准化和分割灰质(GM),白质(WM)和脑脊液(CSF),(3)平滑(去除图像的噪声),(4)配准(将每个受试者的灰质图配准到一个AAL的模板),(5)选择90个感兴趣区域的灰质体积作为特征. 我们提出的诊断算法见下页表1.

2.2 独立成分分析

ICA是一种将多元分量分离为若干统计独立分量线性组合的计算方法，它帮助降低数据噪声，提高分类精度.每个样本包含90个特征，整个数据集包含197幅图像，总共有17730个功能，计算量很大.为了减少计算量，使用独立成分分析方法对数据进行降维.独立成分分析有以下步骤.

协方差矩阵的特征分解：

(1)

(2)

其中，D是特征值构成的对角矩阵.白化过程

如下

(3)

通过白化将混合矩阵转换为Y

(4)

因而通过ICA的白化过程对所需的矩阵进行了降维.

2.3 逻辑回归模型

(5)

(6)

表1 基于L2正则化LR的AD诊断算法

2.4 稀疏逻辑回归模型

为了简化逻辑回归模型，避免过拟合，引入正则化逻辑回归模型用于AD的早期诊断，提高分类精度.L2正则化可以防止模型过拟合，经常用于约束损失函数.基于公式(6)的RLR损失函数定义为

(7)

2.5 优化算法

本研究使用牛顿算法来最小化公式(7)中的目标函数，选择最优的权值.表2总结了牛顿算法的步骤.

表2 基于牛顿法的迭代算法

2.6 L2正则化逻辑回归的AD诊断算法

本文提出的基于L2正则化逻辑回归的AD早期诊断.算法的整个过程主要包括如下几个部分.首先，对sMRI图像进行预处理，提取90个感兴趣区域的灰质体积作为特征.其次，采用ICA对数据进行降维，选择重要的特征用于分类.最后，将L2正则化逻辑回归用来对AD进行分类.算法的具体过程如表1所示.

3 实验与结果

3.1 实验设置

本文考虑了3个分类任务，即AD受试者与CN受试者(AD vs.CN)、MCI受试者与CN受试者(MCI vs.CN)和LMCI与EMCI (LMCI vs.EMCI).在所有分类方法中，训练集和测试集的比例都是7∶3.为了避免随机影响，实验重复100次.对该模型进行了测试，并与LR、LR-PCA和RLR进行了比较.所有比较方法的性能通过计算准确性(ACC)、敏感性(SEN)、特异性(SPE)、受试者工作特征曲线(ROC)和受试者工作特征下面积(AUC)来量化.具体公式定义为:

(8)

(9)

(10)

ROC曲线是研究分类器性能的有力工具.在ROC曲线上，横轴为假阳性率(FPR)，纵轴为真阳性率(TPR).公式为:

(11)

(12)

真阳性(TP)是正确分类的疾病类别的患者数量.真阴性(TN)是指健康人被正确划分为健康类的数量.假阳性(FP)是指把健康人划分为病人的数量.假阴性(FN)是指将病人划分为健康人的数量.图3和图4分别表示了3种双比的ROC曲线.

图3 AD/MCI不同分类方法的ROC曲线图4 LMCI和EMCI不同分类方法的ROC曲线

3.2 结果分析

ICA的累计贡献率设定为95%.在数据集AD vs.CN,MCI vs.CN和LMCI vs.EMCI中，特征的数量分别减少到35,40和24.表3列出了AD/MCI不同分类方法的比较.

表3 AD/MCI不同分类方法的比较

表4 LMCI和EMCI患者的分型表现

表5 不同的方法在AD上分类性能的比较

从表3可以看出，本文方法在分类准确率、敏感性和特异性方面都优于其他竞争方法.具体来说，对于AD和CN的分类，本文方法的分类准确率为95.22%，灵敏度为92.72%，特异性为93.36%，曲线下面积(AUC)为0.96.对于MCI和CN的分类，该方法的分类准确率为81.22%，灵敏度为86.40%，特异性为73.23%，曲线下面积(AUC)为0.86.特别是RLR-ICA在AD与CN分类中具有最好的敏感性，表明我们提出的方法能够有效识别AD患者.高灵敏度值表明对疾病诊断有很高的信心.因此，从临床的角度来看，与上述方法相比，RLR-ICA较不容易误诊.

图3为相应的ROC曲线.从ROC曲线可以看出，RLR-ICA在3个分类任务上明显优于其他所有方法，采用L2正则化和ICA的RLR取得了更好的结果，说明L2正则化和ICA能够提高LR的分类性能.我们也进行了MCI不同阶段的分类实验，结果如表4和图4所示.

从表4和图4可以看出，与其他方法相比，本文方法在LMCI和EMCI中取得了更好的分类性能，提出的RLR-ICA方法各项指标均优于其他几种逻辑回归模型.具体来说，本方法在LMCI和EMCI上的分类准确率达到74.35%，这对于AD的早期诊断至关重要.

为了进一步评价RLR-ICA方法对AD早期诊断的疗效，我们列举了近年来一些有代表性的方法[8,22-26].使用AD的分类精度作为性能衡量.在表5中，对于使用多模态生物标志物的多项研究，仅使用MRI数据报告我们的结果；使用多模态数据报告他人的结果.RLR-ICA方法尤其在分类精度方面均优于表中其他人提出的方法.本文提出的AD诊断框架与其他研究相比仅采用了MRI数据作为AD,LMCI,EMCI,CN的分类依据.在文献[23]中，提出一种将多图像归一到同一公共空间的方法，这意味着更多的信息被考虑在内.在文献[26]中，提出一种基于监督学习的计算机辅助诊断方法，利用ROI作为评价指标进行了实验.这种方法的特征提取方法与我们提出的方法不尽相同.这种比较可以在一定程度上显示RLR-ICA方法的有效性.在大多数情况下，RLR-ICA方法的准确性均优于其他比较方法，说明RLR-ICA在AD的早期诊断中具有更好的诊断效果.

4 结论

本文提出了RLR-ICA方法来识别AD受试者、MCI受试者和CN受试者.为了防止模型对数据过拟合，使用ICA对数据进行降维，并使用L2正则化来限制系数的权重.我们在基线ADNI数据库和MRI数据上评估此方法.该方法对AD与CN和MCI与CN的分类准确率分别为95.22%和81.22%.实验结果表明，该方法的性能可以与现有技术相媲美.特别是在LMCI和EMCI中的分类准确率为74.35%，可以区分MCI的不同阶段.这对MCI的及时诊断和治疗具有重要价值.在今后的工作中，我们将进一步优化逻辑回归模型，提高模型的分类性能，更好地预测AD的早期阶段.