APP下载

基于时空双流网络的阿尔兹海默症先兆动作识别方法

2023-09-15何宗霖杨观赐罗可欣

何宗霖 杨观赐 罗可欣

摘 要:阿尔兹海默症发病早期症状不明显,被确诊时往往已步入中晚期。为了通过日常活动的视频监控提早识别阿尔兹海默症,提出了基于时空双流网络的阿尔兹海默症先兆动作识别方法(premonitory behavioral identification of Alzheimers disease base on spatiotemporal two-stream networks, STADP )。首先,从阿尔兹海默症对人体机能的负面影响角度出发,基于医学研究成果定义了日常活动中的阿尔兹海默症先兆动作,构建了阿尔兹海默症先兆动作数据集(Alzheimers disease premonitory action dataset, ADP),给出了基于关键帧的视频数据处理算法;其次,将基于三维卷积模型的空间特征提取模块与基于Transformer模型的时间特征提取模块结构相融合,设计了时空双流网络以捕捉阿尔兹海默先兆动作的特征,从而形成了STADP算法;最后,对不同特征融合权重的模型性能进行比较,获得了STADP的最优工作参数。与2种模型的对比实验结果表明:STADP的平均识别准确率、精确度、召回率以及F1值均优于比较算法,分别为83.21%、84.61%、83.14%和82.14%。本研究将为日常活动数据驱动的阿尔兹海默症先兆动作智能感知提供方法与实现手段。

关键词:阿尔兹海默症;动作识别;双流网络;特征融合;日常活动

中图分类号:TP18

文献标志码:A

阿尔兹海默症(Alzheimers disease, AD)是一种进行性神经系统变性病,发病早期症状不明显[1]。由于迄今为止没有任何有效药物或治疗可以逆转AD的进程,因此提早发现和干预胜过治疗。令人感到鼓舞的是计算机辅助技术、人工智能技术的发展为神经病理学诊断和病症早期预防开辟了新的道路。当前,运用人工智能技术辅助诊断AD患者,其数据集来源主要分为3类:1)基于专业仪器采集的医学数据[2-3];2)基于AD神经心理测试采集的临床数据[4-6];3)从日常生活中采集的数据[7-10]。基于专业仪器采集的数据具有测定准确、较为权威的特点,是医生诊断AD的最重要的依據。AD神经心理测试中的测试项目来源于长期对大量AD患者的观察,进而总结出某些普遍规律,最终形成测试方案,是医生做出诊断的重要依据。然而,上述两种数据采集方式不仅需要专业人员来执行,而且需要长时间的采集过程。与之相对的是,从日常生活中采集的数据能够依托长期的个人行为监控,实现AD的辅助诊断和提早发现。

从日常生活中采集的数据又可以分为:1)视觉传感器获得的视频数据[11-12];2)声音传感器获得的言语数据[13-14];3)其他传感器(如:加速度计、人体传感器等)获得的单一或多模态数据[10]。其中,视觉传感器具有用户容易接受、采集处理数据方便的特点,更适用于采集日常生活中潜在患者的动作数据。进一步,针对该数据基于视觉的深度学习算法可以通过识别潜在患者的日常行为[15],找到反应阿尔兹海默症对人体机能产生负面影响的阿尔兹海默症先兆动作(例如阿尔兹海默症会导致人体记忆力下降,反映在生活中,患者更容易做饭时多次放盐或未放盐),从而实现AD的早期干预。

围绕AD对人体机能的负面影响,利用深度学习技术实现AD的辅助诊疗,学界已经做出了许多有益的尝试。针对AD导致的记忆力的衰弱,Lussier等[7]通过对比正常人和阿尔兹海默症患者的日常活动行为,发现阿尔兹海默症患者在冰箱、橱柜前经常出现非正常的停顿。研究AD对人体行动能力的影响中,Bringas等[10]发现AD患者在日常活动中存在动作的中断,因此引入加速度计监测患者的日常活动数据,实现了通过深度学习模型判定AD患者的患病阶段。针对AD患者的认知能力情况测试,Negin等[12]提出了一种Praxis测试,根据医学的29个特定手势,提出了一个深度学习框架,通过学习患者与正常人的手势区别,判断用户是否发生了阿尔兹海默症病变。

综上所述,AD对人体产生的伤害主要有以下多种表现形式:丧失情绪管理能力、记忆力下降、认知能力不足、行动能力衰弱等,而这些表现形式都可以通过识别潜在患者的日常行为中的阿尔兹海默症先兆动作加以认知。因此,本文基于医学研究找到了反应人体机能衰退的阿尔兹海默症先兆动作并构建了数据集。同时,为了提高阿尔兹海默症先兆动作的识别能力,通过融合视频的空间维度特征和时间维度特征,提出了基于时空双流网络的阿尔兹海默症先兆动作识别方法。

1 阿尔兹海默症先兆动作数据集的构建

由上述对阿尔兹海默症患者进行辅助诊疗的相关研究可知,现有的阿尔兹海默症数据集存在诸多问题。一方面,这些数据集事先设定了阿尔兹海默症的异常行为可能发生的具体场景,人为设计了一系列需要潜在患者逐项完成的动作,获得了类似于阿尔兹海默症临床测试的视频数据,但此类数据集并不能反映受测者的真实情况;另一方面,部分数据集利用多类型的传感器长期监测受测对象的日常活动,这种“饱和式”监测会产生大量冗余数据,甚至是对阿尔兹海默症识别做出相反判断的冲突数据,反而对阿尔兹海默症早期预防产生负面影响。针对上述情况,本文从现有医学研究所揭示的阿尔兹海默症先兆动作出发,采集日常活动的视频数据并通过关键帧技术处理视频,构造了阿尔兹海默症先兆动作数据集(Alzheimers disease premonitory action dataset, ADP),进而识别潜在患者日常生活中的异常动作,为AD早期诊断提供支撑。

发表在期刊《ALZHEIMERS & DEMENTIA》上的研究[16]建议在AD的早期轻度认知障碍时期的临床检查中应引入记忆力方面的检查,同时该研究举了两个记忆力检查的例子,AD患者容易记忆不清物品摆放的位置以及忘记近期才做过的行为。基于该研究本文选取了日常生活中翻箱倒柜地寻找东西rs、炒菜时重复放盐as、出门后返回检查门是否上锁cl这3个典型动作作为反应人体记忆力机能下降的阿尔兹海默症先兆动作。

痴呆的行为和精神症状(behavioral and psychological symptoms of dementia, BPSD)是阿尔兹海默症患者的一组异质性非认知症状和行为,研究表明,BPSD在AD患病过程中影响了高达90%患者。文献[17]归纳了BPSD影响人群中常见的一些情绪,例如焦虑、高兴、易激惹、伤心、冷漠等。基于该研究,本文选取了日常生活中哭泣cr、大笑la、吸烟so、自言自语to、生气地踢开或推开东西kp以及情绪失控动手打人hp这些典型动作作为反应人体情绪管理机能下降的阿尔兹海默症先兆动作。

日常生活能力评定量表(activity of daily living scale, ADL Scale)是由美国心理学家劳顿(M. P. Lawton)等于1969年编制的用于评定个体日常生活能力的经典评量表,在AD神经心理学测验中常作为评定患者日常生活功能损害程度的权威测试[18]。该量表内容有两部分:一是躯体生活自理能力量表,即测定患者照顾自己生活的能力,本文中选取了吃东西et、喝饮料dr、咀嚼食物ch、吹干头发bl、刷牙bt、梳头br、爬楼梯cs、摔倒fd这些典型动作作为反应人体自理机能下降的阿尔兹海默症先兆动作;二是工具使用能力量表,即测定患者使用日常生活工具的能力,本文中选取了搅拌食物mi、切菜cv、拖地mf这3个典型动作作为反应人体工具使用机能下降的阿尔兹海默症先兆动作。

能够表征AD对人体机能负面影响的20种阿尔兹海默症先兆动作如表1所示,视频数据来源包括:从互联网获取,对现有数据集(HMDB-51、UCF-101)的筛选以及基于课题组搭建的智能家居环境自主拍摄。其中,翻箱倒柜地寻找东西rs,出门后返回检查门是否上锁cl,生气地踢开或推开东西kp这3类动作在公开文献中没有符合要求的数据,因此组织了20个志愿者分别拍摄了这3类动作,每类动作每人在相同的背景下拍摄120个视频样本,每个动作样本时长1~5 s。

阿尔兹海默症先兆动作数据采集涉及的智能家居环境和视觉传感器如图1所示。20名志愿者身材不一(体重在55~75 kg),身高范围在1.60~1.85 m之间,符合日常生活中大部分人的身材比例,年齡在19~40岁之间,符合阿尔兹海默症早期症状出现的时间。

最终获得的ADP数据集有20个动作类别共2 301个视频总计317 553帧,平均每个视频超过138帧。由于所采集的动作均为原子动作(无法被进一步分解为多个动作的最小动作),完全可以用更少的帧表示动作的完整过程,因此为了减少视频信息冗余的同时保留视频主要内容,本文构建了基于关键帧的视频数据处理算法,其步骤如算法1所示。

算法1 基于关键帧的视频数据处理算法

输入:采集的视频数据Dv

输出:ADP数据集Dk

Step 1 利用OpenCV将视频数据Dv中的视频进行帧切分,并将帧fi的尺寸初始化为(3,340,240)。

Step 2 构建视频数据Dv中每一帧的两种特征空间fa、fc和关键帧获取模型Rm

Step 2.1 利用多种图像特征描述符(包括颜色直方图、图像熵、灰度共生矩阵等)为视频数据Dv的每一帧fi构建起表征视频帧图像属性的特征空间fa

Step 2.2 利用帧间距离特征为视频数据Dv的每一帧fi构建起表征视频帧之前距离差距的特征空间fc

Step 2.3 通过特征空间fa和fc构建了基于特征交叉注意力机制的关键帧获取模型Rm

Step 3 构建关键帧基准kt,并将其作为用于Rm模型训练的真实值。

Step 3.1 利用混合高斯模型实现视频每一帧背景差分fg的计算。

Step 3.2 利用聚类算法从由fg组成的集群中获得其聚类中心。该聚类中心即为视频帧的代表和关键帧基准kt

Step 4 将数据Dv的特征fa、fc输入推荐模型Rm以kt为真实值训练模型,并最终通过模型Rm输出关键帧集合K。

Step 5 利用数据增广技术扩充关键帧集合K,最终构成ADP数据集Dk

Step 5.1 将关键帧集合K的每一帧图像fj随机裁剪两次,获得两帧大小为(3,240,240)的图像,并压缩至大小(3,224,224)。

Step 5.2 将压缩后的图像通过水平翻转和上下翻转使关键帧集合K的大小扩充为最初始的4倍,最终形成了ADP数据集Dk

需要说明的是,在步骤2.3中,基于特征交叉注意力机制的关键帧获取模型Rm可以表示为

youtput=dnn(yattention

其中,ycross表示特征空间fa与fc中的特征向量mi与nj两两相乘并以隐向量矩阵wij为系数构建的交叉特征;aij为交叉特征经过单层全连接网络计算获得的注意力分数,Wmlp和bmlp為单层全连接网络的权重和偏置矩阵;yattention为每种交叉特征结合注意力分数的结果;youtput为经过全连接神经网络dnn(.)获得的概率值。

在步骤3.2中,聚类中心数量为视频帧数量的25%。在步骤5中运用随即裁剪和翻转这两种数据增广方法实现扩充数据集的目的。

最终,通过基于关键帧的视频数据处理算法,将每类动作的视频帧的数量压缩为原始数据的25%,但每个视频至少保留16帧,获得了每个视频平均37帧数据压缩率为26.8%的ADP数据集。

2 基于时空双流网络的阿尔兹海默症先兆动作识别算法

我们注意到双流网络在视频动作识别任务中取得了较好的效果,该网络的主要特点在于存在两个通路分别处理动作姿态信息和动作变化信息。双流网络的一条通路主要关注视频随时间变化较小的动作姿态语义信息(例如:颜色、纹理、人物等),而另一条通路则寻找视频随时间变化剧烈的运动语义信息。通过上述两路对一段视频的“动”与“静”或者说“空间”与“时间”两个维度语义信息的提取,双流网络实现了对视频内容的准确识别。受此启发,为了融合阿尔兹海默症早期行为的空间维度特征、时间维度特征,提高动作识别的能力,提出基于时空双流网络的阿尔兹海默症早期行为识别算法(premonitory behavioral identification of Alzheimers disease base on spatiotemporal two-stream networks, STADP)(见图2)。

图2是基于时空双流网络的阿尔兹海默症先兆动作识别算法的总体架构。输入模块从视频流中截取所需要的帧并将获得的帧片段整合为不同维度的特征向量;中间模块使用所设计的时空双流网络提取特征,其中空间特征提取模块将视频视为相互独立的帧,通过三维卷积获取视频中第一帧的动作姿态特征,时间特征提取模块则将视频视为按时间排列的帧序列,通过Transformer模型提取视频中随时间变化而变化的动态特征;输出模块根据上述两种特征融合获得的特征向量输出动作类别、动作时间序列和动作质量。

1)STADP算法流程

基于时空双流网络的视频动作识别算法的详细流程如算法2所示。需要说明的是,步骤8中的特征融合公式为

Ffusion=αFs+(1-α)Ft

其中,α表示特征融合权重系数,用于平衡空间特征和时间特征的权重。后文给出了不同特征融合权重下模型性能的实验结果。

算法2 基于时空双流网络的阿尔兹海默症先兆动作识别算法

输入:视频流Vf,时空双流网络Nst(空间特征提取模块Ms,时间特征提取模块Mt)。

输出:视频流识别结果Aresult

Step 1 加载模型Nst并置时间序列位置T=?,Aresult=?,动作质量Qa=?。

Step 2 读取t=T+1秒视频流 if 帧速率fv>24 f/s else 读取t=math.ceil(fv/24)秒视频流。

Step 3 从读取的视频流中随机且连续的截取16帧,设该片段的时间序列为T+=t。

Step 4 将16帧图像表示为三维特征向量Vt=(16*3,224,224)。

Step 5 将16帧图像表示为四维特征向量Vs=(3,16,224,224)。

Step 6 将特征向量Vs=(3,16,224,224)输入空间特征提取模块Ms,计算获得空间特征Fs

Step 7 将特征向量Vt=(16*3,224,224)输入时间特征提取模块Mt,计算获得时间特征Ft

Step 8 融合空间特征Fs与时间特征Ft输出融合特征Ffusion

Step 9 将Ffusion输入至softmax()获得视频动作类别概率分布Ap,输出动作类别Aresult

Step 10 若max(Ap)>0.7,置Qa=high;否则置Qa=low。

Step 11 输出(T,Aresult, Qa)。

2)时空双流网络结构

由于原子动作持续时间短,因此对视频每一帧的全部特征信息的深度提取对准确识别动作具有重要意义。为了捕捉图像空间和时间维度上的细节特征,将三维卷积网络与Transformer模型结构相结合,设计了时空双流网络(spatiotemporal two-stream network, ST2SN),图3是其模型结构。

ST2SN模型由空间特征提取模块、时间特征提取模块构成。

(1)空间特征提取模块

空间特征提取模块由6个三维卷积特征提取单元和1个全连接网络单元组成。空间特征提取模块的输入特征向量Sin可以表示为

Sin=(b,c,f,w,h)

其中,b表示1个批次内样本的数量;(c,f,w,h)表示1個样本包含f帧c个通道、宽高尺寸为(w,h)的图像。

空间特征提取模块进行特征提取时,三维卷积特征提取单元的卷积核Ks= (fs,ws,hs)在(f,w,h)三个维度上滑动,但由于卷积核的深度大小fss帧的信息,于是特征主要集中于图像特征即视频的空间特征。

三维卷积特征提取单元包括三维卷积层C和三维池化层P,输入向量(cin,fin,win,hin)经过三维卷积层C获得输出向量(cout,fout,wout,hout)的计算公式为

其中,Ks= (fs,ws,hs)表示卷积核的尺寸,p表示填充值,s表示滑动步长;k表示一次卷积操作中扫描过的帧的数量。

同理,输入向量(cin,fin,win,hin)经过三维池化层P获得输出向量(cout,fout,wout,hout)的计算公式为

其中,|_._|表示向上取整。

经三维卷积提取单元提取空间特征后获得的特征向量xin输入全连接网络单元获得输出yout的过程可以表示为

yout=Wl(…σ(W0xin+b0)…)+bl

其中,l表示全连接网络单元中全连接层的数量;σ(.)表示激活函数ReLU;Wi和bj为各全连接层的权重和偏置矩阵。

(2)时间特征提取模块

时间特征提取模块由分块单元、Transformer 编码器单元以及全连接网络单元构建。时间特征提取模块的总体输入特征向量Tin可以表示为

Tin=(b,c*f,w,h)

其中,b表示1个批次内样本的数量;(c*f,w,h)表示单个样本是通道大小为c*f、宽高尺寸为(w,h)的三维向量。

时间特征提取模块将帧图像沿深度按顺序排列。当分块单元进行特征提取时,卷积核Ks= (ws,hs)在(w,h)两个维度上滑动,由于卷积核的深度大小为c*f,因此空间特征提取模块能获得全部帧的信息,于是特征主要集中于运动变化特征即视频时间特征。

分块单元可以表示为

Pembed=conv2d(c*f,v,Ks=Ps=(ws,hs))

其中,v表示得到的每1个小块展开后特征向量的维度;conv2d(.)表示利用2D卷积同时实现分块和块编码;Ks=Ps= (ws,hs)表示卷积核的尺寸与分块的尺寸相同。

分块单元为图3中时间特征提取模块的分块和块编码两个步骤。编码器单元和全连接网络单元与VIT[19]模型的相对应模块完全相同,在此不再赘述。

3 测试与分析

实验所用的软硬件平台如表2所示。

3.1 不同特征融合系数的模型性能分析

特征融合公式为

Ffusion=αFs+(1-α)Ft

其中,α为特征融合系数;Fs为空间特征;Ft为时间特征。划定 α的取值集合为{0.3,0.35,…,0.65,0.7}。对于每1个α的取值,基于ADP数据集将本文提出的时空双流网络的空间特征模块和时间特征模块进行加权平均融合,对得到的融合模型进行训练与测试。实验参数设置如下。

訓练循环2 000轮,批处理参数为8,采用Adam为模型优化器,损失计算公式为CrossEntropyLoss,初始学习率设为0.001,学习率的L2正则系数为5e-4,学习率衰减公式为LambdaLR,衰减系数为 0.000 1。实验中将ADP数据集以7∶1∶2进行随机划分,获得训练集、测试集和验证集。实验测试结果如表3所示。

当α=0.7时,时空特征融合方法的准确率方差最小,识别准确率均值为80.33%,排在所有α取值情况下平均准确率的最后一位;当α=0.35时,融合方法的识别准确率均值最高,准确率方差为2.949。研究发现,α=0.35时,融合方法的识别兼顾识别的效果与稳定性,性能最优。因此,下文的比较分析中α取值0.35。

3.2 比较结果与分析

3.2.1 对比模型、测评指标及实验设置

为了评价所提STADP对阿尔兹海默症先兆动作的识别性能,选择C3D[17]和VIT[19]作为比较基准。

采用识别准确率(Accuracy)、精确率(Precision)、召回率(Recall)以及F1值(F1score)4个性能指标评估模型识别阿尔兹海默症先兆动作的效果。

对比实验的参数设置如表4所示。

3.2.2 实验结果与分析

基于构建的ADP数据集和3.2.1设定的对比实验的参数,对各模型进行训练与测试,3种模型的识别精度、准确率、召回率以及F1值的平均值和方差统计结果如表5所示,各指标统计结果的盒图如图4所示。

观察图4和表5的数据可得:

1)在平均识别准确率方面,本文提出的STADP方法比其他2种比较模型分别提高了3.33%、6.74%。同时,图4(a)表明STADP在总体上的识别准确率明显最优。

2)在3个模型中,VIT的平均识别精度最高但其方差也是最高的,STADP的平均识别精度为第二,但方差最低。因此,本文提出的方法稳定性是最优的。

3)从平均召回率来看,STADP的平均值最高。因此,STADP的性能是最好的,这说明对于测试数据,STADP在每种类型的样本中识别正样本的能力最强。

4)观察图4可知,VIT模型的识别能力总体上不如STADP。但由图4(b)可以看出,VIT模型在识别精度上接近STADP,这表明VIT模型在极限性能上或许接近STADP,但由于整体基于Transformer模型构建,在没有大规模数据集训练的情况下VIT模型难以收敛,同时难以找到好的超参数。

总体上,STADP的平均识别准确率、平均精确率、平均召回率、平均F1值分别为83.21%、84.61%、83.14%和82.14%,正是因为ST2SN能够获得空间特征和时间特征,输出阿尔兹海默症早期行为的时空信息,进而使得提出的STADP识别性能优于其他2种模型。

4 结束语

第一时间发现AD出现的苗头可以为早确诊早干预赢得黄金时间。为此,本文通过基于医学研究的知识构建了阿尔兹海默症先兆动作数据集,以及基于关键帧的视频数据集预处理方法,设计了提取空间特征与时间特征的时空双流网络,提出了基于时空双流网络的阿尔兹海默症早期行为识别方法。实验结果表明,STADP的识别准确率优于其他比较的模型。在后续的研究中,将依据医学知识进一步细化和扩充数据集,深入研究多模态特征融合方法,集成开发可应用的基于STADP的阿尔兹海默症早期行为识别系统。

参考文献:

[1]孔祥怡, 杜建时, 马明, 等. 阿尔兹海默症血清多肽组生物标志物研究[J]. 分析化学, 2017, 45(7): 937-943.

[2] 黄悦, 胡广书, 孙学智. 阿尔茨海默症海马区显微图像的分割算法[J]. 清华大学学报(自然科学版), 2008: 1511-1514.

[3] CHANG T S, COEN M H, LA RUE A, et al. Machine learning amplifies the effect of parental family history of alzheimers disease on list learning strategy[J]. Journal of the International Neuropsychological Society, 2012, 18(3): 428-439.

[4] DA SILVA R C R, DE CARVALHO R L S, DOURADO M C N. Deficits in emotion processing in Alzheimers disease: a systematic review[J]. Dementia & Neuropsychologia, 2021, 15(3): 314-330.

[5] TALER V, PHILLIPS N A. Language performance in Alzheimers disease and mild cognitive impairment: a comparative review[J]. Journal of Clinical and Experimental Neuropsychology, 2008, 30(5): 501-556.

[6] DOROCIAK K E, MATTEK N, LEE J, et al. The survey for memory, attention, and reaction time (SMART): development and validation of a brief web-based measure of cognition for older adults[J]. Gerontology, 2021, 67(6): 740-752.

[7] LUSSIER M, ADAM S, CHIKHAOUI B, et al. Smart home technology: a new approach for performance measurements of activities of daily living and prediction of mild cognitive impairment in older adults[J]. Journal of Alzheimers Disease, 2019, 68(1): 85-96.

[8] LEE B, AHN C R, MOHAN P, et al. Evaluating routine variability of daily activities in smart homes with image complexity measures[J]. Journal of Computing in Civil Engineering, 2020, 34(6): 376-377.

[9] AKL A, TAATI B, MIHAILIDIS A. Autonomous unobtrusive detection of mild cognitive impairment in older adults[J]. IEEE Transactions on Biomedical Engineering, 2015, 62(5): 1383-1394.

[10]BRINGAS S, SALOMON S, DUQUE R, et al. Alzheimers disease stage identification using deep learning models[J]. Journal of Biomedical Informatics, 2020, 109: 103514.

[11]ALBERDI A, WEAKLEY A, SCHMITTER-EDGECOMBE M, et al. Smart home-based prediction of multidoma n symptoms related to Alzheimers disease[J]. IEEE Journal of Biomedical and Health Informatics, 2018, 22(6): 1720-1731.

[12]NEGIN F, RODRIGUEZ P, KOPERSKI M, et al. PRAXIS: towards automatic cognitive assessment using gesture recognition[J]. Expert Systems with Applications, 2018, 106: 21-35.

[13]ROSHANZAMIR A, AGHAJAN H, SOLEYMANI BAGHSHAH M. Transformer-based deep neural network language models for Alzheimers disease risk assessment from targeted speech[J]. Bmc Medical Informatics and Decision Making, 2021, 21(1): 92.

[14]MARTINEZ-SANCHEZ F, MEILAN J J G, CARRO J, et al. A prototype for the voice analysis diagnosis of Alzheimers disease[J]. Journal of Alzheimers Disease, 2018, 64(2): 473-481.

[15]陳曦, 刘本永. 基于深度网络特征提取与核非线性分类的视频行为识别[J]. 贵州大学学报(自然科学版), 2017, 34: 51-56.

[16]ALBERT M S, DEKOSKY S T, DICKSON D, et al. The diagnosis of mild cognitive impairment due to Alzheimers disease: recommendations from the national institute on aging-Alzheimers association workgroups on diagnostic guidelines for Alzheimers disease[J].Alzheimers & Dementia, 2011, 7(3): 270-279.

[17]CEREJEIRA J, LAGARTO L, MUKAETOVA-LADINSKA E B. Behavioral and psychological symptoms of dementia. [J]. Frontiers in Neurology, 2012, 3: 73.

[18]JEKEL K, DAMIAN M, WATTMO C, et al. Mild cognitive impairment and deficits in instrumental activities of daily living: a systematic review[J]. Alzheimers Research & Therapy, 2015, 7(1): 17.

[19]DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: transformers for image recognition at scale[C]//International Conference on Learning Representations. Vienna, Austria: Open Review, 2021.

[20]DU T, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks[C]// 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE Computer Society, 2015: 4489-4497.

(責任编辑:曾 晶)

Premonitory Behavioral Identification of Alzheimers Disease Based on Spatiotemporal Two-stream Networks

HE Zonglin1, YANG Guanci*1,2,3,4, LUO Kexin1,2

(1.Key Laboratory of Advanced Manufacturing Technology of the Ministry of Education, Guizhou University, Guiyang 550025, China; 2.School of Mechanical Engineering, Guizhou University, Guiyang 550025, China; 3.State Key Laboratory of Public Big Data, Guizhou University, Guiyang 550025, China; 4.Guizhou Provincial Key Laboratory of "Internet+" Collaborative Intelligent Manufacturing, Guizhou University, Guiyang 550025, China))

Abstract: The early symptoms of Alzheimers disease (AD) are not obvious, and they are often in the middle or late stages when diagnosed. In order to identify AD early through video surveillance of daily activities, the premonitory behavioral identification of Alzheimers disease base on spatiotemporal two-stream networks (STADP) is proposed. Firstly, from the viewpoint of the negative impact of AD on the ability of individuals, based on medical research results, the premonitory actions of AD in daily activities are defined and an AD premonitory behaviors dataset (ADP) is constructed, and a video data processing algorithm based on key frame recommendation is put forward. Then, by combining the space feature extraction module based on the 3D convolutional model and the temporal feature extraction module based on the Transformer model, a spatiotemporal two-stream Networks is designed to capture the action features of Alzheimers early behavior, and then the STADP has been proposed. Finally, the performance of STADP with different feature fusion weights was investigated to obtain the optimal parameters; Comparative experiment results on ADP dataset show that the proposed STADP outperforms the compared state-of-the-art methods in terms of average recognition accuracy, precision, recall, and F1 score with 83.21%, 84.61%, 83.14%, and 82.14%, respectively. This study will provide methods and implementation means for intelligent perception of Alzheimers disease premonitory actions driven by daily activity data.

Key words: Alzheimers disease; action recognition; two-stream network; feature fusion; daily activities