APP下载

AHNNet:融合注意力机制的行为识别混合神经网络模型

2021-05-11曹仰杰李昊段鹏松王福超王超

西安交通大学学报 2021年5期
关键词:滑动注意力人体

曹仰杰,李昊,段鹏松,王福超,王超

(1.郑州大学信息工程学院,450000,郑州;2.郑州大学软件学院,450000,郑州)

随着人口老龄化进程加快,保障老年人特别是独居老人的健康生活,并对他们的日常行为进行监测是社会和家庭的一项长期义务[1]。目前,已有不少算法可以实现跌倒[2]和某些疾病的检测识别,如帕金森[3]等,为医疗机构提供了及时救治时机和精准救治依据。为实现人体行为的有效检测识别,研究者们通常使用行为感知技术。行为感知技术是通过硬件或软件获取目标当前位置、行为和运动轨迹等信息,并对该信息进行分析与理解,实现对目标行为的感知。根据感知信息载体的不同,行为感知技术可以分为基于计算机视觉、基于专用传感器以及基于无线信号。

基于计算机视觉的感知技术是通过采集人体行为的图像序列或视频信息,利用计算机图形图像处理技术,从中提取出人体行为序列。常见应用有行为识别[4]、跌倒检测[5]、手势识别[6]、步态识别[7]等。该技术识别准确率高、应用范围广,缺点是易受光照和障碍物的影响,并且存在侵犯用户隐私和有监测死角等问题。

基于专用传感器的感知技术使用专用传感器或可穿戴设备采集相关人体行为,从而实现人体行为感知。文献[8]使用专用传感器来检测跑步、走路、转圈等多种人体行为。该技术可以实现细粒度的行为感知,准确率较高,但专用传感器安装和维护成本高,难以广泛应用。

基于计算机视觉和基于专用传感器的感知技术虽然识别精度高,但存在侵犯个人隐私及需随身携带等缺点,限制了应用范围。基于无线信号的感知技术可以克服这些不足,近年来得到了研究者的广泛关注。基于无线信号的感知技术可简单分为基于特制射频信号和基于Wi-Fi信号两种。基于特制射频信号的感知技术需要特殊定制的设备,安装维护成本较高,不利于大规模使用[9-10]。近年来,随着Wi-Fi热点的广泛部署[11],利用Wi-Fi信号实现人体行为感知受到研究者的广泛关注。2011年,Halperin等发布了CSI Tool工具,极大方便了从商用Wi-Fi设备中提取信道状态信息(CSI)[12]。CSI包含丰富的振幅、相位信息,可以应用在细粒度的人体行为识别系统中,如睡眠检测[13]、跌倒检测[2]、手势识别[14]、步态识别[15-16]和行为识别[17-19]等。

Wi-Fi信号在传播过程中受多径效应影响,导致采集数据中包含环境和其他噪声,因此原始CSI数据不足以表征不同的人体行为。在实际应用中,传统机器学习方法,如文献[18]中提到的随机森林、隐马尔科夫模型,从原始CSI数据中人工提取相关行为特征,以区分不同人体行为。但是,这些方法不能充分挖掘时序数据中隐藏特征之间的关系,并且容易丢失特征,从而导致识别准确率不高。

随着深度学习技术的快速发展,大量深度学习模型用于人体行为感知技术中,以自动提取特征并提高识别性能[17-19]。文献[18]利用长短期记忆网络(LSTM)自动提取CSI数据中的人体行为特征并进行自主学习,该方法结果优于传统机器学习方法的。文献[19]采用双向循环神经网络ABLSTM从CSI数据中提取人体行为特征进行动作识别。文献[17]提出WiSDAR方法,将CSI数据中提取到的特征处理成图像帧,输入到二维卷积网络(CNN-2D)和LSTM拼接后的网络中,以实现人体行为识别。

LSTM和ABLSTM使用循环神经网络(RNN)结构,以单一时间顺序方式提取人体行为数据特征,不能充分挖掘数据潜在特征之间的关系,并且模型的复杂度较高。虽然WiSDAR通过融合CNN-2D和LSTM使得网络结构更有效,但需要指定并按照前后顺序拼接两个独立的模型,而每个独立模型都有各自的复杂性,会阻止提取更细微的长期时空关系[20]。

为解决传统机器学习方法特征提取困难、深度学习方法特征提取方式单一,导致潜在特征关系提取不充分、识别准确率不高等问题,本文设计了融合注意力机制的混合神经网络模型AHNNet。该模型通过融合双向循环门控网络(BiGRU)和时序卷积网络(TCN)充分提取数据潜在特征。在BiGRU中,本文设计了引入注意力机制的双向循环门控网络ABiGRU,以强化数据特征。实验结果表明,AHNNet在本文采集的数据集上平均准确率较高,并且在保持高精度同时参数量更少。

1 人体行为识别模型

基于AHNNet的人体行为识别模型如图1所示,其主要包括数据处理模块和网络模块。在数据处理模块,使用单发射端-单接收端构建数据采集平台,获取包含不同人体行为特征的CSI数据,并对采集到的数据使用滑动窗口,以提取更丰富的特征数据。网络模块实现融合注意力机制的混合神经网络模型AHNNet,通过并行的两种不同特征提取方式的网络,充分挖掘CSI数据中的人体行为特征,提高模型准确率。之后,使用分类器对融合后的特征进行分类,实现不同人体行为的识别。

1.1 信道状态信息

CSI是正交频分复用(OFDM)技术中估计通信链路信道属性的信息[21]。如果将物理空间(包括环境对象和人)描述为无线信道,则信号在无线信道中传播会发生折射、衍射及散射现象。CSI数据综合了信号在无线信道中传播的时间延迟、幅度衰减及相移的所有影响。在频域中,具有多个发射和接收天线的无线信道被描述为

y=Hx+θ

(1)

式中y、x、θ、H分别表示接收向量、发送向量、噪声向量以及信道矩阵。信道矩阵H是对CSI的估计,当环境中有人体移动时,信道矩阵会改变。因此,通过分析信道矩阵的变化,可以实现人体行为检测。

在OFDM技术中,CSI以子载波的形式呈现,其中单个子载波可表示为

d=|d|exp(jsinα)

(2)

式中:|d|表示振幅;α表示相位。可以看出,CSI能刻画子载波级别的信号扰动,提供了细粒度的无线信道描述。

1.2 时间滑窗

数据处理模块中使用时间滑动窗口,有助于提取更加丰富的特征信息,并丢弃标记为NoActivity(无动作)的冗余数据。在滑动窗口内,如果超过40%的采样数据被标记为NoActivity,则该滑窗内的所有数据将被丢弃。随着滑动窗口后移,标记为有效活动的数据被不断地选择用于训练或测试。图2是时间滑窗及滑动步长示意。

图2 时间滑窗及滑动步长示意Fig.2 Schematic of time sliding window and sliding step

滑动窗口将长时间人体活动序列数据分割成短时间序列,然后从中提取数据特征。该处理方式可以关联活动序列的上下文信息,克服了全局人体行为数据非实时、数据量固定的缺点。

1.3 AHNNet模型

AHNNet采用的主要技术包括BiGRU、TCN及注意力机制等,本小节将详细介绍这些技术及模型构建细节。

1.3.1 双向循环门控网络 传统RNN及其变体(如长短期记忆网络[22]、LSTM)在提取时序数据特征时,只能记忆过去的信息,而对于人体行为数据,未来信息对当前时刻也有重要意义。因此,本文在AHNNet中采用以GRU[23]为基本神经元的BiGRU[24],用于同时提取人体行为数据过去和未来的信息,提高模型识别性能。GRU是LSTM的一种变体,其内部只有两个信息控制单元(更新门和重置门),而LSTM有3个信息控制单元(输入门、遗忘门和输出门)。因此,GRU减少了网络单元内部计算复杂度,从而加快了网络训练和收敛速度。另外,本文中的行为数据经过滑动窗口处理后变得不那么“长”,亦比较适用GRU的运行。GRU的内部结构如图3所示。

xt—输入;zt—更新门;rt—重置门;σ—激活函数; ht-1—前一时刻状态信息;候选信息;ht—状态信息。图3 GRU的内部结构Fig.3 The internal structure of GRU

如果用ot表示当前时刻t的GRU输出值,→表示提取过去信息,←表示提取未来信息,⊕表示信息拼接,则BiGRU的输出为

(3)

1.3.2 时序卷积网络 TCN在时序数据特征提取上已经证明是有效的[20]。行为数据也是时序数据的一种,因此本文尝试将TCN引入到AHNNet中。GRU以时间顺序提取行为数据特征,而TCN在时间尺度上分层提取行为数据特征。本文将两者有效融合,能充分挖掘数据特征之间的关系,从而提高模型性能。

(4)

式中:〈·〉表示相关函数;frelu(·)表示激活函数ReLu。

1.3.3 注意力机制 传统人体识别模型(如LSTM等)在提取人体行为数据特征时,认为所有特征同等重要。但是,人体行为数据不仅包含行为信息,还包含大量噪声(如墙壁、家具等静态物体的反射信号)。为使AHNNet更多关注于人体行为特征,本文将注意力机制[25]融合到网络。注意力机制和人类视觉的注意力类似,就是在众多信息中把注意力集中放在重要的部分,选出关键信息而忽略其他不重要的信息。注意力机制最早应用在图像识别中,近年来已经被大量应用于时序数据处理中(如自然语言处理[26]等)。本文将注意力机制应用到人体行为识别中,让模型更关注当前信息对当前动作的重要程度,从而提高模型识别性能。

注意力机制的核心是权重参数,首先学习每个元素的重要程度,然后按重要程度为每个元素分配权重,权重越大则重要程度越高。假设输入数据为bt=[b1,b2,…,bn],0

Ct=f(bt)

(5)

式中f(·)可以是CNN、RNN或全连接网络等。然后,计算Ct向量中每个特征所占权重向量

(6)

最后,将输入数据bt与其权重向量wt相乘求和,得到最终输出结果

o=∑bt·wt

(7)

1.3.4 分类器模块 在AHNNet中,人体行为类别由pi∈{1,2,…,c}给出,根据输入数据x可以预测出可能的人体行为类别p。AHNNet旨在解决多分类问题,因此使用Softmax函数更为合适,公式为

(8)

(9)

经过多次迭代,Adam优化器可以找到较优模型参数,实现对人体行为的精准识别。

1.3.5 模型构建
图4是AHNNet模型结构,输入数据经过输入层后分别输入左分支TCN网络和右分支ABiGRU网络进行特征提取,然后将两分支提取到的特征进行融合,最后输入到Softmax分类器进行分类。

图4 AHNNet模型结构Fig.4 Structure of AHNNet model

TCN分支主要由3个TCN块组成,每个TCN块包含1个一维卷积层、1个归一化层[27]和1个激活层。其中:第1个TCN块中不添加Dropout层,以最大可能保留低级特征,防止特征丢失;第2个和第3个TCN块后添加Dropout层[28],以防止模型过拟合。数据输入到一维卷积层进行特征提取后,为防止数据分布在训练过程中发生改变,AHNNet使用批归一化对数据进行处理,然后将数据输入到激活层进行非线性变换,再输入到Dropout层,最后使用全局平均池化[29],其优点是可以对整个TCN网络分支进行正则化,防止过拟合且可以减少模型参数量。

ABiGRU分支由两部分组成。使用GRU神经元为基础的BiGRU同时提取人体行为数据过去和未来的特征,并输入到Dropout层;将提取的特征应用注意力机制,为不同特征分配不同权重,以区分不同特征对当前动作的重要程度;使用全局平局池化调整数据维度,方便后面两个分支特征进行融合。

为实现注意力机制,先使用全连接层提取输入数据特征,并使用Softmax函数计算权重向量,最后将输入数据与其权重向量相乘求和得到输出结果。注意力机制结构如图5所示。

图5 注意力机制结构Fig.5 Attention mechanism structure

得到TCN分支和ABiGRU分支的输出特征后,AHNNet将二者融合,输入到Softmax分类器进行分类。

2 实 验

2.1 实验设置

本文实验使用深度学习框架Keras实现。AHNNet模型中3个TCN块所使用的卷积核数分别为128、256和128,长度分别为8、5和3,ABiGRU的神经元数为128,Dropout rate设置为0.7。本文使用Adam优化器,学习率的初始值设置为η=0.001,动量参数设置为β1=0.9,β2=0.999,ε=10-8。为加快模型训练和收敛速度,将batch_size设置为16。本文中数据集分为训练集、验证集和测试集,比例分别为0.8、0.1和0.1,其中验证集用来调整模型超参数。

2.2 数据集描述

本文使用5个数据集评估AHNNet的性能,其中一个是公共数据集,其余4个是本文在不同环境下采集自建的数据集。

公共数据集[29]在室内办公区域采集。发射器和接收器在视距条件下相距3 m。接收器是配备商用Intel 5300网卡的笔记本计算机。在数据采集过程中,每个实验者的活动时间为20 s,并需要在视距条件下进行一项活动。在该时间段的开始和结束,实验者保持静止。整个数据收集过程由摄像机记录,以便对数据进行标记。该数据集包括6个人的6个活动,分别为躺下、跌倒、走路、跑步、坐下和站起。公共数据集在使用时间滑窗去除无动作的时间片段后,剩下有效(即包含动作)时长约3 s。

为综合评估环境对AHNNet性能的影响,本文另外采集了5个不同环境的数据集。采集环境分别是标准数据采集室、会议室、展厅、心理咨询室和卧室,其布局如图6所示。5种环境使用相同设备及配置进行数据采集:TP_LINK AC1750路由器为发射器,配备Intel 5300网卡的台式计算机为接收器。为使数据标记更准确,在数据采集过程中,要求实验者在一段时间内重复某项动作,每次采集其中5 s的数据片段作为一个动作序列。为减少操作开始和结束对数据的影响,将动作序列前后1 s视为无动作。为使数据更加多样化,本文收集10名实验者的6种常见行为,包括无动作、走路、慢跑、坐下、站起和蹲下。

(a)标准数据采集室 (b)会议室

(c)展厅 (d)心理咨询室

(e)卧室图6 不同实验环境布局Fig.6 Different experimental environment layout

所有数据集采样频率均为1 kHz。接收器有3根天线,每根接收30个子载波。数据集规模方面,公共数据集经处理后有3 400条数据用于训练,本文5个数据集处理后各有3 600条数据。经实验验证,本文所用数据集规模适合轻量级的AHNNet模型。

2.3 评价指标

分类模型的评价指标通常为准确率A、精准率P、召回率R、综合评价指标F1分数。准确率A表示算法所有分类正确的样本占所有数据样本的比率,A越高则算法检测数据样本真实情况的能力越强。精准率P和召回率R都表示在不同分类情况下对该类别的判断能力,P和R越高,则该算法对该类别的分类能力越强。为了避免P和R一个为1而另一个为0的极端情况,使用P和R的调和平均值F1来评估模型的性能。各项评价指标公式为

(10)

式中:STP为属于该类且被分类器分为该类的样本数;SFP为不属于该类但被分类为该类的样本数;SFN为属于该类但被分类为不属于该类的样本数;STN为不属于该类且被分类为不属于该类的样本数。

2.4 实验结果

为综合评估AHNNet的性能,本文从滑窗参数设置、模型结构选择、不同数据集上模型性能、不同环境下模型适应能力共4个方面出发,设计了一系列实验进行验证。另外,还从参数量和浮点计算次数方面将AHNNet与同类模型的复杂度进行了对比分析。

2.4.1 时间滑窗长度及滑动步长选择 不同长度的时间滑窗对行为数据细化程度不同,窗口内包含的特征完整度不同,对模型性能有较大影响。为选择合适的时间滑窗长度,本文进行多组实验,结果如图7所示。可以看出,当时间滑窗长度T=800时,AHNNet模型性能最佳。因此,本文选择T=800。

图7 不同时间滑窗长度下的实验结果Fig.7 Experimental results for different sliding window lengths

此外,本文进行另一组实验来选择合适的滑动步长。选择滑动步长为100、200、300、400、600、800共6组数据进行实验。随着滑动步长的增加,每个CSI序列被分割成的子序列数量和子序列之间的重叠率将减少。不同滑动步长和重叠率下的模型准确率如表1所示,可以看出,当滑动步长为200时,模型性能比较好。因此,本文选择200作为滑动步长。

表1 不同滑动步长和重叠率下的模型准确率

2.4.2 模型结构对比 模型结构对模型性能有重要影响。为验证注意力机制、Dropout层和GRU的效果,设计了不添加注意力机制、不添加Dropout层、使用LSTM神经元和AHNNet这4种网络结构。在标准数据采集室采集的数据集上测试了4种主要的网络结构,结果如表2所示。可以看出:在不添加注意力机制的情况下,模型性能有所下降,说明注意力机制可以提升模型对主要特征的感知程度,提高模型性能;Dropout层能够明显提升模型的泛化性能;GRU神经元的性能指标略微高于LSTM的。

表2 不同网络结构的实验结果

图8是GRU和LSTM的损失函数,可以看出,在训练过程中GRU比LSTM更稳定且收敛更快。综合表2和图8,本文选用GRU作为神经元。

(a)GRU (b)LSTM图8 GRU和LSTM的损失函数Fig.8 Loss function of GRU and LSTM

(a)LSTM

(b)ABLSTM

(c)AHNNet图9 LSTM[18]、ABLSTM[19]和AHNNet在公共数据集上的混淆矩阵Fig.9 Confusion matrix of LSTM[18],ABLSTM[19] and AHNNet on common dataset

2.4.3 公共数据集上的对比 混淆矩阵可以直观呈现模型对每个类别的分类性能。本文以LSTM[18]和ABLSTM[19]为基准实验,验证在公共数据集上各模型的性能。LSTM[18]、ABLSTM[19]和AHNNet在公共数据集上的混淆矩阵如图9所示。可以看出,AHNNet不仅在整体分类性能上表现更好,而且在各个类别上也取得了相对较好性能。这主要由于ABiGRU和TCN分别提取数据特征再融合的机制,使得网络特征提取能力增强。另外,混淆矩阵显示每个类别分类错误都是在相似动作上,这是因为相似动作的特征相似度更高,更容易导致分类错误。

2.4.4 不同环境实验下的对比 为验证模型在不同环境下的适应性,本文在5个环境中的数据集使用AHNNet进行实验,结果如图10所示。可以看出:标准数据采集室的结果最好,这是因为标准数据采集室是一个理想的实验环境,障碍物最少,无关信号反射对人体行为影响最小;会议室和展厅的结果稍差,这是因为这两种环境中有与实验无关的障碍物,但相对较少;卧室和心理咨询室的结果最差,这是因为这两种环境最为复杂,有许多非实验因素。综合分析可知,虽然AHNNet模型的性能会受障碍物的影响,但在不同实验环境中具有良好的适应性和鲁棒性。

图10 不同环境下的实验结果Fig.10 Experimental results in different environments

2.4.5 复杂度分析 评估模型复杂度常用的指标是模型参数量和浮点计算次数。LSTM、ABLSTM及AHNNet的参数量分别为0.802×106、2.04×106、1.08×106,浮点计算次数分别为1.28×106、3.44×106、1.97×106。可以看出,AHNNet模型在复杂度上相对偏低,原因有两点:①LSTM和ABLSTM的神经元数为200,而AHNNet的ABiGRU分支神经元数为128,并且使用参数量较少的GRU,从整体上减少了模型参数量及计算量;②相比于GRU在计算时因保存每步信息而占据大量内存,TCN网络层内卷积核是共享的,因此参数量和计算量更少,对内存的占用也更低。虽然AHNNet模型结合了两种不同的网络,但是其复杂度并没有大幅度增加,反而相对比较轻量化,同时拥有较高精度。

3 结 论

本文提出一种用于日常行为健康监测的融合注意力机制的混合神经网络模型AHNNet。该模型将融合注意力机制的双向循环门控网络与时序卷积网络并行,以不同方式提取数据特征,并且在保持高识别精度的情况下能有效降低模型规模。在公共数据集和本文不同环境数据集上,AHNNet均表现出良好的识别和分类性能。不同环境下的实验结果表明了AHNNet良好的鲁棒性。

未来可从以下3方面进行进一步研究:①多人行为检测;②CSI的相位信息在人体行为识别中的有效性及使用方法;③提高模型的环境自适应能力。

猜你喜欢

滑动注意力人体
用于弯管机的钢管自动上料装置
人体“修补匠”
让注意力“飞”回来
人体冷知识(一)
人体可笑堂
Big Little lies: No One Is Perfect
一种动态足球射门训练器
A Beautiful Way Of Looking At Things
人体运动小知识
阅读理解两则