基于连续图像深度学习的Wi-Fi 人体行为识别方法
2020-09-08周启臻邢建春杨启亮韩德帅
周启臻,邢建春,杨启亮,韩德帅
(1.陆军工程大学国防工程学院,江苏 南京 210007;2.火箭军工程大学作战保障学院,陕西 西安 710025)
1 引言
人体行为识别是利用计算机技术实现肢体运动自动检测、分析和理解的技术,广泛应用于智能家居、安防监控、医疗康复、人机交互等新兴领域[1-2]。人体行为识别通常可以分为两类[3]:接触式和非接触式。可穿戴设备[4-5]是接触式行为识别系统的关键载体,但是存在设备昂贵、用户穿戴不便、注意力侵扰等诸多限制。非接触式的行为识别能提供无设备的感知服务和友好的用户交互,因此得到了研究人员的广泛关注。目前非接触式的行为识别主要依靠深度摄像头[6]和无线电信号[7]。然而,前者的普及受限于光照条件、视距路径干扰、监控死角和隐私问题;后者通常需要部署专用的实验设备,难以大规模推广。
作为城市基础设施,商用Wi-Fi 设备[8]所提供的无线信号具有普适、易用、高性价比、传输距离远等优势,近年来在人体行为识别领域被广泛关注[9],早期工作基于Wi-Fi 接收信号强度(RSS,received signal strength)实现简单的室内人员运动检测[10]。为了进一步提升感知粒度和识别精度,研究人员开始从Wi-Fi 商业网卡中提取物理层的信道状态信息(CSI,channel state information)[11]。CSI 能够刻画感知目标所引发多径链路变化,从而利用子载波层次的幅值和相位信息实现更复杂精细的行为识别,如室内活动监测[12]、摔倒检测[13]、步态认证[14]和手势识别[15]。然而大多数方法在建立Wi-Fi 信号扰动与人体行为之间的映射关系时,需要丰富的专业知识和领域经验来指导模型设计[16]、信号挖掘[17]和特征选取[18],这使系统的稳定性、实用性和整体精度不高。如何利用最少的人为干预,实现稳健、普适、高精度的人体行为识别成为亟需解决的问题[19]。
近年来,受图像深度学习[20]的启发,研究人员尝试将信号矩阵转化为灰度图像并利用卷积神经网络(CNN,convolutional neural network)自动学习尺度不变、位移不变的局部空间特征[21-22]。然而,相比于专业相机拍摄的主体清晰、固定尺寸的连续图像,直接利用CNN 处理Wi-Fi 信号序列无疑更具挑战性。不同动作的初始时间−振幅曲线如图1 所示,其面临的技术挑战可概括如下。
1) 噪声干扰严重。尽管CSI 能宏观地反映人体运动状态的变化,但是商用Wi-Fi 设备所提供信号粒度有限,使感知目标所产生的信号振幅容易混杂于背景噪声和多径干扰中[9,16]。现有工作往往难以提取运动关键信息,导致深度网络无法从混杂扰动中学到目标信号的本质特征。
2) 信号尺寸不兼容。人体活动的发生具有随机性,因此每一次活动发生时刻均不一致,所产生的信号样本在时间尺度上并不统一,因此导致其与CNN 模型所要求的固定尺寸输入存在矛盾[22]。现有工作通常截取固定长度的信号片段以适配模型输入,但是这可能遗漏有效信息(过短)或是增加运算成本(过长),从而影响系统部署的灵活性和时间效率。
3) 特征提取不充分,用户执行复合动作时通常存在上下文的逻辑关系,如完成深蹲动作需要依次执行站立等待、快速蹲下、快速起身、站立等待的动作,因此会出现先平稳、后快速震荡、最终平稳的波形变化。然而,单一的CNN 模型无法对这种时间尺度上的依赖关系进行有效建模,导致复杂环境下的系统精度受限。
针对上述问题,本文将Wi-Fi 信号处理问题转化成图像领域的连续目标识别问题[23-24],提出一种基于连续图像深度学习的Wi-Fi 人体行为识别方法——SIL-Fi(sequential image learning with Wi-Fi)。本文的主要创新点如下。
1) 连续帧低秩分解。通过重构固定尺寸的三维信号图像,将时变的Wi-Fi CSI 信号序列转化为数量不一、尺寸固定的连续图像帧,同时设计不需要复杂调参的低秩矩阵分解算法,提取稳健的低秩信号主成分,提高噪声环境下运动信号的显著性,进而提高模型训练样本的可靠性。
2) 深度模型融合。通过深度融合CNN 和长短时记忆(LSTM,long short-term memory)模型,实现变长图像序列空间域和时间域特征的充分萃取,进而克服模型输入限制和特征提取不充分的缺点。
3) 真实场景验证。本文通过多组真实场景实验对模型可行性进行验证,并考虑了不同动作、模型组合、测试人员和环境等诸多因素的影响。与其他基于深度神经网络的模型相比,本文方法在不同实验环境均取得较高的识别精度,因此具备普适场景下的高精度和稳健性。
图1 不同动作的初始时间−振幅曲线
2 SIL-Fi 方法框架
本文提出的SIL-Fi 的总体框架如图2 所示。本文的活动数据来源于公开数据集WiAR[25]和自主采集的真实数据集。在动作信号预处理模块,首先对所获取的CSI 原始幅值序列I进行分割,即重构成N个纵坐标为子载波个数S′、横坐标为数据分组长度、通道数为天线数A的三维信号矩阵所组成的序列I′,以确保每个输入片段的尺寸都保持一致。然后设计稳健主成分分析法(RPCA,robust principal component analysis),将分割后的三维信号矩阵视作低秩活动信息、背景信息和测量偏差的叠加,通过约束各个通道低秩矩阵的秩和背景矩阵的稀疏度,提取低秩的关键运动信息,避免运动无关的信号扰动。在时空域特征提取与分类模块,设计了一种融合空间域特征和时间域特征的深度模型,主要包含3 个卷积层、2 个LSTM 层和一个全连接层。其中,多层卷积运算通过逐层表征信号矩阵,将低秩矩阵中具有显著识别力的局部空间特征进行抽象并映射到特征图中;LSTM 层通过控制内部门状态,依次实现特征图序列上下文信息的提取和更新,从而对其在时间尺度的全局依赖关系进行建模;全连接层将动作特征映射至样本标记空间,且防止特征过拟合。最后,由Softmax 层输出预测动作的标签类别。
3 动作信号预处理
为了探究Wi-Fi CSI 的信号特性,首先介绍CSI的背景知识。CSI 信息来源于当前正交频分复用技术中对子载波信道状态信息的估计,反映了信号传输过程中所产生的时延、能量衰减和相位偏移。令x为发射端信号,y为接收端信号,Noise 为测量噪声,H为CSI 信道估计矩阵,则有
设Wi-Fi 设备持续采集样本,A根天线接收到的每个数据分组共包含S个子载波的信道响应,即
当A根接收天线以固定采样频率Q连续采集T个数据分组时,时间长度为。为方便描述,以数据分组长度T为时间计量单位。则在T范围内,所有S个子载波的CSI 原始幅值序列I可以表示为
由于持续工作的Wi-Fi 设备所采集的CSI 幅值序列I在时间尺度上不一致,且运动信号往往随机存在于采集样本中,无法通过截短或是填充的方式固定信号尺寸。因此,为方便后续的CNN 运算,本文首先将完整的CSI 幅值序列IS×T重构为I′S′×T′×A×N,即每个序列I′包括N个大小为S′×T′×A的三维信号矩阵D。具体而言,由于本文采用的无线网卡类型为Intel 5300,接收天线数量A为3,每根接收天线提供子载波个数S′为30,每次截取的数据分组个数T′为30,截取重叠部分为15。当采样频率Q为30 Hz 时,每个输入大小为30×30×3 的三维信号矩阵D包含了1 s 内每个通道(天线)30 个子载波的全部幅值信息,如式(15)所示。
图2 SIL-Fi 的总体框架
因此,由N个三维矩阵D所组成的重构幅值序列I′可以表示为
其中,n∈[1,N],数量N由数据分组长度、每次截取的数据分组个数T′和滑窗重叠片段共同决定,表示为,其中表示数值向下取整。
为了消除无关因素对有效信息的干扰,大多数相关研究采用主成分分析法进行关联信号的提取。本文受图像前景提取相关工作的启发,提出利用RPCA 提取目标动作信息[23]。假设任意时刻输入RPCA 的三维信号矩阵D在每个通道的幅值强度矩阵都包含了低秩运动信息、稀疏背景信息以及少量测量噪声。令第n个三维信号矩阵在通道v处的投影为二维矩阵,通过约束其低秩矩阵的秩r和背景矩阵的稀疏度b,实现如式(7)所示目标函数的最小化。
从而将N个三维信号矩阵中的低秩部分视为前景信息进行提取,稀疏的干扰信息视为背景信息进行剔除。RPCA 的稳健性在于:1) 不需要人为假设噪声类型和强弱,因此可以有效应对突发噪声和严重的离群数据,而传统的PCA 只能处理密集分布的高斯噪声[24];2) 不需要人工挑选信号主成分,只需要提取低秩矩阵就可以表征高度相关的CSI 活动信号。这是因为CSI 信号相邻子载波之间的运动前景信息具有较强的关联性,近似位于同一低秩的子空间中。然而传统的PCA 很难在运动信息丰富的第一主成分[26]和噪声干扰式微的第二主成分[16]之间做出选择。利用RPCA 提取低秩主成分的流程如图3 所示,具体步骤如下。
图3 RPCA 提取低秩信息的流程
步骤1参数初始化。需要初始化的参数包括低秩矩阵约束r、背景矩阵稀疏度b、迭代次数t、重构误差ε和能量幂值q。令初始低秩矩阵L0为二维矩阵,背景矩阵B0为零矩阵。
步骤2比较重构矩阵误差。通过增广拉格朗日交替方向乘子法,依次计算第t步迭代时,第n个片段在通道v处的计算误差,并与ε比较。若各通道计算误差同时小于ε,则执行步骤6;否则,执行步骤3。
步骤3双边随机投影。采取双边随机投影,对每个通道的低秩矩阵进行逼近。
步骤4比较重构矩阵秩。若各个通道矩阵秩均小于预设值r,则令其等于矩阵GT2Y1的秩,执行步骤2;否则,执行步骤5。
步骤5更新各个通道的低秩矩阵。
本文方法通过计算矩阵的F 范数来近似矩阵低秩的约束。秩越低,信号矩阵的线性相关度越高,表明越多的天线子载波表现出相同的变化规律。本文设置最终输出的低秩矩阵约束r=1,目的是希望从噪声湮没的CSI 信号中恢复每根天线30 个子载波的统一变化规律。同时,由于背景干扰随机影响每根天线的每个子载波,符合误差稀疏性的约束,因此设置背景矩阵稀疏度b=100,误差ε=10−6,以控制计算复杂度。因此,最终分离出的低秩矩阵L包含了最丰富的运动信息和最少的噪声干扰。图4为经过RPCA 处理后不同动作的连续信号低秩图,纵轴从上到下分别表示第1、2 和3 根天线,横轴从左到右分别表示第1、3、5、7 和9 帧。通过观察图4(a)的第7、9 帧和图4(b)的第5、7 帧的实验结果可以发现,RPCA 提取的信号低秩成分能够从不同的空间维度上清晰地揭露运动信号的变化特征,具有显著的辨别力;通过观察图4(a)的第1、3、5 帧和图4(b)的第1、3 帧可以发现,RPCA 有效抑制了背景因素和测量噪声的干扰,一定程度上提升了信号帧的分辨能力。
4 连续信号图像时空域特征提取与分类
4.1 空间特征提取
经过预处理后的连续信号序列I′′需要按照从1到N的顺序,依次将其中的三维低秩矩阵输入CNN 进行空间特征提取。CNN 优势在于:1) CNN可以通过多层的卷积运算逐层自动提取抽象特征,而人体活动天然具有分层结构[9];2) CNN 的局部感知特性有利于局部空间域信息的获取,而人体活动往往发生在特定的时间片段内;3) CNN 不需要复杂经验来指导参数设置,就可以提供位移、尺度和旋转不变的空间特征,提高数据处理的容错率。对于一个j层的CNN 模型,第m层的卷积运算式可以表示为
其中,Y(m)和X(m)分别为第m个卷积层的输出和输入,第m个卷积层输出即为第m+1 个卷积层的输入,即X(m)=Y(m−1)。g(m)、M(m)和δ(m)分别表示第m个卷积层的激活函数、权重矩阵和偏置矩阵。特别地,对于第一个卷积层来说,输入为经RPCA 处理后的第n个低秩矩阵,即;对于最后一个卷积层,输出Y(j)=Y。如图5 所示,本文搭建了一种适用于低分辨率信号帧的空间特征提取模型。借鉴文献[27]的设计思路,仅采用3 层卷积运算以提取场景无关且具有辨别力的空间特征,防止模型过深所导致的特征过拟合。每个卷积层(Conv)后都做批归一化和ReLu 激活处理,以提高模型的稳健性和训练速度。每次运算均采用较小的3×3 卷积核压缩模型的参数量,并在池化操作后翻倍特征通道数,从而保证特征提取的完整性。最大池化层负责对前一轮的卷积特征图进行二次采样,以缩减模型大小;最后一个全局平均层负责提取每个通道全局信息,并输出维度为3×3×64 的张量至后续的LSTM 层中。第三个卷积层输出的特征图序列F为
图4 经过RPCA 处理后不同动作的连续信号低秩图
图5 空间特征提取模型结构
当模型设置默认参数值的情况下,以WiAR 数据集中走路样本的第7 帧为例,可以看出所构建的空间特征提取模型可以从多个维度逐层表征具有辨别力的空间特征。
4.2 时域特征提取
由于动作执行存在前后逻辑关系,单一的CNN模型无法建模时间尺度上的依赖关系。本文添加LSTM 层,可以建立连续卷积特征图F中的时域关联,提升识别系统的可靠性。原因在于,LSTM 可以通过控制内部门的状态,实现记忆单元的存储和更新。具体而言,每个LSTM 内部主要包括输入门in、输出门on和遗忘门fn。输入门in决定新信息流入当前记忆单元状态cn的数量(式(15)),输出门on负责控制前一帧记忆单元cn−1的信息输出(式(16)),遗忘门fn负责判断cn−1中何种信息应当被保留至当前时刻,以防止梯度消失或者梯度爆炸(式(17))。LSTM 结构如图6 所示,根据第n个信号帧获得输入卷积特征图、前一帧的记忆单元状态cn−1,以及上一时刻的信息输出hn−1,得到当前时刻的记忆单元状态cn(式(18)、式(19))和输出hn(式(20))。
其中,Wi、Wo、Wf、Wc和bi、bo、bf、bc分别为相应的权重和偏置矩阵,σ表示激活函数sigmoid,◦表示2 个矩阵的逐元素相乘运算。
图6 LSTM 结构
在实际操作中,需要预先在CNN-LSTM 中分别添加“序列折叠层”和“序列展开层”,以便实现图像序列批次和图像批次之间的转换。当最后一个卷积层输出特征图为3×3×64 的张量时,需要经过flatten 层的处理,转换成576×1 的向量后再输入两层LSTM 单元中。LSTM 的单元数为128,两层LSTM 单元之间dropout 概率设置为0.5,以应对过拟合问题。将最后一次迭代的LSTM 输出信息送入一个全连接层(fc),隐单元数量对应动作的种类。最后,由Softmax 层输出动作的最大概率,并预测对应的标签。本文采用的模型训练优化器为动量梯度下降法(SGDM,stochastic gradient descent with momentum),每次随机选择小批量进行梯度下降,从而实现权值的快速迭代更新和损失函数的最小化。选择L2 正则化作为损失函数的惩罚项,目的是控制模型复杂度,防止模型过拟合。相应的动量超参数默认为0.9,轮次上限设置为50,每次更新所需的小批量大小为28。初始学习率设为0.01,当迭代至25 轮以后,再将学习率调整为0.001,以期用更小的步长寻找最优值。本文采用5 折交叉运算法来验证算法的有效性,实验训练和测试均部署在Intel i7-5700HQ 2.70 GHz CPU 的台式机,并利用MATLAB 2019a 进行模型实现,训练过程如图7所示。
5 实验性能分析
5.1 实验数据集及实验设置
本文所采用的公开数据集WiAR[25]是Wi-Fi 动作识别领域最新的数据集,包含三类室内场景、16个动作类别,涵盖了4 800 个采集数据。该数据集的动作类别包括10 个上肢运动、2 个下肢运动和4个全身运动。每个动作均由10 名测试人员(5 名男性、5 名女性)按照指令执行30 次,持续时间超过7 s,包括动作准备时间、执行时间和完成后等待时间。配置Intel 5300 网卡的商用Wi-Fi 设备以30 Hz的采样率持续接收CSI 数据分组,接收端的天线数量为3 根。由于该数据集来源于真实场景,包含场景噪声、习惯差异、人员多样性等诸多不利因素,故具有一定的挑战性。
本文还使用了自主采集的真实场景数据进行测试。参考WiAR[25]的实验设置,实验安排在如图8所示的6 m×6 m 相对空旷的会议室和6 m×12 m 噪声复杂的办公室环境中进行。选择5 名无相关专业背景的研究生作为测试人员全程参与实验,其中,2 名为女性,3 名为男性。为了增加动作识别的难度,挑选4 个相似的全身动作和4 个上肢运动,全身动作包括原地踏步、深蹲、跳跃和摔倒,上肢动作包括喝水、接听电话、挥手和敬礼。在一周内每人每天在不同场景分2 次完成共计20 组动作,以避免劳累所导致的动作变形。数据采集阶段,提前为两台ThinkPad 笔记本电脑配置Intel 5300 网卡和CSITool[11],其中一台装配一根外置天线,作为发射端(AP);另一台装备3 根外置天线,作为接收端(MP)。两台笔记本放置距离为4 m,放置高度为1.5 m,分别工作在监控模式下,以30 Hz 的采样率持续发送和接收数据分组。
图7 MATLAB 平台模型训练过程
图8 本文设置的实验环境
5.2 基于CNN-LSTM 的同类工作对比实验
为了准确评估SIL-Fi 的模型优势,本文选取2种基于CNN-LSTM 模型的同类工作进行对比实验。
如表1 所示,文献[28]采用了低通滤波、PCA去噪和有效区域的组合去噪方式,以0.96 的精度对8 种活动进行识别;文献[29]前期利用盲源信号分解法(BSS,blind signal separation)对原始的幅值和相位信息进行分解,并利用隐马尔可夫模型(HMM,hidden Markov model)对识别结果进行修正,最终以0.85 的精度识别4 种门窗开关的方式。本文方法在模型主体结构基本类似的情况下,在信号预处理阶段仅利用RPCA 对运动信号主成分进行提取,避免引入烦琐的信号表征步骤(文献[28])或是额外信号参数及纠正手段(文献[29]),并在公开数据集WiAR 和自主采集数据集上均取得理想的识别精度。为了进一步阐述本文方法的优势,复现了表1中同类工作的方法,采用5 折交叉验证法分别对WiAR 和自主采集数据集的各类活动数据进行比较。其中,表2 为WiAR 数据集上16 类活动的识别正确率,表3 所示为自主采集数据集上8 类相似活动的识别正确率。综合表2 和表3 的实验结果,文献[29]方法在识别弯腰、坐下、深蹲等全身动作时效果较好,识别喝水、打电话等相似动作时效果较差,这可能来源于BSS 算法的局限性,即来自人体躯干和门窗等表面积较大的反射信号更有利于分离。文献[28]在2 个数据集上的平均识别精度最低,分别约为0.91 和0.94,这可能是因为该方法要求天线远距离摆放以获取空间多样性,而在本文实验场景中,烦琐的信号预处理方法在处理噪声干扰的同时,也更容易丢弃有益的运动信息。本文方法在面对不同动作时均能取得较好的识别效果,平均精度分别为0.94 和0.96,说明本文模型在仅需要RPCA 和原始幅值连续帧的情况下,依然能够有效提取运动信号主成分;在不进行深度模型参数复杂调优的情况下,依然能够提取显著性特征。
表1 本文方法与基于CNN-LSTM 的同类工作的比较
表2 WiAR 数据集上识别正确率比较
表3 自主采集数据集上识别正确率比较
5.3 不同动作对系统识别准确率的影响
为了进一步探究不同动作对本文方法识别准确率的影响,以混淆矩阵的形式对本文方法在2 个数据集的验证结果进行呈现,如图9 所示,纵坐标为真实标签,横坐标为预测标签,每个混淆矩阵的像素(i,j)表示第i个预测动作被估计成第j个真实动作的个数。图9(a)中动作编号1~16 所代表的动作如表2 注所示,图9(b)中动作编号1~8 所代表的动作如表3 注所示。如图9(a)所示,在WiAR 数据集上的主要误差来源于手臂画勾和前向踢腿等肢体动作。其中,手臂画勾动作最容易被识别成手臂画叉和摇晃纸张等具有相似逻辑关系的动作,分别有15 例和18 例;前向踢腿动作最容易被识别成相似的侧向踢腿和走路,分别有12 例和24 例。在图9(b)中,由于全身运动和肢体运动具有显著差异,因此对应的全身(肢体)动作全部被识别成类似的全身(肢体动作)。在全身动作中,深蹲动作是最容易被误识别的,仅有0.949 的识别正确率;在肢体动作中,喝水和敬礼动作的识别精度最低,分别为0.939 和0.933。通过总结实验结果观察到,连续且具有较大摆动幅度的全身动作最容易被识别,而孤立的、具有相似逻辑关系且摆动幅度较小的肢体动作最难被正确分类。
5.4 不同深度模型组合方式的影响
本节实验分析了不同卷积(Conv)层和LSTM层组合方式对训练时间和平均精度的影响,以WiAR 数据集为例,实验结果如表4 所示。其中,设置每个Conv 层后紧跟最大池化层、批归一化层和激活层ReLu,其一层、2 层和3 层Conv 的隐神经元个数分别是(64)、(32,64)和(16,32,64),LSTM的单元数统一设置为128,全连接层的单元数为16,其余设置与前文所述一致。观察到,当以序号1 的方式组合时,耗时最长,平均精度最低。这是由于缺乏Conv 层的抽象特征提取和最大池化层的降采样操作,导致LSTM 需要处理多达14 400 个信号批次。随着Conv 层数和最大池化层数的增加,训练时间逐渐减小,平均精度也得到了显著的提升,说明网络开始逐层学习具有判别性语义的特征。当固定Conv 层数,进一步增加LSTM 层数时,观察到从序号2 到序号3,由于模型过度拟合,尽管训练时间增加了299 s,但是精度却反而下滑。相比序号4,当采用序号5 的组合方式时,仅需要多训练1 464 s,即每个训练样本训练1.75 s,就可以得到超过序号4 组合方式0.12 的精度提升。
5.5 不同特征提取方式对识别稳健性的影响
为了直观凸显SIL-Fi 在特征提取方面的优势,本文分别选取基于手动特征提取[14,18]、基于CNN[22]和基于LSTM[30]的相关工作进行复现并进行对比实验。基于手动特征提取的工作一般分为两类:一类运用专家经验,试图枚举时频域显著性特征,从而构建完备的特征集合,如文献[14];另一类是在前者的基础上,对特征集合的有效性和冗余性进行计算,从而筛选出代表性特征,如文献[18]。为确保对比实验的公平性,在复现文献[18]的方法时,所采用的特征均来源于文献[14],二者仅在特征筛选环节有所不同。对比文献[22,30]是为了说明单一的空间/时域特征对于系统稳健性的影响。文献[22]利用改进的CNN网络提取变尺寸的幅值−相位图像的空间特征,文献[30]则首次将LSTM 应用于Wi-Fi活动信号的时域关系建模。
图9 2 个数据集上不同动作的混淆矩阵
由于WiAR 数据集缺乏样本采集时的环境描述,因此在自主采集数据集上对不同特征提取方式的稳健性进行探究。自主采集数据集上不同特征提取方法对系统稳健性的影响如表5 所示。可以得出以下结论。1) 文献[14]的枚举特征集合无法在自主采集数据集上使用,该特征集合仅能片面地刻画自主采集数据集活动的特征,因此平均精度最低,仅为0.77。2) 采用有监督式的特征筛选方法[18]通过剔除冗余的、无益的时频特征,可以将系统识别精度提高至0.85,这说明在理想情况下,若能针对领域特点设计出一个考虑足够全面、精炼和显著的特征集合,则可以确保系统识别的稳健性。然而这种方法极大地依赖设计者的背景知识、调参经验和总结规律能力。3) 即使是单一的CNN 或者LSTM 方法,在面对场景迁移和个体差异时,都能通过自动提取空间域/时间域上的显著特征,取得理想的识别精度,分别为0.935 和0.934。4) SIL-Fi通过深度融合CNN 和LSTM 模型,在不同的实验室环境、不同的受试个体中均取得了最高的实验精度,验证了本文方法的稳健性。注意到测试人员的个体差异对识别精度的影响,SIL-Fi 在经过适当修改后还适用于用户认证、手势密码和智能推荐等个性化服务。
6 结束语
针对现有基于深度学习的Wi-Fi 行为识别方法存在的抗噪声能力差、信号输入不兼容以及特征提取不充分的问题,本文提出一种基于连续图像深度学习的Wi-Fi 人体行为识别方法——SIL-Fi。首先将采集到的CSI 原始幅值序列分割成若干个固定尺寸帧图,克服模型输入限制;进而设计低秩分解算法法提取关键的运动主成分信息;并将每一帧低秩矩阵分别输入空间特征模块和时间特征提取模块中。其中,空间特征模块通过逐层表征信号矩阵,将低秩矩阵中具有显著识别力的空间尺度特征抽象并映射到特征图中;时间特征模块接纳变长的特征图序列,并借助其记忆特性对其在时间尺度的上下文依赖关系进行建模。通过整合模型,既能实现低分辨率图像空间域和时间域特征的深度萃取,又可以有效解决CNN 模型输入和特征提取不足的问题。本文方法分别在WiAR 公开数据集和自主采集数据集上进行测试,并考虑了不同动作、模型组合、测试人员、特征提取方式等诸多因素的影响。实验结果表明,本文方法相较于同类工作具有良好的性能,具备普适场景下的高精度和稳健性。
表4 WiAR 数据集上不同深度模型组合方式对实验结果的影响
表5 自主采集数据集上不同特征提取方法对系统稳健性的影响
为进一步提高方法的实用性,下一步工作还需要解决以下问题:1) 如何在少样本或者零样本的情况下,实现场景独立的人体行为识别;2) 如何在多人或多变量并发的情况,实现目标人体活动信号的分离和提取;3) 如何通过合理修改模型结构,在计算资源有限的情况下进一步提高工作效率。