Wi-Do: WiFi信号下的高鲁棒人员动作感知模型

2022-02-11郝占军乔志强党小超张岱阳

计算机研究与发展 2022年2期

郝占军乔志强党小超张岱阳段渝

1(西北师范大学计算机科学与工程学院兰州 730070) 2(甘肃省物联网工程研究中心(西北师范大学) 兰州 730070)

随着无线通讯的快速发展，人机交互技术逐渐被应用到各个领域之中，如智能家居、现代医疗等.人机交互的各种技术与应用已成为各行各业所聚焦的热点问题之一.其中，室内位置服务以及人体动作识别作为人机交互的重要内容近十年也成为了科研人员与企业关注的焦点.为了满足人与计算机更便捷的交互，众多学者开始致力于低成本、非接触式的技术研究.

WiFi技术的兴起与其设备的大量部署为室内定位与人体动作识别提供了新的思路.基于WiFi信号的动作识别技术具有普适性强、隐私程度高、部署成本低等优势.文献[4]中利用WiFi的接收信号强度(received signal strength, RSS)进行室内人体的动作识别.但是由于多径效应的影响导致RSS对环境噪声特别敏感，所以其受到的外界干扰较大.文献[5]中则用从WiFi信号中提取的信道状态信息(channel state information, CSI)进行人体动作识别.相较于RSS，CSI是更细粒度的物理信息，在采集人体动作时受到的干扰更小，更加稳定.但是在目前的研究中，基于CSI的人体动作识别还存在一些问题，如绝大部分的研究工作所识别的动作往往面向同一方向，难以保证不同方向上识别的鲁棒性.

针对上述问题，本文提出了一种基于WiFi信号的高鲁棒性人员动作感知模型Wi-Do，利用CSI识别人体动作，证明了动作识别的方向无关性.首先通过商用WiFi设备收集动作的CSI信息，并利用离散小波变换(discrete wavelet transformation, DWT)进行降噪处理.接着使用主成分分析(principal com-ponents analysis, PCA)算法及短时傅里叶变换(short-time Fourier transform, STFT)提取动作数据的多普勒频移作为其特征.最后将动作特征输入带有注意力机制的门控循环单元(gate recurrent unit, GRU)网络进行动作的分类并输出识别结果.

本文的主要贡献包括3个方面:

1) 消除了天线之间相位偏移以获取更丰富的CSI信息，以此放大由动作引起的多普勒频移，并通过快速傅里叶变换来检测动作的发生;

2) 引入注意力机制的双向GRU网络对CSI数据进行分类与识别，验证了多普勒频移、动作能量变换值与目标动作的相关性;

3) 证明了人体动作的方向无关性，并通过实验说明动作的方向不会对实验结果产生较大的影响.

1 相关工作

目前人体动作识别基于多种技术方案，本节将从接触式与非接触式两大类来阐述相关工作，并详细讲述了基于CSI对动作识别的国内外研究进展.

1.1 接触式动作识别

在人体动作识别领域中，传感器技术已经得到了广泛应用.其中，主要硬件设备分为智能手机和可穿戴设备2类.智能手机往往使用其内置传感器，如三轴加速度计、陀螺仪、重力传感器来实现对人体活动的探测.文献[6]中利用三轴加速度计，三轴陀螺仪等传感器收集人体动作数据，利用LS-SVM识别器来进行动作的分类和识别.文献[7]提出了一种基于智能手机内置传感器的人体动作识别系统，并使用在线独立支持向量机进行动作识别.可穿戴设备的原理是将能够探测人体运动状态的传感器嵌入到可以穿戴的日常物品中(如衣服、手表、手环)，然后提取各项数据进行人体姿态或动作的识别.例如，文献[8]利用多个可穿戴式传感器(如加速度计、磁力计等)读取人体运动时的各种数据，并用RNN网络对跑步、坐、起立、骑行等动作进行了识别，证明了该方法具有较好的识别效果.

传感器需要用户以穿戴的方式采集数据，对用户造成不便的同时也带来了隐私性与安全性的困扰.传感器在工作时受限于电池的续航能力.同时，如果用户忘记携带相关设备，识别工作将难以开展.

1.2 非接触式动作识别

以非接触方式进行人体的动作识别主要分为计算机视觉技术与无线感知技术.在先前的研究工作中，基于计算机视觉技术的动作识别方法通常以高分辨率的摄像机来捕捉人体运动的视频时间序列，通过图像处理和模式识别技术识别相关人体动作.文献[9]提出了一种新型的动作识别框架，称为长期视频动作识别，其利用递归的思想，允许访问长期的信息，具有较好的识别效果.文献[10]则利用基于注意力机制的LSTM(long short term memory)网络进行视频中的动作识别.首先提取视频帧的关键信息作为特征，利用注意力机制标记重点特征，最后将特征输入LSTM网络进行识别并取得了较高的识别结果.

计算机视觉方法无法在弱光及黑暗环境下正常工作，使用无线射频信号的感知方法克服了计算机视觉的局限性.根据采集无线信号的设备，其动作识别的研究热点主要分布于RFID(radio frequency identification)，UWB(ultra wide band)雷达以及WiFi等.文献[11]提出了FEMO系统，通过粘在哑铃上的无源RFID标签以及从标签反射的RF信号中提取的多普勒曲线进行运动动作的识别.文献[12]使用UWB雷达提取多普勒图像，利用PCA算法提取特征后采用门控循环单元进行动作的分类识别.但是，RFID和UWB需要专用的设备来采集数据且部署复杂度较高.

WiFi得益于其普适性，在动作识别方面存在易部署、成本低的优势.其中基于RSS的检测原理主要通过人体动作造成的信号强度变化值实现，Abdelnasser等人提出了WiGest系统，该系统由基元提取、手势识别、动作映射3部分组成.在文献[14]提出了一种基于RSS的室内活动识别框架，利用融合算法对日常的室内活动进行分类识别.虽然基于RSS的动作识别技术克服了传统传感器的缺陷，但是由于多径效应和信道的衰落导致RSS的测量十分不稳定，其携带的大量环境噪声也极难处理，所以基于RSS的动作识别同样存在局限性.同RSS相比较，CSI反映信号传输过程中的物理层的信息，通过记录发送端和接收端之间传输的子载波信息，可以更好地反应无线信号的变化情况，具有较细的识别粒度.

1.3 基于CSI的动作识别

得益于较高的信号分辨率，CSI已成为室内情境感知研究的新浪潮.从人体动作到基本的生理特征以及复杂的人体行为,CSI被广泛地应用于各种场景中.Zhang等人针对老年人跌倒问题，提出了一种人体跌倒检测模型RT-Fall，利用CSI振幅和相位信息实现了实时的非入侵式人体摔倒检测.Zhang等人提出的BreathTrack利用多径效应中的优势路径和复杂衰减系数的相位变化提取了呼吸状态来跟踪人类呼吸.Wang等人提出的E-eyes利用CSI可以检测室内人体的9种日常活动，如洗衣服、洗澡、做家务、做饭、睡觉等.文献[18]提出的Wi-Finger通过分析人体手势动作与CSI的关系，实现了对数字1～9手势的高精度识别.Wang等人提出CARM模型，将CSI与人体运动速度建立联系，能够对走路、跑步等9种行为进行有效识别.

2 Wi-Do模型概述

在本节中主要介绍WiFi人体运动感知的基本原理和信号转换流程，并阐述了Wi-Do模型进行动作识别的工作机制.

2.1 WiFi人体运动感知原理

当WiFi信号在室内传播时，受到如墙壁、桌子、天花板等多种障碍物的影响，导致信号出现不同程度的折射、反射、衍射等现象.相较于直射路径，反射路径的信号到达时间有所不同，所以接收端会先后收到多个路径的信号，这种现象被称为多径效应.根据Friis自由空间传播方程可知：

(1)

其中，

(

)为接收功率，

为发射功率，

是接收机天线的收益，

是发射机天线的收益，

为信号的波长，

为发射机与接收机之间的距离

由于室内存在地面及墙体等障碍物，会出现多条反射路径，其传播方程可表示为

(2)

其中，

为地面及墙体上的反射点到直射路径的距离

当人体在信号的传播范围内发出动作响应时，人体自身也会对信号的传播产生反射和散射

在加入人体影响后，式(2)变为

(3)

为由人体引起路径长度的近似变化

根据式(3)可知人体运动时会对信号产生干扰，得到了新的传播路径进而使得接收信号的功率随之变化

运动感知原理模型如图1所示：

Fig. 1 Multipath effect caused by human movement图1 人体运动引起的多径效应

本文利用WiFi信号中提取的信道状态信息对人体动作进行识别.在IEEE 802.11n协议下，利用正交频分复用技术(orthogonal frequency division multiplexing, OFDM)可以从WiFi信号中提取到CSI.在无线信号的传播中，传播信道通常用信道频率响应(channel frequency response, CFR)在频率

和时间

处可表示为

(4)

其中，

为路径个数，

(

)为第

条链路的衰减和初始相位，e-j2π()为第

条路径的相位偏移，

(

)为传播延迟，

为载波频率，e-j2πΔ为接收端与发射端之间载频差所造成的相位偏移

为了获得功率延迟分布，可以通过逆快速傅里叶变换(inverse fast Fourier transform, IFFT)将CFR转换为信道脉冲响应(channel impulse response, CIR)：

(5)

其中，

为第

条路径的幅度衰减，

为第

条路径的相位偏移，而

为第

条路径的时延

为多径总数，

为脉冲函数

在某一子载波上，CSI可表示为

|ej sin ，

(6)

其中，

为第

个子载波的CSI函数，|

|为第

个子载波的振幅，ej sin 为相位信息

人员执行相应的动作时，CSI所反映的振幅及相位都会发生相应的变化，探索其变化的规律即能达到有效的人体动作识别.

经短时傅里叶变换后得到多普勒频移可以更直观地体现CSI的动作信息，WiFi信号的具体转换机制如图2所示：

Fig. 2 WiFi signal conversion mechanism图2 WiFi信号转换机制

2.2 Wi-Do模型工作机制

本节描述了Wi-Do人体动作识别的工作机制.核心思想是采用更丰富的动作信息，通过基于注意力机制的双向GRU网络体系结构识别WiFi环境下的人员动作.

Wi-Do系统的工作流程具体分为数据采集、数据处理、特征提取以及动作识别4个步骤.在实际场景中部署装有Intel 5300网卡的2台实验设备来采集人体动作数据，这里我们使用Intel 5300 monitor模式完成了对CSI动作数据的获取.模型工作流程如图3所示.

Fig. 3 Overall flow chart of Wi-Do model图3 Wi-Do模型工作流程图

CSI刻画了人体运动在频域上造成的信道状态影响，只需将其与人体运动建立有效的映射，即可识别出具体的动作.数据的预处理阶段十分关键，决定着一个识别模型的泛化能力.然而，由于室内中存在严重的多径效应和其他环境成分干扰，使获取到的数据中包含了大量噪声，从而影响到后续特征提取的有效性和动作识别的准确性.我们通常根据动作特征的类别和人体在频域上的能量变化范围选择有效的数据处理方式.本文首先通过计算1对天线CSI的共轭矩阵，消除了由于环境干扰引起的随机相位偏移，引入DWT对多径和窄带影响造成的高频噪声进行滤除.接着使用PCA算法完成在通信链路上的关键特征子载波选取，具体方法将在3.1节中详细描述.该方法有效地去除了多径噪声，最大程度上保留了数据原有的特征信息.

动作特征的提取是动作识别的核心部分.在已有的基于WiFi人体动作识别的工作中，大多使用单一的振幅或相位信息或者以振幅和相位差结合等方式取得了较好的效果.然而，本文提出了一种针对运动方向无关的人体动作识别解决方案，传统的振幅和相位特征中包含着大量的运动方向信息，无法对方向信息进行有效的削弱或剔除.因此，本文将采集到的CSI数据经短时傅里叶变换得到稳定的频域特征，即多普勒频移.由于多普勒频移的特性，可以反映人体运动在频域上的速度变化，通过保持相应的多普勒位移即可削弱方向对特征信息的影响.另外，为了判断人体运动的开始和停止，增强系统可用性，我们构建了频域能量指示器，将人体运动在频域上的多普勒频移与快速傅里叶变换(fast Fourier transform, FFT)值作为共同的动作识别特征.本文在3.3节中详细说明了特征提取的方式和过程，该特征可以有效降低运动方向信息的影响，判断运动的起始，具有良好的环境迁移性和识别能力.

动作分类识别一般通过训练学习模型的方法实现.针对选取的特征属性以及计算复杂度，本文使用了引入注意力机制的双向GRU网络来对运动特征数据进行分类识别.在3.4节中将详细说明双向GRU网络的运行机制以及训练过程，该模型将空间特征集成到时间模型双向GRU中，提升了无线信号对人体动作识别的鲁棒性与准确率.

3 Wi-Do的设计与实现

本节将介绍Wi-Do模型的工作原理与设计实现.2.2节中，针对动作分析提出了几种具体的感知分析方法.因此，下面的工作将提供本Wi-Do模型的分类基本原理与方法.

3.1 感知数据的获取与处理

由于多径效应，信号由发射机到接收机所传播的信号存在多条传播路径.在通信过程中，信道冲激响应被用来评价每一条传播路径的优劣，见式(5).信道响应可以用各路径上的多普勒频移表示为

(7)

其中,

(

)为静态路径上的响应，

为动态路径的集合

传统基于CSI的动作识别中，往往使用单天线单链路的信道特征作为感知数据的获取源，其方法的选择会丢失较多的动作特征数据.为了提升CSI对人员动作的敏感度，需要更好地平衡静态响应与动态响应.振幅较高的CSI通常具备较大的静态响应，这是因为室内环境中存在强LOS信号.而方差有助于反馈动作变化对CSI的影响，能更好地反映动态响应.因此本文选择了CSI振幅最大方差最小和振幅最小方差最大的2根天线.图4说明了对天线的选择准则：

Fig. 4 Amplitude of different antennas图4 不同天线的振幅

图4中显示了不同天线和不同子载波的CSI随时间的分布，天线2具有最大的方差且振幅相对较小，天线3具有最大的振幅且方差相对较小.所以本文提取天线2,3作为动作信息的数据来源，计算2根天线的共轭矩阵，减少来自不同方向上的影响以便更好地提取多普勒特征，这将在之后的3.2节详细说明.

原始的数据中，包含着与动作无关的低频干扰与突发噪声.为了准确地保留来源于人体运动的CSI信号，本文使用DWT将人体动作信号进行多次分解和重构，通过设置细节系数中的阈值模式和尺度噪声过滤掉高于人体动作频率的环境干扰.采用db3为波基函数并进行8次分解重构，细节系数选取minimaxi阈值模式.经小波变换处理前后的CSI数据如图5所示：

Fig. 5 CSI wavelet transform diagram图5 CSI小波变换图

根据图5中数据处理前后的对比，可以看出经过DWT处理后能够较好地保留原有信号中反映人体动作状态的峰值和突变部分，又将多径环境和窄带影响造成的高频毛刺进行了有效的去除，为进一步使用短时傅里叶变换提取稳定的多普勒频移特征奠定了基础.

3.2 人体动作特征提取

为了进一步去噪与对CSI数据进行降维以提取动作信息做时频分析，本文对CSI数据进行主成分分析.由于第一主成分包含由运动引起的主要功率变化，选择该成分作为短时傅里叶变换(short-time Fourier transform, STFT)的输入以提取多普勒频移特征.当人体向发射机和接收机移动时，反射的电磁波信号其波峰波谷以较快的速度到达接收机，而远离时，其波峰波谷到达接收机的速度变慢.一般而言，多普勒频移可以表示为

(8)

为信号的波长，

(

)为反射路径的长度

由式(6)，对于CSI通过时频分析对谱图可以得到多普勒频移：

(9)

(

))为截取CSI动作信号段的窗口函数.由于WiFi网卡之间缺乏同步，从而导致了原始CSI中未知的相位偏移

(10)

2π(

)是引起的相位偏移载波频率和时间偏移量

因此从实际的CSI中直接提取多普勒分量是不可行的.为了消除未知的相位偏移，同时仍然保留完整的多普勒频移，Wi-Do使用了WiFi网卡上的不同天线来解决这一问题.

来自于同一网卡上的天线都有相同的相位偏移，Wi-Do采集了不同天线的CSI原始数据，用不同天线的相位解决了相位偏移的问题，以计算1对天线的CSI共轭乘法的方式消除了相位偏移.将消除相位偏移的CSI数据去噪后经PCA选择第一主成分后，经STFT变换得到的多普勒频移示意图如图6所示.

Fig. 6 Doppler spectrogram of CSI图6 CSI多普勒频谱图

图6为商用WiFi网卡提供的CSI在头部、手部、腿部运动时所引起的多普勒频移的频谱图.其中,图6(a)描述了2 s内的点头行为，前1 s为低头动作，后1 s为抬头动作；图6(b)为手臂的向左挥动的多普勒频移图；图6(c)为腿部的向前迈出与收回，图中明显可以观察到1 s前的迈腿与1 s后的收腿所引起的多普勒频移变换.

各多普勒频移的能量虽然存在波动，但是图6中依然能够清晰地反映出由于方向以及动作的变换所带来的多普勒效应.这为模型的分类提供了可靠的数据来源.

3.3 运动能量指示器

为了提升系统的效率与性能，应在人员运动开始时对动作进行有效的识别.因此，需要设置一个阈值来判断监测区域内的能量变换，从而识别人员动作的起始位置.文献[25]中证明了人员的不同行为活动会使能量强度和频率产生差别.不同行为所引起的能量波动不同，以构建运动能量指示器的方式可以有效地分割不同活动行为.当WiFi区域内无动作发生时，其FFT曲线如图7(a)所示，图7(b)为实验人员腿部发生动作行为时的快速傅里叶变换曲线.与腿部运动时所引起的能量变化相比，无动作发生的能量更低.

Fig. 7 FFT transformation curve图7 FFT变换曲线

因此本文设置了一个能量指示器来检测人体动作的发生.能量指示器根据降噪后的动作CSI序列以检测CSI的FFT变换值：

(11)

其中,

为计算得到的能量，

为时间窗的长度，

为每秒时间窗内计算得到的归一化FFT系数.Wi-Do监测2个连续窗口中短期运动能量的差异.当差异大于设置的正阈值时，Wi-Do将认为有动作发生.当动作完成时，窗口中的运动能量将急剧下降即差值小于负阈值.

此外，由于不同动作类别所引起的能量变换值各不相同，所以能量变换值也是体现人员动作的一部分.因此，FFT变换值也将作为人动作特征的一部分输入至训练模型中.既丰富了人员的动作特征，又避免了模型出现过拟合现象.

3.4 分类与识别

Wi-Do将识别模型应用于多普勒频移来识别相应的动作.多普勒频移在一段时间内都有变化，而由于人体运动的加速和减速，简单地估计每个时间样本对应的人体动作会产生较大的噪声.为了提升动作识别的效率与鲁棒性，Wi-Do选用了循环神经网络中的GRU方法，与原始的RNN相比，LSTM和GRU更有学习长期依赖关系的能力，而GRU在序列建模方面的性能与LSTM相当，但涉及的参数更少，数据更少，更容易训练.

Wi-Do将注意力机制引入模型中并采用双向结构以帮助GRU建立时序关系.将计算得出的CSI时序特征以时序序列

={,,…,}输入到GRU中.由于不同运动所引起的CSI能量变换的不一致性，我们将能量指示器所获取的快速傅里叶变换值

,…,

}也作为模型的输入层.此外，在正则化过程中加入dropout层，并使用具有交叉熵损失的softmax分类器进行类别预测.GRU的网络结构如图8所示:

Fig. 8 Representation of GRU structure diagram图8 GRU结构图

GRU简化了LSTM的输入门、输出门、遗忘门和单元状态4个门结构，将其划分为2个门，分别称为重置门和更新门.在任意时间步长

,GRU包括3个参数:复位门、更新门和隐藏状态

参数按下式进行更新：=

(·+·-1)，

(12)

(·+·-1)，

(13)

(14)

(15)

其中，代表时刻

的输入时序信息，-1表示时刻

-1的隐藏状态，，，表示权重矩阵，

为sigmoid函数

双向GRU可以提取出多普勒频移以及傅里叶变换值中所携带的更多信息，并将其转换为隐藏状态.然而，2部分对于目标动作的重要性有所不同.本文通过增加模型对动作的关注程度来提高分类的准确性.权重得分可以用来表示模型的关注程度.分数越高，该部分与动作的相关性越强.因此，我们建立了一个注意机制来计算不同部分和动作之间的权重值.

Wi-Do以相反的方向计算注意力权重得分情况.一种是从多普勒频移到FFT能量，另一种是从FFT能量到多普勒频移.2部分特征分别通过GRU网络后进入隐藏层，后经过池化注意力机制层由softmax输出分类，图9具体描述了GRU模型中使用注意机制的整体过程.

Fig. 9 Classification algorithm flow chart图9 分类算法流程图

注意力权重可由式(16)表示：

(16)

其中，

(17)

(18)

(19)

(20)

式(21)建立了非线性变换层和softmax分类器以计算分类动作概率值：

=tanh(

·+),

(21)

使用softmax函数分析动作类别

的概率:

(22)

为了提高模型在分类任务中的性能，该方法对训练过程进行了优化，包括输入层、双向GRU神经网络层、注意层和非线性层.采用L2正则化的CrossEntropy作为损失函数，其定义如下:

(23)

(24)

表示学习速率

在训练过程中，该方法设计了dropout策略，随机去除隐层的一些特征，以避免过拟合.通过上述方案，Wi-Do可以准确的识别出来自不同方向的人体运动动作.

4 实验验证与结果

在本节中将验证不同因素对Wi-Do的影响，并且分析了Wi-Do的性能与上限.

4.1 实验设计

实验所用硬件设备分为接收端与发射端.接收端、发射端均为包含Intel 5300网卡的电脑2台，无线网卡连接3根外部全向天线，使用CSI tool工具提取网卡中的CSI信息.实验设置了3根发射天线1根接收天线共3条传输链路.信道的中心频率设置在5.7 GHz，调整采样率至1 024 Hz.发射端、接收端设备之间相距2 m，高度1.5 m.

所有实验都在教学楼内进行，分别为教室、会议室与大厅.教室区域周围有课桌椅和其他设备，属于复杂环境；会议室内摆放着会议圆桌与椅子，相对于教室而言为半空旷环境；大厅为完全空旷区域.

实验运动动作分别设置为3类：头部、手部、腿部.头部包含点头、摇头等动作；手部包括上下左右4个方向上的挥手；腿部为前后左右以及各个方向之间的45°夹角8个方向上的伸腿.实验选择在3种不同环境下采集上述动作数据，其场景示意图如图10所示：

Fig. 10 Experimental scene diagram图10 实验场景

在初始训练样本时，不同的实验环境、实验人员、人员规模以及人员的不同状态都会对人员的动作识别产生影响.为了测试算法的鲁棒性，本文设置了多组对比实验.实验邀请了6名志愿者(3女3男)来采集CSI动作信息，如表1所示.为了控制除信号本身以外的其他变量，实验设置了一个计时器，当测试人员按下计时器时，志愿者开始做实验设置的运动动作，每个动作记录10组数据.

Table 1 Experimenter Settings表1 实验人员设置

4.2 实验因素分析

4.2.1 实验场景多样性

在本节中，我们将使用普通WiFi设备实现Wi-Do，并在3种典型的室内场景(大厅、会议室和教室)中评估其性能.结果如图11所示:

Fig. 11 Identification accuracy in three scenarios图11 3种室内场景的识别准确率

可以看出，Wi-Do在不同场景下都表现出了优异的性能，动作发生在头部、手部、腿部时，其平均识别准确率分别为87.65%,91.83%,94.45%.从实验结果可以看出Wi-Do在空旷大厅中表现最好，在教室表现最差.这是由于教室障碍物较多，多径效应严重，干扰了动作信号的传播，导致动作识别准确率下降.而空旷大厅几乎没有障碍物阻挡，所以动作信号相对完整，动作的识别准确率也相应提高.从整体识别准确率来看，Wi-Do系统对环境具有较高的鲁棒性.

4.2.2 人员多样性

实验比较了不同人员在相同环境下的动作识别准确率.本文分配表1中6名志愿者在空旷大厅中重复实验设计的3组(头、手、腿)动作，记录Wi-Do对于3种动作的平均识别效果，结果如图12所示:

Fig. 12 Graph of average motion recognition accuracy of different people图12 不同人员的动作平均识别准确率

来源于不同人的动作数据可能会由于他们不同的行为模式存在差异.图12(a)(b)描述了模型对人员头部、手部运动的识别效果，虽然不同人之间识别准确率存在差异，但是平均识别准确率均都能保持在90%左右.由图12(c)可以发现，Wi-Do对于腿部运动的识别有着更加稳定的效果与性能，可以为人体步态识别工作提供良好的实验应用.Wi-Do对于6个实验人员的动作平均识别准确率保持在90%以上，这充分验证了该模型在人员多样性方面的优势与鲁棒性.

4.2.3 动作方向多样性

为了验证Wi-Do在不同方向上的识别准确率.实验设置了8个不同方向的相同动作，正常情况下人体的动作可划分为前后左右、右上、右后、左上、左后8个方向.为确保方向上的动作一致性，志愿者在8个方向上做伸腿的动作.其结果如图13所示:

Fig. 13 Accuracy distributions for orientation evaluation图13 不同方向的准确率分布评估

如图13，各个方向的识别准确率的平均值为93%左右.当人员向右后迈步时，其识别准确率最低，且较为稳定，通过实验分析发现，右后方的多普勒频移与后方的多普勒频移较为相似，但其识别准确率依然可以能够保持在87%左右.对于在不同方向上做的相同动作，Wi-Do都能有平均为90%以上的识别准确率.尽管在不同的方向之间存在差异，但对于人员动作的识别效果依然显著.这充分验证了Wi-Do模型能够适应来自不同方向上的人员动作.

4.2.4 设备部署多样性

一般情况下，由于不同室内环境中物品的摆放方式不同，WiFi的部署形式也会存在多样性的特征.实验设置了7种不同的设备部署方式以验证模型的鲁棒性，其部署位置示意图如图14所示:

Fig. 14 Different deployment locations for devices图14 设备不同的部署位置

志愿者分别在7种不同的设备部署位置上做实验设置的相关动作，实验结果如图15所示.

Fig. 15 Identification accuracy at different deployment locations图15 不同部署位置下的识别准确率

从图15中可以以看出，设备与人在一条直线上，即在部署位置4处时，识别准确率达到最高，而位置在1,7处的识别精度最低.这是因为设备之间的间距较近且与人的距离较远，从而导致难以分辨人员的动作发生与动作行为，导致多普勒频移与傅里叶变换值不稳定，致使识别准确率下降.

4.2.5 设置参数多样性

发射端与接收端的间距也会对Wi-Do系统的识别准确率产生影响.为了得到最佳检测距离，我们在空旷大厅内分别让发射端与接收端间隔不同距离，并在每个距离下测试设计动作，结果如图16所示:

Fig. 16 CDF of error rate图16 错误率的累计分布函数

图16给出了不同情景下的错误率累积分布函数(cumulative distribution functions, CDF).

轴表示识别错误率，

轴表示CDF百分比.在设备间距1 m时实现了最高的准确性，其中大约81%的测试数据的错误率小于10%.间距4 m时识别的性能最差，其中大约52%的测试数据的错误率小于20%.一般情况下，随着设备间距的增加，Wi-Do的性能会越来越差.而间距1 m与间距2 m有着相似的识别率却提供了更大的人员运动区域，所以实验选择2 m作为验证运动的区域.这说明在一般室内环境中，Wi-Do对人员动作的识别能够保持较高的准确率.

4.3 综合性能评估

本节将对不同识别算法、不同识别模型以及模型的边界进行探讨，详细地阐述了Wi-Do的识别准确率与鲁棒性.

4.3.1 不同分类算法比较

为了评估Wi-Do模型中分类方法的性能，在本文的实验环境中，采集6个人的30 000包动作(包含头部、手部、腿部动作)数据作为训练样本，将我们设计好的引入注意力机制的双向GRU网络与先前工作中的LSTM、HMM、决策树等分类算法进行对比.将训练样本数据经过降噪处理后，提取相应的多普勒频移和快速傅里叶变换值作为特征，分别带入4个分类方法中进行动作识别，各个分类方法的动作识别效果如图17所示:

Fig. 17 Accuracy comparison of different classifier algorithms图17 不同分类器算法的准确率对比

从图17中可以清晰的看出从头、手、腿等动作，由于动作幅度变大，不同分类方法的动作识别精度均有所上升，Wi-Do的分类模型与LSTM,HMM以及决策树方法的准确率分别为94.68%，92.36%，85.47%，78.51%，说明了改良注意力机制的神经网络的深度学习方法比传统方法在提取特征后识别分类能取得更好的效果，因此在实际实验中我们采用了引入注意力机制的双向GRU网络作为模型中的分类器.

4.3.2 不同模型比较

WiAct利用身体运动和信道状态信息中的振幅信息之间的相关性来分类不同的活动,使用极限学习机用于活动数据分类.Wi-Motion从CSI序列中提取的振幅和相位信息，用振幅和相位分别构造分类器，通过基于后验概率的组合策略对分类器的输出进行组合.Wi-Multi组合策略对分使用动态时间规整与支持向量机提取样本，结合神经网络识别目标动作.本文将平均识别准确率作为评价4种模型的指标，具体结果如表2所示:

Table 2 Comparison of Recognition Accuracy

观察表2可得，4种识别模型中，Wi-Do的识别准确率整体高于其他3种模型.WiAct，Wi-Motion对于头部、手部动作的识别准确率都在90%以下，相对而言，Wi-Do具有出色的表现.综上Wi-Do适用于大多数室内环境中的人员动作识别，并能提供较为精确的识别率与优秀的鲁棒性.

4.3.3 模型边界探究

Fig. 18 Diagram of the influence of different people on the model图18 不同人员对模型的影响

在真实环境中，往往存在除被检测人员外的其他人员.由于其干扰，动作的识别结果可能会有所下降.为了探究多人对识别效果的影响，在空旷大厅中本文设计了2个实验：1)实验人员1在WiFi测试区域做动作，其余1～5位测试人员在区域内保持静止.2)实验人员1在WiFi测试区域做动作，其余1～5个人员在区域内做干扰动作，例如改变身体朝向或在测试区域中走动等.实验结果如图18所示.

从图18(a)中可以看出，当其余测试人员保持静止时，其准确率虽然有所下降，但是趋势较为缓慢，总体识别准确率能够保持在85%以上.然而随着人员的增加，见图18(b)，识别准确率下降速度较快，但是依然能够在6人时保持在80%左右.这是因为干扰动作同人数线性增长，导致模型无法准确识别人员动作.

随着人数的继续上升，识别准确率将会大幅度降低.但其应用场景已能满足小型家庭及会议室的要求.我们将会把多人动作的识别工作置于今后的研究工作中.

5 总结

本文提出了一种基于注意力机制的双向GRU网络来识别WiFi区域内的人员动作.利用天线分集消除相位偏移后引入离散小波变换以滤除人体动作无关的信号，分别提取出信号中的多普勒频移和动作能量变换值作为Wi-Do模型的输入.实验结果表明，本文提出的CSI人员动作检测模型在准确率和效率方面优于许多已有的检测方法.

后续工作将在以下2个方面进行下一步的开展：1)提升Wi-Do模型的泛化能力，使其能在多人环境中对人员的动作进行识别.2)开展人员动作速度的特征提取，丰富人员动作的特征，进一步提高算法的鲁棒性.

作者贡献声明

：郝占军提出了研究思路，负责论文的起草；乔志强负责设计实验方案，数据分析以及论文修改；党小超给予了基础理论支持和实验建议，负责了实验监督；张岱阳参与了数据可视化、实验探究；段渝参与了实验验证与数据整理.