APP下载

基于卷积注意力机制的2D-LiDAR实时人体检测算法*

2024-02-24刘鹏华郑宝志姚瀚晨戴厚德

传感器与微系统 2024年2期
关键词:腿部注意力卷积

刘鹏华,郑宝志,姚瀚晨,戴厚德

(1.厦门理工学院 电气工程与自动化学院,福建 厦门 361024;2.中国科学院海西研究院泉州装备制造研究中心,福建 泉州 362216)

0 引言

人机共融是人机协作基于人工智能技术产生的一种新型人机关系[1]。在非结构化的自然环境下,人与机器人能实现紧密协调、自然交互、相互感知与帮助。随着生产力发展,感知协作型机器人市场潜力巨大,人机共融将成为下一代机器人的本质特征。跟随是人机协作的基本功能,目前跟随机器人已用于仓储物流、机场车站、医疗服务等[2~5]各场景。

目前主流已实现稳定跟随的方法根据其利用的传感器不同,大致可以分为:基于相机的视觉跟随、基于激光雷达(LiDAR)、超声波的测距跟随以及多传感器融合跟随。此外,蓝牙技术、射频识别技术、超宽带技术也被用于实现人类跟随。其中,视觉与LiDAR跟随是目前应用最广泛的技术路线。

视觉跟随其主要挑战在于当人类以一种自然的步态直立行走在机器人前方时,存在相机的运动、环境光照的变化、平面内的人体姿态变化、目标部分或完全遮挡等问题。此外,相机硬件本身也存在内部误差、视场(field of view,FOV)约束等挑战。

Gupta M等人[6]提出基于加速稳健特征的局部不变点特征的检测跟踪框架来识别帧中的目标,对于光照变化、几何失真具有一定的鲁棒性。但匹配点的可用性在不同图像帧之间存在显著差异,会导致长期跟随失败。Su U等人[7]提出了基于核相关滤波(kernal correlation filtering,KCF)算法和深度信息结合的自适应加权融合跟踪方法,通过深度信息区分目标人体与背景区域。然而对环境亮度适应范围窄,视场中存在衣着相似的行人干扰时无法进行有效的目标区分。Han D 等人[8]提出改进的相关卡尔曼滤波(Kalman filtering,KF)算法实现跟随,引入峰值旁瓣比(peak to sidelobe ratio,PSR)和深度信息融合对样本空间和滤波模型进行高可信度的更新以避免模型漂移,但其方案仅限室内。在各类视觉算法的辅助下,视觉跟随能更准确的跟随目标,但是受制于硬件缺陷,无法对光照等环境变化有较强的抗干扰能力。

相比视觉跟随对环境光照强度的要求,LiDAR 对光照变化阈值具有更高的适应性,并且LiDAR能够提供更加准确而稳健的深度信息,更加宽阔的视野和更少的数据量。基于LiDAR的人体跟随难点在于通过有限的激光点信息提取人体特征,区分环境中具有与之类似特征的干扰物体。

Kiranyaz S等人[9]通过提取人体腿部几何信息与统计特征,采用随机森林算法进行识别。Kai O A 等人[10]提出基于Adaboost的特征增强方法,通过腿部特征训练的弱分类器来检测LiDAR感知数据中的人体。文献[11]提出基于离线训练的全卷积神经网络(convolutional neural network,CNN)PeTra用于在杂乱的环境中跟踪人的双腿,通过将LiDAR数据转换为二维占用地图,以实现基于图像为输入的神经网络分类器处理LiDAR 数据。该方法需要对输入数据进行维度转换,计算复杂。Beyer L 等人[12,13]提出了基于深度学习的二维数据目标检测器DROW,减少了特征工程的需求,虽然提高了检测精度,但对于实际应用来说远远不够。尽管如此,DROW的出现将LiDAR的人体检测带入了深度CNN时代。

本文提出一种基于一维卷积神经网络与注意力机制(one-dimensional convolutional neural network and attention mechanism,1D-CNNAM)的人体腿部检测方法,通过一维卷积神经网络(1D-CNN)结合卷积块注意力模块(convolutional block attention module,CBAM)与自回归机制,对LiDAR 数据直接获取特征信息,提升对人体腿部的识别精度,在DROW数据集中与基线算法对比,本文算法在准确性与运算速度上有明显提高。

1 基于1D-CNN的人体检测

CNN是视觉传感器中精度高且误检少的目标识别方法[14]。为了解决复杂背景对行人目标产生干扰的挑战,陈梅等人[15]提出基于全CNN 的空间目标检测追踪算法,通过求解最大连通域的质心寻找行人目标,但计算成本较高无法用于实时检测。为了降低计算成本,张汇等人[16]提出了一种快速区域卷积神经网络(fast region CNN,Fast RCNN),通过聚类和构建区域建议网络(RPN)提取可能含有行人的区域。

基于CNN的图像级检测器理论上可以用于2D-LiDAR数据的目标检测,但是LiDAR数据点的空间密度随距离变化明显,CNN固定感知场覆盖尺度广泛使网络学习困难。为了应用CNN进行检测,网络的感受野必须覆盖物体的大部分。LiDAR扫描的问题在于附近的物体覆盖大量的激光束,而远处的物体只能被少量的激光束击中。这意味着CNN的感受野必须覆盖大部分的激光束,网络容易对训练场景的背景产生过拟合。

1.1 LiDAR信息预处理

图1 卷积注意力机制的激光信息检测流程

1.2 时间信息聚合

由于从LiDAR传感器获得的测量值的信息含量较低,特别是在远距离情况下。因此,将探测器不同时间的测量值聚集在一起形成“时间片段”,以获得LiDAR数据更丰富的空间表现,并且这种时间信息聚合可以大大改善后续检测任务的性能。在当前时间t为LiDAR信息点i生成窗口时,可将其之前时间T内信息聚合到当前窗口中,即

由于传感器自身位置的变化以及物体的运动,在相同的角度指数n下测得的将对应真实环境中的2个不同点,测量值之间将产生空间错位

需要进行点云配准提供差值Δ =i-j,时间信息聚合遵循前向范式,不需合并之前的多个测量值,而是保持基于当前测量值的表示,为每个新测量值进行周期性的更新表示。通过网络输出的回归完成拟合,更新步骤产生的计算量很小,不会产生窗口数量的扩展。

1.3 注意力机制与自回归模型

空间注意力本质上是将原始空间信息通过转换模块变换到另一空间中,并保留关键信息,为每个位置生成权重掩模并加权输出,从而增强感兴趣的特定目标区域,同时弱化不相关的背景区域,注意力算法如图2所示。

图2 CBAM算法原理

图3 注意力与自回归模型原理

采用空间注意机制与自回归模型进行数据对齐,无需重新计算窗口,并且在每个角度索引中只保存一个模板,无需存储多次之前的LiDAR 数据,可以显著降低计算复杂度,扩大时间窗约束,积累更多的数据信息。

2 算法评估与实验结果

为了验证所提算法对人体腿部检测的提升,在DROW验证集上对所提算法—CSADR 评估并与基线算法进行对比。基线算法分别为单次扫描DROW(T =1)与5 次扫描信息聚合DROW(T =5)算法。R为关联距离,R =0.5 m说明若检测值处于对应的真实值0.5 m 半径范围内,并且具有正确的分类则认为检测值与真实值匹配。

PR(precision recall)曲线如图4所示。

图4 验证集中DROW与CSADR算法PR曲线

图4 中,AUC 定义为曲线下面积(area under the curve),定量评估结果如表1所示,实际环境中在同等条件下所提算法与基线算法的检测时间对比如表2 所示。其中,平均精度(average precision,AP)是PR曲线下围成的面积,即图中标注的AUC值,其值越大分类效果越好。F1 是精确率(precision)和召回率(recall)的调和平均数平衡分数

表1 测试集和验证集中检测算法量化结果

表2 实际检测计算时间

评估结果表明:本文提出的CSADR人体腿部检测算法相对于其基线算法的AUC 与F1—score 在不同的关联半径下提升为21%与14%以上,对于人体腿部检测结果的精度更高,并且单次检测过程处理时间缩短0.012 s 以上。CSADR算法在R =0.7 m,T =5 条件下拥有验证范围内最好的识别效果,其中,AUC 达到66.6%、F1 达到64.6%。考虑到R过大可能引入干扰信息,推荐使用R =0.5 m,T =5。

在实际杂乱的实验室环境下应用本文所提算法对人体腿部进行检测,部分检测结果如图5所示,其中圆形为算法检测出的人体腿部信息。由实验结果可以看出,本文算法能够有效对不同人的双腿进行区分,在不同的环境中都具有良好的实时检测精度。

图5 实际环境检测结果

3 结论

本文通过对LiDAR信息的窗口化预处理,使环境对象在不同距离上有相同的特征。通过时间信息聚合,使Li-DAR信息有更加丰富的表现,便于网络提取特征。采用CBAM卷积注意力机制与自回归模型解决LiDAR 信息因时间聚合产生的特征未对齐问题,并且对特征进行有效细化。实验结果表明,本文所提算法相比于基线算法对人体腿部的检测具有更高的精度与更短的处理时间。

猜你喜欢

腿部注意力卷积
分体式腿部气动按摩装置设计
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
脚下放靠垫睡觉更解乏
脚下放靠垫睡觉更解乏
一种基于卷积神经网络的性别识别方法