基于改进残差网络的儿童动作分类
2023-03-11陈庆澎管雪梅徐岗翔让博慧周一鸣
陈庆澎,管雪梅*,徐岗翔,让博慧,周一鸣
(1.东北林业大学 信息与计算机工程学院,黑龙江 哈尔滨;2.东北林业大学 机电工程学院,黑龙江 哈尔滨)
引言
处于学前阶段的儿童,活动能力尚弱,活动范围小,根据《中国儿童伤害报告》的报告表明,3~6 岁的儿童每天在室内的时间占比高[1-2],而此阶段的儿童对于危险的感知较弱,无法及时辨认环境危险。
针对室内情况下的儿童动作识别可以对即将到来的危险进行预警,从而避免悲剧的发生。
当前,姿态评估的数据集常见数据集有KTH 数据集[3],HMDB 数据集[4]。KTH 数据集人物背景单一,不适合室内的复杂情况,HMDB 数据集中人物背景复杂,但儿童部分数据过少。本文使用室内场景较多且包含儿童的A2D 数据集。
本文采用2D 卷积网络[5],以残差网络Resnet(Residential network)[6]作为分类网络,对图像中的人物动作进行分类。由于室内环境复杂,物品多,因此,人物背景信息的冗余信息多。为解决传统残差网络在训练的过程中无法很好地学习标签特征,其对测试集的准确率低,泛化性能差,过拟合现象严重的问题,本文引入CABM (Convolutional Block Attention Module)注意力模块[7-9],通过注意力机制向不同的样本,将注意力图与输入特征图相差以进行自适应特征优化,从而缓解过拟合现象。
1 网络架构
1.1 残差网络
残差网络Resne 是何凯明等人在2015 年提出的模型,作者通过加入残差结构解决退化问题。Resnet在处理深层网络表现出较好的效果,见图1。
图1 残差结构
1.2 CBAM卷积注意力模块
Mnih 等最初在图像处理方面引入了注意力机制概念,通过计算输入数据的权重,突出某个关键输入对输出的影响。
注意力机制是将模型注意力集中在局部关键信息的机制,分成两步:首先,全局扫描发现局部有用信息;其次,对有用信息增强同时抑制冗余信息。
CBAM 是一种注意力机制模块,结合了空间(spatial)和通道(channel)的注意力机制模块。相比于Senet 只关注通道(channel)的注意力机制可以取得更好的效果。
根据图2 可以看到,从卷积层输出的结果,先通过一个通道注意力模块,进行加权之后,再通过一个空间注意力模块,加权得到最终结果。
图2 CBAM 模块
2 数据集
2.1 数据集介绍
本实验采用A2D 公开数据集。相对于KTH,HMDB 公开数据集,A2D 数据集中来自日常生活数据,人物背景更加复杂,更贴近真实情况。
A2D 数据集中的儿童部分包含三类动作共计343个视频,并且视频同时标有像素级actor 和采样帧的action。本文采用等间隔截取视频帧,将视频数据集图片集。转化为其中,前80 段为训练集,后20 段为测试集。其中训练集,训练测试集,训练结束测试集按照4:1 的比例划分,见表1。
表1 儿童数据集介绍
2.2 数据增强
数据增强技术很大程度上减小了网络过拟合问题,提高了模型的泛化性[10]。
此外,与数据增强后的实验结果相比,数据增强处理前的训练集与测试集准确率的差值更大,数据增强使得模型泛化能力得到提升,同时改善模型的过拟合,见表2。
表2 数据增强
3 实验以及结果分析
3.1 实验环境
见表3。
表3 实验环境
3.2 训练结果
本文通过将Resnet 网络模型和添加CBAM 的Resnet 识别效果进行对比,对模型的精准度进行测试。二者在训练过程中的准确率见图3,损失值见图4。
图3 训练过程中的准确率
图4 训练过程中的损失值
可以看出,添加CBAM后的Resnet 训练过程中的准确率与损失没有明显变化。
二者在测试集的数据见图5,可以看到,Resnet 在测试集的准确率在到达60%开始波动,但训练集的准确率依旧上升,表明模型陷入过拟合,在添加CBAM后Resnet 的准确率开始上升,最高可达到79.6%。实验表明,添加CBAM后的Resnet 很好地缓解了过拟合现象。
图5 测试集的正确率
4 结论
儿童动作的识别可以很好地为儿童无人监管情况下的安全问题引入一个新的思路。由于数据集数据量小,模型无法避免过拟合现象,但通过引入CBAM结构,可以很好地缓解模型过拟合问题。通过改进残差网络,对儿童动作进行识别,其正确率满足实际要求。