基于深度学习的机械手势识别研究
2021-11-10雷恒王晓艳
雷恒,王晓艳
(西南林业大学,云南 昆明 650000)
近年来,我国手机支付的应用已经在全国范围内普遍开展,预示着人机交互活动成为人们生活中必不可少的一部分。同时,随着机器视觉的进一步发展和相关数据分析理论的不管改进和完善,在未来将逐渐实现以计算机为中心的人机交互转变为以人为中心的人机交互模式。手作为非刚性物体,其姿势变化十分丰富,所表达的意思也很多。因此,基于机器视觉的手势识别问题的解决对人机交互模式具有重要意义。与此同时,深度学习已经在语音识别、人脸识别等图像识别中广泛应用并取得一定成果。本文将重点研究深度学习理论在手势识别方向的应用。具体阐述如下。
1 深度学习理论研究
深度学习本身是一种算法,其区别于云计算和并行处理能力。对于识别领域而言,对某个目标或对象的识别需经历传感器获取基本参数、对基本参数进行预处理,对相关特征进行提取,结合提取结果通过推理、预测后完成识别任务。传统识别系统中对特征的推力、预测和识别由机器完成;而对特征提取等由人为进行,该项操作的工作量也很大,一旦提取特征存在偏差将导致后续机器的识别精度。因此,基于机器完成对对象或目标的特征提取不仅可解决工作量繁重的目标,而且还能够解决参数提取特征的精度。
深度学习就是由机器完成对象特征的提取,正好与上述需求契合。深度学习网络如图1所示。
图1 深度学习网络
如图1所示,深度学习最基础的机制为对象的特征从底层传递至上层的过程中对各项参数特征和抽象信息进行提取,其中所包含的信息众多。与人脑学习机制不同,深度学习需要不断训练才能获得预期效果。
2 基于深度学习手势的识别
2.1 静态手势识别
手势识别的任务是基于深度学习分析出其中的内涵,在整个识别过程中需经历检测、跟踪、识别三个流程。其中,检测和跟踪流程主要是对手与非手进行区分;识别流程是对不同手势进行区分。实际上,检测和跟踪是保证识别准确性的关键,即静态手势识别。因此,本节将重点对静态手势识别展开研究。为开展相关研究,制作相应的手势样本,并为其赋予复杂的背景。
静态手势识别的核心内容为采用最佳方法对手势进行识别。基于深度学习可应用于静态手势识别的方法包括采用深度网络DBNs识别手势、采用DNN方法进行手势识别、采用卷积神经网络进行手势识别、采用CNN和RBM联合网络进行手势识别。上述四种手势识别方法与传统神经网络的手势识别方法相比,传统神经网络容易在学习训练过程中陷入循环且不容易从中间跳出,其对应的训练学习速度较慢。本文将基于CNN方式对手势进行深度学习,进而实现识别的任务。并对不同训练样本下不同迭代次数的错误率进行仿真分析,得出如图2所示的结果。
图2 静态手势识别错误率仿真结果
如图2所示,对着识别样本数量的增加基于DNN方法识别的错误率降低;而且,随着深度学习迭代次数的增加,即加强学习的深度最终所获取静态手势识别的错误率明显降低。
2.2 复杂背景手势识别研究
静态手势识别对应的识别难度较低,而在实际应用几乎不存在静态的情况。因此,针对复杂背景下手势的识别应重点开展研究。对于复杂背景下手势的识别其主要难度在于待识别样本中存在较大的噪声,从而极大地增加了手势识别的难度。
针对复杂背景下手势的识别可采用DBNs网络、DNN方法、RBM以及联合网络进行训练。经研究可得出如下结论:
(1)基于DBNs网络对复杂背景下手势的识别存在较大的困难,该方法对复杂手势样本的识别能力较弱;
(2)基于RBM方法对复杂背景下手势的识别难度更大,该方法几乎无法获取复杂背景下手势的参数,同时还无法实现对复杂背景下手势的重构。
(3)基于DNN方法可实现对复杂背景下手势的识别,其能够在多次迭代次数达到收敛的效果。
综合分析可知,用DBNs网络、DNN方法、RBM以及联合网络对手势识别的训练方法各有优劣势。总的来讲,可基于DNN方法实现对手势识别的深度学习和训练,且其对应的识别错误率最低。
3 结语
深度学习目前已经应用于各行各业中,虽然其在众多行业中已经应用,但是实际应用中对应的训练方式、学习顺序、数据处理等依然存在问题。本文重点研究深度学习理论和相关技术在手势识别中的应用,并总结得出如下结论:
对目前应用较为广泛的两种深度学习方法进行对比,包括以RBM为基础的深度网络和CNN深度网络。经仿真分析可知,CNN深度网络针对静态和复杂背景下手势识别可以保证最高的识别准确率;以RBM为基础的深度网络仅对静态手势的识别准确率满足要求,而针对复杂背景的识别效果不佳。因此,针对实际应用中的手势识别可以采用CNN深度网络开展对静态和复杂背景下的深度学习和训练。