APP下载

基于深度学习的无人机人机交互系统

2021-01-22闫洪猛

设备管理与维修 2021年16期
关键词:深度图操作者纹理

闫洪猛

(德州职业技术学院,山东德州 253034)

0 引言

人机交互系统是人工智能技术下的重要分支,近年来无人机技术的不断进步使得人机交互系统受到了广泛关注,越来越多的人机交互方案相继提出。传统的无人机操控模式包含遥控器或摇杆以及地面站设备仪器等,对操作者的技术要求较高,在无人机的交互与控制方面具有较高的门槛,对无人机技术的推广有不利影响。近年来新型无人机控制模式被提出,只需要穿戴特殊的辅助设备便能实现便利的无人机控制,如基于视觉的无人机控制方法便获得了广阔的发展空间。但因为传感器传输距离限制,系统需要领航员RGB-D 传感器保持一定距离之内,室外运行受到此机制约束。为了进一步拓展人机交互的功能性,克服现有的系统缺陷,通过深度学习分析手势动作,实现在室外进行应用,并且在响应效率上有了进一步提高。

1 基于双目视觉与深度学习的动作识别方法

本文所述的无人机人机交互系统,在动作识别功能方面具有3 个结构:①视觉中对于操作人员的辨识和跟踪,在图像获取方面,跟踪的结果提取将操作者作为中心,对包含操作者的所在位置进行立体匹配,并生成深度图;②结合深度视频序列,形成包括操作者人物动作特点和时间特点的彩色纹理图;③通过卷积神经网络,在嵌入式开发板中实现人物动作的识别。

1.1 操作者跟踪及深度图生成

为了实现无人机手势控制系统在户外的应用,在系统启用设计方面,结合回传视频明确操作者的位置信息,结合位置信息利用快速视觉跟踪算法来持续跟踪操作者。结合跟踪位置在双目摄像机获取的视频序列,从中裁剪出一个只有人物内容的视频,按照裁剪的视频经过立体匹配算法形成深度图。在系统启动阶段结合摄像机显示内容,在地面站利用鼠标点击的方式将操作者面部范围设定为跟踪区域。跟踪期间按照跟踪位置,在高分辨率的视频中裁剪一个小范围视频,经过视频预处理和视频压缩,不仅能解决相机漂移问题、清除操作者附近的其他外部影响因素,同时也降低了视频运算量,提高响应效率。按照裁剪获得的两个图像计算深度图,可以选择基于块匹配的立体匹配算法,在匹配期间操作者会和地面深度信息差缩小,若地面深度信息抽取稳定性不足,地面深度信息通常会影响到深度图中的人物提取;可以设计纹理匹配阈值,将地面细微纹理过滤掉,得到一幅较为干净完整的人物动作画面。

1.2 彩色纹理图的生成

在获取双目深度图之后,根据特征描述方法尝试改进深度图,运用彩色信息描述时间信息,将空间信息在同一张图中叠加显示。以双目深度图作为基准,视频序列中的动作空间信息与时间信息都在一张图片中投射,生成彩色纹理图。视频序列中临近的两帧深度图差分出的运动空间特征,都结合运动时间特点具有不同颜色,而且可以叠加,形成包括运动时间特征和空间特征的彩色纹理图。再对图片上的像素位置进行操作处理,使视频序列能够压缩为一张色彩较为饱满的彩色纹理图,以像素点值的空间位置描述动作序列的空间特征,像素点相对的颜色值便是动作序列的时间特征。

1.3 训练卷积神经网络

虽然卷积神经网络可以自动提取图片特征进行分类处理,但分类功能过于完善导致在训练数据不充足的情况下出现过拟合的问题。为了改善这一问题,可以选择旋转图片的方式拓展训练数据集,缓解过拟合现象。训练卷积神经网络在ImageNet 数据集中获得显著成绩的AlexNet 网络结构,这一网络结构通过5个卷积层以及3 个全链接层形成。后一卷积层的核与前一层中的全部核映射相连,全链接层的神经元链接到前一层的所有神经元中,响应归一化层和第1、2 卷积层之后。最大池化层与在响应归一化层和第5 个卷积层后,ReLU 非线性在所有卷积层和全链接层的输出中应用。这一网络结构让多分类Logistic 回归目标最大化,能够最大化预测分布下训练样本中正确标签的对数概率均值。为保证卷积网络的结果正确,AlexNet 网络结构在ImageNet 中完成训练的模型可以用作初始网络参数,网络中各层权重利用梯度下降法进行计算,其中的参数一般会使迭代次数和学习率产生变化,网络一次迭代使用250 余张图片,按照训练数据集的具体情况进行训练循环。

2 数据集的构建

通过深度学习来分类数据信息,这种方法需要明确很多位置的具体参数,也要通过神经网络针对不同类型的数据信息进行预先的学习过程。建立完善样本数据集来实现神经网络的训练,确保神经网络能够获得全面可靠的参数。为了达到预定的训练网络目标,还要通过其他的分类数据实现所获网络参数的可靠性验证,以下便为数据集的构建过程。

神经网络参数通常根据所用训练的数据集决定,训练结果的质量水平也直接取决于数据集:①样本越大的数据集效果越好,但若数据集过大则可能对训练的过程及其结果带来不利影响,所以数据集的构建需要明确合理的数据量,这是基本环节;②用作训练的数据集需要尽量包括正确动作的不同状况,在各种光照和外部背景环境的条件下进行采集;③用作训练的数据集要实现数据集中各类图片的统一性,图片内容分类不能混乱。

无人机所获得到的画面信息与静态相机能够拍到的画面对比可能会出现相机飘移,所以在系统设计方面,神经网络算法需要具备较强的适应能力:选择双目摄像机和无人机,在多种背景和光照条件下建立数据集;设计自控无人机的多种动作。无人机的实际应用会遇到环境光照不一致等问题,应用环境通常比正常环境所知的数据集更具不确定性,为了规避误差、误判,在动作设计方面需要尽量选择特征差异较大的动作,将其作为有效动作,这在有关实验中已得到了证实。

为了辨识无关动作,构建的数据集要包括多种无关动作,在系统数据集的构建上选择多个小动作和个别的无关动作,在画面采集期间尽量让多个不同的人在不同环境下分别完成采集工作,采集距离设定在4~10 m,采集时需要尽量确保任务在左右两个摄像头的公共区域内。采集到的数据信息尽量包括不同的使用环境,如不同的光照环境和其他复杂环境等,无关动作数据信息也可以利用采集数据集之外的视频序列建立。

在视频信息获取完成后,按要求处理为彩色纹理图,选择出较为标准的动作,删除无关动作,并把不同的动作分类、建立列表,便于之后的训练过程。在一番筛选后,确保只有在动作完毕后才能被判定为有效动作,避免动作误判等问题。在生成的数据集中,各个类型的图片可以达到几千张,而每一类的彩色纹理图片都要进行标注,确保所有彩色纹理图在输入神经网络时便于分类。无人机在运作期间受到环境影响,如在刮风的条件下运作会倾斜,无人机运行姿态判断,结合姿态数据旋转图片的运算,对无人机的嵌入式计算机带来更高的压力,对此可以通过数据拓展的方式扩充数据集,避免无人机图像采集期间受环境影响而倾斜的现象。在数据集中先随机抽调一些图像,将这一部分图像以4°之内的范围进行随机方向旋转以补充数据集,避免神经网络过拟合的同时也进一步加强了神经网络的适应能力。

3 系统构成

深度学习下的无人机人机交互系统,系统的构成特征基本在于以下3 点:①将卷积神经网络应用于实时人机交互系统中,通过生成彩色纹理图描述视频序列中时间特征和空间特征,根据这些描述对后续图片进行训练与分类,进一步提高了图片和视频的辨识度;②以双目视觉的方式生成深度图,以新型的能够适应更复杂环境的手势识别方法,根据动作标准进行手势运动便可以识别,并不需要重新训练用作动作识别的模型,相对其他传感器的识别精准性和范围进一步提高;③在无人机中搭载处理器实现人机交互,能够有效提高信息传输效率,降低传输延迟。

无人机利用飞行控制器和GPS 模块能够做到自主悬停,搭载嵌入式平台实现图像与动作的自动识别。无人机平台通过电压22.2 V、容量5200 mA·h 的锂离子电池作为电能来源。嵌入式平台可以选择Jetson TK1 平台,这一平台所搭载的处理器具有多个CPU,可以保证图像处理效率和性能。图像采集处理与动作识别一般在这一平台中实现,而且平台是飞行控制和地面站信息传输的重要节点,利用串口连接飞控,应用WiFi与地面站连接;而地面站则可以实现飞行器状态监控,可以查看运算结果。

4 结束语

基于双目视觉和深度学习的无人机人机交互系统,解决了深度相机传输范围制约和光照制约的问题,能够在室外的更多场景下应用。当前这一系统依然有很多地方需要继续完善,以优化动作识别和识别响应效率。

猜你喜欢

深度图操作者纹理
基于BM3D的复杂纹理区域图像去噪
基于深度图的3D-HEVC鲁棒视频水印算法
使用纹理叠加添加艺术画特效
操作者框架在车辆传动系旋转耐久试验中的研究与应用
TEXTURE ON TEXTURE质地上的纹理
一种基于局部直方图匹配的深度编码滤波算法
操作者因素对Lenstar测量眼轴长度可重复性的影响
叠加速度谱在钻孔稀少地区资料解释中的应用
消除凹凸纹理有妙招!
双腔管插入操作者手卫生依从性护理干预效果观察