基于神经网络的多类物体三维位姿获取方法研究
2022-05-19李博梁飒
李博 梁飒
目前工业流水线上的工业机器人多数只能完成简单的任务和重复性的工作。社会的进步和技术提高需要更加智能化的机器人。机器视觉的发展和三维建模技术的进步,为机器人完成更加复杂和智能的任务奠定了基础。工业智能仓储技术和智能仓库急需能够自动识别货架上的物体的三维位姿,并能够自动抓取的智能机器人系统。
仓库中的货架上往往不规则地摆放了各种各样的物体,这些物体相互之间位姿排列并不整齐,往往相互遮挡和影响,因此三维视觉系统从一个视角拍照获取物体的点云数据经常交叉干扰和影响,只能获取物体的一小部分的三维点云数据,影响物体的后续处理。
针对物体的相互遮挡和干扰,本文提出了一种基于多视角的空间多位姿拍照技术,拍照位姿均匀排布在一个椭球面上,实现对货架所有物体的拍摄。经过多次实验,挑选了15个拍摄角度,这些拍摄角度尽最大可能降低了物体之间相互遮挡的问题,图1所示是货架及货架上的物体,还有15个用三棱锥表示的不同拍摄位姿。
图1 位姿示意图
图2 多特征点图像
为了获得更为精确的15个位置之间的相对位置关系,实验采用SURF特征点提取算法来获取相对位置矩阵。首先,我们在货架上放置特征点数量较多的图像(如图2),然后对此场景下进行15个位置的图像拍摄,最后,针对拍摄的图像应用SURF算法,获取两个位置之间相同特征点的位置及方向变化,将此变化矩阵作为相对位置关系,如图3为特征点的匹配。
图3 特征点匹配图
图4 训练集
实验货架部署6种类型的物体。基于以上实验条件,采用神经网络对物体和背景进行训练和彼此分割。因此神经网络的输出一共是7类,包括六类物体和一类背景。采用的神经网络模型是基于FCN-VGG结构的全卷积神经网络,网络模型的初始化参数采用ImageNet的权重,这个权重是基于1000个物体分类训练后得到的参数。整个实验采用PC机和能够实现深度智能学习的GTX1070NOVIDA显卡作为训练的硬件。
详尽、全面和大量的训练数据集是神经网络学习的基础。本项目获取实验数据的方法是,首先对六个物体中的每一个物体都进行拍照,获取每个物体的平面彩色图像及其对应三维点云数据作为标签图像。图4是拍摄到的一组样例。实验中每个物体拍照1075幅彩色图像和1075幅对应的三维点云图像及标签图像,因此共选取10230幅彩色图像和10230幅对应的标签图像组成训练集进行训练。
图5分割结果
训练的时间超过168小时,迭代次数超过40万次,具有0.997的识别正确率和低于0.001的损失率。图5显示了将不同物体及其背景分割出来的分割结果。
实验采用尤傲机器人R5腕部装配Intel ReaISense F200相机,进行15个不同角度彩色图像和深度图像的采集,以获取物体的彩色信息和深度信息。
在上一步通过神经网络学习得到物体分割的结果后,如图5所示,为了将同一物体在15个角度拍摄得到的三维点云数据融合在一起,我们采用如下方法。
图6 图像归一化
首先将16位的分割深度图像标准化为0~1之间,如图6所示,然后利用图7所示的方法将所有15个角度的深度图的像素值累加求和,并除以15求出每個像素的平均值,最后,除以总的像素个数,求出整体的像素平均值。然后利用图8所示的办法,求出沿着15个位姿方向拍摄的图像的像素值变化的样本标准差,得到像素值变化的方差。如图9所示,利用三倍方差的原则去除掉非物体自身的像素点。该方法就是要创建一个与原图像大小完全一样的图像模板。如果原图像中的像素值在三倍方差之内,对应的模板像素值为1,否则为00然后将模板图像与获取的深度图像进行乘法运算,把属于物体真实深度值的像素值保留下来。
15幅位姿的深度图像都进行这样操作后,每幅图像都只保留了有用的物体深度信息,然后根据15幅图像之间拍摄时的位姿关系进行坐标变换,最后将所有深度图像中的物体深度坐标统一到一个参考坐标系中,这样同一物体的15幅不同角度的深度图的深度信息就融合到了一个参考坐标系中,实现了点云数据的融合。图10就是一个物体不同角度点云数据的融合结果。
图7 像素均值获取
圖8 样本标准差获取
图10物体分割点云图
根据上一步点云融合后的三维点云数据,首先,需要去除噪声;其次,为了提高速度,还需要进行降采样处理。
三维位姿配准时,ICP算法容易收敛于局部最优点,因此配准的初始物体位姿应尽量接近最优位姿,这一点尤为重要。本文中采用两步法进行位姿获取。首先利用PCA进行粗配准,得到物体与三维点云的初步位姿关系。物体的三维点云数据样例如图11所示。图12是利用PCA方法将物体的模型与三维点云数据进行配准获取位姿变换关系的样例。
接着利用上一步PCA粗配准的结果,得到的物体三维位姿作为ICP精配准的初始输入,利用ICP配准算法的迭代原理,实现精确三维物体位姿的获取。图13表示了从PCA粗配准到ICP精配准的样例展示。图14展示了最终的分割和匹配结果。物体的外方框是将配准的位姿利用彩色图像显示出来。
图11 物体点云图
图12 物体位姿转换
图13 物体位姿转换
图14 最终分割结果
本文针对仓储物流过程中货架上物体的分割及其位姿的获取提出了新的解决方案和算法。基于深度学习神经网络,获得了货架上不同种类物体的分割模型,基于神经网络分割的结果实现了货架上各个物体各个角度拍摄的三维点云融合,最后通过PCA和ICP由粗到精的两步模型匹配方法,得到物体的实际位姿,定位精度小于两毫米,能够满足机器人抓取的要求。