媒体认知课程中的智能感知技术教学方法探究
2017-09-28杨毅钟娴乔飞王生进丁文浩
杨毅++钟娴++乔飞++王生进++丁文浩
摘 要:媒体与认知是电子系在课程改革中提出的一门全新的核心必修课程。文章阐述如何探索并建立一种智能感知技术及相应的教学方法,说明设计开发一套以三维重建技术为基础的智能感知教学内容及教学手段的过程,目标是培养学生的创新性思维,培养智能感知学科的人才。
关键词:媒体认知;智能感知;三维重建; RealSense平台
1 背 景
随着电子信息技术日新月异,电子信息教学领域也面临着全新的挑战,需要培养具有全方位视野和超强能力的新一代工程师及领导者。本着这一目标,清华大学电子系自2008年开始着手进行课程改革,通过改革课程体系将原有课程重新整合,从学科范式的角度整理出电子工程本科教育的知识体系结构,从而梳理出新的本科课程体系,形成了电子信息领域学科地图。
媒体与认知是清华大学电子信息学科在课程体系改革过程中提出的一门重要的必修课程[1-2]。我们结合清华大学电子工程系在该领域研究的基础、优势和创新性成果,有针对性地将已有科研成果转化为教学内容,通过建设一套完整、全面的涵盖人机感知交互、媒体信息处理、虚拟现实及信号处理领域的探索前沿型实验教学平台,培养学生的智能感知技术开发能力;同时,采用集体创新培养和个人研究探索相结合的方式,最终达到理工与人文、技术与艺术、感知与思考的高度融合,使学生成为具有国际一流水平的、兼具科研创新能力和未来探索精神的领军型人才。
在2017年开设的媒体与认知课程内容中,我们参考国内外诸多科研院所及名企与智能感知技术相关的项目内容,结合本系在该领域研究的基础优势和创新性成果,建设了一套基于智能感知的物体三维重建项目。通过对该项目的学习和研究研发,学生能够获得智能感知技术的基础理論知识和开发能力,力争成为具有国际领先水平的智能感知技术专业人才。
2 基于智能感知的物体三维重建项目
物体三维重建是计算机图形学、计算机动画、计算机视觉、医学图像处理、虚拟现实、机器人定位等领域的核心技术,近年来随着计算机硬件的快速发展,包括CPU主频的提高、GPU及GPU阵列的快速迭代,计算量已经不再是瓶颈,因此三维重建技术也开始被重视。
在许多三维重建的技术应用中,机器人感知与定位中的建图部分具有一定的代表性,主要原理是利用相机每一个位姿下的图片恢复出物体或场景的三维形状。目前,主流的三维重建系统包括Kinect Fusion[3]、Elastic Fusion[4]、Kinitinuous[5]、 BundleFusion[6]等,主要使用GPU加速实现较好的效果。
我们提出的基于智能感知的物体三维重建项目主要包括两个部分:RGBD重建基线系统及其增强系统。
2.1 RGB-D重建基线系统
RGB-D重建基线系统中包含基本的三维重建功能以及实时功能,但由于硬件条件所限,不能很好地进行实时点云查看,通常用于离线数据集的方式重建,方法是先启动扫描程序,利用RGB-D相机扫描一系列的RGB 图片与深度图并保存,然后启动重建系统完成重建。
1)系统架构。
RGB-D重建系统工作流程图如图1所示。整个系统分为前端和后端两部分,前端负责将RGBD图像生成点云并利用图2所示的 PNP(perspective-n-point)算法估计出相邻两帧之间的刚体变换矩阵,从而得到当前这一帧相对于上一帧的位姿变换,当此位姿变换满足预设的阈值,将这一帧定义为关键帧。对于数据集版本,则在得到所有关键帧后进行图优化且提取优化后的相机位姿,最后将所有的点云进行拼接。
2)位姿计算方法。
由于计算量较大,我们在使用PNP算法时并未针对整幅图片直接操作,而是首先进行特征提取与匹配,其中特征提取选用ORB(oriented fAST and rotated brief)方法,具有尺度和旋转不变性,此外在得到相邻两个关键帧的匹配点之后需要进行筛选,降低PNP算法的重投影误差。
3)后端图优化。
在得到一系列关键帧后,需要对其拼接,但相关信息只有相邻两帧之间的位姿变化,因此需要进行局部优化。传统方式是采用拓展卡尔曼滤波,但场景变化会引起状态变量的长度变化,因此我们采用图优化方式。方法是将相机位姿作为图的定点,将两帧之间的变换作为边,从而建立一个稀疏图,进而定义能量函数为各个边之间的投影误差,优化的目的是使得这个误差函数最小,具体采用第三方库实现。
4)系统效果。
本系统的采集设备是realsense F200[7],实际设备的最大有效距离为1.2 m。 将realsense设备作为前端扫描设备扫描玩偶,对得到的数据采用RGB-D重建系统进行离线重建,得到图3所示的效果。
2.2 RGB-D重建增强系统
除了上述基线系统,我们的RGB-D重建增强系统解决实时性的问题,构建一种基于稀疏特征的用于导航和定位的机器人定位系统ORB-SLAM2[8],是目前 SLAM(simultaneous localization and mapping)领域效果最好的系统架构,并在此基础上增加稠密点云的拼接与实时设备的读取功能,目的是实现鲁棒的重建效果,其工作流程如图4所示。
1)回环检测。
三维重建问题的一个难点是当在整个环境中环顾一周再次回到出发点时,误差累积和相机畸变问题会导致物体分层,即两次扫描的结果不能拼接。解决这个问题的方法是当回到起始点时能够检测出这个回环(loop)并以此修正所有的关键帧,平均累计误差。目前主要解决方案是使用词袋模型(bag of word),首先用K-means算法分割出一些训练好的子模型,利用这些模型进行关键帧之间的匹配,找到相似度大的帧,定义为存在回环。
2)重定位。endprint
重定位指的是在丢掉相机的位置之后能够快速找回,我们使用orbslam2 自带的重定位(re-localization)功能与所有关键帧匹配,看能否找到合适的位置继续跟踪,主要方法是通过计算当前帧的 BOW 向量,在关键帧词典数据库中选取若干关键帧作为候选。
3)局部优化。
由于增加了实时显示的功能,因此需要在一定时间内对重复出现的一个区域内的内容进行局部优化。局部优化的内容包括删除该局部区域内冗余的点和关键帧,并通过本地约束调整(local bundle adjustment)功能實现位姿调整。
4) 系统效果。
本系统的采集设备也是realsense F200,基于realsense设备利用RGB-D重建增强系统实时扫描玩偶,得到图5所示的效果。与图4相比可以看出,在实时系统下的三维重建效果依然良好。
3 结 语
本文主要介绍了媒体与认知课程中的感知技术教学项目“基于智能感知的物体三维重建项目”,在现有开发平台的基础上,构建了RGB-D重建基线系统及RGB-D重建增强系统并对其进行比较,使学生掌握目前主流的三维重建核心技术。下一步,我们将在该项目平台中引入其他RGB-D传感器,以进行更加深入的研究探索。
参考文献:
[1] 清华大学电子工程系[EB/OL]. [2017-06-01]. http://www.ee.tsinghua.edu.cn/publish/ee/3684/index.html.
[2] 杨毅, 徐淑正, 乔飞, 等. 媒体认知实验教学改革研究与探索[J]. 计算机教育, 2015(9): 107-109.
[3] Whelan T, Leutenegger S, Salas-Moreno R F, et al. ElasticFusion: Dense SLAM without a pose graph[EB/OL]. [2017-06-01]. http://www.roboticsproceedings.org/rss11/p01.pdf.
[4] Whelan T, Kaess M, Johannsson H, et al. Real-time large-scale dense RGB-D SLAM with volumetric fusion[J]. The International Journal of Robotics Research, 2015, 34(4-5): 598-626.
[5] Mur-Artal R, Montiel J M M, Tardos J D. ORB-SLAM: A versatile and accurate monocular SLAM system[J]. IEEE Transactions on Robotics, 2015, 31(5): 1147-1163.
[6] Dai A, Nie?ner M, Zollh?fer M, et al. BundleFusion: Real-time globally consistent 3D reconstruction using online surface re-integration[EB/OL]. (2017-02-07)[2017-06-01]. https://arxiv.org/abs/1604.01093.
[7] Intel Corporation. Intel? RealSense? Technology[EB/OL]. [2017-06-01]. http://www.intel.com/content/www/us/en/architecture-and-technology/realsense-overview.html.
[8] ORB-SLAM[EB/OL]. [2017-06-01]. http://webdiis.unizar.es/~raulmur/orbslam/.
(编辑:宋文婷)endprint