APP下载

基于加速度平滑约束的非刚体三维重建研究

2017-11-14

关键词:刚体三维重建约束

, ,

(浙江理工大学信息学院,杭州 310018)

基于加速度平滑约束的非刚体三维重建研究

汪亚明,张静,郑俊褒

(浙江理工大学信息学院,杭州 310018)

针对单一投影误差重建精度不高的问题,提出了基于加速度残差最小的轨迹平滑约束的非刚体三维重建方法。在运动轨迹连续性理论基础上,通过视频序列相邻帧的连续性进行分析,在三维重建投影误差基础上同时引入加速度平滑约束并建立目标函数,最后推导出闭式最优解析解。由于非刚性的运动复杂多变,提出的加速度连续性约束是对非刚体运动目标轨迹的物理特性的本质约束,更具有一般性和适应性。与四种典型的运动模型进行实验对比,结果表明该重建方法有效提高了重建的精确度,且实现简单、算法运算复杂度更小。

非刚体;三维重建;加速度;平滑约束;解析解

0 引 言

从二维图像序列中恢复出目标物体在真实世界场景中的三维结构和相机运动参数,一直以来都是计算机视觉和模式识别领域的一个热点和难点[1],非刚体的三维重建(non-rigid structure from motion, NRSFM)无论是在科学研究还是在工业应用上都引起了极大的关注[2]。

在三维重建领域,通常有两种主要的方法,形状基方法和轨迹基方法。自Bregler等[3]第一次提出将因式分解方法应用于形变的非刚体目标,主要思想是将非刚体的形变过程表示成一系列基的线性组合,所提出的低秩形状模型对从刚体场景过渡到非刚体重建有着巨大的意义。然而不同于刚体的重建,非刚体的运动有其固有的自由度和模糊性以至于在实际重建中比较困难。Xiao等[4]认为如果仅仅在相机正交约束条件下是不足以唯一的恢复出非刚体的三维结构和相机的旋转矩阵,建议引入各种先验条件来增加新的约束。Gotardo和Martinez[5]也曾提出在没有任何先验知识的情况下计算NRSFM依然是一个困难的欠约束问题。但是由于运动形式的多样性,使得非刚体运动重建的约束条件很难被确定,所以对于形变的非刚体重建,形状基的方法有着明显的局限性,不可能适合所有的非刚体目标。Akhter等[6]对形状基和轨迹基之间的对偶性进行了论证并提出了轨迹基模型,该模型的主要优点是重建所使用的轨迹基可以被提前预定义,常用的一般为离散余弦变换基(DCT)或沃什哈达码变换基(WHT),从而减少了重建过程中的未知数,也提高了计算过程中相应的稳定性。然而,对于不同的模型使用的轨迹基并不是越多越好,Wang等[7]所提的稀疏逼近方法中就对轨迹基的种类和个数进行了讨论。预定义轨迹基方法虽然有着不可替代的优势,但基的固有模糊性仍然不可忽视。Tao等[8]提出了一种流行学习算法,利用流行森林[9]学习出来的形状基进行形状更新,由非线性最小化二维投影误差迭代出每一帧的相机运动参数和非刚体的结构矩阵,开辟了一个新的思路。非刚体的三维重建在大量学者的研究下取得了极大地进步,但是相比于刚体的研究,其在重建的精确度和鲁棒性以及复杂形变的重建、多目标非刚体的重建依然存在着极大的挑战。而且上述的很多方法都是基于Bergler等[3]的假设,这些方法可以将图像序列的次序任意颠倒,没有考虑非刚性运动的连续性,求解过程复杂,对噪声也比较敏感。

本文受运动轨迹的物理平滑性思想的启发,提出了一个简单有效的重建方法。首先分析了高速拍摄的视频序列的特征,发现视频序列是随着帧数的变化而连续变化的,因此每个特征点的运动轨迹可以表示为一条平滑的三维曲线;接着以加速度作为平滑性能指标,建立了基于单一投影误差和平滑约束的目标函数,并推导出最优闭式解析解,进而求解出非刚体结构矩阵,完成非刚体的三维重建。

1 非刚体三维重建结构模型分析

由因式分解理论可知在正交相机投影模型下,假设有F帧图像序列,每一帧有P个特征点,非刚体三维重建的任务就是通过分解一个二维图像观测矩阵W∈R2F×P来获得相机运动矩阵M∈R2F×3F和非刚体结构矩阵S∈R3F×P。观测矩阵是由非刚体的结构矩阵通过相机旋转矩阵的映射得到的,其映射关系如式(1)所示:

=MS

(1)

其中:W为二维观测矩阵;Xij=[xij,yij]T为非刚体的二维坐标,xij代表第i帧中第j个特征点的x方向坐标,yij代表第i帧中第j个特征点的y方向坐标;Sij=[xij,yij,zij]T为非刚体的三维坐标,zij代表第i帧中第j个特征点的z方向坐标;Mi表示第i帧时的相机旋转矩阵。为了不失一般性,假设在正交投影模型下的观测矩阵中的所有特征点二维坐标都已经过中心化处理。

2 恢复相机的旋转矩阵

由非刚体重建模型分析可知,重建任务是仅基于二维观测矩阵W来恢复出相机旋转矩阵M和非刚体结构矩阵S。由于非刚体的形状和运动都在随着时间变化使得重建问题是一个欠约束问题,未知数的数量(3F+3FP)要远远大于已知的观测矩阵中的数据(2FP)。在轨迹基模型下,非刚体特征点的运动轨迹可以近似为一系列轨迹基和相应的轨迹系数的线性组合,如式(2)所示:

S3F×P=Θ3F×3KA3K×P

(2)

(3)

(4)

其中:Θ表示预定义的轨迹基:A表示相对应的轨迹系数:I是一个3×3的单位矩阵;aij=[aix(j),aiy(j),aiz(j)]T。由非刚体重建模型可知,测量观测矩阵W通过奇异值分解表示为:W=MS=MΘA=UA,U=MΘ是一个2F×3K的矩阵,K为轨迹基的个数,

(5)

(6)

由于旋转矩阵满足正交约束,即:

(7)

(8)

(9)

(10)

(11)

Qk是矫正矩阵Q的三列,记G=QkQkT为格拉姆矩阵且G是半正定的,即G≥0。此外rank(G)=rank(Qk)=3,而秩函数本身的数值稳定性不是很好并且在一般情况下矩阵秩的最小化是一个NP难问题[10]。因此进一步放宽为G的核范数[11]最小化问题min‖G‖*,而G=QkQkT是一个对称正定阵,所以G的核范数就等于它的迹,即‖G‖*=trace(G)。

上述格拉姆矩阵G的最小化问题是一个标准的半正定规划问题[12](SDP),可以选择半正定规划工具包求解。一旦格拉姆矩阵G被求出,利用Cholesky分解就可以求出矫正矩阵Q,进而恢复出相机的旋转矩阵M。

3 基于加速度平滑约束(Smooth)的非刚体三维结构重建

非刚体三维重建研究的最终目的是恢复出非刚体运动目标的三维结构。由于非刚性的运动复杂多变,在基于形状基方法重建时都需要对图像序列中的每一帧进行估计新的形状基,而且对于不同的运动也需要重新定义不同的形状基来进行三维结构的线性组合,极大地增加了计算量,导致重建效率和精度都比较低。由轨迹空间理论可知,可以把非刚体每个特征点的重建转化为随着时间变化的每一帧的重建,同时从物理学角度,结合非刚体在高速摄像机拍摄的图像序列下运动的物理连续性[13],相机拍摄速度很高的时候相邻帧特征点位移变化很小,速度和加速度的变化也很小。通过这样的物理连续性在单一投影误差的基础上构造目标函数,以相邻连续帧的加速度平方差积分的最小值作为平滑性能指标,引入一个平滑矩阵将运动物理性约束转化为重建约束项。

假设提取特征点的图像序列的时间间隔为t,每一帧的图像采集时间间隔是个常数,则根据物理运动定律:

(12)

(13)

一段时间内物体的位移差与时间t的比值反映这段时间内物体运动的平均速度,平均速度之差反映的是加速度变化,对于一个拍摄的图像序列来说这样的平均速度变化和加速度变化都是非常小的。将F帧连续累加起来为:

(14)

引入平滑约束后,非刚体轨迹三维重建的目标函数为:

(15)

定义平滑矩阵V∈R3F×3F为:

(16)

即式(15)转化为:

(17)

其中λ1≥0为约束项的平衡参数,反映了重建模型拟合能力与轨迹平滑性之间的平衡。由式(17)可知,目标函数式(17)的无约束最优化模型为二次函数,具有全局最优解析解。首先计算式(17)关于非刚体目标三维轨迹结构矩阵S的梯度:

(18)

令式(18)为0得到:

(MΤM+λ1VΤV)S=MTW

(19)

从而得到解析解:

(20)

其中(MT+λ1VTV)+表示矩阵(MT+λ1VTV)的Moore-Penrose逆,当矩阵(MT+λ1VTV)可逆时,式(17)为精确解,当矩阵(MT+λ1VTV)不可逆时,式(20)给出的Moore-Penrose逆解给出式(19)的极小范数的最小二乘解。而在实际中,矩阵(MT+λ1VTV)一般为可逆矩阵且λ1≥0,这个矩阵为半正定矩阵,显然存在极小值,即式(20)为目标函数的解析解。

4 实验与分析

4.1 重建评估准则

对非刚体进行三维重建,需要定义重建效果误差评估标准来判断重建的优劣,也即是重建后的结构矩阵与真实的三维结构之间的误差,其评估公式定义e3D[14]为如式(21):

(21)

其中Ltjx=|Sr(3t-2,j)-S0(3t-2,j)|;Ltjy=|Sr(3t-1,j)-S0(3t-1,j)|;Ltjz=|Sr(3t,j)-S0(3t,j)|;t=1,2,…,F,j=1,2,…,P,σtx,σtx,σtx分别为三维结构中第t帧对应的所有结构点x,y,z方向坐标的标准差;etj表示第t帧第j个三维结构点的误差,即重构点与实际点间的欧氏距离;Sr代表重建出来的三维结构矩阵,S0代表实际的空间结构矩阵,二者的维度和排列方式完全相同。三维点结构误差作为非刚体三维重建的评价标准具有代表性,它反映的是算法恢复的平均误差。而从轨迹空间的角度分析,重建结果不仅要在全局进行考虑,而且还应从时间和特征点的角度进行分析。依据上面三维点结构误差的定义,得到三维点的帧平均误差e3D-F和点平均误差e3D-P分别为式(22)—(23):

(22)

(23)

4.2 实验方法

本文所采用的实验数据来源于卡耐基梅隆大学的运动捕捉数据(http://cvlab/lums.edu.pk/nrsfm),选取了四种典型的人体运动,如表1所示。

表1 4种典型的非刚体运动模型

为了验证本文方法的有效性和可靠性,通过编程实验对上述4种非刚性运动进行三维重建。实验所用硬件配置为处理器Inter(R)@3.40 GHz,内存4 GB;软件环境为Window7,Matlab2010b。通过编程实验恢复出人体三维结构矩阵,然后利用式(21)—(23)计算重建误差,并绘制不同方法下三维重建效果图来对本文方法进行评估和有效性分析。在实验中,将本文方法与其他4种研究算法进行比较,对比的算法包括:EM方法[14]、PTA方法[14](选用DCT基)和Sparse方法[7],且以上4种方法所用实验数据与本文方法实验数据来源于同一网站。

4.3 实验结果与分析

4.3.1 Pickup运动模型重建结果分析

图1 Pickup运动三视图注:子图中第一行为PTA方法重建结果,第二行为Smooth方法重建结果。

从图1(a)—(c)可以看出,无论是从正视、侧视和俯视角度观察,Smooth方法下的三维重建效果都是优于PTA方法下的重建效果。Pickup运动的运动幅度相对比较大,手臂、腿部和头部等多部位均有摆动,在用PTA轨迹基方法进行重建时,不仅最优轨迹基的个数很难确定而且该方法也没有考虑非刚性运动的物理平滑性,因而重建效果并不理想。而本文方法考虑运动平滑性的本质约束,适用性强,对Pickup这种运动比较复杂的序列也有着比较好的重建效果,验证了本文方法的适用性。

仅仅从视觉效果图上判断本文方法的优势仍不明显,下面绘制出Pickup运动在PTA方法(K=12)和Smooth方法下的重构帧均误差曲线图和点均误差曲线图,如图2(a)、(b)所示。

图2 Pickup运动的帧均误差和点均误差曲线对比图

从图2(a)—(b)可以看出,随着帧数的变化本文方法下的帧均误差和点均误差基本都在PTA方法的误差曲线之下,表明本文方法的重建效果是明显优于PTA方法。

为了更加细致地说明这种差异,图3画出了PTA方法和本文方法在对Pickup运动中随机选取的第3个和第32个特征点进行重建后的结构误差曲线图。

图3 第3个特征点和第32个特征点的结构误差曲线对比

通过曲线可以看出,在对单个特征点的运动重建进行分析时,Smooth方法下的重建误差在绝大部分帧数下都是小于PTA方法的,表明本文方法能够更好的恢复出非刚体的运动结构。而PTA方法重建时不仅跟选择的轨迹基的关系很紧密,有很大的局限性,而且直接通过伪逆法求解轨迹系数后得到结构矩阵,也没有考虑运动的平滑性,其重建精度比较低。

上面的实验结果,说明Smooth方法相对于PTA方法在对Pickup运动进行三维运动重建时有着较大的优势。

4.3.2 Yoga序列重建的结果和分析

为了进一步验证本文方法的适用性和有效性,对Yoga运动模型使用Sparse方法和Smooth方法进行三维运动重建。随机选取Yoga运动序列中的第55帧、第120帧、第170帧和第230帧,图4为两种方法下的重建视觉效果图。

图4 Yoga序列重建效果注:第一行为Sparse方法,第二行为Smooth方法。

从图4中可以看出,相对于Sparse方法,本文方法下Yoga运动的头部、手臂和腿部的重建效果均有不同程度的提高。Sparse方法可以自动的选择合适的轨迹基对重建目标运动轨迹进行重建,但Sparse方法进行重建时所用的基追踪算法相对复杂,而且没有考虑到矩阵的稀疏表示会破坏数据的内在连续性,因此它的重建效果要略差于Smooth方法的重建效果的。

为了进一步说明这种差异,yoga模型在Sparse方法和Smooth方法下的帧均误差和点均误差图,如图5所示。

图5 Yoga运动的帧均误差和点均误差曲线对比

从图5中可以明显看出在Yoga模型下,Smooth方法下的帧平均误差和点平均误差曲线都在Sparse方法重建误差的曲线之下,表明Smooth方法更好的提高了Yoga运动的三维重建精度。

同样,为了更加详细并且直观的看出针对每个特征点本文方法的有效性,图6给出了随机选取的第13个特征点和第40个特征点在随着运动序列帧数变化的结构误差对比图。

图6 第13个特征点和第40个特征点的结构误差曲线对比

由图6可知,随着帧数的变化,第13个特征点和第40个特征点的结构误差在绝大部分帧下都是减小的,整体的重建精度仍然是有着明显的提高。

4.3.3 不同运动模型在不同方法下重建的结果与分析

为了验证本文算法对不同运动序列重建都具有一定程度上的优势,图7绘制了四种不同的运动分别在MP方法、PTA方法(括号中的数字为该重建算法下重建效果最优时的轨迹基个数)、Sparse方法和Smooth方法下的重建误差对比柱状图,表2给出了重构误差对比表,表中数据越小说明其重建误差越小,重建精度越高。

图7 不同运动模型在4种不同方法下的重构误差柱状图

实验模型MPPTASparseSmoothYoga0.80390.1622(11)0.15580.1119Pickup0.43220.2369(12)0.22450.1710Dance0.26390.2958(5)0.25190.2788Stretch0.85490.1088(12)0.08930.0976

由图7、表2可知,本文方法下的四组非刚体运动的重建中,Yoga运动、Pickup运动在Smooth方法下的重建误差均小于前面的几种重建方法,重建精度有着明显的提高。Dance运动和Stretch运动下本文方法结果虽然优于PTA方法,但重建精度略微高于Sparse方法,表明Smooth方法的鲁棒性欠佳,还有待进一步的提高。

5 结 论

本文方法中首先利用正交约束和迹约束求解出相机旋转矩阵,然后在单一投影误差重建基础上引入非刚体运动轨迹加速度的连续平滑性约束,通过对目标函数求导得到了其最优解析解,求解出非刚体结构矩阵。该方法的重建过程减小了误差积累,并且与其他约束相比,运动目标的平滑连续性约束更具有一般性和通用性,能够更好的拟合运动轨迹。最后由选取的四种不同的非刚体运动模型进行试验,并具体以Pickup运动和Yoga运动为例进行了分析,实验结果表明本文方法有效的提升了非刚体三维结构的重建精度。

对于非刚体的三维重建,在进一步的研究中可以考虑重建过程鲁棒性的提升、角速度约束等因素,也可以尝试从单个非刚体目标的重建扩展到多个非刚体目标的重建上。

[1] ZHANG Y, GIBSON G M, HAY R, et al. A fast 3D reconstruction system with a low-cost camera accessory[J]. Scientific Reports,2015,5:10909.

[2] ALLDIECK T, KASSUBECK M, MAGNOR M. Optical flow-based 3D human motion estimation from monocular video[EB/OL]. (2017-03-01)[ 2017-06-27]. https://arxiv.org/pdf/1703.00177.

[3] BREGLER C, HERTZMANN A, BIEERMANN H. Recovering non-rigid 3D shape from image streams[C]// Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Los Alamitos. IEEE,2000:690-696.

[4] XIAO J, CHAI J, KANADE T. A closed-form solution to non-rigid shape and motion recovery[J]. International Journal of Computer Vision,2004,67(2):573-587.

[5] GOTARDO P F U, MARTINEZ A M. Kernel non-rigid structure from motion[C]//Proceedings of the IEEE International Conference on Computer Vision. IEEE,2011:802-809.

[6] AKHTER I, SIMON T, KHAN S, et al. Bilinear spatiotemporal basis models[J]. ACM Transactions on Graphics,2012,31(2):1-12.

[7] WANG Y, YAN X, ZHENG J, et al. Sparse approximation for nonrigid structure from motion[J]. Journal of Robotics,2015(3):1-8.

[8] TAO L, MATUSZEWSKI B J. Robust deformable shape reconstruction from monocular video with manifold forests[J]. Machine Vision and Applications,2016,27(6):1-19.

[9] TAO L, MATUSZEWSKI B J. Deformable shape reconstruction from monocular video with manifold forests[J]. Computer Analysis of Images and Patterns, Springer Berlin Heidelberg,2013:28-36.

[10] ZHOU Z, SHI F, XIAO J, et al. Non-rigid structure-from-motion on degenerate deformations with low-rank shape deformation model[J]. IEEE Transactions on Multimedia,2015,17(2):171-185.

[11] RECHT B, FAZEL M, PARRILO P. Guaranteed minimum-rank solutions of linear matrix equations via nuclear norm minimization[EB/OL]. SIAM review,2010,52(3):471-501.

[12] DAI Y C, LI H D, HE M Y. A simple prior-free method for non-rigid structure-from-motion factorization[J]. International Journal of Computer Vision,2014,107(2):101-122.

[13] 刘松国,朱世强,吴文祥.具有运动时间约束的机械手最优平滑轨迹规划[J].电机与控制学报,2009,13(6):897-902.

[14] WANG Y, TONG L, JIANG M. Non-rigid structure estimation in trajectory space from monocular vision[J]. Sensors,2015,15(10):25730-25745.

Researchon3DNon-RigidReconstructionBasedonAccelerationSmoothnessConstraints

WANGYaming,ZHANGJing,ZHENGJunbao

(School of Information Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China)

To overcome the defect that the reconstruction method of single projection error is of low precision, a 3D non-rigid reconstruction method of trajectory smoothness constraints based on minimum acceleration residue is proposed. According to the theory of movement trajectory continuity, acceleration smoothness constraints are introduced based on the 3D reconstruction projection error to build an objective function, to obtain the optimal closed analytical solution. Due to the complexity of the non-rigid motion, the proposed acceleration continuity constraints are the constraints on the physical properties of non-rigid motion target trajectories, which are of universality and adaptability. The comparison with four typical motion models show that this reconstruction method improves the accuracy of the reconstruction largely, and realizes algorithm in a simple way.

non-rigid; 3D reconstruction; acceleration; smoothness constraints; analytical solution

10.3969/j.issn.1673-3851.2017.11.013

2017-06-27 网络出版日期: 2017-10-10

浙江省自然科学基金重点项目(LZ15F020004);浙江理工大学521人才资助计划

张 静(1991-),女,湖北麻城人,硕士研究生,主要从事图像处理、计算机视觉和模式识别等方面的研究。

郑俊褒,E-mail:zhengjunbao@zstu.edu.cn

TP391.4

A

1673- 3851 (2017) 06- 0830- 08

(责任编辑:康锋)

猜你喜欢

刚体三维重建约束
重力式衬砌闸室墙的刚体极限平衡法分析
三维重建的飞机机动动作库设计与可视化
多层螺旋CT三维重建后处理技术在骨肿瘤影像诊断中的价值
基于Mimics的CT三维重建应用分析
车载冷发射系统多刚体动力学快速仿真研究
马和骑师
三维重建结合3D打印技术在腔镜甲状腺手术中的临床应用
适当放手能让孩子更好地自我约束
地震作用下承台刚体假定的适用性分析
CAE软件操作小百科(11)