基于视觉的三维重建专利技术分析
2023-03-13易建琼
易建琼 游 婧
(国家知识产权局专利局专利审查协作四川中心,四川 成都,610213)
0 引言
基于视觉的三维重建技术是计算机信息处理领域中的研究热点,是运用电子仪器设备捕获待重建物体的图像数据信息,然后对捕获的图像数据信息进行处理分析,再利用三维重建的相关技术重建出待测物体的三维表面轮廓等信息。基于视觉的三维重建技术由于高速度、高精度等优势,在医学成像、工业测量、三维打印、自动驾驶等领域都得到了广泛应用,是工业发展的重要研究趋势。依据数据获取方式的不同,计算机测量分为接触式和非接触式,仅非触式测量属于基于计算机视觉的测量。依据是否投射光源进行测量,非接触式方法又分为主动式和被动式。主动式需要向待测场景中投射光源,再通过计算提取光源在场景中的投影信息来检测待测物体的位置并进行测量。被动式没有额外光源,直接捕获待测物体表面反射的环境光,从一个或多个相机获取的二维图像中计算待测物体的三维信息[1-5]。
1 专利申请数量态势分析
三维重建技术在过去几十年的发展中,获得了非常大的进步。20世纪70年代,Roberts首先提出了使用计算机视觉的方法从二维图像获取物体三维信息的可能性,自此之后,基于视觉的三维重建技术如雨后春笋般涌现出了许多实现的技术手段。从20世纪80年代开始,出现了为数不多的国外专利申请,从图1可以看出,2008年以前全球专利申请数量都处于缓步发展的阶段,随着基于视觉的三维重建技术的不断创新,自2011年开始逐步上升,直到2016年进入快速增长阶段。
图1 专利申请数量态势图
2 主要申请人分析
图2所示为国外排名靠前的主要申请人,由图2可知,排名靠前的主要为美、欧、德、日、韩的知名企业,不可否认,它们在该领域具有强大的研发能力,一方面与计算机视觉理论与相关技术的发展在欧美国家起步较早有关,另一方面,索尼、佳能、三星、松下等日韩企业,在拍摄设备的技术研究方面底蕴深厚,容易将其技术优势与计算机视觉融合,从而早早位于世界先进地位。其中,排名第一的是德国的西门子公司,其次还包括佳能、松下、三星、通用电气、日立、索尼、东芝、微软、奥林巴斯等。
图2 国外主要申请人
图3所示为国内排名靠前的主要申请人,主要以高校及研究所居多,还有一些知名企业,在全球专利申请数量上占据明显优势。这说明国内在基于计算机视觉的三维重建技术研究中并没有落后,但在科技转化成果方面还处于待强化的状态。其中,清华大学研究团队的申请数量最高;浙江大学、四川大学、北京航空航天大学、华中科技大学等也是名列前茅;中国科学院自动化研究所在该项技术中也具有一定的研发实力,具有较强的知识产权意识;国内企业申请分布较为零散,位居前列的有百度网讯科技和腾讯科技等。
图3 国内主要申请人
3 技术演进路线
基于视觉的三维重建技术依据测量方式主要分为主动视觉法和被动视觉法,下面将从这两个方面对其技术演技路线及典型专利技术进行介绍。
3.1 基于主动视觉的三维重建技术
主动视觉法包括激光扫描法、结构光法、阴影法、TOF技术、雷达技术、Kinect技术等。
20世纪60年代,欧美国家开始对三维测量技术进行研究。20世纪80年代,已经出现了较为成熟的技术。1981年,西门子股份公司的专利申请DE3147129A,公开了一种用于检测三维物体的光学传感器和相应的测量方法,在传统的三角测量方法之上,通过激光扫描用于检测三维物体。该方法基于多个位置敏感的检测器,同时从各个方向检测3D对象上的光点的位置,并将其应用的可能性扩展到对象的几乎任何属性,并且通过位置敏感探测器的强度输出不断重新调整激光的强度,以便使探测器始终连续接收到较高的强度。2001年,WO2001067039A1公布了一种基于结构光的动物三维测量系统,系统使用来自结构光相机的光点来测量动物上的多个点,定位每个点的垂直、水平和深度尺寸,通过使用该数据测量组合投射在动物上的一些光点来提供动物的快速连续三维运动图像。
2005年,皇家飞利浦电子股份有限公司提出专利申请WO2006109203A1,在飞行时间正电子发射断层扫描(TOF-PET)成像方法中,获取三维飞行时间响应线(TOF-LOR)数据。在飞行时间空间定位的基础上将TOF-LOR数据按层排在多个二维TOF-LOR数据集中。层排的TOF-LOR数据中的至少一些对应于对于二维数据集是斜的反应线。将TOF-LOR数据粗疏角重排到多个粗疏角仓中,每个仓具有至少约10°的角跨距。对粗疏角排列的TOF-LOR数据进行重建,以产生图像层,该方法提高了重建速度和精度。2013年,微软公司提交了专利申请WO2015057535A1,提出了一种飞行时间三维TOF-3D照相机。
MARZOLI MARCELLO提出的专利申请WO2005008283A1,公开了一种应用于内窥镜设备中的三维重建方法,该方法通过检测装置检测一组点并且能够为每个检测到的点提供一组信息,包括扫描信号的瞄准方向、扫描头和该点之间的距离,以及由所述点反射的信号的强度,实现基于激光雷达的插入腔体扫描头与其内表面之间相对距离的检测,以及识别相同表面的一些物理参数来产生被检查腔体的内表面的三维图。自2009年Kinect诞生开始,基于Kinect的三维场景的创建就迅速发展。微软公司于2013年提出的专利申请US201300 95920A1进一步优化了三维重建方法,该方法包括使用有源IR立体模块来计算场景的深度图。可以通过将IR点图案投影到场景上,从两个或更多个同步的IR相机中的每一个捕获立体图像,检测立体图像内的点,计算与立体图像中的点相对应的特征描述符,计算立体图像之间的视差图,以及使用视差图生成深度图来计算深度图,优化三维场景创建方法。
3.2 基于被动视觉的三维重建技术
被动视觉法根据摄像机数目的不同分为单目视觉法、双目视觉法和多目视觉法;根据原理不同可以分为区域视觉法、特征视觉法等;根据应用方法可以分为运动恢复结构法和机器学习法等。上述这些分类又可以相互组合在一起。
1999年,COMPUTERIZED MED SYST INC提出专利申请EP0965104A1,公开了一种自动分割/自动轮廓绘制方法,其可用于快速且准确地绘制区域和区域周围的边界的轮廓,以形成可线性布置以用于图像的三维重建的横截面。2008年,清华大学提出申请CN101271582A,涉及基于多视角二维图像并结合SIFT算法的三维重建方法,利用特征区域优化重建模型,实现低复杂度高质量的三维重建。2014年,中山大学提出的申请JP2017503290A,公开了一种无特征提取密集的运动恢复结构的三维重建方法,通过进一步优化实现紧致三维信息的估计,以目标函数值作为指标,能够得到最优解,至少是局部最优解,完成密集SFM三维重建。2018年,中国科学院自动化研究所提出申请CN109191564 A,以统计学习为基础,训练得到光子传播的前向以及逆向过程,提高了生物激发荧光计算机断层扫描三维重建的精度以及速度。佳能株式会社提出的专利申请US2020334855A1公开了一种信息处理设备及其控制方法,其提出了一种信息处理装置,可以实现从不能获得距离图像的相机(诸如RGB相机或获得灰度图像的相机)获得高度准确的距离图像。
3.3 典型专利技术方案分析
西门子股份公司提出的专利申请DE3147129 A,解决了现有技术中存在的由于不同的发射和接收方向造成的几何阴影问题。该申请采用预先设置多个位置敏感的检测器,物体利用光点成像到这些检测器上,并且这些检测器利用成像光学系统从不同的空间方向对准物体,从多个空间方向进行检测,尽可能避免了阴影。三个检测器以相同的立体角相对于扫描区域的中心轴线对称地布置。由于对称的布置,探测器的输出信息在几何参数方面是等价的,更以这种方式简化了结构。
清华大学提出的专利申请CN101271582A,涉及基于多视角二维图像并结合SIFT算法的三维重建方法,属于计算机多媒体技术领域。该方法的主要技术手段是:利用SIFT算法检测得到各视角二维图像中的特征点,并对相邻视角进行特征点匹配操作;利用对极约束,验证匹配特征点对的有效性并对特征点对的匹配情况进行修正;结合对极约束和各向同性的sobel算子,以匹配特征点对坐标为基准进行特征扩展,得到匹配特征区域;利用多视角二维图像,得到待重建物体的体素模型,并对体素模型优化,利用graph-cut方法进行求解;计算各视角匹配特征区域在空间对应的体素集合,将体素位于待重建的物体表面,作为约束条件,得到三维重建。该申请利用特征区域优化重建模型,将特征信息有效应用于三维重建工作,在运用SIFT算法得到匹配特征点对的基础上,结合对极约束和各向同性的sobel算子,对特征点对进行扩展,得到匹配特征区域,利用各视角的匹配特征区域,对三维重建进行辅助,使重建模型精度得到有效提高,且该方法的复杂度较低,具有易于实现的特点。
微软公司提出的专利申请US2013095920A1,用于使用有源红外(IR)立体模块来生成视频的方法。用于主动深度感测的技术,诸如来自微软®公司的Kinect™系统,已经通过使用结构光从视频场景提取几何形状来改进三维重建方法,这与被动方法相反,被动方法仅依赖于在环境或自然照明条件下使用摄像机捕获的图像数据。尽管使用了结构光技术的优点,但许多问题限制了类似装置在自由视点视频(FVV)的创建中的有用性。因此,该申请使用有源IR立体模块计算场景的深度图。可以通过将IR点图案投影到场景上,从两个或更多个同步的IR相机中的每一个捕获立体图像,检测立体图像内的多个点,计算与立体图像中的多个点相对应的多个特征描述符,计算立体图像之间的视差图,以及使用视差图生成场景的深度图来计算深度图。一旦已经使用主动IR立体模块确定了场景的深度图,就可以使用深度图为场景生成点云及点云的网格,然后从点云的网格生成场景的投影纹理图,以及使用投影纹理图生成场景的视频。
中国科学院自动化研究所提出的专利申请CN109191564A是基于深度学习的激发荧光断层成像三维重建方法。目前激发荧光计算机断层扫描三维重建技术主要是结合FMI成像和X射线计算机断层成像(X-CT)。光在生物组织中的传输模型(前向)采用的是辐射传输方程的高阶简化球谐波近似形式,并对生物组织进行网格划分进行有限元求解,导致现有方法精度低、速度慢。为了解决上述问题,该申请提出了基于深度学习的激发荧光断层成像三维重建方法,有别于传统的以构建光学传输模型为基础的方法,该申请以统计学习为基础,训练学习得到光子传播的前向以及逆向过程,提高了生物激发荧光计算机断层扫描三维重建的精度以及速度。该申请提供的方法包括如下步骤:生成训练样本;设置深度学习模型,构建深度学习模型包括图片信息编码阶段、图片信息融合阶段和三维重建阶段;以及对深度学习模型进行训练,将生物体的数据输入训练后的深度学习模型,获得生物体的三维重建图像。
4 结语
本研究依托专利分析方法,从基于视觉的三维重建技术的专利申请态势、主要申请人及研发方向探讨其发展历程和主要专利技术,从上述分析可知,基于视觉的三维重建技术的发展充分依赖于图像传感器技术和图像数据处理技术的发展,虽然该项技术在国内的起步较晚,但发展迅速,应用的领域广泛,在未来一段时间内仍将处于高速发展阶段。