点云质量评价挑战与关键技术研究
2021-02-24徐异凌杨琦杨开发JenqNengHwang朱建芳
徐异凌,杨琦,杨开发,Jenq-Neng Hwang,朱建芳
(1.上海交通大学,上海 200240;2.华盛顿大学,西雅图 98195;3.中国电子科技集团公司第二十三研究所,上海 201900)
1 引言
三维(Three Dimension,3D)扫描、处理以及呈现技术的发展使得3D数据的应用越来越广泛。与二维(Two Dimension,2D)数据相比,3D数据更容易展现物体本身的几何信息,因此其在无人驾驶,医学影像,沉浸式媒体交互,建筑学建模等多个领域都扮演着重要角色。3D数据有很多表现形式,诸如多视图深度图像(Depth Map)、点云(Point Cloud)、体素网格(Voxel Grid)以及多边形网格(Polygon Meshes)等。其中,点云在获取和处理等方面相比其他3D数据具有独特的优势,因此本文以点云为主要阐述对象。
点云是3D空间中的许多点的集合,其可以用来表示3D空间中的某个形状或具体物体。点云既可以由计算机建模生成,也可在实际中通过3D传感器扫描或者深度相机采集并处理得到。点云中的每个点都具有其在笛卡尔坐标系下的(x,y,z)三个坐标属性,根据采集方式以及用途的不同,每个点还可能具有诸如颜色、法向量、反射强度等额外属性。
为了满足存储和传输的要求,我们往往要对媒体内容(如图像和视频信号)进行压缩处理,这一需求对于点云更为突出。对于面向人眼视觉的密集点云,一帧包含几万到几十万个点,再加上每个点不仅要存储属性信息,还要存储空间位置信息,不压缩的原始数据将给处理和传输带来巨大挑战[1]。而点云在压缩、传输和重建的过程中不可避免的会产生多种失真,因此需要对失真程度进行评估才能对相关算法进行指导,进而保证用户体验质量(Quality of Experience,QoE)。所以,点云质量评价是点云关键技术研究中一个不可或缺的方向。
图片质量评价领域经过多年的研究已取得不错进展,但由于人眼视觉系统(Human Vision System,HVS)是一个强非线性的复杂系统,如何对它准确建模仍然是一个未解决的难题。点云更由于其本身不规则等特点,导致其在质量评价方面比传统图像面临更多困难:首先,点云是一个无序的集合,质量评价算法必须满足输入置换的不变性;其次,点云是非结构性的数据,与图像数据不同,点云数据不是整齐排列的结构化网格,各个相邻点之间的相对位置不相同,这意味即使是寻找相邻点的操作,都需要在点云中对全部点进行遍历;最后,点云具有非均匀性,点云通常是由一个物体采样得到,同一点云的不同区域点的稠密程度可能会相差很大。这些点云数据新特性对质量评价算法提出了新的要求和更高挑战。
研究点云客观质量评价模型的一般思路是通过主观实验对一个数据库上的点云打分,得到平均意见得分(Mean Opinion Score,MOS),据此来探索客观质量评价方法。然而点云作为一种新兴3D媒体数据,目前学术界和工业界对点云主观评价的方法仍处于探索阶段。如何标准化点云主观实验是当前点云质量评价研究最为迫切的问题。
同时,按照原始点云的可获得性,质量评价模型可以分为全参考(Full Reference),部分参考(Reduced Reference)和无参考(No Reference)质量评价模型三种。其中,全参考模型由于应用最广,受到的关注也最多,研究成果也更加丰富。无参考模型大多采用基于深度学习的方法,其性能受数据库的体量影响较大,因此发展相对缓慢。而部分参考模型则针对特定的应用场景,目前研究成果相对较少。
在这篇文章中,我们将对点云质量评价领域的研究做一个较为全面的介绍与总结:第2节中对点云主观及客观质量评价方法研究现状进行全面介绍。第3节基于现有研究存在的问题,介绍本团队在点云主客观质量评价方面进行的新探索与取得的成果,并展望点云质量评价未来的热点问题及发展趋势。第4节对整篇文章进行全面总结。
2 点云质量评价研究现状
2.1 点云主观质量评价
2.1.1 点云主观实验方法
点云质量评价的最终目的是模拟人眼视觉系统实现失真度量与检测,因此在主观实验得到的MOS分数后,便可以通过计算客观质量评价模型给出的分数与MOS分数的相关度来对客观模型的性能进行比较和改进。因此,通过主观实验来获得一个可信度高的数据库是质量评价研究非常重要的一个步骤。主观实验主要分为两个部分:数据库构建和主观测试。
数据库的构建主要需要考虑原始点云的选取,以及失真种类的添加。首先,针对原始点云的选取,由于我们在实际生产中遇到的点云类型极其丰富,涉及不同应用场景中形态、颜色各异的对象,而数据库则是选择部分样本来代表实际高维空间中的全部样本,因此需尽可能的涵盖多种类型,基于此数据库进行模型测试才具有完备性和说服力。具体在选取原始点云时需要考虑的因素包括:点云的密集程度(密集和稀疏)、点云的实例种类(建筑、人类、静物等)、点云的几何结构(光滑表面和复杂表面)、颜色特征(窄颜色范围和广颜色范围)等。同理,实际生产中所存在的失真类型也是多种多样,客观模型需对多种失真类型敏感以保证稳定性和鲁棒性。具体在添加失真的时候,要考虑的类型包括:几何失真,颜色失真,几何颜色混合失真等等。总之,数据库的构建要尽可能的丰富种类,这样才能对客观质量评价算法的鲁棒性有一个更好的衡量。
而对于主观测试的具体条件,点云领域并没有一个成熟的建议书:MPEG和JPEG虽然都已经对点云质量评价展开研究,但是并没有针对主观测试条件发布标准建议;在图像质量评价领域,国际电信联盟(ITU-R)已经发布了主观测试建议书ITU-R BT.500[2],对通用测试方法,等级量表以及观看条件以及数据后处理等方面进行了详细的建议,其中部分测试条件可以借鉴,但是在点云主观测试中,其渲染以及呈现方式与传统图像有着很大的差别。点云渲染即通过硬件和算法辅助对原始点云数据进行合理呈现以满足用户观看需求。由于点云是一种3D数据,它可以通过普通的平面屏幕进行呈现,也可以通过VR设备进行沉浸式呈现。不同的渲染呈现方式将对主观实验结果产生很大的影响。
目前渲染方式主要有两种,一种是基于点的渲染,通过把点变成有面积的基础几何体(比如圆圈、方形、球体,立方体等)来进行渲染。这是一种简单,计算量较低的渲染方法,但是需要定义好基础几何体的大小,否则将会出现点与点之间的空洞(基础几何体太小)或者出现混叠(基础几何体太大)。另一种方式是基于网格(Mesh)的渲染方式,即通过表面重建算法(比如泊松表面重建[3])构建多边形网格来进行渲染。这种渲染方法的优势在于可以构建一个密封的表面,但是这种方法非常依赖于重建算法,对某些复杂表面的重建可能需要人为干预,另外,表面重建过程通常会移除一些高频几何细节,这对于质量评价的影响是很大的。
近年来已有很多关于点云主观实验的研究,EPFL的Alexiou等人[4],从Stanford 3D Scanning Repository[5]中挑选了两帧点云,通过软件人为生成两帧点云,并用Intel RealSense R200设备采集了一帧点云,共五帧无颜色属性的点云。他们选取高斯噪声和八叉树剪枝两种失真类型,主观测试使用了AR头戴式设备,被试可以自由改变观看方向。作者发现基于点与点之间距离的客观评价方法[6,7]对于高斯噪声的评价效果较好,但是对于八叉树压缩产生的失真并不敏感。在文献[8]中,Alexiou使用文献[4]中构建的数据库,尝试采用30英寸的2D显示屏作为呈现方式。在呈现之前采用了基于点的渲染,被试可以通过鼠标改变观看角度。作者测试了ACR(Absolute Category Rating)和DSIS(Double-stimulus Impairement Scale)两种打分方式,实验表明DSIS得到的分数与失真程度表现更一致。在文献[9]中,Alexiou又在呈现时使用了泊松表面重建算法将点云转换为Mesh进行呈现,作者发现表面重建算法将会对主观实验的评分产生显著影响。在文献[10]中,Alexiou同时采用了2D显示屏和AR头戴设备对同一个数据集进行了测试,实验结果表明,对于高斯噪声,两种设备的结果统计上非常一致,但是对于压缩失真,两者的结果有着些许不同。因此,作者又在文献[11]中采用了多种3D呈现设备,分别在三个单独的实验室进行了主观实验,结果表明,3D实验结果与之前的2D实验结果表现非常一致。但是当以离散点的形式渲染时,主观实验结果与失真程度相关度表现较差,说明呈现之前的表面重建对视觉效果有着很大的影响。Javaheri[12]对不同的渲染方式进行了研究,发现颜色的渲染以及表面的重建会对一些几何失真产生部分屏蔽效应,从而影响主观实验的结果,在后续的主观实验标准制定过程中应该注意以上提到的各种问题。
总体来说,由于目前3D呈现技术和硬件设备还存在较为明显的缺陷,大多数点云仍通过2D屏幕来进行渲染。但2D呈现设备无法充分展示出点云作为3D数据所具有的沉浸式体验,造成部分失真类型在2D渲染的情况下无法真实的表达,进而会造成主观实验感知结果存在一定的局限性。随着3D呈现技术的发展,硬件设备将逐渐成熟,在未来点云质量评价将会以3D渲染方式为主进行主观实验。
2.1.2 点云质量评价数据库
目前适合用于点云质量评价研究的数据库还很少,因此本节挑选了一些现有的较好点云质量评价数据库进行介绍。
上文提到的Alexiou将主观评价实验探索中用到的RG-PCD数据库公开到了文献[13]上,该数据库的最终版本包含6帧原始点云(如图1所示),Bunny和Dragon是从Stanford 3D Scanning Repository[5]中挑选的,代表常规几何结构;Cube和Sphere是使用数学公式人为产生的,代表非常规则的几何结构;Egyptian_mask 是从MPEG PCC测试集[14]中选取,Vase是通过Intel RealSense R200设备采集得到,代表不规则几何结构。每帧原始点云都经过了四个等级的八叉树剪枝失真操作,故该数据库总共有6帧原始点云和24帧失真点云。该数据集用于点云质量评价早期的探索性研究,其点云数量、失真种类都较少,并且不具有颜色属性。
图1 RG-PCD数据集(从左到右,从上到下依次为Bunny,Cube,Dragon,Egyptian_mask,Sphere,Vase)
Javaheri[12]对点云主观实验的渲染方式进行研究时,构建了IRPC数据集,该数据集从MPEG PCC测试集中选取了6帧原始点云(如图2所示),包含了静物,人类,建筑等多个类型以及复杂几何结构,并且都具有颜色属性。失真方面,Javaheri 添加了PCL,MPEG G-PCC 和MPEG V-PCC[15]三种压缩失真类型,每钟失真类型都选取了低中高三种压缩等级,数据库总共包含6帧原始点云和54帧失真点云。
图2 IRPC数据集(从左到右,从上到下依次为Egyptian Mask,Frog, Longdress, Loot, Facade9 and House without a Roof.)
本团队在文献[16]中构建了更大尺度的点云质量评价数据库SJTU-PCQA[17],该数据集包含10帧原始点云(如图3所示),同样是从MPEG PCC通用测试集中选取,其在数据库的构建过程中添加共七种失真:八叉树压缩失真、颜色失真、降采样失真、几何高斯噪声失真、颜色加降采样失真、几何高斯噪声加降采样失真以及颜色和几何高斯噪声失真。其中,每种失真都有六个等级的梯度,最终该数据库共包含420帧失真点云。
图3 SJTU-PCQA数据集(从左到右,从上到下依次为RedandBlack,Loot,LongDress,Hhi ULLIWegner,Soldier,Ricardo,Romanoillamp,ULB Unicorn,Statue Klimt,Shiva)
Su[18]构建了WPC[19]数据库,与之前的数据库不同的是,作者挑选了20个几何结构、纹理特征复杂度各不相同的物体(如图4所示),然后通过多角度相机采集并构建得到。之后作者添加了降采样、高斯噪声以及S-PCC,V-PCC,L-PCC[1]三种压缩失真,各失真有着不同的梯度。最终,该数据集共包含20帧原始点云和740帧失真点云。
图4 WPC数据集中的原始物体
之后Liu[20]研究基于质量的VPCC压缩速率控制时,又从WPC中选取了16帧原始点云,通过5个几何量化步长和5个颜色量化步长的压缩,产生了400帧失真点云,构建了WPC2.0[21]。不过WPC2.0的只有VPCC失真,因此并不适合作为一个通用的质量评价数据库。
2.2 点云客观质量评价
目前,点云的客观质量评价方法主要是全参考质量评价。分为两类,一是基于3D空间特征的质量评价模型,二是投影后通过图像领域的质量评价算法来衡量误差的方法。该节将首先对这两类质量评价算法进行介绍,最后介绍现有的部分参考和无参考质量评价模型。
2.2.1 基于3D空间特征的客观质量评价模型
基于3D空间特征的质量评价方法是指通过比较3D区域中的对应点或者对应区域的相似性来进行质量评价的方法。这类方法直接对比3D空间中的点间距离,几何表面相似度,颜色信息统计等特征来进行质量评价,下面对这些方法进行介绍。
由于Point-to-Point[6]和Point-to-Plane[7]的质量评价方法已经被MPEG收录为研究压缩算法性能的指标,下面将首先对这两种方法进行介绍。假设A和B分别代表原始点云和失真点云,在计算二者之间的误差时,我们首先将A作为参考点云,计算eA,B,即两个点间的欧式几何距离,然后再以B为参考点云计算eB,A,由于原始点云和失真点云的点间并没有一个规则的对应关系,因此误差通常是不对称的,通常的做法是在二者中选择更差的作为最终结果。
eA,B的计算方法如图5所示,对于A中的每一个点a,通过最近邻找到B中对应的点b,Na为a点处的法向量,则基于Point-to-Point和Point-to-Plane的点a和点云B的距离计算分别为:
图5 Point-to-Point和Point-to-Plane
最后整体点云的误差有两种计算方法,一种是计算所有点的平均误差,另一种是基于Hausdorff距离的衡量,二者的计算式如下:
最终的评价分数为max(d( )A,B,d(B,A))。为了方便比较不同点云之间的误差大小,通常将该距离转化为PSNR:
其中p为一个峰值,可以取为整体点云边界框的对角线长度。
MPEG最初将基于MSE和Hausdorff距离的衡量方式都纳入了标准,但由于基于Hausdorff的误差计算方式很容易受到离群点的影响,因此该方式目前已从标准中移除。针对此问题Javaheri在文献[31]中将Hausdorff距离进行扩展,并不将所有距离中的最大值作为最终结果,而是从所有距离的排序中选取,其定义为:
其中per是从升序排序后的第K个距离,其中× 100 =per%,NA是点云A的总点数。
Alexiou[32]提出了一种Plane-to-Plane的方法,将公式(1)中的距离衡量改为了对应点的法向量的夹角,以此来衡量平面的相似程度;另一种被称为Point-to-Surface[33](或者Point-to-Mesh)的方法首先进行表面重建,然后计算点到对应面的距离作为衡量,由于该方法极其依赖于表面的重建效果,因此不太常用。Javaheri[34]提出了一种Point-to-Distribution的方法,该方法提出了一种新的对应关系,基于马氏距离来计算点云中的一个点和另一个点云中的一小块区域中的点的误差。上述提到的方法都只对几何失真进行了衡量,为了衡量点云的颜色失真,可以首先将RGB转为YUV,并针对各个颜色通道分别计算距离。
Meynet[35]提出了一种基于局部曲率统计的质量评价方法PC-MSDM,受到图像质量评价算法SSIM的影响,作者通过提取局部曲率信息来对比两个点云的几何结构特征。具体的,首先在寻找两个点云对应点的时候,作者并没有使用常用的最近邻搜索的方法,而是将原始点云中的一点p投影到失真点云的重建表面上得到p^表面的重建过程如图6所示。首先以在失真点云中以p为圆心,在指定半径h的球型域中寻找最近邻,然后通过最近邻拟合出一个二次曲面,使得p到该二次曲面的距离最短,然后将p投影到该曲面上即可得到p^。之后再根据这两个对应点分别计算各自的球型邻域中的每个点的平均曲率,然后对于每个点p计算下面三个定义的失真函数:
图6 PC-MSDM 对应点寻找
该点的总失真则定义为
最后通过Minkowski池化得到整体点云的分数。之后,作者又在PCQM[36]中将该方法进行扩展,加入了五个与颜色属性相关的对比信息(亮度,色度,对比度等),之后,通过回归确定这八个属性信息的权重来计算最终分数。
Viola[37]提出了一种利用颜色相关直方图(Color Correlogram)进行统计分析的质量评价的方法。在2D图像中,该方法的定义为:对每个颜色为ci的像素,与他距离为且为k且颜色为cj的像素个数,因此,对于一个确定的k,统计直方图中bin 的个数颜色数的平方,通常,该方法会确定多个k值。这种方法综合考虑了颜色和几何距离信息,在2D 领域已经取得了很好的应用。但是由于点云并没有一个规则的像素型结构,因此,作者将3D 的颜色相关图定义为概率密度的形式:
其中Nk(pl)表示pl的K个最近邻,pcj表示点云中颜色为ci的点。对于又N 种颜色的点云,γ(k)∈RN×N。作者探索了不同的k值对于该方法的影响,发现,最近邻的数量取得较少(k= 3)时,该方法效果较差;不断增加k时,该方法效果明显变好,但当k取20 左右时,效果逐渐平稳。
Diniz[38]借鉴了图像领域中的纹理特征描述算子LBP(Local Binary Pattern),在图像中,LBP 算子的定义如下:
其中θ(u)函数在u大于0时为1,否则为0。Pc为中心点的像素值,Pn为相邻点的像素值。为了使用该算法,作者将点云进行体素化处理,然后再取其邻居进行计算,最后对不同中心点得到的LBP值进行统计得到直方图,最后计算原始点云和失真点云的直方图之间的距离,作为质量评价标准。在文献[39]中,作者对该方法进行扩展,又计算了原始点云以及LBP特征图间的误差,将三者加权得到多尺度的质量评价模型。
Alexiou[40]提出了PointSSIM 的方法,综合考虑了几何、法向量、曲率和颜色四个属性,对于几何相关的度量,通过聚合该点和其相邻区域点的欧氏距离来得到,对于法向量,通过其在文献[31]中提到的角度相似性来衡量,对于曲率,采用了PCQM[39]中的方法来衡量,最后对于颜色,采用了与SSIM类似的评价方法。
2.2.2 基于投影的客观质量评价模型
鉴于图像领域的质量评价方法已经比较成熟,因此,很多研究试图将点云投影为2D 图像,并采用图像质量评价的方法来进行评价。
Queiroz[43]对于动态点云的压缩过程中较早的使用了基于投影的质量评价方法,他先将点云进行体素化处理,然后采用正交六面投影的方法,计算投影后的图片之间的MSE和PSNR作为评价标准。
Alexiou[44]同样采用了正交六面投影的方式,但他同时测试了图像质量评价中的多个方法(PSNR、PSNR-HVS、PSNR-HVS-M、SSIM、MSSSIM、VIFP),并对六个面的分数进行平均池化,试验结果表明,基于投影的方法明显好于基于点到点之间距离的方法。之后,该作者又在文献[45]中研究了不同的投影角度及投影面个数对于结果的影响,其中各个投影角度的分数权重通过主观实验中被测试者的观察时间得到,最后发现,改变投影角度并增加投影面数量并不会对结果产生很大影响,即使只有正面的单视角投影也可以达到很好的效果。
2.2.3 部分参考和无参考质量评价模型
部分参考和无参考质量评价模型依赖于全参考质量评价模型的发展以及点云本身特征的研究,且基于一个大型数据库的训练,因此这类质量评价模型的研究还较少。
部分参考质量评价模型较多用在压缩传输中,只传输原始点云的特征,让接收端对重建的点云质量进行衡量。Viola[46]使用点云的几何,颜色,法向量的统计信息(均值、方差、中位数、熵等)来进行质量评价。Liu[20]对于VPCC 的码率控制研究中定义了局部特征和全局特征两个特征。其采用基于几何距离的颜色起伏信息作为局部特征、颜色块的均值方差信息作为全局特征,通过在数据库上训练,由这两个特征实现传输参数估计。
Liu[47]提出了第一个基于投影的无参考评价网络PQA-Net。该网络首先通过多角度投影得到多角度图像,然后对图像运用卷积神经网络提取多尺度特征,再使用该特征预测失真类别和质量分数。实验结果表明这种方法可以获得与全参考质量评价相当的效果,但由于该结果是通过小数据库训练得到,其鲁棒性有待进一步验证。
3 点云质量评价新探索与展望
3.1 点云主观实验新探索
如前文介绍,现有学术研究中点云主观质量评价方法有基于2D渲染和3D渲染两种方式。但在具体实验的过程中如何对实验环境进行设置仍缺乏统一标准。因此,本团队作为牵头单位,在中国音视频编码标准组织AVS质量评价组成立面向人眼视觉任务的点云质量评价工作组[48],针对点云主观实验的样本制作、呈现方式、环境设置等核心问题进行讨论。目前已制作点云主观质量评价规范数据库[49],涵盖几何、纹理特征各异的点云样本44个。使用三种标准化点云压缩方法(V-PCC,G-PCC,PCEM)进行失真处理供后续研究和测试。同时,向社会各界征集点云主观实验方案,目前已确立2D视频呈现方式和3D-VR呈现方式两种参考方案,后续将继续征集2D可交互、3D六自由度主观实验方案设计提案。
3.2 点云客观评价新探索
根据现有研究,主流点云质量评价模型与方法仍存在较为明显的缺陷。对于基于3D空间特征的点云质量评价模型,如Point-to-Point和Point-to-Plane,虽然其计算复杂度较低,但缺乏对人眼视觉特性的考虑,因此整体性能较差;对于基于投影的客观评价模型,现有方法仅仅是通过投影的方法进行数据降维,使用现有图像质量评价方法进行失真度量,忽视投影过程中深度信息对特征池化的重要指导作用。同时,无参考点云质量评价模型相对匮乏,限制了点云在特定场景下的使用。因此,本团队分别从以上三个核心问题出发进行一系列的探索与研究,取得较为丰富的研究成果。
3.2.1 基于3D空间特征的客观质量评价模型
人眼视觉特性对高频结构特征的失真尤为敏感,因此,本团队在文献[41]中提出了基于图相似性(Graph Similarity,GraphSIM)的质量评价方法。其主要创新点在于使用点云的几何特征构建局部图表达方式,将点云的颜色特征视为图上的信号并提取几何-颜色联合特征进行失真评价。该方法主要分为四步,如图7所示。
图7 GraphSIM 流程图
首先,考虑到人眼对于高频信息更为敏感,使用基于Haar-like的高通滤波器对参考点云进行重采样,得到一系列关键点;其次,对于每一个关键点,通过球型域来构建各自的图结构;然后,针对每个图结构,分别计算颜色的零阶,一阶,二阶梯度特征,用来检测不同的失真类型;最后,对各个颜色通道以及所有的局部图分数进行池化得到最终分数。重采样主要目的是降低计算复杂度,通过提取部分特征进行有效评价。构建局部图则是将点到点的特征相似度衡量扩展到一个局部区域的结构相似度,更加鲁棒的度量失真。
由于人眼在观察物体时存在多尺度特性,即由于视距变化导致的被观察物体颜色模糊,细节丢失以及尺度变换等现象(如图8),建立一个多尺度的点云质量评价模型十分有必要。因此本团队对GraphSIM 进行扩展提出更加鲁棒的Multiscale GraphSIM[42](MS-GraphSIM)。在GraphSIM 的基础上,根据上述三种视觉现象(颜色模糊,细节丢失以及尺度变换)对每个关键点所在的球型域的依次进行了颜色低通滤波、几何降采样、区域收缩,通过重复操作即可构建多个新的尺度的点云图表达方式,然后对不同尺度下计算出的评价分数进行池化得到最终评价分数,如图9 所示。实验证明MS-Graph-SIM 在多个数据集的预测准确率均优于GraphSIM,体现了多尺度评价的优势。
图8 人眼视觉多尺度特性
图9 MS-GraphSIM 流程图
3.2.2 基于投影的客观质量评价模型
投影可以实现3D 点云到2D 图像的转化,但同时丢弃一个维度的有效信息,因此部分失真无法有效检测。基于此,本团队在文献[16]中使用六面投影同时获得点云投影的纹理图像和深度图。将纹理图初始的RGB 颜色空间转换为更适合HVS 的高斯颜色系统(Gaussian Color Model, GCM)。首先使用原始图像和失真图像颜色概率密度的Jensen-Shannon (JS)差异来作为全局特征;然后用深度图来修正颜色纹理相似度从而得到局部特征;最后将二者结合得到最终的分数,如图10 所示。由于该方法充分利用了图像领域关于HVS 的研究,并且结合了3D深度特征,因此其性能要明显好于其他基于投影的质量评价模型。
图10 基于六面投影的点云质量评价模型
3.2.3 无参考点云质量评价模型
深度学习已经在无参考图像质量评价中取得较好的性能,而由于点云缺乏体量足够大的主观质量评价数据库,限制了基于学习的无参考模型的提出。
因此,本团队构建目前规模最大的点云质量评价数据库LS-PCQA[22],作者从MPEG[23-25],JPEG[26]以及3D Mesh[27-29]数据库中选取了共104帧原始点云,包含28个人类模型,48个动物模型以及28个静物。之后,每一帧原始点云都添加了33种失真(采集、编码、压缩、传输、呈现中可能出现的各种失真),每个失真都有7个梯度,最终,该数据库包含104帧原始点云和24024帧失真点云。需要说明的是,作者只选取了1320帧失真点云进行主观实验,然后,针对不同的失真类型,作者选择相关度最高的客观质量评价算法来对特定失真类型的点云质量进行预测,从而在扩充数据集上得到无需主观实验指导的伪MOS分数[30]。实验表明,通过该方法得到的伪MOS分数与真实MOS分数十分接近。
基于上述数据库,本团队提出ResSCNN 网络[22],在点云3D层级上使用稀疏卷积的方法来提取特征,其网络结构如图11 所示。传统密集卷积无法直接在3D层级上处理点云这种具有稀疏性、无序性特征的数据形式,因此之前的工作例如PointNet 等使用1维卷积的方法来提取点云的特征,但1 维卷积提取的特征上下文联系较差,不符合人眼视觉特性,不适合质量评价领域的应用。文献[22]使用通过多层次的稀疏卷积网络提取点云的表观特征和深层语义特征,使模型面对高斯噪声、颜色噪声等表观失真和点云重建、亮度和对比度异常等语义失真有着鲁棒的预测性能,然后对特征进行池化和回归得到最终评价分数,实验证明:基于稀疏卷积的ResSCNN 性能超过了基于1 维卷积的PointNet,对于点云的质量预测准确率可以和部分全参考质量评价方法持平。
图11 基于稀疏卷积的ResSCNN模型
3.3 点云质量评价展望
点云质量评价作为一个较新的研究领域,虽然已经取得较为丰硕的成果,但仍然存在较多问题亟需解决。首先,点云的主观实验方法缺乏统一指导,而主观实验的数据又对驱动和测试客观模型起决定性作用,因此对主观实验的标准化将是未来一段时间最为迫切的任务。同时,由于3D/2D 呈现设备和应用场景存在差异性,点云的主观实验趋向于多种方案并存,而不像图片一样相对单一。其次,点云缺乏大体量且规范的数据库。随着主观实验方法的逐步确定,建立通用点云质量评价数据库将会是下一个重要的任务。
现有点云质量评价主要集中在面向人眼视觉的密集点云,而作为点云的另外一种重要组成,雷达点云的质量评价也同样引起广泛关注。与密集点云不同,雷达点云的消费者主要是机器视觉任务,例如识别、分割与检测。雷达点云的质量好坏需要结合机器视觉任务的准确性来进行判断。因此,从语义特征层面进行雷达点云的失真度量是较为合理的一个出发点。
4 结论
本文针对点云质量评价这个研究方向,分别从主观实验设计,数据库构建和客观模型设计三个方面进行了全面介绍。同时,在分析现有研究存在问题的基础上,对点云质量评价未来的发展趋势进行展望。总体来看,点云质量评价是一个充满活力的研究方向,其对点云的具体应用(如混合现实、自动驾驶)具有明显的促进作用,在未来将会引起学术界和工业界广泛关注。