计算机视觉技术与中国兵马俑的考古学分类研究
2019-12-27AndrewBevan李秀珍MarcosMartinTorresSusanGreen
Andrew Bevan 李秀珍,2 Marcos Martinón-Torres Susan Green
夏寅2 赵昆2 赵振2 马生涛2 曹玮2 Thilo Rehren1,3 [著]王文化4[译]
(1.英国伦敦大学考古学院;2.秦始皇帝陵博物院;3.伦敦大学卡塔尔分校;4.西安石油大学外国语学院)
运动信息中恢复三维结构和多视角图像(SfM-MVS)是计算机视觉技术方法的主要构成元素,即通过一系列重叠的数码照片创建色彩逼真3D模型[1]。考古学中,这一技术(SfM-MVS)正在彻底改变考古文物、遗址和景观的记录和分析[2~5],同时也同样影响着古生物学、艺术史和博物馆等相关学科的研究。然而,迄今为止,大多数研究主要集中在如何保证记录文件的高保真、考虑模型的准确性,或首选计算机处理软件以及一些“公众参与科学研究”等应用上[6]。我们将着重谈一个至关重要的应用,就是对文物分类的研究。这是考古研究的核心问题,但迄今为止,此应用几乎没有受到过考古学的特别关注。本文以秦始皇兵马俑研究为例,这是中国最著名的也是最具代表性的考古遗址,是中国第一位皇帝—秦始皇(259-210 BC)陵墓的陪葬坑[7~9]。下面所述的初步研究,是从众所周知的秦始皇帝陵兵马俑1号坑中选出一些陶俑(这里经过大面积发掘,有大量的兵马俑出土)此研究也是中国秦始皇帝陵博物院与英国伦敦大学考古学院合作的一部分,我们的研究主要是从材料科学、形状分析和空间统计学等角度来研究秦陵兵马俑建造方法和后勤组织[10~13]。
一、模型构建
兵马俑3D模型的构建反映SfMeMVS应用的最佳结果。其过程中使用了一系列的参数,采用了SfM-MVS的网上的开放的资源和专有软件(其中包括VisualSFM、Photoscan、Meshlab,CloudCompare以及软件R所进行的进一步处理或分析)。SfMeMVS软件可以在普通的笔记本电脑或普通台式电脑上使用,但它的计算需求空间很大。例如,在具有64 GB RAM~1 GB GPU和6核3.20 GHz CPU的64位计算机上,处理由大约25张照片构成的兵马俑头部和肩部的模型需要几分钟就可以完成,但如要处理大约100张照片构成的整个陶俑的模型可能需要几个小时,这还不包括模型清理和简化过程。
图一
典型的SfM-MVS处量过程包括几个步骤:照片的拍摄或采集,发现特征点并进行匹配,粗略地散点束重建,接下来可以进行密集点的云重建、网格构建和图像的质感化。有关这些步骤,以前已有考古学家介绍过,我们在这里进行简单地总结一下。普通的多张照片为SfMMVS建模提供了基础的输入数据,这些数据可以从现有的档案中获取或现场拍摄。对于兵马俑和兵马俑耳朵进行建模,我们采用的照片是在兵马俑1号坑拍摄的,在正常自然光下,采用现代数码单反相机(SLR,无三脚架)拍摄的一组新照片。图像之间的大面积重叠是成功的关键和先决条件(图一,a),在拍摄过程中,围绕兵马俑或兵马俑的耳朵建立照片采集条带,大约每15度拍一张照片(即一周360度,24张照片),这样每张照片与其它照片有很大的重叠区域。在图像采集之后,将图片上传,SfMMVS软件处理过程将开始评估每张照片(全自动),识别构成不同图像中可能被识别的特征的不同组的像素[14]。当图像中的特征被识别和描述之后,软件将自动在多个图像之间进行匹配以产生空间关系网络,并可以对每个照片的相机拍摄位置在空间中进行重建,结果可以将匹配的特征点构成稀疏的3D点云(图一,b)。接下来,再构建密集的3D点集合,聚集图像序列,建立子序列,覆盖其表面的相似部分,在粗略的网格点上,寻找更详细的匹配特征,这样点云将更密集[15]。当然,某些参数会影响重建点的结果数量和质量以及整体计算要求,诸如所必需的匹配特征点的数量或网格的密集度。通过上述步骤生成的3D点云中会包含原始图像的颜色,也同时会有一定程度的干扰,如周边的杂物、偶尔的空气质量或杂色背景等。这些干扰特征可以在匹配之前删除或遮盖,或在之后手动删除。SfM方法并没有自带空间范围内的标尺,或地理坐标(否则可以地理坐标定准),所以标尺需要进一步添加,或者在建模之前照片拍摄时加标尺,或在地理信息系统下重新标明尺度。如果需要,也可以采用几种其它方法[16]创建三角形网格版本,在每个面上采用详细的图片纹理,而不是使用平均颜色。
传统上,考古学家常常通过结合普通静物照片、2D线图和横截面来记录考古遗址和出土物,鉴于这些局限,3D模型的优势已经显而易见。近距离数据采集中,两种众所周知的方法是数字摄影测量和激光扫描[17、18]。高配的激光扫描仪仍然具有比SfM-MVS更高的精准度和更真实色彩饱和度[19],但后者能创建相对高质量的3D模型,并具有许多独特的卖点。对比传统的数码摄影测量,SfM-MVS方法无需对摄像机位置进行控制;对比激光扫描仪,它不涉及投入成本购买设备并进行装配。而SfM-MVS的主要吸引力在于:任何人只要有数码相机,稍加培训,了解所需拍摄照片的数量和适度的重叠,都可以进行操作。因而,在考古记录过程中,一系列传统的瓶颈被消除,现在对大量的考古景观、遗址或文物都可以迅速地在实地、实验室或博物馆中进行记录或3D建模。
二、3D模型的形状分析
除了高质量的可视效果之外,我们还认为,SfM-MVS最具吸引力的是其分析对比功用,3D建模不仅仅只对一件或两件文物,而是可以对大量的文物进行数据采集和3D建模,然后对比其表面的形态的相同或不同。
在过去,由于激光扫描仪购买成本昂贵,缺乏专业操作人员,设备装配难度大,3D模型及相关形态学分析是不可能实现的,但如今SfM-MVS却给我们提供了一个现成的解决方案。例如:此种方法可用来评估个体兵马俑的微观风格和制作技术的变化,进而研究陶俑的一系列个性特征,如脸、手或耳朵在制作上的不同。在一定程度上,人类的耳朵在形态学上存在着很大的不同,以至于过去一个多世纪里,它曾被用于辨别个体和司法取证[20~22]。人类遗传学家也对人耳的遗传有着极大的兴趣[23]。另一方面,人耳在艺术作品中则有着更为复杂的一面。在艺术历史上,著名的早期使用科学方法是意大利艺术评论家Giovanni Morelli’s(1892-3)[24]提出的,他认为一个艺术家描绘耳朵和手细节有各自的特点,可能以此鉴别未署名的绘画或雕塑(‘Morellian’method)[25、26]。兵马俑的耳朵,与其身体其它部分一样,是由富含黄土的粘土制成,在生产过程中后期,可能是工匠们手工进行细部雕刻完成的。(图二)表明了不同的陶俑的耳朵呈现出了明显的差异。这种差异要么与某个工匠的标志性制作习惯有关;要么与制造者个人想象与设计有关,是有意想呈现出现实生活中每个人的个性特征,或者这些陶俑确实是以真人为模特雕塑的(后面会有相关讨论)[27]。
一般来说,用统计学方法分析复杂形状的物体,如我们提到的这些生物有机体,需要识别物体上“标界”(或者是固定在物体上的半标界),然后就象希腊神话中的普洛克路斯忒斯(Procrustes是希腊神话中的强盗,他将劫来的路人置于床上,较床长者断其足,较床短者强行将其骨骼抻长)那样,将这些稀疏的二维或三维点进行重叠,进而进行比较[28、29]。但是,对于象耳朵这样的生物体外观,并不能总是在其上面很明显选择到可靠的标界。另一种受欢迎的方法,就是在二维轮廓线上[30],或是三维的表面[31],将半标界的线固定在一些真正的标界上。然而,尽管对固定的点有足够的了解,有时也会出现问题;所以,越来越多的人呼吁采用无标界的方法,而是使用密集的三维点云来处理象耳朵这样复杂的物体[32、33]。
作为考古学研究的初步尝试,同时也考虑到具体的考古材料,我们采用距离矩阵的方法,该方法首先用于对比两个物体的不同,然后扩展到一个组合中的其它物体。距离矩阵是普通搭积木原理,支撑的是众所周知的统计学聚类和分类排序方法;此方法也用于系统进化分析,来研究某物种可能的分支进化关系。接下来,我们将通过计算云中每个点和相邻点之间的中间距离或平均距离来建立一个矩阵,进而对比三维模型之间的形状差异。
下面的研究兵马俑耳朵的例子,我们拍摄了30个兵马俑的面部侧面,尽管我们最终目的是想记录全部1000多已经发掘出的陶俑,但此次不希望将他们从密集地排列在一号坑中移出来,所以并没有拍摄太多数量的耳朵。由此构建的陶俑耳朵的点云是很详细的,但并不特别详细,而且采用任何分析技术来对比耳朵的外观,都需要处理个别的空白点,在那里SfMMVS无法找到足够的特征进行匹配;或者有残留的土壤遮蔽了耳朵的一些解剖学特征(有时是在耳窝部分)。我们从一个大陶俑头上只选择将耳朵来建立点云,然后对模型的大小、位置、方向和点密度(图三,a、b)进行标准化。更确切地说,我们通过最小二乘回归法将耳朵的点云重新调整到XY平面(地质学上的n点条纹和倾角方法)上[34]。左耳可以变成右耳,经过旋转,重新调整,确定每个模型的原点和通高的中心位置。这样可以更直接地对比两个耳朵之间的不同,因为它们的高度和朝向是一致的(非常类似于处理前的2D和轮廓形态学对比).为了进一步确保模型之间对比的准确性,我们还将每个点云降为一致的点密度。
当每只耳朵都由一个标准化的点云表示(见补充数据),便可采用迭代近邻点(ICP)算法[35],更精准地与每一点依次进行关联(如图三,c)。首先,一个模型(X)被指定为“数据”,另一个(Y)被指定为“目标”,X将会精确地对应这一目标。ICP算法就是要首先在Y中找到一组点,代表在X中每个点的最接近的相邻点,然后在此基础上计算出X到Y的最小二乘变换,同时要测量均值平方误差。之后Y中新的一组最近点便可以计算出来,这样循环计算一直延续到一个一致的临界值(直到观察到的错误停止变化)。
图二
图三
在聚合的过程中,这一均方统计或类似的方法可以用来表示两个模型之间的吻合度,并作为两两相异的总体测量方法应用于完整距离矩阵中。所有成对的耳朵之间点的距离可以通过分类排序方法变成可视化,比如多维缩放(图四),此方法也可用于分层聚类或系统遗传模式的研究。但此方法并不一定会产生对称的结果,所以需要对两个模型的方向进行计算(比如,将X和Y对换)。原则上,同样的方法就可以用于其它类型的3D模型(例如三角形网格或“确切”的边界),如果这些模型可以被分解成点云或近似于点云。该技术的一个扩展是允许对点进行局部加重,这样物体的局部可以单独分析,并可以分析出局部对于整体的吻合度。
三、结论和讨论
秦始皇兵马俑耳朵的初步研究结果强有力的表明:虽然基本的形状是相同的(e.g.Fig.3 (2,17, 29), Fig.4a (28)),但兵马俑的个体耳朵有着相当大的差异,没有两只耳朵是完全相同的,而这与高度标准化的青铜兵器相比[36、37]完全不同。同样,目前还没有证据表明不同的耳朵在微形态上有紧密的关联,个别陶俑上刻有或印有负责制作兵马俑的工匠或工头的名字,也有个别的地名(也许是不同的作坊或工匠的家乡),如秦都“咸阳”或“宫”字。这在一定程度上支持一种假设,即兵马俑的建造是打算模拟一支真正的军队,他们的兵器是标准化生产的(而且是有杀伤力的),但士兵俑的制作则不是标准化生产的。我们还需要观察兵马俑的耳朵是否体现了极强的个性化,就象我们在现实中看到的,每个成年男性都有不同的耳朵(正如对陶俑高度的研究)[38],或者不同形态的耳朵会不会是不同作坊或工匠的制作指征,如果有较多陶俑耳朵的3D样本,不同类型的耳朵在俑坑中会不会有聚类。无论如何,应该清楚的是,除了低成本高质量的文物记录和新型的公众参于科学研究,SfM-MVS还能提供更灵活的3D形状分析,在未来几年,这将会对考古类型学和科学分类产生革命性的影响。
图四
注释
[1]Szeliski R (2011) Computer Vision.Algorithms and Applications.New York: Springer.
[2]Ducke B, Score D, and Reeves J (2011) Multiview 3D reconstruction of the archaeological site at Weymouth from image series, Computers and Graphics 35: 375-382.
[3]Remondino et al.2012.Low-cost and open-source solutions for automated image orientation - a critical overview.In Progress in Cultural Heritage Preservation.Proceedings of the 4th International Conference, EuroMed 2012, 40-54.Euromed2012, Lemessos, Cyprus.October 29-November 3,2012.Berlin, Heidelberg: Springer.
[4]Verhoeven G, Doneus M, Briesec C, Vermeulen F (2012)Mapping by matching: a computer vision-based approach to fast and accurate georeferencing of archaeological aerial photographs, Journal of Archaeological Science 39: 2060-2070.
[5]Olson, B.R.Placchetti, R.A., Quartermaine, J.and A.E.Killebrew 2013.The Tel Akko Total Archaeology Project(Akko, Israel): Assessing the suitability of multi-scale 3D field recording in archaeology, Journal of Field Archaeology 38.3:244-262.
[6]Snavely N, Seitz SM, Szeliski R (2008) Modeling the world from Internet photo collections, International Journal of Computer Vision 80: 189-210.
[7]陕西省考古研究所,始皇陵秦俑坑考古发掘队.秦始皇陵兵马俑一号坑发掘报告1974-1984[M].北京:文物出版社,1988.
[8]袁仲一.秦始皇陵兵马俑研究》[M].北京:文物出版社,1990.
[9]Portal J Ed.(2007) The First Emperor: China's Terracotta Army, London: British Museum.
[10]Li XJ, Martinón-Torres M, Meeks ND, Xia Y and Zhao K(2011) Inscriptions, filing, grinding and polishing marks on the bronze weapons from the Qin Terracotta Army in China.Journal of Archaeological Science 38: 492-501.
[11]Martinón-Torres M, Li XJ, Bevan A, Xia Y, Zhao K, Rehren T 2013.Forty thousand arms for a single emperor: from chemical data to the labour organization behind the bronze arrows of the Terracotta Army, Journal of Archaeological Method and Theory (online).
[12]Bevan A, Crema E, Li XJ, Palmisano A (2013) Intensities,interactions and uncertainties: some new approaches to archaeological distributions, in Bevan A and Lake M (eds.),Computational Approaches to Archaeological Spaces, Walnut Creek: Left Coast Press, pp.27-51.
[13]Li XJ, Bevan A, Martinón-Torres M, Rehren T, Cao W, Xia Y, Zhao K 2014 Crossbows and imperial craft organisation: the bronze triggers of China's Terracotta Army, Antiquity,vol.88,p126-140.
[14]Lowe DG (2004), Distinctive image features from scaleinvariant keypoints, International Journal of Computer Vision 60: 91-110.
[15]Furukawa Y and Ponce J (2010) Accurate, dense, and robust multi-view stereopsis, IEEE Transactions on Pattern Analysis and Machine Intelligence 32: 1362-1376.
[16]Kazhdan M and Hoppe H (2013) Screened Poisson surface reconstruction, ACM Transactions on Graphics 32: e29.
[17]Bates KT, Falkingham PL, Rarity F, Hodgetts D, Purslow A, Manning PL (2010) Application of high-resolution laser scanning and photogrammetric techniques to data acquisition,analysis and interpretation in palaeontology.International Archives of the Photogrammetry, Remote Sensing, and Spatial Information Sciences 38: 68-73.
[18]Hess M and Robson S (2010) 3D colour imaging for cultural heritage artefacts, International Archives of Photogrammetry,Remote Sensing and Spatial Information Sciences 38.5: 288-292.
[19]James MR and Robson S (2012) Straightforward reconstruction of 3D surfaces and topography with a camera: Accuracy and geoscience application, Journal of Geophysical Research 117:F03017.
[20]Bertillon A (1893) Instructions Signalétiques, Melun:Imprimerie Administrative.
[21]Pflug A and Busch C (2012) Ear biometrics: a survey of detection, feature extraction and recognition methods, IET Biometrics 1: 114-129.
[22]Abaza A, Ross A, Hebert C, Harrison MAF, Nixon MS (2013)A survey on ear biometrics, ACM Computing Surveys 45: 22.
[23]Hunter, A, Frias, JL, Gillessen-Kaesbach G, Hughes H.,Lyons Jones K and Wilson L (2009) Elements of morphology:standard terminology for the ear, American Journal of Medical Genetics A 149A: 40-60.
[24]Morelli G (1892-3) Italian Painters: Critical Studies of their Works, London: John Murray.
[25]Wollheim R (1973) Giovanni Morelli and the origins of scientific connoisseurship, in Wollheim R (ed.) On Art and the Mind: Essays and Lectures, London: Allen Lane, pp.177-201.
[26]Ginzburg C (1980) Morelli, Freud and Sherlock Holmes:clues and scientific method, History Workshop 9: 5-36.
[27]Kesner L (1995) Likeness of No One: (re)presenting the First Emperor's army, The Art Bulletin 77: 115-132.
[28]Dryden IL and Mardia KV (1998) Statistical Shape Analysis,New York: Wiley.
[29]Mitteroecker P and Gunz P (2009) Advances in geometric morphometrics, Evolutionary Biology 36: 235-247.
[30]Monna, F., Jebrane, A., Gabillot, M.Laffont, R.Specht, M.Bohard, B.Camizuli, E..Petit C, Chateau, C.Alibert P., 2013.Morphometry of Middle Bronze Age palstaves.Part II- spatial distribution of shapes in two typological groups, implications for production and exportation.Journal of Archaeological Science 40: 507-516.
[31]MacLeod, N.2010.Alternative 2D and 3D form characterization approaches to the automated identification of biological species, in Nimis, P.L.and Vignes Lebbe, R.(eds.)Tools for Identifying Biodiversity: Progress and Problems:225-229.Trieste.University of Trieste.
[32]Yan P and Bowyer KW (2007) Biometric recognition using 3D ear shape, Pattern Analysis and Machine Intelligence 29:1297-1308.
[33]Wuhrer S, Shu C and Xi P (2011) Landmark-free posture invariant human shape correspondence, The Visual Computer 27: 843-852.
[34]Fienen, M.N.2005.The three-point problem, vector analysis and extension to the n-point problem, Journal of Geoscience Education 53.3: 257-262.
[35]Besl PJ and McKay ND (1992) A method for registration of 3D shapes, IEEE Transactions on Pattern Analysis and Machine Intelligence 14: 239-256.
[36]同[11].
[37]同[13].
[38]Komlos J (2003) The size of the Chinese terracotta warriors-3rd century B.C., Antiquity 77.Available:
http://antiquity.ac.uk/projgall/komlos/komlos.html.Accessed: 2 October 2013.