APP下载

博物馆馆藏文物数据可视化分析∗

2019-11-29李明灏

计算机与数字工程 2019年11期
关键词:代表性矩形类别

李明灏 潘 刚

(1.天津大学计算机科学与技术学院 天津 300350)(2.天津大学软件学院 天津 300350)

1 引言

随着数字化技术的发展,通过数字化技术产生的文物数字化数据变得越来越庞大。这些文物数据包含时间、空间以及其他多维的信息结构十分复杂。这些数据从全国收集而来包含大量的历史信息。然而对于文物研究人员来说在没有工具帮助的情况下分析如此庞大的数据是一件十分困难的事情。不同文物领域的专家在进行研究的过程中往往只能关注其自身研究领域中的信息,而且现在文物的研究工作通常只能依赖研究人员自身的专业知识的积累。因此,需要一个可以帮助文物专家和研究人员收集、分析以及可视化文物数据的工具。然而对于文物数据进行可视化和数据挖掘面临着大量的挑战。首先,文物数据中包含了文物的朝代信息,文物的出土信息,这就意味着文物数据即有时间属性,也有空间属性,属于时空数据。而对时空数据进行可视化往往是一个巨大的挑战。其次,文物数据是一种多维的数据。最后,对于一个国家来说它的历史往往是十分复杂的,这就意味着在对文物数据进行可视化的过程中将会面临着如何保证时间清晰的问题。

本文研究的主要内容为对博物馆的馆藏数据进行可视化分析。本文的重点是构建可以清晰地展示多维的文物时空数据的可视化工具,并使用这些工具获取文物数据中可能隐藏的信息或关联。本文从全国可移动文物登录网获得文物数据,这些数据为全国第一次可移动文物普查后公开的部分数据。本文为文物专家提供了一种高效分析结构复杂的文物数据的方法。首先,本文研究了颜色分配方案,使得在面对大量的文物特征是可以为每一个特征分配合理的代表颜色。然后,本文使用矩形地图对文物数据的时空属性进行可视化,同时辅以其他工具来详细地展示文物数据。每一种工具都容易理解且便于使用。

本文的贡献主要有:

1)针对面向大量特征的颜色分配方式进行研究。

2)使用复合的可视化工具对结构复杂的多维时空文物数据进行可视化。这些工具为矩形地图、流动图、U-Matrix图。同时提出一种基于坐标的矩形地图的绘制方式。

3)通过对中国山西省博物馆在不同时代的代表性文物类别进行分析以验证本文提出的方法。

2 相关工作

针对存储文物复杂的时空数据,可视化的表示方法有助于数据的使用以及人员对数据进行分析。现有的关于时空数据的可视化的研究有很多传统的信息图表可以用于多维数据的可视化,例如:表、直方图、散点图和饼图等。这些信息图表可以通过一些技术而更好地进行探索性的数据分析和信息可视化,例如:散点图矩阵[1],矩阵排列[2],通过像素方向的方法[3],以及并行坐标图的方法[4]。同时还有通过将传统的条形统计图同基于像素的技术相结合来对大量数据的绝对类型和数值类型进行可视化[5]。由于展示空间是有限的,为了能更好地展示多维的数据,通常会通过降维技术将多维数据投影到低维的平面,例如:多维排列[6~7],主成分分析法或其他的投影追踪法。提供一个可以同时全方位的审查大量信息的方法是不现实的。

为了可以为用户提供更好的信息的展示方式,Edward Segel 和Jeffrey Heer 对可视化讲述数据方式进行了研究[8]。如今同样还有大量的针对不同数据的可视化分析工具,这些数据分析工具可以帮助用户自由的对数据进行探索[9]。用于可视化分析的技术多种多样,例如:基于密度图的可视化,信息可视化技术,基于树图的可视化[10]等。同时很多的可视化分析系统还提供了大量的交互操作。Nivan Ferreira 等对通过可视化对城市的时空大数据进行了研究[11]构建了一个系统,结合了多种交互功能,使用户能够对数据的所有维度进行查询。Abish Malik等提出了一个视觉分析系统,探索在给定的数据集在不同层次的空间聚集的时间相关性[12]。为了可以更好地分析数据中的时间属性的影响Yifan Wu 等通过四个模块来分析学生在校园的活动和消费数据,从而分析了解学生的表现[13]。除此之外,还有很多形态各异的可视化分析工具。如A. Malizia 等提出了一个新的Web 混搭系统,帮助人们和专业人员检索有关紧急情况和灾难的信息[14]。Diansheng Guo 等提出了一个为时空和多维模式数据开发的系统[15]。这些工具从各方面对时空数据进行了可视化。

3 文物多维时空数据可视化

3.1 面向大量特征的颜色分配方案

对于文物数据,其通常拥有大量的特征。比如文物的所述朝代就有大量的可能性,在中国就出现过40 多个朝代。文物的类别特征的数据也很多,在第一次全国可移动文物普查中就确定的35 个不同的文物分类。面对这种特征数量很多的情况,需要一个合适的颜色分配方案,同时需要可以高效展示特征之间联系的模型。

本文使用CIELAB 颜色空间来进行颜色分配,选择CIELAB 颜色空间是因为这是一个均匀的颜色空间,所谓的均匀的颜色空间是指当颜色空间内的数值均匀变化时,人对于颜色变化的感官也是均匀的。

为了充分的使用颜色空间,本文使用一个复合函数在颜色空间中进行颜色分配。

其中L*,a*,b*表示在CIELAB 颜色空间中的亮度,红色、品红和绿色之间的位置,黄色和蓝色之间的位置。函数f(a*)和f(b*)是偶函数并且构造相同,只有自变量不同。在进行颜色分配的时候对于函数的参数进行调整可以获得不同的效果。图1 为在接近0 时有更大的梯度变化的单调递减的凸函数对文物类别进行颜色分配的结果。

图2 使用U-Matrix表示文物类别之间的关系和该类文物的数量

本文使用U-Matrix 图来展示文物特征之间的相关性。U-Matrix中的一个圆形表示一类特征,圆形的大小表示有该特征的文物的数量。圆越大有该特征的文物的数量越多。两个圆之间的六边形的颜色的深浅表示特征之间的相似程度,颜色越浅表示两个特征越相似。图2 为U-Matrix 的一个实例,图中的每一个圆形表示一种文物的类别。每两个圆形之间的六边形的灰度表示两个类别之间的相似程度,两个类别越相似则颜色越浅。

3.2 基于矩形地图的文物数据可视化

本文使用矩形地图[16]对文物数据进行可视化。我们认为使用这样的方式会使用户将精力分散在其他的额外的信息上,使用户的集中力下降。因此本文使用矩形地图展示文物数据的空间信息,矩形地图可以将不必要的信息进行过滤同时保留用户更加有关系的位置的信息。

如图3 是一个矩形地图的实例。其中展示了文物数据的相对位置关系,并且通过矩形的大小以及填充颜色为用户提供文物的其他特征信息。

图3 展示的信息数据为山西省的博物馆中具有代表性的文物的类别。图中的每一个矩形表示一个博物馆,矩形的颜色表示博物馆代表性文物的类别,矩形的大小则与博物馆馆藏文物数量相关。在绘制矩形地图时,本文引入了tanh函数来计算矩形地图中的矩形的大小,以此来解决由于各个博物馆的藏品数量可能存在巨大的差异导致的矩形地图中缺乏层次的问题,比如山西博物院所藏的文物数量远远大于其他位于山西省的博物馆,若使矩形的大小与馆藏文物数量成正比会导致矩形地图中山西博物院过于庞大同时由于比例的关系表示其他的博物馆的矩形的大小将会缺乏层次。

图3 矩形地图实例,表示山西省主要的博物馆从整体来看具有的代表性文物的类别。

为了使矩形地图可以展示文物数据中的时间属性,本文将多个矩形地图组合到一起构成一个矩形地图集,在这个矩形地图的集合中,每一个地图用于展示一个朝代分类,这样就可以使用矩形地图来简单地展示时间属性。

3.3 基于坐标的矩形地图绘制方法

为了创建矩阵地图,我们通过百度地图提供的API 获得了每一个博物馆的经纬度坐标。与使用矩形地图模拟真实地图不同,使用坐标进行矩形地图的绘制会出现缺少每个矩形之间的邻接关系的情况,为此本文提出了一个基于坐标的矩阵图绘制方法。

算法1:于坐标的矩阵图绘制方法

1)令集合M={m1,m2,m3…mn}表示需要创建的矩形的集合,并初始化集合A和B令A=M,B为空集。

2)从M 中选择核心矩形mc并绘制,核心矩形可从多方面选择如矩形的位置或大小。令A=Mmc,B={mc}。

3)从A中选择距离B最近的矩形m',即:

4)计算m'与mc之间的距离d,从A 中找出所有与mc的距离小于d的矩形构成集合C,即:

5)从C 中选择距离B 最近的矩形m 进行绘制,若C 为空集则令m=m'并绘制。令A=A-m,B=B+m。

6)回到3),若A为空集则结束。

这种方式进行绘制的思路是从核心的矩形开始向外面一层一层的辐射的进行绘制,这种方式可以避免只选择距离已经绘制过的矩形最近的为绘制的矩形的方式造成的由于选择的方式是呈螺旋行的导致后面要绘制的矩形缺少足够的空间进行绘制,造成结果中出现大量的矩形相重叠的情况。

4 实例应用:博物馆代表性文物类别分析

接下来本文将基于矩形地图对博物馆代表性文物类别进行分析,本节首先将介绍如何评估博物馆的代表性文物类别,之后将基于矩形地图对数据中位于山西省的博物馆进行分析。

4.1 馆藏代表性文物类别评估

本文使用一个加权公式计算每个博物馆的代表性文物类别:

该加权公式由三部分组成。ni为某博物馆属于年代分类i 的文物的数量,Nc为某类文物在数据中的总量,Np为某类文物所在博物馆的省份的所有的博物馆一共藏有的该类文物的数量,Nm表示博物馆藏有的文物的总数。

该公式使用三项分别从全国的层面,博物馆所在省的层面以及博物馆自身的层面来评估一个博物馆的代表性文物类别。通过得公式中的权重进行调整,研究人员可以自由的决定三项在评估博物馆代表性文物类别时的重要程度。

若使用人员认为三项中馆藏数量占比对于决定代表性文物类别更为重要,可以将权重设定为0.25,0.25,0.5 这样就可以保证第三项在最终决定文物占有较大的比重。若使用人员认为馆藏文物数量的占比对于决定代表性文物类别完全没有意义,则可以将权重设定为0.5,0.5,0 这样就可以排除最后一项,将馆藏文物的代表性只交由前两项来决定。

接下来将以矩形地图为主,通过多种工具对数据中所有山西省的博物馆在各个年代分类中的代表性文物类别。选择山西省首先是因为数据中一共有300 多个博物馆,全部进行分析数量太多了,而山西省是一个文物大省,分析山西省既可以减少博物馆的数量,同时也可以保证数据的数量。

4.2 馆藏代表性文物可视化分析

在全国第一次可移动文物普查文物被分为了35 类,本文的数据来源于全国第一次可移动文物普查,因此本文数据中的文物也分为35 类。但是文物分类在文物领域中也是一件十分复杂的工作,文物可以从材质、用途、朝代等各个角度进行分类,但是这些分类方式总是难以满足全部的需求。全国第一次可移动文物普查中文物虽然被分为了35类,但是这种分类方式中既包含了从材质方面的分类,如铜器、金银器等,又包含了基于用途的分类方式,如交通运输工具、文具等。为了可以更加明确这些类别之间的关系,使类别相近的文物获得相近的代表颜色,本文基于数据中的质地字段对文物类别进行了聚类。

首先统计各类别中各种质地的文物的数量,计算出各种类别的各种质地文物所占的比例,构成一个25维的向量。将数据中的35类文物类别都统计之后将会获得一个35×25 的矩阵,矩阵中的一行表示一类文物种类中各种质地的文物所占的比例。之后使用层次聚类对这35 类文物类别进行聚类,依次获得各类文物之间的相似性。

通过聚类的结果对颜色分配方式进行了调整,使关联较强的文物类别的颜色更为相似,最终的结果如图4(b)所示。同时使用U-Matrix 来表示各类别的文物的数量以及各类别之间的关联度,结果如图4(a)所示。

图4 颜色分配结果和各类文物的相似性,两类文物之间的颜色越浅表示两类文物从质地层面更加相似,圆圈越大表明该类文物数量越多。

之后使用图4 中的颜色分配方式我们使用矩形地图将数据中所有山西省的博物馆的代表性文物类别进行展示,如图5 所示。同时由于文物数据中时间维度包含了中国从古至今的说有朝代,使得文物数据中的时间文物十分复杂。为了使数据中的时间维度可以清晰地展示出来,本文将中国的所有朝代归为13 个朝代分类。从图中可以一眼就看出拥有各个年代分类的文物的博物馆的数量。可以看到只有少部分博物馆有夏朝的文物,这可能是因为夏朝创建的时间过于久远。但是拥有考古学年代文物的博物馆的数量却多于拥有夏朝文物的博物馆,这可能是因为虽然考古学年代出现的时间更为久远,但是考古学年代持续的时间确远远长于夏朝持续的时间。可以看到在考古学年代大多数的博物馆的代表性文物类别为陶器和玉石器、宝石类,有部分博物馆的代表性文物类别的牙骨角器,只有山西博物院的代表性文物类别为乐器、法器类。还可以看到,瓷器最开始成为代表性文物类别的朝代分类是三国-晋-十六国-南北朝时期,之后出现的大量的以瓷器为代表性文物类别的博物馆,同时我们也知道唐朝的瓷器是十分著名的。我们还可以看出山西省博物院的代表性文物类别往往与其他的博物馆有很大的区别,这可能是由馆藏文物的数量的差距造成的。从图中还可以看到孝义市皮影木偶艺术博物馆由于其博物馆自身的性质,在明、清以及中华民国时期其代表性文物类别都是皮革类文物。

图5 山西省主要博物馆在不同的朝代分类时期的代表性文物类别以及各博物馆之间的相对位置关系

由于山西博物院藏有文物的数量占数据中山西省的博物馆的一半左右,为了可以更加清晰地展示山西博物院馆藏文物的信息,本文使用流动图进行了可视化展示。图6 为山西博物院在各个朝代分类时期持有的文物数量的流动图,图中对文物类别进行了分类,分类方式是基于质地的层次聚类,通过聚类将35类文物聚成15类。将聚类结果中每一类中的所有项的代表颜色,进行平均获得用于表示每一个聚类结果的颜色。可以看到山西博物院主要藏有大量的周、明、清以及中华民国时期的文物,而在周这一时期藏品主要为铜器、钱币。而到了明、清和中华民国时期则藏有大量的古籍图书等类别的文物,这类文物的主要质地为纸,同时也可以看到这类文物从秦-汉到三国时期才开始出现。我们还可以看到山西博物院藏有的甲骨和牙骨角器类别的文物之存在于周之前。流动图同时也印证了山西省所在地在中国历史上的发展,在春秋时期晋作为春秋五霸之一使得当地十分繁荣,之后由于三家分晋使得山西地区没落,而到了明清由于晋商的出现使得山西省所在地区再次繁荣起来。

图6 山西博物院各个时期的各类文物数量,文物类别的归类通过基于材质的层次聚类获得,x轴表示朝代分类,y轴可以计算出各类文物在某一朝代的数量。

5 结语

本文以矩形地图为基础设计了一系列的可视化的工具来帮助分析人员对文物的特性,时间属性和空间属性的关联进行分析。本文使用矩形地图展示文物数据中的时间属性和空间属性,提出了一种基于坐标的矩形地图绘制方式。使用U-Matrix展示文物数据中各个特征的信息和关联。并且针对文物数据中复杂的时间结构的可视化问题提出了基于主要朝代的朝代分类以简化时间结构。通过这些工具研究人员可以方便对文物时空数据进行分析。最后使用本文的可视化工具进行了山西省的博物馆代表性文物的分析证明了本文的可视化工具是可用的。接下来我们将进一步完善本文的可视化工具,为其添加更丰富的功能以帮助文物专家更加效率的对文物数据进行分析研究。

猜你喜欢

代表性矩形类别
非物质文化遗产代表性传承人
——呼光华
矩形面积的特殊求法
一起去图书馆吧
漳州市非物质文化遗产代表性项目代表性传承人名录
致敬经典
简析基于概率预测的网络数学模型建构
从矩形内一点说起
巧用矩形一性质,妙解一类题
七年级数学下册期末检测题(B)
选相纸 打照片