基于决策树和K-means聚类的古玻璃成分分析
2023-06-07谢佳欣
谢佳欣
(首都经济贸易大学,北京 100071)
0 引言
丝绸之路是古代中西方文化交流的通道,其中玻璃贸易是早期贸易往来的象征。我国在吸收国外技术后就地取材,制作出了与外来玻璃外观相似,但化学成分不同的玻璃制品。
制作古玻璃的主要原料有石英砂、可降低熔化温度的助熔剂和作为稳定剂的石灰石。古代玻璃极易受埋藏环境的影响而风化,内、外部元素会产生较多变化,从而导致无法对风化后的文物类别进行判断。其中未风化文物虽然不排除局部有较浅风化,但依旧能从表面看出文物的纹饰、颜色;风化文物表面则有明显的风化区域和未风化区域。
该文基于决策树和K-means 聚类算法对古玻璃的成分进行分析和鉴别,探寻文物的纹饰、颜色、表面风化与玻璃类型的关系,并对玻璃进行亚分类,以期取得更好的保存效果,避免进一步风化或损失。
1 样品数据说明
现得到一批我国古代玻璃制品的相关数据,共有58 个文物,考古工作者根据这些文物样品的化学成分,并利用其他检测手段已将其分为高钾玻璃和铅钡玻璃2 种类型。其中58 个文物纹饰、类型、颜色和表面风化的相关信息见表1(表1 仅展示1 号~3 号文物的信息),58 个文物各化学成分含量的比例见表2(表2 仅展示1 号~3 号文物的信息)。
表1 文物的纹饰、类型、颜色和表面风化信息
表2 文物的各元素含量
2 文物的纹饰、颜色、表面风化与玻璃类型的关系
2.1 决策树模型的建立和求解
作为有监督学习的算法,决策树算法可根据数据的不同特征,不断地对数据进行分类,最终实现对数据的分类。其中的CRT 生长法是将数据进行拆分,向因变量靠拢,形成与因变量同质的段,在存在缺失值和变量数多的情况下较有优势。结合数据特点,决策树模型中的CRT 生长法比较适合探究文物的纹饰、颜色、表面风化与玻璃类型的关系。
根据表1 中的数据,以纹饰、颜色、纹饰类型为自变量,有、无风化作为因变量,利用决策树分析得出3 个自变量的重要性,具体结果见表3。纹饰∶颜色∶类型≈10 ∶4 ∶3,具体玻璃类型分类结果正确率为84.5%,结果如图1 所示。
图1 决策树对是否风化的分类图
表3 4 类玻璃元素含量均值
根据图1 可知,高钾玻璃中纹饰为A、C 的均为表面未风化,纹饰为B 的表面都出现了风化情况;铅钡玻璃中蓝绿、浅蓝、深绿、黑这几种颜色的玻璃多为风化玻璃,其中蓝绿、黑色的玻璃都出现了风化。还可以通过纹饰来判断其是否风化。
2.2 结果分析
结合上述图表的分析可以得出如下结论:1)当玻璃类型为高钾玻璃时,如果纹饰类型为B,则其极易被风化。2)当玻璃类型为铅钡玻璃时,纹饰类型C 的玻璃比纹饰类型A 的玻璃更易风化。铅钡玻璃中蓝绿、黑色玻璃更易被风化。3)颜色和类型对文物的影响相差不大,颜色的影响略大于类型,纹饰比颜色和纹饰类型在玻璃类型分类中具有更重要的作用。
3 对高钾玻璃、铅钡玻璃进行亚类划分
3.1 高钾玻璃、铅钡玻璃的各元素含量统计
该文基于玻璃元素特征对玻璃进行亚分类。为探寻在4 个类别(高钾玻璃风化、高钾玻璃未风化、铅钡玻璃风化、铅钡玻璃未风化)的基础上进行亚分类是否合理,该文计算了4 类玻璃文物类型的化学成分的均值,具体结果见表3。
根据表3 可以得到大致的分类规律:1)在不同组合下,且在不同采样点,各化学物质组成成分中均有SiO2含量较高的特点,这与玻璃中SiO2为主要成分的客观现实一致。2)在不同风化情况下,高钾玻璃SiO2、K2O 和CaO 的含量变化显著,铅钡玻璃SiO2、PbO、BaO 和CaO 的含量占比变化显著,这与引言中“古代常添加石灰石作为稳定剂”、高钾玻璃以草木灰为助熔剂、铅钡玻璃以铅矿石为助熔剂的信息相符,说明数据整体与客观现实没有明显偏差,且4 类玻璃元素含量均值差异较大,则在4 类的基础上进行亚分类是合理的。
3.2 K-means 聚类模型的建立
该文将玻璃14 种成分的比例作为聚类[1]依据建立K-means 聚类模型,分别对4 个类别的玻璃进行亚分类。具体的算法步骤如下。
3.2.1 利用手肘法确定聚类个数K
手肘法是一种利用误差平方和(SSE)和K值的关系图确定最优K值的方式,其算法思想为随聚类中心(K值)的逐渐增多,SSE逐渐减少。当K值小于真实聚类数时,随着K值的增大,SSE变化较大;当K值大于真实聚类数时,随着K值的增大,SSE 变化较小。其中手肘法核心指标SSE的表达式如公式(1)所示。
式中:SSE为误差平方和;Cj为第j个簇;Q为Cj的样本点;P为Cj的质心。
不同K值下SSE的值如图2 所示。根据图2 可知,4个类别的SSE随K值的变化均在K=2 时有强烈的转折(图中圆圈内的点),因此均选取分类中心个数K=2。
图2 不同K 值下SSE 的值
3.2.2 K-means 聚类算法流程
K-means 最小化,是要最小化所有的文物数据点与其所关联的聚类中心点之间的欧式距离之和,欧式距离的定义如公式(2)所示。
式中:xij为多维向量,其中i为第i个样本数据,j为第j维;mkj为第k簇的聚类中心。
聚类的各类总的距离平方和E 如公式(3)所示。
式中:ci为第i簇样本;k为一共有k簇。
用SPSS 对4 个类别分别进行聚类的算法流程见表4。
表4 K-means 聚类算法流程
3.3 K-means 聚类结果及其分析
对4 个类别建立聚类模型,均选择聚类数为2 类,设置最大迭代次数为10 次。
3.3.1 高钾未风化玻璃聚类的结果及分析
该文通过F 检验结果,并以显著性P值≤0.05 的化学成分做分析。在高钾未风化玻璃聚类的结果中,通过F 检验和P 检验的化学成分为二氧化硅(SiO2)、氧化钾(K2O)和氧化钙(CaO)。聚类规则见表5。
表5 高钾未风化玻璃聚类的结果
根据表5 可知,高钾未风化玻璃主要包括以下2 种:聚类1,二氧化硅(SiO2)相对含量较高的玻璃,该文称为SiO2玻璃。聚类2,氧化钾(K2O)和氧化钙(CaO)含量相对较高的玻璃,该文称为K2O-CaO 玻璃。
3.3.2 铅钡未风化玻璃聚类的结果及分析
在对铅钡未风化玻璃聚类的结果中,通过F 检验和P检验的化学成分为二氧化硅(SiO2)、氧化镁(MgO)和氧化铅(PbO)。聚类规则见表6。
表6 铅钡未风化玻璃聚类的结果
根据表6 可知,铅钡未风化玻璃主要包括聚类1,二氧化硅(SiO2)、氧化镁(MgO)相对含量较高的玻璃,该文称为SiO2-MgO 玻璃。聚类2,氧化铅(PbO)含量相对较高的玻璃,该文称为PbO 玻璃。
3.3.3 高钾风化玻璃聚类的结果及分析
在对铅钡未风化玻璃聚类的结果中,通过F 检验和P检验的化学成分为二氧化硅(SiO2)和氧化铝(Al2O3)。聚类规则见表7。
表7 高钾风化玻璃聚类的结果
根据表7 可知,高钾风化玻璃主要分为:聚类1,二氧化硅(SiO2)相对含量较高的玻璃,该文称为SiO2玻璃。聚类2,氧化铅(PbO)含量相对较高的玻璃,该文称为PbO 玻璃。
3.3.4 铅钡风化玻璃聚类的结果及分析
在对铅钡未风化玻璃聚类的结果中,通过F 检验和P检验的化学成分为氧化镁(MgO)、氧化铜(CuO)、氧化铅(PbO)、氧化钡(BaO)以及二氧化硫(SO2)。聚类规则见表8。
表8 铅钡风化玻璃聚类的结果
根据表8 可知,铅钡风化玻璃主要分为:聚类1,氧化镁(MgO)、氧化铅(PbO)相对含量较高的玻璃,该文称为MgO-PbO 玻璃。聚类2,氧化铜(CuO)、氧化钡(BaO)和二氧化硫(SO2)含量相对较高的玻璃,该文称为CuO-BaO-SO2玻璃。
综上所述可以得到玻璃亚类划分体系,见表9。表9在4 个大类上划分了亚类,每个大类划分为2 个亚类[2]。
表9 玻璃亚类划分体系表
4 结语
该文通过描述性统计和决策树算法研究了古玻璃风化前、后化学成分和特征的变化,通过特征分析鉴别文物所属的不同类型。并基于各类玻璃的化学成分,利用K-means 聚类提出古玻璃亚类的划分原则。该文研究结果和数据处理方法有助于在探寻丝绸之路上古玻璃的文化与科技交流方面取得一些新突破。