基于决策树的玻璃制品成分分析与鉴别
2023-06-04翟司浔
翟司浔
(河北经贸大学信息技术学院,河北 石家庄 050000)
0 引言
玻璃的主要原材料是石英砂,化学成分为二氧化硅及其他氧化物。纯石英砂熔点较高,淬炼时需要添加助熔剂,降低熔化温度。草木灰、硝石和铅矿石是过去常用的助熔剂,需添加石灰石作为稳定剂,煅烧后的主要成分为氧化钙。由于添加的助熔剂不同,其主要化学成分也不同。
玻璃风化情况与埋藏环境有着极大的关系,风化过程中玻璃内部元素与环境中的元素反应,导致成分比例发生变化,会影响对类型的判断。无风化的玻璃制品可明显看到表面的纹饰、颜色及图案等,但不排除轻微风化情况。风化严重的玻璃制品表面会裸露出大面积的灰黄色区域,是明显的风化层。通过数学建模对其进行研究,可使文物研究更加科学有效,促进玻璃制品的生产制造。
1 玻璃成分鉴别与预测
1.1 玻璃成分统计
由图1可知,无风化的文物样品-高钾玻璃的二氧化硅含量最高,占60%以上,其他各元素含量均低于20%,其中氧化镁、氧化铅、氧化钡、五氧化二磷、氧化锶、氧化锡、二氧化硫含量均低于2%左右。风化的文物样品-高钾玻璃的二氧化硅含量最高,占90%以上,远高于其他化学成分,基本无法检测到氧化钠、氧化铅、氧化钡、氧化锶、氧化锡、二氧化硫的含量。
图1 有无风化的高钾玻璃化学成分含量统计Fig.1 Statistics of the chemical composition of high potassium glass with or without weathering
1.2 玻璃风化与影响因素相关性分析
使用SPSS 26.0得到的卡方检验值如表1所示:
表1 卡方检验Tab.1 Chi-square test
类型*表面风化Pearson卡方P1=0.009<0.05,拒绝原假设,认为类型对玻璃表面是否风化的影响显著。纹饰*表面风化Pearson卡方P2=0.084>0.05,颜色*表面风化Pearson卡方P3=0.481>0.05,均接受原假设,认为纹饰和颜色对玻璃表面是否风化的影响不显著。
斯皮尔曼相关系数计算式:
使用Matlab求解斯皮尔曼相关系数并绘制热力图,正值用深色系标准,负值用浅色标注,如图2所示:
图2 斯皮尔曼相关系数图Fig.2 Spearman correlation coefficient graph
相关系数定量刻画出X和Y之间的相关程度,即|ρ|越大,相关程度越大,相关性越好;|ρ|=0时,对应的相关程度最低。由图2可知,表面风化情况与玻璃文物类型之间的相关程度较大,而纹饰对表面风化程度影响较小,相关性较小。
1.3 玻璃风化后的成分预测
均值法是根据风化前后同一采样点化学成分含量变化进行预测,模型如下:
风化前,第i个采样点所有化学成分含量之和为:
Pij=m11+m12+m13+…+mij
风化前,第i个采样点的第j种化学成分所占比例为:
Mij=mij/Pij
风化后,第i个采样点所有化学成分含量之和为:
Sij=n11+n12+n13+…+nij
风化后,第i个采样点的第j种化学成分所占比例为:
Nij=nij/Sij
风化前后,第i个采样点的第j种化学成分含量的变化值为:
Δhij=|Nij-Mij|
风化前,第i个采样点的第j种化学成分含量为:
kij=nij-Δhij
根据玻璃类型,将玻璃划分为两种,即高钾玻璃和铅钡玻璃,使用 Matlab采用均值法,分别预测这两种玻璃风化前各个风化点检测数据的化学成分含量,部分高钾玻璃采样点处各化学物质比例预测结果如表2所示。
表2 高钾玻璃风化前的化学成分含量Tab.2 Chemical content of high potassium glass before weathering
2 决策树模型
决策树是一种用于数据分类的方法,具有如流程图一样的树状结构,每个内部节点表示在一个属性上的测试,每个分支节点表示一个测试输出,每个叶子节点表示类或类分布,其本质是一种自上向下的逐步构造方法,构造标准一般采用信增益度量,信息增益越大,表明数据集在分类过程中能够最大化减小其不确定性,因此ID3在构建算法的过程中所挑选的特征具有更好的分类效果。信息熵(H)及信息增益(G)定义如下:
H(p)=-∑p×lgp
G(D,A)=H(D)-H(D|A)
其中,p表示随机变量概率,A表示特征,D代表数据集,H(D)定义为经验熵,H(Y|X)定义为条件熵,H(D|A)表示特征A在数据集D条件下的经验条件熵。
针对给出的数据集,选取70%的数据作为训练集,30%的数据作为测试集,运用spss modeler得到如图3所示的分类决策树。
图3 分类决策树Fig.3 Classification decision tree
该决策树深度为4层,根节点包含39个样本,其中铅钡玻璃占64.1%,高钾玻璃占35.9%。分析可知,高钾玻璃和铅钡玻璃决策树的第一分类标准是纹饰,若纹饰为B,那么该玻璃类别为高钾玻璃,若纹饰为A或C,则有75.758%的概率为铅钡玻璃。第二分类标准为表面是否风化,若纹饰为A或C且表面风化,则类型为铅钡玻璃,若纹饰为A或C且表面无风化,则有53%的可能是铅钡玻璃,47%的概率为高钾玻璃。第三分类标准为颜色,若纹饰为A或C且表面无风化且颜色为蓝绿,则类别为高钾玻璃。
3 结论
通过计算斯皮尔曼相关系数得出文物表面风化与文物类型有较强相关性,而纹饰对表面风化程度影响较小,有较弱相关性。使用决策树模型探究高钾玻璃与铅钡玻璃的分类规律,可得出划分玻璃类别标准的顺序,再根据每个标准中的概率判断玻璃种类。由于决策树模型需要训练的数据规模较小,降低了算法时间复杂度,生成的决策树规模更小,具有更少的叶子结点数,比其他机器学习模型更容易构建,可视性强。