APP下载

基于数据库数据挖掘背景下的红山考古学文化和良渚考古学文化出土玉器的对比

2021-04-06肖鑫王恒亮

兰台内外 2021年5期
关键词:红山文化关联规则数据挖掘

肖鑫 王恒亮

摘 要:本文通过数据库数据挖掘的方法对红山考古学文化和良渚考古学文化的出土玉器进行了统计学的对比,应用关联规则建立了分析模型,并通过数据反映出的结果分别分析了良渚文化及红山文化的异同。

关键词:数据挖掘;关联规则;红山文化;良渚文化;玉器统计

红山文化和良渚文化以及凌家滩文化为中国出土玉器数量最多的三大新石器时代考古学文化,这其中凌家滩文化和良渚文化相对距离较近且都为长江流域的考古学文化而红山文化和良渚文化距离较远分别分布于中国的北方和南方地区。红山文化和良渚文化由于其独特的特性其对周围文化的影响力和辐射范围都达到了空前的规模,研究这二者文化出土玉器的统计学关系对于这二者间的比较研究将会对未来的考古发掘有所帮助。近年来虽有红山文化和良渚文化单一文化单元出土玉器的统计学分析,但是鲜有对两个完全不同文化类型出土玉器的科学统计比较,尤其以数据库数据挖掘形式的比较在国内尚属首次。数据库数据挖掘独特方式使得以往几个不同内容之间的数据表互相比较成为了可能,而类似于器物统计这类简单表结构的比较则是数据库系统最为擅长的。

基于数据库的数据挖掘,通常需要借助不同的数据挖掘算法规则,基于本文所涉及的数据范围,我们引入关联规则来建立我们的模型。关联规则是反映一个事物与其他事物之间的关联性。若两个或者多个事物之间存在着关联关系,那么其中的一个事物就能通过其他事物预测到。关联规则也是数据挖掘中最活跃的研究方法之一,广泛运用于购物篮数据、生物信息学、医疗诊断、网页挖掘和科学数据分析中。关联分析有三个最为重要的概念即支持度、可信度、及提升度。在数据结果中分别表述为Supp值、Conf值和Lift值。在本案例中我们仅使用支持度及可信度作为观察值。

关联算法的输出结果一般是如下格式:{A, B} -> {C, D, E} (conf: x, supp: y, lift: p, conv: q), 这个语句代表了在出现了物件A 和物件B 时,会出现物件C, D, E 的概率为x . 这里主要看重的指标有conf 和supp , conf在本案例中表示為 : 在出现了物件A 和物件B 时,出现物件C, D, E 的条件概率。也就是出现了物件A 和物件B 时,这时有多大可能性会出现物价C, D, E 。这里conf 值越大,说明规则{A, B} -> {C, D, E} 越可信; supp表示为: 在文件中同时出现物件A, B, C, D, E 的频次。这里是为了看发现的规则是否为偶然,举个例子,如果在文件中,物价A 只出现了一次,那么物价A 与任一物件X 同时出现,都可以得到规则{A} -> {X} 。这里由于A 出现的频次较少,那么规则{A} -> {X} 有可能是偶然发生的。这里supp 值越大,说明规则{A, B} -> {C, D, E} 越可信。

在考古报告中考古人员将出土的玉器进行了详细的编号和分类,通过纹饰学和器型学的基本理论考古人员把新石器时代出土的玉器在考古报告中大致分为了这么几种类型:玉琮、玉刀、玉钺、玉锥、玉璧、玉圆盘、玉纺轮、玉动物器、玉柱、玉珠、玉串、玉坠、玉璜、玉权杖等。这里我们先来看一下良渚遗址中出现明显捆绑使用玉器组合的数据情况(数据由已出版的考古发掘报告整理得出):

{三叉型玉器, 玉钺, 玉锥} -> {封底玉柱} (conf: 0.917, supp: 0.087, lift: 8.315, conv: 10.677)

{三叉型玉器, 玉钺, 玉锥} -> {玉冠} (conf: 1.000, supp: 0.094, lift: 5.522, conv: 818897637.795)

{三叉型玉器, 玉钺, 玉锥} -> {玉柱} (conf: 0.833, supp: 0.079, lift: 7.056, conv: 5.291)

{三叉型玉器, 玉钺, 玉锥} -> {玉琮} (conf: 0.917, supp: 0.087, lift: 8.955, conv: 10.772)

{三叉型玉器, 玉钺, 玉锥} -> {玉质杂物} (conf: 1.000, supp: 0.094, lift: 1.000, conv: 0.000)

从挖掘出的数据中我们可以看出捆绑组合三叉型玉器、玉钺及玉锥出现时有80%以上的概率会分别出现封底玉柱、玉冠、玉柱、玉琮及玉质杂物等玉器,而同时出现这些器物的频次则大于7%。在良渚遗址的统计数据中有一组最特别的器物组合即三叉型玉器、玉钺、玉锥及玉冠这一组。统计结果显示当出现三叉型玉器、玉钺、玉锥这三个类型的玉器的时候同时出现玉冠这类玉器的概率是必然事件(当一种概率达到百分之一百的时候我们称之为必然出现的概率或事件),而同时出现这四种器物的频次也接近百分之十。这一频次出现的概率相当之高也从一个侧面凸显出了这四件器物对良渚考古学文化的重要性。

相对于良渚文化的组合数据结果我们来看一下红山文化的特征捆绑组合的数据结果:

{勾云佩, 斜口器, 玉璧} -> {动物型玉器} (conf: 1.000, supp: 0.025, lift: 6.667, conv: 850000000.000)

{动物型玉器, 勾云佩, 玉璧} -> {斜口器} (conf: 1.000, supp: 0.025, lift: 2.857, conv: 650000000.000)

{动物型玉器, 勾云佩, 斜口器} -> {玉璧} (conf: 1.000, supp: 0.025, lift: 5.000, conv: 800000000.000)

{勾云佩, 玉璧} -> {动物型玉器, 斜口器} (conf: 1.000, supp: 0.025, lift: 10.000, conv: 900000000.000)

{动物型玉器, 勾云佩} -> {斜口器, 玉璧} (conf: 1.000, supp: 0.025, lift: 13.333, conv: 925000000.000)

{动物型玉器, 勾云佩, 珠串玉环等杂物} -> {斜口器} (conf: 1.000, supp: 0.025, lift: 2.857, conv: 650000000.000)

从红山文化挖掘的数据中我们可以看出出现捆绑组合勾云佩、斜口器、玉璧及动物型玉器时出现其他类型的玉器的概率均是必然事件,而同时出现这些器物的频次则在2.5%。红山文化的数据结果直接反映出一个规律即红山文化的重要器物类型直接存在一个互相依附的关系且这个依附关系可以延伸到两两捆绑组合使用的器物类型之中。这一点特性是良渚文化所不曾有的特性。通过以上两组数据的比较我们不难发现红山文化在出现捆绑组合之后再出现其他玉器类型的概率大于良渚文化,但是在同时出现若干玉器类型的频次概率中又远低于良渚文化。

那么良渚遗址的其他三种玉器类型的显著组合也和上面列出的组合有相似性吗,我们来看下面列出的这组良渚数据:

{玉柱, 玉琮} -> {封底玉柱} (conf: 1.000, supp: 0.079, lift: 9.071, conv: 889763779.528)

{封底玉柱, 玉琮} -> {玉柱} (conf: 0.833, supp: 0.079, lift: 7.056, conv: 5.291)

{封底玉柱, 玉柱, 玉琮} -> {玉冠} (conf: 1.000, supp: 0.079, lift: 5.522, conv: 818897637.795)

{封底玉柱, 玉柱, 玉琮} -> {玉质杂物} (conf: 1.000, supp: 0.079, lift: 1.000, conv: 0.000)

{封底玉柱, 玉柱, 玉琮} -> {玉钺} (conf: 0.900, supp: 0.071, lift: 9.525, conv: 9.055)

{封底玉柱, 玉柱, 玉琮} -> {玉锥} (conf: 1.000, supp: 0.079, lift: 6.048, conv: 834645669.291)

通过观察我们发现良渚遗址的这组数据保持了和它另外的三元素组合高度的一致性即出现三组合时出现另外玉器类型的概率整体大于80%,所有类型全出现的频次概率大于7%。

那么良渚遗址和红山遗址的两种玉器类型的典型捆绑组合的情况又是如何,他们是否会和三种玉器类型的典型组合统计分布规律保持一致呢,让我们来看下面的这两组数据:

{玉圆牌, 玉璜} -> {玉冠} (conf: 1.000, supp: 0.047, lift: 5.522, conv: 818897637.795)

{玉圓牌, 玉璜} -> {玉质杂物} (conf: 1.000, supp: 0.047, lift: 1.000, conv: 0.000)

{玉圆牌, 玉璜} -> {玉锥} (conf: 1.000, supp: 0.047, lift: 6.048, conv: 834645669.291)

{玉圆牌, 玉璜} -> {玉冠, 玉质杂物, 玉锥} (conf: 1.000, supp: 0.047, lift: 6.048, conv: 834645669.291)

这组数据反映的是良渚遗址中两个玉器类型的典型捆绑数据,从数据中我们可以看到当出现两个器物时出现第三个类型的器物的概率为必然事件,而同时出现这些器物的频次概率相较于三元素的捆绑降低到了4.7%。红山文化二元捆绑的数据分布就相对比较奇特了:

{玉钺, 绿松石} -> {珠串玉环等杂物} (conf: 1.000, supp: 0.025, lift: 1.250, conv: 200000000.000)

{动物, 勾云佩} -> {斜口器} (conf: 1.000, supp: 0.025, lift: 2.857, conv: 650000000.000)

{勾云佩, 玉璧} -> {动物} (conf: 1.000, supp: 0.025, lift: 6.667, conv: 850000000.000)

{动物, 勾云佩} -> {玉璧} (conf: 1.000, supp: 0.025, lift: 5.000, conv: 800000000.000)

{动物, 勾云佩} -> {珠串玉环等杂物} (conf: 1.000, supp: 0.025, lift: 1.250, conv: 200000000.000)

{勾云佩, 玉璧} -> {斜口器} (conf: 1.000, supp: 0.025, lift: 2.857, conv: 650000000.000)

从数据中我们可以看出红山文化二元捆绑的器物中出现第三个类型的器物的概率为必然事件,而同时出现这些器物的频次概率为2.5%。和红山文化的三元素捆绑器物的统计分布规律完全一致。也就是说红山文化的器物两两出现和出现两个的同时出现第三个器物的统计分布规律没有太大的差别,这反映出红山文化各个部落(如果存在诸多部落的情况下)或者各个层级之间的固化非常稳固,没有在部落内部形成扁平式的管理分化。

通过以上的数据分析我们可以把红山考古学文化和良渚遗址考古学文化二元及三元捆绑关系的对比做一个表格清晰的显示如下:

红山及良渚考古学文化玉器数据库分析结果定性对比

考古学文化 二元捆绑模式 三元捆绑模式 总体状况

红山文化 出现两个器物的同时出现第三个器物的概率高(接近必然事件),但同时出现三个器物的概率很低(均值低于3%) 出现三个器物的同时出现第四个器物的概率高但同时出现四个器物的概率很低 二对一、三对一或二对二出现的概率高但同时出现的概率很低

良渚文化 出现两个器物的同时出现第三个器物的概率高(均值高于80%),但同时出现三个器物的概率较低(均值低于8%) 出现三个器物的同时出现第四个器物的概率高但同时出现四个器物的概率较低 二对一、三对一或二对二出现的概率高但同時出现的概率较低

讨论

文中所给出的数据反映了部分统计分布的规律,但是应该注意到的是当置信区间提升之后有一些类型的捆绑特征可能就会显的不明显,且同时出现的频次概率也会降的很低,故而不在我们的讨论范围之内。

综合以上所有数据反映的情况来看,我们可以发现良渚文化的玉器透露出了一个明显的和红山文化玉器的数据区别:良渚文化多元玉器器型的分布具有差异性,特别是二元捆绑类型以上的玉器不会特定的出现在固定的区域内(这里的区域指的是统计分布里的区域,并非考古现场)。良渚玉器的所有类型同时出现的频数概率总高于红山玉器,且当捆绑类型大于两种时良渚玉器的全部出场频数远高于红山文化玉器。通过观察数据我们可以发现良渚文化的玉器有一个扁平化分布的特性即现有挖掘的墓葬中的各个部落领导人或者重要人物之间所拥有的玉器类型相对比较分散,没有出现特定个体垄断玉器类型的情况发生,而红山文化多个组合必然事件的发生透露出来红山文化个别个体高度控制及垄断玉器类型的特性,换言之某一些部落领导人或重要人物所拥有的玉器数量极少且种类极少也相对的固定。

如果我们将良渚和红山考古学文化的分布范围和其在全国新石器时代所处的地位结合起来来看,可以观察到红山文化更具有侵略性,分布的范围更广,而良渚文化则相对没有进攻性。从数据中反映出来的固化的层级制度充分发挥了制度的优越性,使得红山部落在自己所处的历史时期略占优势,但后续红山文化的衰败可以说是诸多因素综合作用的结果,单从器物统计学角度无法给出太多合理的解释。

通过对比两个文化的玉器数据我们似乎可以发现红山文化玉器所反映出来的中央集权制或者类似于中央集权制的政治体制开始萌芽,重要玉器类型掌握在少数部落首领之中且部落管理层核心层人数不多,部落首领的分工不明确,部分首领身兼数职的情形较多;而相反地良渚遗址似乎反映了早期联邦制或者类似于松散的邦国概念萌芽,重要的玉器门类五花八门,部落管理层分工明确组织及其复杂化且部落中中层和基层管理层人数占比不低于高层。

诚然,文中涉及到的数据统计集仅仅是基于各省考古所已公开发表的考古报告整理而成的,红山考古学文化和良渚考古学文化的考古发掘还远远没有结束,随着这些遗址在申请世界物质文化遗产之后,考古发掘的区域越来越广大,可收集到的数据集数据越来越丰富可能会对现在得出的分析结论有所改变。

参考文献:

[1]毛国君.数据挖掘技术与关联规则挖掘算法研究[D].北京工业大学,2003

[2]迟海成.数据挖掘中关联规则算法的研究与实现[D],2019

[3]杨秀港.数据挖掘算法综述[J].科技经济导刊,2019

[4]辽宁省文物考古研究所.牛河梁——红山文化遗址发掘报告(1983-2003年度)[J].文物,2013

[5]浙江省文物考古研究所.庙前(良渚遗址群考古报告之四)(精)[M].文物出版社,2005

[6]浙江省文物考古研究所.瑶山(良渚遗址群考古报告之一)(精)[M].文物出版社,2003

[7]浙江省文物考古研究所.反山(良渚遗址群考古报告之二)(上下)(精)[M]. 文物出版社,2005

[8]叶舒宪.良渚文化葬玉制度“钺不单行”说——四重证据法求解华夏文化基因[J].民族艺术,2020

[9]何 驽.良渚文化原始民主制度崩溃原因蠡测[J].中原文化研究,2020

[10]王绵厚.辽河文明与“红山古国”和“燕亳方国”的文化反思——浅论辽河文明在中华早期文明形成中的历史地位[J].渤海大学学报(哲学社会科学版),2021

(作者单位:1.上海宽带技术及应用工程研究中心

2.北京大学数学科学学院)

猜你喜欢

红山文化关联规则数据挖掘
数据挖掘综述
软件工程领域中的异常数据挖掘算法
红山文化英译立项研究现状
红山文化旅游资源开发的思考
红山文化两大人物造像系统功能分析
赤峰在华夏文明史上的地位
关联规则挖掘Apriori算法的一种改进
基于关联规则的计算机入侵检测方法
基于R的医学大数据挖掘系统研究
一本面向中高级读者的数据挖掘好书