AI也“读”甲骨文
2023-10-15武智融莫伯峰
武智融 莫伯峰
甲骨文,亦称“契文”“龟甲文字”“殷墟文字”,为中国商周时期刻在龟甲兽骨上的文字。甲骨文是研究商周社会历史的重要资料,而现在,人工智能AI也能为甲骨文研究工作提供助力,用科技之手拨开几千年前的迷雾。
“校(jiào)重(chóng)助手”为何诞生?
甲骨文是已知年代最早的、成熟的汉字系统,对中国乃至世界的文化历史研究都具有重要意义。现已出土的甲骨约16万件,甲骨文的研究工作则主要利用甲骨“拓本”。
甲骨(左),甲骨拓本(右)(《中国社会科学院历史研究所藏甲骨集》)(供图/莫伯峰)
甲骨会在不同藏地间流转,因此同一片甲骨会流传下来多个拓本,这些重复的拓本被称为“重片”。重片使得拓本总数远大于甲骨总数,于是便需要通过“校重”把重片都找出来。这项工作虽然基础,但非常重要——使用了不清楚、不完整的拓本,结论就会不可靠。
校重需要将拓本进行两两对比,工作量庞大。而且由于甲骨破碎、墨拓方式有差异等原因,重片间的样貌差异有时很大,这更加大了校重工作的难度。编撰《甲骨文合集》(由著名历史学家郭沫若主编,是中国现代甲骨学方面的集成性资料汇编),前后耗时20余年,其中校重工作就花费了很长时间,却也难保没有遗漏。
甲骨拓本重復示例。4组拓本来源于同一片甲骨,然而有着不同的编号(供图/武智融)
如今,随着人工智能的蓬勃发展,整理甲骨文的利器——“校重助手”应运而生!
自监督学习:
让人工智能辨别甲骨文
校重助手与甲骨文专家所用的校重方式不同——专家需要对甲骨上的文字进行辨认,而校重助手则不需要。那么,它究竟是如何工作的呢?
训练一个可完成校重工作的人工智能,其核心任务是设计一个模型,这个模型可以判断两张拓本是否出自同一块甲骨。如何实现这种功能呢?跟人一样,要靠学习。
通过改变一张图片的清晰度、对比度等,我们可以模拟不同拓本的表现差异,从而制造大量免费数据和标签(供图/武智融)
过去在训练人工智能时,通常采用有监督学习,即由专家标记各类重片作为学习资料。但在本项任务中,专家难以标记所有类型的重片,有监督学习难以发挥效果。这时就要靠自监督学习了。
自监督学习也称无监督学习,其思维核心是让人工智能自动从数据中制造标签。例如,可以自动将图像中不同子区域的空间位置关系定义为一种标签,或是自动将图像的色彩饱和度定义为一种标签等。
用人工智能“找不同”
设计出自动制造标签的方法对校重助手同样适用。重片之间存在样貌差异的主要原因,是拓印范围、拓印方式不同,以及甲骨破碎、甲骨磨损等。了解了这个原因,便可以对这些表现进行模拟,用一张拓本生成各种表现略有不同的“人造重片”。通过改变一张拓本的清晰度、对比度、旋转角度,或给其引入图像噪声等,我们就可以得到无穷无尽的重片标签。这就解决了校重助手学习资料不足的问题。
校重助手在工作时会遍历图像的所有局部区域,这样就可以在两张拓本之间得到密集的点与点的对应关系。如果两张拓本互为重片,这种点与点的对应关系就是规律且一致的。通过一致的对应关系,还可以进而求解两张拓本之间的几何变换关系,从而将其重叠在一起。这种点与点的对比图和重叠图易于专家解读,能大幅提升人机合作的效率。
运行一段时间后,校重助手已经取得了一批新的校重成果,为一些模糊的拓本找到了清晰的替代拓本,甚至还用几张互补的重片复原了最完整的甲骨图像。这些成果使我们相信,人工智能在甲骨文这样的冷门绝学里也有着广阔的应用前景。
对比图(左),叠加图(右)。校重助手的预测结果可以大幅提升校重速度(《甲骨文合集》)(供图/武智融)
(责任编辑 / 牛一名 美术编辑 / 周游)