AI也“读”甲骨文

2023-10-15武智融莫伯峰

知识就是力量 2023年10期

关键词：拓本甲骨供图

武智融莫伯峰

甲骨文，亦称“契文”“龟甲文字”“殷墟文字”，为中国商周时期刻在龟甲兽骨上的文字。甲骨文是研究商周社会历史的重要资料，而现在，人工智能AI也能为甲骨文研究工作提供助力，用科技之手拨开几千年前的迷雾。

“校（jiào）重（chóng）助手”为何诞生？

甲骨文是已知年代最早的、成熟的汉字系统，对中国乃至世界的文化历史研究都具有重要意义。现已出土的甲骨约16万件，甲骨文的研究工作则主要利用甲骨“拓本”。

甲骨（左），甲骨拓本（右）（《中国社会科学院历史研究所藏甲骨集》）（供图/莫伯峰）

甲骨会在不同藏地间流转，因此同一片甲骨会流传下来多个拓本，这些重复的拓本被称为“重片”。重片使得拓本总数远大于甲骨总数，于是便需要通过“校重”把重片都找出来。这项工作虽然基础，但非常重要——使用了不清楚、不完整的拓本，结论就会不可靠。

校重需要将拓本进行两两对比，工作量庞大。而且由于甲骨破碎、墨拓方式有差异等原因，重片间的样貌差异有时很大，这更加大了校重工作的难度。编撰《甲骨文合集》（由著名历史学家郭沫若主编，是中国现代甲骨学方面的集成性资料汇编），前后耗时20余年，其中校重工作就花费了很长时间，却也难保没有遗漏。

甲骨拓本重復示例。4组拓本来源于同一片甲骨，然而有着不同的编号（供图/武智融）

如今，随着人工智能的蓬勃发展，整理甲骨文的利器——“校重助手”应运而生！

自监督学习：

让人工智能辨别甲骨文

校重助手与甲骨文专家所用的校重方式不同——专家需要对甲骨上的文字进行辨认，而校重助手则不需要。那么，它究竟是如何工作的呢？

训练一个可完成校重工作的人工智能，其核心任务是设计一个模型，这个模型可以判断两张拓本是否出自同一块甲骨。如何实现这种功能呢？跟人一样，要靠学习。

通过改变一张图片的清晰度、对比度等，我们可以模拟不同拓本的表现差异，从而制造大量免费数据和标签（供图/武智融）

过去在训练人工智能时，通常采用有监督学习，即由专家标记各类重片作为学习资料。但在本项任务中，专家难以标记所有类型的重片，有监督学习难以发挥效果。这时就要靠自监督学习了。

自监督学习也称无监督学习，其思维核心是让人工智能自动从数据中制造标签。例如，可以自动将图像中不同子区域的空间位置关系定义为一种标签，或是自动将图像的色彩饱和度定义为一种标签等。

用人工智能“找不同”

设计出自动制造标签的方法对校重助手同样适用。重片之间存在样貌差异的主要原因，是拓印范围、拓印方式不同，以及甲骨破碎、甲骨磨损等。了解了这个原因，便可以对这些表现进行模拟，用一张拓本生成各种表现略有不同的“人造重片”。通过改变一张拓本的清晰度、对比度、旋转角度，或给其引入图像噪声等，我们就可以得到无穷无尽的重片标签。这就解决了校重助手学习资料不足的问题。

校重助手在工作时会遍历图像的所有局部区域，这样就可以在两张拓本之间得到密集的点与点的对应关系。如果两张拓本互为重片，这种点与点的对应关系就是规律且一致的。通过一致的对应关系，还可以进而求解两张拓本之间的几何变换关系，从而将其重叠在一起。这种点与点的对比图和重叠图易于专家解读，能大幅提升人机合作的效率。

运行一段时间后，校重助手已经取得了一批新的校重成果，为一些模糊的拓本找到了清晰的替代拓本，甚至还用几张互补的重片复原了最完整的甲骨图像。这些成果使我们相信，人工智能在甲骨文这样的冷门绝学里也有着广阔的应用前景。