APP下载

人工智能,“展开”维苏威古卷轴

2024-05-29荣智慧

南风窗 2024年11期
关键词:展开莎草弗里德曼

荣智慧

第欧根尼错了。

柏拉图没有死在婚宴上,而是死于卧榻,旁边一位色雷斯女奴正演奏长笛。即使生命垂危,80岁的柏拉图也能敏锐地指出演奏者的错误。

公元79年,维苏威火山爆发,灰烬吞没意大利庞贝、赫库兰尼姆和斯塔比亚。1900多年后,上百卷碳化的纸莎草卷轴正逐一经受人工智能破译。柏拉图之死是4月30日最新揭开的谜底。

站在科技的悬崖前,凝视时间深处,“维苏威挑战”凝结起计算机科学家、古文字学家、哲学家和投资人的智慧,向世人展示古代世界不为人知的灿烂文化。

人工智能不是人类生存和职业的威胁,只是解放人类的工具:它所能挖掘的历史,呈现的不仅仅是人类文明的未来。

紫 色

2023年8月下旬,一个普通的星期六晚上,21岁的卢克·法里托离开了朋友聚会,开车回宿舍。他是内布拉斯加大学林肯分校计算机科学专业的本科生。

上车前,一条讯息从手机上弹了出来,差点让他摔个大跟头。半年来,法里托一直研究用X射线扫描古代纸莎草卷轴,一周超过40个小时。聚会时,他也没忘了远程登录电脑,用人工智能模型检测一截新片段。

手机屏上有三个希腊字母—π、ο、ρ。近两千年来,法里托是第一个阅读它们的人。

此刻,他距离“维苏威挑战”赛首奖只有一步之遥。首奖规定,以待研究的纸莎草卷轴为蓝本,第一个在4平方厘米的区域内找到10个清晰字母的人,赢4万美元。

改进搜索模型后,法里托很快击中了一个古希腊词:“πορφ?ραc”,意思为“紫色”。没多久,柏林自由大学生物机器人专业研究生优素福·纳德,也找到了这个词。作为第二名,他拿到1万美元奖金。

古罗马博物学家老普林尼在《自然史》中介绍,紫色染料只能从贝类中提取。

这个秘密是希腊神话中“大力神”赫拉克勒斯发现的。海边闲逛时,他的狗咬碎了一枚骨螺,溅出一摊紫色。赫拉克勒斯从此身着紫袍,还将此法秘传给了腓尼基的提洛斯人。靠10000个骨螺才能制出1克的珍贵“泰里安紫”染料,腓尼基人建立了庞大的商业帝国。

《马可福音》提到,耶稣遭罗马士兵鞭打,被迫身着罗马皇帝才能穿的紫色长袍。士兵们朝他吐口水,嘲笑他,“向你致意了,犹太王”,然后将他钉在十字架上。

尘封两千年的古卷轴的篇章,就从一个不可思议的“紫色”开始了。

卷 轴

公元79年,维苏威火山爆发,意大利西南部的小镇赫库兰尼姆,很快淹没在20米厚的热泥之下。和庞贝不同,面向那不勒斯湾的赫库兰尼姆被埋得更深,建筑、家具和食品保存得更好。

赫库兰尼姆比庞贝富裕,很多房屋都带彩色大理石外墙。郊外坐落着罗马时代最豪华的别墅,据信由凯撒大帝的岳父卢修斯·卡尔普尼乌斯·皮索·凯索尼努斯拥有。

差不多1700年后,当地农民挖井时意外发现了别墅的残垣断壁。寻找宝藏的同时,农民还刨出一大堆看起来像煤块的东西。

这些黑乎乎的“煤块”就是卷轴—也称纸莎草卷轴。纸莎草广泛分布在尼罗河三角洲地带,古埃及人用它造纸。凯索尼努斯的别墅里有一座图书馆,内藏1000多卷纸莎草卷轴。

2023年初,西尔斯的学生斯蒂芬·帕森斯证实,机器学习模型可以进一步辨别纸莎草上的细微痕迹。

火山喷发时产生的高温、低氧令卷轴碳化。事也凑巧—别墅距离火山的位置“不远不近”,温度也“不冷不热”,导致所有的东西都被“碳化”,而不是被点燃。碳化之后,泥石流奔涌而来,将整个别墅与细菌、空气隔绝开来。

这是有史以来唯一一个完整幸存下来的古代图书馆,其中包含很多早已散佚的经典。像伊壁鸠鲁的《论自然》,菲洛德穆的《论善恶》,以及斯多葛派哲学家克律西波斯700部作品里的三分之一,都还在。

多年来,人们一直想打开这些卷轴,很多努力都白费了。因为它们就像炸得太焦的春卷,一碰就碎。

1756年,梵蒂冈手稿策展人安东尼奥·比亚乔发明了一种机器,一次可以拆开几毫米。他花了四年时间才展开第一个卷轴,还令人痛心地弄破了不少。

1802年,那不勒斯国王斐迪南四世向拿破仑·波拿巴赠送了六幅卷轴,后来由巴黎法兰西学院保管。有传言说,斐迪南四世还给了当时英国摄政王、后来的国王乔治四世18个卷轴,换来18只袋鼠。这些来自澳大利亚的稀罕物就养在那不勒斯某别墅的花园里。

在任何时代,卷轴都是无上至宝。如果能阅读它们,就更好了。

学者们保守估計,未开封的卷轴中,至少有30多种人们从来没见过的历史著作,涵盖从希腊到罗马、从西方到东方的作者及学派。

拆 封

2002年,肯塔基大学计算机科学教授布伦特·西尔斯正访问伦敦大英图书馆。当时他和一位同事要制作公元8世纪叙事长诗《贝奥武甫》手稿的数字版本。

图书馆保管员拿出一份手稿给他看,彼此都十分惋惜。手稿损坏得太严重了,根本无法打开。

西尔斯发明了“虚拟拆封”三步法,在不打开卷轴的情况下阅读内容。

首先,使用X射线进行3D扫描,该技术与CT扫描的技术相同。其次,分析扫描结果,找到弯曲的单层,同时将单层压平。最后,在已经2D化的平面层中,寻找书写留下的墨迹。

2006年,西尔斯旗开得胜—“打开”了一本希伯来语传道书。

2015年,他和团队成功阅读了碳化的“隐基底卷轴”。隐基底位于死海西岸,大卫曾逃到此处躲避扫罗的追杀。隐基底卷轴距今1700年至1800年左右,其中包含利未记的文本。利未记是犹太律法书,旧约圣经的一部分。

隐基底卷轴的墨水含铅。但赫库兰尼姆纸莎草卷轴上的墨水是烟灰做的,也就是说墨迹和纸张都是碳基的,极难分辨。

为了大幅度提高分辨率,西尔斯和团队求助于牛津的粒子加速器—精度高达4—8微米(1微米是1米的一百万分之一)。

2023年初,西尔斯的学生斯蒂芬·帕森斯证实,机器学习模型可以进一步辨别纸莎草上的细微痕迹。

比 赛

2020年初,科技投资人、GitHub的CEO纳特·弗里德曼,因Covid-19大流行而禁足在家,熬夜读完了《古罗马的24小时》。

这本书是八年级读物,但弗里德曼完全“陷进去了”,把维基百科的罗马词条倒背如流。他甚至开始“Cosplay”古罗马人的生活:网购了2000年前就有的传统小麦,烤出了庞贝古面包。

疯狂检索时,弗里德曼偶然“跳进”赫库兰尼姆纸莎草的维基百科页面,发现了西尔斯的艰苦努力。

2022年,弗里德曼邀请西尔斯到访。在加利福尼亚州索诺马县,每年都有75人参加他的豪华露营活动。弗里德曼说服西尔斯当众演讲,为考古项目拉点赞助。

没人感兴趣,弗里德曼决心自己干—靠开源社区的办法,举办“维苏威挑战”赛。启动资金来自弗里德曼和朋友格罗斯,每人捐赠12.5万美元。接着,弗里德曼办了一场“推特马拉松”,筹到140万美元。

大奖发给第一个阅读出卷轴中至少4段连续且合理文本的人,每段至少140个字符。奖金70万美元。

2023年3月15日,“维苏威挑战”赛正式启动。

西尔斯告诉弗里德曼:“我已经为此工作了很长时间。最终我会解开它的,但不知道要花多长时间。可能需要很长很长的时间吧。”弗里德曼安慰他,乐趣常在,毕竟“咱们就想读卷轴”—这成了他们的口头禅。

一个星期后,在SpaceX当实习生的卢克·法里托,正待在得克萨斯州南部的博卡奇卡发射场,有一搭没一搭地听播客。听到弗里德曼解释“维苏威挑战”时,他想,“天哪,我必须试一试”。

2023年6月,法里托找到了寻觅墨迹的门径,训练出一个机器学习模型。8月,他读出了三个希腊字母。10月,他识别出10个清晰字符,赢得“维苏威挑战”第一项大奖“单词挑战”。

冠 军

2024年2月5日,“维苏威挑战”官方网站颁布2023大奖。

拆封凯索尼努斯的纸莎草卷轴,难点不在于“破译文字”,而在于将层层碳化、难以剥落的纸张展开,这全赖技术的突破。

2023大奖的目标,就是弗里德曼和西尔斯最初设置的目标:识别4个段落,每个段落140个字符,至少有85%的字符可以确证。最终,70万美元奖金颁发给三人团队,以表彰他们的出色探索,三位冠军是:优素福·纳德,卢克·法里托,朱利安·席利格。

法里托和纳德就是“单词挑战”的第一名和第二名,席利格是苏黎世联邦理工学院机器人专业的学生,擅长分割图形图层。三人组队,一举识别出2000多个字符。

冠军队提交的内容,包含了三个不同模型架构分析的结果,同时,每个模型架构都支持其他模型的成果。效果最好的,来自TimeSformer模型。他们设计了好几种措施,防止过度拟合和识别幻觉。其代码已经在GitHub上公布。

席利格的自动分割方法,是比赛启动以来最强大的图像分辨技术,不仅能验证此前的墨迹,还能展示卷轴最外层的墨迹。

总结冠军队的“经验”,大概有三点。

首先,拆封凯索尼努斯的纸莎草卷轴,难点不在于“破译文字”,而在于将层层碳化、难以剥落的纸张展开,这全赖技术的突破。

利用粒子加速器,研究者进行高分辨率的X光三维断层扫描,取得卷轴内部高清数据。卷轴就像是一块长10厘米多一点的春卷,要被“切”成1万多张薄片,再把这些薄片拼成3D数据。这一步就已经昂贵且艰难,据项目方估算,如果将800个卷轴全部扫描完,约花费3千万美元。

其次,拿到数据后,难点是解读数据。研究者要把黏在一起的三维粒子信号重新分层,还原成展开的平面。就像切掉春卷的一片,选中面皮部分,识别它在Z轴的走向,把该曲面一层层剥离出来,再把剥离完展开的平面,串成连续的平面。

“春卷”的面皮在高温中高度粘连,极难区分。目前网站上展示的15个平展段落,由专人程序、手动标注完成,只占卷轴的5%。

最后,识别墨迹。上文提到,这些纸莎草卷轴上的墨水由烟灰制成,在X光下,纸张和墨迹的信号对比度几近于无。人工智能大展身手,这正是其最擅长的地方—人眼看不到细微差别,通过神经网络来训练AI识别。

AI识别不是光学识别,而是小窗口、一个像素点一个像素点来判断墨迹有无,最终产出一个二元图像,再人工读取有墨水的部分所组成的“图案”,从根本上避免AI生编硬造。

反过来说,这些AI识别出来的文本,也狠狠打了“希腊伪史论”者的脸。代码是开源的,技术是公开的,参赛者彼此竞争,彼此交叉验证,这里没有任何阴谋论的空间。

快 乐

拆封的第一卷,5%内容已经展现。杰出的古文字学家、纸莎草专家和哲学家告诉我们,文本的主题是“快乐”。

如何正确理解快乐,是伊壁鸠鲁哲学中最高的善。在这两段连续的文本中,作者关注的是食物等商品的供应是否能提供快乐,以及如何影响人们的感受。

“数量少的东西会比数量多的东西带来更多的乐趣吗?”

作者认为:“就像食物一样,我们不会立即相信,稀缺的东西一定比丰富的食物更令人快乐。然而,没有丰沛回报的事情,我们会自然而然去做吗?”

有人猜测,这是菲洛德穆写的。他是凯索尼努斯的别墅的常驻哲学家,希腊化时代晚期的伊壁鸠鲁主义者,曾在这所图书馆工作。像其他伊壁鸠鲁主义者一样,他把快乐看得高于一切。

当然,快乐不代表放纵。虽然他们的批评者都这么看。

这些AI识别出来的文本,也狠狠打了“希腊伪史论”者的脸。代码是开源的,技术是公开的,参赛者彼此竞争,彼此交叉验证,这里没有任何阴谋论的空间。

公元前300多年,伊壁鸠鲁延续了阿瑞斯提普斯(蘇格拉底的学生之一)的论点,认为最大的善是驱逐恐惧、追求快乐,达到一种宁静且自由的状态,并通过知识免除生理的痛苦,降低欲望。他的弟子都有同样的基本认识—哲学必须贡献给宁静与和平。

与其说这是一篇哲学论文,毋宁说是一段“博客随笔”,穿过2000年的烟尘,我们似乎和作者一起思考,如何享受生活,如何感受快乐。即使作者很有可能在后续的文章里十分“学术”—大战斯多葛学派,因为后者“对快乐无话可说”。

在“快乐”问题上针锋相对的伊壁鸠鲁学派和斯多葛学派,讨论的问题在今天依然具有重要意义:生活的乐趣是什么,什么样的生活才值得过?

想到这一伦理问题是蝉联全球新闻头条好几年的人工智能“抢救”出来的,更有一种奇妙的“快乐”。

是热爱和乐趣,把计算机科学家、古文字学家、哲学家和投资人凝聚在一起,共享一点一滴的发现和技术进步,为后来者扫清障碍。哪怕资金不太够,时间也很紧张。

是热爱和乐趣,让今天的人们对古文明充满了期待,新的亚里士多德的对话、李维的罗马史、荷马的史诗,萨福的只言片语,都有可能从这堆灰烬中闪耀现身,刷新经典的规模和深度。

“维苏威挑战”是21世纪20年代最大的乌托邦—对,不是ChatGPT,不是神经网络,也不是可控核聚变这些技术本身。

在一个共同的目标上,人类的智慧凝结在一起,利用最先进的科学技术,与遥远的文明产生灵魂的连接。这是单纯的技术进步无法带来的意义。

猜你喜欢

展开莎草弗里德曼
Keep tradition alive
纸莎草纸:尼罗河畔的古老技艺
古埃及比中国更早发明造纸术?
戴维·弗里德曼 美大使发表偏以色列言论遭谴责
弗里德曼眼里的“免费”
只要我们在一起
段落巧安排?说理更精彩
圆锥计算题,“展开”来思考
有一种美丽叫善良
莎草