威尼斯的时光机
2016-11-04陈婧
陈婧
通过将历史进程的可视化,历史学家可以发现前人从未注意到的模式和彼此的联系,进而提出新的问题。
有没有可能通过计算机图像,制作出历史版的“谷歌地图”?洛桑联邦理工学院与威尼斯卡福斯卡里大学正在用计算机,还原出1000多年前欧洲商业枢纽城市——威尼斯的生活场景。
这种方式蕴含的信息量极为直观丰富。英语谚语说“一幅画面抵过1000个词”,而谷歌的一项研究曾表明,有时候一幅画面甚至可以抵过5000亿个词。如果把威尼斯漫长岁月中留存的数百万份档案以图像的方式还原,将提供一种新的探索及学习的方式,因为当代人想把这几百万本历史文献都读完,可能性几乎为零。
物理学家霍金预言:如果一艘太空船能以接近光速的速度在宇宙飞行,就可让船上乘客进入未来。可以建造起这艘飞船的并非只有物理学家——历史学家也运用起大型的数据集,建起了一台真正的时光机,回到过去。
80公里的文献
威尼斯卡福斯卡里大学发起这个项目的意义是去探讨:我们有没有可能做出一种“关于过去”的谷歌地图?能不能拥有一台多拉A梦的时光机?这台炫酷的时光机,可以把观众拉回到14世纪的威尼斯共和国。“1323年,谁住在这个宫殿里?”“在里亚托的一个集市里,1公斤的海鲷卖多少钱?” “穆拉诺岛的一个玻璃工人的工资是多少?”
想回答这些并不容易。虽然项目组手边有很多过去的资料,可以把所有这些资料数字化,然而年代越久远,我们获得的信息也越少。幸而威尼斯的管理模式非常“官僚主义”:威尼斯共和国的执政官们,几乎记录下这里发生的一切。在威尼斯的国家档案馆,你可以找到80公里长的档案资料, 它们记录下了过去1000多年中威尼斯人们生活的方方面面。从出生和死亡记录、纳税记录、建筑设计图、城市规划方案、去其他领土的旅游导览图、和平条约等等。这需要把这些海量的信息完整地串连起来,并重新找到分析的线索。
最早的档案可以追溯到公元9世纪,一位孀妇的遗嘱是把30篮子的橄榄留给她的继承人。一幅14世纪的水利灌溉图中,可以看到淡水与海水是如何被分开,从而避免了有害水生微生物在淡水中扩散。另一幅绘画作品描绘了17世纪威尼斯人与奥斯曼帝国在雅典作战,毁坏了帕台农神庙,通过强大的陆海力量步步蚕食这个航海巨人的版图。
还有威尼斯共和国的使节在国外书写的上千封函件,叙述了当时其他国家的政治、宗教情况。当时担任帕多瓦大学数学教师的伽利略的亲笔信,向当时的威尼斯议会议员申请经费,用于开发天文望远镜。以及由奥地利向法国割让威尼斯的《坎波福尔米奥条约》原件。这座城市发生的每一丁点儿变化,都被记录在那里。
这些80公里长的文献档案中,大概有100亿件事件。将这些信息,放回到它们原来的空间中,再用不同的方法将它图像化,就可以重建出一场威尼斯共和国的旅行,前后穿梭1000多年,令人惊叹。加上语义编码,这巨大的地理信息系统,最终可以被很多种方法搜索。
拥有这些资料还不够,要开发一台“时光机”,还需要对未知的事实进行推断。这个模拟的过程,可以看作是获得了威尼斯船长编写的某次航海日志,代表了那个年代很多类似航程的航海日志。
如果把它放到更大的欧洲背景下去观察研究,那么或许可以重新发现威尼斯如何一步步控制了亚得里亚海,如何变成了最强大的中世纪海上帝国,如何几乎控制了从东到南的所有海上航线。由此,也可以更深刻地理解这个东西方世界贸易的中转站。
时光机生产手册
尽管参与项目合作的研究人员达到了100多人,但如果把从9世纪到20世纪的海量文献全部转化成一个信息系统, 每天至少要把450本书数字化,而这仅仅是项目工作的起点。
项目组有着非常严密的工作流程。首先,把大量的文献转化为高清格式的数字图像。通过与行业尖端企业的合作,项目组使用的是每小时可以高精度扫描1000页的半自动化扫描机器人。 为了考虑古籍保护的需要,使用特定的粒子加速器产生的X光射线,这样机器人不需要翻动书页,即可完成扫描的过程。
接着是破译图像并转化为文字。科学家需要重新开发算法,把图像解构,这些碎片式的图像,与数据库中的其他图像进行比对后,能根据它的形状识别为可能的关联性文字,提高识别的几率。通过比对,还可以对数据库中上百万个同样形状的图像,同步完成识别工作。这些成功识别的词语,再通过文字处理器,组合成为完整的句子。值得一提的是,编程人员使用的算法受到生物技术的启发,采用的是蛋白质结构分析与功能预测的方法。
从图像转化为文字信息的难处还在于,这些档案很多是用拉丁语、托斯卡纳语、 威尼斯方言记录下的,转写它们时首先需要翻译, 然后将它们编入索引。传统的光学字符识别方法, 对于印刷本可以使用且非常有效, 但对于这些手写的档案似乎并不太行之有效。
项目组的破解方法是从语音识别入手,建立一个语言模型,加上一些限制条件,随后在数据库里填入组织条理清晰的档案文献,就可以让这些海量的档案划分为更细小的部分。由于每一个部分都和其他部分有近似的特征,那么就有实现破译的可能。
最后一步,让识别出的信息之间产生关联,这也是威尼斯档案馆珍藏文献的最大价值所在。研究组采用关键词进行组合,使得文献可搜索。而句子中的关键字,把海量图像重新归类后,如同一个社交网络或是一本族谱,交叉中就会产生新的研究线索。
云技术的应用,也是开发出这台时光机的关键要素。威尼斯的市井、政治、宗教图像,城市规划和设计,城市的发展脉络,这些海量的数据在云端建立了一个全新的数字环境。对历史研究人员来说,免去了到威尼斯文献档案馆堆积如山的资料室里苦苦发现线索的过程。
利用云技术,还进一步创造出了一个模拟系统,发现丢失的信息,或者做出一些相当精准的历史预测。地中海区域波谲云诡的历史,也渐渐透明与可琢磨。例如:如果在1323年6月出海,从科孚岛出海前往君士坦丁堡,可以在哪里找到船??需要多少钱?遇到海盗的几率有多大。
对于这种预测,最核心的考验在于,能否量化其中的不一致性。因为档案中到处都有错误,可能是船长的名字错了,或是某些船只从来没有出过海,翻译中也可能存在错误,因此在加上算法的过程中,在信息识别、信息提取中都存在错误的情况下,拥有的是非常不确定的信息资料。
项目组认为,纠正这些偏差,让时光机更加精准的方法,在于不仅仅翻译出历史的信息,而且需要翻译出元历史的信息,即历史是如何建构的,记录下每一步。例如,威尼斯最可靠的过去,不仅仅有一张地图,而存在着很多张地图。这个系统应当承认并接受这些事实,回应历史信息的不确定性。
数字人文主义
除了生产出一台可以穿越千年的时光机, 这个项目的研究成果有了更多崭新的外沿:威尼斯作为一个历史名城,每年数百万的游客前来观光,时光机可以帮助威尼斯建立一座崭新的博物馆。卡福斯卡里大学为这个项目专门成立了博士点,并开设了数门本科生与研究生课程,使用这项研究成果。
这个项目的发起人之一弗雷德里克·凯普兰(Frederic Kaplan)博士认为, 现在研究人类相关的人文学科,很像 30多年前在生命科学领域发生的一场革命性的变化。“我们看到很多项目, 它们在做的工作,远远超过任何一个单一的研究小组, 这对人文学者来说确实是非常新颖的, 因为他们通常适应在小团队里工作,或仅和一些研究者一起工作。 当你参观威尼斯国家档案馆的时候, 你会觉得,这远远超过了任何一个团队能做的事情。 应对这种模式的转换 ,我们应该培养出新的一代人, 他们便是‘数字人文主义者, 准备好迎接这种转变。”
而以美国斯坦福大学为代表的一些学校,已经准备好了。2014年8月,斯坦福大学正式推出了“计算机+人文学科”的人文教育。课程的使命在于培养学生的好奇心、同理心、内省力、联想力、口头和书面沟通能力,培养出分析能力与问题意识更为出色的新一代人文学者,进而重塑人文学科的研究。谷歌高级副总裁、畅销书作家拉斯洛·波克(Laszlo Bock)也认为,“在进行跨学科思考和探索时,人文学科的重要性便凸显出来,大多数有趣的发现都产生于两个学科的交集处。”
在历史研究方面,越来越多的学者借助数字技术对历史事件进行静态和动态的可视化展示。美国弗吉尼亚大学的“视觉”项目就是利用数字化手段,将大量数据转化为地图、图表、图片等,讲述重要的历史事件,供用户搜索和了解历史事件的发展。
内布拉斯加大学英语系教授马修·乔卡斯(Matthew Jockers)也曾利用文本数据挖掘技术,对1780~1900年出版的3592部著作进行了词频和主题分析,并在自己的新书《宏观分析:数字化方法和文学史》中表示,窥探出了简·奥斯丁、马克·吐温等著名作家的写作风格是受何人影响。斯坦福大学的“文本技术”项目,则通过研究东西方的手稿、文档、书籍、题词、票券、布告等文字实物的生产、传播、接收的过程,发挥了包括文本数据挖掘、数字信息长期保存等技术的全新应用价值。
值得一提的是,欧美学界正涌现一批将古籍数字化、文献数据库建设的数字人文领域的新项目。许多大学设立了自己的数字人文研究中心,如美国斯坦福人文实验室、英国伦敦国王学院人文计算研究中心等;一批数字人文研究机构,如国际数字人文组织联盟、数字人文学会也相继成立,数字技术与人文研究的结合成了学界时下讨论的热门话题。
“数字人文的发展,需要接受过人文学科训练的、拥有整体思维能力的人才,也需要专攻某一技术领域的专家。构建其这样的平衡并不容易。但是一旦做到了,我们便会拥有伟大的组织、伟大的社会。数字人文必将成为人文学科研究的主流之一。” 伦敦大学学院数字人文中心主任梅丽莎·特拉丝(Melissa M. Terras)表示。
不过,数字人文也提出了新的问题:人文研究是否也应该进入数据驱动的研究行列?加拿大作家史蒂芬·马尔什(Stephen Marche)在文章《文学不是数据:反对数字人文》中,认为“文学应该与数据截然对立,将文学当做数据,会失去文学本身丰富的意蕴。”
面对这样的批评,大多数数字人文主义者并不沉默:“数字人文并不会替代人文研究,它只是揭示研究问题,但不阐释研究问题。技术的真正价值,在于提供了数字化的研究环境,而不止步于检索-获得信息。它以人为中心,帮助人们实现自己的野心,让他们做真正想要做的事情。”