APP下载

新技术赋能古籍数字化 20万页海外古籍落户“汉典重”

2021-05-30

藏书报 2021年20期
关键词:伯克利分校重光伯克利

5月18日,“汉典重光“海外古籍数字化回归发布会在位圭I岐的中国科技馆举行。_批珍藏于加州大学伯克利分校的中文古籍善本,以数字化方式回归故土,落户“汉典重光古籍”平台。借助阿里巴巴达摩院的技术,首批20万页古籍已完成数字化,并积累出3万多字的古籍字典,公众可通过汉典重光平台(https://wenyuan.aliyun.com)翻阅、检索、使用。

2019年,阿里巴巴公益基金会和四川大学提出“数字化回归”设想,四川大学历史文化学院王果副院长与该院教授、中央文史研究馆馆员陈力牵线搭桥,沟通北美、欧洲、日韩等地藏书机构,获瞧国加州大学伯克利分玆持,达成共识,将伯克利东亚图书馆的中女古籍善本逐步数字化。此后,阿里巴在达摩院创新技术方式,将流散海外的珍贵中文古籍数字化,让那些深锁高阁的典籍重新回到世人眼前,让所有人都可阅读、调用,通过古籍与彌魇对法,与优秀传统文化对话。

目前,阿里达摩院已完成对美国加州大学伯克利分校东亚图书馆提供的首批20籍的识别。加州大学伯克利分校是美国的汉学研究重镇,中文藏书量排名全美第三。首批数字化的20万页古籍中,包含40余种珍贵宋元刻本、写本,如宋刻本《后村居士集》、北宋写本《金粟山大藏经》写本;明清至民国时期著名学者钱谦益、翁方纲、王韬的抄本、稿本;著名藏书楼嘉业堂、密韵楼的抄本,还有命运多舛的清文澜阁《四库全书》零本等,很多都是消失多年后重回公众视线的珍本。

伯克利提供古籍的扫描图片和编目数据,达摩院将其全部文字化。古汉语常用字仅有几千但中国古籍全部字符约有几十万,绝大部分不仅没被现代字库收录,也几乎找不到样本供AI学习。面对海量无标注的数据,如何让AI快速识别古籍,始终是古籍数字化领域的技术瓶颈。

据技术人员介绍,达摩院技术团队与四川大学专家联手研发了一套全新的古籍识别系统。利用单字检测、无监督单字聚类、小样本学习、主动学习等机器学习方法,构造了一套边识别古籍、边训练模型的系统,以97.5%的准确率完成20万页古籍的整体识别。该系统已能批量识别百本古籍,并积累出3万多字的古籍字典。比起专家录入,这套人机交互的识别系统将效率提升了近30倍。随着古籍识别规模的扩增,机器还会自我进化,不断提升准确率和效率。

因邦交、贸易、战乱等,历史上中国古籍不时流向海外。近代以来,战争和动荡更加剧了古籍的损毁和流散。據不完全估计,散居海外的中国古籍超过40万部、400万册,包括甲骨简比、郭煤透书、宋元善本、明清精粱、拓本興图、少数民族文献等等。

“守护中华传世典籍。是科技工作者和文化工作者共同的使命。”阿里巴巴达摩擦洗长张建峰铺露,阿里计如图这套技术工具连同古籍数字化平台一井捐赠,交由权威公共机构长期运营。在加州大学伯克利分校东亚图书馆的长度欣平者来,虽过数字化,让流散海外的古籍善本和国内的读者见画,也是另外一种形式的“回家”。与古籍打了一辈子交通的陈力认为。典籍是中华文明的传承载体,更是人类世界的公共财产,希望有更多力量参与中国古籍的保护*传承,让更多普通人有机会授触古籍使用古籍.让所有蒙尘的古籍重焕新生。让书写在古籍里的文字活起来。

猜你喜欢

伯克利分校重光伯克利
和世界顶级名校做邻居,他们却说:离我们远点
伯克利酒店
想停车,先得个诺贝尔奖
我们的故事
想停车,请先得个诺贝尔奖吧
加州大学伯克利分校博士学位候选人制度分析及启示
缅怀民族英雄左宗棠
李重光:我闭上眼,就是中国的明天
“乐迹——2015星海·伯克利音乐周”综述
南风吹梦,礼乐重光