三年内完成一万种古籍智能化整理 字节跳动携手北大共推古籍数字化平台建设
2022-04-27冯惠丽
冯惠丽
3月17日,字节跳动宣布向北大教育基金会提供捐赠,全面支持“北京大学—字节跳动数字人文开放实验室”的工作,研发古籍数字化平台,利用智能技术加速中华古籍资源的数字化建设,向全社会提供公益化服务。
据了解,该实验室将调动国内外的相关力量,在三年内完成一万种精选古籍的智能化整理工作。提供开放、体验良好的阅读服务和基本文本库,并借助知识图谱等技术帮助学者高效检索和利用古籍中的信息。
同时,项目也将推出结合 OCR、句读、实体识别和知识图谱等技术构建的一站式自动古籍智能化整理平台,并对社会大众免费开放,便于收藏机构、研究者、相關专业的师生和广大古籍爱好者自行完成古籍数字化工作,加快整个行业数字化古籍资料的效率。
据介绍,中国古籍一直面临数字化程度低、以文本形式进行数字化的古籍数量少、难以检索等问题。数据显示,我国现存古籍有20万种,据不完全统计,其中有数字化扫描影像的已经有8万种,而实现文本数字化的仅有3至4万种。这对于古籍内容检索和开展研究造成了不便。
“北京大学—字节跳动数字人文开放实验室”重视传承中华传统文化,希望将平台建设成为开放、共享、可对古籍进行充分检索利用的信息平台,以应对这些古籍保护与利用中的挑战。
“我们希望通过公益捐赠,支持北大的古籍数字化成果全面转化为社会服务。我们也希望与北大的跨学科团队在 OCR、自然语言处理、知识图谱等技术领域展开全面合作,充分利用人工智能技术加快古籍数字化整理、研究与利用,让更多的研究者、爱好者以更高效、便利的方式获取古籍里蕴藏的丰富知识。”字节跳动AILab 总监李航表示。
2021年6月17日,字节跳动联合中国文物保护基金会,在国家图书馆成立古籍保护专项基金,初期启动资金人民币1000万元,用于修复《永乐大典》“湖”字册等105册(件)珍贵古籍、培养100名修复人才等项目。据了解,这些修复的古籍也将逐步引入古籍数字化平台。
“我们将发挥字节跳动在互联网产品研发和设计上的优势,优化并创新古籍数字化平台的产品功能,为大家提供更好的古籍检索和阅读体验。”北京字节跳动企业社会责任部产品总经理唐垲鑫说,“后续我们还会尝试将古籍数字化平台的内容与今日头条、头条百科、抖音等产品相连接,让优质的古籍内容和传统文化知识可以触及到更多用户。”
字节跳动公益还发起“寻找古籍守护人计划”,邀请专家学者、文化名人、抖音创作者通过知识讲解、说书、绘画等形式传播古籍内容,普及古籍知识,传播古典文化。