智能信息环境给古籍保护带来了什么?
2022-05-30王雪霞刘晓立
王雪霞 刘晓立
智能信息环境为古籍工作带来多方面利好
北京大学数字人文研究中心主任、中国古籍保护协会古籍智能开发与利用专业委员会主任委员王军是此次研讨会筹办人。他在3月12日“古籍智能”系列研讨会第一讲中率先谈道,智能信息环境将为古籍保护带来六大利好:一是深化古典文献学研究,加快古籍整理出版;二是便于古籍文献的知识抽取和信息集成;三是加速学科跨界融合,利于高校复合型人才培养;四是利于古籍阅读文化推广,提升民众人文素养;五是有助于构建人类命运共同体,利用中华古籍智慧促进世界和平;六是促进政府、企业、古籍爱好者等多方协作,促成各方面、各领域的共享、开发与合作。
北京大学中文系教授杨海峥认为,古籍整理和古籍文献的研究与教学在智能信息环境下正面临着一场深刻而广泛的变革,凝聚多方社会力量推动古籍数字化、智能化平台的建设以及相关标准规范的形成,促进古籍资源在智能信息环境下的深度开发、利用与传播是古典文献学在智能时代进一步发展的需要。
智能时代古典文献学的机遇和挑战
中国在5000多年历史长河中,创造了灿烂辉煌的华夏文明,留下了众多珍贵的文化遗产。古代典籍是这些文化遗产最直接与最重要的载体形式,也是先贤们留下的宝贵精神财富和历史见证。古籍文献属于文化资源,具有不可再生的属性,必须在妥善保护基础上加以利用。古籍文献数字化为实现这一目标提供了可能。
古籍智能化是当今信息技术时代人文学科新的学术增长点,亟需来自不同学科领域、拥有多元文化和研究背景的专家学者展开跨学科、跨地域乃至跨国別的协同研究。在3月12日“古籍智能”系列研讨会第一讲中,与会专家围绕智能时代古典文献学面临的机遇和挑战,系统讨论了古籍智能信息处理所涉及的各個子领域的发展源流、基本知识、技术架构和未来趋势,大范围普及和传播了古籍智能领域的知识和关键技术。
清华大学中文系教授刘石谈到,大数据技术引发了文献生产的创革、文本形态的新变和知识获取的拓展,最终促进了传统文献学的现代转型,包括革新传统文献学的实践路径、增强传统文献研究的整体性、促进传统文献研究的实证化、催生新的研究范式等。同时,他也指出,大数据技术在古典文献研究中存在着局限和问题,应警惕技术方法的局限性和负面影响。
浙江大学中文系教授徐永明以“古典文献面临的机遇和挑战”为题,介绍了目前数字人文所涉的技术、工具、平台,探讨了传统古籍整理与大数据背景下古籍整理的异同,说明了后者在多个方面的优势,展示了智慧古籍平台的样式和使用方法。复旦大学中国历史地理研究所教授张晓虹从开创、进展、前景等方面对CHGIS 进行了全面介绍,说明了 CHGIS 相较于传统《中国历史地图集》的优势,讨论了CHGIS 对数字人文研究的贡献。四川大学中国文化全球传播大数据中心教授王兆鹏指出,古籍智能化的两个面向是古籍整理(文本转化的智能化)和古籍利用(功能提升的智能化),集中探讨了2.0版古籍数据库的三大进展。华南理工大学电子与信息学院金连文教授从数据、方法、应用三个方面对深度学习时代的古籍OCR进行了全面的介绍,并在此基础上讨论了目前尚未解决或未彻底解决好的问题,强调了跨学科合作的重要性。中国古籍的影响不止局限于中华文化圈,韩国庆星大学韩国汉字研究所许喆教授在跨文化视野下考察了东亚古文献数字研究的相关问题,介绍了韩国古籍数字化的有关情况,展示了具体的数据库、检索目录等网络资源,说明了所涉及的某些新技术。上海图书馆上海科学技术情报研究所刘炜研究员介绍了基于联盟链技术的古籍整理研究平台,说明了联盟链技术的优越性,展示了上海图书馆区块链平台;希望所有古籍元数据和原文永远在线,永不删除,永久保存,可按权限访问。
信息技术为古籍智能化、信息化提供了良好的发展机遇,而由此产生的古籍智能化图像识别、句读标点、命名实体识别、数字化检索等一系列问题都成为了数字时代古籍研究领域新的挑战,与会专家围绕智能时代古典文献学面临的机遇和挑战的相关探讨,对促进智能信息环境下古籍整理与研究学的跨学科人才培养,拓宽古典文献学的研究方法等具有积极的作用。
古籍数字化平台的建设带来的转变与便利
“古籍数字化平台的建设”作为“古籍智能”系列研讨会的首个专题研讨会于3月26日,以腾讯会议的方式在线举办。作为主办方,王军教授在开场词中表示,古籍数字平台具有基础地位和作用,在数字时代,古籍的整理与研究都依托平台展开。随后,北京大学中文系教授杨海峥、浙江大学文学院教授徐永明、四川大学文科讲席教授王兆鹏、上海外国语大学图书馆研究馆员欧阳剑、中华书局古联公司总经理洪涛、元引科技有限公司创始人朱厚权等进行了主题汇报。
此次研讨会重点对四个议题进行了研讨,分别为:对古籍数字化平台的理解、古籍数字化平台从传统数据库到结构化数据库再到智能数据库的历史溯源、相关技术工具介绍等;古籍数字化平台的使用、应用,以实例说明古籍数字平台的知识化建设模式以及古籍文献的数字人文研究模式的构建等;古籍数字化平台的可持续化发展及商业探索;古籍数字化平台如何在人才培养中发挥作用。会议认为,随着数字人文理念的出现,从传统古籍数据平台到智能古籍大数据平台,从数字化古籍的传统使用模式到智能化使用模式,古籍的数字化平台不仅可以实现古籍的自动校勘、自动标点、自动编纂、自动注释、自动索引、自动排版等功能,还可以提供分析、挖掘、知识服务等功能。
徐永明教授作了题为“从传统古籍数据平台到智能古籍大数据平台”的主题汇报。他首先介绍了古代文献所具备的价值与当前文献正经历的形态转变,然后通过分析传统数字古籍平台的功能和特点,讲述了从传统数据库到结构化数据库再到智慧化数据平台的演进路径。传统数据库的缺点是缺乏后台数据支撑、关联功能差、不能定位、附加值低;结构化数据库可进行定量数据分析、定位等,弥补了传统数据库的部分不足;而如今的智慧化数据和平台以结构化数据作为后台支撑,能更大程度地解决先前的难点。徐永明教授以自己设计、建造的浙江大学“智慧古籍平台”为例,分享了智能化古籍数字平台的理念与实践情况,详尽展示了平台的各种功能,指出智能化古籍数字平台的“智能”表现在智能OCR、智能标点、智能标引、智能搜索、众包技术、图数据库等方面,同时需要学者们的高度参与。他表示,古籍整理任重而道远,期望智能数据平台的建设能够加快这一进程。杨海峥教授在点评中指出,古籍数字平台的演化给古籍整理带来了重大变化,还带来了思维方式和研究范畴的新变,在研究、教学的诸多方面都会产生深刻的影响。
王兆鹏教授分享了关于“古籍数智化的意义”的相关内容。“数智化”即数字化和智能化的结合,这一概念具有双重意义,即功能性提升与结构性转变。功能性提升意味着古籍的自动识别、自动标引及自动校注得以实现,结构性转变包括学术创新和应用的创造性转化。学术创新基于知识的贯通化发展。在此之前,知识被有序地隔开,以后则会打通——打通古今、连通各地、部类贯通,从零散到聚合。大数据会带来数据的聚类化研究,会验证、修正我们平常的知识,还可以转化为文创产品的开发。
欧阳剑研究馆员介绍了数字人文视域下的古籍基础数据应用平台实践,指出人文学者的研究模式正从读文献向分析文献转变,向基于古籍大数据的多元化、整体化研究转变。他提出了古籍文献的数字人文研究应用模式,即将描述性内容转变为数据,在此基础上进行研究。随后,他分享了目前自己在古籍基础数据建设、文本分析和典籍知识服务实践等方面的工作。
洪涛总经理首先对“籍合网”做了简要介绍。“籍合网”是由隶属于中华書局的古联公司建设和运营的国家级古籍整理出版资源平台,于2018年上线。籍合网面向多类型用户,集合了多种功能,包含专题数据库、在线众包整理平台、大数据中心、自动开发工具等诸多资源。洪涛还介绍了“籍合网”的古籍智能整理出版技术研发工作、出版社编辑使用的古籍整理工作平台,并展示了古籍整理数字化的工作流程。
朱厚权总经理以“引得CBDB”平台为例,介绍了人文书籍类学术成果转化的探索与实践情况。他首先介绍了“引得CBDB”项目的建设过程及现有成果,指出数字人文平台的业态正在不断演进。随后,他在总结以往经验的基础上,展示了自己关于目前数字人文平台体系建设的构想,并演示了元引科技为清华大学数字人文学院开发的“文本功能平台”的相关功能。他特别指出,学术研究的独创性与工程实践的可复制性既相辅相成又差异显著。
在专家讨论阶段,王军教授提出,古籍文献的数字化、结构化、图谱化,在分析过程中需要借助外部知识库,相关版权问题如何得到解决?开放的资源库、版权能否得到授权?是否可以开放API,平台互联互通?对此,专家们均发表了积极的意见,一致认为需要形成一种良好的机制,一种学界和业界良性循环的生态;需要建立平台,让大家了解学术界的成果,也使得学术研究成果可以返回到企业,从而形成日益开放、资源有效整合的良好趋势。
信息技术与人文学科结合的展望与讨论
如今,以大数据、人工智能为代表的信息技术方兴未艾。那些停留在金石、竹简和纸张上的先哲智慧也期待着能够插上数字化的翅膀、踏上信息技术发展的高速列车,由此产生的古籍智能化图像识别、句读标点、命名实体识别、数字化检索等都将成为数字时代古籍研究领域的关注重点。本次研讨会围绕大数据、人工智能等为代表的信息技术的发展所开展的讨论,必将为古籍传承与保护等人文学科的发展提供新的方法、注入新的活力。
关于“古籍智能”系列研讨会已成功举办两场,接下来还将陆续举办历史地理信息系统的建设与发展“古籍OCR技术概述与发展趋势”“古籍目录数据库”“古代年表与时间本体知识库”“古籍标注语料库建设”“古文自然语言处理技术”“古代历史人物数据库”“古籍资料库建设”“古典文献大数据分析”“智能时代古典文献学教育、研究与人才培养”九项专题研讨。此系列研讨会由北京大学数字人文研究中心、北京大学—字节跳动数字人文开放实验室、北京大学人工智能研究院主办,全国高等院校古籍整理研究工作委员会、中国古籍保护协会古籍智能专业委员会为指导单位,并得到了字节跳动公益的支持。研讨会通过腾讯会议举办,并在 Bilibili网站上直播和回放。