古籍数字出版的机遇与挑战
2023-12-22洪涛
洪涛
摘 要:本文探讨了古籍数字出版的机遇与挑战。通过分析政策、应用、大众阅读和产业发展等方面的机遇,以及高质量数字化成本、古籍整理难度、海量数据聚集和产品形式单一等挑战,提出了相应的解决方案和发展建议。本文认为,古籍数字出版在多个方面具有广阔的发展前景,但需要解决多种技术、资源和市场等方面面临的挑战。未来,应进一步加强对古籍数字出版的研究和实践,以推动这一领域的可持续发展。
关键词:古籍数字化 古籍整理 解决方案
在人类历史的长河中,古籍是我们祖先留下的宝贵财富,是中华文化的重要组成部分。然而,随着时间的推移和技术的不断发展,如何保护和传承这些古籍成为各界关注的课题。随着数字化技术的不断进步和发展,古籍数字出版已经成为一种新兴的出版形式。古籍数字出版具有保护和传承古籍、方便阅读和使用、提高出版效率等优点,逐渐被广大读者和出版机构所接受。近年来,越来越多的出版社开始启动古籍数字化工作。与前些年相比,古籍数字出版的成果也丰富了很多。这种趋势不仅为古籍的保护和传承提供了更多的机会,同时也为读者提供了更加便捷的阅读方式。通过数字化技术,读者可以更加方便地获取和浏览古籍,更好地传承和发扬中华文化的精髓。
然而,在古籍数字出版的发展过程中,也面临着多种挑战和问题。如何解决这些问题,推动古籍数字出版的可持续发展成为一个重要的研究课题。本文旨在深入探讨古籍数字出版的机遇与挑战,分析其现状及未来发展趋势,并提出相应的建议和对策。通过对政策、应用、大众阅读和产业发展等方面的机遇分析,以及探讨高质量数字化成本、古籍整理难度、海量数据聚集和产品形式单一等挑战,提出相应的解决方案和发展建议。
一、政策东风、用户需求与产业共振:古籍数字出版的未来趋势
在古籍数字出版的发展过程中,政策的支持、用户的需求以及产业的重视都为其提供了重要的机遇。政策的支持为古籍数字出版提供了指导和保障,推动了其健康有序的发展;用户的需求为古籍数字出版提供了广阔的市场和阅读群体,促进了其应用的普及和推广;产业的重视则为古籍数字出版提供了更多的资金和技术支持,推动了其技术和产品的创新和发展。下面将详细探讨这些机遇及其对古籍数字出版的影响和作用。
(一)政策层面
在新时代,古籍工作面临着新的挑战和机遇。为此,政策层面有两个重要的文件发布,一是2022年4月由中共中央办公厅、国务院办公厅发布的《关于推进新时代古籍工作的意见》,二是全国古籍整理出版规划领导小组印发的《2021—2035年国家古籍工作规划》。这两个文件为古籍工作提供了指导和规划。
《关于推进新时代古籍工作的意见》明确提出了古籍数字化工作的方向和重点。在资源、技术、产业方面,文件强调了推进古籍数字化资源汇聚共享,支持古籍数字化重点单位做强做优,并积极开展古籍文本结构化、知识体系化、利用智能化的研究和实践,加速推动古籍整理利用转型升级。在普及方面,文件要求加强古籍题材音视频节目制作推介,提供优质融媒体服务。在人才培养方面,文件提出进一步优化古籍相关学科专业布局,完善古籍数字化相关学科专业体系。《2021—2035年国家古籍工作规划》提出了更为具体的“国家古籍數字化工程”,包括建立古籍数字化标准体系,构建古籍数字资源平台,加强古籍数字化版本保护利用,加快专题资源库建设,推进古籍资源汇聚、共享、传播,推动古籍工作转型升级。并列举了8项主要工作任务,从总平台的建设、各领域资源建设,到技术研发均有所安排。同时,领导小组还对古籍数字化现状进行了摸底调查,开展了全方位的古籍数字化研究工作,包括内容、技术、人才、标准、传播、版权、社会效益等多个领域,为以后政策落地、产业发展提供决策依据和支持。
政策层面对于古籍数字化工作给予了高度关注和指导,提出了明确的目标和任务。未来,我们需要进一步推动古籍数字化工作的落实和实施,促进古籍保护和传承工作的深入发展。
(二)应用层面
随着数字化技术的飞速发展和广泛应用,古籍的利用方式已经发生了翻天覆地的变化。传统的古籍研究和使用主要依赖于纸质书籍的阅读和解读,而现在,数字化技术为古籍的利用提供了更加便捷、高效、全面的途径。
第一,数字化技术可以实现古籍的快速检索和查阅。通过将古籍进行数字化处理,建立相应的数字资源库和检索系统,研究人员可以更加方便地查找和获取所需的文献资料。这不仅可以节省大量时间和精力,而且可以避免因纸质书籍借阅不便而造成的种种困扰。第二,数字化技术还可以促进古籍的多元利用和传播。通过将古籍转化为数字格式,可以方便地进行数据挖掘、文本分析、语言处理等操作,从而为学术研究提供更加深入的支持。第三,数字化技术还可以实现古籍的多媒体展示和交互式体验,使得读者可以更加直观、生动地了解和感受古籍所蕴含的历史文化信息。第四,数字化技术还可以拓展古籍的使用领域和受众群体。通过将古籍数字化资源进行分类整理和优化整合,可以构建不同领域的专题资源库和数据库,为各个领域的研究人员提供更加专业化的服务。第五,数字化技术也可以使得古籍更加贴近普通受众群体,通过数字化展览、在线阅读、移动应用程序等方式,让更多人了解和欣赏到古籍的魅力。
在大学环境中,学生们越来越依赖于数字化资源来获取所需资料。尽管数字化资源并不能完全替代传统的文献阅读、系统地学习和深入地思考,但其速度和广度都是传统阅读无法比拟的。我们可以通过大学图书馆网站上的古籍数据库目录看到,这些资源的需求量非常大。以国内首款古籍整理与数字化综合服务平台籍合网为例,目前平台拥有100多家国内机构用户,56家海外机构用户,以及20多万个人注册用户。更为深刻的是,近年来“数字人文”的兴起,将数字技术应用于人文研究,使得古籍成为数字人文研究的重要资料来源。此外,清华大学、北京大学、武汉大学、南京农业大学、上海师范大学等高校纷纷成立了数字人文中心,并开展了基于古籍文献的数字人文研究。自2022年起,数字人文专业被列入普通高等学校本科专业目录的新专业名单,数字人文研究成果不断涌现。
我们应该积极拥抱数字化的发展趋势,将其作为一种工具和手段,用于古籍的保护、传承和研究。
(三)大众阅读领域
在大众阅读领域,古籍数字化的资源得到了越来越广泛的应用和认可。以中华经典古籍库(微信版)为例,该平台拥有8万名用户,这些读者可以在微信中方便地阅读和检索古籍。为了满足不同读者的需求,我们将古籍原文和白话诵读录制成音频,投放到喜马拉雅平台上,目前已经上线了21种书,短短几个月时间,拥有近4万名用户和400多万人次的播放量。
古籍的数字化工作不仅体现在成果的应用上,同时也体现在数字环境之下用户参与古籍工作的广度和深度上。自2018年起,古联公司的古籍整理编辑在线众包团队便开始参与古籍的整理与编校工作。该团队拥有超过5000名成员,他们来自各行各业,有着不同的背景和专业知识。通过众包的方式,他们共同参与古籍的整理、编辑和校对工作,为古籍的保护和传承做出了贡献。
此外,籍合学院也开展了专业的古籍整理培训。该学院拥有超过3000名学员,他们通过系统学习和实践操作,掌握了古籍整理的基本知识和技能。这些学员在参与古籍整理工作的过程中,不仅提高了自己的专业水平,也为古籍的数字化工作提供了更多的人才支持。随着数字化技术的不断发展,我们有理由相信,古籍的数字化工作将会得到更多的关注和支持,为传承和弘扬中华优秀传统文化做出更大的贡献。
(四)产业发展共振
产业的发展对古籍数字化的影响日益显著。随着更多出版社的参与和投入,古籍数字化将得到更广泛的认可和应用,为传承和弘扬中华优秀传统文化发挥重要作用。中华书局的《中华经典古籍库》和国家图书館出版社的《中华再造善本数据库》等古籍数据库的出版,标志着古籍数字化在出版领域的起步。
近年来,随着国家古籍数字化工程的不断推进,越来越多的出版社开始重视古籍数字出版的开发与推广。上海古籍出版社的“尚古汇典”资源平台、浙江大学出版社的“中国写本文献数字资源库”、北京大学出版社的“《儒藏》精华编数据库”以及广西师范大学出版社的“敦煌遗书数据库”等,都是在这一工程推动下应运而生的数字化古籍资源平台。此外,地方文库的数字化项目也广泛开展。《江苏文库》数据库已经完成了第三期建设,其他如《贵州文库》《八闽全书》《四明文库》《金陵全书》等地方文库的数字化工程也陆续上线,为读者提供了更加便捷的古籍阅读和研究的途径。
值得一提的是,更多的出版社逐步将资源聚合在“籍合网”平台发布,这使得古籍数字出版呈现出了逐渐繁荣的趋势。这一现象表明,出版社已经认识到了古籍数字化的发展潜力,并且通过资源整合和平台建设,为读者提供了更加丰富和便捷的古籍数字资源获取方式。
二、古籍数字出版产业的现实挑战
在古籍数字出版蓬勃发展的同时,我们也必须认识到其中所面临的挑战。首先,高质量的古籍数字化需要高昂的成本投入,这成为制约古籍数字化发展的重要因素之一。其次,基于古籍整理出版成果还不足以满足数字化的需求,需要进一步加强数字化技术的研发和应用。再次,海量数据的聚集不易,产品和平台难以形成规模,需要加强数据整合和共享。最后,古籍数字出版产品形式还比较单一,需要进一步创新和转化,以满足读者对于多样化阅读体验的需求。因此,在古籍数字出版的发展过程中,我们需要克服这些挑战,不断提升数字化技术的应用水平和创新能力,为传承和弘扬中华优秀传统文化做出更大的贡献。
(一)技术突破与人力成本的博弈
要完成高质量的古籍数字出版工作,有几个难点需要突破。首先,需要完成从古籍图像到文本的高质量转化。古籍图像质量参差不齐和古籍用字的复杂性是影响古籍数字化质量的关键因素。在转化的过程中,需要确保对古籍的图像进行准确识别和文本转换,解决古籍数字化用字的复杂问题,以确保数字化文本的准确性。其次,需要对古籍进行基本的整理。这是现代进行一步利用古籍文献的必经之路。整理工作包括对古籍进行校勘、标点等基本处理。只有经过基本的整理,才能更好地满足读者对于古籍文献的需求,从而更好地发挥古籍的价值。
无论是高质量的古籍数字化还是基本整理工作,都需要付出高昂的人力成本,这就需要通过不断提升古籍数字化技术、研发新的工具,用来降低成本。
1.古籍图像到文本的高质量转化
图像质量不佳和古籍用字复杂是影响古籍数字化质量的关键因素,也是目前许多古籍数字化机构所面临的挑战。为了提高识别速度和质量,许多机构开始利用基于人工智能技术的古籍OCR系统来识别古籍文本。古联公司在籍合网上发布的古籍OCR系统就是一个很好的例子,该系统在无需人工干预的情况下,识别准确率高达98%以上,对清晰工整的手写文献的识别准确率也超过了97%。这样的技术应用极大地提升了古籍数字化的效率。但是,尽管如此,这些OCR系统距离达到出版要求还有一定的差距。为了解决这个问题,古联公司采取了两种方案。一方面,通过在线众包平台招募校对人员开展文字编校工作,以确保文字的准确性和可读性。另一方面,正在研发基于语义的OCR识别辅助系统,该系统能够通过语义分析识别模糊字与疑难字,从而提高识别准确率。
2.进行古籍的基本整理
古籍整理是现代进一步利用古籍文献的必经之路,而古籍数字化过程本身就涉及对模糊字、疑难字的识别,对异写字的规范等工作。随着人工智能的兴起,古籍的标点、繁简转换等工作已经可以经由计算机初步处理。不少平台提供类似的服务,中华书局也是将OCR识别、标点、繁简转换集成到“古籍智能整理平台”为学术界提供服务。目前,这些古籍智能技术已经能够满足产业的大规模应用。
然而,数字整理的质量和成果形态还远远没有达到出版物水平。2022年底,随着ChatGPT等大模型的发布,我们看到了古籍整理智能化进一步发展的前景。通过构建古籍领域的大模型,可以更好地完成古籍数字化整理工作。除了能够提升现有OCR、标点、专名标引、繁简转换等几个工具的功能之外,还可以完成更多的任务。例如:①对古籍中的专有名词、典故给出标注和注释。现在的大语言模型可以基本准确地找到古籍里的人物、地点、职官等名词,并且可以用生成式的方式做出解释。目前存在少部分专业内容不够准确的问题,通过古籍专业模型的训练,可以得到进一步的提升。②ChatGPT等大模型出来之后,古籍文白翻译流畅度、准确性有不少提升,但是同样因为缺少古籍资源的训练,在专业内容的翻译上不够准确。目前有很多科研团队包括古联公司都开始利用大模型研究文白翻译,力争将专业内容翻译得更加准确。
综上所述,要实现高质量的古籍数字出版,需要在现有的技术基础上不断优化数字技术与工具。通过构建古籍领域的大模型可以进一步降低古籍数字化整理成本,加快古籍数字出版进程。
(二)出版成果与数字化需求尚存差距
随着数字化技术的发展和普及,古籍整理出版的数字化已经成为一种趋势。高质量的古籍整理数据库也得到用户的青睐。然而,尽管在过去的几十年中,古籍整理工作已经取得了显著的成果,但还很难满足建设大规模古籍数据库的需求。
根据《新中国古籍整理图书总目录(1949—2003)》和相关调研结果,我们发现1949年至2019年古籍整理图书的出版数量虽然有所增加,但总计仍不到4万种。而且,这里还包括了一些品种的重复整理。相比之下,《中国古籍总目》收录的古籍数量则达到了20万种。显然,现有的古籍整理成果与实际古籍数量之间的差距仍然很大。
未来,通过结合数字技术和古籍整理专家的力量,开展古籍数字化整理和在线发布工作,是解决这个问题的有效途径。通过这种方式,我们可以更快速发布古籍整理成果,满足学术界和广大读者的需求。以籍合网为例,该网站已经发布了《宋代墓志铭数据库》《唐代墓志铭数据库》《历代石刻拓片汇编数据库》《汉魏六朝碑刻数据库》《唐五代墓志專目》《汉魏六朝石刻专目》《甲骨文数据库》等一批古籍数据库。这些产品都是邀请古籍整理专家参与,并以数字化形式发布的古籍整理成果。从实践效果来看,这种方式是可行的,且未来还会有更多的古籍整理成果通过数字化发表与读者见面。
(三)产品和平台难以形成规模
在古籍整理数字出版领域,海量数据的聚集一直是一个难题。基于整理的古籍出版成果具有知识产权,涉及的出版机构众多,整合难度很大。即使目前收录整理成果最多的中华经典古籍库,从2012年至今也仅收录23家出版社的7000种古籍整理成果。一些小型古籍整理数字化产品,往往缺乏足够的资源量,难以满足用户的需求。
为了解决这个问题,建立一个基于国家战略的古籍资源平台成为必要举措。在《2021—2035国家古籍工作规划》中,国家古籍数字化工程的一项重要任务是建立“国家古籍数字化资源总平台”。这个平台的定位是依托已有平台和资源,聚合古籍数字化成果,连接各类古籍书目、影像、全文数据资源,打造权威性、公益性的国家古籍数字资源中心。目前,这个平台的建设已经正式启动,预计明年上线时将对接30个古籍数据库和古籍数字化工具。随着“国家古籍数字化工程”的不断推进,这个平台将会持续更新,不断吸纳新的成果,为读者提供更加丰富的公益化古籍资源服务。
通过建立国家古籍数字化资源总平台,我们可以更好地整合和共享古籍资源,为用户提供更加全面、便捷的数字化服务。同时,这也将促进古籍数字出版产品规模化和规范化,推动整个行业的发展。
(四)产品形式有待创新与转化
在当前的古籍数字出版领域,产品形式主要以古籍数据库为主,主要面向专业用户提供服务。虽然数据库对于专业市场属于相对成熟的商业模式,但因为古籍类数据库的成本高、版权复杂、受众面小等原因,其盈利能力非常有限。这就需要我们对现有的商业模式进行一些调整和创新。
首先,我们可以利用新的人工智能技术来更新和扩展古籍数据库的服务功能,以便更方便地使用。具体来说,可以以下三个方向进行研发和突破:古籍自动提要生成、语义检索和自动分类。通过这些技术,可以降低数据库的使用难度,让更多的人使用古籍数字化成果。
其次,需要对古籍内容进行再创造和转化。虽然这已经超出了古籍数字出版的范围,但是我们认为这是基于古籍本身所做的数字化工作的一个重要目的。通过提炼和转化古籍中的中华优秀传统文化元素,可以为今天所用,如中华书局古联公司研发了加入人机对话功能的苏东坡数字人,以更轻松的方式向读者传播古典诗词与宋代文化艺术内容。随着科技的发展和商业模式的创新,从古籍里提炼中华优秀传统文化元素进行创造性转化与创新性发展还有更大的空间可为。
三、结语
在文化传承发展座谈会上,习近平总书记强调将马克思主义基本原理与中华优秀传统文化相结合的重要性,并提出“让中华优秀传统文化成为现代的”这一重要目标。作为承载中华优秀传统文化的重要载体,古籍在其中扮演着举足轻重的角色。如何实现这一目标呢?笔者认为,关键是做好以下两项基础性工作。
首先,以马克思主义基本观点和方法为指导,深入开展古籍整理工作。马克思主义是我们认识世界和改造世界的强大思想武器,是我们正确把握历史规律、洞察人类社会发展趋势的重要理论工具。在古籍整理工作中,坚持以马克思主义基本观点和方法为指导,能够确保我们准确解读古籍内容,准确把握中华优秀传统文化的精髓和特点,从而为后续的数字化工作提供坚实的理论基础。
其次,以最新的信息技术为依托,积极开展古籍数字化工作。数字化技术是当今时代的重要发展趋势,也是传承和弘扬中华优秀传统文化的重要手段。通过数字化技术,我们能够将珍贵的古籍转化为电子版,方便广大读者在线查阅;同时,还可以借助人工智能、大数据等先进技术,对古籍内容进行深度挖掘和再创造,使中华优秀传统文化在现代社会焕发出新的生机与活力。
从内容到形式,做好中华优秀传统文化的现代化工作,离不开马克思主义理论和最新信息技术的紧密结合。这是一条必由之路,也是新时代赋予我们的历史使命。只有在这两个方面的有力支持下,我们才能更好地传承和弘扬中华优秀传统文化,为实现中华民族伟大复兴做出应有的贡献。
[作者系中华书局·古联(北京)数字传媒科技有限公司总经理]