古籍出版数字化发展中的三对矛盾、突出问题与建议
2024-06-13古籍出版数字化调研报告课题组
摘 要:本课题根据《关于推进实施国家文化数字化战略的意见》和《2021—2035年国家古籍工作规划》等重要文件,分析了古籍数字化在数字内容层面的重复与空白、面向用户层面的专业化与大众化、开发主体目的的商业性与公益性这三对关系;又分析了古籍数字化发展中的五方面的问题,如欠缺面向国际视野的整体统筹协调,格式、标引、接口标准尚不统一,版权独创性认定难、侵权高发,重产品轻服务,古籍整理和编辑人才断层问题严重等;并提出了解决问题的六项对策和建议。
关键词:古籍数字化 古籍活化 古籍整理 数据库 版本
古籍数字化是以数字技术为工具,对古籍内容进行再现和加工,是古籍整理保护和开发利用的重要方面。
在人工智能和虚拟现实技术、信息技术如此发达的今天,如何通过先进的数字技术,让古籍中孕育的传统文化在现实中“活起来”,成为当今的重要课题。
本课题分析了从事古籍数字化的出版机构、古籍存藏单位、古籍数字化科研机构、从事古籍数字化的互联网科技公司等古籍数字化主体的特点和发展方向,剖析了古籍数字化发展过程中的几对关系,并通过调研、汇总和分析,给出了古籍数字化发展的建议。
一、古籍数字化发展中的几对关系
课题组在分析古籍数字化工作时,重点梳理了在数字内容层面中重复与空白的关系;在面向用户层面专业与大众的关系;在开发主体目的方面中商业与公益的关系,从而理清古籍数字化发展的脉络,找出其中的关键问题。
1.数字内容层面:重复与空白
在古籍数字化领域,有些领域存在大量的重复建设,不少空白领域“无人问津”。古籍全文检索数据库建设,存在低质量、内容重复、建设范围局限于已经影印出版的基础古籍等问题。《四库全书》《四部丛刊》《二十四史》等多种丛书就已经开发了多种检索版本。[1]按照年代而论,元代以前的古籍数字化较为充分,明清两代较少,因为大多数古籍数据库是在《四库全书》数据库的基础上开发的,而《四库全书》中涉及明清两代的古籍较少。这种问题的产生,第一是由于缺乏专门机构的宏观调控和管理,古籍存藏单位、高校科研机构、出版机构、互联网科技公司各自为政;第二是因为信息共享不足、项目规划协调不够;第三是某些商业平台过于追求利润,急功近利,导致某些资源重复开发,热点项目重复建设、浪费人力财力。
古籍数字化存在大量空白领域,古籍数字化规模与我国古籍的存藏资源相比,比例太小。据统计,“全国普查古籍资源约有270万部,但转化为数字资源的只有约10万部(件),占比3.7%”。[2]在专业领域,《关于推进新时代古籍工作的意见》中提到,文物、中医药、宗教、法律、农业、林草、水利、社会科学、科学技术、档案、方志、古地图等领域的古籍整理需要加强[3],强调各古籍存藏单位,要根据地域分布、资源特色、专业优势推进古籍工作。还有一些地方性的古籍和少数民族的文献资料没有得到整理,更没有得到充分的数字化关注。这些专业领域和地方性的古籍整理工作需要相关专业内的学科建设与跨领域人才培养,难度要高于一般文史领域的古籍整理工作。
2.面向用户层面:专业化与大众化
古籍数字化面向的用户分为专业与大众群体,随着数字技术的日新月异,专业群体对古籍数字化产品的专业性要求越来越高,而大众用户对活化产品要求好玩好看好用,体验感要好。
古籍数字化的专业化,是指将现代计算机技术与古籍研究结合起来。古籍数字化的专业研究是“数字人文”这一学科的重要分支,该学科发源于20世纪70年代,致力于将现代计算机技术与人文研究结合。
古籍数字化的大众化,是指利用现代信息技术,激活传统古籍,让古籍“活起来”,走到大众中,在现代生活中获得新生,焕发活力。
面向专业用户和大众用户,古籍数字化的功能和体验是有差异的,需要古籍数字化单位做好定位分析。对专业性的要求,主要体现在以下几个方面。
6nreZUQ5kH99hZG0yonTu9dhAFHqv1TIx0FcGcnl7EU=第一,研究者需求的古籍数字化产品,尤其是古籍知识库相当于结构数据库,包括古籍的分类、关系、结构等,是古籍数据库中最难建立的一种。古籍知识库建设,现阶段多停留在对某一大书(《全唐诗》《全宋诗》)、某一体裁文献(二十五史)或接近知识化机构的内容(目录文献)进行数字化,不论点还是面都不够充分的。
第二,研究者针对古籍数字化产品研究时,需要分类清晰,体系完备,索引丰富科学,有元数据标引、语义关联检索等功能。现在各古籍存藏单位的检索标准不统一,检索方式不够科学。
第三,研究者所需的古籍数字化产品丰富而专业,覆盖面非常广,其中也包括某些冷门专业或者偏远地区的古籍资料,而这些资料尚未数字化。例如方志、家谱、科举考试试卷、戏曲唱本、碑帖等等,往往只在某家古籍存藏单位有副本,需要一边开展数字化工作,一边开展学术研究,以研究促进数字化工作进步,以数字化工作带动研究开展。
对于古籍数字化的大众化,体现在以下几个方面。
第一,数字化古籍内容传播的广度和深度。“酒香也怕巷子深”,古籍数字化单位耗费大量人力财力,但是数字化了却很少人看,另一边是公众想找却找不到,或者因为隐藏太深,难以发现;或者是找到了看不懂。针对纸质古籍信息不对外开放和浏览人数少的问题,要为更多人提供访问和学习的机会,更要扩大传播效果。
第二,数字化后的古籍可以实现多媒体的呈现形式,如文字、图片、音频、视频等,丰富古籍的表现形式,使古籍的内容更易于理解和学习。例如,国家图书馆负责建设的“《永乐大典》高清影像数据库”,还原了《永乐大典》原貌,用户和读者可以不接触古籍本身就能深入研究该书。再如,故宫博物馆开发的《清明上河图3.0》、《紫禁城祥瑞PRO》APP、故宫游戏、壁纸和输入法皮肤、小程序等,让更多年轻人感知传统文化的魅力。古籍存藏单位和出版机构可以利用AR、VR技术,数字展览、文创、小程序等多种形式,促进古籍活化。
第三,可以开发数字藏品、文创、旅游小程序等数字产品,将古籍与地方文旅结合。古籍存藏单位很多是地方文旅部门的组成部分,古籍活化可以为当地旅游和古籍存藏单位带来经济收益,从而反哺古籍数字化工作本身,实现良性循环。
由此可见,古籍数字化的专业应用和大众推广都需要充分发挥数字技术的优势。在专业应用方面,要加强数字搜索技术的推广和普及,提高数字化的效率和精度,利用OCR、图像处理、数据挖掘等技术,实现自动化和高速化的数字化过程,实现古籍数字化与相关专业的协同互动;在大众推广方面,要应用微信、音视频、人工智能、虚拟现实等融媒体技术,将数字化的古籍资料向更广泛的公众传播,提高公众对数字化古籍的认知。
3.开发主体目的:商业性与公益性
古籍数字化的主体开发目标不尽相同,民营企业在没有国家资金投入的情况下,仅靠自有资金投入,必然会以赢利为目的,哪个领域赢利多、利润高就投入资金数字化。而公共服务机构则是国家给资金就做,不给资金就缺乏动力。
商业性本不是坏事,但过于商业性、或者没有规则的商业性则会出问题。由于古籍数字化监管缺失,逐利驱动导致古籍数字化的重复开发、产品质量不高、随意定价甚至盗版侵权。企业从经济利益出发,收取高额使用费,忽视了古籍弘扬中华优秀传统文化的功用,也忽视了其社会价值。
图书馆是古籍收藏的重要机构,是古籍公益性数字化主要的实施主体。但是,由于经费所限,某些单位把馆藏资源当成了各单位的私有财产,不是严格限制古籍的阅览、复制或拍照,要不就是抬高扫描拍照使用文献的价格,有的图书馆没有开展古籍数字化工作,无法将数字化成果共享。
古籍数字化进程主要瓶颈在于资金,国家应该给予经费的保障和政策的扶持。国外古籍存藏机构大都有充裕的国家资金进行古籍数字化,并为读者提供服务。如日本的“东洋文化研究所藏汉籍善本全文影像资料库”,供全球共享。
商业性和公益性既可互补,也可以互相转化。企业在数字化方面有利益驱动,产品迭代更新快,能够紧跟专业人员的使用需求和大众用户的体验感不断创新。公共服务机构在开放共享方面有资源基础,也有社会义务,一些投入较大的项目更有实现商业收益的可能。
二、古籍数字化存在的突出问题
1.欠缺具有国际视野的整体统筹协调
古籍数字化投入周期长,见效慢,各古籍数字化机构分属不同部委,各种稀见版本因收藏单位隶属归口不同,保护严格,难以有效利用。因此,需要国家统一规划,统筹安排,才能避免重复建设和资金浪费等一系列问题。
2022年4月,中共中央办公厅、国务院办公厅(以下简称“两办”)印发了《关于推进新时代古籍工作的意见》(以下简称“意见”),明确了“全国古籍整理出版规划领导小组履行全国古籍统筹协调职责,中央宣传部发挥在全国古籍工作中的牵头作用”,这结束了各自为政的局面,对推动出版机构、古籍存藏单位、高校图书馆以及古籍数字化科研机构协调一致,共同推动古籍数字化工作,具有重大意义。
在两办意见出台之前,国家图书馆(中国古籍保护中心)承担着推动全国古籍数字化普查和数字资源发布工作,已经开展了卓有成效的统计和示范工作。截至2020年11月,“全国古籍普查登记基本数据库”累计发布264家单位古籍普查数据825362条7973050册。截至2023年1月,全国累计发布古籍及特藏文献影像资源达到13万部(件),其中国家图书馆建设的“中华古籍资源库”发布古籍影像资源超过10.2万部(件),先后联合39家单位发布古籍资源2.8万部(件)。从以上普查数据和联合发布资源的数据对比来看,古籍数字化的统筹工作任重道远。
对中国古籍的数字化,国际上起步要更早一些,统筹协调不仅仅是面向全国,还要有面向国际的视野。
2.格式、标引、接口标准尚不统一
各古籍存藏单位和数字化单位所建立古籍数据库互不兼容,没有统一的平台接口,这样这些数据库之间就很难共享数据,也为二次开发增加了难度。因为没有统一标准,开发主体多元,制作单位则根据需要制定了各自的文本数据格式,导致了多种数据格式并存的局面。2001年,在两次全国性的古籍机读目录格式研讨会讨论的基础上,国家图书馆编写的《汉语文古籍机读目录格式使用手册》出版,古籍数字化有了初步的标准。目前,国际上还没有统一的古籍数字化标准,“国际图书馆协会和机构联合会”(International Federation of Library Associations and Institutions) 在 2015 年发布过《馆藏善本与手稿数字化计划指南》,但内容十分笼统,在古籍数字化技术问题尤其是采集和储存上并未进行详细规范,无法为我国制定古籍数字化标准提供具体性指导”。[4]古籍数字化的内容分散在各古籍存藏单位,而这些单位的管理又较为分散,数据的格式、标引、注释情况各不相同。古籍著录尚未执行统一的分类表和分类原则,造成了书目数据不准确现象。由于标准不一,各馆所建古籍数据库各有长短,且往往互不兼容,严重阻碍了资源的共享。
3.版权独创性认定难,侵权高发
古籍属于公版作品,整理的主体比较多,对已整理的古籍数字化成本较低,侵权盗版极大影响了古籍数字化单位的积极性。古籍数字化存在版权侵权、赔偿标准认定难等问题。古籍数据库作品属于汇编作品,要通过独创性认定,但是由于整理版本雷同,加之“分段、标点、校勘”相似度超过50%,一旦诉诸公堂,主观性认定把握比较难。另外,古籍数据库同行间互相剽窃、盗版现象也确实存在,侵权盗版诉讼多发。权利人也存在对古籍整理作品独创性的认定、赔偿数额的确定等难点。单凭《著作权法》相关条文,已很难适应古籍整理的发展。
4.重产品轻服务
在新媒体技术飞速发展的今天,如何结合融媒体传播技术,让传统文化流光溢彩,是各古籍存藏单位和出版机构需要面对的问题。已经建成的古籍数据库访问量普遍较少,微信公众号等新媒体点击量不够,缺乏爆款、出圈产品。古籍数字化的推广普及效果并不尽如人意。有调查结果可窥一斑,“自2016年3月9日至2022年11月27日,河北大学图书馆自建的方志书目数据库、家谱书目数据库和中华再造善本等3个书目数据库的总访问量分别为250次、253次和424次,该访问量与河北大学4.25万师生规模相距甚远”。[5]古籍数字化产品的生产机构重产品轻服务,普及和传播的形式单一,缺乏生动形象的表现形式。通过新媒体、音视频等手段开展古籍普及传播的图书馆较少。古籍数字化产品提供商开发完产品,交付渠道销售之后,基本上不和最终用户交流,缺少产品反馈机制,对用户使用效果和当中的问题了解不多,运维更新慢。尤其是出版机构和古籍存藏机构,工作人员普遍缺乏服务意识,为社会公众提供古籍服务的意愿还比较低。
5.古籍整理和编辑人才断层问题严重
古籍数字化人才断层是个不争的事实。古籍数字化从业人员既要熟悉传统文化知识和相关专业背景,又要具备数字出版技术,具有创新精神,具有媒体思维,互联网思维。如何培养人才,留着人才,成为古籍数字化工作中的瓶颈和难题。这体现在如下几方面。
(1)古籍数字化综合人才欠缺。古籍数字化从业人员不仅需要掌握古籍版本、校勘等传统古籍文献的专业知识,信息科学和数字技术等专业知识也是非常必要的。因此,古籍数字化工作需要掌握传统古籍整理方法且熟悉现代科学和信息技术的综合性人才。然而,目前从事古籍数字化工作的人才很少,特别是具备古籍整理知识又能熟悉现代信息技术的综合型人才更为匮乏。
(2)古籍数字化人才很难留住。古籍数字化机构如古籍专业出版机构、科研院所和古籍存藏单位的薪资待遇,与互联网科技公司相比较低,这导致古籍数字化综合型人才很难留住。
三、对古籍数字化工作的建议
分析古籍数字化发展中的三对关系和五方面问题之后,课题组对古籍数字化工作提出了一系列建议。
1.加强跨部门跨系统的统筹协调
在统筹古籍数字化工作方面,建议从以下几个方面开展。
第一,从国家层面统筹规划古籍数字化工作。从国家层面协调分属不同部门、不同系统的古籍存藏单位、古籍出版机构、高校科研机构、相关技术企业的关系;加快全国古籍普查数据和数字资源开放,每年将濒危古籍和珍贵古籍数字化加入重点工程;加快古籍数字化各种标准的制定和建设,鼓励骨干单位推广古籍数字化标准。
第二,统一规划,并实行系统化管理。《2021—2035年国家古籍工作规划》中,已经包含国家古籍数字化资源总平台建设的内容。为避免重复建设,需要加强各方之间的合作与协调,设立中宣部、文化和旅游部、教育部等相关部委的联席会议,将各部委原有的相关平台归口统一到指定的平台上。
除了规划里提到的资源总平台的架构,建议基于公共图书馆系统,或基于博物馆系统,联合大陆以外的藏书单位建设一个统一查询图书馆古籍的系统;基于书目与内容,建设综合的古籍书目知识系统十分必要。
第三,在应对重复建设和填补空白领域时,需要注重合作与共享。建立数字古籍数据库和平台,促进各方之间的信息共享和资源整合,避免资源的重复投入。对于经济不发达地区和某些冷门专业领域的古籍数字化工作,国家和地方各级政府、专业部门应该予以更多支持。通过开展国际合作项目、举办学术论坛、研讨会、年会和培训班等方式,加强古籍数字化领域的交流与合作。
第四,按照差异化分工开展古籍数字化工作。各古籍存藏单位、古籍出版单位和科研机构,要结合自身古籍的特色(如地域特色、研究特色、存藏特色),明确古籍数字化的重点主攻方向,形成差异化。
2.加大国有资金投入,鼓励民间资本参与
古籍数字化工作投入的资金少,见效慢,即使相比其他非物质遗产的保护工作,受重视程度也远远不够。2022年,“财政部对国家文物保护资金预算638333万元、非物质文化遗产保护资金预算82598万元,而古籍数字化的专项资金仅有约1000万元”。[6]古籍数字化单位面临如何募集资金,动员社会力量参与等一系列问题。
针对资金投入严重不足的问题,课题组提出以下建议。
第一,加大对古籍数字化工作的资金投入,拓宽资金来源渠道。依托财政资金重点建设一批代表国家水准的古籍数据库,提高我国古籍数字化整体水平,从而起到示范作用。定点帮扶一些古籍保护和古籍数字化的机构,奖励一批优秀的古籍数字化人才。
第二,鼓励地方政府投入地方古籍的数字化工作,与地方文化事业形成良性互动发展。地方政府要将地方古籍数字化工作经费纳入预算,设立地方古籍数字化重大项目,制定地方支持古籍数字化产业相关税收优惠政策等。让地方古籍数字化事业与地方文化遗产和旅游事业发展融合在一起,实现良性互动和互相促进。
第三,鼓励社会资金和社会力量参与。在英美等国家,“文化遗产保护多由政府认可并授权的非营利性民间组织负责,但我国的古籍数字化工作仍以政府主导为主,经费由各级财政拨付,古籍存藏单位大多属于公益机构”。[7]要制定鼓励政策,积极吸纳社会资金和社会力量参与和支持古籍数字化和古籍保护等工作。古籍数字化机构也要“大力支持和引导公民、法人和其他组织以资助、捐赠和基金会等形式参与古籍数字化和古籍保护工作,不断丰富古籍经费来源渠道”[8]。
第四,积极开发盈利渠道。可以开发数字藏品、文创、旅游小程序等数字产品,从而反哺古籍数字化工作本身,实现良性循环。
3.狠抓标准化工作,便于国内国际应用
近年来,古籍数字化标准规范在国家图书馆以及各古籍存藏机构的协助下不断推进,先后出台了汉文古籍定级标准、简帛古籍定级规则、古籍修复技术规范与质量要求等标准、图书馆古籍特藏书库基本要求等等。国家图书馆和中华书局等出版单位在实践中总结了一些古籍数字化的标准,并且开展了多次“图书馆古籍存藏保护与数字化利用标准及工作实践培训”,推广相关标准。
针对古籍数字化的标准化,课题组从以下几方面提出建议。
第一,借鉴国内外相关标准,制定和推广全国统一的古籍数字化标准。目前,汉字属性字典、古籍用字规范、生僻字与避讳字处理规范、古籍全文版式XML规范、数字资源唯一标识符等6个标准规范项目正在研制中。元数据规范、对象数据规范、资源统计规范等正进行采购准备工作。数字资源长期保存、管理元数据、专门元数据规范等正在进行需求调研与准备工作。提升数据关联和可视化的技术标准,正在进行细化和修订,争取由行业标准上升为国家标准。
第二,制定专门的数据加工和存储标准。应该对数字化的流程进行规范,比如扫描图像分辨率高低、内存大小等都需制定明确的标准。实现文献存储格式的标准化,协调联合骨干企业,向全国推广。要进一步打通不同古籍存藏机构的相同类型资源,开展古籍数字资源整合工作,从而实现古籍的“一站式检索”。
第三,做好标准规范的推广工作。标准出台之后的推广更重要。通过培训、研讨等形式,总结古籍数字化的实践经验,以优秀产品为示范案例推广古籍数字化的标准,扩大标准规范的应用范围,推广我国相对全面和完整的古籍数字资源管理的团体标准、行业标准以及国家标准。
4.在版权认定、专业资质和技术保护方面齐抓共管
针对古籍数字产品的版权,课题组提出以下建议。
第一,制定关于作品独创性以及侵权认定的行业规则,作为司法机关审理案件时可资参照的依据。比如作品独创性的认定,古籍数字化内容相似度的比例超过多少才认定为侵权等,这需要古籍整理行业联合起来商定行业规则并执行。
第二,加强行政管理,对古籍整理者的资质进行评估。对古籍整理者的资质要如同对教辅图书和养生保健图书等一样,设置进入门槛,尤其是查验专业人员的资质,以减少低劣盗版的整理作品,保证古籍整理作品的质量。
第三,利用数字化技术开展古籍数字版权保护工作。利用访问控制技术、密钥管理技术、数字水印技术、防火墙技术保护版权,对即将公开的古籍数字化资源提前进行数字版权认定,或者使用权证链、区块链认定。
5.打通人才评价、晋升、培养通道
古籍数字化涉及的知识面非常广阔,既有古籍文化的知识,也有现代信息技术的知识。古籍数字化机构如古籍专业出版机构、科研院所和古籍存藏单位的薪资待遇,与互联网科技公司相比较低。如何培养人才,留住人才,成为古籍数字化工作中的瓶颈和难题,课题组提出以下建议。
第一,建立古籍数字化人才专家库。对古籍数字化整理人才和编辑人才,要优先选拔进入宣传文化系统的“四个一批”,通过中国版协古籍出版工作委员会进行分级评价,对这些人才开放专门的项目申请通道,给予专项资金支持,强化从业人员的职业成就感和荣誉感。
第二,通过高校与古籍数字化工作相关单位联合培养人才。古籍数字化是实践性很强的学科,也是知识密集型的学科,应该由古籍数字化单位、互联网科技公司与相关古籍高校研究机构联合培养人才,建设培训基地,学习与就业岗位挂钩,构建学位教育与项目培养相结合的培养模式。
第三,通过培训和研讨会培养古籍数字化人才。积极开展业界合作,开展不同地区、不同领域的古籍数字化单位的交流与合作。古籍整理出版骨干企业利用培训班、研讨会,推广古籍数字化经验,形成古籍数字化人才培训长效机制。
6.强化古籍数字化传播的广度、深度和效度
古籍数字化产品要将服务场景深入生活中、文旅中,要充分利用互联网传播推广的优势,在古籍数字化传播的广度、深度和效度上多下功夫。
第一,打造古籍数字出版面向文化普及推广的新服务场景。“要加快提升古籍数字化工作团队的服务能力,促进古籍数字文化服务的社会化、多样化、精准化”。[9]拓展古籍数字化产品服务模式,出版机构和古籍存藏机构通过互动、沉浸式和个性化定制等服务模式,拓展更多文化数字消费的应用场景。
第二,将学术研究与现实结合,促进古籍数字化产品转化为文旅产品、出版产品。要将文化资源进行创造性转化、创新性发展,“在与具体推广场景结合时,要从相关古籍中遴选出最具代表性、最有感染力、关联性最强的素材,开展数字化加工重组”。[10]
第三,将古籍内容与数字信息技术充分结合。鼓励各古籍存藏单位借助音视频产品、直播、抖音、快手、VR/AR技术以及数字技术等深入挖掘古籍中的内容。出版机构利用微信公众号[如古联(北京)数字传媒科技有限公司旗下的经典古籍库微信公众号]、数字人(如中华书局和古联数字传媒公司发布元宇宙数字人苏东坡)等多种形式宣传古籍数字化成果。这样的古籍活化案例值得推广。
第四,产品和服务应该齐抓并进,推动古籍数字化成果转化。为数字化产品增加互动模块、用户评价模块,提高回复效率,提高用户参与的积极性。提高用户凝聚力和归属感,形成讨论氛围,促进学习交流。根据用户的反馈和意见,积极改进古籍数字产品,并借助用户口碑扩大平台影响力,让古籍从小众走向大众。
(课题组组长:林晓芳,成员:原业伟,侯君明,洪涛)