彝文古籍数字化保护及利用策略研究
2016-05-14高建辉李全华李仲良
高建辉 李全华 李仲良
摘 要 根据我国彝文古籍的特点及其保存现状,论文设计了适合于我国彝文古籍数字化保护及利用的具体步骤,详细研究了每个工作环节的实施策略,研究成果不但可以指导彝文古籍的数字化工程,在进行其他民族古籍的数字化保护与利用时也可以借鉴。
关键词 彝文古籍 古籍数字化 古籍保护与利用
分类号 G255.1
Abstract According to the characteristics of Yi language ancient books in China and their preservation situation, this paper designs specific steps of digital protection and utilization which are suitable for our countrys Yi language ancient books preservation, expounds the implementation strategy of each work link. Its research results can not only guide the digital protection and utilization of Yi language ancient books, but also provide reference for digital protection work of other ethnic ancient books.
Keywords Yi language ancient books. Ancient books digitization. Protection and utilization of ancient books.
随着计算机技术和通信网络技术的发展,古籍数字化已成为古籍保护与利用的主要手段和趋势。我国古籍数字化开始于20世界80年代,经过三十多年的发展与积累,许多经典古籍著作得到了数字化保护,如北京大学的《中国基本古籍光盘库》和书同文公司的《四库全书》全文检索版等,但对于少数民族古籍的数字化保护目前关注的还不多。2014年10月11日举行的全国古籍保护工作会议重点讨论了我国“十三五”时期的古籍保护发展规划,提出了要加强民族古籍的数字化保护和利用,推进了《古籍保护条例》和各类相关标准的修订和升级,使古籍数字化保护与利用目标更为明确、有法可依[1]。
1 彝文古籍及其数字化工程
彝族有着悠久的历史和独特的文化,彝文作为一种重要的少数民族文字一直沿用至今,并在历史上留下了许多珍贵的典籍。彝文古籍一般是指1949年以前用彝文写成的图书资料,具有较高的文化价值、学术价值和实用价值,目前大量散落民间,数量在十万卷以上,大多数损坏严重,急需进行数字化保护与利用。
彝文古籍数字化保护与利用是一项系统工程,主要目的如图1所示。工程实施前需要确立一个机构进行统一协调,做好顶层设计和理论研究,按照一定的原则和策略,结合我国彝文古籍的实际情况,选用适合的数字化转换、存储、建库和共享技术,制定科学合理的数据库建设与利用方案,才能使数字化保护及利用工程顺利实施,实现既定目标[1]。彝文古籍数字化保护与利用的步骤设计如图2所示。根据彝文古籍的种类、分布、载体特点和数字化现状,研究数字化保护与利用中存在的问题,制定具体可行的实施策略是该工程的首要任务,本文将按这一步骤详细阐述每个环节的工作策略。
2 彝文古籍数字化保护的前期工作策略
2.1 制定规划
彝文古籍数字化保护与利用是一项巨大的工程,不可能一蹴而就,需要在政府和有关单位的协调与支持下制定长期规划,分阶段实施。当数字化及建库工作完成后,数据库还需要不断地进行更新扩充和开发利用。在项目实施过程中,由于有很多单位都拥有彝文古籍数字化资源和原件,所以首先要确立项目实施的主体机构,由一个单位牵头进行资源整合与建库工作。其次要做好整体规划,做出实施该项目的费用计划、时间进度安排,质量要求和建成后的后续工作方案,以保证项目按质按量完成和可持续发展。
2.2 信息调研
在进行彝文古籍数字化工程之前,要事先了解我国彝文古籍的规模、数量、分布地点、内容、种类、形式、载体特点和收藏单位等相关信息,由于各单位彝文古籍的收藏信息一般不对外公布,所以信息来源应以实地考察调研为主,查阅资料为辅。在全国范围内开展调研时,重点调研对象是西南三省彝族聚居地区的民委、图书馆、博物馆及彝族文化研究机构,调研的目的是了解我国彝文古籍的总体分布情况,各单位所拥有的彝文古籍信息以及当地民间的分布和收藏信息。调研时力求和收藏单位初步达成共建共享的合作意向。通过调研,可以确定古籍的大致数量、征集范围、收集地点和合作单位,并估算出数据库的规模。
2.3 古籍资源获取
彝文古籍资源的获取应以合作共建和资源共享为主,零星征集为辅,力争以最小的成本支出换取最多的资源。第一,在调研过程中部分彝族村寨的居民会无偿赠予,一些收藏单位也会授权可以无偿进行数字化;此外,还可以对石刻或毕摩的表演进行拍摄以获取素材。第二,由项目组或合作单位向民间征集或定向购买古籍原件,如可以向当地的民间收藏爱好者购买,也可以设立固定征集点长期征集。第三,由于彝文古籍中很大一部分还掌握在毕摩手中,这些古籍是他们生存的必需品,不可能出售,这种情况下可以和毕摩协商利用手抄的高仿古籍替代原版古籍,使原版古籍得到保护。第四,如果能和收藏单位签订共建共享合作协议,就可以得到海量的古籍资源,这是目前获取古籍最主要的方式。
3 数字化预处理及转换存储策略
3.1 古籍甄选与整理
彝文古籍数字化前要选择好的底本。(1)版本的甄选。首先可以通过影印本、目录图书和网络搜索相结合的方式保证版本鉴定的准确性,然后优先选择学术界公认的最佳版本或价值较大的版本。(2)载体现状的甄选。应综合考虑印刷、装订、纸张等条件,优先选择完整度、清晰度较高和保存较完整的古籍。(3)内容甄选。要对所有古籍进行辨伪、文字校勘和内容考证,优先选择价值较高和经典的古籍。彝文古籍的整理翻译要考虑规范性,应聘请权威专家对古籍进行翻译,如贵州毕节地区彝文翻译组就是国内知名的彝文古籍整理翻译机构,此外在各地民委和高校也有一些这方面的专家。古籍目录最好能形成知识体系,最后可以根据内容进行目录的分类汇总。
3.2 古籍原件的修复与保护
古籍修复质量是影响数字化质量最基本的因素。根据文化部颁布的《古籍修复技术规范与质量标准》和《古籍特藏破损定级标准》的要求,总体上遵循“整旧为旧、抢救为主,治病为辅、最少干预、过程可逆”五条原则进行修复[2]。彝文古籍的纸张有土质、皮纸、绵纸、草纸、宣纸五种,其中以皮纸最多,为了防虫一般都经过烟熏处理,容易发黑,而且大多数为边残。因此,修复时所选取的材料、颜色和纸纹应和原件一致或者相近,配置的浆糊要相对浓一些,修复手段以补边为主,装帧遵循整旧如旧颜色,封面一般采用原件相同的小牛皮和麻布等材料。此外,修复前最好根据每本古籍的破损情况先鉴定破损程度,然后制定修复方案,并建立修复档案,记录修复材料的资料、修复手段和部位,并对古籍修复前后进行对比拍照,作为修复历史进行保存。
彝文古籍原件的保护包括两个方面。一方面是数字化过程中的保护,如扫描时为追求速度,按压造成古籍损坏的情况时有发生;对于不容易数字化的古籍最好等有了更好的技术后再进行数字化。另一方面是数字化后的古籍作为文物需要长期保存,保护策略主要是对存放环境的严格管理和控制,包括对温度、湿度、光照等自然条件的控制,霉菌虫害的防治,空气污染物和通风性等影响空气质量因素的控制和火灾等人为损害的防护四个方面[3]。
3.3 模数转换及数据存储
古籍的模数转换是指把古籍原件通过数字化手段转换成电子信息的过程。数字化的工作既可以由项目组自己完成,也可以外包给专业公司。如外包给专业数字化企业,按项目组要求进行数字化,等数据和原件验收合格后支付相关费用,或者是外包给数据库生产商,合作共建并共享资源。
目前,适用于彝文古籍数字化的手段主要有手工录入(包括手工绘图)、扫描、拍照、彝文识别(包括语音识别)、录音录像(包括缩微影像)等。手工录入适用于彝文古籍编目数据和电子全文的录入,但录入工作需要耗费大量的人力和时间。它采用的技术是彝文输入法及其字库,比较权威的是 “YWWIN2000”系统、“滇南彝文输入法”和沙马拉毅教授主导的“信息交换用彝文24×24点阵字模集及数据集”。手工录入的数据保存格式可以采用TXT、DOC、DOCX、ODT、WPS、RTF等文本格式。彝文识别主要用于古籍电子全文的录入,它先对古籍按统一规格进行扫描,再利用彝文识别软件将扫描的图像转换成文本,最后经过校对后保存,这方面目前尚未有更多突破。古籍全文图像版可以最大限度地保存古籍原貌,是目前古籍全文数字化的主要手段。扫描时要注意四个要点。第一是所有古籍页面的扫描都要遵循事先制定的规范和流程进行。第二是扫描设备最好采用非接触式“V”型书稿台大幅面扫描仪,以小角度翻页扫描为主,并且可以自动纠偏、剪裁和大小识别,扫描结果能直接生成需要的封装格式。第三是扫描的分辨率、图像大小、文件大小和格式的选择要合理。分辨率越高,图像越清晰,文件也就越大,需要的存储空间也就会相应增大且网络传输速度慢;文件格式可以采用TIFF、JPGE、PSD、GIF、PNG、DjVn等,它们各有优缺点。第四,根据彝文古籍的纸张特点,扫描时光源最好选用零紫外和零红外低亮度冷光源。拍照方式主要用于临时获取且不能长久拥有的纸质古籍和非纸质古籍的数字化处理,它的优点是数字化速度快,环境适应性强,可以随时随地进行操作。此外,还可以利用平角镜头和专业工作台对古籍进行固定照相以代替扫描仪。拍照的设备最好选用暗光条件下成像性能较好的单反相机,拍照时需要多拍几个角度,以便最终筛选。照片的像素、尺寸、IOS、光圈、颜色位深度等参数对照片质量和文件大小的影响较大,需要反复测试找出合理的参数设置。录音录像主要用于记录口传古籍和特殊情况下的古籍全貌及其动态特征,目前用得不多,在录制时同样要考虑音视频的编码格式、封装格式、分辨率、码率、声道、采样数、图像尺寸、文件大小等参数,需要通过实验确定最优配置[4]。
通过以上方法得到基本数据后,需要对全文数据进行分类汇总,为下一步的规范存储做准备。首先要把全文数据封装成最终所需要的格式,常用的全文资源封装格式有PDF、HTML、CAJ、EXE、WDL、PDG、EBK、EBD、NLC、SGML、FLV、MKV、MP3等,不同的封装格式将影响阅读的方式。文本和图片目前用得较多的是PDF、HTML,音视频用得较多的是MKV或FLV。其次要对全文的存储文件进行标识,建议用题名作为标识字段,以便于后续的数据库建设工作。最后要考虑存储及其灾备设备。目前的存储技术主要有RAID、DAS、NAS、SAN、SAS等,它们各有优缺点,考虑到全天候无故障运转时间、容量易扩展、文件交互共享方便和数据安全及备份功能,建议选择企业级产品。
4 彝文古籍数据库的建设及资源共享策略
彝文古籍数据库的建设主要包括软硬件平台建设和数据库内容建设两个方面,软硬件平台建设既可以直接租用云端设备,也可以自建。彝文古籍数据库内容建设的资源应积极采用各收藏单位已经数字化了的古籍资源,以提高建设效率。
4.1 数据库平台建设
彝文古籍数据库属于中等规模数据库,对软硬件环境的要求不是太高,但要考虑将来进一步的开发和利用,按照应用层次至少要选择部门级以上服务器,比如DELL PowerEdge R430、IBM X3750 M4和HP DL560 G8等机架式服务器,存储可按需求逐步增加。此外,建议把服务器进行虚拟化,如果采用虚拟服务器作为硬件平台,当服务器发生故障时可以自动进行应用的动态迁移,保证数据库的正常运行。虚拟化软件可以采用VMware公司的vSphere系列软件,其中的ESXI既具备了基本的功能,又可以免费使用。
软件平台建设包括系统、数据库、数据库管理平台建设及管理模块设计。服务器的操作系统有Windows Server、Linux、Netware、Unix等,按需选择即可;数据库可用的有MYSQL、Oracl、DB2、SQLServer等,需要根据数据库规模和应用平台的支持类型进行选用,彝文古籍数据属于中等规模关系数据库,建议选用SQL Server;目前的数据库管理平台比较多,如DSpace、EPrints、Fedora等,建设时既可以选择直接购买和定制成品,也可以自己开发或者采用免费开源软件进行修改使之符合需求[5]。如果考虑到节约成本和数据安全的需要,可以使用免费的开源软件DSpace,其已被清华大学和北京大学等知名高校图书馆广泛应用。管理模块一般由有以下四个部分组成:第一是用于控制用户权限的用户管理模块;第二是用于广泛收集资料而设计的彝文古籍文献采集模块;第三是用于质量审核和错误修正的古籍管理模块;第四是用于呈现和在网络上发布的古籍检索与展示模块。
4.2 数据库内容建设
彝文古籍数据库内容的创建是一个长期的过程,需要分阶段进行。第一步是创建提要数据库。它包含了书目及文献有关数据的基本信息,其著录的目录信息主要包括中彝文题名、收集人/单位、收集地点、资料完整度、收集时间、全文资源格式等。编目规则可参照“CALIS古籍联机合作编目规则”和“古籍著录规范”,创建方式主要是手工录入,录入时可以由各数据录入人员或单位联网远程操作,也可以填写统一制作的EXCEL表格,然后把表格汇总至项目组检查数据的准确性与规范性,最后由技术人员统一导入数据库。这里建议采用后者的操作模式,可以有效地保证数据库质量。第二步是创建图片版全文数据库。首先将以扫描、拍照等方式获取的古籍全文图片、多角度拍摄的外观图片等古籍全文资料封装成统一的图书格式,存储到计算机中,然后把古籍全文与其目录数据条目一一对应,并建立链接,最后通过网站进行发布。第三步是创建详细书目数据库,它包含了更加详细和完善的中彝文书目数据,如中彝文内容摘要、中彝文关键词、版本、中彝文内容分类、中彝文用途等。第四步是创建全文检索版数据库,主要工作就是将图片版的彝文古籍图书请专家整理翻译及校对后,形成彝文古籍全文电子文档和中文译注全文电子文档,最后将这些文档和对应的目录数据库中的条目进行关联,建成中彝文对照和图文对照的全文数据库。
4.3 资源检索及共享
资源检索是古籍数据库最重要的功能和应用。在数据库系统构建过程中,只要对文献进行了统一的标识和组织,对文献内容的描述和揭示清楚规范,就可以实现对古籍的中文或彝文全文检索、图像检索、精确和模糊检索等检索方式。检索功能设计时,要考虑界面、检索策略、信息量等方面的问题。依照用户习惯,界面及操作应尽量简化。此外,还应注重单位门户网站和数据库的信息关联,为读者提供集成化、专业化的信息检索途径[6]。在移动互联网快速发展的今天,数据库建设时必须考虑读者对移动阅读和个性化服务的需求。古籍数据库可以和移动图书馆系统挂接,使用户在移动转端上就可以直接访问、检索和获取古籍信息及全文。由于彝文古籍数据库是凝聚了众多人力物力和财力的劳动成果,有时需要对访问权限进行控制。一般情况下书目和提要数据可以完全共享,但全文数据可以采用IP控制或账号控制的手段有偿获取。为提高数据库的利用效率和使用效益,书目数据库还可以加入云图书馆、高校特色数据库共享平台、CALIS特色中心服务系统等资源共享平台,扩大其认知度和影响力。
5 彝文数字化古籍的深度开发与利用策略
为了使数据库功能不断完善和增值,为读者提供更好的资源和使用体验,彝文古籍数据库建成后需要借助新兴的信息技术手段进行深度开发,对古籍蕴含的多重信息尽可能地进行组织与揭示,使其成为一个立体的彝族文化信息知识库。
5.1 构建可扩展性古籍数据库,提供立体阅读环境
彝文古籍数据库除了是纸本图书的简单翻版外,应在原著的基础上进行拓展。第一,可以在古籍的不同类别、用途和版本之间建立元数据关联。比如图像版和文本版之间的对照与切换。图像版主要展示版本类型、版刻形式、字体和墨色等信息,用于版本、书史的研究和文物的鉴定。第二,可以在原文与相关知识点之间创建链接,为读者提供立体阅读环境。这些知识点主要包括彝文古籍的注疏、传注、章句、义疏、集解、音译等,其中包含了丰富的内容,是后人阅读理解原文和继续研究的重要材料。此外,还可以建立相关文献之间的链接和文献与相关网站之间的链接,比如古籍关键词和现代研究成果之间的链接。第三,可以开发一些辅助性工具加入数据库中,如彝文查询工具(字典),历史年表、电子地图等。这样就可以避免研究者为了获得某些繁琐细碎的知识而耗费大量的时间另行查找相关资料。
5.2 建立智能检索系统,开发数据库的统计和分析功能
当数据库内容建设完成了第四步后,就可以开发智能检索系统,这将极大地节省研究者在文献检索方面所花的时间,启发和扩张研究的深度和广度。根据不同文献自身的特点,针对性地开辟各种特殊检索项目,系统从已有的信息中自动提取信息,构成一个基本信息数据库,再结合一个规则库,实现对基本信息数据库的智能检索。另外,还可以对有关古籍内容和各类检索结果进行计量统计,把统计结果作为后续研究的基础数据,最终建立一个统计知识库,包括词汇知识库和作者信息库等在内的相关统计信息。并利用“知识发现”领域的一些技术和方法,如元数据仓储、知识挖掘和聚类分析方法,为研究者展示一个多维度的统计和分析结果,提供可视化的知识关联图谱,把各种统计结果相互结合、参照、对比,获得更大的思考和研究空间[7]。
5.3 利用数字化资源提高彝文古籍的整理效率
利用数字化了的彝文古籍数据库,研究者可以方便高效地完成原始资料搜集,极大地提高了古籍整理的效率和精确度,开阔了整理工作者的眼界。首先,要厘清彝文古籍版本源流,离不开书目数据库,它可以快速地查阅版本有哪些、藏在哪里等信息,借助详细的著录信息,可以精准高效地进行版本考辨。其次,许多非彝文古籍的相关资料,对古籍整理有重要的辑佚、笺注和编年价值,通过古籍数据库的知识链接功能,在任何时候都可以便捷地获取相关资料。另外,在没有古籍数据库之前,完全靠整理者的知识积累、有限的工具书和自己拥有的古籍资料,古籍之间注释和翻译的准确度无法相互印证,有了数字化版本后,古籍整理者可以利用高质量的在线工具书,方便快捷地获取大量的已经整理好的古籍文本进行借鉴。
5.4 利用数字化彝文古籍传播彝族文化
彝文古籍数据库建成后要充分利用各种媒体拓展宣传途径,依托CALIS中心站促进资源信息共享,积极创造条件,使数据库走向开放存取,最终让广大群众也能学习和继承彝族曾经创造的辉煌文化,并把这些优秀的文化和精神传播开来,传承下去。对于普通民众,目前的技术方法还有些不足,难以满足他们的求知和审美需求,需要利用更有力的技术对古籍进行更加直观的展示。对于纸本古籍,首先可以把零星的图片进行拼接并制作背景,最大限度还原古籍原貌,然后利用FLASH制作成动画,最后配上相关的彝族歌曲作为背景音乐,必然能产生较好的文化传播效果。对于碑刻古籍,可以使用虚拟现实技术进行场景重现,制作3D动画碑林进行展示,让读者产生身临其境的感觉[8]。除此之外,应不失时机地将商业化运作与彝文古籍保护相结合,通过周边产品的开发和市场营销,让广大人民群众切实地受到彝族优秀文化的熏陶,促成相关文化创意产业的诞生。
6 彝文数字化古籍知识产权的保护策略
彝文古籍数据库建设需要长期持续地进行,投入较大,如果要以市场化方式运作,这就涉及到古籍如何避免非法商业利用的问题。目前,我们可以借助计算机技术和制定相关法律法规来保护数字化古籍文献的版权。
6.1 利用先进的版权保护技术
现有版权保护的技术手段主要有水印、数字证书和PKI体系等。为了有效地追踪版权的归属信息,建议采用水印技术。如基于二值图像水印的古籍数字化图像版权保护技术,利用小波变换和余弦函数变换相结合的数字水印技术等[9]。由于彝文古籍大多是由两种对比度极强的颜色组成的二值图像,因此前者的技术更加适合,其原理是先对水印信号置乱加密以提高安全性,然后将水印信息嵌入到数字资源中,在进行版权鉴定时,提取水印解密后和原数据对比,如果一致,表明对其具有版权,反之则说明对该图书不具有版权,从而为其版权归属提供参考依据。
6.2 积极推动相关法律法规的立法与支持
数字化古籍文献的版权保护,还要靠制定相关法律法规来保障古籍数字化产业的健康发展。古籍的“文献保真”和“文献整理”的界定和处理原则,纸质古籍产品对应电子产品的著作权界定,数字化古籍在知识产权保护中的特殊性等问题,都必须通过制定相关法规加以解决。古籍数字化虽然极大地方便了读者阅览古代文献,但对于立法原则的争议也比较多。比如近年来我国涉及“古文点校”成果电子化的著作权纠纷,有的学者认为基于事实和对事实的思想观点不受著作权法保护,有的学者认为绝大多数人阅读古籍只能通过点校版本阅读,古代文献的点校者和出版者应当受到保护。对于此类古籍知识产权立法的争议,立法时既要考虑符合著作权法基本原理,又要使点校者和出版者受到合理期限的保护。
7 结语
通过彝族文化与现代信息技术的完美结合,建设彝文古籍数据库,开发相关扩展功能,开拓数字化彝文古籍利用的新方式,是目前彝族古籍抢救、保护和开发利用的主要手段,也是弘扬彝族文化的重要途径和彝文古籍整理技术的发展方向。数据库的建成将为彝文古籍研究者提供一个便捷的研究平台和研究利器,满足新时代彝文古籍多方面多层次的需求。彝文古籍数字化工程是一个庞大的系统工程,肩负着保护和传承彝族文化的历史使命,功在当代,利在千秋,任重而道远。
参考文献:
[ 1 ] 高娟,刘家真.中国大陆地区古籍数字化问题及对策[J].中国图书馆学报,2013(4):110-119.
[ 2 ] 杨楠郡.修复彝文古籍基本方法回顾[J].云南档案,2013(4):35-37.
[ 3 ] 栾伟平.数字化过程中的古籍保护问题:“明别集丛刊”项目的工作体会[J].大学图书馆学报,2013(3):84-86,121.
[ 4 ] 傅荣校,翁敏曦.档案数字化扫描与存储格式比较研究[J].档案学通讯,2007(2):61-64.
[ 5 ] 张旺强,祝忠明,卢利农.几种典型新型开源机构知识库软件的比较分析[J].现代图书情报技术,2014(2):17-24.
[ 6 ] 郭春凤.图书馆古籍数字化保护平台的构建[J].图书馆学刊,2012(12):49-51.
[ 7 ] 徐清,石向实,王唯.古籍数字化资源的深度开发[J]. 图书情报工作,2007(3):95-97,79.
[ 8 ] 朱宗晓,王江晴,田微,等.少数民族古籍的数字化传播[J].图书馆建设,2013(3):23-26,29.
[ 9 ] 张军亮,朱学芳.基于二值图像水印的古籍数字化图像版权保护及其实现[J].现代图书情报技术,2010(9):79-83.