APP下载

中医药古籍数字化建设的探索与实践——以广东中医药博物馆为例

2012-06-28李宝金蓝韶清张晓旭

大学图书情报学刊 2012年1期
关键词:古籍中医药数据库

李宝金,蓝韶清,张晓旭

(1.广州中医药大学,510006;2.广东中医药博物馆,广州 510006)

1 古籍数字化发展

古籍属于不可再生的文化资源,具有文物价值与文献价值的双重属性,尽管我国加大了对古籍的保护力度,但随着历史的推进,古籍还是会悄无声息、不可避免地出现损毁,乃至消亡。一般古籍保护分为原生性保护和再生性保护,所谓原生性保护,是对古籍原件的保存与养护,包括修复残破古籍、改善保护环境。再生性保护是指通过影印、扫描和数字化处理等现代技术手段,将古籍的形式和内容进行复制转移和再发展[1]。伴随着数字化、网络等技术的发展,古籍的数字化发展逐渐起步,古籍数字化,就是利用计算机等数字化技术将古籍进行扫描、文字识别与转换或录入,并使之结构化,建立古籍数据库,其目的在于保护古籍和揭示古籍文献信息,最终实现古籍的保存和利用。古籍的数字化是中华文化由纸质媒介向现代化传播方式的重要转变,是中医药文化传播方式的一次革命。

目前,中医药古籍数字化取得了一定进展,在保护与利用中医药古籍的矛盾中取得了相对的平衡,例如:中国中医科学院中医药信息研究所利用其资源优势,构建了“中医药古籍资源数据库”,现已收录1500种中医古籍的元数据信息和其中的850种中医古籍的原文图像,已经可以通过中医古籍阅览系统实现电子阅览[2],为中医药古籍数字化保护和利用开辟了途径。

2 中医药古籍数字化建设内容

2.1 建设目标

广东中医药博物馆成立于2006年,前身是广州中医药大学中国传统医药文化博物馆,保存主要包括岭南地区的医史文物、动植物标本等,藏有丰富的中医药古籍,形成了华南地区最大的中药标本中心,是广东省中医药强省建设的重点项目之一。

广东中医药博物馆的中医药古籍数字化总体建设目标是:针对广东中医药博物馆内古籍的特色,利用计算机、数据库、多媒体和网络等技术,采集中医药古籍数字化信息,并进行存储、加工,完成古籍数字化,搭建古籍数字化资源保护、研究、展示、传播的平台,以期达到向公众提供中医药博物馆的全方位信息服务、传播中医药文化和保护中医药非物质文化遗产的最终目标。

2.2 建设内容

中医药古籍的数字化内容主要包括:书目元数据库、原文图像、全文文本、研究支持功能等,具体建设的总体框架图如图1所示:

图1 中医药古籍数字化建设总体架构图

2.2.1 中医药古籍书目元数据库

元数据是用来定义存储在数据库中数据形式的数据,是指提供关于信息资源或数据的一种关于结构化的数据,其功能为描述数据本身之特征或属性[3]。每一条中医药古籍的元数据基本上应包括该中医药古籍的所有特征或者属性。广东中医药博物馆根据中医药古籍的特点以及馆内管理的需要,每一条元数据都需包括:入馆登记号、入馆日期、入馆名称、作者、类别、出版者、出版年代、征集人、征集日期、质地、功能、完残、颜色、题识内容、征集经过、流传经历、备注、登记人、登记日期等二十多个属性。

2.2.2 中医药古籍原文图像

将中医药古籍以图像形式扫描,全文录入计算机,这种方法就是将古籍文献的文字包括图表、针灸图谱、拓片等皆以图像形式录入计算机,然后用Photoshop等图片处理软件进行处理,实现数字化。它的最大优点是,既能保持古籍的“原貌”,内容又不会错讹,同时录入也方便省力。

2.2.3 中医药古籍全文文本

将纸质中医药古籍文本通过扫描、识别转换成数字文本,或者通过人工将中医药古籍中的文字通过键盘输入计算机中,完成中医药古籍全文文本数据库。全文文本的古籍数字化要比单纯的原文图像更进一步,它的优点在于全文文本数据库可以方便地用于检索、统计、编辑等,且储存空间小。当然其缺点也是相当明显,全文输入不仅量大、难度高,而且错讹难免,无校勘价值,有失原貌,特别是中医药古籍中的生僻字、繁简字、通假字特别多,不方便录入。

2.2.4 中医药古籍研究支持功能

中医药古籍的原文图像和全文文本都只是古籍的一种原版,缺乏一定的研究支持功能,所谓研究支持功能是指能够提供有关中医药古籍内容本身或者相关的参考信息、数据、辅助工具等,这些都是中医药古籍内容的扩展或补充[4]。中医药古籍具有非常高的文献研究价值,其研究支持功能应更强大。除常用的中医古籍研究辅助工具外,还应具有不同版本和相关数据的链接。对相关内容进行标注,对生僻字进行注解等都是研究支持功能的重要组成部分,而目前的中医药古籍数字化的研究支持功能尚显薄弱。

2.3 数字化原则

2.3.1 保真原则

因中医药古籍具有文物价值,那么数字化过程中除了对其进行原生性保护,还必须进行再生性保护,数字化产品再生性保护的“复制转移”中必须保护其原貌,即保真原则。所谓保真原则是指数字化中医药古籍产品应该具有重现作为历史文物的古籍原貌的功能,具体表现是数字化古籍产品应该具有原文图像。原文图像主要满足版本研究、文物鉴赏、书史研究、文字校勘、原件对照等特殊需要。

2.3.2 整理原则

因中医药古籍又具有文献价值,那么数字化过程中的再生性保护除了保护其原貌,还必须“再发展”,即整理原则。所谓整理原则是指数字化古籍产品应该具有文献资料的应用性,追求的不再是形式上的保真,而是内容的保真。古籍的数字化并不只是对古籍进行扫描在计算机中存储而后能浏览就可以了,还必须对古籍进行相关整理,具体表现是数字化古籍产品应具有全文文本,并对文本进行整理、校对、注释、补充等,对中医药古籍进行深度的挖掘和开发。

2.3.3 实用原则

中医药古籍的数字化其实就是中医药古籍在保护与应用这一矛盾中寻求的一条合适之路,数字化既能保护古籍“永不消失”,又能使古籍的原文图像、全文文本能为研究者、公众所利用。中医药古籍数字化最终所形成的中医药古籍数据库管理系统必须具有浏览阅读、全文检索、研究支持等功能,能给管理者、研究者、公众的管理、研究和阅读提供帮助,具有一定的实用性,因此数字化过程中的实用原则是非常重要的。

2.4 技术支持

2.4.1 平台的搭建

广东中医药博物馆的中医药古籍数字化的整个系统基于JSP的WEB应用开发技术,采用B/S(浏览器/服务器)模式、SQL Server数据库系统,构建了跨平台、可维护和可扩展的中医药古籍数字化系统。

2.4.2 图像扫描与拍摄

中医药古籍数字化的一项非常重要的内容就是原文图像的扫描和拍摄,对于大部分的古籍都可以使用A3扫描仪进行全彩扫描,对于部分特大版本的古籍或者大型字画等则需要使用数码相机进行拍摄,从而获得其原文图像。之后则需要对图像进行编目,并通过Photoshop等图像处理软件进行纠偏、去污、裁边等处理。当然扫描仪也有其不足之处,那就是古籍与扫描仪接触过近,仍避免不了紫外线的照射,会对古籍产生一定的损伤,因此对于古籍是拍摄还是扫描就要有所选择。

2.4.3 文字输入与转换

中医药古籍的数字化涉及到大量的文本输入及转换,在中医药古籍中存在大量的繁简字、生僻字、古今字、通假字等,这对文本的录入带来一定的障碍,生僻字等文本的录入需要有很深中医文献功底的工作人员才能做到。在文字的输入与转换中主要使用Unicode字符编码和OCR技术。Unicode的统一编码有效地解决了在此之前各种编码系统存在的明显缺陷,即没有包含足够的字符,以及存在的统一编码值代表不同字符或者是用不同的编码值代表相同字符。OCR(Optical Character Recognition,光学字符识别)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。当然,OCR软件对中医药古籍中部分繁体字和不规则用字的识别效果不是很理想,需要辅以人工校对。

3 中医药古籍数字化发展的展望

3.1 建立统一的标准

标准化是中医药古籍数字化的基础,只有符合公认的统一标准,数字化的古籍文献信息才能在不同的计算机系统之间交换数据,才能实现用户和系统以及系统与系统之间的有效沟通。目前,参与中医药古籍数字化的单位很多,但几乎都是各自为战,缺乏相互之间的沟通和交流,缺乏统一的数字化标准,难以实现资源共享,因此,有必要建立统一的标准,包括中医药古籍的分类法、著录规则、软件和数据库的使用、数字化加工标准、加工和利用平台等。统一的标准是实现中医药古籍数字化资源共享的基础,也是促进中医古籍数字化建设进程的有力保障。

3.2 深度开发利用

中医药古籍数字化不应仅仅满足于对古籍的阅览和查询。中国中医药古籍是一个知识宝库、是中华民族几千年来防病治病宝贵经验的结晶,古籍中蕴含着大量的隐藏信息等待研究者去挖掘开发。在数字化的基础上利用相关数据挖掘工具进行研究和挖掘古籍中的宝贵知识财富,实现知识的再发现和拓展,使其更好地为中医药事业的发展和人类健康服务。

3.3 版权保护

中医药古籍的数字化产品不同于一般图书的数字出版,一方面要考虑开发者的成本和积极性,毕竟这些数字化产品是大批工作人员对古籍进行整理、登记、扫描、录入、校勘等一系列艰苦工作的结晶;另一方面还要考虑中医药古籍的普及推广、中医药文化的传播,这就需要政府加大对数字化中医药古籍市场的监管力度,加强版权保护,保证中医药古籍数字化事业的顺利开展。

3.4 复合型人才的培养

中医药古籍的数字化工作对工作人员提出了更高要求,它是一项集计算机知识、医史文献知识等多种知识于一体的工程,它不仅要求工作人员要掌握中医药古籍的分类、版本鉴定、编目,还要会设计数据库,懂得计算机网络、多媒体等现代技术,因此尽快培养一批具有医史文献专长、信息技术素养较高、技术熟练、善于合作的复合型人才显得极为重要而又迫切。

4 结语

中医药古籍数字化是中医药文化与现代技术的结合,对中医药古籍的保护与利用提出了更高的要求。广东中医药博物馆的中医药古籍数字化工作虽有一定成绩,但仍属起步阶段,在中医药古籍的数字化建设中仍需要和各界同仁共同努力探索,完善数字化工作的建设体系、共享体系和服务体系,为中医药事业的发展、中医药文化的传播和中医药非物质文化遗产的保护贡献自己的力量。

[1]祁雪丽.刍议数字化背景下的古籍保护[J].丝绸之路,2011,(14):102 -103.

[2]李 兵,刘国正,符永驰等.从中医古籍数据库建设看中医古籍数字化[J].中国中医药信息杂志,2009,(16):92-93.

[3]熊 静.元数据在汉语文古籍数字化中的应用[J].图书与情报,2010,(1):89 -92.

[4]杨继红.中医古籍数字化资源建设概述[J].现代情报,2008,(28):136 -138.

猜你喜欢

古籍中医药数据库
中医古籍“疒”部俗字考辨举隅
中医药在恶性肿瘤防治中的应用
中医药在治疗恶性肿瘤骨转移中的应用
关于版本学的问答——《古籍善本》修订重版说明
关于古籍保护人才培养的若干思考
从《中医药法》看直销
我是古籍修复师
数据库
中医药立法:不是“管”而是“促”
数据库