APP下载

云南少数民族医药文献数字化整理探讨

2017-07-05保丽娟

中国民族民间医药 2017年11期
关键词:标引医药少数民族

保丽娟

云南中医学院,云南 昆明 650500



云南少数民族医药文献数字化整理探讨

保丽娟

云南中医学院,云南 昆明 650500

民族医药文献数字化是保存和促进少数民族医药知识及文化传播的有效途径。论文从数字化准备工作、加工标引、管理发布等方面详细介绍了云南少数民族医药文献数字化建设的操作流程和步骤,并针对云南少数民族医药文献不同载体类型的特点及少数民族文字的特色详细介绍了数字化方法,以期为民族医药文献数字化工作提供参考和借鉴,促进民族医药事业的发展。

民族医药文献;数字化流程;数字化方法

民族医药文献数字化是指利用现代电子信息处理技术在相关标准的指导下对民族医药文献进行加工标引等处理,使其转化为电子数据形式存储到数据库中,然后通过光盘、网络等途径进行信息检索和查询,以便于文献资源的保存和传播。民族医药文献数字化是保护与传承民族医药资源和文化的重要方式之一,数字化以后的民族医药文献资源不仅能够真实清晰地反映资源的本来面貌,促进民族医药资源和文化的传播,还能有效解决民族医药文献保护与使用之间的矛盾。纵观云南少数民族医药文献数字化成果可以看到,这些数据库大都只是进行了文献资料的整理和资料的入库建设,数据库功能结构单一,各数据库相互独立,结构模式简单,难以扩展升级。这些数据库的模式和结构限制了云南少数民族医药数据资源的传播和共享,并不能完全满足对民族医药文献资源深度挖掘的需要。因此,需要制定一套完整的民族医药文献数字化整理方案,并以该方案为标准和指导,统一规划,合理部署,以实现资源的充分利用。在数字化整理方案中,数字化流程及数字化方法规范是方案中的重要组成部分,因此需要针对云南少数民族医药文献资源的特点制定出详细的数字化流程及相应的数字化方法以指导数字化加工人员规范操作。

1 云南少数民族医药文献数字化流程

文献数字化流程,是云南少数民族医药文献数字化建设项目中的关键步骤,数字化流程主要分为三个阶段,见图1。第一阶段是前期准备工作阶段,第二阶段是民族医药文献信息资源的数字化制作与加工阶段,第三阶段是数字化文献的发布及管理阶段[1]。

1.1 数字化准备工作 对于民族医药文献资源数字化建设项目来说,充分、完备的前期准备工作是项目能顺利开展的前提和保障,是整个数字化项目建设中的第一步,数字化准备阶段包括以下几个主要工作。

1.1.1 少数民族医药文献资源收集 根据数字化建设的主题,确定民族医药文献的收集范围。确定所需要收集文献的内容及形式,然后进行全方位的资料收集。民族医药文献资源的收集要与相关民族地区图书馆、博物馆、医疗机构、科研院所等单位密切配合,开展大量的民族地区民间走访,采用田野调查的方式对各种载体形态的民族医药文献资源进行搜集。对于印刷型或手写型文献,可以通过复印、扫描、拍照等方式收集;对于刻写型文献,通过拍照,拓印等方式收集;对于口碑文献,可通过文本记录、录音、拍摄影像等方式收集。理顺收集渠道,采用对外交换,对内挖掘,利用搜索引擎对现有的相关民族医药电子文献进行筛选等方法,收集与数字化建设主题相关的各类民族医药文献资源。

1.1.2 少数民族医药文献资源整理 根据数字化建设的主题,对民族医药文献资料进行筛选,按照所制订好的《民族医药文献数字化分类方案》进行分类整理,对于版面信息残缺不全的民族医药文献,在数字化工作之前进行信息补缺或做相应的说明,以保证文献信息的真实性和完整性,然后对原始民族医药文献进行拆分、拼接、文献载体清洁处理等数字化加工前准备工作,为原始民族医药文献添加资源标示符,以便于资源编目及数字化扫描等工作,确定适合数字化建设主题的元数据规范、文献标引及著录规则。

1.1.3 软、硬件设备准备 结合需要数字化的资源类型以及需要达到的数字化效果,根据数字化硬件设备的性能,综合数字化建设项目的考虑和权衡,选择适合的数字化硬件设备及数字化软件平台,以减少数字化建设中出现的故障及数据错误概率,保障数据信息的安全可靠,提高民族医药文献数字化建设的效率。同时根据民族医药文献的特点和数字化软件平台的功能,结合民族医药文献数字化项目中的数据采集、加工效果、数据识别等要求,确定不同载体民族医药文献的数字化技术。

1.2 民族医药文献资源的数字化加工与标引 民族医药文献数字化建设的数字化准备工作结束以后,就需要对少数民族医药文献资源进行数字化加工与制作,主要包括民族医药文献资源的数据采集、数据加工标引和数据存储三个方面的工作。

1.2.1 数据采集 民族医药文献数据采集必须要做到及时、准确、有效地获取所需数据信息,在数据采集中要充分体现民族医药文献资源的特色,做到民族医药资料的全面性、系统性和连续性。在民族医药文献数据采集中,需要完成各种载体类型民族医药文献信息的采集,包括各类纸质文献、图片资源和音视频资源以及网络资源、现有数据库资源等的采集工作。对于非电子化的资源,还需要通过扫描、拍照、录入等方式将其转换为电子资源,根据数字化加工平台的格式要求及数据采集要求,对所有需要数字化的资源进行数据转换和格式规范,然后批量导入。

1.2.2 数据加工标引 在民族医药文献数据采集工作完成后,要对所采集的数据信息做进一步的加工处理,以揭示民族医药文献资源的信息价值。各民族医药文献在形式以及内容上均不统一,增加了数据加工和处理的难度,因此,在数据加工之前,要做好不同类型资源的转换、统一,同时对数据的格式、质量做好规范化处理。

另外,在数字化加工中,首先需要在数字化加工平台中完成数据库的结构搭建,包括数据库的分类结构和元数据结构,以便于数据的标引和著录。然后根据数字化平台所提供的标引技术,采用自动标引技术、人工标引技术或者两者结合的标引方法,依据所制订的云南少数民族医药文献分类方案、元数据方案以及标引著录规则完成民族医药文献信息的标引和著录工作。

1.2.3 数据存储 数据存储能对加工标引后的数据进行科学有序的存储和保管,以便于以后对数据信息的使用。数字化工作人员应按照规定的数据格式、加工规则和数据顺序要求,将加工后的民族医药文献数据信息,通过直接存储到链接存储设备上或通过直网络方式存储到云存储中,在数据存储中要保证民族医药文献数据信息的安全性和完整性。

1.3 云南少数民族医药文献数字化数据管理及发布 云南少数民族医药文献数字化建设的最终目的是便于民族医药的传播和研究学习,因此,数字化加工存储后,还需要对云南民族医药文献信息进行发布和管理,数据发布和管理工作对民族医药文献信息资源的利用至关重要[2],需要做好以下几方面的工作。

1.3.1 数据发布 根据数字化成果的使用范围和使用权限,将数字化后的云南民族医药文献信息发布到互联网上,对不同版权的文献信息设置不同的访问权限,以供民族医药研究和学习者浏览和检索。

1.3.2 数据安全备份 把民族医药文献信息整理备份到异地存储或光盘上,可备份数据库结构信息、元数据信息,原文信息等,在设备损坏或网络安全出现问题时能有备份数据可以恢复,以保证民族医药文献资源数据库的正常使用。

1.3.3 数据更新 云南民族医药文献资源数字化建设是一项长期的系统工程,在完成当前的数字化建设任务以后,还需要根据数字化主题收集民族医药文献资源,然后按照所制订的数字化方案进行数据的持续更新,保证云南民族医药文献资源库资源的可持续发展。

2 云南少数民族医药文献数字化方法

云南少数民族医药文献的载体形态繁杂,主要有印刷型文献、刻写型文献,同时还存在大量的口碑文献。另外,各少数民族医药文献还存在不同民族文字的情况,因此,在云南民族医药文献数字化建设中,需要将不同载体形式的文献资料转换为计算机可识别和处理的数据信息。因此,数字化加工人员要针对不同文献的类型和特点,结合数字化建设要求,选择最为恰当的数字化方法。

2.1 印刷型文献数字化方法 印刷型文献是以纸为载体,以手写、打字、印刷为记录手段而产生的文献。例如图书、古籍、文稿、图谱等。印刷型的文献的数字化加工是指利用扫描技术、识别技术、数据库技术、数据压缩技术等技术手段把印刷型文献转化为电子文档存储的一种技术。对印刷型的云南少数民族医药文献数字化可以采用扫描录入方式进行模数转换,这是最常用的数字化处理方法。这种方法的工作原理是采用扫描仪或数码相机等光学输入设备,将文本类民族医药文献按照其原貌转换为能够在计算机上处理的图像文件,文字部分可以通过OCR光学字符识别技术对所扫描的文字进行识别,转换为计算机能处理的文字。采用扫描录入方法能够很好的展现文献的原貌,具有投入少、费用低、速度快等优点。

2.2 刻写型文献数字化方法 云南少数民族医药古籍中存在大量的刻写型文献,即金石文献,如傣族的贝叶经,早期彝族的碑刻文献等。对于可写性文献的数字化方法,可采用拓印后扫描、数字拍摄等方式进行数字化[3]。经过扫描、拍摄转换成图像文件以后进行数字化加工处理。在加工处理过程中要注意保持文献的原貌,因此需要考虑图像处理的相关技术。

数字化后的图像文献一般要运用图像处理软件进行优化处理,进行图像裁剪、图像效果加强、图像压缩、图片数据转换等操作,以得到更好的图片效果。比较常用的图像处理软件有Photoshop、Fireworks等。常用的数字化图像存储格式有TIF格式、JPEG格式、BMP格式等。图像文件的数据量一般比较大,所需要的存储空间也较大,因此,需要根据存储空间以及图像的需求进行图片处理。

2.3 口碑文献数字化方法 云南少数民族中流传着许多反映各少数民族传统医学药理内容的故事、传说、歌谣、谚语等,它们是各民族文化的族群记忆,对考证各民族医药的起源、形成和发展有着重要价值。对于此类口碑文献的数字化,需要从文献采集工作开始。可以通过人工记录、录音或拍摄影像等方式采集口碑文献,然后再进行数字化加工。人工记录的资料可通过人工录入或扫描的方式进行数字化加工,录音或视频数字化需要考虑到音视频加工技术。

音频文献数字化,是将音频资料通过音频转换设备进行识别、转换、压缩,生成标准格式的电子文件,并编目以及建立标引信息的过程。在音频文献数字化过程中需要注意两点:一是采集声音文件时音量要适当,如果采集音量太小,则得到的声音文件会有损失;如果采集音量太大,则音量过载,得到的声音文件就会变形,不能使用。二是要进行降噪处理,对于有噪音的声音要进行优化处理,原则上是以过滤掉杂音为主,但不能过于依赖降噪器,以防止声音文件本身及声音细节受到损失。常用的音频处理软件有GoldWave、Music Match等,常用的音频存储格式有WAVE格式、MP3格式、RM格式等。

视频文献的数字化类似于音频文献的数字化,也是需要通过专业的视频转换设备对视频文献资源进行识别、转换、压缩,生成标准格式的电子文件,并将其编目标引。视频文献数字化的过程并不比音频文献数字化的复杂,在对视频资料的处理中,需要使用视频制作软件对采集好的视频文件进行切割、优化等处理,最后进行格式转换、压缩、存档并上传到数据库中。相对于音频文件来说,视频文件占用的储存空间较大,因此,选择的视频存储格式既要保证画质清晰,同时还要考虑占用空间和下载速度的问题。常用的视频处理软件有Adobe Premiere、Movie Maker等,常用的视频存储格式有AVI格式、MPEG格式、RM格式等。2.4 民族文字数字化方法 我国的55个少数民族中有23个有自己的文字,到目前为止,只有藏、满、蒙古、朝鲜、维吾尔、柯尔克孜、傣、彝、壮和哈萨克等10种少数民族的语言文字能够进行计算机文字处理,并能够与汉、英等文字实现兼容。少数民族语言文字在数字化处理上的瓶颈,给民族医药文献的数字化建设带来了一定的困难[4]。目前,民族医药文献中的民族文字的文本数字化处理方式主要有两种:有民族文字字库的,可以通过OCR光学扫描识别技术进行扫描输入,这种方式大大提高了加工标引的效率。无民族文字字库的一般是将民族文字文献原件转化为图像文件,然后利用人工手段进行识别标引成汉字,这种方式存在加工成本高、加工效率低下等缺点。使用汉字而读音与汉语不同的,可在进行读音标引时单独做标注,全方位展现民族医药文献的特色。

对民族医药文献资源进行收集整理,并进行进一步的数字化建设是开发利用民族医药资源的有效途径,数字化技术的发展为民族医药文献的整理发掘以及长期保存提供了强大的技术支持,民族医药信息资源的系统整理和有效管理是开发利用民族医药资源的基础[5]。在“云时代”到来的大背景下,开发利用和共建共享具有代表性的民族医药信息资源,对及时抢救和保护民族医药文化遗产,深度挖掘民族医药文献资源的价值,促进民族医药事业发展具有重要的现实意义。

[1]葛洁敏. 高校灰色文献数字化研究[D].郑州:郑州大学,2010.

[2]曹霞,常存库,裴丽.中医古籍数字化建设及其平台设计和实现[J]. 中华医学图书情报杂志,2016(03):45-47,53.

[3]侯艳,江蓉星,任玉兰,等. 中医药古籍孤本文献的保护与数字化建设[J]. 中华医学图书情报杂志,2011(02):30-31,70.

[4]赵东.论少数民族古籍的数字化建设[C].第十次全国民族地区图书馆学术研讨会论文集.2008:279-286.

[5]诸国本.民族医药文献发掘整理现状及对策研究[J].中国民族医药杂志,2012(1):5-9.

Discuss on Yunnan Minority National Medical Literature Digitizing

BAO LiJuan

Yunnan University of Traditional Chinese Medicine, Kunming 650500, China

Digitalization of national medicine literature is an effective way to preserve and promote the knowledge and cultural dissemination of minority national medicine. This paper introduces the processes and steps of the digital construction of Yunnan minority national medical literature, include digital preparation, processing indexing, management and Publishment. Introduces the digital method of different literature types and minority characters in Yunnan. So as to provide reference for the digital work of national medicine literature, to promote the development of national medicine.

Minority Medical Literature; Digital Procedures; Digital Method

云南省教育厅科学研究基金项目(2014Y250)。

保丽娟(1983-),女,回族,硕士,馆员,研究方向为医学信息管理。E-mail:daibaoauto@163.com

R29

A

1007-8517(2017)11-0015-04

2017-04-27 编辑:穆丽华)

猜你喜欢

标引医药少数民族
中医古籍医案知识元标引方法的思考及对策
少数民族的传统节日
《医药导报》第十届编委会成员名单
《云南医药》杂志征订启事
古代医药文化大众传播方式概述
我国蒙医药法律保护的意义
少数民族的服装
档案主题标引与分类标引的比较分析
我认识的少数民族
《少数民族舞》等