地方文献全文数据库建设的一点尝试
2011-03-18周艳
周 艳
(辽宁省图书馆 沈阳 110015)
·一得之见·
地方文献全文数据库建设的一点尝试
周 艳
(辽宁省图书馆 沈阳 110015)
在分析地方文献全文数据库类型的基础上,指出地方文献数据库全文建设的一般做法,并针对其缺点,设计程序予以改进,最后给出具体实现步骤。
地方文献 数据库 全文
地方文献是指有关本地方的一切资料[1],包括“史料、地方出版物和地方人士著述”三部分,含括了地方政治、经济、历史、地理、文化、科学、教育、军事、边防、民族、宗教、风土人情、自然资源等各个方面。地方文献既反映地方特色,又体现时代特色和社会发展历程,具有很高的历史、科学和情报价值,也是一个正在被日益广泛利用的文化宝库。
目前,我国各级公共图书馆都非常重视地方文献的收集、整理、网上发布等工作,建立了地方文献专藏,把文献资料的保护与提供利用紧密地结合起来。同时,为方便读者网上阅读,建立了地方文献全文数据库[2]。
1 地方文献全文数据库的类型
按照全文字段的存储形式和占用存储空间大小划分,地方文献全文数据库主要有纯文本、图像、多媒体三种类型。
1.1 纯文本
是将文献经过扫描及光学字符识别(0CR)后,保存为文本文件。优点是占用空间小,读者可以进行全文检索,文献的查全率较高;缺点是图书馆工作人员的劳动强度大,差错率高。
1.2 图像
是将文献正文扫描为 .jpg、.tiff等图像文件,将书名、作者、出版发行项、目录、关键词等字段进行著录。优点是可对文本字段进行检索,速度快,工作人员的劳动强度小,差错率低,也能阅读及下载全文;缺点是占用空间大,不能进行全文信息检索。
1.3 多媒体
是将文献资料数字化为MP3等格式,通过关键词进行检索。数据占用空间非常大,图书馆一般不采用此种方式存储数据。
2 地方文献全文数据库建设的一般做法
尽管地方文献全文数据库有多种表现形式,但图像形式比其它形式建库速度快,图书馆工作人员的劳动强度小,差错率低,而且随着图像压缩技术的发展和计算机大容量存储设备的出现,占用空间大小已不是主要考虑的问题,因此,在图书馆地方文献数字化建设中,全文数据库采用的大都是这种存储方式。
具体做法通常是购买成型的数字化产品(TRS等),然后将扫描后的每张图片(对应文献中的页码)链接在文献相关的字段上。这样,按文献的题名、责任者、出版项进行检索,就可以找到全文文献存储的界面,再一页一页的阅览文献全文。这样做的优点是可以降低图书馆工作人员的劳动强度,只要将全文文献扫描后,按照书中的页码存储就可以了。但对于读者来说,上网下载全文时会非常麻烦,必须一页一页的浏览、下载,如果需连续阅读,则更为繁琐。
3 我馆地方文献全文数据库建设的一点尝试
如果图书馆自建的全文数据库,也能像在网上阅读电子书一样,既可以一页一页的阅读,也可以跳跃式的阅读,不是就能满足读者方便快捷地阅读及下载全文的需要了吗?笔者在我馆地方文献全文数据库建设实践中,根据实际需要,设计了简单实用的两个小程序,巧妙的实现了数据库中全文字段的存储,同时利用Adobe Acorbat 和Word软件的转化接口,实现了适合读者网上浏览的全文存储方式,使读者可以像阅读电子书那样在网上阅览文献。同时,采用.pdf 格式存储的文件,还能实现与其他格式文件的转换,实现文档加密、数字签名、文档只读浏览等功能。
3.1 建文件夹,逐页扫描
将需要做全文的书籍,逐页扫描为 .jpg或 .tif格式,并将扫描后的文件放入已建好的文件夹中。如:《辽东半岛石棚》一书(d:-dbdsp),文件名可依次为顺序号:1.jpg、2.jpg、3.jpg、4.jpg……(也可以按书内容的顺序,依照书名的命名方法对文件进行命名,然后用批量转换软件进行转换。)
3.2 打开Word编辑宏的界面,将下面代码粘贴到模块中
Dim i As Integer
For i = 1 To 1329 * 书的页数…
ChangeFileOpenDirectory “d:-dbdsp”
Documents.Add DocumentType:=wdNewBlankDocument
Selection.InlineShapes.AddPictureFileName:=i&“.jpg”, LinkToFile:= False, SaveWithDocument:=True
ActiveDocument.SaveAsFileName:=i&“.doc”, FileFormat:=wdFormatDocument, _
LockComments:=False,Password:=“”,AddToRecentFiles:=True, WritePassword:=“”,ReadOnlyRecommended:=False, EmbedTrueTypeFonts:=False,
SaveNativePictureFormat:=False,SaveFormsData:=False, SaveAsAOCELetter:= False
ActiveWindow.Close
Next
运行上面的程序后,原来扫描的.jpg图片格式的文献,就转换成了.doc格式的 word文档文件。
3.3 将一个个独立的word文档转换为一个能容纳整个文献的word长文档
For i = 10 To 1329
ChangeFileOpenDirectory “d:-dbdsp”
Documents.Open FileName:=i & “.doc”, ConfirmConversions:=False, ReadOnly:= False, AddToRecentFiles:=False, PasswordDocument:=“”, PasswordTemplate:= “”, Revert:=False, WritePasswordDocument:=“”, WritePasswordTemplate:=“”, _
Format:=wdOpenFormatAuto, XMLTransform:=“”
Selection.WholeStory
Selection.Copy
ActiveWindow.Close
Selection.PasteAndFormat (wdPasteDefault)
Next
ActiveDocument.Save
这样,就生成了一个含有全部文献内容的word长文档。
3.4 将word文档转换为.pdf文档
安装Adobe Acorbat软件,在word中按“转换到Adobe PDF”按纽。运行Acorbat,打开生成的 .pdf文档,对文档进行加密、数字签名等安全设置。
通过以上几个步骤,就可以将一本本珍贵的纸制地方文献书籍全文数字化,简便易行,特别适合文献数量不是很大的中小型图书馆采用,而且由于.pdf格式为电子图书的格式,非常方便读者网上浏览。
[1] 李 诚. 关于地方文献数据库建设的思考[J]. 图书馆工作与研究,2002(1):54-57.
[2] 林淑晶. 对图书馆地方文献数据库建设工作的讨论[J]. 今日科苑,2008(16):241-242.
OnConstructionoftheFullTextDatabaseofLocalLiterature
Zhou Yan
Liaoning Province Library, ShenYang 110015, China
Based on an analysis of the types of the full text database of local literature, the present paper first summaries the usual methods of building the database, then in view of its demerits designs programs for its improvement, and finally offers the specific procedures for its construction.
local literature; database; full text
G250.7
周 艳,女,1964年生,副研究馆员,硕士,研究方向为数字图书馆,发表论文10余篇。