特色数据库的建设方法与技巧——以“豆腐及豆腐菜肴”特色数据库为例
2013-12-24李华余华李慧赵涛钟涛
李 华 余 华 李 慧 赵 涛 钟 涛
(成都大学,四川 成都 610106)
特色数据库建设就是依据馆藏特色、地方特色、本校的重点学科或优势专业,来重点搜集文献资源而建成数据库。它不是简单的数据录入和数字化加工,而是一项十分复杂、精细的系统工程,需统一规划,统一标准,以及需相关专业人员和物质条件作保障,才能最终实现。
一 特色数据库建设的原则
(一)坚持服务与特色化原则
坚持服务与特色化原则,就是紧紧围绕学校的性质、培养目标、重点学科、教学改革和科研计划,有针对性地进行数字资源建设,特别是特色资源建设,确保学校的教学和科研工作的顺利进行。
(二)坚持共建共享与优势互补原则
就是坚持与其他高校“共建共享、优势互补”原则。坚决打破各条块分割、各自为政的局面,进行统筹规划和分工协作,共同建立起具有各自馆藏特色的文献资源体系,避免人、财、物的巨大浪费。
(三)坚持循序渐进与通用规范原则
特色数据库建设是一项艰苦的、长期的、持之以恒的工作,各高校图书馆应结合自身的技术实力、经济状况、人才结构等实际情况,量身制定建库计划,力争做到选准特色、量力而行,千万别急功近利、贪大求全、没有特色。在特色数据库建设中,还应坚持通用性与规范性相结合的原则,并贯穿建库的始终。为确保建库的通用性、规范性、互操作性打下坚实基础。
二 特色文献的收集途径、加工流程及方法
特色数据库建设要以馆藏特色、学科特色和地域特色为依托,所建的数据库才具有独特性、新颖性和唯一性。科学合理的文献收集与加工方法,是确保数据库质量的重要举措。其文献收集、加工流程,见图1。
图1 文献收集、加工流程示意图
(一)文献加工流程
文献收集的目的就是将同一主题的馆藏文献数字化和网络文献馆藏化。整个建库工作的难点是特色文献的收集质量(包括:数量、覆盖范围、载体类型等),重点是特色文献的加工质量(包括:数字化加工、格式转录、文献标引等)。因此,特色文献的收集与加工质量,是决定特色数据库成败的关键因素。主要工作流程:1)文献收集→2)甄别→3)数字化加工→4)文献标引→5)数据审核→6)上传保存→7)Web发布→⑧用户使用等。
(二)文献加工方法
对于不同载体的文献资料,其加工方法和手段是不同的。比如,1)网络文献,主要用复制方法。但需对部分文献进行格式转化或页面重排,使之与系统的软硬件环境更匹配,图像更清晰美观,占用空间更小,传输速度更快;2)图片资料,主要采用扫描或翻拍;3)音/视频资料,主要采取转录等方法;4)纸质文献,需进行数字化的加工处理[1]。方法一,将其作为文本处理,直接录入或者通过扫描输入,并进行OCR识别和校对;方法二,将其作为图像处理,通过扫描,应用图像软件进行纠斜、去噪、裁剪和存储。目前数据建设中普遍采用的数据格式是PDF图像格式。几种数据格式的优缺点见表1。
表1
三 “豆腐及豆腐菜肴”特色数据库的建设思路与方法
特色数据库建设绝非易事,除了需要建设者具有清晰的建库思路和较强的专业知识外,还需有先进的数据加工技术和处理手段,并能结合自身的建库实际,选择最适合的软硬件等。2010年度四川省教育厅川菜发展研究中心重点资助项目“‘豆腐及豆腐菜肴’专题数据库”在建设过程中,目标明确、思路清晰,无论是文献收集、文献标引、系统构建、人员构成,还是数据加工手段,都体现出鲜明的建库特色。所建数据库也是目前国内少见的图文、视频混合库。
(一)立项背景与意义
1.立项背景。1)我国是豆腐生产的发源地,豆腐是中华民族的传统美食,发展今,已有两千多年的历史。用“豆腐”制作的菜肴更是名扬天下,也是制作其他菜肴的重要配料。具有风味独特,制作工艺简单,食用方便的特点;是老幼皆宜、益寿延年的美食佳品。②该数据库建设选题新颖、独特,文献资源十分丰富。是目前国内首个“豆腐及豆腐菜肴”方面的专题数据库(目前国内,尚未检索出该类数据库建设的相关报道)。虽研究制作“豆腐与豆腐菜肴”的历史悠久,文献资料众多,但分散、凌乱,不便于集中收藏与长期利用。
2.意义。1)对保护与弘扬中华文化,特别是巴蜀饮食文化,造福后人,具有重要意义。2)所收文献全面、系统,方便食品专家、营养学家、厨师、家庭主妇等研究制作与利用。3)有利于繁荣和促进地方经济的建设与发展,改善人民生活。4)所建“豆腐及豆腐菜肴”专题数据库,属国内首建。因此,特色鲜明、独特、受惠面广、影响面大。
(二)文献收集的指导思想、范围及途径
1.收集的指导思想:立足巴蜀,兼收各地。即重点收集了四川和重庆地区“豆腐及豆腐菜肴”的研究及制作工艺方面的文献(含川味豆腐菜谱和川味“豆腐干”的制作工艺及流程等等)。
2.收集范围及要求。对所收文献的要求:图文并茂、声影俱全(视频);文图清晰、影声真实。所收文献的主题范围:1)豆腐“加工技术”方面的文献;2)各类标准;3)“豆腐菜肴”方面的文献,即各类菜谱;④豆腐及豆腐菜肴“学术研究”方面的文献;⑤关于豆腐文化及史料方面的文献。见图2[2]。
图2 豆腐文献组织结构示意图
3.收集途径。1)通过网络收集与主题相关的文献资料和视频资料;2)通过馆购各类数据库、电子图书;3)通过馆藏纸质文献(含报纸、期刊、图书)来收集;4)通过我馆与省内外兄弟院校图书馆互签的文献“代查代检”及“远程传递”协议来收集文献。
(三)弄清豆腐的分类、别称或异名
弄清豆腐的分类和古今称谓,为准确查找文献、标引文献,杜绝漏查、误检,提高文献的查准率和查全率,做充分的前期准备。
1.豆腐分类[3](见表2)。通常检索工具初始状态是默认模糊检索。因此,表2中带点词,是在收集文献时,需重点查找或输入的“检索词”,以减少文献的漏检、漏收。
表2
2.豆腐别称或异名
(1)豆腐古时的别称或异名[5][6][7]。古时豆腐又称:酪、酥、豆脯、小宰羊、软玉、黎祁[8](犂祁)、黎祈(犁祈)、黎福(福黎[9])、黎起、来其、方壁、淮南、淮南子、菽乳[10]、脂酥、刀呱、甘脂、腐、无骨肉、白起肉、人造肉、植物肉、盐酪、鬼食、水板、水判、水林、灰毛(毛豆腐)、灰妹、灰蘑儿、白虎等。
比如,豆腐在1)五代陶榖《清异录》中称“小宰羊”;2)宋代苏轼《又一首答二犹子与王郎见和》诗中称“酥”;3)宋代苏东坡《豆腐诗》中称“软玉”;4)宋代陆游诗《邻曲》和清代高其士《天禄识余·黎祁》诗中称“黎祁”;4)《稗史》称“豆脯”;6)元代虞集(四川仁寿人)《豆腐三德赞》称“来其”;7)明代王志坚《表异录》和陈懋仁《庶物异名疏》中称“菽乳”;8)清代梁章鉅《归田琐记·豆腐》和明代方以智《通雅》中称“脂酥”;9)清代汪曰桢《湖雅》中称“甘脂”;清代李光庭《乡言解颐·物部》称“白虎”;10)清代汪汲《事物原会》中称“鬼食”;11)刀呱,闽南方言称“豆腐”;12)灰毛、灰妹、灰蘑儿,旧时的四川方言对“豆腐”的别称;13)清末傅崇榘编著的《成都通览》(成都《通俗报》社刊印出版)所记江湖语言,称豆腐就有“水板、水判、水林”等几种叫法。
(2)豆腐今时的别称或异名。1)北豆腐又称“卤水豆腐”、“老豆腐”、“硬豆腐”;2)南豆腐又称“石膏豆腐”、“嫩豆腐”、“软豆腐”;3)豆腐丝又称“云丝”、“干丝”;4)豆腐皮又称“豆皮”、“百页(百叶)”、“千张”;4)“干豆腐”又叫“豆干”、“豆腐干”;6)豆腐脑又称“豆腐花”、“豆花”、“豆花儿”;7)腐竹又称“油皮”、“豆腐衣”、“腐皮”、“豆腐皮”;8)豆筋又称“豆棍”、“豆笋”、“豆筋棍”等。
弄清豆腐的别称、异名是文献收集中不能遗漏和忽视的重要工作。特别是弄清豆腐古称,对从古代典籍中或后人的研究文献中查找相关文献,会有一定的帮助和指导作用。
3.文献收集、标引的技巧与策略
文献收集是按照某一主题查找汇聚文献的过程;文献标引就是对已汇聚的文献进行逐一主题分析,并按照一定的编排规律,对文献进行标识的过程。标引目的是使大量无序文献集合转化成有序文献集合,以利于用户查找和使用。因此,要正确理解豆腐及豆腐制品的各种“异名”与“别称”,及时调整文献收集、标引的技巧与策略。
(1)要考虑到“等同词”的正确运用。比如:今人称卤水豆腐、老豆腐、硬豆腐又叫“北豆腐”,石膏豆腐、嫩豆腐、软豆腐又叫“南豆腐”;百页又叫“百叶、千张”等。人造肉、白起肉、植物肉、小宰羊等均为古人对“豆腐”的称呼;闽南方言称“豆腐”为“刀呱等”。在检索或标引文献时,若只选择其中一个词进行检索或标引(有地域或方言特色的称谓,特别要注意,这对标引或检索该地域特色的豆腐文献十分重要),必然造成漏检,漏标、失去特色。
(2)应考虑词的“等级关系”。并能根据实际情况,正确对“上位词”、“下位词”进行扩检、缩检来收集文献和标引文献。如:“豆腐”是北豆腐、南豆腐”的上位词,而“熏干、熏豆腐、熏素鸡”等,则是“熏制豆腐”的下位词。
(3)要标引一致。所谓标引一致性,是指标引员对同一主题内容文献标引的一致程度。它可以是指不同标引员之间标引的一致性,也可以指同一标引员在不同时间标引同一主题时赋予标识的一致性[11]。这两种情况都是标引员容易忽视的问题。提高文献标引的一致性,有助于集中同一主题内容文献,对提高查全率和查准率有积极意义。
(4)选用专指度较高的词来揭示文献的主题,尽量体现所建特色数据库的“特”字。过多使用通用词做主题标引,会降低标引质量,影响查全率和查准率。通用词是指那些没有专业独立检索意义的泛指词。要避免仅用一个主题词从一个单一的特征角度,对文献进行一元、一维标引或检索;而是要从几个不同的特征角度,对文献进行多元、多维标引或检索。当然也需注意,过度标引文献会影响查准率;标引不足又影响查全率。
(四)文献加工
1.加工手段。采用先进的全自动扫描技术来获取TIFF格式的图像文献,采用TH-OCR 2009文通数据录入工厂——Image To Pdf图像批处理软件,将数据转存为PDF格式;用Adobe Reader软件浏览PDF格式文件时,可任意复制、粘贴所选文字。也可通过OCR识别后另存为txt或doc等文档格式;将收集的各类格式的“豆腐”视频文献转存为FLV格式的文件,并上传存储系统保存。用户可下载到本机后播放观看。
2.文献标引。对电子期刊、电子图书、网络文献、图片、音像、视频、学位论文、会议论文等不同的文献类型,都遵循《我国数字图书馆标准规范专门数字对象描述元数据规范》子项目[12]的相关规定,力求文献著录标引规范、准确。
(五)课题组人员的构成及分工
1.课题组人员的构成。有长期从事文献数字化研究的学者和文献信息收集整理的专业人士,也有长期从事食品研究制作的专家,还有多年从事数据库建设的专业技术人员,即文献标引员、文献扫描员、网络技术员。他们因多年从事“全文数据库”的建设,工作经验十分丰富成熟,又都是中青年专业人员。
2.课题组人员的分工。(1)食品科学方面的专家。负责本课题组食品专业方面的指导。(2)文献收集整理人员。由有较广知识面和具备情报学、图书馆学专业知识的、熟悉馆藏、能熟练运用各种检索手段和工具的中级职称以上的馆员组成。承担了“豆腐及豆腐菜肴”文献的收集、甄别与分类工作。所收集文献的查全率与查准率要符合建库质量要求。(3)文献标引与录入人员。对数字文献在CGRS操作平台中按照元数据设计方案进行标引和录入。(4)文献扫描人员。承担了对原始文献的扫描、拍照、格式转换等加工任务。5)网络技术员。承担了与CGRS系统供应商的联络与协调工作;负责建库系统软硬件的安装、调试与技术支持;负责数字化文献加工、录入及标引质量的审核检查与验收。
(六)系统建设实施方案及实现
1.系统硬件平台。本系统采用HP刀片服务器。配置处理器2颗Intel Xeon DP E5430四核CPU(2.66GHz,12M BL2 Cache)和配置≥8GB 内存;配置两个10/100/1000Mbps千兆以太网卡和配置≥2块146GB硬盘。并与校园内外网相连,用户可采用Web方式直接浏览和检索。
2.软件平台。该“项目”采用的软件是“CGRS5.3天宇全文信息检索系统”。主要由库结构定义模块、数据标引模块、数据库检索与发布等模块组成。它操作简单,功能强大,支持图片、文字及视频。服务器运行环境为Windows 2008 Server,用户终端的运行环境为Windows XP或Windows 7。用户可对文献随意检索、浏览、翻页、打印、下载、缩放等。是一款集建库、管理、网上发布、检索于一体的理想的数字资源共建共享操作平台。见图3、图4。
图3 检索界面
图4 显示检索结果
四 建库需注意的问题
(一)建库规范和数据共享
所选用技术标准应规范统一,字段(元数据的元素)选取应科学合理;特色数据库建设的选题能服务大众,使用应不局限于本单位用户,要实现真正意义上的资源共享。对数据标引要做到准确、完整和规范,减少人为出错;制定加工细则,把好文献标引的质量关。
(二)注重建设和实时维护
1)软硬件建设。首先,需有安全可靠的数据加工及管理软件;其次,需有高速扫描设备和高性能独立运行的服务器;最后,还需有一支既精通图书情报又精通计算机的专业技术队伍。2)资源建设与维护。所建数据库应是图文并茂、声影(视频)一体的全文库。并重视数据的即时更新与维护工作,坚决杜绝只重建设、轻视维护的现象。
(三)加强合作和重视产权
(1)加强合作。首先,要加强与所建数据库主题领域的学科专家合作。这对保证数据库质量是十分有益的。这些专家会从该专业或学科领域角度,给予建库者一些独特的见解与指导。其次,要加强与省内外高校图书馆的合作。克服建库规模小、单馆独建、各自为政、标准不一,且数据的完整性、连续性、共享性差等问题。(2)注重对知识产权的保护。对所收文献应注明其出处或来源,充分尊重著作权人的知识产权。
五 结语
特色数据库建设是高校图书馆信息化、数字化、网络化建设的一项重要的基础性工作,也是一项投资大、周期长、技术要求复杂、标引要求精准的系统工程,它不仅需要一支高素质的专业技术队伍,更需要有馆内外多方面的通力合作与协调。从而实现真正意义上的资源共享——各自特色资源的共享,而不是相互共享相同的资源。
[1] 吴涛.高校专题特色数据库建设回顾与研究——以河洛文化文献专题数据库建设为例[J].情报理论与实践,2008(05):790-794,798.
[2] 徐革,凌云,李一平,王利.特色库建设中基于本体论和元数据的知识与信息组织应用[J].情报理论与实践,2006(3):368-370.
[3] NY/T 1052-2006.绿色食品 豆制品[S].[2012-11-10].http://down.foodmate.net/standard/sort/5/7771.html.
[4] 豆腐乳[EB/OL].[2012-11-01].http://baike.baidu.com/view/154032.htm.
[5] 崔恒升.豆腐的异名别称[J].中国食品,1999(5):40.
[6] 豆腐起源于印度,是佛教食品[EB/OL].[2012-11-08].http://club.bandao.cn/thread-1191126-1-1.html.
[7] 黄家忠.豆腐异名别称知多少?[EB/OL].[2012-10-30].http://blog.sina.com.cn/s/blog_9bcd274501011ij6.html.
[8] 汉典[EB/OL].[2012-11-18].http://www.zdic.net/cd/ci/15/ZdicE9ZdicBBZdic8E309347.htm.
[9] 豆腐的营养价值 EB/OL].[2012-11-17].http://www.haochi123.com/S_Caipu/I_Doc/Detail_Yuanliao_32.htm.
[10] 汉典[EB/OL].[2012-11-18].http://www.zdic.net/cd/ci/11/ZdicE8Zdic8FZdicBD35987.htm.
[11] 董丽,侯汉清.中文期刊文献关键词标引的分析和改进[J],情报科学,2004(11):1355-1358.
[12] 《我国数字图书馆标准规范专门数字对象描述元数据规范》子项目[EB/OL].[2012-11-26].http://cdls.nstl.gov.cn/cdls2/w3c/2003/SpcMetadata/.