图书馆文本资源数字化加工标准研究及其应用
2014-02-12国家图书馆北京100081
龙 伟 (国家图书馆 北京 100081)
文本资源是数字图书馆资源建设中最主要、最基础的资源类型。读者在图书馆使用图书、报纸、杂志、报告等文献,主要是为了获取文本内容。就目前来说,现代信息技术对文本资源的处理是最为先进和完善的,比图像、音频、视频信息领域的技术发展更加成熟和稳定。文本资源在信息检索、内容挖掘、资源共享等各方面都具有显著的优势。
1 图书馆文本资源数字化加工现状
图书馆针对文本资源数字化加工形成更为有序的信息内容,使文献信息价值更加显著和突出。伴随着信息技术的发展,文本资源数字化加工方法有很多,采用不同标准,各有所长。同时,标准多样性和复杂性又制约了文本资源数字化的发展。
1.1 国内外信息机构文本资源的数字化加工
国外图书馆在文本资源加工方面开展较早,通过多年的交流和合作,图书馆、各机构之间相互借鉴和协调。美国国会图书馆的美国记忆项目[1]、澳大利亚国家图书馆藏品数字化项目[2]、哈佛大学图书馆数字化工程项目[3]针对文本资源数字化加工制定了适用的标准和技术体系。美国国会图书馆的文本编码指南为图书馆不同目的的文本数字化项目提供了最佳实践建议[4]。该指南制定了5个不同的编码级别,使建议尽可能全面,以适用于不同的实际操作,包括全文自动的文本创建和编码,以及需要专门内容知识、分析、编辑的编码内容。此外,不少图书馆及信息保存机构还进行了跨机构合作,美国的FADI(Federal Agencies Digitization Guidelines Initiative,联邦政府机构数字化指南计划)制定了用途更广的一系列资源加工的标准,这使得不同机构的文本资源数字化加工可以更紧密地合作[5]。
我国图书馆文本资源数字化加工已有10多年的历史,其加工和保存的技术方法有很多。早期文本资源数字化加工以图像转化为主,在此基础上我国探索了数字图书馆资源建设标准,如中国数字图书馆标准建设项目(Chinese Digital Library Standards,简称CDLS)[6]、大学数字图书馆国际合作计划(China Academic Digital Associative Library,简称CADAL)[7]。我国在实施这些项目的过程中,积累了大量的文本资源数字化加工的经验和成果。在商业机构中,以北大方正和清华同方为代表,他们在这方面进行了卓有成效的实践。方正电子书目前已在全球3 000多家学校、政府机构应用。清华同方《中国知识资源总库》已拥有国内8 500种期刊、700多种报纸和来自1 600家机构的学位论文和会议论文[8]54-60。在电子文件格式和元数据方面,各公司自行研制数据加工规范。
1.2 文本资源数字化加工的局限性
随着文本资源数字化应用需求的不断增长,文本资源类型和数量发展迅速。同时,文本资源数字化加工存在的问题也就凸现出来。
1.2.1 缺乏文本资源数字化加工项目可持续发展规划
文本资源数字化加工项目通常是依据本单位的加工规范或几个合作机构之间临时制定的加工方案,故其加工规范表现出较强的专用性,而这样的规范常常立意高度不够,故在内容编码、数据格式、元数据方案、质量控制等方面缺乏全面考虑,造成同一个机构的不同文本资源加工项目遵循的标准不一致,给文本资源的长期保存、利用带来一定的挑战。
1.2.2 缺乏系统性、可操作性的标准
由于历史、地区的原因,文本资源加工转化时采用的标准不同。不同的编码标准互不兼容,不同标准下处理过的信息不能通用。虽然数字图书馆前期对文本资源的图像化做了很多研究和实践,但针对文本资源的不同来源、不同形式、不同载体资源建设工作的指导需求,缺乏系统的、可操作程度高的标准。
1.2.3 缺乏体系化的标准
数字图书馆建设需要资源加工和管理标准体系化。文本资源与数字图书馆其他类型资源(如图像、音频、视频等)的加工标准没有形成体系化,标准间不能相互协调、配合,导致依据不同标准加工的数字资源可以独立使用,但在数字资源整合时不能调用全部资源对象,造成应用障碍。
2 图书馆文本资源数字化加工标准研究的重要性
数字图书馆是一个不断发展的概念,随着数字图书馆的范式演变,文本资源数字化加工过程中的标准问题显得越来越重要。
2.1 制定文本资源数字化加工标准的意义
文本资源的内容编码和数据格式在国内外都有人研究,并相继成为正式颁布的标准或事实应用标准。从标准层面来说,它们支持不同的应用,各有千秋,但往往不能相互兼容。随着我国数字图书馆的发展,标准化已经成为我国数字图书馆建设中的薄弱环节和最突出的问题。当前,为满足文本资源建设和服务的需要,指定一个通用的文本资源数字化加工标准十分必要。文本资源数字化加工标准的研制,有利于控制图书馆信息资源数字化质量,避免重复加工,节省投入,提高信息资源的共享能力,同时有利于与国际接轨,其现实意义巨大。
2.2 文本资源数字化加工标准的研制
2012年,全国图书馆标准化委员会委托国家图书馆牵头并召集上海图书馆、北京大学图书馆、中国科学院文献情报中心、首都图书馆、浙江大学图书馆、汉王科技股份有限公司、北京方正阿帕比技术有限公司研制国家标准《图书馆文本资源数字化加工规范》。该标准是针对一般印刷型文献或其经过数字化转换后的图像文件进行的文本资源的数字化加工制定的,涵盖了文本资源数字化加工的级别及内容编码、加工准备、资源采集与处理、元数据加工、文件规则、质量管理等方面的内容。在联合、开放、合作、共享的机制下,研究成果更具备开放性、可靠性和广泛的应用性。
2.3 文本资源数字化加工标准解决的问题
研究文本资源数字化加工标准的目的是解决文本资源数字化加工过程中的通用性、操作性、开放性问题。
2.3.1 通用性问题
文本资源数字化加工标准或方法只有符合国际上的通行标准、事实标准或通行做法,才不会在国际交流中产生问题,从而保证一定的互操作性。在信息资源全球互通的大环境下,如果过于强调中国特色、闭门造车、拒绝国际通用标准,就无法在国际标准环境下生存。
通用性有利于对文本资源数字化加工标准进行质量控制,一方面,能够借此建立起统一的质量体系和衡量标准;另一方面,具有通用性的标准会有更多的软硬件支持,我们可以很容易地利用一些实用工具来帮助控制质量或改善品质。
2.3.2 操作性问题
首先,数字资源建设是一个劳动密集型的行业,虽然其对工作人员具有相当的知识要求,但大量的基础工作不能要求一般工作人员都具备应付复杂工作的能力,过于复杂的标准和处理过程也不利于品质的控制。标准操作的难易程度要符合工作人员的实际能力和技术水平,使一般工作人员经过短时间的培训就能够操作。
其次,从发展趋势看,文本资源应用的范围更广泛,互联网、移动终端、数字电视都支持文本资源的应用。文本资源数字化加工标准实现了统一操作,使异构平台加工的数字资源可以满足多种媒介的服务。
2.3.3 开放性问题
数字图书馆的资源是各国乃至全球的知识信息宝库,在资源建设时应采用尽可能开放的数据格式。文本资源数字化加工标准给出的内容编码和格式编码,从中文信息处理和数字资源交换共享的兼容性考虑,应避免数字图书馆资源建设受制于个别公司、组织的技术垄断或是因为公司、组织的倒闭或变更导致缺乏必要的技术支持。
3 图书馆文本资源数字化加工标准的应用分析
3.1 文本资源的特征
文本是以字符、符号、词、短语、段落、句子、表格或其他字符排列形成的数据,用于表达意义,其解释基本上取决于读者对于某种自然语言或者人工语言的知识[9]。文本是计算机表示文字及符号等信息的最基本的数据类型,一直以来,文本都是人和计算机交互的重要方式。文本资源是文本的表现形式。文本资源的提供方和获得方都应具备一定的文字或符号的识别和表达能力,在相同的文字或符号体系下通过对字符的识别和表达进行信息交流[10]。 文本资源由文本表示属性及格式信息组成。其中,表示属性包括字体大小、字体类型、字体格式(加黑、斜体等)、字体定位排版等,格式信息包括标题、段落和间距等信息。文本资源可以有逻辑结构,如一本电子图书,信息可以逻辑地组织成内容摘要、章、节、术语表、索引等。其结构由文本包含的信息类型决定。
3.2 文本资源采集方式
大多数文本资源制作依靠计算机键盘录入。通常,创建数字文本效率不高,但这是一种较为普及的字符输入方法,适合处理字体过小、图文模糊、版面复杂的文献。但图书馆所拥有的浩如烟海的文献大都是存在纸质媒介上的,因此我们必须先把印刷文献转换成电子格式,通过图像技术记录和保存原始文档的外观、结构和内容,再转换为文本资源。图像光学字符识别是这一转换过程运用的主要技术。
3.2.1 文本录入
计算机录入是广泛使用的文字转换方法,用于文献原稿重新录入,并手工增加标记。这种方法通常比自动识别加人工校对的费用低。文本资源转换最大的项目之一是美国国家数字图书馆项目(The National Digital Library Program,简称 NDLP)[11]。
文本分为结构化和非结构化数据,因此对文本录入应有一些要求:制作结构化数据,应忠实于原稿信息,保留原始文献中的字符、文字变体等版式信息;而非结构化的文本数据制作,则应按照内容的逻辑顺序进行录入,强调字符、数字、标点、各种可打印的符号的准确性和完整性,可以忽略版式信息,如一个表格或者分栏的文本应以单元格或栏目顺序进行录入,而不是逐行录入。
3.2.2 扫描或照相采集
图像感光技术(Charge-Coupled Device,简称CCD)、图像传感技术(Complementary Metal Oxide Semiconductor,简称CMOS)等成像技术是扫描仪或照相机获取信息运用的采集技术。图像采集技术将文字、符号等各种信息都看成图像,因此可以准确地再现文献实物的外貌。在实际应用中,图像采集必须与光学字符识别技术结合使用,将图像转换成计算机可识别的ASCII码(American Standard Code for Information Interchange,美国标准信息交换码),通过标记文本和字符寻找到指定的文字信息。
3.2.3 光学字符识别
光学字符识别(Optical Character Recognition,简称OCR)是一种自动识别扫描仪、照相机等采集的图像中字符的技术。其基本技术是先由计算机程序将单个字符个体分离,然后将它们与精确的模版进行比较,从而识别并转换图像信息中的字符[10]。OCR技术识别字符的准确率与图像采集质量有直接关系,出错率随原稿的可辨认程度而不同。图像质量受图像清晰度、噪点、色彩等因素影响。在一般印刷型中文图书、报刊的采集分辨率达到300dpi、英文等其他语种采集分辨率300dpi的情况下,文字字符识别的正确率可达到95%以上[8]27。
3.3 文本资源格式加工系统
3.3.1 标记语言格式加工系统
HTML(Hypertext Markup Language,超文本标记语言)和XML(Extensible Markup Language,扩展标记语言)是标记语言主要的数据文档格式。
HTML文档可利用网页编辑器创建和查看内容信息,使用Internet Explorer浏览器显示文本、图形和其他的任何内容,并可用专门的Notepad 或 Text Edit 等制作工具进行编辑。
专业的 XML 编辑器会帮助编写无错的 XML 文档,根据某种 DTD(Document Type Definition,文档类型定义)或者 schema(一般指XML架构)来验证 XML,以及强制创建合法的 XML 结构。可用的编辑器有基于Windows平台的专业XML writer以及Easy XML和专门用来修改、编辑XML文件的工具——XML Blueprint XML Editor。当然,也可以通过一些软件把其他文件格式转换成XML格式,如把PDF(Portable Document Format,便携式文档格式)文件内容存成XML的Adobe Acrobat外挂插件或利用Adobe Acrobat编辑器的批处理命令,通过JAVA Script代码将PDF转换为XML。
3.3.2 纯文本格式加工系统
纯文本格式由可打印的字符组成,可以直接阅读和理解其形式,没有任何文本修饰。文本格式的加工和编辑系统在Windows操作系统环境下,除了系统自带的Notepad记事本以外,有字处理器(如微软的Word)可进行带有版式的文字编辑;文本处理器(如Simple Text)则是一款简单的、用于ASCII码的字符编辑器。在DOS环境下,使用最广泛的是EDIT文本编辑器,通常是用命令行方式编辑一些程序和批处理文件。
3.3.3 便携式文档格式加工系统
PDF由Adobe公司开发,是一种用于文档交换的电子文件格式。这种文件格式的应用与操作系统平台无关,也就是说,PDF文件不管是在Windows、Unix还是在苹果公司的Mac OS等各种操作系统中都是通用的。这一特点使PDF文件成为在互联网上进行电子文档发行和数字化信息传播的理想文档格式,越来越多的电子图书、产品说明、网络资料、电子邮件开始使用PDF文件。PDF能保留文件原有格式(Layout),是一个开放的国际标准。
PDF文档需要通过Adobe Acrobat Reader来阅读。PDF的电子图书可以使用Adobe Acrobat软件来制作和编辑,也可以通过Adobe Acrobat软件把PDF文件内容存成XML格式、HTML格式或TXT纯文本格式。
3.4 文本资源内容编码及应用
内容编码涉及具体数据内容的计算机编码形式和标记形式,是制约数字信息可实用性乃至可持续性的最基本条件[12]。
3.4.1 ISO/IEC 10646及GB13000
ISO/IEC10646也称大字符集。该标准规定了全球现代书面语言文字所使用的全部字符的标准编码,用于世界上各种语言文字、字母符号的数字化表示、传输、交换、处理、储存、输入及显现。在ISO/IEC10646中,中日韩编码汉字简称CJK。CJK由三部分构成,基本级收录20 902个汉字,扩充A有6 582个汉字,扩充B有42 771个汉字,汉字编码超过7万个汉字。
GB13000《信息技术 通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面》是我国的国家标准,与ISO/IEC10646相对应。该标准的汉字编码空间巨大,可以容纳多种文字编码体系,是我国编码体系未来的发展方向。它编入了20 902个汉字,收集了大陆一二级字库中的简体字、台湾《通用汉字标准交换码》中的繁体字,基本涵盖了日文与韩文中的通用汉字,满足了方方面面的需要。
长期以来,各种汉字内容编码互不兼容,使得中文文字编码呈现多样性的特点。由于内容编码是数字资源建设最基础的问题,因此它的多样性和混乱会给数字资源建设和应用过程带来一系列严重且无法逆转的问题。但是,随着ISO/IEC10646及GB13000的推进,中、日、韩多语种及少数民族文字使用等问题得到重视,两个标准在汉字系统的应用中发挥了重要作用。
3.4.2 Unicode
Unicode(统一编码)是公司联盟制定的工业标准。Unicode3.0与 ISO 10646-1:2000的内容、编码与命名完全相同。1991年10月,两个标准的制定者达成协议,采用统一编码字符集。当然,两个标准在细节上有一些差别,如Unicode提供汉字部首/笔画索引,ISO10646不提供。在现实应用中Unicode被称为ISO10646的实践版。因此,支持统一编码的产品亦支持 ISO10646 国际编码标准。Unicode有多种传输格式,常见的有UTF8、UTF16、UCS-2、UCS-4等。2013年9月,Unicode 6.3版本推出。
Unicode对我国的贡献是解决了简繁汉字的统一处理与跨操作系统的自由信息交换问题,同时也解决了汉字与少数民族文字统一处理的问题[13]。在图书馆、信息机构中,有很多数字化项目、商业数据库采用Unicode编码,如国家图书馆数字方志,其涉及大量繁体字、异体字转换,为保证异构平台的加工和应用,规定统一使用Unicode编码。
3.4.3 ASCII码
ASCII码是信息处理领域最基本的字符编码,主要用于显示现代英语和其他西欧语言。ASCII码共定义了256个代码,其有两种形式:标准形式和扩展形式。标准ASCII码也称基础ASCII码,共有128个字符,包含所有的大小写字母、数字、标点符号及在美式英语中使用的特殊控制字符。后128个字符称为扩展ASCII码,用于特殊符号字符、外来语字母和图形符号的编码。
无格式控制的纯文字文件是最简单的文档。其实说纯文本也不尽然,其文字编码方式、空格、换行都是格式问题。不同系统对换行标志的不同规定给纯文本文档的转换带来了麻烦。MacOS系统采用的是回车符(ASCII码13),Unix系统采用的是换行符(ASCII码10),而DOS和Windows系统则在每行的结尾加上换行和回车两个字符。但对于纯西文字符、符号、数字处理,采用ASCII码进行编码是最佳选择。
4 图书馆文本资源数字化加工标准的发展
文本资源数字化加工标准的研制将有益于数字图书馆建设。在对其的实际应用中应该注意以下几点。
4.1 文本资源数字化加工标准的适应性
国际标准化组织将“标准”定义为“由一个公认的机构制定和批准的文件。它对活动或活动的结果规定了规则、导则或特殊值,供共同和反复使用,以实现在预定领域内最佳秩序的效果”[14]。笔者认为,标准是宏观层面的规则。在具体应用中,标准内容与实际要求特别是细节处理的需求存在一定差异。当“标准”给出的选择比较宽泛的情况下,如有多种内容编码和格式编码,应根据建设目的,做适应性、理性的选择。
4.2 文本资源数字化加工标准的实用性
标准既来自于实践的需要,同时也是长期实践经验的总结。文本资源在数字化加工中涉及技术、内容等多个方面。随着信息技术的发展,数字化加工技术也会不断提高,在经过实践验证之后,一旦产生新的具有普遍需要的加工方法,应及时对文本资源数字化加工技术和方法进行标准化、规范化的统一处理,以保持标准的实用性。另外,随着生产加工服务需求的演变,我们既要对现有标准进行灵活应用,也要看到标准的不足,针对标准中的不适应内容进行及时修订,加强标准的维护和管理。
4.3 数字图书馆标准之间的协调性
数字图书馆资源类型的多样化需要一套完整的数字资源建设标准体系来支撑,只依靠一个“文本资源加工标准”显然是不行的。文本资源数字化加工标准应与数字对象加工标准、元数据应用、数字资源唯一标识符等相关标准之间有着密切的关系,既相互联系又相互影响。处理好各种标准应用之间的关系,是数字资源建设有效性的保障。
[1]Requests Proposals for Digital Images from Original Documents Text Conversion and SGML-Encoding National Digital Library Program[EB/OL].[2012-09-10]. http://memory.loc.gov/ammem/prpsal/rfp18.pdf.
[2]Digitisation Guidelines [EB/OL].[2012-09-10]. http://www.nla.gov.au/standards/digitisation-guidelines.
[3]Guidance for Digitizing Text [EB/OL]. [2012-09-10]. http://preserve.harvard.edu/guidelines/textdig.html.
[4]TEI Text Encoding in Libraries Guidelines for Best Encoding Practices [EB/OL].[2012-09-20].http://old.diglib.org/standards/tei.htm.
[5]Federal Agencies Digitization Guidelines Initiative [EB/OL].[2012-09-20].http://www.digitizationguidelines.gov/.
[6]我国数字图书馆标准规范建设项目[EB/OL]. [2012-09-10]. http://cdls.nstl.gov.cn.
[7]CADAL项目[EB/OL].[2012-09-10].http://www.cadal.cn/.
[8]龙 伟,罗云川.国家图书馆文本数据加工标准和操作指南[M].北京:国家图书馆出版社,2012.
[9]顾 .国家标准《信息与文献 术语》 [M].北京:中国标准出版社,2010.
[10]孙一钢, 聂 华, 常 林,等.通用数字资源(文本数据)格式标准分析报告[EB/OL].[2012-09-10]. http://cdls.nstl.gov.cn/2003/Process/.
[11]About the Collections[EB/OL].[2012-10-10].http://memory.loc.gov/ammem/about/about.html.
[12]彭绪庶,蒋 颖.资源数字化标准问题研究[M].北京:北京图书馆出版社,2005.
[13]代 红,陈 壮.中文信息技术的基础标准与中文编码字符集的国际标准化[J].信息技术与标准化,2008(7):36-40.
[14]孙 卫,赵 悦. 图书馆信息化标准工作评析[J].现代图书情报技术,2009(7/8):33.