国内外机读目录研究综述
2022-09-02陈昱彤
陈昱彤
(苏州大学 社会学院,江苏 苏州 215000)
0 引言
在图书编目领域,机读目录(Machine Readable Catalogue,MARC)这一诞生于20世纪60年代的编目技术与数据交换格式是应用范围较广、具备较高影响力的名词概念之一。MARC是一种以代码形式和特定结构记录在存储载体上,可由计算机阅读、控制、处理和编辑输出的目录格式[1]。进入21世纪以来,随着计算机信息技术、大数据等的高度发展,新型元数据格式层出不穷,诞生于纸本时代的MARC亦面临着网络时代海量信息资源的冲击,为相关学者、编目人员等专业人士带来应用迷思;一些学者甚至主张废止MARC,期盼更加适应网络时代的书目数据描述规范取代MARC。然而,数十年的应用实践表明,MARC具有长足的生命力,它因适应计算机情报检索的需要而生,于计算机网络技术蓬勃发展的浪潮之下持续进行自我完善;至今,国内公共图书馆与高校图书馆仍主要使用MARC以标识文献资源。由此,如何使MARC更加充分地适应于新时代网络信息资源检索及组织之需,是近年来相关学者、编目人员等专业人士日渐关注的议题之一。
应用实践层面的突破须以系统的研究为基石,基于此,回顾与梳理21世纪以来国内外MARC主题研究,总结当前研究的特点及不足之处,对于把握国内外MARC相关的研究动态与发展趋势,推进后续研究与应用实践具有一定意义。本文立足于图书情报学,采用文献调查、系统回顾的方法,于中国知网(CNKI)知识资源总库与Web of Science数据库搜寻21世纪以来国内外具有代表性的综述性文献与实证性文献,通过对MARC主题经典研究领域、研究热点与研究前沿等方面的重要研究成果进行梳理、归纳与分析,增进对于MARC研究领域的理解,从而期望为MARC及其应用的后续研究提供一定程度的参考与支持。
1 MARC基本要素探析
1.1 MARC发展史梳理
进入21世纪,诞生于传统纸本时代的MARC面临适应网络环境、完善优化之关键时期,由此形成回顾溯源其发展历史以指导其开发进程之必要。国内外相关学者在MARC的开发历史、自身特点与典型应用等方面形成了较为系统、全面的研究成果,此类总结性研究较多集中于国内,如胡小菁等[2]对MARC开发历程始末以及此过程中贡献巨大的开发人员进行介绍描述,总结出MARC得以长期发展的基础,同时梳理出MARC的国际化格式应用现状,亦对MARC的Extensible Markup Language(XML)格式、MARC的新时期发展态势进行了全面翔实的介绍。
1.2 MARC著录方式研究
在宏观层面,MARC具有适用于不同国家和地区的多种格式,如CNMARC,USMARC及MARC21等;在微观层面,MARC具备大量用于书目著录的子字段。21世纪以来,相关学者、编目人员等专业人士在研究与业务实践中从未停止对MARC著录标准化、规范化与互通性的探索,此方面的研究成果亦主要集中于国内。
宏观层面,国内对于著录方面的研究涉及对中西编目方式的比较,以及国内各种著录规则、格式的比较,其中较多聚焦于不同MARC子格式的转换与互通方面。例如,余敏[3]探讨了从CNMARC向MARC21格式自动转换的可行性,并在此基础上提出了实现CNMARC到MARC21自动转换的映射表;而何少真等[4]系统比较了MARC21中文图书编目与CNMARC编目各字段的不同,为中文文献资源与国际接轨提供了有效参考。
微观层面,国内大量文献集中于研究规范化MARC的子字段著录方面,涉及印刷型与非印刷型文献的编码信息块、著录信息块、附注块、连接款目块、主题分析块、知识责任块等的著录;此外,在研究中亦体现出了矛盾的普遍性和特殊性的统一——针对特殊时期出现的、特定类型的文献,一些学者进行了著录要点的探究,例如,韩晶等[5]对“文革”时期资料的MARC著录要点进行了系统说明。对于MARC存在大量子字段、字段间关联的字段冗余问题,专业人士亦探讨了简化著录字段的可行性,如王冠华等[6]对可简化的MARC字段进行了说明,并且提出了简化MARC字段的最终目的——为用户提供便利,最大限度地发挥在编资源的作用。
除去对通用规则与方法的研究探讨,相关学者亦对编目主体的著录意识进行了系统探讨。修晓[7]提出,MARC的著录意识主要体现在检索意识、整体意识、规范意识、维护意识4个方面,图书馆编目人员应以此为着力点培育专业素养,从而提升著录质量,优化图书馆工作与文献服务。
2 MARC与网络环境之融合研究
2.1 网络环境下MARC信息组织研究
经过50余年的发展,MARC完备的信息描述代码、系统的描述框架和严谨的语义规则已经形成,在数据传输与交换方面亦实现了共享。为应对网络环境,MARC亦增加了856电子文件地址与检索字段,对其他字段亦进行了适应于网络环境的调整。然而,面对飞速扩张的、无序性强的网络信息资源,为描述传统文献而设计的MARC在其著录、编目方面难以胜任,从而难以真正融入数字化网络时代。针对此问题,国内外相关应用实践及研究探索应运而生。
目前,可扩展标记语言(以下简称“XML”)作为互联网时代的标记语言,其实用性、扩展性和易操作性突出。MARC为真正融入数字化网络时代,有必要寻求向XML转换的有效途径。基于此,刘立强[8]分析了XML在MARC描述中的应用优势,包括XML能够保持MARC的块层特征、具有无限可扩展性、具有自描述性和可读性、无字段与记录等分隔符、便于信息交换和显示以及对原有格式数据转换方便;在此应用实践中,如何保持MARC的可检索性、如何保证MARC特有字段的特殊功能这两大问题是亟需探讨与解决的方面。需要注意的是,若无相应的标记语义说明,人与计算机都难以正确理解完整的MARC数据,由此,资源描述框架(Resource Description Framework,RDF)被引入使用XML来描述MARC的工作中。黄伟红等[9]在说明MARC-XML格式的基础上进一步介绍了基于RDF的XML描述MARC规则,以及通过RDF来解决MARC规范书目数据向机器可理解的元数据转换的关键问题。
2.2 与新型元数据之结合探究
元数据是用于提供有关某种资源信息的结构数据,亦是有效组织与处理数字化文献资源所必不可少的“工具”。从本质而言,MARC属于元数据的范畴,而其出发点是描述传统文献,所含字段结构与描述规则较为复杂;面对海量的网络信息资源,专业人士一方面不断探索与改进MARC,使之与新型标记语言结合,适应网络环境下的新变化形势,代表成果有前文所述MARC的XML/RDF模式;另一方面,开始设计与开发MARC之外的新型元数据描述标准,如都柏林核心元数据(Dublin Core Metadata,DC),由此拓展形成了MARC与新型元数据的结合探究这一研究领域。
2.2.1 与DC的比较研究
在网络信息资源领域,1995年诞生的DC是具有代表性的元数据格式,其致力于建立一套描述网络电子文献的方法,以便于网络信息检索。相关学者对MARC与DC进行了系统的比较研究。苏捷等[12]对二者之间的区别进行了比较与分析,包括著录格式、著录主体、著录对象、著录目的、著录方式、揭示关系、描述详尽程度和数据质量控制方面的差异,如表1所示。对于MARC与DC的结合,孙晓菲等[13]提出其意义在于内容与形式的优势互补,并且能够最大程度地满足各种类型文献的著录要求。从中可总结得知,MARC与DC各有所长,通过将二者相互结合与补充,可扩充各自应用范围,发挥良好效用。
表1 MARC与DC的不同点比较
2.2.2 元数据互操作
尽管以DC为代表的新型元数据在网络环境下得到了广泛应用,但在整体的信息组织领域中,MARC仍有一定的占比;而且,由于信息资源类型繁多、内容庞杂、结构复杂、分布广泛,夏立新等[14]研究提出,任何一种元数据都不可能完全覆盖所有类型信息资源的描述,亦不可能完全满足不同用户群体的需求。因此,元数据之间的互操作日趋重要,是实现资源统一描述和检索的有效途径。如何实现MARC与其他元数据类型的互操作是近年来学界研究的热点之一。目前,DC已成为解决互操作问题的元数据标准[15],而提高元数据间的互操作性,首要的是实现元数据之间的映射与转换,基于此,互操作问题的核心在于如何实现MARC与DC的有效转换,与此同时,MARC与以DC为代表的其他元数据之间映射机制的建立亦成为网络环境下资源整合的关键。在此方面的研究主要集中于元数据建立映射的困难因素研究、MARC与DC转换技术的研究以及二者之间集成方式的研究。
萨蕾[16]基于CNMARC,MARC21与DC元数据的特点,重点分析了在三者之间进行映射存在的语义问题,提出当前国内进行的元数据映射研究尚处于探索阶段,尚未形成较为系统、完整、成熟的映射规则,进而说明了实现元数据互操作的途径,包括设定科学的详简映射级别、加强知识组织工具映射的研究、深入研究多种元数据之间的映射关系、推动元数据注册开放等方面的研究与实践,以及建设多主体共建的元数据整合机制等。
值得注意的是,国外学者Park等[17]对编目和元数据专业人员进行了调查研究,总结了MARC与DC元数据互操作的实践现状,研究结果表明,相关人员对元数据重要性的认知有所增强。然而,实现元数据的互操作性在当前网络环境中仍属于一种挑战——地区财政、机构人员和技术条件在某些程度上限制了其发展,此外,本地创建的元数据指南和应用程序配置文件对于元数据互操作性的实现至关重要。
3 MARC之创新性应用探究
3.1 应用新兴技术实现增值
在信息技术高速发展的环境下,关系型数据库、数据分析工具等技术形态被大量投入信息组织研究中,催生了MARC研究领域的进一步扩展——探索MARC与新兴技术的融合,力求使MARC成为知识挖掘与知识发现的“工具”,促使MARC发挥超越图书文献检索层面的价值,进一步增强其实践性。
国内方面,一些学者利用网络编程语言等工具进行了MARC的自动化实践,如刘娉婷[18]采用C#编程语言,利用.NET环境,进行了简易、可自由选择字段的MARC数据提取工具的开发探索。资源描述与检索(Resource Description & Access,RDA)是西文编目规则的升级版本,其创建目的是满足数字环境下各类资源著录与检索的新要求。为满足RDA书目数据功能需求,肖达根[19]提出利用python实现MARC21在RDA编目规则下的自动化批量转换方式,该研究成果已投入实践,显著提高了相关图书馆采编中心的工作效率与工作质量,为CNMARC等形式的MARC数据在RDA编目规则下的自动化转换奠定了良好基础,具有一定的实践意义。
近年来,国外对MARC的创新性探索研究颇丰。Cuna等[20]研究提出了基于MARC的半自动化信息检索方法,可从受控词汇中提取语义丰富的主题构面,以支持用户的探索性信息检索,为图书馆、档案馆和博物馆的技术服务部门设计与开发探索性检索界面提供有力支持。Woolcott等[21]采用网站分析法,利用Web抓取工具与关系型数据库对图书馆用户搜索列表中的MARC记录进行了识别、分离和编码,分析结果表明,注释和摘要对于记录检索意义重大,并且用户与授权名称字段的交互频率高于用户与授权主题字段的交互频率,为图书检索系统设计提供了参考。由此可推知,在网络环境中,将MARC与特定的新兴技术方法相结合开展实践探索与理论研究,能够发挥出较高的实践价值,从而为网络信息检索与网络信息组织的优化应用,乃至更高层次的知识挖掘与知识发现提供支持。
3.2 向关联数据过渡
面对高速发展的技术环境,MARC的应用局限性成为学界探讨与研究的问题之一。王景侠[22]提出,传统MARC具有封闭性、静态性、难以使人或机器理解和粗粒度性等问题,已难以适应快速发展的数字时代、难以满足关联数据化的语义环境。2012年11月,为提高书目资源的整合度,使图书馆更深入、广泛地融入信息社会,以RDA为基础的新型书目框架模型(Bibliographic Framework,BIBFRAME)应运而生。BIBFRAME以关联数据为基础,面向语义网,借助关联数据使书目数据得以在网络上发布、共享。Avila-Barrientos[23]提出,MARC为适应网络环境而进行的一系列调整激发了进一步研究与分析优化BIBFRAME的可能性,为其提供有利条件。
目前,MARC仍是图书编目领域的主流,如何完成MARC向BIBFRAME的过渡是学界的研究热点之一。娄秀明等[24]总结得出MARC与BIBFRAME的区别与联系,建立了以图书期刊为主体的MARC21与BIBFRAME词汇映射表。吴桐[25]对中文CNMARC书目数据向BIBFRAME转化的方法进行了探讨,具有针对性地提出了当前尚存的问题——BIBFRAME的高技术门槛、中文CNMARC的特殊性,以及编目人员面临的知识更新挑战等;此外,国内编目人员须改变固有思维模式,适应新型开放式编目模式,学习与掌握前沿技术,以此应对新环境下编目领域发展的机遇与挑战。
4 MARC研究现状述评
前文分析与文献调查情况表明,MARC属于已实现长期发展的成熟研究主题,进入21世纪以来,国内外学者从MARC自身基本要素、MARC与网络环境之融合及MARC创新性应用等方面出发进行了多方位研究与探讨,为后续相关研究及实践提供了参考。然而,现有研究尚存在研究视野、研究深入度与技术增值层面的问题,具有充分的提升与深化空间。
4.1 国内研究视野有待开拓
21世纪以来,国内的研究较多集中于传统MARC的著录方式方面;同时,随着国际新兴元数据标准的扩大应用,国内亦逐渐出现相关的研究总结。通过分析与比较国内外同一研究领域的相关文献可知,国内的MARC研究集中度有余而创新性不足,同一研究主题的文献所述观点同质化现象较为突出。相较于国外,国内的MARC研究更加偏向于“热点追随”,较多介绍与梳理国际重要研究与实践成果,总结性较强,研究视野较为狭窄,欠缺引领国际MARC领域研究方向的能力。在当今网络时代,提升国内MARC研究的创新性应聚焦于MARC研究前沿,探索网络环境下MARC与新型元数据、新兴技术的融合之道,以理论与实践探究填补当前研究空白,辅助于图书等文献的数字化建设需要。
4.2 MARC理论研究深入度不足
纵观MARC研究领域可总结得出,大量研究偏向于实践应用层面,此特点与编目工作的实践性息息相关,而实践的深入优化需要成熟的理论作为支撑与基石。综合前文梳理分析可知,21世纪以来,以基础理论为重点的MARC主题研究成果稍显不足,大量研究立足于具体的实践视域。究其原因,除编目工作的实践性较强外,亦在于现有理论较为成熟、进行理论更新的难度较高。而在当今网络时代,促进诞生于传统纸本时代的MARC更加适应于网络信息资源的特点、网络信息检索的需要,基础理论方面的深入研究与革新必不可少。
4.3 MARC技术增值亟需深耕
如前文所述,目前已涌现将MARC与其他新兴网络信息技术相结合,以便利编目、检索工作以及挖掘、发现知识的探索实践,而此方面的研究集中于国外,国内的相关研究仍具有较广阔的发展空间。实现MARC的技术增值是本领域研究前沿,而如何进一步拓展“增值”思路,探索更加丰富、更加可行的实践可能,确保相关研究成果在实践应用中的有效性,使之充分融入网络环境,以及投入于广泛的知识发现与知识挖掘领域,是有待于专家学者探索的议题。
此外,根据前文总结与相关研究,专业人员素质对于MARC实际效用的发挥至关重要。因此,从编目等领域专业人员的管理方式、专业素养等视角出发的实证研究不失为MARC主题研究的增长点之一,有助于促进MARC在网络环境下更加充分地实现技术增值。
5 结语
本文运用文献调查方法,对21世纪以来国内外MARC主题的研究进行了分析,对MARC主题之下现有研究领域、研究热点以及研究前沿趋势进行了梳理与总结,最后对其研究现状开展了述评。总体而言,国内外MARC的研究主题多样、成果丰富;然而,在当前网络信息资源高速扩展的情境之下,如何解决MARC在网络信息资源组织实践中的应用问题,更有待于国内外专家学者的进一步探索。
需要注意的是,应以辩证、发展的眼光看待问题,对MARC在新时代网络环境之下的应用不宜持片面否定的态度。例如,被专业人士寄予厚望的BIBFRAME目前已取得理论与应用层面的进展,但其仍处于新兴、初始阶段,需要在更加广泛、更加长足的实践中进行必要的调整;因此可推知,MARC仍将作为未来数年中广泛使用的书目元数据标准及数据交换格式,持续活跃于信息描述领域。经过半世纪的发展完善,MARC在信息描述领域具有突出的优势与长足的生命力,而在当前高度发展的网络环境与技术条件下,应推进MARC基础理论的突破研究,继承与发展MARC的内容特征,改进MARC的载体形态,同时保留其核心编目特征,以适应于当今网络时代的信息组织环境,服务于文献数字化等现实需要,从而为更高层次的研究奠定基础。此外,囿于时间、精力与篇幅,本研究仅选取国内外具有代表性的研究成果,分析仅聚焦于主题领域研究,尚未触及研究方法等其他层面与维度,深入度与全面性较为欠缺,亟待更加深入的探索与调研。