文献发现:大数据时代的重要命题
2013-03-14吴志荣
吴志荣
(上海师范大学 图书馆,上海200234)
进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并认为大数据以及如何应对大数据已经成为当代社会发展中的重大事件。哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”2012年3月,美国奥巴马政府推出“大数据的研究和发展计划”[1],标志着大数据研究进入全球性发展阶段。可以说,人类社会进入了“大数据时代”。
一般来说,大数据是指各行业或各部门产生的业务数据,文献信息并不属于一般意义上的大数据,然而,文献信息作为社会重要的信息源,必然会受到时代发展的影响,而“大数据”这样的时代对其的影响更大,因为大数据时代的到来与自动化技术的普及和水平的提高,互联网通信的发达密切相关,而这两方面的发展对文献信息的产生同样有着强大的推动作用。例如,我国出版的图书数量1999年是141831种(包括重版、重印),2009年则达到301719种,整整翻了一倍还多,2011年这个数字超过了37万种。如何从这样庞大数量的图书中寻找出所需的图书?如何从数量更为庞大的、各种渠道产生的、各种载体的信息载体中寻找出所需要的文献?成为当代社会的新课题。
因此,可以把文献信息视为是一种“类大数据”,推动对其的采集、组织、分析、决策等处理技术的进步是大数据时代大数据处理的重要组成部分。“文献发现”理论与方法的提出即源于这样的思想。
本文提出并阐述“文献发现”的理论及其现实意义,构建“文献发现”的方法体系,并以学术文献为例对“文献发现”作进一步的阐发。
由于采集和保存有价值的文献资源关乎人类社会文明的传承,因此,毋庸置疑,“文献发现”是大数据时代的重要命题。
一、“文献发现”的含义及其意义
1.什么是“文献发现”
本文提出的“文献发现”是指“在数量庞大的、且信息冗余和信息污染现象十分严重的信息载体中运用科学的方法寻找出所需要(一般是有价值)的某类文献”。
“文献”即“用文字、图形、符号、声频、视频等技术手段记录人类知识的一种载体”,或理解为“固化在一定物质载体上的知识”,[2](P34)而这里的“信息载体”是社会信息的存在形态(“社会信息”是指“为了特定的目的产生、传递、交流并应用于人类社会实践活动,包括一切由人类创造的语言、符号和其他物质载体表达和记录的数据、消息、经验、知识”[3](P7))。
信息载体包括了各种类型、各种体裁的文献,不仅包括了传统的纸质文献、视听文献、缩微文献,还包括数字文献;不仅包括了传统的图书、论文这样的体裁,还包括了博客日志、PPT、Word文档、电子邮件、网页等新型体裁;同时还包括了大量无甚价值、甚至内容谬误的文献(可以称其为“伪文献”)和严格意义上不属于文献范畴的信息载体,如大多数的短信、微博、通知、行业数据等(可以称其为“非文献”),因此其范围远远大于传统意义上的文献集合。
以上对“文献发现”的描述包含这样几层含义:首先,“文献发现”是从数量庞大、类型多样且信息冗余和污染现象十分严重的信息载体中寻找出有价值的某类文献,如果信息载体的数量不多,且信息冗余和污染现象不严重,查找和获取文献比较容易,“文献发现”理论的提出是没有什么意义的。其次,“文献发现”寻找的是某类文献,而不是某种文献。也就是说所要寻找的文献的外部特征(即题名、著者姓名等)事先是未知的。第三,文献发现的目标是文献,而不是“知识”或“数据”,因此,“文献发现”与以往的“知识发现”和“数据挖掘”的概念是不同的。第四,由于寻找文献的难度超过以往,需要重新构建新的查寻文献的方法体系。
因此,虽然“文献发现”的最终目的也是要寻找出所需的文献,然而其概念与以往的“文献检索”相比是有着很大区别的。“文献发现”要面对的是所有的信息载体,而“文献检索”所面对的信息载体基本上就是传统意义上的文献集合。由于“文献发现”所面对的信息载体数量极其巨大,其中又包括了大量的伪文献和非文献,寻找出所需要的文献的难度大幅度提高,所使用的方法也因此需要重新构建。
此外,“文献发现”寻找的对象是某类文献,而“文献检索”寻找的对象除某类未知文献外,还包括外部特征已知的某种文献。
“文献发现”与以往的“文献开发”概念也不同,“文献开发”是指专业人员对某些资料中有价值的内容进行挖掘,重新汇编成新的文献。
2.“文献发现”的方法
“文献发现”方法体系可以分为两个层面:一是微观层面的,也即传统的文献检索方法,如分类检索、主题检索等对未知文献的检索方法。二是宏观层面的,是对数量庞大的信息载体进行分析、查找所需文献的方法。宏观层面的方法具体有这样几种:
(1)文献计量法
这种方法采用数学计算、统计分析、引文分析等方法对文献生产、老化和分布的特征和规律进行研究,是一种定量的方法,目前来说,是文献发现的重要方法。例如采用布拉德福定律、二八定律研究文献的分布规律;采用指数增长率和半衰期研究文献的生长和老化规律;根据文献之间的互相引用分析文献之间的关系,评价文献的质量;根据文献的利用率和图书销售排行评价图书质量;等等。
其中的“引文分析法”是目前运用得较为普遍,且又十分有效的寻找有关联的或高质量的学术文献的方法。
当代的学术文献都需要列出参考文献,也就是引用文献。因此,在学术文献的体系结构中,每篇文献并不是孤立存在的,而是互相联系的。通过引文分析法可以寻找出相关主题的很多文献;可以对文献质量和作者的学术水平进行测评,统计分析文献的被引用次数,可以测得高被引文献、高被引作者、核心期刊、核心出版社;可以测评文献的老化年限。如今一些数据库大都使用这种方法来让用户寻找出有关联的文献,如同一主题的文献和重要文献,同一主题的不同研究者,重要研究者和重要研究机构。此外,一些机构还运用引文分析法来确定核心期刊。
(2)要素分析法
研究有价值文献形成的要素,然后对这些要素进行分析,寻找出判断有价值文献的客观依据。具体方法是,在对有价值的文献进行分析后(就如以上所述用引文分析法寻找出高被引文献后),找出有价值文献的形成要素。例如,现在一些研究表明,核心出版社、作者身份、重要研究机构、版次(多次出版)、基金项目是有价值图书的形成要素。[4]这些要素也就成为判断有价值文献的客观依据。
这样,就需要研究分析各领域有价值文献的要素,例如,分析出哲学领域学术图书的核心作者、核心出版社和重要研究机构。这些作者的学术身份和所属机构以及核心出版社,再加之比较容易发现的版次和基金项目的级别就成为寻找哲学类有价值学术文献的客观依据。
在庞大的文献体系中,各类文献的价值取向是不同的,如学术文献和休闲娱乐文献的价值取向是不同的。人文素养类、科普类、励志类、教辅类等文献的价值取向也都不同。所以需要分析并确定各领域有价值文献的形成要素,才能发现各领域有价值的文献。要注意的是,要素的情况是会发生变化的,需要定期地进行分析。就如当今对核心刊物每隔一段时间就要测评一次。
(3)领域本体构建
这是数字文献发现的有效方法。这种方法用于寻找数字文献,一是存贮于各类数据库中的文献;二是散布在Web网上的文献。
本体(Ontology)原本是一个哲学上的概念,是研究实体存在及其本质的通用理论。后来,“本体”被引入人工智能领域。1991年奈切斯(Neches)等人将Ontology定义“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成词汇外延的规则”。1998年斯图德(Studer)等人进一步提出:“Ontology是共享概念模型的明确的形式化规范说明。”这定义包括四层含义:“概念模型”指通过客观世界中一些现象的相关概念而得出的模型;“明确”指所使用的概念及其约束都有明确的定义;形式化是指Ontology是计算机可读的;“共享”是指Ontology体现的是共同认可的知识。[5]
完成各领域的本体构建后,即可运用计算机识别技术对数量庞大的数字文献中的内容进行比对,寻找出符合相关术语及关联(“关联”包括等同/同义关系、层次关系、相关关系等。这些关联将本体有机地连接成为一个具有语义的整体)的文献。如果已经对存贮于数据库的文献进行了标引,检索效率就更高。
因此,利用领域本体进行文献的寻找,其检索效率大大高于目前的搜索引擎(因此,构建领域本体也是Web网向语义网发展的基础工作),但是领域本体的构建相当复杂,难度很高,需要计算机学科、情报学科、图书馆学科领域专家等多学科的专业人员进行协作才能完成。
(4)读者评价
这里的“读者”既包括一般读者,也包括专业读者和专家读者。这是一种定性的方法。这种方法能寻找出的文献是少量的,所以必须与以上一些方法结合起来使用。
一般有这样几种做法:
一是用问卷调查的方法取得读者对文献的评价。与图书排行榜、文献利用率不同的是,这种方法可以更加深入地了解读者对文献的评价。调查表格的设计至关重要,既要让被调查者感觉填起来方便,又能通过表格的填写获取所需的信息。
二是通过读者推荐图书。这也可以了解到有关图书的受欢迎程度。如果是专业读者的推荐,更是具有一定的专业水准,隐含了同行评审的行为。因此,各类图书馆的“读者荐购”是一项很重要的工作。
三是通过各类书评文章,了解一些有价值图书的信息。
以上所述的方法有的是定量的、有的是定性的,可以互相结合,形成大数据时代文献发现的方法体系。例如通过文献计量法可以测定出有价值文献,而通过要素分析法可以分析出这些有价值文献的形成要素以及要素的具体内容,同时结合读者调查法,就可以寻找出所需要的某类文献。领域本体的构建可以用于数字文献的查找,寻找出相关文献后,也可以使用文献计量法和要素分析法作进一步研究。
3.“文献发现”的意义
(1)实践意义:降低文献采集误选比例,提高入藏文献质量。
“文献发现”理论是基于社会文献生产的变化所引起的日益严重的信息冗余和信息污染的现象而提出的。
20世纪90年代中期以后,我国各类编辑出版机构开始市场化运行,盈利自然成为这类机构追求的主要目标。例如,作为社会主要的图书审核机构的出版社放松了对出版物的限制,使得社会的各种出版需求得到了很大的释放,出版物数量激增。
品种数量的剧增并不意味着社会创新能力的大幅度提升,因为其中充斥着大量低水平重复的、跟风的、低俗化的、粗制滥造的出版物。“信息冗余”和“信息污染”现象相当严重。据统计,截至2007年,在中国社会科学引文索引(CSSCI)中被引用过1次及以上的图书仅占相应时间段所出版图书总数的13%。[6]这种社会文献生产状况的变化对文献收藏机构的影响相当大。
例如,根据研究,作为社会重要的文献收藏机构的图书馆在文献采集环节中产生了高比例的误选现象,即把大量无甚价值的文献购置入馆,却又漏藏了相当比例的有价值文献。[7]又例如,据统计,我国很多高校图书馆中新入藏中文图书在入藏3年期间(这应该是图书出借率最高的时间段)零借阅率比例年平均高达40%~50%。[8]这样的比例对那些半衰期短的图书来说,就意味着大量的图书面临着短期内被剔除的命运,人力、财力、空间的浪费是十分严重的。
“文献发现”理论能让有关机构认识到大数据时代文献采集面临的状况,改变以往粗放型的采集方式(即根据类目和题名进行快速选书),并运用科学的方法采集文献,从而降低误选比例,提高入藏文献质量。
(2)理论意义:推动图书馆学有关理论的发展。
与文献有关的学科有图书馆学、情报学、档案学、文献学、版本学、目录学等,“文献发现”理论与图书馆学的关系最为密切,这是因为图书馆学是一门研究文献采集、文献组织、文献传递、文献保存的学科。“文献发现”理论可以推动图书馆学馆藏建设理论和图书馆职能理论的发展。
首先,可以推动馆藏建设理论进一步发展。
我国的馆藏建设研究在20世纪80年代末已经形成了一个较为完整的理论体系。该理论体系包括馆藏补充的原则、馆藏发展的规划、馆藏结构的体系规范、选书的理论和方法、关于剔除的理论、关于馆藏质量的评价方法、藏书发展政策研究等等[9],但是这个理论体系是建立在出版物的数量和质量都受到较为严格控制基础上的。在社会文献生产状况发生了较大变化的背景下,有些理论需要重新认识。
例如,以往五级藏书制中的“完全级”理论是有问题的。完全级藏书理论要求图书馆在确定某个重点类目以后,对这个类目进行完全式采集(即有一种,就要购买一种)。可是根据当前文献产生的状况,这样的方式肯定要购入很多无甚价值的图书,是没有必要的,因此,五级藏书制理论需要重新讨论,可以根据“文献发现”理论确定核心藏书或高被引藏书、基金项目藏书等。
又如,数字文献的发展不仅表现在传统书刊的数字化,还表现在出现了很多新型的文献体裁,如博客日志、PPT、电子邮件、网页内容等等,从保存人类文化遗产的这样的社会职能来看,图书馆也应该收集其中有关的内容,但如何来收集、采用什么标准,都需要探索。“文献发现”理论应该探究这些问题。
此外,“文献发现”将进一步推动对文献采集方法的研究,研究当代文献采集的方法体系。这一切都将推动馆藏建设理论的进一步发展。
其次,推动图书馆社会职能理论的变革。
在图书馆学基础理论体系中,关于图书馆社会职能的理论对图书馆各项工作最具有实际指导意义,图书馆进行的文献采集、文献标引、著录、上架、清点、环境控制、参考咨询、阅读推广等各项工作都是在职能理论的指导下进行的。
一般认为,图书馆具有文献信息流整序、文献信息传递、开展社会教育和开发智力资源和搜集和保存人类文化遗产等社会职能。近年来,又增加了休闲娱乐的社会职能。[10](P92)
然而,长期以来,我国的职能理论研究对“文献搜集”职能的阐述是十分简略的,一般只强调了要注意不同载体的文献搜集。[10]这样的阐述在当代已经不合时宜。
应该认识到在海量的信息载体中采集有价值文献的难度,认识到采集和保存有价值文献对人类社会发展的极端重要性,从而加强和拓展符合时代发展的文献搜集的理论,并对图书馆的职能理论作进一步的探讨,在职能理论中凸显“文献搜集”的职能。
因此,“文献发现”可以成为当代图书馆新的社会职能。从微观层面上看,有利于图书馆文献采集工作水平的提升,而高水平的文献采集能力将成为图书馆的核心竞争力;从宏观层面上看,有利于人类社会有价值文献的采集、保存和传播。
为了推动图情机构的发展,在很多年前,图书情报领域引入“知识发现”的概念。这种概念似乎为图书馆和情报机构一直期望实现的“知识服务”提供了一种研究方向,然而,这种研究实际与图情机构的工作基本没有关系,因为“知识发现”是指从大规模的数据集中识别出有效的、新颖的、潜在有用的以及最终可理解的模式的非平凡过程[11],它的理论和实践主要应用于各种行业的业务数据集分析方面。
文献与知识的区别在于前者是后者的载体。图书馆工作的对象就是这种载体,一般来说即为图书、报刊及视听资料的总和。近年来,数据库在馆藏的比重越来越高,但是这些数据库中存贮的大都也是文献(不是行业的业务数据)。
当今一些期刊数据库利用引文分析法找出文献与文献之间的关联,让用户能从某一篇文献出发找到相关的文献。虽然声称这是一种知识发现,实际也是文献发现,而且这都是数据库商开发的,图书馆的专业人员在这方面是没有什么作为的。
“文献发现”则完全可以成为图书馆专业人员努力的方向。掌握文献发现的方法,寻找有价值的文献应该成为图书馆专业人员职责所在。
图书馆社会职能的扩大是图书馆发展的规律,图书馆职能会随着社会的发展而发展,从最初的文献保存职能、文献整序职能发展到具有文献传递、开展社会教育等职能。“文献发现”则应该发展成为当代图书馆新的社会职能。
二、“文献发现”的一个案例
《中国哲社类学术图书基本书目(1995—2005)》是国家教育部人文社科规划基金项目的成果之一。该成果就是在“文献发现”理论的指导下,运用“文献发现”的方法对1995—2005年我国出版的哲社类图书进行分析,从而发现高质量的学术文献的过程。从这个案例可看出,有价值的学术文献在文献总量中所占的比例是相当低的,也由此说明了“文献发现”理论的重要意义。
1.书目编制过程
首先,获取了我国1995—2005年出版的哲社类图书共722534种,如表1:
表1 我国1995—2005年出版的哲社类图书书目总量(包括重版、重印)
然后,删除了科普类、励志类、文艺作品类、教辅类、习题集、大专以下教材等方面的图书,得到的学术图书共126170种,如表2
表2 我国1995—2005年出版的哲社类学术图书总数
再者,运用Google Scholar作为引文分析工具,对这126170种图书进行了引文分析。分析后发现,有1次(包括1次)以上被引次数的学术图书共53333种,占学术图书总数的42.2%,占哲社类图书总量的7.4%。
被选入书目的图书的标准有两个维度:一是根据被引频次,即定量的维度(实际也包含定性的因素,因为被引也意味着他人的认可)。这个维度基本遵循二八定律,即入选图书的被引次数占总被引量的70%~80%。各个学科的情况是不同的,如H类图书要达到被引35次才能入选基本书目,G类图书要被引23次才能入选,D类则要求被引22次,而I类图书和K类图书被选入基本书目要求的被引次数相对比较低。二是根据定性的维度,请有关学科专家对根据被引次数而选入基本书目的图书进行审核,也可推荐自己认为的好书;同时把在1995—2005年时段出版的由国家社科基金项目资助的图书、获得国家图书奖等奖项的图书、《中国图书评论》中所涉及到的学术图书也作为选入基本书目的重要依据(后两类作为附录列出),因为这类图书是通过各学科专家层层审定而产生的。
表3是根据二八定律确定引文频次并经有关专家审定而产生的图书情况:
表3 根据二八定律各学科并经有关学科专家审定入选基本书目的图书数量
表4是有关基金项目资助出版、获得国家奖或中国图书评论中涉及到的图书数量:
表4 有关基金资助、获奖、书评涉及的学术图书数量(已去掉与前表中图书重复的)
表3和表4共计图书16763种,仅占哲社类图书总量的2.3%,应该说把这些图书作为我国在1995—2005年出版的有价值的哲社类学术图书,是有相当说服力的。
这个案例运用引文分析法、二八定律和读者调查法从722535种图书中寻找出有价值的学术图书16763种。
2.基于标准书目的要素分析
标准书目,也即能作为标准来衡量图书质量的权威书目。以上所编制的《中国哲社类学术图书基本书目(1995—2005)》就是一种标准书目。利用该书目,可以分析有价值图书的形成要素。
通过分析入选书目的图书的出版社分布、年代分布、作者分布和机构分布,测定出哲社类各学科的核心出版社、核心作者、重要研究机构等。
例如对入选C大类的图书进行分析,分析出北京大学出版社、中国人民大学出版社、社会科学文献出版社、高等教育出版社、生活·读书·新知三联书店、中国社会科学出版社、科学出版社、华夏出版社、清华大学出版社、上海人民出版社等出版社为该类的核心出版社;同时分析出费孝通、韦伯、德鲁克、王国维、王铭铭、郑也夫、陈向明、郭咸纲、李维安等为该类的核心作者。进一步对核心作者进行抽样分析,发现入选图书在2种以上(包括2种)的作者中,96%的职称均为教授,另外的4%也是在各自领域有突出成就的学者;而从这些作者所属机构来看,清华大学、北京大学、中国人民大学和南京大学4所大学就占到36%,属于排名前十的重要研究机构占50%以上、核心出版社所占比例也达到了80%以上。[4]
由此可以确定,作者的学术身份和所属机构以及是否核心出版社是判断图书有没有价值的重要依据。
通过以上案例,可以进一步认识“文献发现”的理论和方法。
[1] 杨绛.基于文献计量的“大数据”研究[J].图书馆杂志,2012,(9).
[2] 叶鹰.信息检索:理论与方法[M].北京:高等教育出版社,2004.
[3] 马费城,等.信息管理学基础[M].武汉:武汉大学出版社,2002.
[4] 陆怡洲.试析图书质量评价的客观要素——兼论构建图书采访技术体系[J].图书馆杂志,2012,(6).
[5] 刘植惠.本体(Ontology)与语义网(Semantic Web)[J].重庆图情研究,2006,(3).
[6] 叶继元.改革开放30年学术发展的主要特点和重要成果探视——基于图书被引用的分析[J].云梦学刊,2008,(4).
[7] 陆怡洲,吴志荣.当前藏书建设中存在的高比例误选黑洞及对策——以计算机类图书为例[J].图书馆建设,2011,(7).
[8] 刘淑波,胡文华.新书书库图书利用实证调查研究及对策[J].图书情报知识,2010,(3).
[9] 吴志荣.对馆藏建设领域开展案例实证研究的思考[J].图书馆,2010,(5).
[10]吴慰慈,董焱.图书馆概论[M].北京:北京图书馆出版社,2002.
[11]贺清碧,胡久永.数据挖掘技术综述[J].西南民族大学学报(自然科学版),2003,(3).