APP下载

大众分类法与传统文献分类法的比较研究
——以知乎话题和《中国图书馆分类法》为例

2020-03-04徐宜浩

江苏科技信息 2020年36期
关键词:中国图书馆分类法标引分类法

徐 雯,徐宜浩

(1.南京农业大学,江苏南京210095;2.南京大学,江苏南京210023)

0 引言

传统文献分类法主要揭示的是印刷型文献,一般以学科为中心建立分类体系。它是一种按照事先规定好的体系范畴或学科,依照一定的属性将文献分门别类地组织起来以便查验的方法[1]。目前国内外的传统文献分类法主要有《中国科学院图书馆图书分类法》《中国图书馆分类法》《杜威十进分类法》《冒号分类法》等。

然而,随着计算机网络和信息技术的发展,网络信息量增长迅速,信息来源广,繁杂无序,难以查询。传统的分类法很难解决这一问题。在这种情况下,各网站更加注重对网络信息的整理归纳,并借鉴传统的文献分类法,推出各自的信息分类法,方便用户的查找。其中最为常见的一种是以用户为中心的大众分类法。大众分类法也叫自由分类法、社会分类法、分众分类法、通俗分类法等,是一种由用户参与和主导的信息资源组织控制方式。目前,大众分类法还没有统一的定义。

本文以知乎话题结构和《中国图书馆分类法》(以下简称《中图法》)为例,分析大众分类法与传统文献分类法之间的区别,揭示大众分类法相对于传统文献分类法的优势和不足,为大众分类法的进一步发展提供可行性的建议。

1 大众分类法的应用

大众分类法是对网络信息分类的一种尝试,旨在通过用户自己给感兴趣的信息设置标签,对网络信息进行分类,方便用户检索。它突破了传统网络分类法事先规定的类目以及用户不能自己定义和修改的类名。2004年8月美国信息构建专家Thomas Vander Wal和Gene Smith首先提出了大众分类法,随后在各网站上得到了广泛的应用[2],如社会化书签、分享类网站、网络社区等。社会化书签是大众分类法最早的应用,如美味书签、Google书签、和讯网摘等。分享类网站主要是指图片及视频分享网站,用户对其上传的图片及视频赋予关键词,即标签,就可以实现网民的共享,如土豆、YouTube等。网络社区是指通过网上交流的方式,包括在线聊天、群组讨论、论坛、空间动态、通知公告栏等,使具有共同兴趣的网民聚集在同一主题的社区内,根据用户提交的标签,为他们寻找趣味相同的朋友。豆瓣便是应用大众分类法最成功的中文社区之一。

大众分类法适用于现在错综复杂的网络发展环境,在科研、商业及电子政务等领域已经存在对它的基本探索及应用。它最早被使用的领域便是数字图书馆,通过贴标签、收藏、共享3个步骤,读者能管理自己所喜欢的网页。学科门户也是大众分类法在科研领域的应用之一。对企业来说,员工对专业知识的了解至关重要,但常因为专业知识无法及时流通而导致人力物力的大量浪费。如果用大众分类法对专业知识进行标引,便可加强员工之间的沟通,提高企业的工作效率。政府门户网站,也可以建立政务信息书签。

2 大众分类法和传统文献分类法的比较

大众分类法是Web3.0的一种主要组织形式,与传统文献分类法相比具有独有的特征,具体表现在以下几个方面。

2.1 大众分类法相对于传统文献分类法的优势

2.1.1 非受控词汇

与传统文献分类法相比,大众分类法最大的不同之处就是它的类目完全由用户制定,采用的是非受控的自然语言。大众分类法主要以主题和学科相结合的方式建立分类体系;传统文献分类法则采用受控词汇,类目由专家制定,具有权威性。例如:知乎的同一个问题会被用户贴上不同的标签(话题),标签之间存在着等级的关系,这样就形成类似于主题词表的话题结构,标签之间的关系均由用户创造[3]。知乎话题广场,除了有自然科学、经济学、物理学等以学科为主的分类,还有游戏、运动、美食等以主题为主的分类。而中图法将全部知识门类分为5大部类:马列主义、毛泽东思想、邓小平理论;哲学、宗教;自然科学;社会科学;综合性图书。主要按照学科知识门类层次划分,以高度规范化的代码和语词为标志来揭示和组织信息。

2.1.2 共享性

大众分类法的标签分类公开共享,任何人都能看到。用户既可以自己建立一个标签来标引所感兴趣的信息,也可使用别人已经定义过的标签进行标引。任何人进行标引后,其他人便能立刻看到这些标签。如果觉得标签不是特别合适,还可以对标签进行增删改。而传统分类法是专业人员利用复杂的标引技术、遵循严格的分类规定进行分类标引工作的。例如中图法的类目都是预先规定好的,用户只能使用,不能随意更改。

2.1.3 动态性

大众分类法极具动态性,类目设置是及时更新的。网络用户的关注点会随着时间的变化而变化,这就使其定义的标签也在变化着,新的标签不断进入系统。使用频率低的标签会慢慢淡出视野,而使用频率高的标签则会逐渐显现,这便能体现用户在某一时间段的爱好习惯,在一定程度上也可以反映社会热点的变化。传统分类法只能在分类体系中对已设定好的类目进行对号入座,对于新事物新学科只能靠类或归入上位类,不能增加新的类目。例如:南京大屠杀这一话题,在平时的关注度不是很高,但是在12月13日国家公祭日这一天,南京大屠杀霸占了知乎热搜一整天。而在中图法中并没有“南京大屠杀”这一类目,只能把它归类到“抗日战争时期历史事件”。

2.1.4 自下而上的分类

在大众分类法中,用户可以自由对感兴趣的内容进行标注,不同的用户可能有不同的标注方式,最后由网络系统对同一内容的标签进行统计,使用频率最高的标签就是该内容的分类,所以大众分类法是一个自下而上的分类过程。而传统分类法正好与之相反,它是一个自上而下的分类过程,用户在使用时从所属上位类开始一级一级地往下找信息所属的类目。

2.2 大众分类法相对于传统文献分类法的局限

大众分类法相对于传统文献分类法有以上诸多优势,但由于大众分类法标签过度自由化,导致了大众分类中标签的专指度不够、标签的多样性、标签垃圾、系统间交互性低等缺陷。

2.2.1 标签的专指度不够

由于大部分用户没有要标引内容的专业知识,所以其设置的标签可能并不能准确表达信息内容。例如知乎中搜寻“笔记本”相关话题,网络系统不能很好地识别出,这里的“笔记本”可能指的是个人笔记本电脑,也可能是普通的日记本,最终会把两个话题都搜索出来,导致检索结果的不准确性。

2.2.2 标签的多样性

由于网络用户的知识层次不尽相同,对同一内容的理解程度也不一样,便导致了对同一内容进行标引时使用了不同的标签。以知乎为例,同一个问题会被贴上不同的标签。例如“互联网”,又名“网际网络”“因特网”“英特网”,甚至还有英文名称“Interet”,不同的用户,可能用不同的名称标引相关内容。这就导致了当用户输入“因特网”时,系统不会认为“因特网”与“互联网”“网际网络”等含义相同,继而不能检索出“互联网”“网际网络”等的相关信息,极大降低了系统的检全率。造成标签多样性的原因主要是语言的多样性,例如同义词、简称、缩略语等[4]。

2.2.3 标签垃圾

由于用户设置标签的随意性和网络系统的开放性,有的用户会给某一网络信息标注一些引人注目的标签,从而提高点击率,尽管这些标签跟该信息内容完全不匹配。在一些高频标签中,会出现一些毫无关系的垃圾资源,从而影响用户的检索效率,大大降低检准率。

2.2.4 系统间交互性低

由于网络信息资源的日益增加,传统的信息资源管理已经很难满足用户的需要,大众分类法从某种程度上解决了一些问题[5]。不少网络系统都可以标注和分享标签,但它们在格式规范和语义表达等方面并不一样。例如有的系统区分大小写,有的却不区分,这就导致了检索方面的问题。

2.2.5 分类的片面性

大众分类的目的是建立一个内容更加广阔的网络平台,供用户在比较大的知识范围或信息内查询浏览。大众分类法可对热点信息做出及时反应,吸纳更多的用户。同时,大众分类法建立在大众参与分类体系建构的基础上,对同一内容只有存在大量不同的标签,系统才可能通过同义词控制等方式得出最优化的分类结构。一旦参与人数不足,就很容易暴露出分类的片面性[6],这样得出的分类结果不具有代表性,影响用户体验感。

2.2.6 类目体系混乱

在大众分类法中,由于没有严格的规定,其类目体系混乱。在知乎中,“机器学习”话题可以通过多种途径找到。比如某技术领域有3个父话题——计算机科学、统计学、人工智能;23个子话题——深度学习、图像识别、自然语言处理、强化学习等。“机器学习”的结构较混乱,不适合用户的查找。而在传统文献分类法中,每一个类目都是固定的。在中图法中,“机器学习”只能在T工业技术——TP自动化技术、计算机技术——TP18人工智能理论——TP181自动推理、机器学习中找到。

3 改进与建议

3.1 提高标签质量

网络系统可以通过强化用户的网络角色和参与程度,来提高标签的质量。例如:可以根据用户添加的标签被其他用户使用的程度,设置知乎用户等级,不同级别的用户享有不同的话语权,从而提高用户的自律意识和标签质量[7]。同时,可以设计一个用户小界面,让用户对标签进行打分,从而发现高质量的标签。

3.2 垃圾标签处理

用户在遇到标签滥用时,可以进行投诉。系统根据其他用户对该标签的评价等因素,确定该标签是否存在滥用,如果是,可以限定滥用用户标签的呈现范围,比如把它限定为自己查看,不允许其进入公共标签层面或者由系统提醒用户该标签存在滥用情况,建议修改标签内容,否则该标签将被删除。

3.3 构建基于大众分类体系的叙词表

标签是大众分类法在图书馆信息组织的典型应用。信息组织者图书馆可构建叙词表对标签进行优化,解决自然语言标引造成的语义模糊问题[8]。同理,对网络信息资源,可以构建用户的叙词表和搜索者的叙词表,涉及同义词、近义词的规范。比如:搜索者要检索A,用户标签的是B,他们可能用不同的语词表达了同一个意思;或者他们可能都书写B,表示的却是不同的内容。这时就可以用这两个叙词表进行相互对照,使用更规范的术语来控制同义词的出现[9]。

4 结语

本文通过调查,研究了大众分类法的应用现状,发现它适用于现在错综复杂的网络发展环境,但仍然存在着些许不足之处。并以知乎话题结构和《中图法》为例,将其与传统文献分类法进行比较,深度揭示大众分类法的优势与劣势。大众分类法采用非受控词汇进行标引,使用户直接参与到网络信息分类中,打破了传统分类法不能增删改类目的不足。同时,大众分类法具有共享性和动态性,类目设置可以及时更新,是一个自下而上的分类过程。但由于大众分类法标签过度自由化,导致了大众分类中标签的专指度不够、标签的多样性、标签垃圾、系统间交互性低等缺陷。针对这些不足,本文提供了一些可行性的建议,例如:通过强化用户的网络角色和参与度,来提高标签的质量;通过人工控制,可以很好地减少标签垃圾的产生;构建基于大众分类体系的叙词表,控制同义词的出现等。

猜你喜欢

中国图书馆分类法标引分类法
分类法在高中化学中的应用
档案主题标引与分类标引的比较分析
本刊对来稿中关键词标引的要求
对《中国图书馆分类法》(第五版)F经济类目修订的探讨
《中国图书馆分类法》(第5版)修订与主题词对应分析
关于关键词标引的要求
关于关键词标引的要求
基于贝叶斯分类法的股票选择模型的研究
ABC分类法在介入耗材库存管理中的应用
韩国十进制图书分类法历史演进与评介