Folksonomy理论研究及应用前景
2010-09-26桂筱丹
桂筱丹
(首都图书馆,北京 100021)
1 引言
当前,互联网已经成为人们获取信息最重要的来源之一,随着以 Blog(博客)、SNS(社会性网络服务)、RSS聚合、Bookmark(社会性书签)等社会性服务为代表的新一代互联网(Web2.0)技术的广泛应用,一种“全民织网”的新形态互联网信息创造、组织方式应运而生。在此背景下,Folksonomy由社会性书签最具特色的自定义标签(Tag)功能衍生而来,是Web2.0的重要范畴和典型的技术应用之一。
2 Folksonomy的涵义
Folksonomy概念的出现晚于它的应用。2004年,Thomas Vander Wal将“folk”和“taxonomy”组合成“Folksonomy”,作为描述del.icio.our(美味书签)和Flickr(闪亮图片夹)两个网站所发展出的信息架构的术语。
Folk:意思是广大成员、人们,表达了Folksonomy作为Web2.0环境下社会化软件(Social Software)的大众性。社会性软件是指任何支持群体交流的软件,其核心内涵在于互联网应用模式开始从传统的“人机对话”逐渐转变为“人与人对话”。
Taxonomy:意思是分类法,传统意义上指专家分类法或图书馆分类法,表现为基于概念的树状分类表,具有严谨的层次结构和唯一性。Taxonomy表达了Folksonomy信息资源组织的功能性。
Folksonomy:维基百科中的定义为一种通过协作式创建和管理标签对内容(资源对象)进行注解和分类的方法和实践。译作“分众分类法”、“大众分类法”、“通俗分类法”、“社会分类法”、“自由分类法”等,也有人将其解释为Social Classification。
Folksonomy的原理是向社群参与者提供一种协同构建与分享各自网络资源标签的开放式平台,用户通过自己制定的分类标准来提交Tag,由用户群体定义Tag的频率来决定信息的组织方式。
下面以张爱玲作品《十八春》为例说明Folksonomy形成过程,见表1。
表1 用户群体对张爱玲作品《十八春》定义Tag列表
以 Tag使用频率计算:张爱玲(5),十八春(4),中国文学(4),爱情(3),小说(3),文学(2),张爱玲小说(1),中国(1),经典(1),女性(1),其中,“张爱玲”、“十八春”、“中国文学”,这3个词语使用频率最高,那么这3个词语就组成该作品在有限范围内(User1~User5)的 Folksonomy。
当然,以上User样本量选取有限,无法完整地表现Folksonomy的信息组织结构。Folksonomy的主要机制是基于“开放性元数据标准”和“自然语言的群类聚集”。只有当一定数量的用户对信息进行个性化标引,才能形成有效稳定的社会性Folksonomy。惠普实验室的研究人员指出,只要指向某网页(即资源对象)的书签(即用户行为)数量超过100个,每个标签在标引这个网页所使用的所有标签中占的比例会相对固定,也就是说形成了对该网页相对稳定的分类。
3 Folksonomy的特征
3.1 体系的构建依靠用户自定义行为
传统分类法是权威专家学者根据知识累积和实践经验构建而成的,Folksonomy却是任何人都可以根据自己对信息资源的主观解读,不受传统分类法学科、语种、等级结构甚至是准确性限制,使用个性化标签自由标引。当然这并不是说Folksonomy结构混乱。如上所言,采用基于统计概率的客观规律调节,Folksonomy呈现相对稳定的结构体系。
3.2 面向社会的开放式平台
Folksonomy是随着Web2.0技术的应用而逐渐形成的。面向社会搭建一个开放共享的平台,借助网络的力量来利用集体智慧,这是Web2.0核心要素。Folksonomy作为Web2.0典型应用,为用户提供了共享标签功能。用户对信息资源的标引公开,所有人均可共享。
3.3 平面非等级结构的类目结构
传统分类法具有严密的等级结构和逻辑关系,而Folksonomy的类目则是根据数理统计方法在内的各种算法和机制产生的,各个Tag之间的关系是一种平行的关系,但是又可以根据相关性分析,将经常一起出现的Tag关联起来,而产生一种相关性的分类。Folksonomy通过标签云(Tag Cloud)传达各个Tag在运用时的情形,使用频率越高、设置次数越多的Tag,字体越大、越粗,颜色越醒目。
图1为在Librarything网站以“Web2.0”搜索Tag,其相关Tag生成的标签云(LT Tag Cloud)。
图1 “Web2.0”相关Tag标签云
4 Folksonomy的优势
4.1 简单易用,摒弃人为障碍
传统分类法使用人工语言,具有严格的层级结构,用户需要具有一定的专业知识,从根目录开始经过几级类目寻找所需要的信息。Folksonomy是通过自然语言的社群聚类实现类目划分,平面化非等级结构。用户不需要预先学习其体系构建,减少用户的认知负担,用户可以轻松掌握使用方法。
4.2 灵活性高,实现动态更新
在当前瞬息万变的网络世界里,由于传统分类法使用受控语言,类名预先设定,用户不能自定义以及更改类名,其体系结构相对固定和滞后,学科创新、社会发展趋势难以及时反映。而Folksonomy引入自然语言作为标签(即类名),不受类名使用标准限制,能从不同角度描述信息资源的内容,全面而灵活;标签的确定依据用户自定义频率,体系随着社会热点话题及时实现结构动态更新。
4.3 用户为主体的体系创建,信息组织成本低
虽然用户个性化的标引行为首先是为了满足个人信息组织的需求,而不是为了满足Folksonomy内容创建整体性需要,但大量用户的个性化行为却形成了其用户为主体的体系创建模式,省去了传统分类法大量专业人员预先编制分类体系、组织信息和维护更新所消耗的成本。与专业分类系统的高成本相比,它是以很低的成本获得了高命中率的分类系统。
4.4 多角度深刻揭示信息资源
Tag是用户对信息资源显性和隐性知识分析提炼的结果,不一定是针对主题,可以是时间、对象、时代背景等任意个性化理解的标注,高度集中的标签反映了该内容本身的标志性的特性,而分散的标签,更多的和个人的知识信息系统的需求和不同相关,实现了对信息资源多角度深刻揭示。
4.5 实现多向线索知识扩展
Folksonomy自由化标引形成的非等级标签系统具有内在逻辑关系,它使知识的扩展不是过分地封闭在某一个领域内。用户通过标引标签行为能发现平时没有关注的知识领域,里面不仅可以包括主流性话题,也包括其他方面非主流的话题,体现了文化的多样性。这种多向线索知识扩展链,有助于发现用户兴趣的“长尾”。
5 Folksonomy的缺陷及控制方案
Folksonomy是网络环境下一种新兴的社会化分类法,具有很多优于传统分类法的特点。但是,Folksonomy并不能称作完美的信息分类组织方法,甚至在很大程度上具有无法忽视的缺陷,需要正视和加以控制。
5.1 标引差异大,Tag控制力不足
依托面向社会的开放式平台,网络用户使用Tag标引信息资源,这是Folksonomy结构体系形成的基础。但由于用户文化水平的不平衡性以及所处环境、学科专业的多元化,对同一信息资源的理解会有较大差异;同时由于用词习惯的不同,同义词、反义词、翻译词、外来词甚至是网络文字的大量使用,致使Tag选择出现歧义缺陷、同义缺陷、同现缺陷、语法缺陷以及权重缺陷。用户选用过于个性化而通用性差的Tag,致使Tag使用缺乏控制,内容聚合质量下降。
5.2 平面非等级结构可能遗漏重要信息
Folksonomy不存在根节点,没有上位类和下位类,尽管使用频率高的Tag在标签云中通过字体大小、颜色等凸显出来,但当Tag数量超过某个限度后,很难按照逻辑结构找到需要的类别。在大众浅层信息需求的影响下,一部分具有重大价值但却过于专业性、使用频率较低的标引很容易被遗漏。
5.3 Tag spam的出现影响有效性
因为用户标引的不可控性,在一些使用频率特别高的Tag当中,会出现一些毫无关系、没有价值的垃圾资源条目(Tag spam)。这些Tag spam产生可能是因为盲目的宣传、无关广告信息、用户权限的滥用,甚至可能是因为恶意的破坏。Tag spam的出现会影响Folksonomy体系的有效运行。
目前已经有很多使用Folksonomy对信息架构分类的系统意识到了这些问题,并采用一系列规范化的控制措施来优化Folksonomy分类体系:①引入基于人工智能技术的同义词环,合并具有同意义的标签;②建议不要使用过于个人色彩的词汇标引;③通过用户对数据源的人工判断和打分,发现高质量的重要信息;④根据用户对系统的贡献(比如添加信息资源的数量、质量、被其他用户利用的程度等)设置用户级别,根据级别设置不同的权限;⑤加强对使用标签检索的结果进行排序整理;⑥对滥用标签情况进行人工干预处理等。
6 Folksonomy应用实例分析
“皮尤网络与美国生活项目”(Pew Internet&American Life Project)的报告表明,美国有28%的网民曾给自己的博客、网络照片、在线书签、视频添加标签,每天都有7%的网民利用标签功能为自己上传或找到的内容进行分类和管理。这项调查显示,短短几年之内Folksonomy已经开始被网络用户熟悉、接受和使用。Folksonomy使得分类法思想和广大用户对信息资源的理解无障碍结合起来,并且提供了更加个性化和多元化的信息组织方式,使得这种以自定义标签形式的分类方法在不同的领域得到了广泛的应用。
Connotea:由自然出版集团(Nature Publishing Group)2004年12月建立的网上参考资源管理和社会性书签工具。Connotea提供网络化的参考链接和资源缓存、平面资源的组织,辅之以多维标签、协作标注、资源共享和书目信息/引文连接自动添加等功能。
CiteULike:CiteULike是学术性社会书签管理工具,目的在于促进和发展科研人员之间的共享。用户通过CiteULike特有的开发工具可以共享信息、交流学术论文,CiteULike提供用户学术文章和书籍信息保存、分享、组织等服务,支持用户建立个人资料库,支持Tags、RSS订阅、设置优先权限、支持按照Tags和作者查询功能,并支持建立用户组群等服务。2004年11月创立,目前拥有学术论文信息200多万条。
Via Zheng Steve.Museum:作为一个试验性项目,系统注册用户可以对他们提供的艺术品进行标引描述,其目的在于通过协同合作的方式使公众参与组织博物馆中的艺术品信息,使博物馆工作人员了解到社会大众对博物馆中艺术品的理解。初步的研究成果表明,一部分标签具有普遍适用性,而另一部分标签只适用于个别艺术品。
Del.icio.us:这是最早也是目前最著名的社会性书签工具,2003年年底由Joshua Schachter开发,2005年已经拥有超过500万用户和1.5亿书签地址连接。Del.icio.us使用非等级分类系统,用户可以直接对每个书签自由进行个性化标引。系统根据用户书签的标引,自动筛选并推荐相似想法用户。Del.icio.us主页提供“popular”(热门)和“recent”(最新)页面,帮助用户了解网站热点和趋势流向。
Flickr:作为图片分享服务网站,由加拿大Ludicorp公司的Stew art Butterfield和Caterina Fake 2004年设计。2008年11月4日该网站用户上传图片突破30亿,到目前为止该数量已经改写为34亿,还在以每分钟超过3000张的速度增长。Flickr通过授权控制策略,对资源信息公开的范围和供他人使用的形式进行区分。允许用户邀请他人加入,将用户已有的社会关系转入Flickr系统;同时允许用户根据兴趣、Tags、关注度等发展Flickr系统内部的社会关系。拥有用户组功能,各组群中具有图片共享功能,可以组成图片集,设立组群内部论坛,甚至还提供用户聊天功能。
Folksonomy是一种全新的分类思想和互联网应用方式,对传统分类法具有理念和实际应用多方面的启示,提供网络用户参与分类的可能途径,进行了自然语言和人工语言结合的有益尝试。在未来的发展上,如何引导网络用户集体智慧、利用分类专家的专业能力提高检索效果;提升系统个性化服务,突破现有的数字资源服务平台,应用到个人信息组织的其他方面是Folksonomy亟待解决的问题。
[1] [2010-04-28].http://www.connotea.org/.
[2] [2010-04-28].http://www.citeulike.org/.
[3] [2010-04-28].http://www.steve.museum//.
[4] [2010-04-28].http://www.del.icio.us/.
[5] [2010-04-28].http://www.flickr.com/.
[6]田野.调查显示28%美国网民曾在网上贴标签.[2007-02-05].http://www.cnii.com.cn/20070108/ca397634.htm.
[7] 李文举.公众分类法(Folksonomy)基础性理论研究.图书馆学研究,2008(9):78-80.
[8] 王翠英.Folksonomy 初探.图书馆学研究,2007(5):85-87.
[9] 陈洁,司莉.社会分类法(Folksonomy)特点及其应用研究.图书与情报,2008(3):27-30.
[10] 余臻,李保珍.网络信息资源的大众化分类.情报科学,2008(7):65-67.