Web环境下基于用户行为的Tag分类
2018-02-27戚红一
戚红一
摘 要: Tag作为一种自由而有序的信息分类技术,对传统的信息分类、检索和传播方法进行了革命式的颠覆,在Web2.0及Web3.0环境下,它以“人”为信息传递和交换的核心,实现了由“机器-人”到“人-人”的信息传播方式的改变,迅速开创了互联网信息分类、检索和传播的新阶段。本文对Web环境下基于用户行为的Tag分类法进行了系统的综述,从Tag的基本概念出发,介绍了Tag的兴起及界定, Tag的形式、内容、使用方式、价值及影响,Tag的典型应用,并最终展望了Tag的发展未来。
关键词: Tag; Tag标注; 分类法; 大众分类法; 聚合
中图分类号:TP399 文献标志码:A 文章编号:1006-8228(2018)02-26-03
Abstract: As a kind of free and orderly information classification technology, Tag has revolutionized the traditional methods of information classification, retrieval and dissemination. Under the environment of Web2.0 and Web3.0, Tag takes "human" as the core of transmission and exchange, and has changed the way of information transmission from 'machine to person' to 'person to person' and quickly opened up a new stage in the classification, retrieval and dissemination of Internet information. Based on the basic concept of Tag, this paper introduces the rise and definition of Tag, the form, content, usage, value and influence of Tag, the typical application of Tag, and finally looks forward to the future development of Tag.
Key words: Tag; tagging; taxonomy; folksonomy; aggregation
0 引言
Tag,一种由用户自定义、用于描述信息的关键词,是用户在阅读和使用资源时,由于各种原因留下的各种类型的批注,如标签、评论、注释等[1]。Tag标注现象自古就已有之,例如,批注一直是我国文学鉴赏与批评的重要形式和传统的读书方法之一。Tag标注现象已经延续了数千年,传统环境下的Tag标注基本上都是自标自用,虽然也有少量标注随着原始资源传递到其他用户手中,或者通过出版批注本等形式传播,但是这种情况并不普遍,所覆盖的资源群体和受众群体都十分有限。
用户的Tag标注行为给互联网带来一场充满活力和巨大冲击的革命,一方面,用户有能力影响他们自己的在线经验,另一方面,有助于其他人获得更好的用户体验。用户添加元数据并且使用Tag来组织他们自己采集的数字化信息,为内容分类,建立起自底向上的分类系统。这里Tag所体现的正是群体的智慧和大众的心声,集体智慧做着迄今为止只有目录编制专家才可以做到的事情。信息发布者和网站作者,他们在组织互联网上的信息并为其分类,这是决定用户体验的主要因素,同时,Tag的广泛应用使得用户获得授权,他们可以选择决定自己的分类需求,由此,元数据掌握在了普通人手中,专家将不再是这个领域的霸主。
1 Tag的概念
Tag是一種关键词标注,是一种特殊的分类法,在中国并没有统一的中文名称,有人称之为“标签”,也有人称之为“自由分类”、“大众分类”或“开放分类”。Tag体现的群体的力量,使得网络内容之间的相关性和用户之间的交互性大大增强。
Tag体现了信息与信息之间的相关性。一件事物有不同的属性,而一个属性能被标注在不同事物上。Tag是在Web2.0时代的背景下,由网络受众创造的一种自定义分类方式[2],这种分类的类目之间并不形成立体的空间结构,而是一种超链接的复杂平面网络,这个网络融汇了人际传播、群体传播和大众传播的诸多特性,而Tag本身就是这些特性的元载体。
2 Tag的分类
Tag主要包括自由Tag和社会性Tag。社会性Tag是自由Tag的进一步延伸,它们只在使用范围上有差异。自由Tag在使用中通过共同使用的Tag把其标注的对象关联起来,就具有了社会意义,成为社会性Tag。一旦成为社会性Tag,就能够从群体用户分类中发现对应每个Tag标注使用最多的分类,这种通过协同用户单个行为产生的分类法,是在大众用户持续使用Tag的过程中被集体创造出来的,称为大众分类法(Floksonomy)[3-4]。
通过标注自由Tag的方式,社会性Tag在用户和标注内容对象之间建立起联系,并为这个联系赋予了一个或多个属性。这样在用户集合、标注内容对象集合和Tag集合间形成了一个三元网络(用户—Tag—内容对象),也可以看作是三组关联在一起的二元网络:(用户—Tag,Tag—内容对象,用户—内容对象)。由于这个三元网络中的关系是公开的,所以每个用户既可以看到自己所加注的Tag和内容对象,也可以通过自己加注的Tag和对象直接发现在三元网络上相邻的其他用户的Tag与内容对象,通过在网络上游走,实际上可以看到整个网络上用户、Tag和内容对象之间的对应关系。这样,用户的个人行为就成为社会集体行为中的一部分。每个人对互联网中资源的分类从整体上优化了互联网的秩序。endprint
3 Tag的功能及特点
Tag的功能可以从用户层面和系统层面两个层次进行分析。
⑴ 从个人用户层面来讲,用户可以是资源的拥有者和访问者。作为资源的拥有者,Tag标注赋予了普通用户组织网络信息资源的能力,用户能对资源的意义进行标注,以便于再次查找和使用,同时使个人资源能被其他用户发现和分享。作为资源的访问者,Tag能通过特定的Tag聚合整个信息空间中的相似内容,为用户提供基于Tag的检索、浏览和定制功能。
⑵ 从系统层面来看,基于Tag的大众分类法具有社群聚合的功能,能够帮助用户发现与自己关注相同内容、具有相同思想的其他用户,从而形成特定的社会群体。在此基础上,Tag能够反映不同社群对相同事物的不同认识,从而建立不同知识体系间的联系。此外,通过热门Tag和Tag的动态变化,还能及时反映热点和趋势。
4 影响Tag的因素
概括起来,影响Tag的因素主要来源于主观因素和客观因素两个方面:
主观因素指来自Tag标注者自身的因素。包括:①Tag标注者个人知识背景条件;②Tag标注者的个人能力;③Tag标注的目的和动机;④Tag标注时的心态。
客观因素主要指外界环境对Tag标注者标注行为的影响。包括:①其他用户标注的Tag及其易获得性;②Tag标注环境的影响;③社会大环境的影响。
这两方面的因素相互影响、相互作用。Tag标注的环境有时会影响到标注者的心态,進而影响Tag标注的结果。
5 Tag、Tag标注及分类
Tag作为元数据的一种,是所谓描述数据的数据。Tag是一种用户自创的元数据,特点是无层次结构、自定义。而Tag标注的过程,即Tagging,即构成了大众分类法(folksonomy),大众自发利用Tag对信息进行描述、分类,构成与信息架构中传统分类法(taxonomy)相对的信息组织。
分类和Tag都是为了寻找一种恰当的方法,对所涉及的内容对象进行组织,以便以后方便的检索、查询与运用。在传统组织方式中,分类必须创建于内容对象之前,而Tag则是创建于内容对象之后。传统分类和Tag的在于创建先后顺序上存在根本不同。
在内容对象信息组织的第一阶段,只有分类信息,即内容对象——分类,这里的分类往往限制在一个维度里,当树状结构复杂到不可调和时,出现瓶颈是迟早的。传统分类的问题在于,既不能完全满足用户需求,也不能完全表达创建者对内容对象属性的认知。
6 Tag的典型应用
传统环境下的Tag以自标自用为主,其应用多是为方便自己日后的检索或使用,有一种做备忘录的性质。在网络环境下,Tag的应用突破了这些局限,在更大的范围内得到了更广泛的应用。网络环境下的Tag应用主要分为以下几种:
⑴ 利用Tag组织资源
用Tag作为元数据组织资源,代替关键词的功能,这是目前Tag最普遍的应用,网上流行的大众标注(folksonomy)就是根据这一原理形成的。这种方法最初是随着美味书签的出现和发展而逐步发展起来的,它摒弃了传统分类法事先分类、专家分类的原则,采用由资源使用者为资源提供关键词,根据这些关键词来聚类资源的方式。这种资源组织方法一方面方便了用户,用户无需了解专业的、自己不熟悉的分类体系;另一方面,它利用集体智慧组织资源,形成的分类结果更贴近用户的使用习惯,对用户更具有现实意义。
⑵ 利用Tag改进资源组织工具
Tag不仅仅可以直接用来组织资源,还可以用来改善现有的资源组织工具和组织方法。在这方面,最直接的应用是将Tag与其他资源描述、组织工具或方法进行整合,共同完成对资源的组织和检索。例如,将表达同一概念的不同形式的Tag关联起来,作为对正规的主题词的补充,以此来改善检索效果。
⑶ 利用Tag实现异构资源的整合
国外有专家尝试使用Tag来实现异构资源的整合[5],科研人员可以对资源进行Tag标注,通过标注将那些可以通过Web存取的数据在不同的细粒度上与相应的概念链接。这样,被标注数据成为这些概念的实例,为用户提供了一种通过整合、透明方式来查询分布数据的框架。
⑷ 利用Tag进行协同过滤和推荐
通过对大量Tag的聚类和内容分析,可以划分用户(标注者)群体、资源群体,从而实现协同过滤和推荐。
当前,在许多支持标签的Web网站上,都提供了利用Tag进行推荐的功能:一种是大众式推荐,根据Tag的数量计算出热门标签,以Tag云图的形式展现给用户;另一种是专门式推荐,当用户标注了一定的资源之后,系统会根据用户给予资源的Tag计算出用户的兴趣领域,同时根据其他用户的Tag标注行为计算出属于该兴趣领域的资源,将它推荐给特定的用户。
7 结束语
Tag在国内发展到现在,其发展轨迹与博客有相似之处。起初并没有人把博客的商业价值提到议事日程,一直到“老徐的blog”成为全球第一博,似乎人们才将这一平台和广告结合了起来。而Tag的商业价值似乎在发展之初也并未受到人们的重视,但正因为Tag的相关网站,特别是被称之为Tagger(典客)网站弥补了传统搜索引擎无法克服的缺陷,提高了信息查找的效率,便引起了互联网巨头们的注意。亚马逊(Amazon)宣布投资典客网站43things;同年3月,雅虎(Yahoo)投资照片共享网站Flickr,Flickr成立才一年,用户数就达到42万。典客网站的出现,宣告了搜索引擎已不再是互联网上发现信息的惟一途径。
参考文献(References):
[1] M. Ames and M. Naaman. Why we tag: motivations for annotation in mobile and online media. In CHI '07.
[2] C.-m. Au Yeung, N. Gibbins, and N. Shadbolt. Contextualising tags in collaborative tagging systems. In HYPERTEXT '09.
[3] K. Bischoff, C. S. Firan, W. Nejdl, and R. Paiu. Can all tags be used for search? In CIKM '08.
[4] S. Brin and L. Page. The anatomy of a large-scale hypertextual web search engine. In Computer Networks and ISDN Systems, 1998.
[5] C. Cattuto, D. Benz, A. Hotho, and G. Stumme. Semantic grounding of tag relatedness in social bookmarking systems. In ISWC '08.endprint