国外标签本体研究进展
2009-01-11吴芬
吴 芬
〔摘 要〕为解决folksonomies的问题,提出给标签、标注行为增加语义的标签本体,并利用语义网本体建模标注行为和folksonomies。标签本体的发展从关注标注活动发展到关注folksonomy(协同标注活动),并从标签含义的角度,创建MOAT跨越标注行为与语义检索的鸿沟。标签本体正走向统一、共享的新阶段。
〔关键词〕标签本体;folksonomy;语义网
〔中图分类号〕G254 〔文献标识码〕A 〔文章编号〕1008-0821(2009)11-0016-05
Research Progress of Tag Ontology AbroadWu Fen
(Library,Hunan University of Commerce,Wuhan 430079,China)
〔Abstract〕In order to solve the problems of folksonomies,researchers proposes tag ontology adding semantics to tag and tagging,and models tagging and folksonomies with ontology.The development of tag ontology was from focusing on tagging activity to folksonomy(collaborative tagging),and created MOAT bridging the gap between free-tagging and semantic retrieval.Tag ontology is towards uniform and sharing.
〔Keywords〕tag ontology;tagging;folksonomy;semantic web
随着web2.0的发展,标签(tag)以其自由、方便广泛流行,标签数据迅速增长,但其检索效率则迅速下降。这是由于标签的自由、简单易用导致以下检索问题[1]:(1)本地差异:标签没有语义,无法分辨同义词和一词多义;并且对于名词单复数、动词时态和替换拼法等不同词汇形式以及人为的拼写错误无能为力;(2)分布差异:不同的folksonomies系统有各自运作的具体方式,无法从不同应用程序或服务中找出标签数据的含义和关系。而这些局限是由于在folksonomies系统中缺乏统一的结构和语义表示,不同folksonomies系统没有共享、交流、复用标注数据的统一方式。
为在folksonomies系统中增加更多的结构和语义,国外研究者已进行了相当的研究。但这些研究主要集中于标签使用范式的统计分析基于标签数据的社会网络分析和聚类等[1],即主要是研究标签。Golder和Huberman收集delicious中的数据并分析标签系统的结构和使用范式,指出标签比例的稳定性[2];Adam Mahtes提出标签的负幂分布规律:少量的标签被大量的人使用,大量的标签只有少数人使用[3]。Cattuto、Loreto和Pietronero表示,标签之间共现关系的非平凡性可以描述成语义学,通过标签之间的共现分析可以揭示协同标记中的语义关系,如标签之间的同义词、等级关系等[4]。Begelman提出对标签共现的次数进行处理寻找截止点,重新组织的新标签空间表示成无向图,形成相关标签群,并用聚类算法精炼它们;Wu等提出一个概率模型,以基于标签、资源和用户的共现产生语义相关的标签群;还有一些folksonomies系统提供“相关标签”、“流行标签”,也显示了相关标签群[5]。这些依赖标签共现的策略,能够找出潜在相关标签群,但由于没有揭示标签间的实际关系,表示的语义也就相当有限。
随着语义网技术本体的发展,研究者考虑利用本体解决folksonomy系统的局限,提出标签本体(tag ontology)。本体是共享概念模型的明确形式化规范说明,系统地表示概念之间的内在的语义联系,能为folksonomies系统提供统一的结构(共享的概念模型)和语义表示(明确的形式化规范说明)。标签本体是关于标注活动(tagging)的明确和形式化的规范说明,有完善知识表示、促进知识共享、机器可处理的作用[1]。这样研究重心就开始从标签转到标注活动。
1 标签本体(tag ontology)
在folksonomy系统中,标注活动就是用户给资源添加标签的过程,即Tagging:(U,T,R),是folksonomy系统的经典三元模型。其中U是参与标注活动的用户集,T表示用户分配的标签,R表示被用户标注的资源,它们是标签本体的核心概念。目前,国外一些研究者根据folksonomy系统的三元模型进行深入研究,提出多个标签本体。以下分类介绍当前国外标签本体的研究情况。
1.1 基于标注活动的标签本体
标签本体的发展早期,试图对标注活动进行明确和形式化的规范说明,关注于在语义层面表示标注活动:Newman的关于标签和标注行为的本体[7],描述用户、资源和标签间的关系,是完整的标注活动模型,为其他标签本体广泛复用;Gruber的概念模型[6]和Knerr的标注本体[8]还考虑不同系统的协同标注活动。
1.1.1 Gruber的概念模型
Gruber于2005年就提出标注活动模型,是概念化标注活动的早期尝试。其目的是在多个应用程序或服务间实现协同标注,并基于标注活动进行协同过滤。Gruber的概念模型为:Tagging:(object,tag,tagger,source,polarity)
其中object、tag、tagger分别表示资源、标签、用户,同前面的三元模型一致,source表示应用程序或服务的来源,即delicious、Flickr等folksonomy系统,支持跨系统的协同标注活动;polarity表示基于标注活动的协同过滤,用“+”和“-”表示,如果缺省就表明选择“+”。在概念模型中,Gruber还提出标签的识别,即一个标签可以有多个字符串(label)表示,如不同的语言或拼写方法表示,但每个标签只有一个字符串是它的规范名,用来识别标签的不同,并在不同系统中交流共享。
Gruber的概念模型虽然只是概念地界定,并不是实际的本体,但是它清楚地揭示了标注活动的一般概念,并首次考虑协同标注活动,方便标签在不同系统间的交流共享。
1.1.2 Newman的标签本体
根据前面的三元模型,Newman等创建了关于标签和标注行为的本体,以描述用户、资源和标签间的关系,如图1。此本体中的核心概念是用户(Tagger)、标注行为(Tagging)和标签(Tag),其基本设计为:用户是FOAF(Friend of A Friend)中的Agent概念;标注行为是具体化用户、标签、资源和时间之间的关系;标签(指核心概念中的Tag)是具体标签(tags)的集合。
此本体不仅对标注行为的关系建模,还利用URIs对标签建模:每个标签被分配一个URI,这样由URIs识别的标签能被连到一起,可从语义层面表示标签间的联系和相似[10]。同时此本体还引入相关属性(tags:related)来表示标签间的关系,但并没有定义标签间关系的本质。
此本体重复利用已有的语义web词汇:利用SKOS属性为标签(tags)和标签类(Tag)之间的关系建立模型,而且标签类本身就来自SKOS中的概念(skos:concept);利用DC来表示标注活动的时间,即dc:date;利用FOAF确定标注活动的用户(tagger),即foaf:Agents。
与Gruber的模型相比,此本体没有标明系统的信息(即source),但它考虑标注活动的时间,描述完整的标注活动,并利用OWL已在网络上实现并普遍应用,被其它标签本体广泛利用。
1.1.3 Knerr的标注本体
为实现跨系统的语义互操作,Knerr在2007年提出新的系统构架:利用语义网技术FOAF来表示用户的概况(user profile),并将用户的标注数据存储在独立于folksonomy系统的地方。在设想的系统架构下,标注模型为:Tagging:(time,user,domain,visibility,tag,resource,type)
在此本体中,考虑到标注行为的隐私性,Knerr设置可见度(Visibility)概念来明确标注行为的可见性:公共标注是每个人都可见,私人标注只有标注者本人可见,被保护标注则是只对一部分人(如朋友)可见。同时他还设置类型(Type)概念来表明被标注资源的类型(如图片、视频、网站等),利用DC的DCMIType表达。
此本体的服务范围概念(ServiceDomain)与Gruber模型中的source类似,都表示应用程序或服务的信息,支持跨系统的协同标注;且认同Gruber的一个标签可以有多个字符串(labels)思想,默认的字符串(prefTagLabel)与Gruber的标签规范名对应。而且Knerr的标注本体复用Newman利用SKOS表示标签类的方法;利用FOAF表示标注者;利用DC的DCMIType表示被标注资源的类型等。
1.2 基于folksonomy的标签本体
前面基于标注活动的标签模型都把标注行为(tagging)看成一个活动:用户给资源分配标签的活动,提供描述标注活动过程的方法。虽然Gruber的概念模型和Knerr的标注本体还考虑不同系统的协同标注活动,但它们并没有真正支持协同标注活动。而folksonomy是由参与协同标注活动的用户共同创建,标签本体作为标注活动(tagging)的明确和形式化的规范说明,除描述标注活动外还应该考虑标注活动所涉及的协同关系。这样研究者的关注焦点开始从标签、标注行为转移到folksonomy:Echarte的folksonomies本体[9]是第一个基于folksonomy的标签本体,更多表示folksonomy的特征;SCOT[10]主要目的是表示协同标注活动,但它也适合表示folksonomy的特色。
1.2.1 Echarte的folksonomies本体
Echarte在2007年提出利用本体建模folksonomies的方法,即创建一个可以表示任何folksonomy的普遍本体结构,其目的是自动存储用户标注资源的信息到本体,并解决folksonomies的两个典型问题:标签变异(如blog、blogs、blogging)问题;表示用户标注目的而非内容的标签(如toread)问题。
Echarte认为为实现利用ontologies建模folksonomies的建模方法,有必要利用知识表示语言如OWL,以更严格的方式来明确阐述folksonomies的特征,其folksonomies本体为:Folksonomy:(Source,Resource,User,Tag,Annotation,AnnotationTag,Polarity)
其中Source、Resource、User、Tag、Polarity与Gruber的模型基本一致。其中标签类有两个子类:个人标签TagPersonal和普通标签TagCommon,个人标签是指关于个人任务的计划或自我参考的标签,余下的则是普通标签,通过这个分类来解决用户标注目的的标签问题。同时标签类还利用标签的替换名(hasAltLabel)和隐藏名(hasHiddenLabel)属性表示标签规范名(hasPrefLabel)的变异,包括名词单复数、动词时态、同义词、错误拼写等。
相比Gruber的模型,此folksonomies本体还增加了2个概念:标注(Annotation)和标注标签(AnnotationTag)。其中标注概念表示用户给资源分配标签的行为,类似于Gruber的tagging。但是Gruber的标注是基于资源和标签的关系,而这里的标注则更侧重表示用户的习惯行为。标注标签概念表示每个标注与所分配的标签的关系。
1.2.2 SCOT(Social Semantic Cloud of Tags)
SCOT的目的是描述标注数据的结构和语义,并提供社会互操作,实现在不同系统的用户中共享、复用数据和表示社会关系。
SCOT有3个核心概念:标签云TagCloud、标签Tag、共现Cooccurrence。其中标签云TagCloud是确定一个标签云本身及其与其他概念和属性相关的关系;标签是所有个人标注的标签的集合,是Newman本体中标签的子类。标签Tag通过拼写变异(spellingzvariant)、同义字(synonym)等属性从语言学角度来解决标签之间关系含义的不明确;还有描述标签出现频率(frequency)的属性从统计数值角度来反映每个tag的流行度。共现Cooccurrence确定共同出现的标签以及标签之间的共现频率。因为标签共现是由于它们语义相关,考虑标签共现以及共现频率能更好地反映标签的语义,还能更好表示folksonomy的协同特色。
SCOT没有提供描述标注活动的概念,而是复用Newman的标注行为(tagging)概念,并通过标注行为(taggingActivity)属性描述标签云TagCloud与标注行为Tagging的关系。其模型图如图2。
由于SCOT复用Newman本体中相关概念和属性,因此SCOT也会复用与Newman本体相关的语义web词汇,如SKOS、DC、FOAF等;同时SCOT还利用SIOC(提供描述语义网在线社区的信息的主要概念和属性)的Usergroup表示用户集合等。SCOT提供跨不同用户、应用软件或资源无缝标签共享的标注行为的社会结构,得到广泛应用。
1.3 标签语义本体
基于标注活动的标签本体和基于folksonomy的标签本体并没有系统地实现内容的语义标注,MOAT(Meaning of A Tag)[11]通过提供标签的语义来实现内容的语义标注。MOAT目的是提供以机器可读方式界定标签含义的语义网模型。为达此目的,MOAT扩展了Newman模型的相关概念,并定义了标签的全面含义(global meanings)和本地含义(local meanings),全面含义就是指在完整的folksonomy空间一个标签所有含义的清单,本地含义是指在某一个标注行为中标签所特定的含义。通过给每个标注行为添加标签的本地含义,MOAT扩展标注行为的三元模型为四元模型:Tagging:(User,Resource,Tag,Meaning)。在folksonomy空间,标签全面含义是所有本地含义的集合,考虑到定义标签本地含义的用户,标签全面含义为:Meanings(Tag)={(Meaning,{User})}。MOAT模型如图3。
MOAT通过含义(hasMeaning)关系和含义(Meaning)类,将标签与它所有的含义相连。每个含义通过meaningURI与所给含义的URI相连;同时与至少一个用户相连,标明定义标签这个含义的用户。为表示在特定标签行为中标签的含义,MOAT依据Newman模型中的相关标注(RestrictedTagging)类,利用标签含义(tagMeaning)属性将相关标注行为中的标签连到符合特定语境含义的URI。
MOAT旨在提供跨越自由标注和语义检索之间鸿沟的简单方法,而用户仍可自由标注,并结合URI提供解决标注的语义模糊(一词多义、同义词)的方法。
1.4 其他相关本体
NAO(NEPOMUK Annotation Ontology)[12]来自NEPOMUK项目,是为标注社会语义桌面的资源而提出。NAO分为一般标注词表和图表标注词表,认为图表元数据也是标注的一种形式。虽然NAO不是完全为标注实践服务的,但它证明在社会系统中标注表示的日益重要性,还专门强调如何利用NAO来实现语义标注。
Kim等提出整合多个标签本体以产生一个完整、通用的标签本体。现有的本体各有其设计目的和侧重方面,对于支持协同标注所有方面的标注过程和查询,单个标签本体是不能满足的。因此他们比较现有标签本体概念模型间的映射可能性,提出整合现有本体以在folksonomies系统中创建一个统一的结构和语义表示。而从标签本体的发展可知,标签本体经常借鉴和复用已有的技术和方法,以实现最大限度的共享,这既符合事物发展的规律,又给整合已有标签本体提供了非常有利的基础。在整合过程中,他们分析如何整合SCOT、MOAT和SIOC,为整合的每一阶段界定用户案例,并在实践提出的模型[13]。
2 结 论
为解决folksonomies的问题,提出给标签、标注行为增加语义,并利用语义网技术建模标注行为和folksonomies的方法。自2005年Gruber提出标签本体以来,许多研究者都投身其中,标签本体的发展也从关注标注活动发展到关注folksonomy(协同标注活动),从考虑标注活动要素发展到考虑标注目的、标签共现频率、标签词形变异等协同标注方面;还从标签含义的角度,创建MOAT跨越标注行为与语义检索的鸿沟。而且Kim等提出整合多个标签本体,更是标志标签本体的发展进入统一、共享的新阶段,一个完整、通用的标签本体将出现。而这给发挥folksonomies最大效能、支持语义检索作出重大贡献,也给进一步推动语义网的发展作出贡献。
参考文献
[1]Kim,Hai-Lae.et al.The state of the art in tag ontologies:A semantic model for tagging and folksonomies[EB].http:∥edoc.hu-berlin.de/conferences/dc-2008/proc/dc-2008.pdf#page=138,2009-02-27.
[2]Golder,Scott A.,Huberman,Bernardo A.The structure of collaborative tagging systems[EB].http:∥www.hpl.hp.com/research/idl/papers/tags/tags.pdf,2009-02-27.
[3]Adam Mathes.Folksonomies:cooperative classification and communication through shared metadata[EB].http:∥www.adammathes.com/academic/computer-mediated-communication/folksonomies.html,2009-03-07.
[4]王翠英.标签的聚类分析研究[J].现代图书情报技术,2008,(5):67-71.
[5]Lucia Specia,Enrico Motta.Integrating folksonomy with semantic web[EB].http:∥www.eswc2007.org/pdf/eswc07-specia.pdf,2009-03-07.
[6]Gruber,Thomas.Ontology of folksonomy:A mash-up of apples and oranges[EB].http:∥tomgruber.org/writing/ontology-of-folksonomy.htm,2009-03-07.
[7]Newman,Richard.Tag ontology design[EB].http:∥www.holygoat.co.uk/projects/tags,2009-03-07.
[8]Knerr,Torben.Tagging ontology——Towards a common ontology for folksonomies[EB].http:∥tagont.googlecode.com/files/TagOntPaper.pdf,2009-03-15.
[9]Echarte,Francisco.et al.Ontology of foksonomy:A new modeling method[EB].http:∥www.gsd.unavarra.es/gsd/files/condep/EcAsCoVisaakm07f.pdf,2009-03-15.
[10]SCOT ontology specification[EB].http:∥scot-project.org/scot/index.html,2009-03-20.
[11]MOAT ontology[EB].http:∥moat-project.org/ontology,2009-03-20.
[12]NEPOMUK Annotation Ontology Specification[EB].http:∥www.semanticdesktop.org/ontologies/2007/08/15/nao,2009-03-20.
[13]Kim,Hai-Lae.et al.Review andalignment of tag ontologies for semantically-linked data in collaborative tagging spaces[EB].http:∥scot-project.org/pubs/kimzReviewAlignmentTag.pdf,2009-03-20.