基于用户标签的个人本体的构建模型研究
2011-08-05丁婉莹
丁婉莹
[摘要]标签作为一种大众标引的形式,它既可以用于构建词表,也可以表示用户的个性化特征。随着网络用户对于个性化信息服务需求的加剧,个性化成为目前研究的热点。利用本体构建用户模型逐渐成为一种主流趋势。本文重点讨论如何利用用户标签,结合网络词表WordNet来构建用户的个人本体,从而为个性化服务的发展提供一种新的实施方案。
〔关键词〕标签;本体;个性化;模型构建;WordNet
DOI:10.3969/j.issn.1008-0821.2011.07.009
〔中图分类号〕G254.29 〔文献标识码〕B 〔文章编号〕1008-0821(2011)07-0042-05
Research on the Model of Building Personal Ontology Based on Tagger餾 TagDing Wanying
(Department of Information Management,Peking University,Beijing 100871,China)
〔Abstract〕Tag,as a form of Folksonomy,can not only be used as a tool to build a controlled vocabulary but also represent the tagger餾 personality.With the intensifying demands of personalized service called by Web users,personalization has been the hot spot of nowadays research.And building user profile with ontology has been the main method in the certain field.This paper has concentrated on making use of tagger餾 tag to build a personal ontology with the help of WordNet,which is a Web controlled vocabulary.And the purpose of this paper was to propose a new method for personalized service in the Web.
〔Keywords〕tag;ontology;personalization;model building;WordNet
1 标签及标签的研究现状
标签作为Web2.0的核心技术之一,它是用户为自己感兴趣的文章、图片、音频、视频等一系列文件定义的一个或者多个描述[1]。以Del.icio.us[2],Flickr[3]等为代表的标签平台在互联网上得到了广泛的应用。而随着标签的广泛应用,学术界也开始注意到标签的内在价值,展开了大量对于标签的研究。
目前对于标签的研究主要可以归结到如下3个方面:
1.1 对于标签自身价值的研究
主要包括对标签分类的研究[4]、标签对于被标引资源的内容揭示程度研究[5]、用户标引行为的研究[6]以及标签与其他标引之间的关系[7]等等。
1.2 利用标签构建网络词表
这方面的大部分研究集中在构建标签结构。研究思路又主要分成两部分,一部分是利用例如自动分类[8]、数据挖掘[9]以及浮动语义[10]等方法直接来构建标签词之间的语义关系。另一部分主要是利用已有的例如WordNet[11]、Wikipedia[12]以及Swoogle[13]这样的资源来辅助构建标签结构。
1.3 利用标签为用户提供个性化服务
这部分应用主要是用户个性化检索[14]和个性化推荐[15]两个方面。主要是利用用户标签来构建简单的用户模型,通过用户模型来进行个性化服务。但是对于这方面的研究一直比较零散,没有形成规模。
其中利用标签构建网络词表是现在标签研究的最为主要的组成部分。但是目前研究的都是针对于普适性词表的构建,即通过对标签的优化和标签词间的关系的构建来制定一个在网络范围内替代传统词表的,具有成本低、灵活性大、便于更新等优势的词表。但是标签除了是一种标引词外,它区别于传统词表的另一个特点是它能够反映标引用户的特性和兴趣。这也是利用标签为用户提供个性化服务研究得以存在的原因。
但是目前对于利用标签构建词表和利用标签提供个性化服务的研究之间相互比较独立,很少有将两者结合起来探讨的研究成果。但是随着网络个性化的发展,将两者联合起来研究有着非常重要的意义。
2 基于标签的个人本体的意义和具体应用
随着互联网的发展,用户开始诉求于个性化的信息服务。在个性化服务中,用户模型是最为重要的一个环节。目前用于构建用户模型的方法很多,例如基于规则方法[16]、基于协同的方法[17],基于用户历史行为[18]的方法等等。但是这些方法都存在很多不足,因此很多专家开始将本体应用到个人性服务的领域,但是很多研究仅仅是将领域本体直接应用到个性化服务中来[19],或者从用户浏览过的资源角度间接地构建用户本体[18]。这些方法都难以直接体现用户的个性。
在另一个方面,用户标签在构建词表和进行个性化的服务方面的能力都已经被大量证实。因此可以讲这两个方面相结合来构建基于用户标签的个人本体,从而来支持现在网络上所倡导的个性化服务。
基于标签所构建出的个人本体可以被应用到许多的网络服务领域,例如个性化检索、个性化信息推送、个性化智能导航等等。随着Web2.0向Web3.0[20]的发展,Web2.0平台的整合将是一个大的发展趋势,因此必然会产生对Web2.0平台进行整合的中介服务商,由它们收集用户的标签并为用户构建个人本体。而其他网络信息服务商在经过用户许可之后,可获得用户个人本体,再根据自身服务特点进行小幅度修改,就可以实现用户个人本体的复用,为用户提供个性化的信息服务。
因此本文的研究重点是构建一套流程来使用用户标签构建用户的个人本体,为个性化信息服务提供一种可参考的用户模型实施方案。
2011年7月第31卷第7期基于用户标签的个人本体的构建模型研究July,3 用户标签和个人本体
标签作为一种新型的标引形式,拥有着简单易用、灵活地多维揭示、立即可见的收益、使用用户语言、更新速度快等传统受控标引语言难以匹敌的优势[21]。但是标签的语法混乱、语义模糊、关系不明确等问题是在标签要作为一种完善的标引语言所必须解决的问题。
本体是一种形式化的,对于共享概念体系的明确而又详细的说明[22]。本体是现在最为先进的知识表示方式。本体一般由类、关系、函数、公理和实例5大元素构成[23]。个人本体是根据个人特征、兴趣构建服务于一个人的本体结构,该本体可以针对用户的个性特征进行推理,便于提供更符合用户的需求的信息服务。
因此要将标签这种极度不规范化的标引语言转化成个人本体这种极度规范化的知识表表示系统,需要完成以下几个工作:
(1)词语的规范化:用户标签用的用词是随意的,但本体中的类是严格规范的。
(2)关系的明朗化:用户的标签词之间是没有明确关系的,但是在本体中需要词与词直接明确的关系。
(3)构建本体函数:便于本体的推理,需要构建相应的函数。
(4)建立公理:因为本体是一个可以实时更新的主体,因此需要给本体建立公理作为其更新和修正时的准则。
(5)建立实例:即建立某一特殊领域内的特定对象。
4 基本操作流程
由于现在网络上存在有大量结构良好的词表,因此没有必要花费大量的人力物力来重新规范标签的词语和关系。可以以现存的网络词表为中间媒介来实现利用标签来构建个人本体的目的。
本文在将用户标签转化成个人本体的过程中,引入辅助单元——WordNet作为转换的参照依据。选择WordNet是因为它对于概念与概念之间的关系都有着比较清楚的定义。在目前通用本体匮乏的情况下,很多研究者也常将WordNet作为一种轻量本体来使用[24]。
图1 操作流程示意图
在构建个人本体工作之前,需要对用户标签进行收集,并将它们放在统一的个人标签库中。个人标签库的功能有以下几点:
(1)定时收集用户在各个平台上所使用的标签。
(2)记录下用户对每个标签的使用次数。这个次数值是一个只增不减的数值。
(3)记录哪些标签词已经被收录入个人本体,哪些还没有。
然后利用WordNet作为构建的辅助主体,对标签词进行词汇处理、词间关系处理等,并撰写本体中的公理、函数等等。最终可以得到用户个人本体,与用户主体相关联。在构建的过程中,对于一些机器难以准确处理的问题,还需要用户的参与。
5 词汇处理
5.1 词汇语法处理
在构建本体的时候,要将标签中不规范的词汇变成本体中规范化的概念。因此要对个人标签库中的标签做如下的处理:
5.1.1 词频统计
在用户标签中,很多词用户使用的频率非常低,应该对这些低频词进行剔除处理。虽然根据齐普夫定律[25],高频词也应该被剔除。但是在用户标签中,词的频率越高越能够代表用户的兴趣程度。因此在操作的过程中保留高频词。
设定阀值a,对所有的标签词进行词频统计,凡是词频低于a的标签词汇给予剔除处理。
5.1.2 词性处理
个人本体中的概念词汇应该都是名词,因此删除类似于“happy”这样的形容词和动词,仅保留名词和名词性词语。
在词性处理的过程中,对于单个词汇可以利用标注软件对各个词汇的词性进行标注。例如哈工大的LTP自然语言处理软件[26]。在词性标注完成之后,剔除标注词性不是“/n”的词汇。但是对于词组,首先采用保留的态度,在下续工作中进行进一步处理。
5.1.3 词性规范
用户在标引的时候可能会存在一些语法不规范的现象。可能存在的语法不规范现象有:单复数不统一,例如bacterium与bacteria。时态不统一,例如takes与taking。还有一些词汇是使用缩写形式,例如go to do写作gtd。为了方便后续处理,应该将这些语法不规范的现象进行清除和统一。
统一单复数与时态问题,可是使用词根抽取算法,将词根作为单词的标准型。而对于缩写形式,可以采用词典匹配的方法,还原缩写词的标准型。
5.2 词汇句法分析
在词汇处理的时候,虽然剔除了非名词性单词,但是没有对词组做任何处理。句法分析要重点对用户标引词中的词组进行处理。对词组的处理形式只有两种:保留原有词组形式和将词组拆分。在具体过程中遵循以下步骤:
(1)访问WordNet,如果是WordNet中出现的词组,说明该词组是常用词组,保留原词组形式。否则进行第(2)步
(2)给定相关阀值b,如果词组的频率高于阀值b,说明该词组是用户的惯用词,保留原词组形式。否则进行第(3)步
(3)词组成分相似相判断。设定相似相阀值s,利用Jacaard公式进行相似性判断:
S=A∩BA+B-A∩B(1)
其中S表示相似度,X表示集合X中的元素的个数。
如果是形容词+名词短语,考察该词组的共现词汇集与该名词单独出现的共现词汇集的相似性。如果相似性高于s则进行词组拆分,否则不拆。
如果是名词+名词词语,分别考查两个名词的共现词集合和词组共现词集合和相似性。如果相似性均低于s,则保留原有词组。否则保留相似程度高的那个名词作为标签词。
(4)如果是介词和连词词语,进行拆分处理。
(5)不属于以上任何一种情况,在用户界面上向用户进行询问,由用户来选择拆词还是保留原有词组。
5.3 词汇语义分析
词汇语义分析主要是来解决同义词和一词多义的问题。
由于每个用户都有其自身的用词习惯,很少用户会习惯在多个同义词之间换来换去地使用。而且同义词已经在WordNet中有良好的定义,可以直接利用WordNet中的同义词关系来解决用户标签的同义词问题。因此同义词在个人本体中的影响不大。
一词多义会对个人本体有着极大的影响。比如“Apple”一词,IT工作人员会理解为计算机,而务农人员会理解为一种水果。在解决这个问题时,本文提出一个假设,即一个用户对于某个词的某个意义的偏好程度在一定的时间范围内是相对稳定的。基于这个假设,本文提出了如下解决一词多义的方法:
(1)在WordNet中对用户的每一条标签进行搜索,找到该词的所有意思链接。
(2)对每一种意思的解释文本进行分词处理,提取实义词,以向量的形式存储。记为:
Ts{S1,S2,……Sn}(2)
其中S璶表示的是词T璼的第n个意思的向量表示形式。
(3)将标签词的共现相关词用向量的形式存储。记为To。
(4)利用空间向量的方法将S璶与T璷进行相关度匹配,并记录下相关度。
(5)存储下每个用户标签在该词每个意思上的相关度,用作为用户在该标签词上对该意思的权重。
Tc{C1,C2,……Cn,(Cn+1)}(3)
其中C璶的数据结构如下
Cn{Sn,相似度权重}(4)
(6)由于WordNet的更新也存在滞后性,因此有的词在WordNet中匹配不到正确的意思,例如“geilivable”这样最新在互联网上出现的词。因此在操作的过程中,要为每个权重赋予一个阀值c,当一个标签词在WordNet中与每个意思匹配的相似度均小于c时。默认其是一个新的意思,并在T璫中扩展一个存储空间,用以存储C璶+1
Cn+1[Sn+1共现相关词向量],1-Σ(Cn的相似度权重)(5)
这样就可以分析出一个用户对于每个词的各种意思的偏好程度。在为用户提供个性化服务的时候可以根据用户对每个意思的偏好程度服务。例如在个性化检索时,用户输入“Doctor”,而根据用户的个人本体发现,用户在“Doctor”这个意思上更偏重于“PHD”领域的意思,因此可以推荐其有关于PHD的信息。
5.4 词汇存储
在个人本体中,每一个词的存储形式如下:
T{词号,词语标准形,用户使用形,用户使用次数,Tc}(6)
这些形式规范化的标签词作为本体的类目。
6 词间关系处理
标签最大的问题就是没有严格的词间关系。在构建个人本体的时候最大的障碍就是确定标签词间的关系。而WordNet已经提供了非常严格和良好的词语的关系构架,因此,可以借助于WordNet来进行标签词间关系的构建。
对于关系的处理分为以下两种情况:
6.1 基于共现方法的关系确认
将每两个共现过的词对在WordNet中寻找关系。如果是WordNet中存在的关系,则使用WordNet关系。否则返回用户,由用户确定关系。而词间的关系权重通过词对的共现次数来确定。
6.2 基于聚类方法的关系确认
根据标签词之间的共现关系,构建共现矩阵,并对矩阵进行聚类分析。经过聚类分析之后,就可以得到许多的词簇。分析词簇中没有共现关系的词,并将它们两两构成词对。放入WordNet中寻找关系。如果WordNet中存在关系,使用WordNet关系。否则返回用户,由用户确定关系。
如果词A与词B共现了n次,而词B与词C共现了m次,选取d=min{m,n}作为词A与C的关系权重确定的标准。
词间关系的存储:
R{词号,相关词词号,关系权重}(7)
7 函数的撰写
在个人本体中需要撰写函数以支持本体的推理。具体函数的撰写应该根据具体的需要而设定。本文提供一些基本函数一共参考。FunzTY(T):该函数用于返回与标签T有等同意义的词。
FunzSUN(T):该函数用于返回标签T的下位词。
FUNzFAT(T):该函数用于返回标签T的上位词。FUNzLEV(T):该函数用以返回用户在标签T各个意思上的理解程度,即返回T璫。
网络信息服务提供商应该根据自身服务提供的特点来撰写相关的函数,以便为用户提供更为有效的服务。
8 公理和实例的构建
公理是本体领域的一些常识性的描述,用以约束本体中的概念、关系和属性。在上述的词语处理,关系处理的过程中的各种约束都因该在公理中阐述。由于前面已经详细介绍过,这里便不再赘述,仅举两个例子阐明公理的形式:
取词公理:标签的使用次数必须超过阀值a。
选词公理:个人本体中的词必须都是名词。
实例是本体中低层的对象。可以借鉴于Wiki以及WordNet对概念的解释文本来构建类的实例。
9 本体的更新和维护
由于用户的个性特征是个动态变化的过程,而用户的标引行为也是一个不断发展和变化的过程。因此用户的个人本体应该进行不断的更新和维护,适应用户的个性特征变化。本文采用如下的方法对本体进行更新和维护:
(1)收集用户自前一次本体更新以来所有的标引标签,并对标签进行词汇处理和关系处理。
(2)在原有的T璫的基础上重新计算用户对每个标签词每个意思的偏好权重。
(3)对于原来本体中不存在的词汇和关系,采用添加方式处理。
(4)对于本体中存在的关系,采用奖励算法,即加重关系权值。
(5)对于这次更新中没有出现的关系,采用惩罚算法,即以一定的比例降低关系权值。
10 小 结
本文根据现阶段网络服务对于个性化的需求,结合现阶段对于个性化服务研究的不足之处,综合考虑用户标签在构建受控词表和提供个性化服务方面的优势,提出了一种基于用户标签的个人本体构建的流程。在模型中,针对用户标签在词汇、词间关系中可能存在的问题进行了规范化处理,使其可以符合本体标准,能够应用于实际操作。
但是仍有许多工作需要本体进一步研究,例如如何跨平台收集标签,用户隐私的保护问题以及中文数据处理问题等等。也欢迎感兴趣的各位专家参与到相关研究中来。
参考文献
[1]张立彬,赵麟,吴一平,等.基于Tag的个性化服务新方式[J].情报科学,2008,10(26):1494-1501.
[2]Del.icio.us[EB/OL].http:∥del.icio.us,2011-01-05.
[3]Flickr[EB/OL].http:∥www.flickr.com,2011-01-05.
[4]Scott Golder,Bermardo Huberman.The Structure of Collaborative Tagging Systems[J].Journal of Information Science,2006,32:198-208.
[5]George Macgregor,Emma McCulloch.Collaborative tagging as a knowledge organization and resource discovery tool[J].Library Review,2006,55(5):291-300.
[6]C Cattuto,V Loreto,L Pietronero.Collaborative Tagging and Semiotic Dynamics[DB/OL].arxiv.http:∥arxiv.org/abs/cs/0605015,2010-12-20.
[7]MEI Kipp.Exploring the context of user,creator and intermediary tagging[A].Proceedings of the 7th Information Architecture Summit[C].Vancouver,Canada,2006.
[8]Paul Heymann,Hector Garcia-Molina.Collaborative Creation of Communal Hierachical Taxonomies in Social Tagging System[DB/OL].Stanford InfoLab Publication Server.http:∥ilpubs.stanford.edu:8090/775,2011-01-05.
[9]Patrick Schmitz.Inducing Ontology form Flickr Tags[A].Proceeding of Collaborative Web Tagging Workshop.The 15th International World Wide Web Conference(www 2006)[C].Edinburgh UK,2006.
[10]Lei Zhang,Xian Wu,Yong Yu.Emergent Semantics from Folksonomies:A Quantitiative Study[J].Journal on Data Semantics,2006,4090(6):168-186.
[11]WordNet[EB/OL].Princeton University.http:∥wordnet.princeton.edu,2011-01-05.
[12]Wikipedia[EB/OL].http:∥en.wikipedia.org/wiki/Wiki,2011-01-05.
[13]Swoogle[EB/OL].UMBC.http:∥swoogle.umbc.edu,2011-01-05.
[14]陈琛.基于社会化标签的个性化搜索研究[D].江苏:扬州大学计算机应用技术专业,2008.
[15]张有志.协同标签系统推荐机制研究[D].北京:北京大学信息管理系,2009.
[16]冯兴杰.基于关联规则挖掘的个性化网站设计与实现[D].天津:中国民航大学计算机应用技术专业,2007.
[17]丁超.个性推荐系统中协同过滤技术的优化及应用[J].科技信息,2010,(4):217-218.
[18]卢林兰,李明.用户Ontology的构建及其在个性化检索中的应用[J].计算机应用,2006,26(11):2635-2638.
[19]林洁.基于本体的个性化检索技术研究[J].贵州科学,2009,27(4):50-52.
[20]熊回香,王学东.面向Web3.0的分众分类研究[J].图书情报工作.2010,54(3):104-107.
[21]王一丁.社会协同标签系统研究[D].北京:北京大学信息管理系,2008.
[22]本体.维基百科[EB/OL].http:∥zh.wikipedia.org/zh/%E6%9C%AC%E4%BD%93z(%E4%BF%A1%E6%81%AF%E7%A7%91%E5%AD%A6)#znote-0,2011-01-05.
[23]翁畅平,沈娟.基于Ontology的个性化语义检索系统研究[J].图书馆理论与实践,2009,(10):77-80.
[24]罗志成,马费城,吴晓东,等.从维基分类系统构建中文语义词典研究[J].信息系统学报,2008,2(2):68-77.
[25]齐普夫定律.百度百科[EB/OL].http:∥baike.baidu.com/view/40606.htm,2011-01-05.
[26]哈尔滨工业大学信息检索研究中心.语言技术平台LTP[EB/OL].http:∥ir.hit.edu.cn/demo/ltp,2011-01-05.
注:“本文中所涉及到的图表、公式、注解等请以PDF格式阅读”