社会化标签系统的研究与实现
2014-09-30李翔
李翔
摘要:
从20世纪后期了开始,万维网开始了泡沫性的增长,人们越来越多的依赖网络所带来的便利,网络代替了传统的文字资料。经过多年的积累,网络成为了一个巨大的数据库,而网上过大的数据信息量已经超出了人们的信息处理能力范围。在当前的社会背景之下,社会化标签系统营运而生,标签系统能够为人们提供有效的与资源聚合的标签,用户通过自定义的词汇对资源进行标注,使资源以一种简短的词汇进行展示,提高人们对资源的阅读速度。
关键词:
社会化标签系统;聚合连接;资源内容
中图分类号:
F49
文献标识码:A
文章编号:1672-3198(2014)18-0175-02
1 国内外社会化标签现状
在快速的网络社会中,社交网站吸引了很多人利用社会网络参与、关注和建立属于自己的关系网,据统计,在Facebook社交网站用户中85%的用户每周登陆一次,每月至少登录一次Facebook有4亿的人,平均每个注册用户平均每天会花费3个小时在Facebook上。随着开心网、微博、51job等各类新型的网站那的兴起,带动了社交功能型网站的传播,而社会化标签的推荐服务也在这些网站中暂露头角,体现了巨大的商业价值。例如一些招聘网站会根据企业发出的招聘信息标签与招聘人员的招聘信息标签进行符合度匹配。
标签数据的三个主要因素区别于普通的结构图,会呈现出一种独特的超图结构,社会化标签系统中,利用PageRank算法或FolkRank算法能够为用户提供高效的标签推荐,为用户提供更加快速的访问体验。在用户偏好的数据的获取和计算上,通过在数据模型中利用更高维度的张量分解技术减低噪声对数据采集的影响,提高标签计算分析的准确率。
随着社会上对社会化标签系统的重视和研究,国外的很多比较成熟的研究成果可以借鉴,对研究社会化标签系统的个性化标签推荐有着重要意义,例如超图能够更加直观的刻画社会化标签系统中的三种因素之间的结构关系;基于标签的聚类算法可以对标签系统周围的噪音进行过滤,减少一些不准确的标注对资源标签标注所带来的影响;推荐节点能够为用户提供多种类别的节点,打破了只推荐一中类别的传统思想;社会网络分析方法能够借助社会信息的,较为社会化标签系统提供更加全面更快速的资讯,与推荐算法结合已达到扩大影响的目的;多层网络有很好的耦合性,有助于对资源进行标签分析。
2 社会化标签
标签可以被理解为给用户特定资源的主题等资源的特点进行描述。社会化标签是用户对资源的一种概括,能够复合人们对资源的直观理解。元数据标签是由用户生成的,它不同于由专家或作者的网站自动生成一种标签数据,它能够更加简短、明确、清晰的反应出资源的特征。
人们对网络的认识从简单到复杂,复杂的网络理论能够清楚的分析一些复杂的动态系统,它能够帮助人们理解和解释系统的结构、相互作用的关系。在复杂网络中,每一个节点都代表为一个单独的个体,在本文中研究中被代表为用户,两个节点之间的连接线表示了用户与用户之间的相互联系。
图1为第一部分,图中所有的节点相互连接,而且所有的节点全部相同,这是一种典型的基本网路。图2所示是“用户-对象”,用户和对象被分成两个部分,一边的节点与另一边的节点进行相连,相同类型间的节点不相连,例如购物网站。社会化标签系统还存在另一种关系,如图3所示。图3中不仅包括可用户、对象还包括了标签,构成了独特的三元结构图,是“用户-对象”结构的延伸,不同的节点之间可以相连,相同的节点之间同样不可以相连。超图理论打破了原有的显性连接的束缚,允许一条边连接多个节点。
超图理论在标签算法当中具有一般性,因此在各个学术领域都得到了认可和广泛的应用,是现今研究社会化标签系统中的热点。
3 标签推荐图模型算法
在Folksonomies中会在系统的导航中为用户推荐几种标签,更甚至通过用户的偏好进行分析,推荐用户更加关心的资源。
pageRank算法又被称为网页排名,它能够通过用户在某一页面入链数量对该网页的重要性进行分析。pageRank算法入链方法假设页面入链的次数越多,那么这个页面就越重要,而链接到它的上级页面也是重要的。pageRank不但考虑到入链数量也考虑到了入链质量,同理,入链质量越高该页面越重要。在本文中pageRank值以下被称为PR值,每个网页都有一个PR值,而每个页面的PR值都是由链接页面的PR值迭代而成。PR值的计算公式如下:
PR(A)=(1-d)+d(PR(T1)C(T1)+
PR(T2)C(T2)+…+PR(Ti)C(Ti))
公式中PR(A)是页面A的PR值;用PR(Ti)表示入链到网页A的页面的值,也就是页面Ti的PR值,网页Ti是到达网页A的最后链接页;C(Ti)是入链到页面Ti时所有的总跳转数。d的数值为0到1。
我们可以将标签的Folksonomy四元素F=(U,T,I,Y)形成一个三部图GF(V,E)。三部图中一条边权重的值为GF,w(u,t)=|{r∈R(u,r,t)∈Y}|中w是节点出现的数量。设w(vi,vj)为GF中边的权值,w(vi)为vi顶点的值。公式如下:
4 总结
社会化标签系统由于更加准确和简短的描述非常受广大网名的欢迎,用户可以对任何资源进行标签自定义设置。但是,社会标签系统并不是完美的,数据的损失、冗余、噪音的产生都会影响到系统对资源标签的处理。标签算法的融合和革新将是今后研究的重点方向。
参考文献
[1]孔祥迎.基于社会化标签的个性化推荐技术研究[D].成都:电子科技大学,2013.
[2]陈丽霞.基于社会化标签的P2P语义推荐研究[D].西安:西安电子科技大学,2012.
[3]马翩翩.D~2核K-means算法在标签系统中的应用研究[D].南宁:广西大学,2012.
[4]王晓帅.社会化标签推荐算法的研究[D].南宁:广西大学,2012.
[5]范能能.图像社会化标签预处理与聚类方法研究[D].武汉:华中科技大学,2012.
[6]傅丽君.社会化标签与分类集成的信息导航结构及其应用研究[D].杭州:浙江理工大学,2013.