微博中基于增强型倒排索引的特定文档影响力估计算法
2014-09-15司宏伟
司宏伟
(国防科学技术大学计算机学院,湖南 长沙 410073)
微博中基于增强型倒排索引的特定文档影响力估计算法
司宏伟
(国防科学技术大学计算机学院,湖南 长沙 410073)
微博搜索系统中,将微博帖子根据搜索相关性和重要性进行排序,并通过列表的方式返回结果,是目前信息内容的主要展示手段。基于向量空间模型的打分函数被广泛地应用于该类系统中。事实上,微博系统中的帖子重要性打分函数实际取值并不为用户所见,文档的影响力通过排名的方式表现出来。对于一个检索外的文档,如何衡量其在信息检索系统文库中的影响力?一般搜索引擎或信息检索系统并不能很好地回答该问题。在微博短文本的基础上引入了社交影响力这一概念,并通过在文本倒排索引基础上设置反向位置标记,给出了一种全新的影响力度量指标,有效地回答了前述问题。理论分析和数据实验验证了算法的有效性和效率。
信息获取;倒排索引;TFIDF指标;索引标记
1 引言
随着信息技术的快速发展和互联网应用的普及,社会各行业对信息化需求不断增加,产生了大量的信息内容,极大促进了信息检索系统的发展。特别是近年来,以微博为代表的社交网络获得了快速的发展,受社交网络的推动,信息传播模式快速朝着去中心化的方向发展,人类使用互联网的方式产生了深刻变革:由简单信息搜索和网页浏览转向网上社会关系的构建与维护、基于社会关系的信息创造、交流和共享。
对于一个特定的信息内容,如何快速度量其在微博上的影响力呢?微博中,社会个体通过各种连接关系在社交网络上构成“关系结构”,基于社交网络的关系结构,大量网络个体围绕着话题内容而聚合,相互影响、作用、依赖,形成具有共同行为特征的“网络群体”;各类“网络信息”得以快速发布并传播扩散形成社会化媒体,反馈到现实社会,从而使得社交网络与现实社会间形成互动,并对现实世界产生影响。正是因为这个原因,以微博为代表的社交网络中,信息内容的影响力度量方法应该兼顾信息内容本身的影响力和社交网络对其的放大作用。
传统信息检索应用中,用户通过输入一组关键词,文档检索系统返回一组文档列表,其中列表中的文档根据与查询(关键词)的相关程度进行排名。向量空间模型作为一种用于衡量文档间相关度的模型,被广泛地应用于该类系统中[1,2]。在该模型中,文档和针对文档的查询都被模型化为由关键词组成的多维向量空间,而文档与查询间的相关程度可以由文档向量与关键字向量的夹角来进行衡量,从而作为信息检索系统排列文档的依据。作为一种信息检索系统中的打分函数,向量空间模型有多种变种。公式(1)展示了一种基于余弦相似度的向量空间模型的例子。
relevance(d,q)=cosθ=(d·q)/(|d||q|)
(1)
其中,d表示文档向量,而q表示关键词向量。余弦为零表示检索词向量垂直于文档向量,即没有符合,也就是说该文档不含此检索词。目前这种基于向量空间模型的方法被广泛应用在了各类微博搜索引擎中。具体来说,文档向量模型表现了微博帖子(文档,本文用d表示)和查询关键词(本文用q表示)之间的关联关系,关联越紧,打分函数取值越大,对应内容排名也就越高,这种排名反映出了文档的影响力。
在微博中,文档是通过社交网络中节点间的通道进行传播的,因此节点间的结构特性极大地影响着内容的传播能力。而在社交网络中,文档通过社交网络中的信息通道传播,直接将上述模型应用到社交网络中,并不能体现文档的影响能力。针对这一问题,部分微博类社交网络应用,例如新浪微博,常利用微博文档所特有的“转发数”来衡量文档重要与否,即一个文档获得转发越多,这个文档越重要,其检索系统将文档向量模型与转发数结合,综合计算文档重要性指标。随着基于社交网络和微博营销等业务的快速发展,微博水军等快速发展,使用“转发量”或“点击率”的文档重要性衡量方法的客观性逐渐获得质疑。针对这一问题,本文给出了一种改进的解决方案,我们创新性地将文档向量模型和基于链接的节点权威性度量方法,通过一种多准则约束的排序策略,有机地结合在一起。此外,本文提出的方法还在广告收益估计、新闻舆论影响评估等领域具有重要的作用和广阔的前景。
本文的主要思想是在充分预处理数据全集的前提下,通过对索引设置“相关度反向排名标记”,使微博的检索系统具有快速估计新文档在不同查询下排名的能力。基于向量空间模型和倒排索引,设计中实现了一种新型的索引结构,并结合海量文本管理中数据规模庞大、数据更新快等特点,结合分布式集群化的特点,设计了一种高速的、可扩展的索引更新策略。
2 问题定义
通常意义上讲,衡量一篇特定文档在一个文档集合中的影响力往往要考虑多种因素,例如文档的时效性、文档所表述的观点态度、文档发表的时机和场合、社交网络对信息的放大效果等。而且对于特定读者,文档影响力的衡量具有强烈的主观性,即每个读者都会站在自己的角度上,对影响力的认识也有着不同的理解。例如,体育类的新闻往往对财经类读者缺乏吸引力。因此,文档影响力的衡量是一个复杂的过程,且方法并不具有唯一性。
本文考虑在社交网络环境下,一个特定文档的影响力应至少由两部分组成,即信息内容本身的影响力和社交网络中作者的权威性。
定义1 社交影响力模型:用A(d)表示文档的影响力度量指标,它由两个要素组成,即A(d)=αr(d)+βsi(d),其中r(d)表示文档d和查询关键词的相关程度,si(d)表示文档d在社交网络中所处的位置节点的固有影响力,α和β表示加权因子。
r(d)表示信息内容和用户查询的关联程度。其意义表示在一般信息检索系统中,信息内容在特定用户查询下的打分函数取值。r(d)的实现并不唯一,本文使用上一节介绍的向量空间模型实现。si(d)表示文档d在社交网络中的位置权威性,通过其作者在社交网络中的节点权威性进行度量。在社交网络中,基于链接的节点权威性度量函数是一种常见的度量节点社会地位的方法。本文采用了一种类PageRank的节点权威性度量函数。
si(d)=A(u)=
其中,A(u)表示帖子d的博主u的权威性指标,M(u)表示u的邻居集合,表示阻尼因子,L(v)表示贴子的数量。上述公式表示了一种权威性传递的思想。本文认为一个节点在社交网络中的权威性指标取决于其周围的邻居,体现了一种信息传递和社交的思想。