维基百科中争议性文章的发现方法研究
2014-02-28常天舒林鸿飞
常天舒,林鸿飞
(1.大连理工大学 信息检索实验室,辽宁 大连 116024)
1 引言
维基模式与其相关的Web 2.0技术可能带来的信息革命的新浪潮,其影响力已经渗透到各类与互联网相关的产品与服务中,更为学术界其他领域的研究提供了参考与信息获取的平台。Wiki是一种采用“多人协作”模式的超文本协作系统。2001年1月,由Jimmy Wales和Larry Sanger创建的维基百科英文版开始运行。截止2010年3月,英文维基百科已经拥有320万个条目,成为条目数最多的语言版本,除英文外,还包含了其他多达271种语言,总条目数达到1 500万个,总注册用户超过2 200万人,总编辑次数突破8.6亿次。维基百科各语言版本发展并不均匀,其中条目总数前15名的语言版本占总条目的71%[1]。一项由Nature杂志于2005年的调查数据显示,维基百科中科学技术相关主题的准确程度与大不列颠百科全书中的对应词条基本一致[2]。
随着维基百科中文章和贡献者数目的不断增长,越来越多的争议也随之出现。如图1所示,用户Gogo Dudo 与用户Fanforclark13反复将对方修改的版本进行回滚操作,互相坚信自己的观点正确,这就是一种典型的争议现象。
图1 维基百科中争议性的例子,用户Gogo Dudo 与 用户FanforClark13之间的争议
互联网社区结构中的冲突是一种复杂的现象,即使它经常被认为是一种负面的效应,但同时它也存在正面的影响[3]。文章中用户因意见或观点不同所表现出的冲突体现在文章的编辑历史中,我们称之为文章的冲突结构。包含较多冲突结构的文章,我们称为争议性文章或争议性条目(Controversial article)。若一篇文章中具有更多的争论发生,则认为该文章具有较大的争议性。维基百科为使用者提供了多种标注争议性的工具,包括标签(Tag),类别(Category)和维基百科争议性文章列表(Wikipedia list of controversial articles)。从众多的维基百科条目中发现这些争议性较强的条目有着重要且深远的意义[4]。
• 出现在维基百科文章中的争议通常是现实世界的真实反映。发现维基百科中的争议性文章有助于民众和学术研究者更好地理解现实世界中的争论;
• 快速且高效地发现维基百科中争议性条目可以帮助编辑者和贡献者更快地定位相应的条目,从而对争议性问题进行处理并解决;
• 争议性条目往往是近期或长期以来持续引起关注的话题,能够迅速且有效地定位这些条目将会对热点话题追踪等应用有着重要意义。
维基百科自身虽然提供了争议性文章列表,但只是将用户显示标注为“Controversial”的文章列入其中,除这些文章外,仍然存在大量未被标注的争议性文章。本文通过文章—用户争议度结合的方式,利用编辑历史中所提供的元数据,对争议性条目根据其争议度得分进行排序,从而发现争议性较强的文章,为维基百科发现并解决争议提供可供参考的解决方案。本文的主要贡献如下:
• 本文对当前争议性发现的若干方法进行了探索和深入研究;
• 利用已有的文章—用户争议度迭代计算框架,即考虑文章的争议度得分的同时,引入相应文章贡献者的争议度得分,对文章的争议度进行预测;
• 本文在研究并分析维基百科编辑历史的基础上,定义了一类特别的用户,即强争议性用户,并对这一特定用户群在发现争议性的问题的重要性进行了探索和实验。
本文后续部分的组织结构为: 第2节叙述相关工作,介绍相关领域的研究现状和主要方法;第3节介绍强争议度用户这一新的概念;第4节重点介绍争议性排序模型的基本理论和本文主要提出的争议度排序模型;第5节叙述本文的实验部分,将本文提出的改进的争议度排序模型与其他模型进行对比及分析;第6节对本文进行总结,提出未来的研究方向。
2 相关工作
维基百科中争议性文章的发现是一项新的同时兼具挑战性的研究课题,至今专门从事这方面研究的学者和相应的学术成果并不多。从事该领域的学者早期主要将更多的精力放在维基百科特色条目或文章自身质量的评价上[5-7]。
维基百科中争议性文章的研究最早来源于对维基百科中用户间的协同网络和冲突结构的研究,A. Kittur[8]首次将发现争议性文章作为研究冲突结构的媒介引入到对维基百科的研究中。通过对维基百科提供的全局信息,文章相关信息,用户相关信息等几个层面的研究,分析并总结出若干对冲突结构直接相关的影响因素。用户通过机器学习的方法,利用维基百科中已经标记为“Controversial”文章作为训练集训练SVM分类器,预测潜在的争议文章。A. Kittur在文章层面的研究发现影响文章冲突度的积极因素和消极因素。与此同时,该文章通过Revert-Graph将用户之间用Revert信息联系起来,直观的展现了用户间的冲突结构。这篇文章从文章本身和用户角度为后续的争议性文章相关研究提供了诸多极具价值的参考因素。但用户层面所考虑的因素只有单一的revert信息,显得并不全面,更多相关可用信息有待挖掘。
U. Brandes[9]为分析研究维基百科中协同结构,在文章中定义了编辑网络 (Edit network) 这种结构,来描述维基百科中文章与用户之间的关系。文章通过对这种网络结构进行可视化并计算其两极化得分来作为文章最终的争议度得分,其研究贡献在于首次将用户对文章的增删量化,片面性在于只考虑了文章的两极化结构,对存在多级冲突结构的文章分析误差较大,另一方面,对增删量化的同时,增加了算法的复杂度。U. Brandes[10]随后又提出一种修订版网络 (Revision network), 认为对同一篇文章相邻的两次修改可以作为衡量两个用户之间存在冲突的标准,时间间隔越短,则冲突度越大。R. Jesus[11]利用社会网络分析的方法识别和发现争议性文章中的用户和文章簇。
B.-Q. Vuong[4]首次直接研究维基百科中的争议性文章,作者不仅考虑到文章的争议度得分,同时也将用户的争议度得分考虑在内,利用相互增强原理得到了较好的效果。本文的主要工作就是基于Vuong提出的迭代争议度计算框架,引入新的特征,进而提出更有效的争议性文章发现算法。
3 关于强争议性的若干定义
维基百科为参与者提供自由的编辑平台,每一篇维基百科中的文章都有一个最初的创建者,创建者为相应的词条撰写第一个版本的描述。此后,任何参与者均可以完善词条为目的在原文的基础上进行修改,修改一旦经管理员审核通过,新的版本将被采用来替代旧版本作为该词条的描述页面。同时,两个版本的内容和相关修改信息都会被保留下来,以供用户恢复原版本或进行回滚操作。我们的研究就是基于这种优良的维基平台机制所提供的信息,根据以上描述,我们给出若干关于强争议性的定义如下。
定义1交互假设R是文章r的所有版本的集合,ri和ri-1是R中两个相邻的版本,用户v是版本ri-1的用户,用户u是版本ri的用户。由ri和ri-1的先后顺序可知,用户u修改了用户v的版本,这种用户u对用户v的版本进行的修改行为称为一次交互(Revise)。
定义2强争议性用户在文章rk中,若存在用户ui和uj,他们之间的交互次数(Revise Count, RC)满足公式(1)的限制条件:
即用户ui对用户uj的版本进行过不止一次的修改操作,此时,称用户ui为强争议性用户。在这里我们如果选择阈值为1,则所有用户均满足条件,所以没有意义,而如果选择大于2的阈值,将会极大的缩小强争议用户的规模,从而影响实验效果,所以这里我们选取一个可选范围内满足条件的最小值来进行有效性的验证。
在对维基百科争议性文章进行的早期研究中,很少有学者将文章中的不同贡献者区别对待,而是将用户的争议度体现在对他们贡献度的计算中。如计算用户回滚的次数[8],作为衡量其争议度的一个标准,这种情况下往往存在着管理员维护维基百科正常秩序的原因,回滚操作并非是由用户的争议性或文章的争议性引起的,而是由一些恶意用户的修改导致的常规维护行为。与此同时,执行回滚操作的用户也并非全部都是管理员或维护人员,现实中往往包含大量的维基百科用户,他们自发的维护行为是不易识别的。除此之外,还有基于用户删除比例的争议度计算模型[4,9],即通过用户删除行为所产生的贡献占用户所有贡献的比例来衡量用户的争议度。这种计算方式看似更合乎逻辑,但取得的效果并不是很好。本文引入对用户争议性的分析,在计算文章争议度时,剔除普通用户可能会对文章争议性计算所起到的负面影响,降低杂音,强调争议性用户的作用。
4 文章争议度排序模型
4.1 互增强理论
通常情况下的用户与项目的迭代计算采用的相互激励的原则,即被高分用户标注的对应项目理应得到更高的分数,如此反复迭代,强者更强,弱者更弱。在考虑争议性这一特殊属性时,这一原则将不再适用。用户与争议度的关系,满足如下的互增强原则(Mutual Reinforcement Principle)。具体包含两条规则:
规则1若文章中的争论多发生在争议度较低的用户间,则该文章具有高的争议程度。
规则2若用户参与更多争议度较低的文章中的争论,则该用户具有较高的争议程度。
该理论恰当的揭示了用户与文章争议性之间的关系。如果词条自身就具有较高的争议程度,它理应吸引更多的参与者发表不同的看法,其中不乏那些不易与人发生冲突的参与者。同理,如果用户本身易发生冲突,则有很大概率他也会在低争议性的文章中发生冲突,这些冲突并不能有力地说明该文章的争议性。
4.2 基于统计量的模型与Controversial Rank Model
本节给出基于统计量的简单统计模型,同时给出用户与文章迭代计算争议度的基本方法和框架,并作为本文提出的模型的基础和改进的对象。
最直观的用来评价文章争议程度的方法就是利用文章的版本数目或参与其中的用户数目来衡量文章的争议程度。公式(2)中Revision Model和公式(3)中的Contributor Count Model为计算文章争议度的排序模型。
然而,这两种简单的计算方法存在着明显的缺陷。发生在用户间的争论或质疑是最能够体现文章争议性的因素,而这种争论或质疑明显不能通过文章的版本多少或参与者的多少衡量,它们不能很好的识别出争论结构。一些恶意用户更可以通过多次修改文章来增加版本数目,进而提高文章的争议性,达到某种目的。同理,基于贡献者数目的模型同样也不是很可取的,通过这种评分方式很容易将高质量的维基百科特色文章定义为争议性文章。
Controversial Rank Model(CR-Model)是B.-Q. Vuong等在文献[4]中根据互增强理论得到的一种表现最好的争议性排序模型CR-Model,通过分别定义用户与文章的争议度,迭代计算文章的争议性。式(4)和式(5)分别定义了CR-Model中文章和用户争议度的计算公式。
4.3 强争议性用户的争议度排序模型
在关注文章争议度时,我们考虑将强争议性用户的交互争议度作为衡量文章争议性的标准,就得到了强争议性用户的排序模型(High Controversial Contributor Model, HC-Model),式(6)和式(7)分别给出了HC-Model中文章争议度和用户争议度的计算公式。
公式(6)中的,计算文章争议度得分时,只考虑文章中强争议性用户的贡献值,oik和ojk为强争议性用户在文章rk中的贡献值,Age(rk)为版本数的正比例函数,如公式(8)中所示。为使得到的文章争议度得分在0到1之间,使用强争议性用户的最大贡献值进行归一化。
revk为文章rk中的版本总数,avg为文章revk的平均值,乘以系数-0.001使得该函数值在0到1之间具有很大的区分度。公式(7)中计算用户争议度时,H(i,k)为一个二值函数,当用户ui为文章rk中的强争议性用户时,函数值为1,否则为0。
4.4 结合强争议性用户的改进CR-Model
我们将强争议性用户的思想与B.-Q. Vuong等提出的基于删除贡献比的CR-Model进行融合,引入强争议性用户的概念。于是得到了基于强争议性排序模型(High Controversial Rank Model, HCR-Model)。HCR-Model中文章争议度得分的计算仍采用CR-Model的计算方法。而用户争议度的计算则采用HC-Model中为强争议性用户设计的争议度得分计算公式,公式(9)和公式(10)分别为HCR-Model中文章争议度得分和用户争议度得分的计算方式。
上述模型中,我们虽然分别给出了用户与文章争议度的计算方式和相应的理论模型。但本文旨在发现维基百科中的争议性文章,所以,本文并未对用户争议度计算的准确性加以考量,而是通过融入用户争议度计算模型后得到相应的文章争议性加以评价。
5 实验设计与分析
5.1 数据集
维基百科的数据量非常庞大,完整的维基百科编辑历史文件大小在TB级别以上。针对所研究的问题规模,我们选择了维基百科数据集enwiki-20080103-pages-meta-history.xml的一个子集。经整理后,可以从每个版本的记录中获取如图2所示的属性信息。其中主要包括版本号、标题、版本的用户、版本的分类信息、用户评论信息和次要性标志。通过这些属性,我们可以得到同一文章中不同版本间的修改信息。
我们从该数据集中抽取了所有宗教类共计16 745篇文章截止2008年1月的所有版本信息作为实验语料。与此同时,我们从维基百科网站的list of Controversial Articles页面中下载了宗教类共651篇文章的标题信息,其中有76篇文章出现在实验数据集中。这76篇文章是经过庞大的维基百科用户群体及维基百科管理员所认可的争议性文章,我们将以这76篇文章作为检验标准,来验证各个模型的表现。
图2 每个维基百科文章版本中的属性信息
5.2 评价方法
实验的基本任务可以看作是从16 745篇文档构成的文档集合中检索到76篇争议性(相关)文档的任务,这与信息检索的过程颇为类似,因此,我们选取信息检索中常用的NDCG值来进行评价。由于76篇争议性文章并未有先后顺序之分,所以本文选取二值相关性来进行计算,相关为1,否则为0。式(11)定义了NDCG@k,为:
NDCG@k表征从结果排序位置p=1到p=k的贡献量,其中当位置p的文档为76篇标准文章之一时,relp=1,否则为0。Z为理想情况下的排序DCG值,作为归一化常量存在。理想情况下的排序结果就是将76篇文档排在最前面。
5.3 实验结果及分析
图3所示为HC-Model、 HCR-Model和CR-Model、 Revision Model、 Contributor Count Model在NDCG@5分值上的表现,可以看出只考虑强争议性用户的HC-Model在NDCG@k的表现较好,甚至优于CR-Model。这说明我们考虑强争议性用户这一思想对于发现文章中的冲突结构是有积极作用的。本组实验结果表现最优的为HCR-Model,即将对用户的强争议度计算与其他计算文章争议度的方法结合起来,使得用户的争议程度得到区分,突出争议性较强的用户,并强化他们对文章的争议度影响,进而取得更好的结果。
整体趋势上本文所提出的HCR-Model和HC-Model较CR-Model的效果有所提升,但不难看出,HCR-Model对排名靠前的文档表现尤为突出。究其原因,是由强争议性用户自身的稀疏性所决定的。表1所示为数据集中强争议性用户和含有强争议性用户所参与交互的文章数目。不难看出,在所有四十多万名用户中,只有4.05%的用户为强争议性用户。而所有16 745篇文档中,只有29.7%的文档含有这种强交互行为。正是由于强争议性本身的稀疏性,导致少数强争议性的文章受到更多的重视,使得更多的强争议性文档排在前面。HCR-Model的返回结果中,76篇争议性文章中81.6%的文档都囊括在返回结果的1 000名之内。得到较高的召回率,这也是我们所希望看到的结果。
图3 HC-Model、 HCR-Model、CR-Model、Revision Model、Contributor Count Model在NDCG@k上的结果
TypeTotalHCCinvolvedRatio/%Author448673181654.05Article16745498229.7
由于涵盖16 745篇文章的数据集中,只有76篇文章被标记为相关文档,所以,当k增大到一定程度后,所出现的相关文档越来越少,而作为基数的排序值不断上升。这将导致当k增大到一定程度后,上述模型的NDCG值区分度将变小,不再能够明显的表征模型的性能。因此,本文提供另外一种更为直观的方式来体现模型在整体性能上的优劣。表2~表4为76篇争议性文章中在HC-Model、 HCR-Model和CR-Model中按先后顺序最后出现的10篇,并给出它们在各自排序模型中所处的位置。可以看出,HC-Model的最后10篇文档中,9篇都是在4 000名以内的,4篇是3 000名以内的,最后一名排在稍差的5 059位。HCR-Model的最后10篇文档中,7篇是排在4 000名以内的,5篇是3 000名以内的,甚至有2篇是排在2 000以内的,排名最后的文档在7 504位。而未引入强争议性用户的CR-Model则表现较差,最后10篇文档中,只有6篇排在4 000名以内,2篇排在3 000以内,最后一篇文档排到了8 415,基本处于文档集的二分之一处,即在维基百科发现所有争议性文档时,可能需要取二分之一的结果才能找全。
表2 HC-Model的最后10篇文档
表3 HCR-Model的最后10篇文档
表4 CR-Model的最后10篇文档
6 结论
随着近年来维基百科的迅速发展,发现维基百科争议性文章作为维基百科研究领域中社会网络分析的一个分支,得到了迅速的发展,同时也兼具更多的挑战。庞大的维基百科数据集往往令研究者望而却步,本文从维基百科的小部分数据出发,以小窥大,通过对文章用户群体的研究给出了如何发现争议性文章的一种解决方案。
本文的主要贡献是通过对维基百科贡献者行为的分析研究,定义了一类特殊的用户群体,即强争议性用户。他们通过反复修改同一用户的行为体现出更强的争议性,这恰好符合了争议性文章发现的关键因素,更多的冲突导致更多的争议。本文根据强争议性用户这一新的概念,提出了纯粹的基于强争议性用户行为的HC-Model和HCR-Model。实验结果表明,在识别争议性文章的过程中,引入强争议性用户的概念进行建模,可以提高精确度。
在下一阶段的研究工作中,强争议性用户这一概念将继续沿用,我们会尝试将这一概念与已经存在的表现良好的识别模型结合,以用户为中心,重新设计新模型来发现争议性文章。
[1] Wikipedia. What is Wikipedia [OL].http://wikipedia.jaylee.cn/.
[2] J Giles. Internet encyclopedias go head to head [OL]. http://www.nature.com/news/2005/051212/full/438 900a.html.
[3] V Franco, R Piirto, H Y Hu, et al. Anatomy of a flame: conflict and community building on the Internet [J]. Tech. and Society Magazine, IEEE, 1995,14: 12-21.
[4] B Q Vuong, E P Lim, A Sun, et al. On ranking controversies in Wikipedia: models and evaluation[C]//Proceedings of the International Conference on Web Search and Web Data Mining (WSDM’08), Palo Alto, California, USA, February 11-12, 2008: 171-182.
[5] N Lipka, B Stein. Identifying featured articles in Wikipedia: writing style matters[C]//Proceedings of International World Wide Web Conferences (WWW’10). Raleigh, North Carolina, USA, 2010: 1147-1148.
[6] B T Adler, L de Alfaro. A content-driven reputation system for the Wikipedia[C]//Proceedings of International World Wide Web Conferences (WWW’07), Banff, Canada, 2007: 261-270.
[7] J E Blumenstock. Size matters: word count as a measure of quality on Wikipedia[C]//Proceedings of International World Wide Web Conferences (WWW’08), Beijing, China, 2008: 1095-1096.
[8] A Kittur, B Suh, B A Pendleton, et al. He says, she says: conflict and coordination in Wikipedia[C]//Proceedings of SIGCHI Conf. Human Factors in Computing Systems, Son Jose, California, USA, 2007: 453-462.
[9] U Brandes, P Kenis, J Lerner, et al. Network analysis of collaboration structure in Wikipedia[C]//Proceedings of International World Wide Web Conferences (WWW’09), Madrid, Spain, 2009: 731-740.
[10] U Brandes, J Lerner. Visual analysis of controversy in contributor-generated encyclopedias [J]. Information Visualization, 2008,11: 34-48.
[11] R Jesus. Bipartite networks of wikipedia’s articles and authors: a meso-level approach[C]//Proceedings of International Symposium on Wikis and Open Collaboration (WikiSym’09). Orlando, Florida, USA, 2009: 1-10.