APP下载

网络舆情信息源影响力的评估研究

2011-06-14刘春阳余智华

中文信息学报 2011年3期
关键词:信息源关注度网页

郭 岩,刘春阳,余智华,张 瑾,戴 媛

(1. 中国科学院计算技术研究所, 网络重点实验室, 北京 100190;2. 国家计算机网络应急技术处理协调中心,北京 100029)

1 引言

网络舆情的传播是一把“双刃剑”。近年来,网络舆情信息的分析和利用越来越受到相关研究人员的高度关注。网络舆情的传播途径有很多,最主要的三大舆情通道是新闻、论坛和博客。本文中,舆情信息源主要包括新闻网站、新闻频道、论坛网站、论坛版块、博客托管网站、博客。舆情信息源如雨后春笋,繁杂多样。来自这些信息源的海量信息给舆情信息处理带来了巨大的挑战。实际上,网络舆情信息源良莠不齐。如果在网络舆情分析时,能够重点关注价值较大的网络信息源传播的信息,则将为舆情信息处理带来事半功倍的效果。也就是说,如果我们能够对网络舆情信息源做出客观而准确的评价,则对进一步的网络舆情信息分析能够具有重要的指导意义。对网络信息源的评价有各种不同的方法、指标,本文将从影响力方面对网络信息源进行评价。这是因为,影响力是指信息源在互联网中传播舆情的能力。影响力越大,其传播的舆情信息的价值可能就越大,该信息源就越值得关注、甚至需要监管。

目前,已有不少对网站影响力的评价工作。国内外的网站影响力评价方法主要有两种: 定性方法和定量方法。当前大多数的影响力评价的研究都是使用定量的方法: 即基于网络计量学的角度,通过入链接数、出链接数、网络影响因子、网站的访问量等一些可量化的指标来对网站影响力进行评价分析[1]。但是,据我们所知,几乎没有专门对网络舆情信息源影响力的评价工作。

我们认为,舆情信息源影响的发出者是信息源,收受者是网民。信息源通过发布信息、转载(引用)信息等方式向网民传播舆情信息。同时,网民通过发表文章、点击、回复等方式表达对各种舆情信息的感兴趣程度,这些方式也隐含了网民被信息源影响的程度。因此,在评价网络舆情信息源影响力时,首先要考虑信息源的自身表现力。该表现力通过发表文章的频率体现。另外,网络舆情是指由于各种事件的刺激而产生的通过互联网传播的人们对于该事件的所有认知、态度、情感和行为倾向的集合[2]。可以看到,网民作为舆情信息源影响的接收者,在网络舆情传播中占有非常重要的地位。因此,我们在评价影响力时,还要考虑网民对信息源的关注度。而这个关注度可以从信息源发布信息的频率,以及网民对信息的点击频率、回复频率中得以体现。最后,网络信息源作为第四媒体,同行间的关注度也隐含了对信息源影响力的评价。因此,我们还要考虑媒体的关注度。而这种关注度则体现在信息源之间对于信息的转载和被转载关系中。转载和被转载说明了对有价值的信息的继承与利用。重要度越高的信息源,其信息被转载的数量越大;反之,亦然。

基于以上分析,利用层次分析法并结合专家打分,我们构建了网络信息源影响力的评估模型,通过信息源表现力指标、网民关注度指标和媒体关注度指标等多个指标对影响力进行评估。值得一提的是,我们将借鉴经典的网络链接算法PageRank计算媒体关注度指标。

2 相关工作

2.1 网站影响力的评价方法

文献[1, 3-4]对网站影响力的评价方法做了较全面的阐述。网站影响力的评价方法可以分为定性和定量两种。定性的评价方法主要有问卷调查法和效益评价。定量的方法则是基于网络计量学的角度,通过一些可量化的指标来对网站影响力进行评价分析。

国内外对网站影响力评价的研究工作大多数是通过定量的方法,利用相关工具获得实验数据,然后通过网络计量学的研究方法对影响力进行测评。定量的评价方法主要有:

• 链接分析: 超文本链接是互联网的重要特征,任意两个网页都可以建立链接。站点B建立了与站点A的链接,证明站点B认为站点A质量高,站点A对站点B产生了影响力。一个站点被链接的次数越多,证明该站点影响越大。链接分析法就是基于站点的被链接次数来评价其影响力。以链接分析为基础,并借鉴期刊影响因子的计算方法,Ingwersen于1998年提出了网络影响因子的概念[5-6]。它的计算方法是用网络空间中所有指向某网站的超链接总数除以该网站内的所有页面总数。网络影响因子越高,网络影响力就越大。

• 流量分析: 在网络营销学中,网站流量泛指网站的访问量,可用一个网站一段时间内访问者的数量、访问者所浏览的网页的点击率和平均停留时间等指标来描述[7]。用户对网站的访问量大,说明该网站蕴含的信息价值高,对网民的吸引力高。因此网站的访问量可以作为评价网站影响力的一个较为客观的指标。

网站影响力的评估指标已经有很多,可以归纳为流量指标、网络链接指标和可见度指标。一些研究者针对特定领域的网站特点,制定了该领域网站的影响力评价指标。文献[1, 3-4]对科技信息服务网站的影响力评价进行了研究。文献[8]对中、美两国部分综合实力排名靠前的医院网站的网络影响力进行测度和分析。文献[9]研究了中国重点大学网络影响力的评价。文献[10]对中外企业网站的网络影响力进行了评价。

网络舆情信息源的影响力有其独特之处,直接套用已有指标去评价它是不尽合理的。淘宝网就是一个很好的例子,现有的流量指标、网络链接指标和可见度指标都会把淘宝网排在一个非常靠前的位置,然而其做为网络舆情信息源的影响力并不高。因此需要针对网络舆情信息源影响力独有的特点,制定客观、准确的评价指标。但是,据我们所知,目前在网络舆情信息源的影响力评价方面尚无相关的研究工作。

2.2 页面质量评价算法PageRank

PageRank算法[11-12]是Stanford大学研究人员开发的Google搜索引擎的页面质量评价算法。该算法则基于网络图上的拓扑结构,计算网页的重要度。算法基于这样的假设: 1)被越多网页链接到的网页越重要;2)被越重要的网页链接到的网页越重要。

我们将借鉴PageRank算法的思路,计算网络信息源的媒体关注度。与PageRank的主要不同之处在于,我们并不基于网页间的超链接构成网络图,而是基于网站之间的信息转载关系构成网络图。

2.3 期刊评价方法

期刊影响因子是表征期刊影响大小的一项定量指标,是一个国际上通行的期刊评价指标。它的计算方法是: 某期刊前两年发表的论文在统计当年的被引用总次数除以该期刊在前两年内发表的论文总数[13]。

近几年,不少研究者[14]借鉴网页排名算法Page-Rank的思路,基于期刊之间的引用关系构成网络图。并基于网络图上的拓扑结构对期刊的重要度进行排名。这种评价方法不但考虑了期刊被引用的次数,还区分了引用期刊的重要性,与影响因子单纯考虑期刊被引用次数相比较,更为合理些。

我们在计算信息源的媒体关注度时,也借鉴了PageRank的思路,但是和期刊评价中的网络图的构成不同,我们是基于网站之间的信息转载关系构成网络图。另外,我们将网站之间对信息的转载关系类比成期刊之间的论文引用关系,参考期刊的影响因子的计算思路,基于转载数计算网络图中边的权重。但计算方法和期刊的影响因子不同。

2.4 层次分析法

层次分析法AHP(The Analytic Hierarchy Process)理论是美国著名运筹学家T.L.Saaty于1980年在他的著作《层次分析法》中确立的,是一种多准则的决策方法,是系统工程中对非定量事件作定量分析处理的一种简便方法。它把一个复杂的问题表示为有序的递阶层次结构,将人的主观判断用数量形式加以表示和处理,通过人们的判断对决策方案的优劣进行排序。这种方法能够将决策中的定性与定量因素统一处理,具有实用性、系统性、简洁性等优点,特别适用于在社会经济系统的决策分析中使用。在指标体系研究中,层次分析法是常用的一种指标权重的确定方法。层次分析法有其一般步骤[15]。我们将采用层次分析法,按照信息源表现力、网民关注度、媒体关注度等指标的层次结构,构建网络舆情信息源影响力评估体系。

3 评估指标体系的建立

3.1 指标体系概述

根据对网络舆情、网络舆情信息源、网络舆情信息源影响力等概念的深入研究,我们构建了网络舆情信息源评估指标体系。这里需要说明的是,我们认为,新闻、论坛、博客这三大舆情通道各有特点,因此在构建指标体系时需要分别对待。表1~3分别展示了新闻、论坛、博客的指标体系中各级指标的层次关系。

表1 网络新闻信息源影响力指标体系

表2 论坛信息源影响力指标体系

表3 博客信息源影响力指标体系

3.2 各级指标详解

本节将详细描述各级指标的含义和计算方法。

3.2.1 网络舆情信息源影响力指标

网络舆情信息源影响力指标描述了网络舆情信息源在互联网中传播舆情的能力。信息源影响力越高,说明其传播舆情的能力越强。

信息源的影响力首先体现在其自身的表现力中。同时,网民作为信息源影响的接收者,其对信息源传播的信息的关注度也反映了信息源的影响力。另外,网络信息源作为第四媒体,同行间的关注度也隐含了对信息源影响力的评价。因此,网络舆情信息源影响力指标的计算基于信息源表现力指标、网民关注指标和媒体关注度指标。

需要说明的是,我们认为,对于论坛和博客而言,因为信息源中发表的文章基本都是网民张贴上去的,因此信息源自身的表现力实际上可纳入网民关注度中。

3.2.2 信息源表现力指标

信息源表现力指标描述了网络舆情信息源在传播网络信息时的自身表达能力。表现力越强,说明其表达能力越强,其影响力则可能越大。发表网络文章是新闻信息源传播信息的最直接、也是最主要的途径。因此,信息源表现力指标的计算基于其发表文章频率指标。

3.2.3 网民关注度指标

网民关注度指标描述了网民对网络舆情信息源的关注程度。影响力越大信息源越容易获得网民的关注度。也就是说,网民的关注度反映了信息源的影响力。

对于新闻而言,网民的关注度隐含在网民对信息源的访问频率中,即用户对信息源发布信息的点击频率。访问频率越高,则说明网民的关注度越高。另外,网民对信息源发布信息的回复频率则反映了网民的参与程度。网民的参与程度越高,则也反映了网民的关注度越高。因此,新闻信息源的网民关注度指标的计算基于点击频率指标和回复频率指标。

对于论坛和博客而言,网民的关注度隐含在网民发表文章的频率、对信息源的访问频率和对信息源发布信息的回复频率中。发表文章的频率越高,说明网民关注度越高。信息源的访问频率即为用户对信息源发布信息的点击频率,访问频率越高,则说明网民的关注度越高。网民对信息源发布信息的回复频率则反映了网民的参与程度。网民的参与程度越高,则也反映了网民的关注度越高。因此,论坛和博客的信息源的网民关注度指标的计算基于发表文章频率、点击频率指标和回复频率指标。

3.2.4 发表文章频率指标

发表文章频率指标描述了信息源发布信息的速度。速度越快,说明信息源在传播信息方面的自身表现力越强。

发表文章频率是指网络舆情信息源在单位时间内发表文章的频率。这里,单位时间取分钟。因此该指标的计算公式如下:

假设t分钟内,信息源发表文章数量为P篇,则

发表文章频率=P/t

(1)

3.2.5 点击频率指标

点击频率指标描述了用户对信息源发布信息的访问速度。速度越快,说明发布的信息越吸引用户,用户的关注度越高。

点击频率是指网络舆情信息源在单位时间内用户对信息源发布文章的点击(或称浏览)频率。这里,单位时间取分钟。因此该指标的计算公式如下:

假设t分钟内,信息源发布文章被用户点击的总次数为C次,则

点击频率=C/t

(2)

3.2.6 回复频率指标

回复频率指标描述了用户对信息源发布信息的参与速度。速度越快,说明发布的信息越吸引用户,用户的关注度越高。

回复频率是指网络舆情信息源在单位时间内用户对信息源发布文章的回复(或称评论)频率。这里,单位时间取分钟。因此该指标的计算公式如下:

假设t分钟内,信息源发布文章被用户回复的总次数为R次,则

回复频率=R/t

(3)

3.2.7 媒体关注度指标

媒体关注度指标描述了舆情网络信息源对同行的关注程度。隐含了信息源同行之间对信息源重要度的评价。同行对信息源的关注度越高,其重要度越高。媒体关注度指标的计算基于信息源重要度指标。

3.2.8 信息源重要度指标

信息源重要度指标描述了网络舆情信息源同行之间对信息源重要度的评价。我们借鉴PageRank的思路,提出算法SrcRank,基于信息源之间的信息转载关系计算信息源的重要度。

网络舆情信息源传播信息的主要方式之一是转载其他信息源的文章。对一篇文章的转载,意味着对该文章的推荐。这就类似于网页链接中,对一个网页的链接,意味着对该网页的链接。因此基于信息转载关系,信息源之间可以构成信息源转载网络。尽管信息源转载网络与网页链接网络存在不少差异,但是信息源转载网络与网页链接网络均可看成一个有向图,有向图的一个结点代表一个信息源或网页,节点间的边代表信息源的转载关系或者网页的链接关系。另外,PageRank基于假设: 1)被越多网页链接到的网页越重要;2)被越重要的网页链接到的网页越重要。信息源转载同行发布的文章,这一行为隐含了对其他信息源的重要度的评价。存在这样的假设: 1)发表的文章被同行转载得越多,说明该信息源被同行关注的程度越高,其重要度也有可能越高;2)被重要度高的信息源转载次数越多的信息源的重要度也越高。因此,利用PageRank这种源自网页重要度排序的算法来进行信息源重要度排序从理论上讲是完全可行的。

仿照PageRank,算法SrcRank基于网络中信息源之间的转载关系构成网络图。网络图是有向图,图中的节点为网络舆情信息源,节点之间的边为信息源之间的转载关系。假设信息源A和信息源B对应网络图中的节点a和节点b,则如果信息源A转载了信息源B的文章,那么节点a和节点b之间存在一条边,且边的方向为a指向b。

互联网中网络舆情信息源的重要度之间存在如图1所示的传递关系图。

如果用r(i)表示信息源i的重要度,B(i)表示通过转载指向信息源i的信息源集合,信息源i在一定统计时间内被其他信息源转载的总次数为c(i),f(j,i)表示在一定统计时间内信息源j转载信息源i发布文章的次数,则互联网上所有信息源的重要度满足如下关系:

(4)

下面给出算法SrcRank的形式描述:

令W是网络舆情信息源集合,N=|W|,B(i)是通过转载指向信息源i的信息源集合,信息源i在一定统计时间内被其他信息源转载的总次数为c(i),f(j,i)表示在一定统计时间内信息源j转载信息源i发布文章的次数,则对于信息源i,它的重要度SR(i)用下面公式计算:

(5)

公式(5)是递归定义的,实际计算中需要进行迭代。要保证迭代收敛,需要对公式(6)进行改进。改进策略与算法PageRank相似,改进后的公式如下:

(6)

从公式(6)可以看到,一个信息源的重要度由两部分组成: 一部分是其自身固有的重要度,即1/N,另一部分是其他转载它发布文章的信息源传播给它的重要度。两部分各自所占的比重由参数d决定。类似于PageRank,本文中我们取d=0.85。

与算法PageRank类似,数学上可以证明,公式(6)的计算过程是收敛的。

图1 算法SrcRank中网络舆情信息源的重要度传递关系图

4 评估模型的构建

4.1 构建步骤

4.1.1 第一步: 建立递阶层次结构

在这一步骤中, 首先要求将需要解决的问题所含的要素进行分组,把每一组作为一个层次,并将它们按照: 最高层(目标层)——若干中间层(准则层)——最低层(属性层)的次序排列起来。同一层次的元素作为准则,对下一层次的某些元素起支配作用,同时它又受上一层元素的支配。这种自上而下的支配关系形成了一个递阶层次。处于最高层的一般是分析问题的预定目标,中问的层次一般是准则层、子准则层,最低一层包括决策的方案。层次数与问题的复杂程度和所需要分析的详尽程度有关,每一层次中的元素一般不超过九个[1]。

我们将表1中的网络信息源影响力指标体系构建成如图2所示的模型。

图2 网络信息源影响力评估模型

4.1.2 第二步: 构造比较判断矩阵

这一步骤是层次分析法中的一个关键步骤。判断矩阵表示针对上一层次中的某元素而言,该层次中各有关元素的相对重要性程度,其形式如下[1]:

或者B=[bij],i,j=1,2,…n

其中,bij是就上层某元素而言bi与bj两元素的相对重要性标度。

我们通过专家打分法构建判断矩阵。首先专家需要填写调查问卷,如表4~6所示,填表时参考如表4所示的层次分析法比例标度表。然后,将每个指标的评分取均值,两两相比较,构建比较判断矩阵。

表4 网络信息源影响力指标重要程度两两比较调查表

表5 网民关注度指标重要程度两两比较调查表

4.1.3 第三步: 计算权重并一致性校验

得到了各准则层的比较判断矩阵后,需要计算对该准则下的各元素的相对权重,并进行一致性检验。

常用的权重计算方法有幂法、和法及根法。其中,幂法较精确,后两种方法较近似。考虑到我们在精度方面要求不高,且要求计算简便,故采用根法。具体步骤为:

表6 层次分析法比例标度表

(1) 将比较判断矩阵A中的元素按行相乘;

(2) 对得到的乘积分别开n次方(n为矩阵的阶);

(3) 将方根向量归一化得排序权向量W;

(4) 进行一致性判断,具体过程为:

1) 计算比较判断矩阵A的最大特征根λmax;

2) 计算一致性指标CI=(λmax-n)/(n-1);

3) 计算一致性比例CR=CI/RI

对n=1,2, ...,9,RI的值如表7所示。

表7 RI取值表

当CR<0.1时,认为判断矩阵的一致性是可以接受的,否则应对判断矩阵作适当修正。若判断能通过一致性检验,第(3)步得到的排序权向量即为各指标的权重;若不能通过,需要重新设置判断矩阵,进行计算,直至通过为止。

4.2 网络舆情信息源影响力评估模型

按照第4.1节的模型构建方法,我们分别构建了新闻、论坛、博客的信息源影响力评估模型,各模型的指标递阶层级关系与相应权重如表8所示。

表8 新闻、论坛、博客三大信息源通道的影响力评估指标体系权重表

5 实例分析

5.1 数据集

我们从近200个国内较活跃的信息源获取如下数据:

• 数据时间跨度: 一年半的数据,从2009年1月1日至2010年6月1日;

• 新闻数据: 来自91个网络新闻信息源,共 1 495 482条记录,每条记录包含了一张新闻网页的发布时间、对该网页的点击数、评论数,以及转载它的网页;

• 论坛数据: 来自87个论坛信息源,共 2 865 447条记录,每条记录包含了一个论坛帖子的发布时间、对该帖子的点击数、回复数,以及转载它的网页;

• 博客数据: 来自10个博客信息源,共 897 097条记录,每条记录包含了一篇博文的发布时间、对该博文的点击数、评论数,以及转载它的网页。

5.2 结果与分析

我们将已经构建好的影响力评估模型用于以上数据集,得到如表9所示的影响力排名。限于篇幅,我们只展示了排名前10名的网络新闻信息源、论坛信息源、博客信息源。

从表9可以看到,影响力排在前10名的信息源确实是比较著名的信息源,基本符合我们的直观印象。这也说明了我们提出的网络舆情信息源评估模型是客观、合理的。

在这里需要指出的是,有些信息源并没有在网页中显示出点击数(例如新浪网),使得我们无法获得这样的数据。对于这种情况,我们只能凭经验为该数据源赋予点击数值。主要方法是: 凭借直观经验,找出5个与该信息源影响力相当的信息源,将这5个信息源在相应时间段的点击数求平均值,作为该信息源的点击数。另外,因为我们的分析数据有限,所以排名结果难免会有不够客观的地方,仅供参考。

6 结论及未来工作

根据对网络舆情、网络舆情信息源、网络舆情信息源影响力等概念的深入研究,我们构建了网络舆情信息源评估指标体系。本文的贡献主要有两点: 一是与已有的网站影响力评估方法相比较,文章提出的评估方法从根本上抓住了网络舆情信息源影响力的本质特点。不仅考虑到了信息源自身的表现力,还考虑到了网民对影响力的反馈,以及信息源转载信息这一行为中隐含的对同行信息源影响力的反馈。二是在对信息源重要度进行排名时,借鉴网络链接分析算法PageRank,提出了算法SrcRank。实例分析结果表明,该评估方法能够客观而合理地评价网络舆情信息源的影响力。

表9 网络舆情信息源影响力排名

我们在这个方向的工作只是一个初步的结果,目前对结果的分析仅是定性的,在后续的研究中,我们将进行定量分析。此外,我们对网络舆情信息源影响力进行评估时,并没有考虑网页内容的观点倾向。在未来工作中,我们将加入此方面内容,使得评估更加客观,合理。

[1] 陈斯杰. 基于用户视角的科技信息服务网站影响力评估研究[D]. 南京:南京理工大学, 2009.

[2] 曾润喜. 我国网络舆情研究与发展现状分析[J]. 图书馆学研究, 2009(8): 2-6.

[3] 范闯. 基于网络计量学的科技信息服务网站影响力评估研究[D]. 南京:南京理工大学, 2009.

[4] 刘雁书, 方平. 网络信息影响力评价方法[J]. 高校图书馆工作, 2002, 22(88):16-19.

[5] Ingwersen, P.. The Calculation of Web Impact Factors[J]. Journal of Documentation. 1998, 54(2) :236-243.

[6] Almind, T.C.I., Peter. Informetric Analyses on the World Wide Web: Methodological Approaches to “WEBOMETRICS”[J]. Journal of Documentation, 1997, 53(4): 404-426.

[7] 姜旭平. 网络营销[M]. 北京:清华大学出版社, 2003.

[8] 朱雷. 中美两国医院网站网络影响力指标对比评测研究[J]. 现代图书情报技术, 2006(134): 64-81.

[9] 邱均平, 程妮. 中国重点大学的网络影响力评价研究[J]. 科学学研究, 2009,27(2): 190-195.

[10] 陈太洋,任全娥. 中外企业网站的链接分析与网络影响力评价[J]. 信息系统, 2008,31(4): 614-619.

[11] Larry Page, S.B., R. Motwani, T. Winograd. The PageRank Citation Ranking: Bringing Order to the Web[R]. Stanford InfoLab, 1999[R/OL]. http://en.scientificcommons.org/42893894

[12] Haveliwala, T.H.. Efficient computation of PageRank[R]. Stanford University, 1999[R/OL]. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.65.3145&rep=rep1&type=pdf

[13] Garfield, E.. Citation indexing: Its theory and application in science, technology, and humanities. Institute for Scientific Information,1979[EB/OL]. http://www.garfield.library.upenn.edu/cifwd.html

[14] 苏成, 潘云涛, 袁军鹏,等. 基于PageRank的期刊评价研究[J]. 中国科技期刊研究, 2009, 20(4): 614-617.

[15] 郝海, 踪家峰. 系统分析与评价方法[M]. 北京:经济科学出版社, 2007.

猜你喜欢

信息源关注度网页
睡眠者效应
基于HTML5与CSS3的网页设计技术研究
新媒体时代,记者如何正确使用信息源
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
雄安新区媒体关注度
全国两会媒体关注度
基于URL和网页类型的网页信息采集研究
暴力老妈
“王者”泛海发布会聚焦百万关注度