网站网络计量学实证研究
2015-05-30
摘要:文章运用主成分分析法和相关分析法,对我国35所大学网站的链接指标和流量指标进行研究,探索了关于高校网站评价的方法。研究结果表明:链接指标分析法与流量指标分析法均是网站测度的有效方法,流量指标分析法的效度要高于链接指标分析法,然而鉴于链接指标和流量指标对网站评价各有侧重,有必要将二者综合;对于一些单一指标,指出了网络影响因子作为网站测评指标的不足,Alexa流量排名作为网站评价的指标具有很高的效度。
关键词:网络计量;链接分析;流量分析
随着网络技术的发展和信息资源的数字化,网络已成为人们工作生活中不可或缺的工具。然而网络信息鱼龙混杂,给人们获取高质量的信息带来了一定的障碍,如何客观地评价网络信息成为了研究的热点之一,并由此引出了一个新的研究领域——网络计量学。网络计量学是采用数学、统计学等各种定量研究方法,对网上信息的组织、存储、分布、传递和开发利用等进行定量描述和统计分析的一门学科,其主要研究网站的链接指标和流量指标。近年来,我国信息化水平不断提高,各高校的信息化水平也逐渐成为衡量高校核心竞争力的重要标准之一。而高校的网站建设状况是其信息化水平的直接反映,运用网络计量学的方法研究高校网站的建设状况与其整体实力之间的关系,对于高校网站评价方法的研究及以后高校评价体系中引入网站建设情况都有很大的帮助。
一、研究对象与指标数据
(一)研究对象
为了方便研究,本文选取中国校友会发布的《2014中国大学评价研究报告》中排名前50的高校为研究对象,研究网站指标与排名得分之间的关系。
(二)研究指标与获取方法
本文运用网络计量学中的链接指标分析法和网络流量指标分析法,选取了7个链接指标,包括总网页数、总链接数、外链接数、内链接数、总网络影响因子、外部网络影响因子、内部网络影响因子。流量指标选取Alexa官方网站中关于某网站最新(2014)呈现的流量指标,包括网站的流量排名、网站的蹦失率、网站的平均访问页面数、网站的平均访问时间。
链接指标数据通过搜索引擎的高级搜索语言获取。本文选用必应作为链接指标的获取工具。以北京大学为例,只需在检索框内输入表1中的高级检索式,即可获取链接指标数据。
流量指标是通过Alexa网站(www.alexa.com)进行搜集,Alexa网站是美国亚马逊公司旗下的一个网站,提供网站流量监测和排名,是目前比较权威的第三方流量统计工具。
二、数据的处理与分析
(一)数据的预处理
由于网络上的信息每天都在不断地更新,因此搜索引擎在不同时间上获得的数据不同,为了保证数据一致,本文将所有检索任务统一在2014年8月10日上午8点至12点之间完成。50所高校中,中国地质大学有北京和武汉两个分校,两所分校均具有自己的学校网站,得到两组链接指标数据,为了方便研究,本文剔除中国地质大学样本。厦门大学、大连理工大学、北京协和医学院、重庆大学、电子科技大学、南京理工大学的总网页数小于100,作为排行前50的知名学校,其学校网站的网页数如此之少,与本文的认知是不相符的,所以将这6所学校剔除。对于总链接数,北京师范大学、南开大学、南京农业大学、中国海洋大学的数据都比其他大学高出数个数量级,本文将这几所大学剔除。外链接数是指某网站范围之外的搜索引擎搜索到的链接到该网站的网页总数,高校网站的外链接数小于零是不可能的,因此我们将外链接数小于零的学校也剔除。综上所述,对于特殊数据的处理共剔除了15所高校的数据。
(二)数据的分析与讨论
1. 链接指标分析
(1)主成分分析
利用spss19对链接指标数据做降维因子分析,得到两个主成分F1、F2,方差分别是75.217%和21.386%,累计方差为96.602%,两个主成分累计方差超过80%,能够很好地反映所有信息,因此得到的主成分计算公式和链接综合得分公式如下。
F1=0.1×总网页数+0.942×总链接数+0.968×外连接数+0.885×内链接数+0.939×外链接网络影响因子+0.939×内链接网络影响因子+0.939×总链接网络影响因子
F2=0.958×总网页数+0.291×总链接数+0.091×外连接数+0.454×内链接数-0.306×外链接网络影响因子-0.306×内链接网络影响因子-0.306×总链接网络影响因子
z链接=0.75217×F1+0.21386×F2
(2)相关分析
将各链接指标、链接总分与网站的排名得分之间进行相关性比较,得到如下结果。
从表2中可以看出,Z链接、总网页数、总链接数、外链接数、内链接数与排名总分之间,在双侧置信度为0.01下显著相关,说明排名总分越高的学校,实力越强,网站的规模趋于更大,指向网站的链接数越多,这与邱均平、段宇峰等的研究结果一致。网络影响因子与排名总分之间的相关性并没有得到理想的结果,本文认为其原因有以下两点:首先,网络影响因子的提出来源于期刊影响因子,期刊与学术性网站在很多方面的特征相同,但目前国内大学网站主要是介绍性、发布性的内容,真正纯学术性的内容较少,完全照搬期刊影响因子的应用势必得不到理想的结果;其次,商业搜索引擎的抓取能力有限,无法搜集到全部的链接数和网站下所有的网页数,用平均年每页的被链接率来评价大学网站并不合适。因此,将网络影响因子作为大学网站测评的指标,还有待探究。
2. 流量指标分析
(1)主成分分析
蹦失率是指用户浏览一个页面就离开的访问次数占该入口总访问次数的比例,蹦出率越高,网页越不受用户欢迎。流量排名和蹦失率是两个“负概念”,流量排名和蹦失率数值越大,网站的质量越差,所以在进行主成分分析前,本文将这两个负概念转为“正概念”,得到新的关于流量排名和蹦失率的两组数据。然后进行主成分分析,得到两个主成分F1、F2,贡献率分别为56.409%和27.620%,累计贡献率为84.029%>80%,F1、F2的成分矩阵如表3所示。
同链接指标的主成分分析,根据F1、F2的因子得分,计算出各高校的流量指标综合得分Z流量。
(2)相关分析
用spearman等级相关数检验流量总分、流量排名、蹦失率、平均访问页面数、平均访问时间与排名总分之间的相关性,得到结果如表4所示。
流量总分、流量排名、平均访问页面数、平均访问时间均与排名总分显著相关,流量指标可以较好地反映大学的综合实力。其中流量排名与排名总分最相关,且为负相关,即高校的排名得分越高,其Alexa流量排名的值越小(即排名越靠前),因此Alexa流量排名对高校网站的评价具有较高的效率。分析结果显示,蹦失率与排名总分之间并无显著相关性,其原因是一些排名靠前的学校网站的蹦失率反而高于排名靠后的学校,用户丧失严重,因此蹦失率高的学校要引起重视,加强网站信息整合,提高网站质量,增强对用户的吸引度。
3. 链接特征与流量特征综合分析
链接指标与流量指标综合得分均与高校排名得分显著相关,说明在网站进行测评时链接指标分析法和流量指标分析法均具有一定的科学性和可行性。流量指标综合得分的相关性高于链接指标综合得分,并且流量指标数据是通过Alexa网站,其具有一定的专业性和权威性,而链接指标的获取通过商业搜索引擎,商业搜索引擎有其局限性。因此,从专业性角度来说,流量指标分析法效度高于链接指标分析法,而综合运用两种方法能够更加全面地对网站进行评价。
三、结语
大学网站评价与大学综合实力排名相关,在一定程度上大学网站评价可以作为学校综合实力评价的辅助和参考。一般情况下,排名越靠前的高校,实力越强,科研水平越高,且由于具有丰富的办学资源和良好的学校形象,势必带来大量的链接和用户流量。就网站评价中链接分析法和流量分析法而言,二者均是网站测度的有效方法,流量分析法评价高校网站的效度高于链接分析法,但为了使评价结果更全面准确,可以综合运用两种方法。
参考文献:
[1]邱均平,陈敬全.网络信息计量学及其应用研究[J].情报理论与实践,2001(03).
[2]郭亚宁,徐伟.高校网站评价应用研究——以国内15所农林类院校网站为例[J].农业图书情报学刊,2014(02).
[3]刘文云,翟羽佳,王文颖.基于链接分析法的高校图书馆网站影响力评价研究[J].情报科学,2013(06).
[4]曹梅.教育网站评价的网络计量模式初探[J].开放教育研究,2011(05).
[5]邱均平,张洋.网络信息计量学综述[J].高校图书馆工作,2005(01).
[6]Ingwersen P. The Calculation of Web impact factors[J].Journal of Documentation, 1998(02).
[7]邱均平,陈敬全,段宇锋.中国大学网站链接分析及网络影响因子探讨[J].中国软科学,2003(06).
(作者单位:江苏大学工商管理学院)