基于链接分析法的出版社网站评价研究
2012-04-29米云金英伟
米云 金英伟
摘要:本研究旨在采用链接分析法对出版社网站进行定量分析评价,并据此讨论出版社网站建设现存的问题及改善措施。
关键词:网站评价;链接分析法;出版社网站建设
1996年美国学者Larson发表《万维网的文献计量:网络空间结构初探》,揭开了将文献计量学方法应用于网络分析的序幕。1997年丹麦学者Peter Ingwersen和Almind首次提出了“网络计量学”,之后Peter Ingwersen又提出了具有里程碑意义的概念“网络影响因子”(WIF)。网络计量学方法是最具代表性的网络定量分析方法,而链接分析法又是网络计量学方法中最主要的方法。链接分析法就是运用网络数据库、数学分析软件等工具,利用数学和情报学方法,对网络链接自身的属性、链接对象、链接网络等进行分析,揭示其数量特征和内在规律。许多研究表明,链接的数量、分布、时效和功能等方面往往与网站的性质、信息量、信息的组织具有相当密切的关系。
一、研究方案设计
因特网(Internet)是由多个网络互联而形成的逻辑网络。超链接,即一种文件指针,是这个逻辑网络最重要的组成部分,因此通过链接分析来评价网站、发现其问题进而指引网站建设就具有较强的说服力。我国网站评价方面的专家学者和组织机构认为网站评价应采用集主、客观于一体的综合评价法,但纵观近十年的相关文献,可以发现网站评价中的主观因素所占比重较大,所使用的一些方法如德尔菲法、层次分析法,Saaty的九标度理论等虽可谓经典,但过多的主观因素势必会影响评价结果的权威性。本文研究的出发点旨在侧重定量研究,削弱主观因素的影响,采用链接分析的方法对出版社网站进行评价。
1.研究思路
本研究选取了两套指标体系,一套是根据通用网站评价指标体系整理得来,该套指标体系包含的指标为网站评价研究的主流指标,大部分为定性指标,如信息全面性、页面美观程度等,在指标值获取过程中带有较强的主观性,该套指标将作为对比指标;另一套指标体系选取一系列链接分析指标和少量能间接反映网站内部特征和功能的客观指标,如日均IP访问量、页面点击量PV等,在指标值获取过程中不带有主观性,该套指标将作为研究指标。本研究对两套指标区别开来进行评价,即对不同性质的指标采用不同的评价方法,而不是对所有的指标均采用同样的方法进行评价。首先,利用统计分析软件SPSS对研究指标进行主成分分析得出网站排名A;然后,用模糊综合评价法分析对比指标得出网站排名B;最后,消除研究指标数据和对比指标数据间的量纲,再次使用主成分分析法得出综合排名C。
对比排名A、B、C是否一致,如果一致说明单纯使用研究指标数据进行网站评价的结果是可信的,即利用一系列客观指标对网站进行评价可以排除利用定性指标进行网站评价过程中的因个人知识有限、好恶不同引起的评价偏颇;如果排名不一致则查找原由,进行进一步的分析。
2.对象选取
本研究的研究对象共14家出版社(见数据分析结果讨论部分),取自“全国百佳图书出版单位”,原则上是从社科、科技、大学、教育、古籍、少儿、美术、文艺八大类中每类取两家,但由于有些类别的出版单位网站用户量甚少,统计数据不具代表性,如古籍类和美术类,因此分别从这两类中抽取了用户量最多的一家网站作为研究对象。
3.指标设置
(1)研究指标的设置
主观性揭示统计指标的误差性,客观性揭示统计指标的一致性,为了保证统计指标的一致性及可信性,在指标选取过程中要尽量消除主观因素的影响,这对于建立科学的评价指标体系具有重要的意义。设置的指标应能反映链接数量特征、网站影响力、网页重要性等多方面信息,既注重网站自身规模和信息量涵盖,又注重外部辐射和链接数量,以保证指标选取的全面性。基于上述考虑,研究指标设置如下:
网页数(Webpages):某网站所包括的全部网页数目,该指标可从整体上衡量网站的自身规模及信息含量。
入链数(In Links):指向某网站的链接总数,包括来自网站外部的链接和网站内指向自己的链接。该指标是衡量网站链接数量最重要的指标之一。
反链数(External Links):来自某网站外部的入链总数。该指标能很好地反映一个网站的声誉和外部辐射能力。
网络影响因子(WIF,Web Impact Factor):WIF=反链数/本网站的网页总数,由于规模大的网站反链数相对较多,所以通过该指标可以消除网站规模对评价的影响。
蹦失率(Bounce Rate):用户从一个入口进入某网站,进入后只浏览一个页面便离开本网站的访问次数占该入口总访问次数的比例。蹦失率指标可以衡量网站是否具有足够的吸引力让用户深入访问。
断链率(Link Broken Rate):该指标用来衡量链接页面的有效性、连通性。指标选取的是首页断链率而不是全站断链率,因为网站首页涵盖了到达网站任何一处的入口,用户使用网站基本上是从首页开始,而且包括首页在内的PV量有限,因此没必要花费巨大精力去获取全站断链率。
日均IP访问量(Daily Reach):该指标统计平均每天访问一个站点的IP数,一天内一个用户多次访问也算一个访问量。
日均PV访问量(Daily PV):该指标统计平均每天一个站点的页面浏览量,页面每被刷新或是浏览一次算一个PV。
日均访问时间(Daily Time):该指标统计一个站点每天所有用户的平均访问时间,以分钟为计量单位。
需要说明的是,以上统计指标都是基于节点层次的概念,只有确定了节点的层次性,以上指标才具有统计意义,该类节点是基于网站层的节点。
(2)对比指标的设置
国内外在网站评价方面的专家学者和组织机构最早对网站评价的研究是从定性评价开始的,之后很长时间人们都专注于网站定性评价指标体系的建立与实证研究,目前定性评价网站的评价方法和指标体系已趋向成熟稳定,本文通过总结文献法和专家调查法相结合的方式确定研究所需的对比指标如图1所示(其中A为目标层,B、C、D、E为准则层,其余为方案层)。
4.数据获取
(1)研究指标数据
许多研究表明利用Google来进行中文信息的检索是合适的,因此本文选择Google作为主要检索工具,Altavista用于辅助检索。
Alexa是全球知名的流量统计网站,除了提供一系列流量指标数据外,Alexa也统计了反映网站信誉和质量的指标,如反链数和蹦失率等。用Alexa收集网站信息时,假定全球互联网用户为20亿,该假定数据来源于国际电信联盟2011年的统计数据,在此基础上计算日均IP、日均PV。Google和Alexa是主要的数据获取工具,另外还会使用一些站长工具作为辅助工具进行数据获取。
(2)对比指标数据
对比指标数据主要来自问卷调查,调查对象为图书情报界的多位学者和被研究网站的诸多用户,调查内容为各级指标的权重和底层指标的具体得分。
二、数据分析
1.主成分分析
主成分分析的核心概念是降低原始数据中的维数,即对于某一个问题同时可以考虑好几个因素时,并不对这些因素单个处理,而是将它们综合起来处理,用数据的本身来寻找对全部方差最有影响力的方向,以及第二有影响力的方向等,目的是找到一两个方向能解释大部分数据中的变异。
(1)标准化数据,从标准化的数据中提取n个主成分。
(2)计算特征向量,设A为因子负载矩阵,U为特征向量矩阵,λ为特征向量,根据A=U* ,可以计算出每个特征值对应的特征向量,所有特征向量组成特征向量矩阵。
(3)标准化的矩阵与特征向量矩阵相乘即得主成分矩阵,设为第i个主成分,为第i个主成分的特征值,则网站综合得分Y为:
2.研究指标数据的分析
为了使指标更具有实际意义,本文依据“越大越好”与“越小越好”的原则对收集的原始指标数据进行标准化,其中越大越好的指标为网页数、入链数、反链数、外部WIF、日均IP、日均PV和日均访问时间,“越小越好”的指标为蹦失率和断链率;然后对标准化的数据进行主成分分析。
(1)使用统计分析软件SPSS 17.0对标准化的数据进行主成分分析,共提取3个主成分。
(2)计算特征向量矩阵X,结果如下:
(3)网站综合得分为:
其中
3.对比指标数据的分析
(1)层次分析法确定指标权重
本研究给图书情报界的多位学者发送电子版调查问卷,邀请他们对网站指标的重要性进行打分,得分上线 为5分,下线为1分。统计有效问卷的指标重要性最高得分为5分,最低得分为2.07分,依次为指标B2和指标D3,差值为2.93分。将差值平均划分为八个区间,起始数值0和各个区间所对应的数字依次为1到9的Saaty值,根据转化后的Saaty九标度衡量表构造判断矩阵,求各个判断矩阵的最大特征值和特征向量,然后进行一致性检验和指标权重确定,经检验各矩阵的随机一致性比率CR均小于0.1,说明数据具有满意的一致性,可进一步进行综合评价。
(2)模糊综合评价
采用用户调查法对各指标进行打分,标准同指标重要性的打分标准,最后对有效问卷进行统计,由于篇幅有限,对比指标的具体得分情况表未列出。设 为方案层的权重向量,W为准则层的权重向量,B、C、D、E 为方案层指标的得分矩阵。
4.综合数据的分析
将研究指标数据和对比指标数据综合进行分析,方法同研究指标数据的分析,依据“越大越好”“越小越好”的原则消除两部分数据间的量纲,进而进行主成分分析,得出四个主成分,则网站综合得分为:
其中
5.数据分析结果讨论
通过上述数据分析,所选出版社网站的分析评价结果如表1所示。根据结果可知,研究指标数据、对比指标数据和综合数据的评价结果大体呈一致性,只有较少网站的排名有微小变动,说明本研究选取的一系列基于链接分析的网站评价指标是合理的,利用其进行网站评价的可靠性也通过通用网站评价指标、评价方法得到了验证。显示本研究对网站进行定量评价不但操作简单,而且基本消除了因个人知识有限、好恶不同引起的评价偏颇。
三、结论与建议
通过本研究发现,国内出版社网站虽不断发展,但是不少网站的运行质量和效率令人堪忧。很多网站仅仅是实体出版机构的网络名片,其质量水平、服务效率、用户满意度等大多未得到足够的重视,除了一部分大型出版社网站、与计算机专业相关的出版社网站较为成熟和完善,很多中小型出版社网站的建设还停留在比较初级的水平上,各类问题逐渐凸显:一是内容简单、信息陈旧是出版社网站存在的最主要问题。如读者在新书推荐板块找不到该社最新出版的图书,还有一些重点推荐书目连内容简介都没有。二是网站的服务意识薄弱。大多数出版社仅仅将网站作为图书产品宣传的场所,没有其他的特色服务,如电子商务服务等等。三是网站风格雷同。很多出版社担心网站的建立和维护在人力、物力和财力上投入过大,因此将网站的建立与维护工作委托给第三方机构以节省开支,同一家机构可能承担多个出版社网站的建立与维护工作。另外很多出版社对网站建设并未给予足够重视,网站风格内容简单借鉴其他出版社网站。从而导致网站内容更新不及时、风格雷同现象的发生。四是网站互动性差。由于出版社网站建设人员缺乏,提供给用户交流的空间多仅限于e-mail,诸如论坛等方式在出版社网站中则很少应用;网站后期维护不及时导致很多断链、死链的发生也是很多出版社网站存在的问题。
在出版业走向数字化和网络化的大趋势下,各出版社应面向未来认真开展网站建设,作为打造自己的品牌、增强未来竞争力的强有力手段之一。一是各出版社应对自己的网站给予足够的重视,不仅要精心设计页面,还要建立完备的信息系统,且及时更换和补充新内容以吸引更多的用户。二是出版社需正确看待网站建设在人力、物力、财力上投入与产出的暂时不平衡性,坚信网络建设将会发挥更加关键的作用,在网站的建设与维护上提供足够的投入,避免或者是减少网站风格雷同、后期维护不到位现象的发生。三是特色服务很重要,每个出版社都有自己的强项和优势,出版社可以通过自己的网站把独有的强项和优势以增值服务的形式展现给用户,以赢得更多客户对本社的信任感和依赖感,并最终提高整体绩效。如牛津大学出版社就是充分利用其工具书和专业词典出版的强项,将这些产品电子化后放在网站供读者免费使用,这一特色服务大大提高了牛津大学出版社的竞争力。四是出版社网站应提供功能完善的用户交流板块,如设置作者论坛、读者论坛、出版社的选题创意论坛等,只有增强网站的互动性才能真正提高读者、作者及市场对出版社的关注度,进而进一步提升出版社的品牌形象,加强客户的忠诚度。
网站作为出版社21世纪新的形象标志与运营平台,在出版数字化转型中的作用日益凸显,而网站分析评价研究是指导出版社网站建设的重要依据。后续研究重点应着重构建一套完善而专业的出版社网站评价体系,以对出版社网站建设进行更为系统、更为客观有效的评价。
(米云系大连理工大学管理与经济学部硕士研究生;金英伟系大连理工大学出版社社长、博士生导师。)
参考文献:
[1] Larson R R. Bibliometrics of the world wide web : an exploratory analysis of the intellectual structure of cyberspace. Proceedings of the American Society for Information Science(ASIS) 59th Annual Meeting,1996.
[2] 董江山,胡吉祥,邱均平.链接分析法及其应用[J].情报科学,2004 (9).
[3] 王知津,郑红军.网站评价中的样本选取及链接测度[J].图书与情 报,2006(3).
[4] 乔文妤.中外音乐学院网站质量评价研究——以链接分析为方法 [J].情报探索,2010(2).
[5] 张洋,赵蓉英.网络连接分析的基本术语及其规范化[J].图书情报 工作,2007(9).
[6] Thelwall M. Comparison of sources of links for academic web impact factor calculations[J].Journal of Documentation,2002(1).
[7] 姚磊.网络链接分析的链接层次分类[J].情报探索,2008 (7).
[8] 李春平,杨益民.主成分分析法和层次分析法在对综合指标进行定 量评价中的比较[N].南京财经大学学报,2005 (6).
[9] 赖国毅,陈超.SPSS 17中文版统计分析典型实例精粹[M].北京:电子 工业出版社,2010.
[10] 王知津,李明珍.网站评价指标体系的构建方法与过程[J].图书与情报,2006 (3).