高校机构知识库网络影响力研究与思考
2016-09-03张雪蕾魏青山西安交通大学图书馆
张雪蕾,魏青山(西安交通大学图书馆)
高校机构知识库网络影响力研究与思考
张雪蕾,魏青山(西安交通大学图书馆)
利用层次分析法构建高校机构知识库网络影响力评价指标体系,从网站链接认可度、网站可见度和网站关注度三项指标考察我国部分高校机构知识库的网络表现,结合灰色关联分析法,发现我国高校机构知识库网络影响力普遍较低。结合网络分析结果,提出应从优化网站架构、注重外链建设、存缴特色资源等方面强化,以提升我国高校机构知识库网络影响力。
机构知识库;网络影响力;评价指标
1 引言
机构知识库 (Institutional Repository,简称 IR)是2002年《布达佩斯宣言》发布以来,开放获取运动的一项重要产物,旨在日益开放的网络时代使得学术资源能够为公众便利地获取,从而促进全球学术交流。高等学校肩负着学术传播的重任,构建IR是开放获取运动发展的必然结果。自2008年起,西班牙网络计量实验室发布世界知识库网络计量学排名(Ranking Web of Repository),从网页规模、能见度、文档丰富度及学术成果数4项指标对全球知识库进行排名。[1]
本文以“世界知识库网络计量学排名(2015年7月版)”为基础,借鉴前人研究成果,利用层次分析法和专家论证,对世界知识库网络计量学排名的评价指标做出了部分调整,构建了基于网络计量学的高校IR影响力评价指标体系,对各高校IR进行评估,并通过分析排名结果,找出我国IR网络表现不足之处;针对发现的问题,结合笔者这几年的工作实践,提出一些深入思考。
2 IR评价指标体系模型的构建
2.1网络影响力概述
国外针对网络计量学的研究起步较早。20世纪末,Peter Ingwersen提出了网络影响因子指标这一概念;[2]1999年,德克萨斯州大学奥斯汀分校的Sybil Shearin研究了如何利用网络计量学来改善搜索引擎指标,提升网站的能见度;2003年,Musgrove等人在研究中发现网站的内链建设在网络计量中有重要作用;2005年,胡弗汉顿大学的Li Xuemei基于网络计量学对国际大学网站网络影响力进行了研究。[3]
张洋等针对网络链接分析术语混乱的问题,建议对术语规范化;[4]岳增慧等通过网络空间链接特征,网络空间规模、链接数量和影响力等多项指标对中美高校图书馆进行评价;[5]刘文云等构建了我国省级图书馆网络影响力评价指标体系,包括网站规模、流量、被链接量、关注度和利用率5个评价指标;[6]丁敬达等在此5个指标基础上,新增了网站PR值指标对我国高校IR网络影响力进行分析;[7]邱均平等在借鉴世界大学网络计量排名(Ranking Web of University)[8]评价指标基础上,从链接、显示度、内容丰富度和学术文档的角度评价了我国部分大学的网络影响力;[9]吴茵茵使用链接总数、外部链接总数、网页总数、链接效率、网络影响因子和外部网络影响因子等6项指标对中美26所高校的网络影响因子进行测定。[10]
综合国内外研究现状,学者大都运用链接分析法对不同类型网站的网络影响力进行评价,提出如何优化搜索引擎、如何提高外链数目等有助于网站发展的策略。目前,多是针对某一特定行业网站进行评价分析,尚未形成完整的网络计量评价指标体系。
2.2指标体系模型的构建
利用层次分析法构建了高校IR网络影响力评价指标体系模型,如图所示。构建的指标体系模型涵盖了网站链接认可度(外部链接数、链接效率、外部网络影响因子);网站可见度(网页规模、学术成果论文数、文档丰富度、PR值(PageRank));网站认可度;网站访问总量。各指标内涵见表1所示。此处针对网站认可度指标的选取做出一点说明,认可度通常是指根据网络流量来判断网站的人气及粘着性,常用的统计指标有网站点击量、网站访问量、访问人次等,通常利用站长之家、流量统计工具等来获取数据。但由于大部分IR在流量工具中只能统计到访问量,其余指标无法统计,故仅选用总访问量作为评价指标。
图 高校IR网络影响力评价指标体系模型
2.3各项指标权重的确定
在确定评价指标后,通过专家论证对上述各项指标权重加以确定。利用Saaty提出的9级比例标尺来评价各指标重要性,构建比较判断矩阵(如表2-表4所示),对各矩阵进行一致性检验,并对层次进行总排序及一致性检验,最后得出各项指标的权重。[11]
表1 高校IR网络影响力指标内涵
表2 一级指标判断矩阵A
表3 二级指标判断矩阵B1
表4 二级指标判断矩阵B2
求解出各判断矩阵的特征向量和最大特征值λmax,得:
一级指标判断矩阵A: λmax=3.009,特征向量W0=[0.587,0.324,0.089]T
二级指标判断矩阵B1:λmax=3,特征向量 W0= [0.143,0.286,0.571]T
二级指标判断矩阵 B2:λmax=3.994,特征向量W0=[0.167,0.499,0.167,0.167]T
本文针对最高层级排序,即对矩阵 A进行单层次排序结果为总排序结果。针对于 A矩阵下的不同矩阵 B1、B2,分别需要在不割裂各指标间相互关系的基础上计算总排序权重,计算结果见表5。除对各判断矩阵进行一致性检验,还需进行组合一致性检验,以确定组合权向量是否可作为最终的决策依据。检验结果如下:=0.026,=0.63,=0.041<0.1,可认定所有的判断具有整体满意的一致性。
表5 高校IR网络影响力评价指标体系层次总排序(权重表)
其中,一级指标中网站链接认可度权重为0.587,所占比例最高;其次为网站可见度和网站关注度。二级指标中,权重比例排名前三的指标分别是外部网络影响、链接效率和学术文档数目。
3 高校IR网络影响力评估
3.1研究对象的选择
通过对我国部分高校IR建设调研、多次参加IR学术会议,参照中国机构知识库推进工作组发布的《中国机构知识库案例汇编手册》,本文选择了清华大学、北京大学、中国人民大学、西安交通大学、厦门大学、兰州大学、西北工业大学、江苏大学、北京师范大学、北京工业大学、北京科技大学、北京邮电大学和首都师范大学共计13所高校IR作为网络影响力分析样本,且样本中IR系统可分为DSpace(4家)和产品软件(9家)。根据上述指标体系模型,对各IR进行评价和结果分析。
3.2数据采集与处理
鉴于早期主流分析网络影响力的工具,如AltaVisa、AllTheWeb、Hotbot等已停止服务,[12]本文采用测试集合的方式进行,即不同评价指标通过不同的测试工具进行数据采集(采集时间为2015年10月23日至10月25日)。
(1)外部链接数目。通过各IR网站URL在全球最大外链查询数据库Majestic SEO和Ahrefs来获取目标IR外链数目,取均值计算。
(2)链接效率。通过Google搜索引擎获取各IR的链接总数。检索式以厦门大学IR为例(linkdomain: dspace.xmu.edu.cn),获得链接总数后,计算出各IR链接效率。
(3)网页规模。通过Google搜索引擎获取到的网页总数,检索式以厦门大学IR为例(site:dspace.xmu. edu.cn)。
(4)外部网络影响因子。通过Google搜索引擎获取网页总数后,计算出各IR外部网络影响因子。
(5)学术文档数。通过Google Scholar检索到的各大学学术成果总数。由于各大学署名情况较为复杂,检索时尽量避免单位名称不规范性带来的影响,故本文仅选择各大学官方英文署名方式进行检索,如厦门大学(Xiamen University)。
(6)文档丰富度。通过Google搜索引擎获取到的存档为PDF格式的学术成果总数。检索式以厦门大学IR为例(filetype:pdf site:dspace.xmu.edu.cn)。
(7)PR值。站长工具(http://tool.chinaz.com)PR查询功能,统计各高校IR网站PR值。
(8)总访问量。通过访问各高校IR网站的流量工具获取总访问量。针对总访问量进行一点说明:大部分高校IR网站流量工具统计时并没有去掉爬虫、蜘蛛或恶意IP等访问量,导致不能客观反映网站的真实总访问量情况。
由于上述各项指标单位不统一,不利于后续数据处理,故需要将采集到的数据进行标准化处理后继续使用。采用极差标准化变换法,标准化后的各项指标均满足 0≤Yij≤1。
从统计数据可以看出,各高校IR按照不同指标排序结果各异,很难说明按照哪种指标评价更能正确体现IR的网络影响力。因此,本文先利用灰色关联分析法描述各指标间关系的强弱,各指标在综合评价中作用不同,可对关联系数求加权平均值,得出综合评价结果。[13]
3.3评价结果与分析
通过上述计算,最终得到各高校IR的关联度,对其关联度排序,评价结果如表6所示。
表6 IR网络影响力关联度排序
从表6数据可以看出,关联度最大即网络影响力最大的前三所IR分别是北京大学、厦门大学和兰州大学,网络影响力较小的后三所IR分别是北京邮电大学、中国人民大学和首都师范大学。北京大学IR是在CALIS三期“机构知识库建设及推广项目”时,北京大学图书馆作为示范馆搭建的IR平台。北京大学作为我国知名学府,科研产出硕果丰厚,学术论文数指标表现优异,综合评价后其网络影响力名列榜首;厦门大学是我国高校最早启动IR建设的高校,经过多年发展有较高的网络影响力;兰州大学IR刚刚完成建设工作,但是其外链数目、网页规模等各项指标均有不俗表现。前三名的IR均是在开源软件DSpace的基础上进行二次开发。
将采集的数据进行归一化处理,标准化后的各项指标均满足 0≤Yij≤100。通过与权重相乘后求和,可得各高IR网络影响力分值(见表7)。
由表7可以看出,所选的样本高校IR其网络影响力差距较大,总体发展并不均衡,且使用DSpace系统的IR网络影响力明显优于使用商业软件。网络影响力较大的网站其外部链接数、链接效率、外部网络影响因子、网页规模、学术文档数、文档丰富度指标表现优异,而影响力较小的网站都比较普遍存在某项指标数值偏小。从单项指标来看,仅有厦门大学IR各项指标均排名在前6位,这与该IR建设时间长、知名度高等因素密不可分。兰州大学作为新上线IR,有7项指标排名在前6,仅总访问量指标排名第8,这与其刚上线不久的现状相符合,其网络影响力实力在未来不容小觑。北京师范大学IR系统采用的是商业软件,虽然总访问量第一,但其网站链接认可度的各项指标都表现一般,导致排名中段。且除北京大学、清华大学和厦门大学外,其余各高校PR值均为0,网站亟待进一步优化来提升网站的重要性。以上分析表明,我国IR的网络影响力首先与选择的系统平台有关,其次各指标排名与高校科研成果产出量及存档量有关。
表7 各IR网络影响力评价指标排序及总分值
3.4问题与讨论
数据采集是排名的重要基础,利用不同工具采集数据会导致不同结果,且在不同时间对同一搜索引擎的检索结果也不尽相同,因此微观指标的排名结果可信度不高,但宏观排名仍具有一定的参考价值。目前,我国仅有5所高校IR在RangkingWebofRepository进行了注册,排名按顺序为厦门大学、北京大学、清华大学、北京科技大学和西安交通大学。对比此次排名与世界知识库网络计量学排名(2015年7月版),总排名、网页规模、能见度和文档丰富度几项指标均与本文设计指标排名基本一致,但仍略有差距。其中原因如下:(1)学术论文指标是由于本文数据采集仅使用了官方英文表达方式,造成会有部分成果并未统计到,且学术论文指标占比30%;(2)Altmetrics指标涉及的部分网站由于网络开放性等因素无法访问,且该指标占比达到25%;(3)同一指标的处理方式不同,如外部链接数目,本文选择均值法,但知识库排名的计算方法为去掉前十的反向链接后,两个外链数目的平方根之和;(4)本文的采集时间为2015年10月,世界知识库排名新版发布时间为2015 年7月;(5)本文选取的指标与权重略有不同,新增了PR值、总访问量等指标。
虽然部分学校在不同排名中略有差异,一方面说明网络数据变化快,单一依靠网络数据来评价网站并不非常可观;另一方面,不同排名的整体趋势趋向一致,表明排名是可供参考的。正如网络影响力高的IR,无论是选取何指标、权重,都会排名表现优异。
4 提高国内机构知识库网络影响力的几点建议
4.1尽可能选择通用的IR系统
搭建IR系统的软件多以开源为主,早期主要有DSpace、EPrints、Fedora、Digital Commons等软件。近年来,IR+、Hydra、Drupal、Islandora等支持内部资源语义关联、非文本资源保存的新型开源软件逐步进入市场,[14]这些开源、通用的系统具备机构知识库需要访问的多接口性,易于被访问和被发现,各高校可以结合自身现状及各软件优缺点来选取适合本校IR建设的软件平台。从世界机构知识库排名来看,前100名的IR大都采用了通用的开源软件,正如本研究中兰州大学采用了中国科学院CSpace软件,在短期发布就取得很好的网络影响力。开源软件设计标准、搜索引擎更是针对开源软件进行的优化处理,因此建议国内高校优先采用开源通用的IR系统,这有利于提升IR网络排名。
4.2选择通俗易懂的IR域名,不要采用生僻域名
域名的选择对IR来说至关重要,合适的域名应能简短表达出网站内容,便于公众第一时间了解这是什么网站,并有利于搜索引擎发现和链接,对于一些不太出现在域名中的字符应该尽量避免或者去除。在本文数据采集中,发现有部分高校IR网站尚未注册域名或以aspx.为扩展名,导致无法在Google和外链查询工具中采集到数据,严重影响了IR排名。
4.3完善网站自身框架,提升网站整体表现力
网站组织体系框架越完整,网站的信息整合、揭示程度越高,公众获得的资源越为丰富。通过合理完善网站的自身架构,即增加内链数目可形成较为完备的网络层次体系,使得信息揭示更为充分。[5]同时,内部链接要具备丰富性和完整性,每个内部链接都可以返回到网站主页。各高校在进行IR建设的同时,可采取优化网站导航设置、增加质量与内容并重的网页、增加网站互动等手段,提高IR网站综合评定水平,从而提升网站链接的认可度与网站可见度。
4.4加大IR宣传推广力度,增加外部链接数
网站链接宣传推广好,网站导入性就强,外部链接数目就多。国内高校要加大对IR的宣传,采用多种手段,如电子邮件、微信推送、海报等,增强IR在校园的能见度,增加用户的访问行为,鼓励本校学者主动存缴,提高IR网页规模。同时要及时在国际知名网站如OpenDOAR、ROAR及各大搜索引擎中注册登记,这能够有效增加IR外链数目。知名网站本身PR值就高且外部链接多,被越来越多的知名网站外链,IR的PR值越高,在搜索引擎排序越为靠前,越能被公众发现、利用。
4.5注重特色资源存缴,丰富存档类型
IR的存档内容不再局限于常规的学术论文成果,还可以存档科研数据、视频音频等非文本资源。应在弘扬我国特色文化的基础上,更贴近读者需求。各高校IR可与本校特色文化相结合,吸引读者访问、使用和转载,如北京大学机构知识库存档了昆曲传承计划相关的视频、图片资料;浙江大学机构知识库一度将古代拓片的图片作为特色资源存缴;台湾交通大学收集系所当年的老照片,用图片形式记录历史等。特色资源及丰富的存档类型,有利于成果被各大社交网站转载,提高成果能见度,提升IR网络影响力。
5 结语
IR的网络影响力虽然能够促进学术成果的开放获取,但并不意味着高校在建设过程中要过度关注网站排名,而采用各种手段刻意制造质量不高的网页、链接等内容,一味追求扩大网页规模,甚至付费购买友情链接来增加外链数目,忽略IR网站的可持续发展。IR网站应立足本校实际情况,在网站结构优化、学术文档的质量、网站加值应用、与其他系统共享集成等方面下功夫,只有质量保证的IR才能真正发挥其网络影响力。
[1]世界知识库网络计量学排名[EB/OL].[2015-10-20].http://repositories.webometrics.info/.
[2]兰娜.我国省级公共图书馆网站网络影响力评估研究[D].石家庄:河北大学,2015.
[3]夏旭.高屋建瓴 臻于至善——《网络计量学》评介[J].图书情报知识,2012 (3):125-129.
[4]张洋,赵蓉英.网络链接分析的基本术语及其规范化[J].图书情报工作,2007,51(9):20-24.
[5]岳增慧,等.中美高校图书馆网络空间链接特征的比较研究[J].情报科学,2011,29(9):1363-1369.
[6]刘文云,周泰冰.我国省级公共图书馆网络影响力评价研究[J].图书馆建设,2011(3):85-89.
[7]丁敬达,朱梦月.高校机构知识库网络影响力评价研究——基于我国重点大学的实证分析[J].图书馆杂志,2014,33(7):13-23.
[8]世界大学网络计量学排名[EB/OL].[2015-10-20].http://www.webometrics.info/.
[9]邱均平,等.中国大学的网络产出、显示度和影响力研究[J].情报科学,2011(3):325-332.
[10]吴茵茵.中美大学网络影响因子研究[J].情报科学,2008(7):1048-1055.
[11]张炳江.层次分析法及其应用案例[M].北京:电子工业出版社,2014:67-73.
[12]付威风,郑春厚.网络计量学常用工具比较研究[J].图书馆学研究,2009(7):24-27,14.
[13]刘思峰.灰色系统理论及其应用[M].7版.北京:科学出版社,2014:66-75.
[14]张旺强,等.几种典型新型开源机构知识库软件的比较分析[J].现代图书情报技术,2014 (2):17-24.
Research on Web Impact of University Institutional Repositories
Zhang Xue-lei,Wei Qing-shan
This article applies analytical hierarchy process(AHP)to construct university institutional repository web impact evaluation index system,and investigates the website performance of some institutions of domestic higher education from the aspects of website link recognition,website visibility and website attention.Applying gray relative analysis method,is found that the web impact of university institutional repositories is generally low.Based on above analysis,this article puts forward the suggestion that we should strengthen the optimization of website structure,pay attention to the construction of the external link and special resources,so as to improve the web impact of university institutional repositories.
Institutional Repository;Web Impact;Evaluation Index
G250.76
B
1005-8214(2016)07-0061-05
张雪蕾(1988-),女,西安交通大学图书馆信息技术部馆员,研究方向:机构知识库、电子资源流量控制;魏青山(1974-),男,西安交通大学图书馆信息技术部副研究馆员,研究方向:机构知识库、特色数据库开发、学科服务、数字资源整合。
2015-12-17[责任编辑]阎秋娟