图书馆学研究文献网络引文的可追溯性考察<br/>——以四种核心期刊为例

图书馆学研究文献网络引文的可追溯性考察
——以四种核心期刊为例

2015-07-22庄晓喆

图书馆 2015年4期

关键词：图书馆学域名网页

庄晓喆

（武汉大学信息管理学院　湖北武汉　430072）

·实证研究·

图书馆学研究文献网络引文的可追溯性考察
——以四种核心期刊为例

庄晓喆

（武汉大学信息管理学院湖北武汉430072）

〔摘要〕网络环境下，网络引文已成为参考文献的重要组成部分，其可追溯性也日益受到关注。文章选取四种中国图书馆学核心期刊，对其2009至2013年间所刊载论文中网络引文（P-W型网络引文）的历年和总体可追溯情况、不可追溯的原因，以及网络引文的可追溯率与网站域名、网页格式、网页语种、页面类型与网址深度间的关系进行实证分析。认为强化网络信息资源的存档工作、加大网站的维护力度、审慎地选择网络信息源是提升网络引文可追溯率的有效举措。

〔关键词〕网络引文可追溯性图书馆学期刊

信息技术的发展、互联网的普及和网络信息资源的激增使人们的信息获取途径和学术交流方式发生了巨变。随着互联网逐渐成为重要的学术信息源，越来越多的网络信息被直接应用于学术研究，从而使著录内容中含有网址（URL）的网络引文广泛出现在学术文献中。

可追溯性是网络引文应具备的基本特征之一，即读者根据引文条目中的著录信息可获得引文的内容。一般认为，若引文中著录的URL所指向的页面能正常打开（包括自动重定向至新网址后能正常打开），且其内容未发生变化，则该引文是可追溯的；否则即为不可追溯。由于网络信息的生命周期较短，导致网络引文的可追溯性弱于传统引文。不可追溯的网络引文不仅丧失了参考价值，也令引证文献的可信度大为削弱。测定网络引文的可追溯性可以评估网络信息的学术参考功能，使研究者知晓引用网络信息的风险。

目前，图书情报学期刊论文中网络引文的数量、类型、分布及其整体可追溯性已受到国内外学者的普遍关注，但从更细维度、更深层面探讨网络引文的可追溯性的研究尚不多见。丁俊达和杨思洛[1]利用软件检测了我国2005-2010年间图书情报学期刊中不同格式、域名的网络引文的可追溯性。张丽敏和王平[2]就我国情报学科研人员引证网络引文的总体可追溯情况以及不同域名、网页类型、URL深度的网络引文与可追溯性间的关系进行实证分析。朱莹和望俊成[3]计算了中文图书情报领域核心期刊的网络引文的半衰期，探索其年际数量变化以及域名、深度与其衰减规律的联系。但上述研究存在统计时段偏早、分析角度较少、过分依赖软件工具等缺陷。从网络引文的格式、域名、语种、页面类型的分布出发，分析不同维度下网络引文的可追溯性，有利于更全面、深入地了解网络信息的可追溯性和变更频率，为图书馆学研究者有选择地搜索、利用网络信息资源提供指导，使网络信息更好地服务于研究。

1　数据来源及处理过程

笔者在图书馆学领域选择四种中文期刊：《中国图书馆学报》、《大学图书馆学报》、《图书情报工作》（上半月刊）和《图书馆杂志》。四者均为CSSCI源刊，在本学科领域内具有较强的学术影响力；其出版发行周期各异，且在统计时段内无变化；引文著录格式相对规范，内容较完整，便于验证网络引文的可追溯性。

笔者首先利用中国社会科学引文索引数据库获取四种期刊2009-2013年间所刊载论文的全部引文信息（下载所得的参考文献已自动去重）。为避免遗漏网络引文，笔者登录万方数据库，浏览相应文献记录下的“参考文献”栏目，进行人工检查。共得到网络引文15221条，其基本信息见表1、表2。

表1　网络引文的期刊分布情况

表2　网络引文的年度分布情况

统计说明：

（1）编务文章、新闻简讯、讲话报告、讲座记录、转载文章、通知公告等不纳入统计范围。（2）如某文多次引用同一网络引文，不重复计算。但若同一网络引文出现在多篇文章中，则重复计算。（3）注明来源网址但访问日期缺失的引文，仍视为网络引文。（4）若某文中多条网络引文的URL相同，仅说明文字不同，仍视为同一引文。（5）统计范围仅限于参考文献中的网络引文。鉴于脚注中的网络引文很少且著录欠完整，故未作统计。

在获取统计时段内所有网络引文的基础上，笔者选用网站链接分析软件Web Link Validator中文版之1.1版检测网络引文的可追溯性[4]。以篇为单位，将网络引文的URL分批导入软件（软件会自动对URL执行去重，一次性导入所有URL将使出现在不同论文中的同一网络引文被删除；且软件单次至多可检测500个URL），之后选择“验证”功能项进行检测。检测完成后，对于不可追溯的URL，依据其错误类型进行分类统计。

检测中，有少数URL的访问错误类型显示为“Unidentified Error（未识别错误）”。为了解具体的错误类型，笔者使用该软件英文版之5.7版对这些URL再行检测[5]。但受其功能所限，检测时只能逐个输入URL进行验证。对于状态码显示为“200 OK”的URL，则在浏览器中再次打开，以判断页面内容是否发生改变。最终确定各年度内可追溯的网络引文总数，并按网站域名、网页格式、来源页类型、URL深度分别统计出网络引文的可追溯数量。检测时间为2014年6月2日至30日。

2　网络引文可追溯性的总体情况

2.1网络引文的历年可追溯率

图1　网络引文可追溯率的历年总体情况（2009-2013年）

统计显示，2009-2013年间，四种期刊中网络引文的总体可追溯率为66.9%，与国外图书情报学期刊网络引文64%-69%的可追溯率基本持平[6-7]。总体而言，各刊网络引文的可追溯率基本呈逐年上升趋势，且彼此间差距不大。总体可追溯率从2009年的55.4%涨至2013年的78%，年均增长8.9%；其中2010-2011年间增幅较小，而2011-2012年间增幅较大。网络引文的可追溯率以《图书情报工作》最高，达70.7%；《中国图书馆学报》次之，为67.4%；《大学图书馆学报》和《图书馆杂志》则均在62%左右。如图1所示，四者2009年刊载的论文中，仍可追溯的网络引文均超过半数。考虑到从作者引用网络信息到文章发表历时1年左右，加之相应信息的上线时间更早，笔者推断四种期刊网络引文的半衰期都不小于6年，《中国图书馆学报》、《图书情报工作》的网络引文的半衰期还要更长一些。而据国外多份研究报告显示，网页的平均寿命估计仅为44-100天[8]。可见，上述论文中所引网络信息的生命周期明显长于普通网络信息，且稳定性较好。

2.2网络引文不可追溯的原因

不可追溯的网络引文多数表现为其URL指向的网页无法访问。对于未能成功访问的URL，Web Link Validator软件返回的错误类型如表3所示。

表3　网络引文访问错误的类型

注：“其它”包括无效的服务器响应、此文档/资源当前不可用、网站已停止服务、错误的请求、MySQL语法错误、未识别的参数等错误。因为总数甚少，文章不予讨论。

由表3可知，网络引文的访问错误高度集中于一种错误——页面/文档未找到（Not Found），即服务器找不到请求的网页或文档，其数量占到错误总数（不含页面内容改变）的87.5%。主要原因是服务器删除了网页，或网页位置发生变更却未提供自动重定向机制。此外，URL输入有误亦可造成该错误的产生。考虑到部分网站服务器对未找到的URL执行了自动重定向至首页或其它页面的操作，该错误的实际数量应多于统计数量。笔者还发现，URL检测软件通常将该错误定义为“所请求的网页已消失”，而不包括重定向至404错误页面和页面尚存而其中的文档已不存在等情况。因此，较之完全基于软件检测的同类研究，本研究中该错误所占的比例明显更高。

其余错误为数稀少且分布零散。其中数量最多的是“无法连接（数据库连接失败）”。这表明互联网信息服务（IIS）未启动或无法从访问端取得服务，以致在设定的时间内未收到来自服务器的任何响应，其实质是客户端无法与服务器建立连接。此错误的产生原因主要是网络连通性差，以及服务器或网关故障。当欲连接到的 Internet 服务器不存在或代理服务器上有多个默认网关且这些网关位于互不连接的网络上时，也可能出现此错误。“连接已重置”的出现次数居第三，表明目标网站的并发连接数较多，超出网站服务器处理能力或设置的连接数上限。该错误亦可见于访问某些遭人为封禁的网站（如Facebook、YouTube）。

网络引文不可追溯的另一种情况是：部分网页的URL虽未改变，但其内容较作者引用时发生变化。不可追溯的网络引文中约有17%属于这类网页。内容改变主要分为三种情况：因域名到期导致主机名（网站）改变、因网站维护导致网页内容更新、因网站结构布局调整导致页面主题改变。统计显示，在内容发生改变的网络引文中，com域名最为普遍，占总数的31.3%。这反映出商业类信息的动态性强，更新相对频繁。Edu和org域名的网络引文中，内容发生改变的也较多，分别占23.5%和22.6%。这显然与全球教育、科研事业发展迅猛、成果显著有关。

3　不同域名、格式、语种、页面类型、深度下网络引文的可追溯率

3.1网络引文的可追溯率与域名的关系

网络引文的可追溯率与域名的关系揭示了不同网络信息源的信息稳定程度。不同域名的网络引文，其可追溯率如图2所示。

图2　不同域名网络引文的可追溯率

由图2可见，ac、org域名的网络引文拥有最高的可追溯率，达70%左右，可见学术、科研机构的网站是研究者们值得信赖的信息源，这与屈卫群等人[9]的研究结果一致。虽然商业网站的信息往往被认为缺乏严肃性、真实性，但检测结果表明com域名的网络引文可追溯率稍逊于ac、org域名，而明显高过政府部门、教育机构等非盈利机构网站所使用的gov、edu等域名。这既与商业网站的运营管理人员重视网络营销、勤于网站维护有关，同时亦表明图书馆学学者在利用网络信息时对商业类网络信息源进行了审慎的鉴别和筛选，内容稳定性较好的门户网站、博客平台、网络百科更受青睐。令人遗憾的是，gov域名的网络引文的可追溯率仅为50.3%，衰减最为迅速，且能自动重定向的URL数量很少。这严重影响了政府信息公开的力度与绩效，制约着电子政务事业的发展。此外，edu域名的可追溯率也低于平均水平，原因可能是新的信息和研究成果迅速涌现，网站更新时旧的网页、文档被更新或替换。由此看来，拥有大量权威、可靠的信息资源的政府部门、教育机构亟需加强对其网站及站内内容、链接的维护。3.2网络引文的可追溯率与网页格式的关系

笔者根据网页后缀，将网络引文分为静态类网络引文、动态类网络引文以及无后缀名的网络引文。不同格式的网络引文，其可追溯率如表4所示。

表4　不同格式网络引文的可追溯性

由表4可知，无后缀名子页的整体可追溯率最高，静态网页次之，动态网页最低。原因可能是无后缀名子页的开发过程中通常使用了URL重写技术，将网页的实际访问路径隐藏，而代之以自定义的、较为简短易记的URL，以提升网站内容的安全性。当实际访问路径发生改变时，重写的URL不必随之改变。静态网页中，shtml/shtm/stm格式（使用服务器端包含技术的html）的网页的可追溯率明显高出其它格式。使用该格式的网页能不断更新自身的信息，以保证浏览器显示的是该页面的最新版本，而不必删除旧网页，新闻网站等内容更新非常频繁的网站常使用这种格式。它虽属于静态网页，却能呈现动态效果，兼有静态、动态网页之长，已逐渐得到网站开发者的青睐。有理由相信，将shtml格式更多地应用于网页制作，有助于延长网页的生命周期，提升网络引文的可追溯率。其余格式的静态网络引文可追溯率则基本相同。动态网页的信息显示依赖于网页与后台数据库的交互以及数据传递，一旦后台数据库的结构发生改变即无法访问，且动态网页的URL中通常含有较多参数或特殊字符，解析较为困难，也降低了其可追溯率。但不同格式的动态网络引文可追溯率差别不大，php、cfm格式相对较高。3.3网络引文的可追溯率与语种的关系

笔者将网络引文分为中文、外文网络引文。不同语种的网络引文，其可追溯率见图3。

图3　中、外文网络引文的可追溯性

如图3所示，外文网络引文各年度的可追溯率均高于中文网络引文7-16个百分点。这得益于其更多地利用了自动重定向机制，在可追溯的外文网络引文中，URL自动重定向的引文占17.5%，而中文网络引文中该比例仅为7.7%。同时错误种类也稍多，表明其错误的分布更加分散。但两者的主要错误类型相同，数量居前两位的错误均为“页面/文档未找到”和“无法连接（数据库连接失败）”。此外，外文网络引文中，内容发生改变者所占比例更大。以上表明，与国外相比，我国网站管理人员的网站维护意识还有待加强，对网站结构、内容的稳定性也不够重视。网站管理人员应定期检测网站的内、外链，不轻易调整网站结构，并尽量减少网页地址的变更和网站内容的迁移。

3.4网络引文的可追溯率与页面类型的关系

笔者根据网络引文所指向页面在网站中的层级，将网络引文分为来自主页、来自子页和来自下载链接页三类。由图4可见，各年度内，主页的可追溯率均明显高于子页和下载链接页。其原因在于，只要网站不发生服务器迁移或停止运营的情况，其主页一般不会消亡。子页的整体可追溯率又略高于下载链接页。这可能与后者多为会议论文、研究报告等学术文献，超出某一时限后即被网站方删除或迁移至新地址有关。除此之外，下载链接页的URL深度通常较大，也使其可追溯率受到一定影响。下载链接页中的信息具有较高的学术价值，而可追溯率却较低，说明大量宝贵的学术信息和研究成果随时间流失。这无疑使图书馆学研究遭受不小的损失。

图4　不同页面类型网络引文的可追溯性

3.5网络引文的可追溯率与URL深度的关系

笔者按照URL的深度，分别统计不同深度下网络引文的可追溯率。文章考察的网络引文的URL深度介于0-14间。因深度6以上的URL数量较少，在此一并统计。具体情况见图5。

图5　随URL深度变化的网络引文的可追溯性

Spinellis[10]认为随着URL深度的增加，网络引文不可追溯的可能性逐渐加大。其原因在于：URL越长，其中元素的变更概率越大；URL越短则越易于被人们识记和引用，从而促使网页提供者保存该网页。本处的统计结果与该结论基本契合。图5中，除主页外，其余页面的URL深度与可追溯率呈现弱相关关系，即随着URL层级的增加，网页的可追溯率有所降低，但并非呈持续下降趋势。总体而论，网络引文的可追溯率随URL深度增加而逐渐下降。但当深度为4和6时，引文的可追溯率均有明显回升，深度为4的网络引文可追溯率在所有深度的引文中甚至位居第二，其原因有待探讨。

4　结论与思考

由表2可见，四种图书馆学期刊所载论文中，含有网络引文的论文占论文总数之比、网络引文占引文总数之比、篇均网络引文数均呈上升趋势。这说明网络信息资源已得到我国图书馆学界的广泛认可和使用。但历经数年后，相当一部分网络引文（包括一些发表年代较早但被引率颇高的经典论文）已经不可追溯，这对于研究者而言无疑是一大憾事。

如前所述，网络引文不可追溯的主要原因在于网站迁移或停止运营而导致的页面和文档消失。有鉴于此，以信息资源的收集、保存与管理为核心职责之一的图书馆、档案馆亟待强化对具有较高参考价值的网络资源（如博文、维基、开放存取学术资源）的存档。20世纪90年代以来，许多国家开展了网络信息保存实验项目，其中代表性的有美国的Internet Archive、澳大利亚的PANDORA等。我国国家图书馆也于2003年开展了网络信息资源采集与保存实验项目（WICP），北京大学计算机网络与分布式系统实验室开发了中国网页历史信息存储与展示系统“中国Web 信息博物馆”[11]。但当前网络信息的保存仍滞后于网络信息的高速增长。图书馆、档案馆应制订和完善网络信息采集方案，确定采集范围、频率和策略，择用合适的技术手段建设网络资源存档网站或中心，并提供信息检索服务，以满足各种学术、商业与个人用途。在此过程中，尤须注意对网络信息版权的处理。国内相关管理部门应借鉴有关国际经验，在《公共图书馆法》、《著作权法》等法规中就网络信息存档的主体、存档的原则与标准、版权人的认定、存档的授权许可机制、存档资源的访问和获取、合理使用原则的适用情况等方面作出规定或补充，协调创作者、网站方、保存者、使用者等各方利益，妥善应对可能产生的版权纠纷，减少相应风险；还可考虑通过制订、签署多边条约等方式为国外网络信息的存档扫除障碍。同时，完善现有的出版物呈缴制度，将网页纳入电子出版物呈缴的范围，以保障该项工作的稳步推进。

首先，网站管理可以为改善网络引文的可追溯性发挥重要作用。网站改版时，只要主页地址未变，网站管理与维护人员应通过自动重定向机制将用户引导至新网址而无需另行搜索；或者向用户指明欲访问内容所在的栏目，以便用户查找、获取所需信息。这样即可有效抑制“页面/文档未找到”错误的产生。此外，定期检测网址链接，及时清除死链、修复坏链也颇为必要。值得一提的是，政府部门、教育机构和研究机构尤应重视其网站历史页面的存档工作，对URL未变而页面内容有所更新的网页应提供其不同时期历史版本的快照链接，同时向承担网络信息存档职责的图书馆、档案馆定期提交这些历史页面，使用户能在较长时间内利用其发布的学术价值较高的网络信息。此外，“无法连接”和“连接已重置”这两种错误的出现频次也相对稍多，其原因往往在于服务器发生故障或处理能力不足。由此可见，网站管理对网站服务器进行持续性维护和升级是改善网络引文可追溯性的又一重要手段。

再次，研究者利用网络信息的习惯也会对网络引文的可追溯性有所影响。统计表明，深度在7以上的引文可追溯率较低，URL中含有多个参数或特殊字符的网页（多为动态网页）也难以追溯，因此研究者应尽可能谨慎使用URL深度过大、所含参数过多的网络引文。此外，研究者有必要树立“参考文献再利用”的意识，重视网络信息的稳定性，尽可能地了解本领域内信息丰富、权威、可信且网站运营相对稳定、维护得力的网络信息源，选用其中的信息作为参考，以便自己和他人日后查考、引证之用。

最后，极少数网络引文可能因作者著录不规范（如缺少网站名）、出错（如漏、误输字母和符号）或编排、印刷环节之误而导致不可追溯，但实际上通过原网址仍可访问。若作者在提交论文时仔细核对引文著录内容，编辑人员在审稿、编排时注意核实引文来源，当可有助于网络引文可追溯率的提升。

网络引文所指向的网络信息资源是人类文化遗产的一部分。笔者认为，一方面，提升图书馆学乃至其它学科期刊论文中网络引文的可追溯率，有赖于作者、编辑、读者、网站管理人员的共同努力。另一方面，图书馆等公共机构也需广泛开展网络资源存档项目，并建立健全合作、协调机制。唯有多措并举、多管齐下，方能切实保障这些资源为广大研究人员长期利用，充分发掘其内在价值。

（来稿时间：2014年10月）

参考文献：

1.丁敬达，杨思洛. 国内图书情报学期刊网络引文的类型、分布与可追溯性分析. 图书情报工作，2012（24）：60-64

2.张丽敏，王平. 基于P-W型网络引文引证可追溯性研究. 情报杂志，2012（7）：61-65

3.朱莹，望俊成. 情报学领域网络引文衰减规律研究——以三种核心期刊为例. 情报科学，2010（5）：699-704

4.Web Link Validator 1.1. [2014-08-18]. http://www.hanzify. org/software/368.html

5.Download Web Link Validator.[2014-08-15]. http://www. relsoftware.com/wlv/ downloads/

6.Ali Sadat-Moosavi, etc. Accessibility of online resources cited in scholarly LIS journals: A study of Emerald ISI-ranked journals. Aslib Proceedings, 2012(2): 178-192

7.Dion Hoe-Lian Goh, Peng Kin Ng. Link Decay in Leading Information Science Journals. Journal of the American Society for Information Science and Technology, 2007(1): 15-24

8.The Library of Congress. The Average Lifespan of a Webpage. [2014-07-28]. http://blogs.loc.gov/digitalpreservation/ 2011/11/ the-average-lifespan-of-a-webpage/

9.屈卫群，姚小娇，魏丹等. 网络引文量及其可获取性的调查与分析. 情报杂志，2008（12）：112-114

10. Spinellis, D. The decay and failures of Web references. Communications of the ACM, 2003 (1): 1-77

11.刘青，孔凡莲. 中国网络信息存档及其与国外的比较——基于国家图书馆WICP项目的研究. 图书情报工作，2013（18）：80-86，93

〔分类号〕G203

〔作者简介〕庄晓喆（1989- ），男，武汉大学信息管理学院2013级博士研究生，研究方向：知识组织与知识管理。

An Investigation of the Availability of Web Citations in Chinese Library Science Journals——Taking Four Core Journals as an Example

Zhuang Xiaozhe
( School of Information Management, Wuhan University )

〔Abstract〕As web citation becomes an important component in references under the network environment that availability has received increasing attention. Choosing four core library science journals in China published between 2009 and 2013, this study takes an empirical analysis of their web citations (P-W web citation). The yearly as well as overall availability of web citations, the reasons for web citation’s unavailability, and the relations between web citations’availability and corresponding webpage’s domain, format, language, type and URL depth are explored. The study argues that strengthening the archiving of online information resources, improving the maintenance of websites, and selecting online information sources prudently are effective measures to increase the availability of web citations.

〔Key words 〕Web citationTraceabilityLibrary scienceJournal