RSS技术在图书馆网络信息采集与服务中的应用
2013-08-15屈健民
屈健民
(承德石油高等专科学校信息中心,河北承德 067000)
随着2004、2005年博客(Blog)热在国内的升温,RSS也吸引了不少国人的眼球,可以说,Blog的流行从一个侧面成就了RSS的流行。RSS在内容发布和信息集成方面的优越性,使其迅速突破最初的新闻和博客领域,开始在信息服务相关行业拓展,目前许多网站已加入RSS技术。因而尝试将RSS技术引入图书馆网络信息采集和网络信息服务工作中,有着积极的现实意义。
1 RSS的技术特点及功能
RSS(Really Simple Syndication、Rich Site Summary或者RDF Site Summary)是一种描述和同步网站内容的格式,是目前使用最广泛的XML应用。所有的RSS文件(RSS feeds)都必须符合由W3C发布的XML1.0规范。网站发布一个RSS文件后,这个RSS Feed中包含的信息就能直接被其他站点调用,而且由于这些数据都是标准的XML格式,所以也能在其他的终端和服务中使用。也就是说,RSS就是一种用来分发和汇集网页内容的XML格式,是站点用来和其他站点之间共享内容的一种简易方式(也叫聚合内容)。从用户角度说,RSS又是一种渐渐风行的浏览访问网站的方式,用户不必登录实际的网络站点就可以看到要浏览网站内容的及时更新。这种浏览方式需要“RSS阅读器”软件来阅读用户订购的内容。
在描述方式上,RSS将网站看作一系列频道(Channels)的组合,各个频道又包含了一系列资源(I-tems),因此通过对频道及所含资源的描述可实现对作为资源集合的网站的描述[2]。这个利用RSS元素描述的网站内容汇总文件称为一个RSS Feed,它由内容提供者的网站发布,再由内容整合者的网站(也称“门户”)或独立的桌面工具(聚合工具)使用。可见,RSS最基本的功能就是信息聚合和信息推送,具有如下特点:
1)简单、标准、通用、容易自动生成。服务器端内容的RSS包装在技术实现上极为简单,RSS Feed可人工生成,也可自动生成,而且是一次性的工作,使长期的信息发布边际成本几乎降为零,是传统的电子邮件、卫星传输、互联网浏览等发布方式所无法比拟的[3]。
2)预防垃圾信息,便于本地管理。RSS用户端阅读器软件的特点是完全由用户根据自身喜好以“频道”的形式订阅值得信任的内容来源,如“人民日报中文新闻”、“中国汽车网学车用车”等等。RSS阅读器软件完全屏蔽掉用户没有订阅的内容以及弹出广告、图片、垃圾邮件等令人困扰的噪音内容。此外,对下载到阅读器软件本地的RSS信息,用户可以进行离线阅读、存档保留、搜索排序、相关分类等多种管理操作,使阅读器软件不仅是一个“阅读”器,更是一个用户桌面的“信息资源库”。
3)信息“聚合”,真正实现个性化阅读。因为RSS是一种被广泛采用的内容包装定义格式,所以任何内容源都可以采用这种方式来发布信息,包括专业新闻站点、电子商务站点、企业站点、甚至个人站点等。而在用户端,RSS阅读器软件的作用就是使用户可以根据需要有选择性地加入多个定制的RSS提要将用户感兴趣的内容来源“聚合”到该软件的界面中,为用户提供多来源信息的“一站式”服务[4]。
4)信息的高时效性和价值。RSS阅读器自动更新你定制的网站内容,保持信息的及时性。RSS技术秉承“推”信息的概念,当新内容在服务器数据库中出现时,第一时间被“推”到用户端阅读器中,极大地提高了信息的时效性和价值[5]。
2 RSS应用现状
RSS搭建了信息迅速传播的一个技术平台,使得每个人都成为潜在的信息提供者。由于RSS的开放、灵活等众多优点,使其最初在新闻聚合(NewsAggregation)、网站联合、博客等领域中得到了广泛的应用。随着越来越多的站点对RSS的支持,RSS已经成为目前最成功的XML应用。在国外RSS应用已经非常普遍,从个人博客(Blog)栏目、企业站点到世界级的门户都提供基于RSS的服务,如IBM公司站点的中文新闻 RSS http://www.ibm.com/news/cn/zh/index.rss,YAHOO 站点的 http://news.yahoo.com/rss,微软 MSDN 站点的 http://msdn.microsoft.com/aboutmsdn/rss.asp 等等。
RSS的发展还可以在电子商务中发挥作用。如eBay、Amazon、SecondhandMarket等,用户可对自己感兴趣的商品进行定制,并且随时掌握最新标价等更新信息,一旦完成交易这个信息也就随之失效。早在2003年3月,在线超市亚马逊(Amazon.com)就开始在其站点上推出数百个个性化的RSS提要,以供电子商务顾客使用。
除了较为常见的新闻网站、企业网站之外,许多科技网站也提供RSS Feed来发布最新消息,如美国物理研究所(The American Institute of Physics)、加拿大UBC生物信息学中心(UBC Bioinformatics Centre)[6]等。
目前,RSS技术在图书馆的应用也越来越广泛。国外很多图书馆网站已经提供RSS Feed功能,如休斯敦大学图书馆UH Library Updates、芝加哥图书馆Chi Lib Rocks!、乔治亚州大学图书馆Library News等。国内某些图书馆网站也开始尝试提供RSS Feed功能,如中国科学院国家科学数字图书馆、厦门大学图书馆[7]等。
3 RSS在图书馆网络信息采集和网络信息服务中的应用
3.1 基于RSS的图书馆网络信息采集
随着现代化技术的运用以及信息的多元化发展,使图书馆文献采访工作发生了巨大变化,采访渠道越来越宽,信息类型越来越多,使采访的难度增加了。除传统的纸本文献、网上电子图书、电子期刊外,图书馆还要整合网络资源,搜集网上有价值的信息,建立学科导航库(或叫学科信息门户)。RSS的信息聚合功能为我们这方面的工作带来了巨大的便利。
3.1.1 基于RSS网络信息采集的技术实现
在信息采集的过程中,需要支持RSS的聚合工具软件来订阅那些提供了RSS Feed的站点。RSS聚合工具可选用开放的RSS阅读器(也称聚合器),目前应用较多的如SharpReader、NewzCrawler、FeedDemon等,这些软件对非商业应用或个人一般是免费的;也可以采用支持RSS的任何语言(如Java、PHP、Perl、ASP和C#)来编写简单的脚本,根据需要开发自己的RSS信息聚合器,这方面可参考的例子很多,实现起来较简单,如 O'ReillyXML.com(http://www.xml.com/pub/a/2002/05/22/parsing.html?page=2)提供了一个用 Java 写的示例;在 Developer.com(http://www.developer.com/xml/article.php/3113931)提供了一个使用PHP、MySQL数据库服务器和MagpieRSSparser来实现的示例[8]。有了信息聚合工具后,添加和设定一些RSS feed链接,来获取各网站RSS feed并提取数据,将其进行内容过滤、分类并存入数据库中,然后再将数据库中的信息根据需要组织成各种数据源提供各种形式的信息服务。
3.1.2 对某些专业性强的领域进行知识过滤和积累
有些提供RSS服务的网站(包括博客、信息门户等)的学术性比较强,内容一般聚焦在某个主题领域,它所收集的信息一般是经过专家的过滤筛选而来,因而对图书馆有很大的采集价值,使“隐性知识”真正通过网络实现“显性”化。如国家科学数字图书馆,它拥有比较权威的关于图书情报学科的各类新闻、研究进展等信息,并且在它的网站上提供了 RSS Feed(http:∥www.csdl.ac.cn/weblog/index.rdf),我们可以在自己图书馆的网站上使用这些RSS服务。如果以这种方式对高校的重点学科进行信息积累,一定会深化图书馆的特色服务[9]。
3.1.3 网络信息资源聚合
搜集本图书馆关注的信息,如用RSS信息聚合器定制各学科信息门户网站、图书馆系统、文献情报系统网站及其相关网站以获得最新信息。
3.2 基于RSS的图书馆网络信息服务
3.2.1 服务器端技术实现
网络信息服务指基于Internet上及本网站的数字资源,借助计算机网络,针对广大图书馆网上用户的一种服务方式。图书馆需要将各种网络信息资源以频道方式在服务器端提供动态的RSS feed供用户订阅。首先要制作和保存RSS feed:RSSfeed可人工生成,方法是创建RSS文件并保存在网站中的某个位置。一个RSS文件就是一段规范的XML数据,该文件一般以rss、xml或者rdf作为后缀。它通常由4个主要元素构成:<channel>,<image>,<item>和<textinput>。其中,<channel>元素是必需的,<item>元素至少要出现一次。<textinput>和<image>元素是可选的,是否使用要视具体情况而定。也有许多工具和网上服务可以根据网站现有的内容来自动生成RSSfeed,如由SixApart’s制作的一个功能强大的个性化的发布系统MovableType(对个人和非商业网站基本上是免费的)。其次要验证并发布生成的RSS文件,网上有许多RSS验证工具,如OnlineRSS0.9xValidator和OnlineRSS1.0Validator可以实现RSS的验证;另外还要在网站上宣传并推广本网站的RSS feed,以通用的RSS图标提醒用户注意和订阅RSS feed。
3.2.2 客户端信息的接收
对于客户端来说,使用RSS获取信息前,需先下载并安装一个RSS阅读器,然后将感兴趣的提供RSS服务的网站加入到RSS阅读器的频道即可。图书馆网站可提供RSS阅读器下载,并预设图书馆的部分RSS频道。
3.2.3 基于RSS的网络信息服务内容及方式
基于RSS技术可以实现的网络信息服务主要有:
1)新闻、消息、最新资源发布:通过RSS feeds发布图书馆的各种通知如会议、培训、规则及开馆时间的变更等,以及新书(期刊)通报、试用数据库等,用户通过RSS订阅可以随时获取最新的信息。
2)信息推送:RSS诞生之初即被称为“推”技术,图书馆可以利用其实现信息的推送服务,结合信息的更新数量、更新频率和用户需求,确定推送信息的内容、推送频道的多寡和推送方式。如专题信息、最新发布的新闻、消息、最新资源等以及用户借阅信息如所借图书到期提醒、催还通知等,均可作为动态信息频道推送给用户,而用户不需要时时刻刻关注图书馆网站的内容更新,而只需登录RSS阅读器即可获得这些信息。
3)实现用户个性化信息定制及“一站式”服务:在客户端,用户利用RSS阅读器可以定制自己需要的、感兴趣的频道内容,实现个性化阅读;另外,在RSS对信息有效集成的基础上,用户只需通过一次订阅即只需在第一次使用时提出订阅请求,在今后的查询中不必次次订阅就可检索图书馆网站所提供的最新相关信息,从而实现“一站式”服务。
4)实现虚拟参考咨询等深层次服务:图书馆可以构建基于RSS技术的Blog空间,实现与用户之间的实时信息交流,提供虚拟参考咨询、课题查新、定题服务等。
4 与现有网络信息采集与服务方式的关系
图书馆引入RSS技术进行网络信息采集与服务,并不是要放弃现有的网络信息采集与服务方式,而是开拓新的工作方法和思路,传统的网络服务方式如E-mail、BBS、Chat等应视情况继续使用,各种方式相互补充、取长补短,共同实现我们所期望的功能。
[1]刘林.基于词语权重改进的朴素贝叶斯分类算法的研究与应用[D].广州:中山大学,2009.
[2]黄艳娟.基于RSS的图书馆个性化信息推送服务[J].情报科学,2006(7):1023-1026.
[3]宋邵辉.RSS技术在互联网上的应用[J].中国信息导报,2006(5):48-49.
[4]伍玉伟.RSS:网络信息“聚合”利器[J].现代情报,2006(2):221 -222.
[5]张会娥.基于RSS的科技信息聚合系统的设计和实现[J].现代图书情报技术,2005(7):60-63.
[6]孙彩杰.RSS技术发展及其在图书馆中的应用[J].现代图书情报技术,2006(6):83-85.
[7]吴振新.RSS元数据在门户网站建设中的应用[J].现代图书情报技术,2004(10):60-64.
[8]马国栋,朱濂.RSS技术在数字图书馆建设中的应用[J].图书馆学研究,2006(4):99-101.