信息抽取在图书馆资源建设中的应用
2015-05-30何冰纪元霞
何冰 纪元霞
摘要:随着信息技术的发展使图书馆的传统功能逐渐边缘化,提供更多的资源以及服务成为图书馆发展的一个方向。文章阐述了网络时代下的信息抽取的概念以及不同的抽取方式在图书馆资源建设中的应用。
关键词:信息抽取 资源建设 数据抓取
现代网络技术的发展在带来信息爆炸的同时,也使得图书馆一类的文化单位逐步被边缘化。在此环境之下,由更广泛的角度出发,开发出新的服务产品迫在眉睫。鉴于现今大多数网络信息资源是免费提供的,图书馆如何将这些免费的资源提取出来,有效整合并提供给读者就成为了一项新的任务。
1 信息抽取
信息抽取涉及到为从文本中选择出的信息创建一个结构化的表示形式[1],Web 信息抽取则可引申为: 从网页文本中抽取出指定的一类信息,并将其形成结构化数据的过程。
现有的web信息抽取技术主要有:基于自然语言处理方式的信息抽取,基于包装器归纳方式的信息抽取,基于Onlology方式的信息抽取,基于HTML结构的信息抽取,基于web查询的信息抽取。
1.1 基于自然语言处理的信息抽取
将文本分割成多个句子,对每个句子的成分进行标记,将语法结构依据事先定制的规则进行匹配,从而抽取所感兴趣的信息即为基于自然语言的信息抽取[2]。其中所用到的抽取规则指词或词类间的句法关系,此种抽取方法适用于对含有大量自由文本的网页信息的抽取。当然组成网页的这些文本须为完整且适合语法分析的句子。该种方法需要进行大量的样本学习,处理速度较慢,只适用于有针对性的个别网页信息的抽取。
1.2 基于包装器归纳方式的信息抽取
基于包装器归纳的信息抽取与前者的差别在于其文本匹配规则是利用归纳学习的方法生成的。首先由用户标记样本实例,然后应用机器学习方式对样本使用归纳算法生成基于定界符的抽取规则。其中定界符实质上是对感兴趣语义项上下文的描述,即根据语义项的左右边界来定位语义项。[3]该种方法较少依赖于全面的句子语法分析和分词等复杂的自然语言处理技术,更注重于文本结构和表现格式的分析。它充分利用了web文档独特于普通文本的层次特性。由于避免了使用复杂的语言学习知识,基于包装器归纳方法的信息抽取方法获得了更快的处理速度。但是这种方法中由于包装器对网页结构的依赖导致它的可重用性比较差。
1.3 基于HTML的信息抽取
基于HTML的信息抽取需通过对网页结构进行解析来获取信息。首先根据HTML代码的标识码进行结构定位,通过自动或半自动的方式产生抽取规则并进行信息抽取。该系统可对不同的区域类型采用不同抽取规则,提高了系统的灵活性和效率。但由于系统中对结构的划分主要取决于网页结构代码,所以这类系统适用于有明显区域结构的网页。
1.4 基于web查询的信息抽取
基于web查询的信息抽取通过使用标准的web查询语言对web文档进行查询。常用的有搜索引擎技术和web查询语言技术。搜索引擎技术应用非常广泛,但在信息搜集中要花费较多人力,且难以实现自动地对信息持续性的抽取。
2 信息抽取在图书馆资源建设中的应用
2.1 数据挖掘
图书馆资源建设过程中,可利用对自然语言文本进行模式识别和匹配的方法从数字文献及各种数据库中抽取信息。
通过这种方法自动建立在线数字文献的引文数据库,包括引用作者、引用作者的地址、引用论文的标题、关键字等等。其次,通过对元数据的标引可以生成文献代理帮助用户获取信息。[4]
通过数据挖掘的方法可以获取更多的网络资源,将这些资源分类组织以后就可以形成图书馆的专题库,从而可以更有针对性地为读者服务。
2.2 对开放存取期刊网站的信息抽取
近年来为了在有限经费的基础上为读者提供尽可能全面的文献资源服务,图书馆越来越重视对开放存取资源的利用。例如我馆于2012年就建立云南农业大学开放获取期刊平台,包含了44种中文期刊和630余种外文期刊以及其它网络开放获取资源。对开放获取资源的利用也是图书馆发展的趋势。
在对开放存取资源的利用中信息抽取可以在很大程度上帮助我们找到资源、组织资源。首先可以通过信息抽取的方法在网络中发掘更多的开放存取资源。其次,对于相对稳定的开放存取期刊的获取网站而言可以利用信息抽取的方法定期地从期刊网站中获取每期的期刊论文。在固定的期刊网站中抽取信息時适合于采用基于HTML和基于包装器的信息抽取方式。
2.3 对数据库信息的抽取
由于数据库的组织结构稳定性比较强,所以在对各种数据库进行数据抓取的过程中采用信息抽取技术也可以取得较好的效果。在各种信息抽取方式中宜采用基于包装器的方式。因为抽取对象结构变动小,包装器一旦形成可以长期使用。
3 信息抽取的应用系统
信息抽取在资源建设中更多的是和数据库系统一起使用。这样的系统不仅可以自动抓取数据建立数据库,还能对数据建立索引、统计和管理机制,利用数据库全文检索、数据分析、数据存储和管理功能,把复杂、海量的数据根据用户需求进行有效地组合,为用户提供优质、全面的数字资源。[5]
处理终端从Inter网上抓取信息以后按一定需求和规则进行数据处理,然后将处理完的数据存入数据库中提供给用户使用。服务器主要负责对数据处理终端进行管理。
利用信息抽取技术可以为图书馆数字信息的抓取提供很大的便利。也只有利用这样一些现代化的技术才能及时有效地抓取信息,为用户提供服务。
参考文献:
[1]GRISHMAN R. Information extraction: techniques and challenges[EB/OL].(1997)[2010-06-01].http://csnyu.edu/cs/faculty /grishman/proteus.html.
[2]李海健 王晓丰,web信息抽取的现状及未来展望[J].廊坊师范学院学报(自然科学版),2009,9(3).
[3]陈少飞,郝亚南,李天柱,徐林昊,杨文柱.web信息抽取技术研究进展[J].河北大学学报(自然科学版),2003,23(1).
[4]汪景梁,李波.网络环境下知识抽取的特点与应用前景[J].情报科学,2010,28(6).
[5]李锋,陶兰.国际互联网数据抓取系统和数据库存储系统介绍[A].Java技术及应用的进展——第八届中国Java技术及应用交流大会文集[C].