以主题爬虫视角进行数字资源的建设探析
2014-10-29何钧雷
何钧雷
摘 要
作为数字图书馆建设的重要方面之一,数字资源建设可以利用主题爬虫对网络中所蕴含的数字资源进行自动化搜集。主题网络爬虫是主题搜索引擎的重要构成方面,本文以本体指导主题爬虫进行数字资源的建设,实验结果显示:以主题爬虫为基础进行数字资源建设具有一定的实用价值,但性能有待进一步提高。
【关键词】主题爬虫 数字资源 本体 建设
【关键词】主题爬虫 数字资源 本体 建设
数字资源在教育及科研等多个领域均具有举足轻重的作用,图书馆是教学及科研的信息中心,因此,数字资源建设也是数字图书馆建设的重要方面之一。万维网的推广与应用使其成为数字资源的主要来源之一,但是,由于其海量化、异构化、增长快速化、半结构化、动态更新化等特点,导致手动搜索数字资源变得越来越费时、费力,主题爬虫有效解决了这一问题。
1 主题爬虫的概念与分类
所谓的“主题爬虫”,指的是利用不同链接及爬取策略,从制定的主题资源入手,对各网页链接进行分析,并对主题相关度进行计算,去除同主题不相关的资源及信息,保存同主题相关度较高的资源,有选择性的爬取网页。理想情况下,好的主题爬虫可以准确分析网页主题相关度,因而运行效率更高、更准,可以快速搜索到用户所需资源。
根据不同的排序算法,可将主题网络爬虫分为三大类,即经典爬虫、语义爬虫、智能爬虫。其中,经典爬虫主要利用的是网页文本的内容、结构及两者相结合,对URLs 排序优先值进行计算,再进行降序排列;语义爬虫利用的是本体相似度对URLs 排序优先值进行计算,再进行降序排列;智能爬虫利用人工智能计算方式,对URLs排序优先值进行计算,再进行降序排列。
2 主题爬虫关键技术分析
2.1 爬行策略
主题爬虫搜索策略是按有规则的、预先安排好的方式对网页进行搜集,爬虫对网络节点爬行方式是按照一定的次序,有目的性地进行抓取,因而可使爬行方式更科学、目表更明确,且可以对爬行路线进行有效辨别及解析。整体而言,主题爬虫搜索策略包括两种,即宏观策略和微观策略。前者针对的是如何对数据库中的保存页面更新进行宏观分析、描述,爬虫周期性连续工作,由于页面获取数量及数据库资源的有限性,导致爬虫也需要周期性地抓取页面,其每循环一周期,就可对传统数据库信息进行获取和更新,且出去所有相同页面,对页面信息缺乏的予以补充,如此循环往复下,确保页面库所有数据尽可能为最新的信息,提高了系统查询功能的及时性与综合性;后者搜索策略偏重于对爬虫实际网页获取步骤进行研究,包括爬行规则、运行方式等。关键在于对爬虫路径及规则进行预先规定,确保爬虫可以根据预先设定的方式爬取网络节点,以便更好地对爬虫行为进行预测和控制,实现了爬虫效率的有效提升。对于多样化的搜索策略,其主要依赖于所设定的不同的爬行准则,各策略爬虫爬行目标网页并不一致,且爬行路径各不相同,通常结合多重因素的制约,寻找更有针对性的搜索策略。
2.2 获取网页
爬取网页是主题爬虫最先需要实现的操作,由于网页存在于网络多服务器上,因此,主题爬虫需要先对网页进行搜集。要想将网页从服务器上进行抓取,必须遵循网络相应的通信规则。应以HTTP超文本传输协议为依据,结合互联网通信原理完成,在网页解析时利用的是HTML语法进行分析,实现了网页的获取。
2.3 主题相关度
首先,需要从网页中对信息资源进行提取。在此过程中,主题爬虫系统预处理模块将HTML文本转换为数据流形式,并读入内存中,以所对应内容为依据,执行相应的操作过程,然后对 HTML网页的文本予以准确分析,获取正文文本以及超链接信息,为相关度分析提供了依据。例如,在超链接提取时,网页解析器先根据文件集合获取页面,对页面的类型予以判断,只处理“text/html”类型的页面;依次读取缓存数据流,一旦遇见等标记,将其URL链接记下,并提取为说明文字,用以解释该超链接;将保存的超链接进行格式处理;对URL锚文本进行存储,对网页相关度进行计算;链接提取完毕。
其次,需要进行中文分词。中文分词指的是将汉字序列进行有效切分,成为单独的词,此过程需要根据所设置规则,将连续性的字序重新结合为新词序列。分词算法主要包括三类,即根据字符串匹配与否进行分词算法、根据机器理解进行分词的算法、以人工统计为依据进行计算的分词算法。虽然分词算法已经十分成熟,但要想利用电脑实现中文分词并非易事,需要对歧义、新词进行识别,可利用3GWS分词系统来进行。
3 主题爬虫视角下数字资源的建设分析
鉴于传统以链接分析为基础的方法缺乏必要的语义分析,为此,应充分结合网页链接结构及其语义性,以本体为基础,对URL队列进行排序,以便为主题爬虫的搜索方法及基于主题爬虫基础上的数字资源建设提供指导。
3.1 本体结构
本体是指用于人、数据库及应用间信息的共享,不断加强人和计算机之间的相互协作,因而在诸如数字图书馆、信息检索等领域得到十分广泛的应用。计算机领域将本体定义为六元组O={C,AC,R,AR,H,X}。其中,C为概念的集合。AC代表多属性集合共同构成的集合,各属性集合分别对应某个概念。R为关系集合,AR指的是由多个属性集合共同构成的集合,其中各属性集合分别对应R中的某个关系。H代表概念相互之间存在的层次结构关系,X为公理集合。
本体的直接目标即获取,对相关领域的知识进行描述,提供对该知识的理解,对该领域都认可的词汇进行明确,并分别从各层次形式化模式上对此类术语及相互间的关系给出清晰的定义。对于语义网而言,本体属于核心元素,可用以对信息进行结构化,确保用户及计算机可以对所需信息进行访问,实现相互间的有效合作。由此可见,本体在网络交互、访问及通信中具有十分重要的作用,将本体思想充分应用于主题爬虫模型中,可以有效提高网页搜索与抓取的准确性。