垂直搜索引擎的研究现状综述
2017-03-10宋金平马晓娟
宋金平 马晓娟
集宁师范学院计算机系
垂直搜索引擎的研究现状综述
宋金平 马晓娟
集宁师范学院计算机系
垂直搜索是针对某些特定应用、特定任务或者特定领域的结构化内容的搜索技术,是对Web信息中的某类专门的信息进行整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户的搜索方式。垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,针对某一特定领域、某一特定人群或某一特定需求,提供有一定价值的信息和相关服务。相比较通用搜索引擎的海量信息无序化,垂直搜索引擎更加专注、具体和深入。本文主要探讨垂直搜索引擎的研究现状。
垂直搜索;定向搜索;数据集成
1.1 基于主题的定向搜索
基于主题的定向搜索又叫主题信息采集,并不是一个新的研究课题,它针对的是某一具体的主题信息,主题信息采集试图去辨别与主题最相关的信息而舍弃那些不相关的信息,从而达到缩小信息采集范围、降低信息容量、减少系统开销和提高数据更新率的目的。同时,由于主题信息采集着重考虑被采集信息的主题,具有针对性强、专业性强的特点,从而能更好地满足建设特色信息资源,专业性较强的信息资源的需要。
1.2 深度Web的领域数据集成
互联网上的Web数据近年来呈爆炸式发展,就Web数据蕴含信息的“深度”来说,一般将其分为Surface Web和Deep Web两大部分,Surface Web通常是指通过Web上的HTTP超链接能够直接访问到的静态页面的集合,目前搜索引擎的工作基本集中在浅层Web上。而Deep Web指的是可以通过Web在线访问数据库的集合。Deep Web不仅规模巨大,覆盖了现实世界的所有主题,而且对Deep Web的访问量要高于Surface Web一半以上。对于Deep Web,即使是Google这样的搜索引擎,也仅仅只爬取了约5%的最新内容。对于Deep Web的研究主要是要解决如下的问题:
(1)发现并抽取:针对Deep Web数据的抽取方法一般而言有四类方法,第一种是基于字符串的方法,把整个网页文本看成线性的字符串,然后通过相应的方法归纳出对字符串中目标数据的抽取规则;第二种是基于DOM Tree的工具,将网页转换成DOM树,然后抽取出DOM树中相应数据;第三种是利用类似视觉信息或者Web页面脚本信息来进行页面信息抽取的方法;第四种是利用语义标注或者本体Ontology的方法。
(2)结构化集成:Deep Web同时被称为Web Database,大部分Deep Web的动态内容是由结构化的数据库底层提供的。由于Deep Web的数据规模过于庞杂,内涵的数据模式(schema)也是多种多样,对于Web底层数据的集成,是否结构和模式越多,数据所表现的特征就越“无结构化”。垂直搜索引擎面向的正是单个领域内的Deep Web数据,结构化处理相对简单。
(3)去除噪音和重复数据:在Crawler抓取网页,从中获取所需信息的同时,还会常常获取大量和本文所关心内容无关的“噪音”内容,有效的去除和网页主题内容无关的噪音内容,提取网页的元数据信息,如关键词、摘要、网页内容类别等,是Web信息处理的一项重要内容。在网页搜集的过程中,通过URL的MD5摘要计算,我们可以完全避免对相同的URL执行多次网页抓取过程。但这并不保证抓到系统中来的网页都是不同的。Web上大量的网页镜像和转载现象使得内容真正“独立的”网页要比实际搜集到的网页数量少很多。将相似的网页识别出来,当查询发生时只返回一个代表,这同样是整合Web数据时的重要工作。
1.3 垂直搜索系统的性能指标
数据采集和用户查询的效率是垂直搜索引擎系统至关重要的性能指标。垂直搜索引擎系统和传统的通用搜索引擎系统相似。这里有三个需要重视的要点:
(1)可以接受的时间
一般指垂直搜索引擎的响应时间,有研究指出,作为Web公共服务,大型搜索引擎的响应时间不应超过3秒,垂直搜索引擎由于返回的网页信息、列表与用户感兴趣的领域知识相关度较高,用户可以接受的系统响应时间也相对较长,但是响应时间也应保持在“秒”的量级,本文认为,一个高效的垂直搜索引擎系统响应时间不应超过5秒。
(2)最新领域内网页信息
垂直搜索引擎的信息和数据都是从互联网上采集并集成的,如何尽量保证这些信息数据是最新的,就要求垂直搜索引擎的信息采集系统数据采集是高效、增量式的。对于垂直搜索引擎来说,信息采集的效率非常重要,而采用怎样频度的“重新抓取”要取决于垂直搜索引擎所专注的领域。除新闻网站外,许多网页的内容变化并不是很经常的,这样做每次搜集的网页量不会很大。因此,与新闻相关的垂直搜索引擎可以提高“重新抓取”的频率,而与学术文章类相关的垂直搜索引擎可以相应降低“重新抓取”的频率。
(3)与用户查询匹配的有序列表
在传统的搜索引擎中,“与用户查询匹配”一般就是指网页包含用户查询的关键词。然而垂直搜索引擎由于数据源较为单一,数据与领域信息高度相关且高度集成,可以适当调整“与用户查询匹配”的定义,在一定的语义范围内,不包含用户查询关键词的网页或是数据条目也可以返回给用户,以自动扩展用户查询的语义。此时,我们需要一个完全不同的“用户查询匹配度”的排序方法,而且这个排序方法必须同时是高效的。
垂直搜索引擎面向的是海量的领域Web网页数据,与现代大规模、高性能的搜索引擎相同,采取三段式的工作流程,即网页数据采集、预处理和查询服务。
因此,高效的垂直搜索引擎必须具备以下的三个特征:
(1)具备高稳定性和高效率的数据采集模块。
(2)高效的解析和存储网页数据。
(3)高性能的用户查询模块提供快速的系统响应。
对于高性能的垂直搜索引擎来说,以上三个阶段的工作都应当是并行、分布式完成的,典型的枢架结构。
某个行业领域的历史发展、最新动向、趋势都是行业从业人员非常关注的话题。垂直搜索引擎集中了行业领域内海量的信息和数据,基于这些信息和数据的数据挖掘、智能分析以及可视化展示,将为行业创造非常有价值的信息增值服务。
[1]王文钧等,垂直搜索引擎的现状与发展研究[J].情报科学,2010(28):477-480
[2]杨皖苏等,垂直搜索引擎发展策略探讨[J].商业时代,2009(23):94-95
项目名称:基于云计算的教学资源垂直搜索研究,项目编号:NJZC14291,批准单位:内蒙古教育厅,姓名:宋金平,单位:集宁师范学院
项目名称:基于TCPN的SIP协议形式化验证与分析,项目编号:NJZY283,批准单位:内蒙古教育厅,姓名:马晓娟,单位:集宁师范学院