APP下载

垂直搜索引擎爬虫系统DIPRE算法及改进

2017-03-31赵君

软件导刊 2016年8期

赵君

摘 要:针对垂直搜索引擎中精确抽取网页中特定字段的问题,对DIPRE算法进行了研究和改进。阐述了DIPRE算法在垂直搜索引擎中的重要作用,探讨了DIPRE算法在抽取复杂结构网页时的不足,并提出了改进,包括种子定位方式,将单模匹配扩展成多模匹配并引入定位索引,再根据已有技术对改进后的算法进行了实验验证。结果表明,改进后的算法在精度和效率上都符合预期。

关键词关键词:垂直搜索引擎;DIPRE算法;种子定位;单模匹配;多模匹配;定位索引

DOIDOI:10.11907/rjdk.161451

中图分类号:TP312

文献标识码:A 文章编号:1672-7800(2016)008-0030-03

0 引言

垂直搜索引擎是针对某一特定领域、人群或需求提供的信息检索服务,因此垂直搜索引擎的爬虫(Spider)在抽取数据时应该具有相当的选择性。DIPRE(Dual Iterative Pattern Relation Extraction)是Google创始人之一Sergey Brin针对抽取互联网上特定格式或类型的数据而提出的一种算法,由于垂直搜索引擎具有较强的专业性和针对性,因而DIPRE算法在垂直搜索领域里具有较为广阔的应用前景,但随着Internet上的信息量呈指数级增长,网页结构越来越多样化,利用DIPRE算法抽取数据无论是在广度还是在精度上都已遇到瓶颈[1],如何在发挥DIPRE算法优势的基础上弥补其不足成为一个值得研究的问题。

3 实验结果

实验以某大型网上书城的图书信息为检索对象,包括作者、出版社、出版时间、版次、页数共5个字段,此5个字段之间不含噪声,是测试的理想之选。使用的服务器配置如表2所示。

以采集40万条数据为测试目标,采用两种算法的爬虫检索性能情况如表3所示。

通过抽样检测,以上检索的ER值均低于10%。根据表3绘制出性能对比图,如图4所示。

由式(3)、式(5)和图4可知,爬虫检索页面时间和页面数量呈线性关系,其中采用传统DIPRE算法的斜率为t1+α·β·t2,采用改进后算法的斜率为t1+α·γ·t2;改进后算法的效率要略低于原算法,即γ值要大于β值。

4 结语

本文对DIPRE算法进行了扩展和改进,将原算法中的单模模式扩展成多模模式,同时引入定位索引,使得改进后的算法具有很强的实用性和可扩展性。实验结果表明,改进后算法的性能曲线斜率要比原算法的大,效率比原算法低,这是因为||过小导致无法有效过滤数据,使得L远大于R中字段数量,爬虫检索了很多无效值,降低了检索效率。在后续改进中,重点在于降低式(5)中的值,即L的值,这就必须使||达到一个合理的范围,图2中阐述的前后綴延伸方法是个不错的解决方案,如何控制延伸的程度则是后续研究的主要内容。

参考文献:

[1]OREN KURLAND,LILLIAN LEE.PageRank without hyperlinks[J].ACM Transactions on Information Systems (TOIS),2010,28(4):1-38.

[2]LIU GUI-MEI.An adaptive improvement on PageRank algorithm[J].Applied Mathematics:A Journal of Chinese Universities(Series B),2013,28(1):17-26.

[3]GHOLAM R AMIN,ALI EMROUZNEJAD.Optimizing search engines results using linear programming[J].Expert Systems With Applications,2011,38(9):11534-11537.

[4]LIN LI,GUANDONG XU,YANCHUN ZHANG,et al.Random walk based rank aggregation to improving web search[J].Knowledge-Based Systems,2011,24(7):943-951.

[5]E GARCIA,F PEDROCHE,M ROMANCE.On the localization of the personalized PageRank of complex networks[J]. Linear Algebra and Its Applications,2013,439(3):640-652.

[6]SHAYAN A,TABRIZI,AZADEH SHAKERY,et al.Personalized pagerank clustering:a graph clustering algorithm based on random walks[J].Physica A:Statistical Mechanics and its Applications,2013,12(5):15-24.

[7]ALEXGOH KWANG LENG,P RAVI KUMAR,ASHUTOSHKUMAR SINGH,et al.Link-Based spam algorithms in adversarial information retrieval[J].Cybernetics and Systems,2012,43(6):459-475.

[8]LI LIAN,ZHU AI HONG,SU TAO.An improved text similarity calculation algorithm based on vsm[J].Advanced Materials Research,2011,1250(225):1105-1108.

[9]LI MIN,ZHAO JUN.Research and design of the crawler system in a vertical search engine[C].Guilin:In Proceedings of the 2010 International Conference on Intelligent Computing and Integrated Systems,2010:790-792.

[10]EVANTHIA E TRIPOLITI,DIMITRIOS I FOTIADIS,GEORGE MANIS.Modifications of the construction and voting mechanisms of the random forests algorithm[J].Data & Knowledge Engineering,2013,87(7):112-118.

[11]柳厅文,孙永,卜东波,等.正则表达式分组的1/(1-1/k)-近似算法[J].软件学报,2012,23(9):2261-2272.

(责任编辑:孙 娟)