APP下载

基于深度学习的网页主题爬虫的设计

2016-03-15袁优

课程教育研究·中 2016年1期
关键词:支持向量机深度学习

【摘要】网页主题爬虫能够从万维网中寻找从属于特定主题的网页,并对其中的关键词、段落和图像进行保存和索引。但在网页的表达形式、数量和内容都呈现爆发式增长的情况下,传统的基于关键字匹配的网页主题发现方法已经难以有效的为爬虫程序进行准确的主题识别,这对于搜索引擎建立有效的网页内容数据库和网页内容的话题分析等关键应用都是具大的挑战。提出一种基于深度学习的网页主题爬虫的设计,采用深度信念网络对由文字向量表示的网页内容进行概念表达,以此构建多层次的网页主题概念特征向量,并使用支持向量机模型在新的特征表达下对网页主题进行快速识别,有效提升了爬虫程序对网页主题的识别准确率。

【关键词】主题爬虫 深度学习 深度信念网络 向量空间模型 支持向量机

【Abstract】A foucsed crawler can detect the web pages belonging to certain topics through WWW as well as storing and indexing the key words, paragraphs and images in these web pages. However, currently the rapid growing of the quantities of formats and contents of web pages lead to a great challenge that the traditional topic discovery methods based on key words matching are ineffective for precise topic recognition, which also affect to the construction of web page database and topic detection of web page sessions. In this paper, we propose a design of focused crawler based on deep learning. In this method, a deep belief network is adopted to represent the potential concepts of web pages with different topics which are described as vector space model. The extracted concepts of a topic forms a feature vector which is used by a support vector machine to classify the topics of a new web page. The proposed method improves the recognition accuracy of web page topics.

【Keywords】focused crawler; deep learning; deep belief network; vector space model; support vector machine

【中图分类号】G64 【文献标识码】A 【文章编号】2095-3089(2016)01-0218-02

1.背景

在互联网技术高速发展的今天,万维网(World Wide Web,WWW)上保存了海量的信息和资源,且大多以多媒体网页的形式进行保存[1]。为了使人们能够在海量的网页资源中快速查找到感兴趣的网页资源,搜索引擎通过网页爬虫(Web Crawler)收集各种网页,并建立基于关键词或主题的索引,方便用户的快速搜索[2]。在这种情况下,网页爬虫程序对网页主题的识别能力和效率就显得十分重要[3]。传统爬虫程序主要是依据对网页关键词的匹配进行主题识别,主要对HTML页面中的meta字段或整个HTML文本进行关键词匹配[4]。而对特定主题的定义则为若干个关键词的组合。这种基于简单文本匹配的方法对当前复杂且种类繁多的网页是不适用的,主要原因在于网页主题是一个比较复杂的概念,仅通过关键词或其组合的方式难以准确表达某个网页主题[5, 6]。

研究者们采用机器学习和数据挖掘的方法对不同主题的文本特征进行学习和提取,并以模型参数的形式预先设置在爬虫程序里面,当进行网页获取时,爬虫程序通过模型在线判断一个新网页所属的主题,然后确定是否保存到数据库中[7]。但同时我们指出,不同的机器学习模型的训练代价、识别效率和对网页主题所蕴含的抽象概念的表达能力各不相同。基于统计学习和浅层机器学习的模型由于受限于其对复杂函数的表达能力,因此在网页主题爬虫上使用的效果并不十分理想[8]。针对目前网页主题爬虫对网页主题的识别问题,本文提出采用基于深度学习(Deep Learning)的模型对主题进行特征表达并使用支持向量机(Support Vector Machine,SVM)模型进行识别。区别于传统的浅层模型,深度学习模型的输入层和输出层之间相隔了若干个运算层,如堆叠自动编码器(Stacked Auto Encoder,SAE)就是若干个自动编码器的叠加,深度信念网络(Deep Belief Network,DBN)实质上是一个多层的贝叶斯信念网络[9]。通过多层的运算单元叠加,可以有效提取和表达各种复杂概念,这是构建有效主题识别模型的基础。

2.主要方法

本文方法首先使用向量空间模型对网页进行向量化表达,即把网页转化为词向量,在本研究中对中英文网页分别使用不同的基础向量,这是由于中文和英文的词集是不同的。使用分词软件对网页的文本内容进行过滤和分词,并把分词结果记录在一个m维布尔向量中,若该网页含有第i个基本词,则该向量的第i位为1,反之为0。在此基础上构建深度信念网络,它本质上是一个多层神经网络,通过训练它可以以最大的后验概率去生成数据。对于每一层,其输出均可以看作是对输入的重新编码,但要求得到的新编码能依概率还原本来的输入,深度学习模型正是通过这种不断的重新编码发现隐含概念。图1给出了一个深度信念网络的基本结构。

图1. 深度信念网络的基本结构

使用已经标注主题且以向量空间模型表达的网页数据对DBN进行训练,其目标是通过正向(输入层至输出层)的数据通路得出在当前权重下的模型输出,与有监督数据中的网页真实主题信息进行比较,若发现模型的输出有错误,则通过反向传播从输出层至输入层逐层调整权重,最终使模型的输出与真实的主题信息一致。取训练后的模型权重矩阵作为网页爬虫程序在分析网页的主题信息时的模型参数。需要指出的是,在图1所示的DBN网络中,其输出层是一个多路的支持向量机分类器,该SVM的输入是第t-1层的概念表达。如前所述,在DBN 中,每一层均是对前一层输出特征向量的一种重新表达,以尽可能还原原来的输入信息为约束。因此,SVM分类器模型所得到的是一组抽象层次相当高的概念。在模型中通过改变每一层的节点数量对概念的表达长度进行压缩,在本研究中SVM的输入仅为模型输入长度的■。

令网页的向量空间表达的特征向量长度为d,即每个网页pi为一个d维布尔向量,深度信念网络执行基于概率的特征表达转换,如公式(1)所示:

p(x,y,h|?兹)=■(1)

其中?兹={b,c,d,W1,W2},E(·)是一个能量函数,模拟能量从输入层到输出层的传播,E(·)的定义如公式(2)所示:

E(x,y,h|?兹)=-bTx-cTh-dTy-xTW1h-hTW2y(2)

而Z(?兹)是一个边缘分布函数,定义为:

Z(?兹)=■exp(-E(x,y,h|?兹))(3)

在支持向量机作为输出层的情况下,一个网页x被分类为属于某个主题yi的概率为:

p(yi=1|x)=■sig(cj+W■■+(W■■)Tx)(4)

其中sig(·)为sigmoid函数。结合公式(1)至(4),可以得到给定网页x,它的主题向量的预测分布概率表达式:

p(y|x)=■(5)

本文方法的训练时间复杂度较高,但由于训练只需进行一次,把得到的权重矩阵W放在分类器中,测试时根据公式(5)可以直接得到主题向量的预测分布,需要O(mn)的计算量。

3.实验

采用一个互联网上公开的网页数据集“THE 4 UNIVERSITIES DATASET”对本文方法进行测试,该数据集收集了几所大学的计算机系网站上的网页,包含了7个分类,分别是Student、Faculty、Staff、Department、Course、Project和Other。一共包含8282个网页,平均网页大小为26k。实验中仅对网页的文本内容进行分析,先对每个网页生成一个15000维的词向量,然后使用深度信念网络进行概念提取,得到一个102维的特征向量,最后使用多分类的支持向量机进行网页主题的分类。根据经验,深度信念网络设计为15层,每层的节点数量递减10%。训练集和测试集按3:7的比例从整个数据集中随机抽取进行构建。为了增加主题识别结果的稳定性,进行了10次随机的划分,并取其识别正确率的平均值作为最终的结果。表1列出了本文方法对每个类别的识别正确率和CPU运行时间。

表1 算法在评估数据集上的正确率

从表1中可以看出,本文方法对实验数据集的主题有较高的识别率,且对单个网页的运行时间非常短,从而说明该方法对于提高主题爬虫在识别网页主题时的有效性和效率。

4.结论

本文提出了使用深度学习算法构建网页主题爬虫的设计方案,设计了一种多层的深度信念网络,对多个受限波特曼机模型进行堆叠,有效解决了对网页主题的内在概念的特征提取问题,使用支持向量机模型对经过概念转换表达的网页数据进行分类,在测试数据集上表明本文方法有较高的准确率且运行速度较快,从而说明本文方法的有效性。

参考文献:

[1]L.Deng and D.Yu, “Deep learning: Methods and applications,” Found. Trends Signal Process., vol.7, no.4, pp. 197–387, Jun. 2014.

[2]M.Spencer, J.Eickholt, and J.Cheng, “A deep learning network approach to ab initio protein secondary structure prediction,” IEEE/ACM Trans. Comput. Biol. Bioinformatics, vol.?12, no.1, pp. 103–112, Jan. 2015.

[3]J.Fu, T.Mei, K.Yang, H.Lu, and Y.Rui, “Tagging personal photos with transfer deep learning,” in Proceedings of the 24th International Conference on World Wide Web, ser. WWW 15. Republic and Canton of Geneva, Switzerland: International World Wide Web Conferences Steering Committee, 2015, pp. 344–354.

[4]Z.Zuo, G.Wang, B.Shuai, L.Zhao, and Q.Yang, “Exemplar based deep discriminative and shareable feature learning for scene image classification,” Pattern Recogn., vol.48, no.10, pp. 3004–3015, Oct. 2015.

[5]N.Srivastava and R.Salakhutdinov, “Multimodal learning with deep boltzmann machines,” J. Mach. Learn. Res., vol.15, no.1, pp. 2949–2980, Jan. 2014.

[6]A.M. Elkahky, Y.Song, and X.He, “A multi-view deep learning approach for cross domain user modeling in recommendation systems,” in Proceedings of the 24th International Conference on World Wide Web, ser. WWW 15. Republic and Canton of Geneva, Switzerland: International World Wide Web Conferences Steering Committee, 2015, pp. 278–288.

[7]W.Zhang, R.Li, T.Zeng, Q.Sun, S.Kumar, J.Ye, and S.Ji, “Deep model based transfer and multi-task learning for biological image analysis,” in Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ser. KDD 15. New York, NY, USA: ACM, 2015, pp. 1475–1484.

[8]H.Wang, N.Wang, and D.-Y. Yeung, “Collaborative deep learning for recommender systems,” in Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ser. KDD 15. New York, NY, USA: ACM, 2015, pp. 1235–1244.

[9]K.Jung, B.-T. Zhang, and P.Mitra, “Deep learning for the web,” in Proceedings of the 24th International Conference on World Wide Web, ser. WWW 15 Companion. Republic and Canton of Geneva, Switzerland: International World Wide Web Conferences Steering Committee, 2015, pp. 1525–1526.

作者简介:

袁优(1981-),女,湖北人,大学本科,讲师。研究方向:智能信息系统,统计学习。

猜你喜欢

支持向量机深度学习
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
有体验的学习才是有意义的学习
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
基于熵技术的公共事业费最优组合预测
深度学习算法应用于岩石图像处理的可行性研究