APP下载

基于大数据的深度学习网络爬虫算法在信息搜集与处理中的应用

2024-09-27于平

科技资讯 2024年16期

摘要:旨在利用大数据和深度学习技术优化网络爬虫算法,以更好地满足信息搜集与处理的需求。首先,使用大数据技术进行数据收集;然后,引入词频反转文档频率(TermFrequency-InverseDocumentFrequency,TF-IDF)权重作为输入特征的初始权重,并利用传播激活算法来优化爬虫算法;最后,对多模态信息进行整合。为了测试基于大数据的深度学习网络爬虫算法在信息搜集与处理中的应用效果,将其与传统方法进行了比较。通过实验发现,在统一资源定位器(UniformResourceLocator,URL)数量为10000时,提出的方法的覆盖率可达92.9%,而传统方法的覆盖率仅为73.7%。研究证明所提出的基于大数据的深度学习网络爬虫算法在信息收集方面具有更高的覆盖率和更好的准确性。

关键词:网络爬虫算法深度学习信息收集和处理大数据

ApplicationofDeepLearningWebCrawlerAlgorithmsBasedonBigDatainInformationCollectionandProcessing

YUPing

GuangzhouHuananBusinessCollege,Guangzhou,GuangdongProvince,510650China

Abstract:ThisarticleaimstooptimizewebcrawleralgorithmsbyusingBigDataandDeepLearningtechnologytobettermeettheneedsofinformationcollectionandprocessing.Firstly,useBigDatatechnologyfordatacollection;Then,theTermFrequency-InverseDocumentFrequency(TF-IDF)weightisintroducedastheinitialweightoftheinputfeature,andthePropagationActivationalgorithmisusedtooptimizethecrawleralgorithm;Finally,integratemultimodalinformation.InordertotesttheapplicationeffectofDeepLearningwebcrawleralgorithms basedonBigDataininformationcollectionandprocessing,thisarticlecomparedthemwithtraditionalmethods.Throughexperiments,itwasfoundthatthecoverageoftheproposedmethodcanreach92.9%whenthenumberofUniformResourceLocators(URL)is10000,whilethecoverageoftraditionalmethodsisonly73.7%.ResearchhasshownthattheDeepLearningwebcrawleralgorithmbasedonBigDataproposedinthisarticlehashighercoverageandbetteraccuracyininformationcollection.

KeyWords:Webcrawleralgorithm;DeepLearning;Informationcollectionandprocessing;BigData

网络爬虫是一种自动化工具,能够按照一定的规则和算法从指定的起始网页开始逐一抓取目标网页中的链接[1-2]。随着互联网规模的爆炸式增长,网络爬虫面临着越来越多的挑战。传统的网络爬虫算法往往无法有效地处理大规模和结构复杂的网络数据,同时,网页更新速度很快,要求网络爬虫必须具有实时性和高效率。为了解决这些问题,研究者们开始将深度学习技术应用于网络爬虫算法中。他们利用深度学习技术对网页进行特征提取和分类,从而提高了网页的抓取准确性与覆盖率,这不仅有助于提高信息收集与处理的效果,还具有重要的现实意义和理论价值。

1信息收集与处理的方法与过程

1.1数据收集

使用大数据技术进行广泛的数据收集,并通过深度学习算法进行数据清理,以确保数据的准确性。数据收集是信息检索过程中的重要步骤,其会直接影响后续深度学习网络爬虫算法的效果。本文利用大数据技术进行广泛的数据收集,旨在构建一个全面和多样化的数据集,以提高深度学习模型的泛化能力和适应能力。

首先,要选择数据源,搜索并且下载用户相关的网页,通过大数据,选择4个热门业务。然后,通过大数据技术,在网页上读取信息,搜索网页的其他链接地址,设置不同访问层数,通过这种方式,把所有的网页全部读取完毕。最后,将网页中的有效信息进行抓取,如文本、声音、图像和视频等,在抓取网页中的信息时,一般利用HTTP协议协助进行。

1.2深度学习网络设计

在互联网中,主题特征向量与其出现的频率和网页的页面结构和位置有关,一个主题特征向量出现在网页中的频率越高,则其出现在标题或其他特殊超文本标记语言文本中的次数越多,这些对主题判别具有高影响的词特征容易被选择作为负采样特征,剔除或修改这些负面特征有助于对主题相关的网页特征进行聚合。负面特征选择可用公式表示为:

式中,为网页结构和位置,为所有负特征的权重和,;

为系数。

在网页主题采集中,需要通过主题网页的正采样和非主题网页的负采样过滤,就会得到多棵主题强相关的特征树。每颗特征树需要有多个层级,最多为4层,按照树的层级,对树的每层特征进行横向排列,形成主题特征梯形[3]。梯形的每层由若干个主题特征和对应的词频反转文档频率(TermFrequency-InverseDocumentFrequency,TF-IDF)组成,这一梯形的主题树中,由上至下,随着梯形主题特征的增多,主题深度越弱。

传统模式下,循环神经网络处理文本特征有一定的局限性,随着时间的递增,新特征的输入与早期特征的路径过长,这种局限性导致对早期主题的遗忘。为了解决这个问题,本章提出了一种改进的神经网络判别器。该判别器基于循环神经网络并引入了TF-IDF权重作为输入特征的初始权重,这对于改善特征被遗忘的问题具有很大的帮助作用。

1.3爬虫算法的优化

对爬虫算法进行优化是为了更好地抓取网页资源中的主题,因此,要对神经网络资源进行修改,结合传播激活算法,以实现网页资源的抓取。首先,将Hopfield神经网络模型转化为前向传播的神经网络,主要分为3个步骤:初始化、激活—传播—迭代和终止。

聚焦爬虫,以一组与目标领域主题高度相关的种子网页为起点,并将网页节点的权重初始化为1。在神经网络首次激活迭代时,聚焦爬虫,从搜索队列中逐一获取种子网页并解析。在迭代第s次时,网页节点a的权重记作,权重值会在所有的种子网页中进行调整,有。主题爬虫在解析种子网页过程中获取的新网页将添加到神经网络中[4]。

在完成初始化后,聚焦爬虫,将进入下一次迭代,通过神经网络的激活和传播来计算新获取的网页节点权重值。网页节点权重值公式为:

式中,为网页节点a在第s+1次迭代时的结点权重,为父节点c和子节点s之间的超文本链接权重。

通过忆阻器模型和信息熵的主题相关性分析算法计算,我们能够得到为父节点c和子节点s之间的超文本链接的权重。采用分段线性和单调递增的忆阻器模型来设计激活方程,能够更好地适应聚焦爬虫算法。

通过对权重值的计算,可以得到一个下载路径,主题爬虫会按照权重值大小来进行内容的下载。在访问和下载完所有与主题相关的网页(节点权重值大于预设值)后,聚焦爬虫将根据网页内容对所有相关网页的节点权重值进行更新,以便在新的迭代中更准确地预测后续网页的相关性。那么,网页节点权重值更新公式表示为:

式中,为分段线性、单调递增的忆阻器模型方程,为结点a所对应的网页内容与目标域中主题相关性的大小。

主题相关性的大小直接取决于目标领域中每个关键词在网页内容中出现的频率的总和。的值跟网页内容的相关度有一定关系,如果网页内容越相关,相应的值也会越大[5]。

聚焦爬虫的工作方式很简单,是在忆阻神经网络框架下进行持续抓取网页。在本次迭代中,所有节点权值的均值小于预先设定的最大不相关权值(一个较小的正实数),或者是在获取的网页数量达到预先设定的数目时,抓取行为终止。

2信息搜集与处理效果评估

2.1实验设计与数据来源

通过对互联网上的网址进行实验,验证了深度学习算法在信息收集和处理方面的有效性。在此基础上,我们选取了不同数目的统一资源定位器(UniformResourceLocator,URL)作为样本,对该算法与传统算法进行了比较。实验证明,该方法能够较好地获取数据、提高数据采集的精度,为该方法在实际应用中的应用奠定了基础。

2.2实验结果分析

覆盖率是衡量信息收集和处理的综合性程度的一个重要指标。当爬行器覆盖范围不够时,有可能会漏掉一些关键信息,从而不能完整地展现被搜索到的站点或者数据。所以,提升网络爬行器的覆盖率是信息收集与处理工作中不可或缺的一环,能让使用者更全面和更有效地撷取资讯,并提升资料的品质与完整度。在此基础上,对两种算法在不同URL个数情况下的覆盖情况进行了对比,得到的结果显示在图1中。

从图1可以看出:在URL个数为1000的情况下,本方法得到的覆盖率可以达到89.9%,而传统的方式可以达到82.6%;在URL个数3000的情况下,该算法得到的覆盖率可以达到92.8%,而传统算法的覆盖率可以达到84.3%;在URL个数为7000的情况下,该算法得到的覆盖率为88.7%,而传统算法的覆盖率为83.7%;在URL个数为10000的情况下,该算法得到的覆盖率可以达到92.9%,而传统算法可以达到73.7%。由此可以看到,在URL数量相等的情况下,本论文的算法的覆盖率要比传统的算法高得多,这意味着我们的算法可以对数据进行更加全面的采集和处理,这有助于人们在获取信息的过程中更好地提升信息的质量和完整性。

3结语

互联网时代下,信息呈现爆炸式的增长模式,传统的信息搜集与处理方式已经显得力不从心。如何提高信息搜集与处理方式则是当前急需解决的问题。本文研究的主题便是基于大数据的深度学习网络爬虫算法在信息搜集与处理中的应用。研究发现,使用本文大数据的深度学习网络爬虫算法进行信息收集与处理,覆盖率与准确性均相比传统方法得到了明显的提升,这有利于更准确和全面地获取信息,从而更好地保证信息的质量和完整性,具有实际使用价值。但是,本文研究有所不足,由于实际条件的限制,本文实验所选取的样本较少,同时对于信息收集效率也缺乏验证,在后续研究中还需对其进行更多探讨。

参考文献

[1]唐文军,隆承志.基于Python的聚焦网络爬虫的设计与实现[J].计算机与数字工程,2023,51(4):845-849.

[2]冯艳茹.基于Python的网络爬虫系统的设计与实现[J].电脑与信息技术,2021,29(6):47-50.

[3]左薇,张熹,董红娟,等.主题网络爬虫研究综述[J].软件导刊,2020,19(2):278-281.

[4]熊艳秋,严碧波.基于jsoup爬取图书网页信息的网络爬虫技术[J].电脑与信息技术,2019,27(4):61-63.

[5]张叶娥.基于带状无线传感器网络的实时智能数据收集算法[J].吉林大学学报(理学版),2023,61(2):393-399.