APP下载

RANSAC 算法在网页关键信息智能筛选中的应用研究

2021-05-20曾光辉

科学技术创新 2021年12期
关键词:网页关键样本

曾光辉 何 波

(广州工程技术职业学院 信息工程学院,广东 广州510900)

RANSAC 算法,其全称是RANdom SAmple Consensus,指的是随机抽样一致性,是模型参数估计算法的一种[1]。通常情况下,可以在一组数据中通过数学模型的计算,提出异常数据,获得有效样本数据。在应用RANSAC 算法的过程中,准确来说是一个迭代的、不断寻求更优的模型参数的过程[2]。计算过程中主要包含三个参数,分别是误差容忍度、迭代次数和一致集大小。这个过程中,决定着模型参数的精度是迭代的次数,而样本一致集大小,也代表着模型参数精确程度。

大数据包含了各种类型的原始信息,例如文本信息、图像信息等[3]。但是,随着信息的快速发展。面对着浩瀚无际的信息海,人们如何快速获取所需信息成为一个难题。随着信息迷航、负载的不断发生,网页关键信息智能筛选,开始成为一项受到关注的技术。本文通过对RANSAC 算法为核心的研究,将其应用于网页关键信息智能筛选中,有利于信息智能筛选的更快发展。

1 基于RANSAC 算法网页关键信息智能筛选方法设计

1.1 网站信息采集与处理

想要实现基于RANSAC 算法的,网页关键信息智能筛选。那么前期需要完成一个工作,就是对网站信息的采集与处理,以此作为接下来信息筛选的基础。首先,对网站数据进行采集抓取。

对于网站中包含数据,利用初始队列中的URL 地址,取得网页内容信息后,将其返回给爬虫。通过获取爬虫分析,将需要进一步抓取的数据放回链接。将需要保存的进行数据清洗。将网页解析过后,将网页信息提取出来,保存至数据库。数据的存储采用MySQL 数据库,将处理后的数据实现结构化存储。在信息存储过程中,可以采用文章标题、发布时间、关键字等等作为定义存储的文章。使得收集的信息,每一条可以进行关键词的自动辨认。

此外,利用机器学习算法,将收集存储的信息,转换为数值数据集。对于文本利用中文分词技术,将文本内容向字符串列表转换。辅助之后的信息智能筛选工作。

1.2 基于RANSAC 算法提取网页关键信息

完成网站信息的前期采集与处理后,就可以应用RANSAC算法,进行网页关键信息智能筛选的设计。网页的关键信息智能筛选,需要在数据库中提取与用户输入的关键信息相匹配的网页信息。获取相关内容后,对信息的特征点进行匹配,所提取的特征点和用户所需信息特征点匹配与否,需要通过两个特征点之间的欧氏距离进行判断。将两个特征点表示为A={x1,x2,…,xn},B={y1,y2,…,yn},因此,两个特征点之间的欧氏距离,可以采用以下公式计算。

公式中,n 表示特征描述子维度,d 代表特征点之间欧氏距离。当两条信息进行匹配时,在用户输入信息中进行特征描述子选择,以此为依据,计算第二条信息特征描述子,与第一条特征描述子之间的欧氏距离。并分析最小欧氏距离与次小欧氏距离之间的比值,当比值小于阈值时,表示两者之间匹配。一般情况下,阈值为0.6-0.8 之间。RANSAC 算法主要采用最小子样本集,对网页关键信息进行估计的迭代算法,其具体计算流程如下:第一步,面向包含无数信息样本的数据集U,在进行信息筛选之前,以计算模型中,未知量的个数作为依据,确定算法计算过程中所需的最小数据个数,获取样本集。并且要保证样本集中数据总量,大于采样所需最小数据个数。第二步,最小样本数确定后,将其从数据集中提取出来,使用该数据对模型进行估计。第三步,面向其他未被提取样本,计算其与模型之间的误差,根据误差与阈值之间的比较,确定其为内点还是外点。第四步,计算数据元素的总个数。若模型正确,为了保证准确性采用去除一部分外点后的更准确的集合,否则,循环一到三步,直到选取合适的最小样本集合。上述迭代流程中,RANSAC 算法的取样次数,取决于随机选取的数据点是否为内点。

为了快速筛选网页关键信息,内点比例少于30%的情况很少出现。大于30%后,迭代次数与内点比例呈现反比例增长。最后,通过RANSAC 算法的迭代,将提取的网页关键信息与用户所需信息进行匹配,实现网页关键信息筛选。

1.3 检测筛选信息

网页的关键信息筛选,定然会有一小部分的误差存在。因此,在完成信息筛选后,可以再对RANSAC 算法进行改进,完成筛选信息的再检测。文中关于筛选信息的检测过程,同样需要进行M 次样本选取,经过检测没有被剔除的是正确对应信息,这种信息所占的百分比,可以用通过率来表示。倘若将Pf设为样本的通过率。则通过该算法获取的关键信息筛选正确概率可以用(1-ε)mPf来表示。这个过程中,一部分筛选信息被过滤掉,所以产生的结果数量稍有降低,准确度却大幅提升。筛选信息在检测中是否通过,需要进行方法设计。首先选择d 个正确数据作为固定,然后对筛选信息进行对比,当有c 个及以上数据通过,证明该信息无误。

1.4 展示网页关键信息智能筛选结果

以RANSAC 算法为基础,完成网页关键信息的筛选,并且确定筛选信息无误后,需要对这些信息进行分类显示,完成整体的网页关键信息智能筛选流程。根据一些算法构建分类器,对筛选出来的信息实现精确归类。分类器对训练样本集进行训练,调整样本权重。随着悬链次数的增加,分类错误样本权重逐渐升高,根据设定的权重值,进行分类器分类错误率的计算。以权重值为依据,对权重向量进行更改,降低正确分类的样本权重,提高错分样本的权重。权值公式如下所示。

公式(2)中,a 表示权重值,D 表示向量,xi表示x 中第i 个元素,yi表示y 中第i 个元素。将计算结果重新代入,直至训练错误率为0。筛选后的信息作为训练函数,进行输入。经过训练,最终得到筛选器模型。之后,可以利用此筛选器模型,对筛选信息进行分类。在这个过程中,为了最大程度保证模型分类结果准确,可以通过设置不同数量的分类器,进行分类精度的测试。

通过测试,发现该模型中最佳分类器数量为8 个,此时分类精度保持在98.5%左右。通过对网页关键信息筛选结果的准确分类,将最终信息筛选结果向用户进行展示,实现网页关键信息智能筛选。

2 实验论证分析

为了保证本文提出信息智能筛选方法,在实际应用中具有良好的效果,特进行实验,并对实验结果进行分析。根据统计数据显示,网民访问频率最高的是新浪、搜狐、人民网、新华网四大网站,实验选取四大网站中的800 篇文章。这些文章对应四种分类,分别是娱乐、教育、财经、体育,每种分类选择200 篇文章,将其综合整理。以体育、财经两种分类,作为网页关键信息进行搜索,分析智能筛选结果。由于在信息检索领域,面对信息智能筛选性能时,常用查准率与查全率进行判断。其中查准率指的是筛选的信息中心,正确信息所占比例。而查全率代表筛选结果中的正确信息,占实际所有满足要求信息的比例。以本文提出方法为实验组,选取两种传统的信息智能筛选方法,作为对照组进行实验。实验结果如图1 所示。

根据图1 我们可以发现,在三种网页关键信息智能筛选方法中,文中所提出的应用RANSAC 算法的智能筛选方法性能明显更优。在图中,我们将[0,1]这个区间划分为10 个等份。选择每个边界点值的查全率作为固定条件,计算相同查全率下,不同方法的信息查准率对比。通过图1,对体育与财经两个关键词进行信息筛选,三种方法的筛选结果显示,查准率都在随着查全率的上升而下降。以体育为例,本文方法的查准率从一开始的0.95,下降到了最后的0.76。两种传统方法也分别降到了0.64、0.50。显而易见,本文方法相比传统方法查准率有所上升,财经方面也与之相似。综上所述,在网页关键信息智能筛选中,RANSAC 算法的应用,提升了信息智能筛选的查准率。

图1 实验论证结果曲线

结束语

本文以网页关键信息智能筛选为重点,分析RANSAC 算法在信息筛选中的应用。通过本文研究,明确了RANSAC 算法,在网页关键信息智能筛选中,以此为基础,设计信息智能筛选方法拥有较高的查准率,可以加快网络信息的发展,提升人们对于关键信息查找的速度。

猜你喜欢

网页关键样本
硝酸甘油,用对是关键
高考考好是关键
基于HTML5与CSS3的网页设计技术研究
规划·样本
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
搜索引擎怎样对网页排序
随机微分方程的样本Lyapunov二次型估计
蒋百里:“关键是中国人自己要努力”
生意无大小,关键是怎么做?