RANSAC 算法在网页关键信息智能筛选中的应用研究

2021-05-20曾光辉

科学技术创新 2021年12期

曾光辉何波

（广州工程技术职业学院信息工程学院，广东广州510900）

RANSAC 算法，其全称是RANdom SAmple Consensus，指的是随机抽样一致性，是模型参数估计算法的一种[1]。通常情况下，可以在一组数据中通过数学模型的计算，提出异常数据，获得有效样本数据。在应用RANSAC 算法的过程中，准确来说是一个迭代的、不断寻求更优的模型参数的过程[2]。计算过程中主要包含三个参数，分别是误差容忍度、迭代次数和一致集大小。这个过程中，决定着模型参数的精度是迭代的次数，而样本一致集大小，也代表着模型参数精确程度。

大数据包含了各种类型的原始信息，例如文本信息、图像信息等[3]。但是，随着信息的快速发展。面对着浩瀚无际的信息海，人们如何快速获取所需信息成为一个难题。随着信息迷航、负载的不断发生，网页关键信息智能筛选，开始成为一项受到关注的技术。本文通过对RANSAC 算法为核心的研究，将其应用于网页关键信息智能筛选中，有利于信息智能筛选的更快发展。

1 基于RANSAC 算法网页关键信息智能筛选方法设计

1.1 网站信息采集与处理

想要实现基于RANSAC 算法的，网页关键信息智能筛选。那么前期需要完成一个工作，就是对网站信息的采集与处理，以此作为接下来信息筛选的基础。首先，对网站数据进行采集抓取。

对于网站中包含数据，利用初始队列中的URL 地址，取得网页内容信息后，将其返回给爬虫。通过获取爬虫分析，将需要进一步抓取的数据放回链接。将需要保存的进行数据清洗。将网页解析过后，将网页信息提取出来，保存至数据库。数据的存储采用MySQL 数据库，将处理后的数据实现结构化存储。在信息存储过程中，可以采用文章标题、发布时间、关键字等等作为定义存储的文章。使得收集的信息，每一条可以进行关键词的自动辨认。

此外，利用机器学习算法，将收集存储的信息，转换为数值数据集。对于文本利用中文分词技术，将文本内容向字符串列表转换。辅助之后的信息智能筛选工作。

1.2 基于RANSAC 算法提取网页关键信息

完成网站信息的前期采集与处理后，就可以应用RANSAC算法，进行网页关键信息智能筛选的设计。网页的关键信息智能筛选，需要在数据库中提取与用户输入的关键信息相匹配的网页信息。获取相关内容后，对信息的特征点进行匹配，所提取的特征点和用户所需信息特征点匹配与否，需要通过两个特征点之间的欧氏距离进行判断。将两个特征点表示为A=｛x1,x2,…,xn},B=｛y1,y2,…,yn},因此，两个特征点之间的欧氏距离，可以采用以下公式计算。

公式中，n 表示特征描述子维度，d 代表特征点之间欧氏距离。当两条信息进行匹配时，在用户输入信息中进行特征描述子选择，以此为依据，计算第二条信息特征描述子，与第一条特征描述子之间的欧氏距离。并分析最小欧氏距离与次小欧氏距离之间的比值，当比值小于阈值时，表示两者之间匹配。一般情况下，阈值为0.6-0.8 之间。RANSAC 算法主要采用最小子样本集，对网页关键信息进行估计的迭代算法，其具体计算流程如下：第一步，面向包含无数信息样本的数据集U，在进行信息筛选之前，以计算模型中，未知量的个数作为依据，确定算法计算过程中所需的最小数据个数，获取样本集。并且要保证样本集中数据总量，大于采样所需最小数据个数。第二步，最小样本数确定后，将其从数据集中提取出来，使用该数据对模型进行估计。第三步，面向其他未被提取样本，计算其与模型之间的误差，根据误差与阈值之间的比较，确定其为内点还是外点。第四步，计算数据元素的总个数。若模型正确，为了保证准确性采用去除一部分外点后的更准确的集合，否则，循环一到三步，直到选取合适的最小样本集合。上述迭代流程中，RANSAC 算法的取样次数，取决于随机选取的数据点是否为内点。

为了快速筛选网页关键信息，内点比例少于30%的情况很少出现。大于30%后，迭代次数与内点比例呈现反比例增长。最后，通过RANSAC 算法的迭代，将提取的网页关键信息与用户所需信息进行匹配，实现网页关键信息筛选。

1.3 检测筛选信息

网页的关键信息筛选，定然会有一小部分的误差存在。因此，在完成信息筛选后，可以再对RANSAC 算法进行改进，完成筛选信息的再检测。文中关于筛选信息的检测过程，同样需要进行M 次样本选取，经过检测没有被剔除的是正确对应信息，这种信息所占的百分比，可以用通过率来表示。倘若将Pf设为样本的通过率。则通过该算法获取的关键信息筛选正确概率可以用（1-ε）mPf来表示。这个过程中，一部分筛选信息被过滤掉，所以产生的结果数量稍有降低，准确度却大幅提升。筛选信息在检测中是否通过，需要进行方法设计。首先选择d 个正确数据作为固定，然后对筛选信息进行对比，当有c 个及以上数据通过，证明该信息无误。

1.4 展示网页关键信息智能筛选结果

以RANSAC 算法为基础，完成网页关键信息的筛选，并且确定筛选信息无误后，需要对这些信息进行分类显示，完成整体的网页关键信息智能筛选流程。根据一些算法构建分类器，对筛选出来的信息实现精确归类。分类器对训练样本集进行训练，调整样本权重。随着悬链次数的增加，分类错误样本权重逐渐升高，根据设定的权重值，进行分类器分类错误率的计算。以权重值为依据，对权重向量进行更改，降低正确分类的样本权重，提高错分样本的权重。权值公式如下所示。

公式（2）中，a 表示权重值，D 表示向量，xi表示x 中第i 个元素，yi表示y 中第i 个元素。将计算结果重新代入，直至训练错误率为0。筛选后的信息作为训练函数，进行输入。经过训练，最终得到筛选器模型。之后，可以利用此筛选器模型，对筛选信息进行分类。在这个过程中，为了最大程度保证模型分类结果准确，可以通过设置不同数量的分类器，进行分类精度的测试。

通过测试，发现该模型中最佳分类器数量为8 个，此时分类精度保持在98.5%左右。通过对网页关键信息筛选结果的准确分类，将最终信息筛选结果向用户进行展示，实现网页关键信息智能筛选。

2 实验论证分析

为了保证本文提出信息智能筛选方法，在实际应用中具有良好的效果，特进行实验，并对实验结果进行分析。根据统计数据显示，网民访问频率最高的是新浪、搜狐、人民网、新华网四大网站，实验选取四大网站中的800 篇文章。这些文章对应四种分类，分别是娱乐、教育、财经、体育，每种分类选择200 篇文章，将其综合整理。以体育、财经两种分类，作为网页关键信息进行搜索，分析智能筛选结果。由于在信息检索领域，面对信息智能筛选性能时，常用查准率与查全率进行判断。其中查准率指的是筛选的信息中心，正确信息所占比例。而查全率代表筛选结果中的正确信息，占实际所有满足要求信息的比例。以本文提出方法为实验组，选取两种传统的信息智能筛选方法，作为对照组进行实验。实验结果如图1 所示。

根据图1 我们可以发现，在三种网页关键信息智能筛选方法中，文中所提出的应用RANSAC 算法的智能筛选方法性能明显更优。在图中，我们将[0,1]这个区间划分为10 个等份。选择每个边界点值的查全率作为固定条件，计算相同查全率下，不同方法的信息查准率对比。通过图1，对体育与财经两个关键词进行信息筛选，三种方法的筛选结果显示，查准率都在随着查全率的上升而下降。以体育为例，本文方法的查准率从一开始的0.95，下降到了最后的0.76。两种传统方法也分别降到了0.64、0.50。显而易见，本文方法相比传统方法查准率有所上升，财经方面也与之相似。综上所述，在网页关键信息智能筛选中，RANSAC 算法的应用，提升了信息智能筛选的查准率。