基于关键词分级检索的Web信息访问监控算法
2021-12-10梁中阁陈孝如
梁中阁,陈孝如
(广州大学华软软件学院,广东广州 510990)
1 引言
网络技术高速发展,互联网已成为大众化信息交流的重要场所,网络中的信息增长速度飞快,如何处理海量网络信息引起众多研究学者关注[1]。信息检索是信息处理领域的重要课题,目前通常通过查询串的文件检索以及目录结构的信息检索处理信息检索问题,无法有效获取用户所需的关键信息[2]。用户使用网络时,可采用输入关键词获取检索结果,关键词检索是用户从海量网络中获取关键信息的主要方式。
Web 2.0技术已日益成熟,提供互联网内容已由网站运营方和开发方转变为网络用户。网络监管机制较为落后,互联网具有较强的开发性[3],网络上内容差异巨大,容易出现错误的舆论引导,影响事实真相以及正确观念及时发布,威胁社会和谐。检测以及预警出现于Web服务器中的网络话题以及网络事件[4],可正确引导网络舆论。
近年来针对网络搜索以及访问安全性的研究较多,周文等人研究一种SVM学习框架下的Web3D轻量级模型检索算法[5],利用支持向量机实现Web3D轻量级模型检索,检索实时性较高,但检索精度较低;魏德宾等人研究基于自相似流量水平分级预测的网络队列调度算法[6],利用自相似流量水平分级预测实现网络队列调度,提升网络运行安全性。研究基于关键词分级检索的Web信息访问监控算法,将关键词分级检索结果作为Web信息访问监控依据,保障网络安全。关键词分级检索可有效提升关键词检索速度以及查准率,通过较优的查询速度以及排序误差率提升Web信息访问监控性能。
2 关键词分级检索的Web信息访问监控算法
2.1 构建词汇链
通过构建词汇链提升关键词抽取精度,计算所搜寻词语与初始词汇链的相似度,依据相似度结果加入相应词汇链中,具体过程如下:
1)对待检索文本集实施词性标注、分词以及未登陆词识别,用DF与TF分别表示文档频率以及特征频率,统计各词在文档集中的DF与TF;
2)部分相对重要的领域词汇并未收录于文本集内。设置指定阈值δ,设置该阈值为3,当词汇的TF大于δ时,利用未登录词生成词汇链L0;
3)将TF大于阈值δ的动词A1,A2,…,An以及全部名词设置为候选词汇集,利用其中的A1建立初始词汇链L1;
4)从候选词汇集内依次选取词语Ai,i∈[2,n],可得获取该词语与词汇链L0外的各词汇链词义相似度值S(Ai,Lj)公式如下:
(1)
式(1)中,i=1,2,…,n,j=1,2,…,m,N与Ak分别表示词汇链Lj内包含词汇数量以及包含词汇,1≤k≤N。
通过式(1)可知,不同词汇链的词义相似度值即与该词汇链内全部单词词义相似度之和的平均值[7];
5)当预设的相似度阈值ζ小于最大词义相似度S(Ai,Lk)时,将该词插入词汇链Lk内;
6)当预设的相似度阈值ζ大于最大词义相似度S(Ai,Lk)时,生成新的词汇链,并将词语A插入新词汇链内;
7)重复步骤(3)-步骤(6),直至完成全部候选词汇计算。
分析以上过程可知,构建词汇链时,相似度阈值ζ越大,所生成的词汇链数量越多。
确定词汇链权值时,需要充分考虑词汇链长度、词汇链中词汇分布密度、词汇链覆盖本文范围、组成词汇链的不同词语的初始权值以及词汇链的拓扑结构。
完成文本词汇链生成后,需评价所构建各个词汇链,并将相应权值赋予各个词汇链中。用T={T1,T2,…,Tn}表示各个文本,Ti为不同词汇链权值。文本主题表达水平在词汇链权值越大时越强,文本主题表达水平在词汇链权值越小时越差[8]。利用预设权值从文本集内选取较强的词汇链呈现文本,从所获取的词汇链中所包含词汇中抽取关键词。
2.2 关键词分级检索
所获取词汇链Li(0≤i≤n)中包含众多语义相近词汇集合,通过考虑词汇的以下属性确定选取哪些词汇作为关键词。
1)首次出现位置
全部词汇数据量中词汇在其所在文档中首次出现位置前词语数量比例表示词语的首次出现位置,通常情况下首次出现位置取值为0-1之间;
2)所处文档区域
确定所处文档区域时需制定假设如下:
文档摘要、文档标题以及章节标题内词汇为文档关键词的可能性高于其它词语为关键词的可能性。
3)所处词汇链强度
词汇所处词汇链的权值决定了词汇所处词汇链的强度[9],词汇链表达文档主体的能力在权值越大时越强。
4)词汇的信息熵
词汇的信息熵可以体现出词汇所包含的文档具体信息内容,词汇信息熵计算公式如下
(2)
式(2)中,Ei与M分别表示词汇Ai的信息熵以及多文档集内文档总数或单文档内句子总数;fij与dfi分别表示句子j以及文档j内出现dfi的次数以及出现dfi的文档数或句子数。
全部文档中均出现该词汇时,则该词汇的信息熵较小[10];当仅个别文档中存在该词汇时,则该词汇的信息熵较大。
综合考虑文档中首次出现词汇的位置、词汇所处词汇链强度、词汇所处文档区域以及词汇的信息熵4个重要属性,获取文档中词汇权值计算公式如下
Weighti=α×b(fi+1.0)×(1+Ei)+β×Ti
(3)
式(3)中,Weighti与fi分别表示词汇Ai的权值以及出现次数;Ti与Lengthi分别表示词汇Ai所在词汇链权值以及词汇Ai首次出现在文档中之前的词汇数量;Length与Areai分别表示文档中全部词汇数量以及词汇Ai所处文档区域的权值。当文档标题以及文档摘要中出现词汇Ai时,Areai值分别为5以及4;当章节标题中出现词汇Ai时,Areai值为2;其余情况下Areai值为0.5;α、β、γ与η均表示调节词汇权值计算中各属性的调节因子,本文取1。
计算词汇链内所存在的全部词汇的权值后,用Ti={ti1,ti2,…,tim}表示全部词汇权值,tij为建立词汇链中词汇Li的权值。降序排列全部词汇链内全部词汇权值,依据所需关键词数量依次选取权值较大的词汇作为关键词,依据所确定关键词实现关键词分级检索。
2.3 PageRank算法的Web信息访问监控
依据所获取关键词分级检索Web信息,利用PageRank算法实现Web信息访问页面的实时监控,实现网络资源优化,保障Web网络运行安全性能。
PageRank算法是衡量网页重要程度的重要算法,将PageRank算法应用于Web信息访问监控中的主要思想是集中资源与精力关注存在关键词数量较多的较为重要的网页。PageRank算法是网页排名技术,即网页级别算法,该算法是评价网页重要性的重要方法[11],Web利用该算法可调整搜索结果,令网页出现在靠前位置,重点监控重要性较高的网页,提升Web信息访问安全性。
PageRank算法利用网络自身的超链接结构确定网页重要性的等级数量,利用网页重要性的等级数排序网页,等级数即PageRank值,即通过连接结构获取网页重要性,Web网页的重要性与其余Web网页的重要性存在关联以及依赖性。
PageRank值计算公式如下
(4)
式(4)中,PR(a)与L1,…,Ln分别表示Web网页的PageRank值以及链接至网页a的网页;G(Ln)与G分别表示其从网页Ln转送至其它网页的超链接数量以及规范化因子,利用规范化因子令全部网页的PageRank值之和为常量。
为简化计算,将式(4)转化为
PR(a)=(1-d)+G(Ln)
(5)
式(5)中,d表示阻尼系数,本文设置为0.15。
首先需获取待排序网页数量总和,设置各网页的PageRank值为1/Sum,依据式(4)以及式(5)统计网页的超链接数,获取最终的G(Ln)。
采用本文算法实现基于关键词分级检索的Web信息访问监控过程如下:首先构建词汇链,从词汇链中提取关键词实现关键词分级检索,利用关键词分级检索结果获取Web页面的重要程度,依据所获取的重要程度指标排序Web网页的超链接[12],排序较为靠前的超链接具有较高的重要程度,设置较短的监控周期,依据排名顺序扩大监控周期。本文算法依据Web网页重要程度确定Web信息访问监控策略,具有较高的时效性与有效性。
3 仿真分析
从网络中选取100篇Web信息作为本文算法有效性的测试对象,Web信息中包含文学、财经、军事、教育、体育五种类型内容。
选取准确率(P)、召回率(R)作为评价采用本文算法监控Web信息访问中关键词分级检索性能。选取SVM算法(参考文献[5])以及自相似算法(参考文献[6])作为对比算法,三种算法分级检索关键词的检索准确率对比结果如图1所示。
图1 检索准确率对比
图1实验结果可以看出,采用本文算法分级检索关键词的检索准确率均高于99%;采用另两种算法分级检索关键词的检索准确率均低于99%。对比结果有效验证本文算法具有较高的分级检索关键词准确率。
选取SVM算法以及自相似算法作为对比算法,三种算法分级检索关键词的检索召回率对比结果如图2所示。
图2 检索召回率对比
图2实验结果可以看出,采用本文算法分级检索关键词的检索召回率均高于99%;采用另两种算法分级检索关键词的检索召回率均低于99%。采用本文算法分类检索不同类别Web信息关键词的检索准确率、召回率均为最高,说明本文算法具有较高的关键词分类检索有效性。
统计采用本文算法分级检索不同类别Web信息关键词在不同信息量大小情况下的漏搜率以及多搜率,对比结果如表1所示。
表1 不同算法漏搜率与多搜率
表1实验结果可以看出,采用本文算法分级检索不同大小信息量Web信息关键词具有较低的漏搜率以及多搜率,采用本文算法分级检索Web信息关键词的漏搜率以及多搜率均低于0.7%;采用另两种算法分级检索Web信息关键词的漏搜率以及多搜率均高于1%。采用本文算法分级检索不同大小信息量Web信息关键词的漏搜率以及多搜率均明显低于另两种算法,实验结果有效验证本文算法具有较高的关键词分级检索性能,可为Web信息访问监控提供良好基础。
通过图1、图2以及表1实验结果可知,本文算法分类检索Web信息关键词的整体评价结果较为理想,可获取较优的关键词分类检索效果,主要原因是本文算法的关键词抽取算法充分考虑了Web信息中关键词位置与因素,获取较高的Web信息关键词检索效果,提升Web信息访问监控有效性。
采用本文算法获取不同类别Web网页的PageRank值排行结果如表2所示。
表2 PageRank值排行结果
表2实验结果可以看出,采用本文算法可利用PageRank值获取Web网页的重要程度,利用所获取Web网页的重要程度重点监视较为重要Web网页中的Web信息,实现Web信息访问的有效监控。
统计采用本文算法监控Web信息访问100min内的Web信息访问监控有效率以及误报率,统计结果如表3所示。
表3 监控性能对比
表3实验结果表明,采用本文算法监控Web信息访问的有效率均高于99.2%;采用本文算法监控Web信息访问的误报率均低于0.7%。采用本文算法监控Web信息访问的有效率远高于另两种算法,本文算法监控Web信息访问的误报率远低于另两种算法。采用本文算法监控Web信息访问具有较高的有效率以及较低的误报率,有效验证本文算法监控Web信息访问有效性。
4 结论
利用信息抽取技术建立词汇链实现关键词分级检索,并利用关键词分级检索结果实现Web信息访问监控,利用所研究算法应用于网络中Web信息访问监控中,可降低时间开销以及空间开销,并且可避免出现漏搜以及多搜情况。所研究算法具有较高的关键词检索准确率以及召回率,通过缩小检索范围提升检索速度,利用抽取文档关键词组,明确查询匹配结果,提升Web信息访问监控效果。将其应用于Web信息访问监控中,依据所设定关键词可实现Web信息访问有效监控,具有较高的Web信息访问监控性能。