APP下载

数据挖掘技术在互联网信息检索中的应用分析

2023-08-10蔡红义

中国新通信 2023年11期
关键词:数据挖掘技术信息检索互联网

摘要:随着目前网络应用的普及率不断提升,互联网信息检索已经发展成为人们查询和获取信息的重要检索方式,为用户从海量信息中获取有价值的信息、提升信息获取精准度提供了保障。而在互联网信息检索中,数据挖掘技术的应用,能够让信息检索的效率显著提升。本文介绍了数据挖掘技术,分析这一技术在互联网信息检索中的应用价值,并就数据挖掘技术在互联网信息检索中的具体应用情况进行分析。

关键词:数据挖掘技术;互联网;信息检索

随着计算机和网络技术的不断发展,网络为信息传递提供了有效渠道,人们在享受网络发展的便捷中,也被大量的杂乱信息包围,要在海量信息中精准找出自己想要的信息,需要一定的时间和精力。随着人们生活节奏的不断加快,需要有一种高效的信息检索方式,能够帮助用户在信息获得中将不需要、不相关的信息筛除下来,提升信息检索准确性,而将数据挖掘技术应用到互联网信息检索中是一种有效方式,能够实现对信息语义、语用的挖掘及用户行为模式的分析,促进网络信息检索效率显著提升。

一、数据挖掘技术和互联网检索概述

(一)数据挖掘技术

就数据挖掘技术来看,很多学者对这一概念的定义趋向于从大量、不完全、模糊、有噪音的应用数据中提取隐含的、预先不知道但是有潜在应用价值的知识和信息内容的过程。基于数据挖掘技术应用,数据分析、数据融合、决策支持、知识发现等技术也实现了不断发展和创新[1]。在数据技术发展过程中,一些新的挖掘方法也开始被应用起来,让数据挖掘的能力不断增强。

就目的来看,数据挖掘以及互联网信息检索都属于信息发现的一种任务,但在应用中依然存在一定差异。信息检索中的任务是通过数据库管理系统进行记录的查找,借助因特网搜索引擎进行WEB网页查询。数据挖掘是知识发现的重要途径和方法,也是对未加工数据进行有价值的信息转换的重要方式。信息检索以传统计算机以及相关技术下的数据显著特征为基础,进行索引结构构建,促进组织和检索信息的有效实现,对于有效处理已经发生的信息资料有一定作用,但是缺乏对数据间关系以及未来发展趋势的分析和把握。而数据挖掘技术可以弥补这方面的不足,提升信息检索能力,对数据信息中隐含的知识和内容进行归纳,预测数据的发展、走向等,相较于传统信息索引,这种数据挖掘技术在信息检索中具有更高的应用价值[2]。

(二)互联网信息检索结构

互联网信息检索技术融合了数据管理系统、专家系统、信息检索、用户模型、自然语言理解等不同领域技术和功能,是技术的集大成者。这些先进技术的融合,构建出功能强大的互联网信息检索系统。就互联网信息检索的结构来看,其主要包含七个功能结构模块,即用户交互平台、数据库系统、信息采集平台、系统管理操作平台、资源管理平台、WEB服务器、数据挖掘模块、检索工具[3]。

在互联网信息检索应用中,不同的用户可以体验不同的检索服务效果,找到自己想要的信息内容。

二、数据挖掘对网络信息检索性能的提升作用

随着网络中数据的爆炸式增长,传统的搜索引擎已经无法满足人们的信息检索需要,而新一代搜索引擎虽然能够提升信息检索能力,但是在信息检索过程中依然存在一些不如意之处。现阶段,数据挖掘在网络领域的渗透和应用不断增多,这对于互联网信息检索性能的提升有一定的积极作用。现阶段的网络信息检索主要以引擎以浏览为目标来实现[4]。

就搜索引擎来看,要确保检索达到理想效果,必须要满足多方面要求:首先,在互联网网页中具备用户想要查询的内容信息;其次,网页信息需要被用户所用的搜索引擎收录;再次,用戶输入的查询信息在索引库收录的网页描述信息中;最后,用户输入的信息可以相对准确地描述其想要搜索的内容和问题。

而在实际的互联网信息检索中,存在一些近义词、多义词等,加上一些用户在语言表述上存在一定出入,所以索引库很难确保用户输入的查询信息和库中的信息一一对应,导致信息标引难度大。

在对一些问题的检索中,用户自身对于检索信息的输入也很难做到精准,而借助数据挖掘技术应用,能够搭建一个用户兴趣模型,对于检索结果的组织进行改善,促进检准率以及检全率的提升,确保检索效率不断提升[5]。

(一)提升网络信息标引准确率

标引是对于文献进行分析,通过合理应用检索标识对文献主要内容进行反映。在目前的网络系统中,数据信息量可以用海量来形容,且各类信息内容类型复杂,人工标引很难应付如此庞大的工作任务,自动标引就成为需要。但是相对而言,自动标引准确率难以保证,从文本中进行关键词抽取无法对信息资源的主旨进行准确总结,也不能对概念之间的关系进行挖掘,一些没有被文字表达出来的隐含信息就无法实现标引[6]。而标引又是信息组织的重要一步,只有确保标引精准才能保证检索查询结果可靠、全面。对网络信息内容的挖掘,能有效揭示网络信息特征知识以及它们之间的关系,针对文档语义、语用进行标注,这样可以概括文档的主要信息内容。基于此,本体技术发展可以促进语义挖掘质量的不断提升,从而把握相关信息之间的深层联系,提升检索质量。

(二)提升自动摘要质量

自动摘要是通过计算机对文章结构进行分析,把握文章的主题句,再进行整合、加工和分析,构成摘要内容。人工编制摘要相对复杂化,且具体的工作量太大,耗时耗力,针对信息量巨大的网络资源,开展人工编制摘要的操作难度大、成本高,而自动摘要可以实现对网络信息资源的有效处理。

在论文及相关资料中,一段摘要能较好地反映内容,在搜索引擎领域或混合型搜索引擎内,结果中都会出现网页的简单摘要,以此避免用户大量阅读网页内容,促进信息筛选速度有效提升。但是目前很多搜索引擎对摘要的获取主要是机械地将其中的前几句话抽取出来,这种方式准确性不足,不能真正体现网页的信息内容,也不利于搜索引擎自动摘要质量提升[7]。为解决上述问题,提升自动摘要准确性,可以在WEB文本挖掘中的文本抽取能力上下功夫,以简单形式对WEB文档信息内容进行总结,提炼WEB网页中的重要信息形成摘要。要把握摘要方法以及自然语言理解技术,对领域知识进行研究和判断,把握摘要的具体内涵,自动生成摘要。相关技术的不断发展进步,能够让用户快捷地掌握相关信息,提升检索工作效率。

三、网络信息检索中的数据挖掘技术应用

(一)内容挖掘

内容挖掘是对于WEB网页中的海量网页文本信息进行分类、聚类等处理,通过模式识别以及机器学习技术应用,实现信息检索目标,这些都是数据挖掘技术的重要组成部分。其与数据库的文本挖掘方法比较接近,是通过使用关键字的关联分析以及文档分类来从半结构化文本数据中进行知识挖掘。关联分析想要进行网页文档信息的采集,先要对其中的关键词进行把握,再将一些无用词、词根分解掉。研究关联特征的预处理方法,是通过关联挖掘算法应用,研究其中的复合关系以及非复合关系,再结合用户需要,进行字词的标记。考虑到网页中超链接包含有关页面中有很多高质量信息,可以通过抬头和导语的标记来对信息分类,这种分类方法比以关键词为基础的分析更为准确,能够提升内容挖掘的效果。

在WEB中,自动文档分类是通过将一组预先分类过的文档作为参照模拟集,再从预订的分类目录中为各个文档进行类标签的赋予,对其进行分析从而得到其分类模式。如,对Yahoo的分类中将相关文档作为模拟集,用于导出以Yahoo为基础的WEB文档的分类参照模式,从而利用这一模式对新的WEB文档进行分类[8]。

在自动摘要方面,通过数据挖掘技术应用,可以对文档信息进行摘要自动提取。在目前的网络中,文本数据也多种多样,进行文摘编制可以将各个网页文档生成的文本以及句子进行拼接改造,用合理的语句对原文意思进行表达,将关键词和词组作为骨干,从而提炼出能够反映原文内容以及结论的句子,挖掘其中的主旨和中心思想,这些操作适合摘录性或指示性文摘提取需要。在WEB自动文摘系统中,以摘录式文摘方式为主,关键依靠自然语言文本的结构识别、自动分词、候选句提取以及摘要自动生成与加工。

(二)结构挖掘

以往的网络检索工具一般将WEB作为海量文档的集合,但是对于其中的结构信息却没有引起足够的重视。结构挖掘旨在揭示蕴含在文档结构信息中的潜在注释以及有用信息。

目前的网络系统中,最典型的网页结构特征是WEB多级超链结构,很多WEB链接都提供了大量关于WEB内容相关性和质量结构方面的内容信息,能够有效体现网页之间的关联性,这实际上是为WEB数据挖掘提供了大力支持的。

通过超链中的标记文本对链接页面分类处理,可以将其中的文本以及各个网页链指针标记出来,实现相关网页之间快速切换。首先,超链中的标记文本对于链接页面有很好的概括性,还能构建不同层级网页之间的检索路径。其次,应用机器学习的方法,对网页间的超链接类型进行划分,通过对页面间类与成员的关系分析,体现网页之间的应用关系,这样一个页面可能被多次引用,表明了其重要性。对页面使用频率和次数等信息的采集,确定页面信息的重要性,再结合用户搜索引擎功能需要来进行设计[9]。最后,通过HTML结构树来对网页开展分析,以此来掌握其内部结构特征,将其应用到给定页面集合中,这样可以把握不同信息在页面中出现的概率和模式。

此外,页面的URL可以在一定程度上体现页面类型和目录结构关系。基于相关启发式规则,可以在个人主页上应用。基于目前网络搜索引擎的结构体系、搜索原理来看,关键方法是通过URL分解器来获取相关链接信息,运用相应算法进行网页等级信息获取,这体现了数据挖掘技术在网页结构分析中的应用。

四、数据挖掘技术应用前景

目前,数据挖掘技术在很多领域都有广泛应用,通过相关数据在大数据分析系统中输入,借助云计算技术,实现数据预处理,最后通过图形化流程来建模,得出输出结果,此结果可以作为信息检索以及相关工作决策制定的重要参考依据。数据挖掘技术是在海量的数据处理和分析中,总结出数据的规律,挖掘出潜在的数据信息。数据挖掘功能用于指定数据挖掘任务中要找的模式类型。一般数据挖掘任务包含两类,一类是描述,一类是预测。描述性挖掘任务是对于数据库中的数据一般特性进行挖掘,预测性挖掘任务是基于现有的数据规律进行推理,作出预测和判断。所以在数据挖掘系统中,要实现多类型的模式挖掘,适应多样化需要。数据挖掘系统需要把握相应粒度模式,为用户提供必要提示,促进挖掘有效性提升。

目前在大数据分析系统应用中,大数据分析技术还处在对表面信息提取上。而通过隐性知识整合对数据仓库中相关关联信息挖掘,将海量信息中隐藏的信息挖掘出来,并基于云计算技术的大数据分析技术应用,构建分布式并行技术系统,开展数据挖掘,可以实现在短时间内对机器集群进行任务拆分,实现多台空闲设备同时进行计算和处理,切实提升了大数据的数据处理速度和效率。借助云计算,能够为系统数据分析提供必要的挖掘模型,相关技术人员可以借助映射MAP函数内特定分块数据实现数据处理,实现数据处理效率显著提升,并将和本次数据分析中关系不大的计算集群及时排除[10]。这些技术发展和完善都将有效推进互联网信息检索业务的发展和优化。数据挖掘技术不断智能化、自动化,并且考虑到用户在数据检索中的具体需要,来融入相关智能分析和处理技术,能够让互联网信息检索引擎具备更强的人脑智力思维,从而在海量的信息检索中,真正挖掘出用户需要的信息内容,提升检索服务效率。

五、结束语

数据挖掘技术是目前大数据以及移动网络不断发展中应运而生的,可以对信息进行整合,对于不同行业、不同类型的数据进行不同方向的挖掘。在数据挖掘中,应当关注数据间的关系分析,有意识地将数据和事件联系起来。目前,大数据挖掘技术中,常用的分析方法有几种:一、关联分析法,这种分析法以特定的数据集为分析基础和对象,研究相应数据集和组之间的关系以及数据集中隐藏的潜在价值和信息;二、分类分析法,通过对于海量数据的分类,进行网络监测;三、序列分析法,主要是基于数据间的关联来对于移动终端的入侵信息进行把握,以便及时准确地找出网络故障,确保移动通信网络的优化目标实现。在互联网信息检索中应用数据挖掘技术,是突破传统信息检索模式不足的重要尝试。随着数据挖掘技术的不断优化,其在互联网信息检索中发挥的作用越来越大,在网页内容挖掘以及提取方面,工作效率和精准度都在不断提升,未来随着数据挖掘技术的不断发展优化,其在互联网信息检索中的应用范围还将进一步拓展。

作者单位:蔡红义 武汉掌游科技有限公司

参  考  文  献

[1]施水才,孙丽华.基于数字纸张的信息检索和数据挖掘技术[J].现代图书情报技术,2021(1):9-11.

[2]单冬红,史玉珍.数据挖掘技术在互联网信息检索中的应用研究[J].科技通报,2014(3):161-164.

[3]段蔓,李智峰.研谈数据挖掘技术在Web信息检索中的应用[J].信息技术与信息化,2019(5):167-168.

[4]陈春谋.大数据环境下的档案管理系统信息检索及挖掘技术分析[J].电子测试,2019(14):92-94.

[5]刘敏钰,薛鸿民.Web数据挖掘系统的设计及关键技术研究[J].航空计算技术,2015,35(1):59-62.

[6]张敬.数据挖掘及其在网络信息检索中的类型及应用[J].数字技术与应用,2022(1):144.

[7]周秀梅.基于Web数据挖掘的专业化信息检索系统研究[J].网络安全技术与应用,2019(8):70-72.

[8]宋瑞祺.Web文本數据挖掘关键技术及其在网络检索中的应用[J].山西财经大学学报(高等教育版),2017,10(z1):95.

[9]张稼,陆兴华.基于语义关联特征的大型信息管理系统数据挖掘技术[J].电子测量技术,2019,42(4):79-83.

[10]西安热工研究院有限公司.一种基于信息检索与数据挖掘加权技术的虚假消息检测方法:CN202111397797.X[P].2022(02):15.

猜你喜欢

数据挖掘技术信息检索互联网
基于Web的数据挖掘技术与相关研究
从“数据新闻”看当前互联网新闻信息传播生态
互联网背景下大学生创新创业训练项目的实施
以高品质对农节目助力打赢脱贫攻坚战
医学期刊编辑中文献信息检索的应用
基于神经网络的个性化信息检索模型研究
教学型大学《信息检索》公选课的设计与实施
公共图书馆信息检索服务的实践探索——以上海浦东图书馆为例