数据挖掘在智能搜索引擎中的应用
2020-11-29杨婧
杨 婧
如今,使用搜索引擎是获取信息的主要渠道,搜索引擎的应用十分广泛,其不仅便利了用户,同时对社会的发展也产生了极大影响。而数据挖掘技术的开发和应用进一步完善了搜索引擎功能,实现了智能化搜索,提高了搜索质量和效率。
1 数据挖掘技术概述
数据挖掘技术在各行各业中都有应用,互联网的出现也导致其应用更加广阔,使用数据挖掘原理深入挖掘网络数据,获取网络知识,使网络信息检索技术逐渐实现了智能化发展。而随着大数据技术的发展,数据挖掘技术已经成为互联网的重点研究技术。数据挖掘技术涉及的知识包括关联、广义、分类以及偏差型等知识,该技术作为人工智能发展的表现之一,基本定义就是在数据库中发现知识信息,而知识发现过程则是依据数据准备利用数据挖掘方式所得规律,最后将结构分析表达出来。在准备数据的时候,需要在数据源中提取需求信息,并将其整合为统一整体,发送到数据挖掘工具中。通过数据挖掘技术分析并解读信息潜在含义,提取关键部分,并通过关联、规则匹配数据库,通过分析处理将最终解释表达出来,便于操作人员了解信息。对于当前的信息检索环境而言,数据挖掘要求更高,用户通过数据挖掘技术解读用户检索信息,挖掘潜在含义,并匹配准确的数据库,为用户准确的提供所需信息。
2 搜索引擎概述
搜索引擎是指网页全文搜索,其记录了各个网页中的关键词,并将其存储到索引表中,用户在搜索关键词时,引擎会按照索引表只能够的关键词查找相关网页。根据信息搜索方法以及服务方式可以将搜索引擎分为3 种,分别为目录式、机器人和元搜索3 类,例如雅虎为目录式、百度为机器人式等。
搜索引擎主要分为搜索器、索引器、用户接口以及检索器4 个模块。
1)搜索器就是依据网页搜集规划,通过对运行网页调度实现自动搜索,快速有效的搜索互联网网页,并将其存储到引擎网页数据库内。一般使用的索引策略有3 种,分别为利用种子URL 进行搜索;利用网站受欢迎情况规划URLS 进行搜索;利用网站名称或编码划分WEB 空间完成搜索。
现代搜素引擎数据过于庞大,无法将用户查询与数据库直接连接进行检索,需要通过索引系统进行分析处理,这是搜索器的关键技术。当前我们使用的搜索系统是依据用户查询条件进入到索引库中展开查询,这就能够更好更快的得到结果。
2)索引器则是对搜索器搜索到的信息进行理解,从中选取索引项,并用文档和文档库索引表来表示,索引器实现了集中式和分布式两种索引算法。对于索引器而言,其关键技术就是排序和分词这两个技术。质量好的搜索引擎先要能够迅速准确的对网页内容以及用户查询条件作出理解,这就是分词技术。计算机系统开发都是由英文实现的,单位我国当前使用的软件基本都是中文版本,而中英文之间的差距导致软件功能与效率受到了影响,因此必须要根据中英文特征采用分词技术对其进行切分,确保系统能够更好的分析、理解网页内容。中文网页理解和信息的提取处理与汉字知识相关,且中国人本身独特的搜索习惯和表达形式也使得中文搜索引擎开发更加困难,这对其他语言的搜索引擎开发的应用提出了不小的挑战。
3)用户接口主要用于用户输入查询、显示解雇、提供反馈机制,便于用户采用搜索引擎进行查询,且能够及时便利的从搜索中获得更多的信息。
4)检索器则是依据用户查询检索出索引库中的信息,并评价信息及其查询信息的相关情况,将检索的结果排序,之后进行用户相关性反馈。通常采用的信息检索模型包括了集合理论、概率、代数和混合四种模型。
3 数据挖掘在智能搜索引擎中的应用
为了满足用户的精细化信息检索需求,本文利用数据挖掘技术特征设计了个性化检索系统,突出为用户提供个性化和精确化的信息检索结果。该系统是基于大数据技术设计得到的,其先对用户信息进行观察,提取用户兴趣,建立个性化的用户信息库,利用关联规则挖掘用户的访问日志,实时更新用户信息,将其兴趣文档实行聚类挖掘,进而更新用户向量表。
3.1 搜索引擎系统结构
在智能搜索引擎系统汇总应用数据挖掘技术,首先,用户会依据需求请求查询,中间数据库会进行用户查询主体模式化操作,并形成精准检索模式,根据用户个人向量表等为用户提供准确的搜索模块。其次,提供的准确搜索模块信息会提供给信息检索中心,检索中心根据提供的信息与用户兴趣相结合,过滤掉不符合用户个性兴趣的信息,传输给用户所需要的信息。
1)用户模块,为了使用户所查询的信息符合自己的要求,需要针对用户设计专门的输入模块,其中涉及了模板、关键词、词典、同义词等,该模块也是基于智能搜索引擎所建立起来的,是智能搜索引擎设计的重点。
2)最优检索模块,其是用于接收中介检索库索转化的用户请求,转变请求格式,使其能够被搜索引擎识别,根据用户关键词表判断用户的查询记录,之后系统会为用户提供相应的信息。但是,若是词表中没有该关键词,就表示用户并没有这项查询记录,系统就会自动将其归类,并将其作为属性值,可以实时添加更新。该模块用于接收用于请求,根据用户个性信息库以及搜索引擎信息库来实现最优检索。
3)关联规则模块,其位于用户及其数据库中间,主要是通过挖掘用户日志掌握用户与关键词间存在的关联规则,了解用户兴趣,更新用户关键词表。挖掘对象是将关键词作为一列,每次检索的关键词会形成一行,这就形成了用户关键词表,进而挖掘用户的潜在个性兴趣信息。
4)聚类挖掘模块,其是用于更新用户信息库内的用户向量表的。个性化搜索引擎是按照用户特征提供对应检索信息。
5)信息库模块。对于搜索引擎而言,信息库是其基础模块,信息库根据用户需求提供所需要的信息数据,该模块的构建需要具备中文名字、中文网站等。
3.2 系统关键技术
1)关联规则技术。该技术会发现数据库内各属性间关系,其首先发现频繁项目集,之后按照项目集形成关联规则,按照定义满足最小置信度阈值。
2)文档分类挖掘技术。对于智能搜索引擎而言,文档分类是十分重要的技术,其将大量文档根据主题要求归类,文档归类直接影响了搜索引擎的建立。文档归类是按照数据库信息属性来归类的,进而为用户提供更加准确的信息检索服务。但是,文档归类前需要计算文档相识度,并确保规律是合理的。
3)文档层次聚类法。本文使用的是SOM 基础上的聚类法,其具有实时性、稳定性,并具有较强的抗噪音性。该方法下,其会对中文文档进行预处理,并提取关键词,之后形成输入模式向量以及文档自组织映射。文档预处理是为了让SOM 来编码文档,以便提取更为准确的关键词,最后输入到SOM网络中实现文档的层次聚类。而就输入向量来说,利用SOM 网络实行点积运算,进而获取输出结点,这就是聚类中心。但是,在实际的运行中,需要注意SOM 由于是多层次系统,需要实行多层聚类,这在一定程度上能够减少系统计算量,提高系统运行效率,同时,用户文档还需要设计定时机制。
4 结束语
综上,随着大数据技术的信使费按照,用户也提出了更高的信息检索要求,这对于搜索引擎来说既是挑战又是机会。为满足用户的个性化信息检索需求,利用数据挖掘技术构建智能搜索引擎,提高信息检索的精准度,同时也为用户提供了更加个性化的检索服务,使得信息检索速度和质量大大提升。