数据挖掘技术在搜索引擎上的应用研究
2023-05-24李国海程潇
李国海 程潇
摘要:隨着计算机快速发展,数字化的生活和沟通方式会信息的产生与堆积产生大量的数据,为了将这些大量的数据转化成需要的、可以利用的信息和知识,便形成了数据挖掘。数据挖掘是人工智能和大数据的结合,其可以从大量冗杂混乱的信息挖掘出需要的信息。通过分析、整合、挖掘大量的数据,可以使人们更加有效地获得有用的信息,方便了企业信息流通速度,精简了商务管理的过程,使信息的获取变得高效起来。在搜索引擎上应用数据挖掘技术更可以使搜索变为极为方便简洁。文章先介绍数据挖掘和搜索引擎的概念和原理,论述了数据挖掘给搜索引擎带来的方便,为网上的用户提供了有效的查询服务,提高了搜索引擎的效率。
关键词:数据挖掘 搜索引擎 互联网 web数据挖掘
中图分类号:TP391.3;TP311.13 文献标识码:A
Research on the Application of Data Mining Technology in Search Engines
LI Guohai1 CHENG Xiao2
(1.Guangxi Minzu University, Nanning , Guangxi Zhuang Autonomous Region, 530000 China;2.Hubei Minzu University,Enshi,Hubei Province,445000 China)
Abstract: With the rapid development of computers, digital ways of life and communication lead to the creation and accumulation of information, generating a large amount of data. In order to transform these large amounts of data into the information and knowledge we need and can use, data mining is formed. Data mining is a combination of artificial intelligence and big data, which can mine the information we need from a large amount of messy information. By analyzing, integrating, and digging up large amounts of data, people can get useful information more effectively, which facilitates the speed of enterprise information circulation, streamlines the process of business management, and makes information acquisition more efficient. Applying data mining technology to the search engine can make the search extremely convenient and concise. This article first introduces the concepts and principles of data mining and the search engine, and discusses the convenience brought by data mining to search engines, provides effective query services for online users, and improves the efficiency of search engines.
Key Words: Data mining; Search engine; Internet; Web data mining
在20世纪90年代,数据库系统的大量应用、互联网技术的快速发展、硬件技术不断的更新,由此产生了大量的信息,这些信息包括图像、音频、文字、视频等,过多的信息使信息的查询、整合利用变得极为麻烦,数据库可以存储数据,对数据进行索引和查询处理等服务,但是无法高效地处理海量的数据,在这样的环境下,数据挖掘便由此诞生。数据挖掘的出现满足了用户对信息高精度、准确度、高效性的需求,同时也极大地促进了搜索引擎的发展。目前数据挖掘已是搜索引擎的关键技术之一,文章将在探讨搜索引擎的基础上,对数据挖掘进行研究,为数据挖掘在搜索引擎上的应用提出参考。
1 搜索引擎概念及阐述
1.1 搜索引擎的定义
搜索引擎(Search Engine)是指用户根据自己的需求,通过程序固定的算法从互联网中提供搜索用户所需要的信息。搜索引擎是一个交互式的寻求信息过程,在搜索过程中用户需要提供自己所要信息的关键部分,然后计算机根据所要信息的关键字等,从互联网上通过搜索程序抓取符合相关条件的信息,然后将符合的信息呈现到搜索用户面前。在搜索引擎运行的过程中需要处于联网状态,它是一种处于互联网的应用搜索工具,搜索引擎设计的目的是为用户更加方便、快捷地查找利用信息,所得到的信息不仅包括文字、图片、音频等[1]。
1.2 搜索引擎的分类
1.2.1 全文搜索引擎
通常人们生活中最常用到的搜索引擎就是全文搜索引擎,全文搜索引擎就是用户提供搜索的关键信息,然后搜索引擎根据用户所提供的信息进行搜索检查。
全文搜索引擎就是我们提供所需要的信息,搜索程序通过数据库进行相关搜索,在数据库找到相关信息,根据信息相关度与权重,将信息进行排列,然后呈现出来。通常这个权重与用户浏览量、点击量成正比,即网上用户点击越多、浏览越多的信息,在搜索与之相关的信息的时候,越容易出现在你的面前。反正点击越少、浏览越少的信息就排名越低[2]。
1.2.2 目录搜索引擎
目录,搜索引擎将网上属性相同的资源信息分类,搜索用户可以在界面通过搜索引擎已经分类好的资源逐步获得需要的信息。这种搜索引擎不需要用户的输入查询,类似于人们的视频App,将电影分类,如喜剧片、科幻片等,然后根据自己的喜好选择想要看的已经分类好的电影[3]。
1.2.3 元搜索引擎
指搜索引擎在接受用户搜索要求后,在多个不同的其他搜索引擎上进行多元搜索,并将多个搜索引擎的搜索结果按照一定规则排序然后呈现到用户眼前。
1.3 工作原理
1.3.1 信息的收集
搜索结果引擎通常会自动派出一个在网际互联网上进行收集、抓取搜索信息的应用程序,这个抓取程序一般被人们称为蜘蛛(spider)。蜘蛛搜索程序引擎会按照搜索程序中的要求周期性地获取信息,然后将蜘蛛收集的这些信息全部储存在一个搜索程序引擎的蜘蛛数据库里,在蜘蛛抓取这些信息的整个过程中,搜索程序引擎通过一个蜘蛛爬行程序搜索爬行寻找到一个网页,然后从该页的网页开始继续搜索爬行寻找到下一页的网页,一般会对某些权重高的网页优先爬行。在蜘蛛程序爬行的过程中,也会对爬行获取的内容进行重复的检查,当检查到大量重复的内容时,有可能就会停止爬行。此外,爬行程序在运到已经爬行过的网站也会停止爬行[4]。
1.3.2 索引的建立
在搜索引擎爬行结束,完成对互联网上信息的收集后,便开始对收集的信息进行处理,这个过程包括对网站信息文字与图片等信息的提取、网站类型的分类、相同内容的删除等。其中,最为复杂的是建立索引数据库,搜索引擎程序须要对所获得的信息进行提纯处理,即从大量的信息中提取网站信息的关键词,关键词是搜索引擎更具网站相关度算法,对网站信息进行大量复杂计算的结果。最后搜索程序将关键词与网页进行关联,完成最后索引数据库的建立。
1.3.3 排序
建立索引数据库后,就搜索引擎就需要给关键词与所对应的网站进行排名。排名的先后顺序与搜索引擎技术关键词与网站的相关度有关,通常情况下关联度度越高的排名位置越靠前。此外,随着网上用户的增多,网站的先后排名还与搜索用户的点击量和浏览时间有关,当一个网站的浏览量和点击量高时,其对应的排名会有所提升[5]。
2 搜索引擎上数据挖掘过程及步驟
2.1 数据挖掘
数据挖掘是指从大量复杂、不清楚、繁杂的信息中,寻到挖掘用户所需要的可以利用的信息。数据挖掘的本质是对信息的分析提取,从广泛的信息中提取出有用的信息。
2.2 数据挖掘基本步骤
2.2.1 挖掘目标与信息收集
在进行数据挖掘时需要足够信息,数据挖掘是为了处理大量数据而形成的技术,少量的数据没有挖掘的必要,有一个清楚明确的挖掘对象是数据挖掘的前提,只有清楚地知道挖掘对象,才能有效制定挖掘方式及算法,这是能够很好发挥数据挖掘作用的关键。在进行数据挖掘的时候,必须明确挖掘的具体目标,然后才能进一步了解挖掘相关知识的重点,了解挖掘信息的关键内容,制定合理的挖掘策略。再者,信息品质也会影响数据挖掘的结果好与坏,高品质的信息,会带来高品质的挖掘结果。很多错误的挖掘结果,大多是信息有误导致的。
2.2.2 数据预处理
在确定挖掘的对象后,就要开始对挖掘数据进行预处理,数据预处理是指对收集到的信息进行一个优化加工的过程。
(1)数据清理。数据挖掘就是类似从垃圾场找到有价值的东西,因为数据挖掘收集到的数据多而繁杂,甚至部分数据可能出现重复、错误等,如空缺数据、噪声数据、不一致数据。这些数据便须要将其将其清理成系统可以利用的数据。例如:将全局常量代替空缺数据,或者用评价值代替空缺数据,对含有噪声的数据用回归算法等[6]。
(2)数据集成。当一个类型的数据有多个数据源的时候,需要对信息进行一个集合处理。以笔者为例,“我的姓名:李国海→英文名字:Liguohai→广西民族大学学号:2020211255001369”,这3个信息都是指向我的一个信息,在数据的实体识别上要属于同一实体。此外数据格式不同的信息和数据冗余也要进行集合处理,例如:某些信息用“kg”来表示物体的重量,而某些信息来源用“g”或者“斤”等表示物体重量,虽然写法不同但都是重量的计量单位。
(3)数据规约。数据挖掘的执行是一件需要大量时间的计算过程,而某些大类型的数据更是需要时间。数据规约是在保证数据完整性的条件下,有条件地减少数据分析量,加快数据挖掘计算过程,而且对最终产生的结果几乎没有影响。
(4)数据变换。数据变换也称数据转换,就是将复杂或者某些不好计量的数据转换成计算机可以识别的高效利用的数据。例如:用0来表示性别为男,用1表示性别为女等。
2.2.3 数据挖掘算法设计
数据挖掘的算法设计是数据挖掘的核心,挖掘目的、挖掘领域的不同,所要用的算法也不同,对不同类型的数据要采取的挖掘算法也不尽相同,越是复杂的知识对于算法的要求也越高。
2.2.4 挖掘评估
对数据挖掘的结果进行评估,看挖掘结果是非达到预期目的,如果没有挖掘出想要的结果,需要对挖掘算法及数据进行重新设计处理,直到挖掘达到满意的结果[7]。
3 数据挖掘在搜索引擎上的应用
3.1 数据挖掘在搜索引擎上的应用方法
随着互联网的发展,数据挖掘技术的不断进步,数据挖掘也不仅局限于固定的数据库系统里进行挖掘,Web挖掘便是数据挖掘在互联网上的应用。
数据挖掘起初只是用于在固定资料上的数据挖掘,类似于人们生活中的在没有联网上的计算机系统,寻找已经储存事实上存在的资料。而随着互联网的发展,数据变得越来越多,人们对于数据的储存方式、利用方式也慢慢发生改变。在以前人们习惯将资料存储在固定的硬盘里面,科技的改革和网络的便携化在网上储存资料和寻找资料已经成为了比较普遍的现象,例如,人们日常观看的视频都是直接储存在互联网上的,不需要下载在指定的硬盘里,可以通过移动网络直接利用,对于其他资料也是如此。Web挖掘便是数据挖掘在互联网上的应用[8]。Web挖掘是面向万维网信息挖掘知识提取的过程,互联网里面包含着大量的信息,很多信息无法被用户直接识别利用,这时便需要对信息进行精练和提纯,Web挖掘便是对信息进行筛选的过程。
3.2 Web挖掘在搜索引擎的子任务
(1)资源发现:资源发现是从互联网中寻找资源,主要是搜索那些用户名难以找到与利用的有用信息,这是数据挖掘在互联网模式下的信息收集过程。
(2)信息提取:从已经寻找的资源中,进而提取到可以被人们能够理解利用的信息,这也是数据挖掘的核心部分。
(3)概括:对挖掘的信息进行系统化的转述,变成人们可以理解利用的信息资源。
总体来说,Web挖掘和数据挖掘并没有区别,Web挖掘是数据挖掘在互联网上衍生品,是将数据挖掘作用于互联网上的新技术,数据挖掘包含着Web挖掘[9]。
3.3 Web数据挖掘搜索引擎中的种类
3.3.1 Web内容挖掘
Web内容挖掘是指直接挖掘网页页面内容,以及网页后台、数据库等各个来源的信息。Web内容挖掘是从网站现有的数据内容中发现有用的信息。Web内容挖掘还可以挖掘各网站之间的结构和链接关系。Web内容挖掘有两大分类,即Web文本挖掘和Web多媒体挖掘。Web文本挖掘是对网页上的大量文本集合的内容进行总结、分析、筛选等。Web多媒体挖掘是指从多媒体数据挖掘相关的内容,着写信息包括音频、视频、数据和图像等。目前,Web内容挖掘多于Web文本挖掘,相比较Web多媒体挖掘,Web内容挖掘更加容易,使用的也更多。在内容挖掘上,可以利用文档上标题和开头提高挖掘的效率和准确性。
3.3.2 Web日志挖掘
Web日志挖掘也被称为Web使用记录挖掘,Web日志挖掘是指通过挖掘服务器上用户的使用记录作为数据源,对其进行分析作为,从中寻找到有用的信息。这些用户的使用记录不仅包含瀏览地址、页面、页面访问时间和日期、用户点击、存留时间等。在进行日志挖掘时,可以通过两种方法寻找出使用者的点击、浏览记录。一类是对日志文件进行预处理,对其进行数据挖掘;另一种是对用户点击过程进行收集分析发现其行为过程。Web日志挖掘可以在大量的样本基础上,为用户提供准确的参考信息,可以使检索的结果向大众普遍喜好的方向靠拢,对个性化搜索引擎的方向起到里促进的作用。根据日志挖掘的信息,调用个性化的搜索方式,可以有效地提高用户的搜索满意度,甚至可以根据用户提供的搜索条件和点击等为用户提供感兴趣的知识与信息等。
3.3.3 Web结构挖掘
信息使用者不仅能从网页上获取的信息,也能从超链接获得信息。超链接是有一定联系的,通过超链接用户可以更大、更广范围地寻找有用的信息。但是对于个人用户而言更想找到质量更高,更加准确和权威的信息可利用Web结构挖掘便是对网页的超链接结构进行挖掘,有用的信息不仅包含在网站页面的内容中,而且也包含在页面的链接结构之中。对于给定的网站,可以通过结构挖掘发现其中包含、引用或者从属关系。Web结构挖掘主要有以下两种方法。
4 数据挖掘在搜索引擎上的发展前景与挑战
4.1 发展前景
如今信息沟通交流方式以及极为便捷,信息储存和下载变得廉价和高效。手机电脑也由以前的奢侈品,变成人们能够普遍购买一般消费品。在此基础上,对于搜索引擎也有了更高的要求,即个性化搜索引擎。在信息化的现代,不同人的之间存在的较大的兴趣偏差、文化差异等。不同的浏览者对信息和数据的要求存在变化,从整体到个人的角度上看,用户对信息的需求是随机变化的,对于同一搜索结果,人们的满意度也是不同的。
个性化搜索引擎是搜索引擎未来发展的重要趋势,个性化搜索引擎成立的先决条件之一就是个人用户数据的保留。也就是说保留个人用户的活动信息,这点现今已经能够做到,例如:通过账号注册成为百度用户,就可以保留自己在搜索器上的活动信息,通过保留用户的活动数据,发现用户对于搜索结果的偏好,提供用户满意的结果,这便是个性化搜索引擎。
个性化搜索引擎的形成要求在数据挖掘过程中,必选全面地挖掘出各种偏差信息,以满足不同用户的差异化需求。在进行数据挖掘的过程中,加入更多的参数变化,如浏览历史、偏好、性别等,然后通过关联、分析建立相应的模型,实现针对用户的全方位挖掘。另外,还可以根据同类用户的相同需求进行关联,建立相应的关联数据库,从而优化数据挖掘的过程[11]。
4.2 未来挑战
搜索引擎诞生至今已经有着很大的进步,从前只能用文字搜索,到现在已出现图片搜索功能,但仍面临着很多调整。数据挖掘更是搜索引擎的关键技术,一个好的数据挖掘算法可以为用户更加精准地提供搜索信息。目前数据挖掘在搜索引擎上面临的挑战有以下几点。
4.2.1 数据抓取
以前的互联网只有小部分人是数据的提供者,只有一小部分人产生制作信息,5G技术的到来意味着信息更加泛滥,人人都能制作信息,小到写一篇小说,大到拍一个小视频等。这便要求数据挖掘过程中对信息收集的高效率要求,此外互联的信息是流动的,一个信息在一天前是热点,但过一段时间便会消散,要信息的权重比便因此发生了改变。因此需要时刻挖掘信息,重新排列权重比。
4.2.2 海量数据的诞生
硬件的更新换代,存储空间的不断扩大,互联网上的信息只可能不断增多。这对于信息的检索和挖掘带来巨大的麻烦,一些大型网站上面甚至有千万级别的页面,检索这些页面变得耗时、耗力。
5 结语
搜索引擎是数据挖掘集大成者,它们都有着相同的目标—为使用者寻找有用的信息,数据挖掘为搜索引擎的发展提供了借鉴的方向,是搜索引擎的关键技术。数据挖掘应用于搜索引擎上可以为搜索引擎提供更加精准无误地反馈结果,也提高了搜索引擎搜索的广度和深度。
参考文献
[1] 霍雨佳.基于大数据的数据挖掘技术在智能制造中的应用探究[J].数码世界,2019,12(2):16-17.
[2] 郑亦梁.Web数据挖掘和个性化搜索引擎研究[J].通讯世界,2016,8(5):11-13.
[3] 苗雷.Web数据挖掘技术在信息管理中的应用[J].黑龙江科学,2021,15(9):32-33.
[4] 程斐斐,王子牛,侯立铎.决策树算法在Weka平台上的数据挖掘应用[J].微型电脑应用,2015,6(6):22-24.
[5] 郭伟伟,吴文臣,隋亮.大数据时代的数据挖掘技术与应用[J].数字技术与应用,2020,10(8):38-40.
[6] 王彬彬.“互联网+”时代下数据挖掘技术在软件工程中的应用研究[J].北京印刷学院学报,2021,12(4):41-42.
[7] 刘武萍.数据挖掘技术的应用研究[J].无线互联科技,2022,10(1):3-4.
[8] 王丽丽.大数据背景下数据挖掘技术的应用[J].计算机与网络,2021,14(20):15-16.
[9] 王春明.在软件工程中数据挖掘技术的应用探索[J].科技资讯,2021,12(19):42-44.
[10] 董倩玉.基于传播学视角研究搜索引擎的发展[D].北京:北京外国语大学,2021(6):32-33.
[11] 孫雨生,李沁芸,刘阳,等.国内可视化搜索引擎研究进展:领域应用与系统实现[J].图书馆理论与实践,2018(3):14-15.