基于大数据的智能检索系统设计与研究
2021-01-13傅永梅杨冬梅陈建建
陈 锐,傅永梅,杨冬梅,陈建建
(山东华宇工学院,山东 德州 253000)
随着互联网技术和计算机技术的不断发展,大数据概念越来越深入人心。互联网信息量飞速增长,人们正处于信息爆炸时代,从庞大的信息中检索到所需的资源,这是对信息检索系统最大的挑战。提高检索系统的智能化是人们急需解决的问题之一,大数据的发展为智能检索系统设计提供了新的思路,其有利于我国智能检索技术的发展和进步。
1 智能信息检索系统存在的问题
1.1 信息资源过于分散
信息资源利用过程中存在着信息资源过于分散的问题。互联网用户为了查询所需的信息,常常浏览不同的网站,尝试各种不同的检索方式,更换各种检索关键词,这样的检索不具有系统性,无形中降低了检索效率。而大数据的使用和开发,改变了传统的信息存储习惯,云端检索的存在使得网络用户能够借助大数据检索平台将检索条件直接进行整合,提高信息检索的整体性。国内外的搜索工具多种多样,每个搜索引擎的建立基础各不相同,但是每个搜索引擎也仅能涵盖网络资源的30%左右,其中可靠的信息只占很小的一部分,具有较大的局限性。用户在网络检索中需要尝试使用不同的检索工具,才能找到自己满意的信息资源。
1.2 算法匹配紊乱
现有的检索工具大多需要用户提供足够准确的检索词,利用关键词、规则与分类让客户进行判断,但是与客户缺乏充分的互动,不能智能化地询问和猜测客户想法。大部分检索系统都是采用不同的算法来匹配不同检索词,这种匹配方式导致系统不同,匹配结果也不相同,与用户检索式息息相关。现有的检索模式是采用集中串行式检索,检索效率较低,如果在某个节点出错,会导致整个检索过程受到严重影响[1]。
1.3 人工智能检索应用性较差
人工智能简称AI,是当前最前沿的科学技术,通过模拟、延伸和扩展,可使检索系统越来越智能化,涉及社会新闻、文学知识及科学知识等学科,用户借助信息检索系统查找信息时,如果系统智能性不够,会导致信息不具有系统性和完整性。
2 基于大数据的智能检索系统设计架构
基于大数据的智能检索系统可分为以下几部分,即知识存储系统(知识库)、知识采集系统、知识处理系统及知识表达系统。
2.1 知识存储系统
知识的保存是信息检索过程中的重点建设部分,只有足够的信息存储量,才能保证信息检索过程的覆盖范围,才能体现信息检索的全面性和整体性。信息检索根据检索方式可以划分为3种,即硬件设备检索、软件检索和系统检索。硬件设备中存储的信息是所有软件和系统检索的根基,只有足够数量的存储量才能保证信息系统的完善性,为用户提供良好的服务,实现智能系统的开发和完善。知识的存储应是有序的、分门别类的,在存储过程中应重视知识间的关联性,在系统分类的基础上将知识有机关联起来,便于用户对知识的调用及信息处理。
2.2 知识采集系统
为了提高信息检索系统中知识的丰富性,应注重信息采集工作,要保证信息检索系统中的知识与时俱进,充分实现知识的更新和补充。知识采集系统主要分为书本知识采集及数据知识检索收集。书本知识采集系统是将书本信息进行扫描,以PDF、Word等数据文本形式保存,将前人的经验转为文本数据,分享给更多的人。数据采集系统主要分为以下几个过程:一是建立镜像,通过站点镜像对网站内容进行复制,将内容复制到系统中,实现采集效率的提高。二是采用智能化的信息监控系统,保证系统信息的合理性。三是对资源的智能发现,出现新的信息资源后,知识库中的信息能够与其进行交换,保证系统能够自动采集信息。四是智能信息资源的转换,将信息资源进行合理化的加工和分配,形成新的意义[2]。
2.3 知识处理系统
在大数据环境下,网络广泛普及,智能技术广泛应用,用户给软件授权后生成通信协议,可使信息检索顺利进行。例如:用户需要搜索一个信息,但用户又不太了解这个信息,智能化知识处理系统可以采用模糊处理,根据用户之前的生活习惯和检索习惯,给出与其相关的关键词,并在筛选结果中进行智能化鉴别,除去与搜索主题无关的、无用的信息,这种智能处理技术在多种搜索引擎中及大型数据库中较为常见。智能处理系统的使用虽然处于起步发展阶段,但在多个方面给人们带来了便利,如在网络管理方面,智能处理系统可以帮助用户查找到最合适的网站下载资源,推送功能可使用户找到最受大众欢迎的网站,为生产和生活提供帮助。
知识处理技术主要分为几个方面:一是信息过滤技术。进行过滤和查询,对网络垃圾、病毒等进行防范。在信息过滤技术中增加人工智能,可以使信息过滤更加灵活,体现智能化。二是图像视频检索技术(机器视觉)。将拍摄到的图像进行处理,转化为图像信号,并从信号中提取出有用的信息。提取过程中,要充分重视图像中的主要特征,根据这些特征采用计算机技术、数学分析及经验来完成目标检测、跟踪、识别和表达。三是自然语言处理技术。它是能够被人类广泛识别的语言,智能检索系统需要将自然语言处理为机器语言,进行加工后再转化为自然语言。应对自然语言加强研究,实现人与机器间的有效互动,使计算机能够准确判断出自然语言是否可信,并完成自然语言的加工和理解[3]。
2.4 知识表达系统
智能检索的优势是实现与人的友好交流,一个成熟的智能检索系统需要充分和人实现智能互动,“想用户之所想,急用户之所急”。智能检索系统不仅要将信息准确完整地搜集出来,还需要将信息科学合理地向用户进行表达,让用户能够全面了解知识。知识表达系统的建立能够更好地帮助用户进行信息划分和查询处理,挖掘出更多的信息资源,弥补过去智能处理信息的局限性,提高信息的交互性和流动性[4]。
3 结语
大数据、云计算等技术被人们广泛应用于信息检索中,为互联网发展带来了巨大的机遇,影响着人们的生产和生活。在这种情况下,智能信息检索技术改变了过去信息资源分散、算法匹配程度较差的问题,充分实现了信息检索过程的互动性和智能化,大幅度降低了用户检索过程的时间成本。基于大数据理念,应加强智能检索系统的设计工作,促进信息检索技术的进步,为数据中国发展做出贡献。